MDFCL:用于分子性质预测的基于多模态数据融合的图对比学习框架
MDFCL:用于分子性质预测的基于多模态数据融合的图对比学习框架
MDFCL(Multimodal data fusion-based graph contrastive learning framework)是一个用于分子性质预测的创新框架。它通过整合SMILES序列与分子图数据,采用自适应增强策略和多模态数据融合技术,有效缓解了标记数据稀缺的问题,并在多个基准数据集上展现了出色的性能。
MDFCL框架概述
MDFCL框架主要由三个核心模块组成:图数据编码模块、序列数据编码模块和模态集成与图对比模块。这些模块协同工作,实现对分子图和序列数据的高效处理与融合。
图数据编码模块(Graph data encoding module)
该模块首先对分子图应用自适应增强策略,生成多种增强样本。接着,通过图神经网络(GNN)处理,得到图级别的表示。这种处理方式能够充分捕捉分子图中的结构信息。
序列数据编码模块(Sequence data encoding module)
该模块将分子的SMILES序列转换为分子序列数据,并进行增强处理。随后,利用卷积神经网络(CNN)处理,得到序列级别的表示。这种处理方式能够有效提取分子序列中的化学特征。
模态集成与图对比模块(Modal integration and graph contrasting module)
该模块将图级别和序列级别的表示进行整合,通过多层感知器(MLP)处理,最终得到分子表示h和投影表示z。这种集成方式能够实现多模态信息的深度融合,提升模型的表征能力。
自适应增强策略
MDFCL框架中的自适应增强策略主要针对分子的主链和侧链进行设计。具体策略包括:
- 侧链重复(side-chain repetition):通过对锚定分子的侧链进行重复操作来生成增强样本。
- 侧链生成(side-chain generation):在锚定分子基础上,引入新的侧链来构建新的分子样本。
- 主链破坏(backbone disruption):对锚定分子的主链结构进行破坏调整,得到新的分子形式。
- 主链和侧链调整(backbone & side-chain):同时对锚定分子的主链和侧链结构进行改变,从而生成新的样本。
这些策略确保了生成增强样本的合法性和对分子结构特征的自适应探索。
预训练与微调流程
MDFCL框架的训练过程分为预训练和微调两个阶段:
预训练阶段
使用未标记的分子数据库,通过分子多模态编码器处理,接着进行分子图对比。该过程旨在让模型从大量未标记数据中学习分子的通用特征和模式。
微调阶段
利用标记的分子数据库,同样经分子多模态编码器处理,进行性质预测。此步骤基于预训练的参数,针对特定任务进行优化,以提高对分子性质预测的准确性。
两个阶段之间存在参数共享,预训练的参数为微调提供基础,提升微调效率和模型性能。
实验结果
在13个基准数据集上进行了实验,包含61个二分类任务和24个回归任务。实验结果表明,MDFCL框架在分子性质预测任务上展现了出色的性能。
图1展示了MDFCL框架的完整流程:
- (a) 预训练流程:包括分子图数据编码(GDE)模块、分子序列数据编码(SDE)模块以及模态集成和图对比(MIGC)模块。
- (b) 自适应增强策略:展示了侧链重复、主链破坏和侧链生成等增强实例的构建过程。
- (c) 微调过程:对预训练模型进行微调,以用于分子性质预测。
MDFCL框架通过创新的多模态数据融合和自适应增强策略,有效提升了分子性质预测的准确性和泛化能力,为药物发现和材料科学等领域提供了有力的技术支持。