MG-BERT: leveraging unsupervised atomic representation learning for molecular property prediction预训练策略
时间: 2023-06-16 14:02:50 浏览: 425
MG-BERT是一种用于分子属性预测的预训练模型,它是基于BERT的模型。它的预训练策略可以分为以下几步:
1. 原子嵌入:使用晶体学数据库(CSD)中的晶体结构数据,从中提取原子坐标并将其转换为原子嵌入表示。
2. 无监督原子表示学习:使用Transformer编码器,对原子嵌入进行无监督的原子表示学习。通过掩码语言建模任务(MLM)和下一句预测任务(NSP)来训练模型。
3. 有监督分子属性预测:使用已知的分子属性数据集,对MG-BERT进行有监督的微调。
在预训练阶段,MG-BERT使用了与BERT类似的预训练任务,例如掩码语言建模任务和下一句预测任务。这些任务的目的是让模型学习原子之间的关系和上下文信息。在微调阶段,MG-BERT使用已知的分子属性数据集进行有监督的微调,以预测分子的性质。
相关问题
MG-BERT: leveraging unsupervised atomic representation learning for molecular property prediction的预训练任务有哪些
MG-BERT是一种基于BERT的预训练模型,用于分子性质预测。它的预训练任务主要包括:
1. 原子掩模预测(Atomic Masked Language Model,AMLM):在输入的分子中,随机选取一些原子进行掩模,然后训练模型预测这些掩模原子的标识符。
2. 原子邻接预测(Atomic Adjacency Prediction,AAP):对于输入的分子中的每个原子,模型预测其所有邻接原子的标识符。
3. 拆分分子预测(Molecule Splitting Prediction,MSP):将输入的分子随机拆分为两个子分子,然后训练模型预测这两个子分子的标识符。
4. 分子掩模预测(Molecule Masked Language Model,MMLM):在输入的分子中,随机选取一些分子片段进行掩模,然后训练模型预测这些掩模分子片段的标识符。
这些预训练任务旨在让模型学习分子结构和特征,以提高其性能在分子性质预测任务中的表现。
MG-BERT: leveraging unsupervised atomic representation learning for molecular property prediction训练详细过程介绍1000字
MG-BERT是一种基于BERT的模型,用于分子属性预测。它通过使用无监督的原子表示学习来训练模型,使得模型能够自动地学习分子中原子之间的关系,从而提高了分子属性预测的准确性。以下是MG-BERT的训练详细过程介绍。
1. 数据预处理
首先,需要从分子结构数据库中获取分子数据,并将其转换为模型可处理的格式。在这个过程中,需要考虑到原子的类型、位置和化学键信息,以及分子的二维和三维结构。
2. 原子表示学习
在MG-BERT中,使用了一个无监督的原子表示学习方法,称为Atom2Vec。Atom2Vec是基于Word2Vec的算法,它将原子序列映射到一个高维向量空间中,使得相似的原子在向量空间中的距离更近。这个过程中,使用了分子结构信息和化学键信息来生成原子向量。
3. 分子表示学习
在原子表示学习之后,使用Transformer模型对分子进行表示学习。Transformer是一种自注意力机制的模型,它可以自动地学习输入序列中的关系,从而生成表示向量。在MG-BERT中,使用了多层Transformer模型来对分子进行表示学习。
4. 分子属性预测
在分子表示学习之后,通过添加一个全连接层对分子属性进行预测。在这个过程中,需要将分子表示向量映射到一个固定的维度,并使用softmax函数对结果进行归一化。
5. 模型训练
在训练过程中,使用交叉熵损失函数来优化模型参数。在每轮训练中,随机选择一定数量的分子作为训练集,并使用Adam优化器来进行模型参数更新。
6. 模型评估
在训练完成后,使用测试数据集来评估模型的性能。在MG-BERT中,使用了平均绝对误差(MAE)和均方根误差(RMSE)来评估模型的预测准确性。
以上是MG-BERT的训练详细过程介绍。通过使用无监督的原子表示学习和Transformer模型的组合,MG-BERT可以自动地学习分子的特征,从而提高了分子属性预测的准确性。
阅读全文
相关推荐















