All SMILES VAE:分子优化的变分自编码器

需积分: 0 1 下载量 131 浏览量 更新于2024-06-30 收藏 738KB PDF 举报
"本文介绍了一种名为All SMILES Variational Autoencoder (AllSMILESVAE) 的深度学习模型,该模型旨在改进分子属性优化,从而对医药和材料行业产生重大影响。模型通过处理SMILES字符串和图基表示来定义变分自编码器,解决了SMILES字符串非唯一性和图卷积计算成本高的问题。通过使用堆叠的循环神经网络编码多个SMILES字符串,以及采用注意力池化构建固定长度的潜在表示,AllSMILESVAE能够有效地传递分子图中的消息,并学习到近似双射的分子与潜在空间之间的映射。" 变分自编码器(VAEs)是深度学习领域的一种重要模型,通常用于数据的生成和降维。在化学和药物研发领域,它们可以用来学习分子的潜在表示,以优化特定的化学属性。传统的VAE在处理SMILES(简化分子输入线路语言)字符串时面临挑战,因为一个分子可能有多种不同的SMILES表示,这可能影响模型的性能。 AllSMILESVAE由Zaccary Alperstein、Artem Cherkasov和Jason Tyler Rolfe等人提出,他们来自D-Wave公司的Quadrant组。这个模型的独特之处在于其处理SMILES字符串的创新方式。它不是仅使用单个SMILES表示,而是利用一组堆叠的循环神经网络(如GRU,门控循环单元)来编码分子的多个SMILES表示。通过这种方式,模型能够捕捉到分子结构的多样性,同时避免了SMILES字符串非唯一性带来的问题。 在编码过程中,每个SMILES字符串的隐藏状态被聚合,形成一个综合的表示。这里采用了注意力机制进行池化,这使得模型能够根据需要关注不同的SMILES表示部分,以生成一个固定长度的潜在向量。这种潜在向量可以代表分子的关键特性,而且由于解码阶段会生成分子的不同SMILES表示,因此AllSMILESVAE学会了在高概率子空间内近乎双射的映射,提高了生成新分子的效率和准确性。 通过AllSMILESVAE,研究人员可以更有效地探索分子设计空间,寻找具有理想化学属性的新型分子结构。这种方法在药物发现和材料科学中有着巨大的潜力,可以加速新化合物的筛选过程,减少实验次数,降低成本,并最终推动医药和材料行业的创新。 AllSMILESVAE通过结合多种SMILES表示并利用注意力机制,提供了一种强大且灵活的框架,以处理分子结构的复杂性。这一方法克服了传统SMILES-based VAE的局限,为分子优化和生成开辟了新的道路。