生命科学中的人工智能与分子设计

47 浏览量更新于2023-12-06 收藏 923KB PDF 举报

分子设计

递归神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

生命科学中的人工智能2（2022）100031人工智能在分子设计Fabio Urbina，Sean Ekins合作制药公司，840 Main Campus Drive，Lab 3510，Raleigh，NC 27606，美国aRT i cL e i nf o保留字：人工智能Design-make-test机器学习分子设计递归神经网络a b sTR a cT在过去几年中，任何参与设计或发现生命科学分子的人都目睹了由于COVID-19大流行，我们现在的工作方式发生了巨大变化。像人工智能（AI）这样的计算技术似乎在2020年变得无处不在，并且随着科学家在家工作而与实验室及其同事分开，应用越来越多。这种转变可能是更持久的，因为不同行业的分子设计的未来将越来越需要机器学习模型来设计和优化分子，因为它们变得“由AI设计”。人工智能和机器学习本质上已经成为是制药行业的一种商品这一观点将简要地描述我们的个人意见机器学习是如何发展的，并被应用于模拟不同的分子特性，这些特性在其实用性上跨越了各个行业，并最终表明了将人工智能紧密集成到设备和自动化实验管道中的潜力。它还将描述有多少组已经实现了涵盖不同架构的生成模型，用于分子的从头设计。我们还重点介绍了一些处于使用人工智能前沿的公司，以展示机器学习如何影响和加强我们的工作。最后我们将展望未来，并提出一些代表可能塑造分子设计未来的最有趣技术的领域，强调我们如何帮助提高设计-制造-测试周期的效率，这是目前各行业的主要焦点介绍与大多数其他科学家一样，那些参与设计或发现生命科学中商业应用分子的科学家（包括由于2020年的COVID-19疫情，我们的工作方式发生了巨大变化在大流行期间，非必要的研究被停止，许多国家的科学家被遣送回国。这导致了一个明显的工作分工，因为那些可以使用一台用于他们研究的计算机能够远程工作，而其他类型的研究则完全停止这告诉我们，如果这种流行病在未来几年继续下去，或者如果我们面临其他物理实验室准入障碍，科学研究将如何如果科学家必须远程工作，他们还能远程做实验室实验吗？也许我们会看到更多的专门建造的在化学合成领域，一些研究小组已经进行了部分或完全自动合成的实验[1尽管有这些不同类型的自动化，仍然需要科学家的存在来进行手工实验室工作然而，如果我们把这些元素我们可以将整个过程自动化并远程运行，从而使设计-制造-测试循环（图1A，B）在各个行业中完全自主。这种方法最终会成为研发（R D）实验室的标准吗？也许，就像我们今天看到的许多实验室都有自动液体分配器或机器人来完成重复性任务一样。如果是这样，那么基础研究又将何去何从在其他自动化程度较低或没有财政资源的科学领域？这些群体可能会被抛在后面。化学中设计-制造-测试循环的自动化是一个快速发展的领域，可以从其自身的重点审查中受益。此外，疫情期间的资源限制也应该让我们考虑每个实验的重要性，以及如果吸管或其他必需品等消耗品供应短缺，如何更轻松地进行研究。我们需要重新思考哪些实验是最关键的，以及如何回收和重用已经存在的数据，以确保在原始资源数据尚未被利用的情况下不会不必要地重复公共领域的生物学数据不断增长，数量已经非常庞大。其中一些很容易在PubChem，ChEMBL等数据库中访问。[7，8]或越来越多的其他存储库，如FigShare，GitHub等，而其中一些则位于较难访问的区域，如可能是付费墙的出版物或个别实验室网站上也有相当多的R& D，研究与开发; AI，人工智能; GCNN，图卷积神经网络; RNN，递归神经网络; LSTM，长短期记忆。∗ 通讯作者。电子邮件地址：sean@collaborationspharma.com（新加坡）Ekins）。https://doi.org/10.1016/j.ailsci.2022.100031接收日期：2021年12月24日;接收日期：2022年1月21日;接受日期：2022年1月23日2022年1月24日在线提供2667-3185/© 2022作者。由Elsevier B. V.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表生命科学期刊首页：www.elsevier.com/locate/ailsciF. Urbina和S.Ekins生命科学中的人工智能2（2022）100031和计算机内存。当它们供应短缺时，就像我们在当前大流行期间看到的供应链问题一样，它们可能会产生戏剧性的影响。虽然人工智能对于药物发现领域来说并不是一项新技术，但在不到十年的时间里，机器学习已经随着新架构的加入而发生了革命，例如基于注意力的模型，增加的数据集可用性和改进的硬件，减少或消除了机器学习应用的障碍[12针对这一点，近年来我们看到人工智能，特别是机器学习方法[11，15，16]在许多行业中得到应用，以至于我们认为它现在也可以被视为一种科学商品。像许多其他小组一样，我们对将计算算法应用于药物发现感兴趣，并且在过去十年中已经注意到人工智能如何变得无处不在，因为它已被应用于许多药物研究领域。这并不新鲜，人工智能和机器学习或计算方法在制药行业已经应用了几十年。机器学习现在已经成为会议上经常讨论的话题，描述人工智能应用的论文数量激增，甚至进入了大众媒体。如果人工智能被视为研发过程的重要组成部分，就像我们有合成、体外和体内、临床试验等一样，这对制药行业有影响。这也可能改变计算方法在研发过程中至少具有同等重要性这也让我们考虑到，如果机器学习变得足够重要，现在被认为是一种商品，那么它在药物发现中的应用可能是近距离和遥远的未来。也许推动这种新发现的人工智能兴趣的是，在过去几年中，我们看到专注于人工智能的公司获得了非常可观的资金，并与主要制药公司签署了大量交易（表S1）。这些公司中有几家在不同的环境中使用了机器学习，但它们都将其软件应用于药物发现项目（表1）。显然，并非所有公司都以相同的程度发布他们的技术，这可能导致他们如何使用人工智能的不透明程度。也许没有必要筹集如此多的资金来与这一成功竞争，但规模显然较小。人们已经认识到开源机器学习和化学信息学软件的产生和使用越来越多，这已经影响了商业化学信息学软件的现状[17]，并且可以用作新一代小型药物发现公司的起点。例如，可以在这种开源软件的基础上开发机器学习工具，Fig. 1. A.设计-制造-测试循环。B.一个假设的例子，说明如何将回流神经网络与机器学习模型和科学家的反馈相结合，以优化激酶抑制剂拉帕替尼。由于商业原因，公司内部无法访问的数据正是这些自动化和数据可访问性的领域，我们和其他人感兴趣的是解决，以便我们可以从现有的数据中学习。这场大流行还加速了研究的各个方面，同时表明研究领域和专业之间需要更紧密的整合它还强调了我们如何看待人工智能（AI）以及机器学习领域作为分子设计的基础技术[9- 11]，我们将在本文中进一步探讨。下一个商品商品通常被认为是生活中的基本要素，我们不得不认为这是理所当然的，不仅是食品，而且是材料（矿石），化学品，模型，以协助药物发现和XICOLOGY内部项目[18为了说明这种以最少的资金开发和应用机器学习进行药物发现的方法的潜力，我们使用了我们自己的经验，这些经验单独或结合额外的私人数据使用了项目的公共数据（表S2）。虽然这些例子主要用于药物发现，但它们可以扩展到其他行业或应用。这些模型可以越来越多地利用公众知识，以选择化合物来测试罕见、被忽视和常见疾病的靶点[22，23]（表1，表S2）。因此，通过适度的资金，执行这项工作的计算元素并建立湿实验室能力以促进体外工作来验证这些模型是可行的。在小型药物研发公司，大流行的停工证明了内部机器学习的重要性，以及公司如何与其他公司合作，更灵活地应用这些技术[22，24，25]。机器学习一直为公司提供了一种更有效地产生和测试新想法的方法，对一些人来说，这仍然被视为证据。2表1AI公司将各种机器学习应用于靶点和疾病的药物发现疾病财产疾病各种药物重新发现示例基于生物活性数据和蛋白质结构训练的模型他们得分10米活动。基于机器学习的提取以识别baricitinib。这种分子从临床试验进展到紧急FDA批准。从头生成设计基准研究使用不同算法重新发现各种药物。[64]第六十四话罕见疾病脆性X病-基因表达匹配方法，用于重新利用已鉴定的舒林酸，其拯救了Fmr 1敲除小鼠中的表型治愈X[第六十五章]纤维化DDR1激酶通过生成式机器学习发现体内验证的新型化合物医学[五十二]传染病抗大肠杆菌的抗菌药物杆菌机器学习、虚拟筛选和体外测试[第六十六话]使用并评估了各种不同的生成方法，包括纠缠条件对抗自动编码器，增强对抗神经计算机和对抗阈值神经计算机。他们要么购买与所提出的化合物类似的化合物，然后在体外测试它们对各种激酶的抑制作用，要么合成所提出的化合物并进行测试。电子医学[第六十七章][68个][69]第六十九届各种sEH、ERa和c-KIT各种IMPDH、JNK3等应用机器学习算法（随机森林或图卷积神经网络（GCNN））与DNA编码文库的比较，然后在体外验证预测。GCNN模型具有较高的命中率和效力。基于图形的深度生成模型，使用结合3D信息的门控图形神经网络创建用于组合两个片段的连接器，用于scahopping和PROTACS。分子用一系列2D和3D度量进行评估，并优于基线。X-Chem[56][70]第70话我的世界多种机器学习方法应用于搜索商业和专有库，引导优化和再利用。合作药物，Inc.见表S2F. Urbina和S. Ekins生命科学中的人工智能2（2022）100031研究领域/目标/结果公司引用卡纳万病传染天冬氨酸N-乙酰转移酶COVID-19AtomNet深度神经网络用于基于结构的药物发现，使用来自最近文献的知识图信息，使用具有低或亚工作效率的5种化合物对60种分子和60种进行体外测试。AtomwiseBenevolentAI[六十二]3F. Urbina和S. Ekins生命科学中的人工智能2（2022）1000314的hype。然而，人们普遍认为，先前的范例，如随机高通量筛选，成功率（命中率）为0.01[26]在某些情况下，完全失败。虽然有许多必须考虑的警告，我们可以考虑我们自己的预测vs。使用机器学习验证命中率，我们经常看到成功率提高10-100倍，在某些情况下甚至是1000倍。同样，为了说明的目的，我们自己的工作中的几个案例表明体外命中率为：100%（3/3，埃博拉病毒）[27]，11%（11/97查加斯病）[28]，25%（1/5，黄热病）[29]。其中一些项目是还使用体内测试进行了验证（查加斯病，5/97= 5.2%体内命中率[28]）。结合起来，这些例子展示了公司如何使用机器学习技术来创建许多分子资产，并且机器学习已被证明可以成功地预测分子命中（表1和表S2），而一个更大的公司（不使用这种方法）只能通过更多的员工和更大的金融投资来产生。虽然这一点并不新鲜，但当考虑到生成模型的出现时，它表明加速的早期药物发现管道即将到来：使用机器学习模型来指导新分子IP的生成模型，我们可以合理地期望机器学习发现/生成比过去实际筛选的更多的分子很可能，虽然这项技术还没有取代做这种药物发现研究的科学家，但我们认为它已经通过许多更有经验的科学家的智慧来增强了那些使用它的科学家。在这种情况下，应用机器学习使这些科学家能够识别和产生我们清楚地看到，2020年表明，从“想法到分子再到治疗”的途径可以越来越多地得到机器学习算法的帮助，直到它们变得相对透明，因为它们像其他类型的工具一样被接受为药物发现或设计过程的一部分。虽然这种软件可以通过开源项目免费获得，取代了以前只能在商业上获得和由专家使用的软件，但如何应用和集成这些软件对它们可能的成功或失败产生了影响。这也可以被认为是所谓的端到端机器学习的定义之一[11]。最终将这些公司与竞争对手区分开来的还有可能（表S1）是对可用基础实验数据的管理，以及确保机器学习模型的质量和有效性，这些模型构成了每家公司区分技术的基础。在大公司中，数据的持续管理可以使他们能够捕获数十年的药物发现和员工的X学领域知识，与新公司相比，他们拥有更多的知识。了解不同机器学习算法的药物发现是具有挑战性的，如果你对应用领域没有概念，就不应该去做。仍然需要一位科学家在大多数药物发现机器学习模型的循环中，然而这并不意味着我们离它们的自主使用还很远AI设计的分子的未来跨多个行业（制药、农用化学品、消费品等）的分子设计的未来将需要机器学习模型来设计和优化分子及其特性，通过完整的设计-制造-测试周期（图1）。“De- signed 虽然机器学习可用于建模和预测研发过程中产生的大多数类型的数据[11]，但这当然不限于预测生物活性或毒性终点。机器学习模型还可以在研究的不同阶段提供帮助，以帮助分子纯化，识别或定量，其中可能从未合成过分子，并且没有参考数据可用。有能力。例如，分析数据的建模输出，如光谱（MS，FT-IR，虽然从已知的分子相关数据中学习是潜在有价值的，但是超越目前已知或现有技术的内容并基于机器学习模型、生物化学性质或其他数据提出新的分子来合成是主要感兴趣的领域近年来，通过使用许多不同架构的生成模型设计和生成小分子已经有了大量的活动，例如变分自动编码器[34]，生成对抗网络[35]和递归神经网络[36]（RNN，图1，表1））[36- 41]从头产生分子[ 10，36，42-48 ]。关于更多细节，读者可以参考关于这一领域的多篇评论[49-51]。使用这些方法对所提出的分子进行前瞻性测试通常是罕见的[52]，许多人更喜欢跳过合成并找到结构相似但可从供应商处商购的化合物当这种生成机器学习模型衍生的分子最终被合成时，这通常不是以自动化或紧密集成的方式完成的，而是交给合同研究组织、合作者或可能留给其他研究人员跟进。生成方法在较大分子从头设计中的应用也相对未被探索（尽管已经开发了用于大环内酯文库枚举的其他方法[53]），但肯定有人们会认为这些公司也在探索这种机器学习方法如何帮助他们设计新的生物制剂或优化他们现有的产品。作为这一观点的测试用例示例，我们使用生成式长短期记忆（LSTM）算法，使用机器学习模型的公开数据生成具有预测胰高血糖素样肽-1（GLP-1）激动剂活性的新型肽（图2）。这表明，从算法中重新提出的分子与已知的商业GLP-1激动剂具有非常接近的结构和预测的生物活性，这将为其实用性提供一定的信心。显然，这一点的最终证明将需要合成和测试这些提出的分子，但这只是用于生成模型的一个额外领域，并且有许多治疗方式可以帮助我们探索化学和性质空间。这是可扩展的，使得在计算上可以为不同的靶标、疾病、结构障碍或分子实体生成许多这样的实例，然后优先考虑要追求的靶标或疾病。生成方法当然不是产生或优化分子的唯一方法，并且存在技术的悠久历史（基于片段的药物发现[55]、基于结构的设计、计算机辅助设计等）。其他技术，如DNA编码库，可以快速生成数十亿个可能需要机器学习模型评分的潜在结构[56]。对此类文库（或通常大量虚拟分子）进行评分的瓶颈可能是指纹（如ECFP 6）的生成及其在处理前的存储一种解决方案是使用编码为SMILES（或其他结构表示，如SELFIES[57]）的结构作为使用端到端卷积LSTM模型[58]建模的输入。当比较这些类型的机器学习算法的统计数据时，这些类型的机器学习算法可能与其他几种机器学习算法相当，这再次使用卷积-LSTM模型预测DNA编码库中的十亿个分子，这样计算就可以在GPU上进行，从而允许并行模型预测和预处理，与仅在我们内部10台GPU服务器上使用ECFP 6指纹构建的模型相比，预测生成速度提高了近50倍。虽然这是相当有限的示例，但使用SMILES的这些类型的端到端机器学习模型也已在最近与ECFP 6的比较中得到证明，用于预测F. Urbina和S. Ekins生命科学中的人工智能2（2022）1000315图二. GLP-1生成性肽设计的案例研究。A.在1554种抗菌肽的数据集上训练RNN-LSTM，并使用从ChEMBL中的数据生成的GLP-1激动剂模型对生成的肽进行评分。B.使用生成的拟定GLP-1激动剂的t-SNE图和最近邻距离进行降维。C. 将从头产生的GLP-1激动剂与商业GLP-1药物一起可视化，以说明它们在化学性质空间上接近F. Urbina和S. Ekins生命科学中的人工智能2（2022）1000316正如以前发生的那样，我们可以看到，我们现在认为理所当然的机器学习算法（例如：深度学习，基于图的方法， LSTM ，transformers等）。将被更广泛地了解和使用。我们设想，我们还将看到这些模型集成到未来几代实验室设备中。这将使这样的硬件和软件组合能够帮助分子设计，同时还基于计算预测提出和制造分子[1这也将促进紧密整合的当然，整合这些技术的需要将需要与化学信息学软件和硬件标准合作，以帮助实现这一目标这些发展结合在一起可能表明，我们离由人工智能实时指导的完整设计、合成和测试不远了（如果我们在发布时还没有实现过去，大型制药公司在相对较小的群体中应用机器学习，因此影响不大。相比之下，规模较小、较新的制药公司正在其公司中应用机器学习，并专注于测试新分子，正如我们在公开或私人数据（补充参考资料）中所强调的那样，这些数据已经显示出基于此类公司和交易估值的影响（表S1）。机器学习已被广泛应用于解决命中发现，铅优化或超越（表1和S2）。也许这种技术的最大影响将是对诸如动物健康或农用化学品等行业的整体生产率，这些行业正面临专利申请，并且已经失去了与制药公司作为其分子设计引擎的历史联系，现在需要新的分子。人们也普遍注意到，在7000种罕见疾病中，只有一小部分（几百种）有治疗方法，甚至正在进行研究[11]。虽然人工智能技术在罕见疾病中的应用很少，但这可能会改变这种动态，使公司能够在资金有限的情况下研究和发现治疗方法，人口可能被视为太少，或者投资回报率很低。同样，热带被忽视的疾病也可能受益，特别是经过数十年的研究，这些疾病的体外数据越来越多，从而为机器学习提供了一个有价值的起点，以帮助未来的药物发现工作[59，60]（表1和表S2）。从更大的角度来看，机器学习也可能是达到目的的一种手段，而这一目的就是具有所需活性的分子，这些分子最终会获得专利，以创造知识产权，然后公司将其货币化。应用于药物发现连续体的机器学习模型可以很容易地用于开发管道小分子或大分子用于未来的许可或作为风险资本投资者建立新公司的起点。如果多家公司采取类似的方法，那么它可以为他们的行业领域创造一个围绕人工智能设计的分子资产的市场。与此同时，这种基于人工智能的分子设计公司可以将这种专业知识和能力提供给其他人，以创建一个新的服务行业（合同人工智能组织）。分子相关行业之间的专业知识共享以及数据和技术的交叉融合可能是不可避免的，从而模糊了化学行业之间的界限。这些公司最终可以改进分子的设计和选择，避免与不期望的毒性相关的可能可预测的失败，这也是一个跨行业的领域（例如人类，动物健康，农业化学品和消费品），并且使用人工智能捕获的知识已经成为可能作为一个可能被过度使用的例子，对激酶抑制剂的商业兴趣和投资处于历史最高水平（到2025年将达到667亿美元），但该领域的公司尚未利用上述许多人工智能技术，如开发针对特定激酶或多种激酶并避免其他激酶的化合物的创新方法到目前为止，只有少数激酶被用作生成方法的例子[52]（表1），但它们可以用于数百种激酶，以确定最化学易处理的激酶，这在实验上是不可能的我们目前，还没有看到以激酶为重点的公司使用这种人工智能方法，相反，他们依赖于久经考验的基于结构的设计和医学化学。也许我们会看到他们转向人工智能方法，因为他们的好处继续被描述。结论总之，我们强调了几个例子，说明了AI应用于分子设计可能会影响涉及分子设计的几个相关行业，包括制药行业和其他行业。人工智能应用于新型冠状病毒药物研发[61]的潜力的可见性和意识的提高是大流行带来的为数不多的好事之一，尽管迄今为止它没有取得什么显著的成功（表1）。有趣的是，人工智能技术是否确实提高了新制药公司的长期生产力和成功，这些公司最近吸引了如此多的兴趣。我们谨慎乐观地认为，人工智能在制药行业的时代已经到来，它将产生持久的影响。虽然我们没有从这个角度提出的所有问题的答案，但我们的目标是说明最近的观察结果，即我们目前正在将这些人工智能技术视为商品。显然，应用它们仍然存在重大挑战和机遇，为未来的研究和审查留下了大量空间。还有一些伦理问题尚未得到解决，因为这些生成机器学习技术非常容易获得，以至于它们很容易被滥用，而不需要太多的基础知识。我们期待着与参与这一领域的科学家社区讨论这些和其他主题。资金这项工作得到了NIH基金的支持：来自NIGMS的R44 GM 122196 -02 A1和1 R41 GM 131433 - 01 A1，来自NC的3R 43 AT 010585 - 01 S1CAM 和来自 NIEHS 的 1 R43 ES 031038 -01 （ PI - Sean Ekins ）。“Research reported in this publication was supported by the NationalInstitute of Environmental内容完全由作者负责，不一定代表美国国立卫生研究院的官方观点。竞争利益S.E. 是老板，而F.U.是Collaborations Pharmaceuticals，Inc.的员工致谢博士Thomas R.安娜·C·莱恩Puhl和Maggie A.Z.Hupcey的许多贡献和讨论都得到了充分的认可。补充材料与本文有关的补充材料可在在线版本中找到，网址： doi ：j.ailsci.2022.100031。引用[1] OzinG，SilerT.自主化学合成。2020.https://www.advancedsciencenews.com/autonomous-chemical-synthesis/[2] 桑德森湾自动化：化学向月球发射 Nature 2019;568：577-9.[3] Porwol L，Kowalski DJ，Henson A，Long D-L，Bell NL，Cronin L.自主化学机器人在没有先验知识的情况下发现无机配位化学的规律。 Angew Chem Int EdEngl2020;59：11256-61.[4] [10] BedardAC，Adamo A，Aroh KC，Russell MG，Bedermann AA，Torosian J，et al.可重构系统，用于自动优化各种化学反应。Science 2018;361：1220-5.[5] ColeyCW，Thomas 3rd DA，Lummiss JAM，Jaworski JN，Breen CP，Schultz V，等.一机器人平台，用于人工智能规划通知的有机化合物的快速合成。Science2019;365：eaax1566.F. Urbina和S. Ekins生命科学中的人工智能2（2022）1000317[6] 贝滕豪森角人工智能和机器人技术走到一起进行合成。2020&年：98。[7] Gaulton A，Hersey A，Nowotka M，Bento AP，Chambers J，Mendez D，et al.The ChEMBLdatabase in 2017.核酸研究2017;45：D945[8] 王英，郑泰，布莱恩特SH. PubChem BioAssay：开放式高通量筛选数据共享的十年发展。SLAS Discov 2017;22：655[9] ColeyCW，Barzilay R，Jaakkola TS，Green WH，Jensen KF.有机预测使用机器学习的反应结果ACS Cent Sci 2017;3：434[10] 张文辉，张文辉.生成式自动编码器在从头分子设计中的应用。2018年[11]Ekins S，Puhl AC，Zorn KM，Lane TR，Russo DP，Klein JJ等人，EX ExploitingMachine Learning for End-to-End Drug Discovery and Development 。 Nat Mater2019;18：435-41.[12] 作者：Jiang Jiang，Jiang Jiang.神经机器翻译通过联合学习对齐和平移。2014年;arXiv：1409.0473[13] 梁明泰，范H，曼宁CD.以注意力为基础的有效方法。Neural Mach Transl2015arXiv：1508.04025.[14] Vaswani A，Shazeer N，Parmar N，Uszkoreit J，Jones L，HGomez AN，et al.Attention is all you need. 2017; ArXiv.1706.03762。[15]埃尔南德斯AI正在改变药物开发的方式华尔街日报2017.[16] 匿名特别报告：机器问题的回归经济学家; 2016年。[17]Gupta RR，Gi Gupord EM，Liston T，Waller CL，Hohman M，Bunin BA，et al.Using open source computational tools for predicting human metabolic stability andadditionalabsorption，distribution，metabolism，excretion，andtoXICITYproperties.药物代谢处置2010;38：2083[18] 张文辉，张文辉.基于HIV细胞和逆转录酶数据集的多个机器Mol Pharm 2019;16：1620-32.[19] MineraliE，Foil DH，Zorn KM，Lane TR，Ekins S.比较机器学习-预测药物性肝损伤（DILI）的算法。Mol Pharm 2020;17：2628-37.[20] Minerali E ，Foil DH， Zorn KM ，Ekins S. 用于大鼠急性经口毒性预测的assaycentral®机器学习模型的评价。ACS Sustain Chem Eng 2020;8：16020-7.[21] Lane TR，Foil DH，Minerali E，Urbina F，Zorn KM，Ekins S.一个非常大规模的生化反应器深度学习和多种机器学习算法在药物发现中的效率比较。Mol Pharm2020;18：403-15.[22] Klein JJ ， Baker N ， Foil DH ， Zorn KM ， Urbina F ， Puhl AC ， et al. Usingbibliometric analysis and machine learning to identify compounds binding tosialidase-1. ACS Omega2021;6：3186-93.[23] Anderson E，Havener TM，Zorn KM，Foil DH，Lane TR，Capuzzi SJ，等. 协同药物组合和机器学习用于脉络膜中的药物再利用。Sci Rep 2020;10：12982.[24] VignauXP，Minerali E，Foil DH，Puhl AC，Ekins S.机器学习用于发现GSK3抑制剂。ACS Omega 2020;5：26551[25] VignauXPA，Minerali E，Lane TR，Foil DH，Madrid PB，Puhl AC，et al.抗病毒药物替洛龙是乙酰胆碱酯酶的有效和选择性抑制剂。Chem Res ToX icol 2021;34：1296-307.[26] Zhu T，Cao S，Su PC，Patel R，Shah D，Chokshi HB等，虚拟筛选中的命中识别和优化：基于关键文献分析的实用建议。J Med Chem2013;56：6560-72.[27] Ekins S ， Freundlich JS ， Clark AM ， Anantpadma M ， Davey RA ， Madrid P.Machine learning models identify molecules active against the Ebola virusin vitro.F1000Res 2015;4：1091.[28] [10] EkinsS，de Siqueira-Neto JL，McCall LI，Sarker M，Yadav M，Ponder EL，et al.妈-克氏锥虫药物发现的中国学习模型和途径基因组数据库。PLoS Negl Trop Dis2015;9e0003878.[29] Gawriljuk VO，Foil DH，Puhl AC，Zorn KM，Lane TR，Riabova O等人，机器学习模型的开发和针对黄热病病毒的新抗病毒化合物的发现。J Chem Inf Model2021;61：3804[30] 放大图片作者：Shalev-ShwartzS.理解机器学习：从理论到算法北京：北京大学出版社;2014.[31] Urbina F， Batra K，Luebke KJ ，White JD， Matsiev D， Olson LL， et al. UV-adVISor ： attention-based recurrent neural networks to Predict UV-Vis spectrum.Anal Chem 2021;93：16076-85.[32] Lo AW ， Siah KW ， Wong CH. Machine learning with statistical imputation forpredictingdrug approval.哈佛数据科学评论2019年;1：1。[33] [10] SiahKW，Kelley NW，Ballerstedt S，Holzhauer B，Lyu T，Mettler D，et al.预测-药物审批：诺华数据科学和人工智能挑战Patterns（N Y）2021;2：100312.[34] Gomez-Bombarelli R ， Wei JN ， Duvenaud D ， Hernanid-Lobato JM ， Sanchez-Len-geling B ， Sheberla D ， et al. Automatic chemical design using a data-drivencontinuousrepresentation of molecules. ACS Cent Sci 2018;4：268[35] PrykhodkoO， Johansson SV， Kotsias PC，Arus-Pous J， Bjerrum EJ ，EngkvistO，et al.一使用基于潜在向量的生成对抗网络的从头分子生成方法。J Cheminform 2019;11：74.[36] Segler MHS，Kogej T，Tyrchan C，Waller MP.用递归神经网络生成药物发现的聚焦分子库。ACS Cent Sci 2018;4：120[37] GuptaA，Muller AT，Huisman BJH，Fuchs JA，Schneider P，Schneider G.勘误表：用于从头药物设计的生成循环网络2018年[38] Bjerrum EJ，Threlfall R.使用递归神经网络（RNN）的分子生成。2017; arXiv.1705.04612[39] [10]杨文，王文.基于人工智能和基于配对的多目标优化的靶向化学品库的从头药物设计。J Chem Inf Model2020;60：4582-93.[40] Winter R，Montanari F，Ste Escheren A，Briem H，Noe F，Clevert DA.连续潜在空间中的有效多目标分子优化.化学科学2019;10：8016-24.[41] [10] 杨文军，李文军 . Mol-CycleGAN ：分子优化的生成模型。 J Cheminform2020;12：2.[42] 张文辉，张文辉，张文辉.分子从头设计，深度强化学习J Cheminform2017;9：48.[43] Krenn M，Häse F，Nigam A，Friederich P，Aspuru-Guzik A.自引用嵌入字符串（SELFIES）：100%鲁棒的分子字符串表示。Mach Learn 2020;1045024.[44] 放大图片作者：Jin W，Barzilay R，Jaakola T.用于分子图生成的连接树变分自动编码器。arXiv 2019. https://arxiv.org/pdf/1802.04364.pdf[45] HochreiterS，SchmidhuberJ.长短期记忆神经计算1997;9：1735-80.[46] 桑切斯-伦格林湾 C，吉马良斯 GL， aspuru-Guzik A. 优化分子空间的分布。一个用于逆向设计化学的增强型生成对抗网络（ORGANIC）ChemRX iv 2017。https://chemrxiv.org/engage/chemrxiv/article-details/60c73d91702a9beea7189bc2。[47] WinterR，Montanari F，Ste Escheren A，Briem H，Noé F.Clevert D-A高效的多-- 连续潜空间中的目标分子优化。化学科学2019;10：8016-24.[48] 高K，阮DD，涂M，魏G-W.用于药物样分子自动生成的生成网络复合物。J ChemInfModel 2020;60：5682-98.[49] 杨文伟，杨文伟.从头分子设计与生成模型。今日药物发现2021;26：2707[50] 作者：Jiang C.可合成的新型化合物的人工智能从头设计。方法Mol Biol 2022;2390：409[51] Palazzesi F，Pozzan A.深度学习应用于基于配体的从头药物设计。方法MolBiol2022;2390：273-99。[52] ZhavoronkovA，Ivanenkov YA，Aliper A，Veselov MS，Aladinskiy VA，Aladin-深度学习可以快速识别有效的DDR1激酶抑制剂。Nat Biotechnol2019;37：1038-40.[53] 放大图片作者：Zin PPK，Williams G，Fourches D. SIME：基于合成洞察的大环内酯类化合物生成器，用于生成10亿个大环内酯类化合物的V1B文库。J Cheminform2020;12：23.[54] Castillo-HairSM，Seelig G.机器学习用于设计下一代mRNA治疗学Acc Chem Res2022;55：24-34.[55] deEsch IJP，Erlanson DA，Jahnke W，Johnson CN，Walsh L.2020年片段-铅药物化学出版物J Med Chem 2022;65：84[56] McCloskey K ， Sigel EA ， Kearnes S ， Xue L ， Tian X ， Moccia D ， et al.Machinelearning on DNA-encoded libraries：a new paradigm for hit finding.J MedChem

下载后可阅读完整内容，剩余1页未读，立即下载