2022年生命科学中的人工智能：肽对接和MD评分的开放方案

57 浏览量更新于2023-12-06 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

生命科学中的人工智能2（2022）100044用于肽底物的对接和基于MD的评分的开放方案Rodrigo Ochoaa，a，Ángel Santiagob，Melissa Alegría-Arcosca热带疾病生物物理学，马克斯·普朗克串联小组，安蒂奥基亚大学，安蒂奥基亚，麦德林050010，哥伦比亚bDepartamento de Fisicoquímica，Facultad de Química，Universidad Nacional Autónoma de México，Mexico 04510，MexicocFacultad de Ingeniería y Negocios，Universidad de las Américas，Sede Providencia，Manuel Montt，Santiago 948，ChileaRT i cL e i nf o关键词：肽对接分子动力学a b sTR a cT从实验和计算的角度来看，蛋白质-肽相互作用的研究是一个活跃的研究领域，最新的挑战是建模和模拟肽的内在弹性。预测蛋白质系统（如蛋白酶）的特性对于理解相互作用的特异性和支持新底物的发现至关重要。在这里，我们提供了一组计算协议，从结合的角度对蛋白质-肽复合物进行结构和动力学分析。各项议定书基于最先进的方法，但代码是开放的，可以根据用户需求进行定制。这些包括片段生长肽对接协议，以预测可降解肽的结合构象，一个从蛋白质-肽分子动力学轨迹中提取描述符的协议，以及一个构建和测试机器学习回归模型的工作流程。作为一个玩具的例子，我们应用协议的丝氨酸蛋白酶结构与一组已知的肽底物和随机序列，以说明使用的代码，这是公开的：https://github.com/rochoa85/Protocols-Peptide-Binding1. 介绍肽底物的空间排列对于预测与其分子靶标的潜在相互作用很重要[1]。肽的分子对接研究有助于部分克服预测这些高度可预测的分子实体的结合构象的挑战[2，3]。在这个意义上，已经发表了多种方法来解决这个计算问题[4]。其中，使用对接策略的方法，其中肽逐步生长，可以帮助解决可降解性问题，同时保持预测与潜在生物活性相关的能量有利构象的能力[5，6]。这些复合物可以使用分子动力学（MD）等技术进行采样，其中氨基酸力场参数可以用于研究肽及其相互作用[7，8]。与实验技术相比，其他工具可用于预先预测肽的可能结构构象[9，10]。为了评估肽的结合亲和力，已经提出了多种策略来捕获它们的分子亲和力。这些包括增强的采样方法[11]，炼金术自由能扰动[12]，或能够探索系统潜在表面能的技术。其他方法基于使用分子力学泊松-玻尔兹曼表面积（MM/PBSA）方法的隐式溶剂计算[13]，并有可能使用量子计算。催化残留物的半经验理论[14]。在任何这些情况下，需要大量的计算资源来再现肽作为配体的结合景观。一种选择是使用分子对接中使用的评分函数对MD轨迹的代表性帧进行评分，并计算可与结合亲和力相关的热平均值[15]。另一种方法是使用机器学习方法从MD轨迹和分子描述符预测任何响应变量，例如响应曲线[16，17]。如今，基于物理的方法与机器学习模型的结合有助于降低运行穷举模拟的计算成本，并提高经典方法的预测性能和可用的策划数据[18]。这是使用用预先计算的参数训练的模型来加速量子化学计算的新方法的情况[19]。在MD的背景下，报告了从轨迹中提取描述符并将其与来自分子实体的额外化学数据相结合的举措。这是分子动力学指纹包（MDFP）[20]的情况，其中一组分子指纹可以通过从MD模拟中获得平均能量项和可观测值（如溶剂可及表面积、偶极矩、回转半径和氢键演化）来计算。最新的已被应用于预测小分子的溶剂化自由能[21]，以及涉及蛋白质的结合研究[22]。该方案可以适用于包括肽作为配体用于虚拟筛选研究∗ 通讯作者。电子邮件地址：rodrigo. udea.edu.co（R. Ochoa）。https://doi.org/10.1016/j.ailsci.2022.100044接收日期：2022年6月30日;接收日期：2022年9月30日;接受日期：2022年10月12日2022年10月20日网上发售2667-3185/© 2022作者。出版社：Elsevier B.V.这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）可在ScienceDirect上获得目录列表生命科学期刊首页：www.elsevier.com/locate/ailsciR. Ochoa，P. Santiago和M. 阿莱格里亚阿尔科斯生命科学中的人工智能2（2022）1000442假定预测模型可以方便地避免运行过度的仿真。在这篇文章中，我们提出了一组开放的Python脚本来运行本地不同的计算工作流，这些计算工作流受到已发表的肽建模方法的启发，例如使用片段生长对接协议预测结合肽构象的肽对接，以及从蛋白质-肽MD轨迹捕获描述符的例程，以便预测可观察值，例如平均得分值。我们提供了开放源代码来重现主要协议，具有较小的差异，并且不需要访问Web服务器。作为玩具实例，将已知底物和随机肽序列的文库对接到颗粒酶B蛋白酶，其中每个复合物经受短MD模拟。然后，计算每个复合物的一组描述符，以生成能够以足够的准确度预测结合可观测值的回归模型。对于该实施例，我们示出了在方法中解释的某些条件下的一些模型的性能，但是如果使用其结合位点的先前知识选择蛋白质靶，则用户可以改变这些变量，以及可以用于使用机器学习方法将结果外推到新的化学空间中的肽底物的存储库中提供了运行示例和安装执行分析所需的第三方模块的说明2. 方法2.1. 定制和系统要求Python 3脚本可以在公共存储库中找到：https：//github.com/rochoa85/Protocols-肽结合。该代码是根据MIT许可证提供的，用于学术和开发目的。该项目分为三个文件夹。第一个允许以蛋白酶受体为例运行片段生长对接协议。第二个提供了脚本，以提取功能的蛋白质肽MD轨迹与MDFP包。此外，PepFun程序用于根据肽序列和结构计算描述符，如下文第2.5节和补充表1中所述。最后，第三个方案提供了一个脚本来配置和运行回归模型，以基于获得的描述符预测评分/评分值。一个例子与蛋白酶和一组肽在这项工作中评估包括在代码中。所有的类和函数都是在Ubuntu 20.04操作系统下编写的。其他第三方工具（参见补充表2）可以通过使用最新版本的可用源代码或通过Conda虚拟环境安装。2.2. 片段生长对接法作为一个开放源代码的替代对接在蛋白质结合位点的可变肽，我们提供了一个协议的基础上的核心肽片段到蛋白质结合位点的增量增长，保持在新的氨基酸被添加到肽测序区域后的一定程度的不稳定性。该方法受到DINC 2策略的启发[23]。该方法包括以下步骤：（i）对应于作为输入给出的感兴趣的肽的中心部分的3- mer肽片段Modeller的环重建模块用于使用Python模块从氨基酸序列生成该起始3聚体片段，其可以容易地并入对接方案中[24]。使用PDB2PQR生成蛋白质和肽3D结构的质子化状态[25]。（ii）使用具有标准参数的Autodock Vina将片段对接在蛋白活性位点中[26]。该位点是根据先前对蛋白质的了解来定义的，它是由结合位点中心的网格搜索框来界定的，该网格搜索框在肽序列生长后会增加其大小。初始片段的所有旋转键都是活跃的。(iii)从初始对接开始，使用三个最佳姿势（即最佳Autodock Vina评分）作为起始点，以在氨基酸序列的每个对接区添加氨基酸。肽。以这种方式，从三个不同的初始对接构象生成三个解决方案。为了添加测序氨基酸，旋转异构体是用Modeller预测的，使用与蛋白质结合的结构的其余部分作为模板。每一个新的氨基酸和它们旁边的氨基酸的键都(iv)最后，新的片段被对接，并且选择三次电泳运行中每一次的最佳姿势以重复生长过程，直到肽达到其最终大小。该方法本质上是由Autodock Vina本身和Python的多处理模块并行化的。2.3. 蛋白酶-肽系统使用我们的片段生长方法对颗粒酶B蛋白酶（PDB id 1 iau）进行基准/验证对接运行[27，28]。根据MEROPS数据库[29]，这是来自亚家族S01.010的丝氨酸蛋白酶。已经报道了针对该酶的多种肽底物。基于过滤实验非冗余切割底物，从MEROPS数据库中选择了总共513个8聚体序列为了包括用于预测目的的一组外部肽，用PepFun包产生365个随机序列[30]并对接到相同的蛋白酶结构。使用相同的8聚体长度产生序列，每个位置具有均匀分布的氨基酸，并且不保留肽切割位点上的优势残基。为了评估我们的片段生长对接方案的性能，使用以下服务器对与具有扩展构象的肽结合的一组报告的蛋白酶结构进行肽的重新对接计算：HPLPro[31] 、 Haddock[32] 、 HPEP- Dock[33] 、 MDockPep[34] 、CABSDock[35]和DINC 2[23]。为了评估性能，我们通过骨架原子上的RMSD计算将预测的肽与晶体构象进行了比较。所研究的复合物具有PDB ID 1ou8、2XX n、3qdz、3tdz和6di8，并且它们都与范围内的8至15个氨基酸的肽共结晶。用PEP-FOLD[36]生成用于在每个服务器处重新对接的完整肽输入构象，除了CABSDock和MDockPep，它们都生成肽结构输入。为了补充评估，我们纳入了PDB中提供的一组10种额外的蛋白质-肽复合物，并基于LEADS-PEP数据集进行策划[37]。所选择的肽也以扩展构象结合。使用相同的对接服务器，并且还计算用于蛋白酶的RMSD评估度量在所有情况下，结合位点残基或结合位点网格都是特定的，这取决于Web服务器的要求。2.4. MD模拟使用Gromacs版本5.1.4对与我们的方案对接的每个颗粒酶B-肽复合物进行MD模拟[38]。在平衡和生产阶段使用Amber 99 SB-ILDN蛋白力场[39]、TIP 3 P水模型[40]、改良的Berendsen恒温器[41]和Parrinello-Rahman恒压仪[42]该复合物在一个立方体的水与周期性的边界，在距离至少8埃的蛋白质的任何原子的溶剂化。溶剂中含有Na+和Cl−的抗衡离子，使BOX呈中性。使用粒子网格埃瓦尔德（PME）方法计算静电相互作用，使用1.0 nm短程静电和van der Waals cutos[43]。使用蛙跳积分器[44]求解运动方程，时间步长为2飞秒（fs）。平衡包括100皮秒（ps）的NVT系综，随后是100 ps的NPT。然后在10 ns期间运行生产NPT模拟。使用轨迹，实施MD/评分方法以使用来自轨迹的所有帧来计算平均分数。具体而言，对于每个MD模拟，应给予相互作用评分：使用Autodock Vina评分功能（与片段生长对接方案中使用的相同）对每个帧进行评分。R. Ochoa，P. Santiago和M. 阿莱格里亚阿尔科斯生命科学中的人工智能2（2022）1000443˚并且存储来自轨迹的所有帧的平均值，并在以后的阶段使用，用于生成能够预测新肽序列的相同变量的回归模型。2.5. 描述符提取基于用Gromacs进行的颗粒酶B-肽MD轨迹，对MDFP工具库[20]进行调整并用于提取一组蛋白质-肽MD衍生的描述符（https：//github.com/rinikerlab/mdfptools/）。每个描述符被分成三个位置（向量），其包括MD帧之间的计算属性的平均值、中值和标准偏差值。为了实现这一点，使用Gromacs重新运行计算的MD轨迹，以在每帧的输出这些包括肽、受体和水分子之间的库仑和其他包括的描述符是SASA和回转半径，用ParmEd模块计算的电荷[45]，用MDtraj模块计算的偶极矩和氢键的演变[46]，以及使用PepFun软件包的肽的生物信息学性质。计算每个复合物总共70个描述符。完整的清单见补充表S1。主代码中包含两个脚本，一个使用bash命令行，另一个用Python编写，用于提取这些描述符。每个复合体的向量作为pickle对象存储在文件夹中，稍后可以由机器学习模型读取。在代码库中提供了一个蛋白质-肽MD轨迹的示例，以重现结果。2.6. 机器学习模型设置和测试最后，为了测试从MD框架获得的平均得分的预测性能，使用颗粒酶B系统确定了两个回归模型。这些模型是一个基本的线性回归模型，以及一个具有500个估计量和0.01学习率的梯度提升回归器。这两个模型都是使用Python中的scikit-learn模块准备的[47]。对于初始训练验证，将513种肽底物的集合分成75/25方案（即75%的肽用于训练，25%用于测试）。这是使用最大化学多样性函数进行的，其中训练集和测试集都包含最大数量的不同化合物，以避免使两个化学空间产生偏差使用ECFP 4 Tanimoto系数[48]量化化学相似性，并使用RDKit中的MaxMin算法计算模型的R2决定系数和均方误差（MSE）在梯度提升回归模型的情况下，分析了训练集和测试集的偏差，以及特征和排列的重要性在初始评估之后，使用513种肽底物训练最终模型，并使用365种随机序列应用。计算相同的R2和MSE指标以验证模型。代码中还提供了一个脚本，用于配置和运行蛋白酶-肽轨迹的预测。对于这个例子，我们添加平均分数作为每个肽的预先计算的变量，以用作模型输出。然而，用户可以选择任何接近度值作为响应，这主要是在运行这种计算需要苛刻的计算时间和资源的情况下进行的。3. 结果和讨论以蛋白酶（颗粒酶B）系统为例，应用涵盖肽对接和评分分析的三种方案。在下一节中，我们将讨论它们的实现，并提供有关它们在其他应用程序中的使用的见解。表1从PDB中选择蛋白酶-肽（灰色）和LEADS-PEP蛋白-肽复合物，以评估片段生长肽对接方法。PDB ID肽序列ProtocolRMSD（A）1ou8格赫冈登尼3.22XX nSVWIPVNEGASTSGM4.83qdzTPSILPAPR4.13tPTSYAGDDS2.76di8CGVPAIQPVLSGL3.91elwGPTIEEVD2.41ntv公司简介2.92b9hRRNLKGLNLNLH3.62w0zAPPPRPPKP2.22w10PPPRPTAPPKPLL3.42X fXVGYPKVKEEML4.23ch8PQPVDSWV2.23obqPTPSAPVPL4.14btbPPPPPPP2.04eikSLARRPLPPLP3.53.1. 肽对接方案高弹性分子的对接是一个活跃的研究领域，有不同的软件可用于该目的。这包括FlexPepDock[49]、GalaxyPepDock[50]和DynaDock[2]等包，它们使用不同的计算策略和评分函数来预测精制蛋白质-肽复合物。然而，这些方法中的大多数都可用作公共Web服务器，其中代码不可用，或者作为开放管道的一部分，要求先前对初始模板进行详尽的在我们的情况下，对接协议实现了开放源代码软件以将肽对接在蛋白质结合位点，处理肽的固有可伸缩性，并且允许在用户不仅想要修改参数而且想要修改协议的实质部分的我们提出的工作流程总结在图中。1.一、该方案的一个目标是包括分子（在这种情况下是肽）的可降解性，但是在每次迭代之后逐渐地。肽的内部旋转键首先被确认为是可伸缩的，但是在增长了重排区域之后，先前步骤的最佳构象保持刚性以减少计算时间，允许新片段基于刚性选择的模板和可伸缩的新重排氨基酸探索最佳姿势。该方案受益于Autodock Vina和辅助程序中可用的多线程架构，以模拟肽中的其他氨基酸，根据系统要求进行质子化，并基于已知的结合位点和可用的生物背景定制肽。为了验证蛋白酶的协议性能，我们首先选择了PDB中可用的五种蛋白酶-肽复合物的数据集。通过考虑属于不同家族且具有环结构的长于8个氨基酸的完整肽底物来选择肽。一个优点是结晶结合构象的可用性，以通过RMSD值比较对接结果。我们还使用肽对接的替代方案进行对接此外，我们使用LEADS-PEP数据集中可用的一组10种蛋白质-肽复合物进行了类似的对接分析和RMSD计算我们的片段生长方案的肽RMSD总结见表1。我们发现，我们的方案预测肽构象的RMSD值低于5 A的蛋白酶包括在基准，并发现类似的性能与额外的蛋白质-肽复合物中报道的LEADS-PEP数据集。一般来说，再生可降解主链构象是一个研究主题，可以通过使用MD和其他技术对构象空间进行采样来补充，这就是我们的管道的情况进行肽对接的其他方法也类似，在某些情况下，R. Ochoa，P. Santiago和M. 阿莱格里亚阿尔科斯生命科学中的人工智能2（2022）1000444Fig. 1. 蛋白质-多肽片段生长对接方案的工作流程。(A)该方案强调了初始片段的选择、对接以及通过在测序区域中添加氨基酸来迭代扩展结构。流水线使用三个起始停靠片段来并行增长序列。得分最高的最终复合体可用于进一步的采样步骤。蓝色部分描述了扩展步骤，绿色部分描述了对接和排名，橙色部分是协议输出。(B)一个肽片段的例子，以及它是如何通过测序区域扩展的。（丙）经过片段生长对接方案的肽的进化的快照。初始片段（绿色）由肽的每个双链部分（黄色）的单个氨基酸生长。在每一步之后，停靠的部分保持刚性，而新添加的部分被确认为可伸缩的。快照表示对接方案的生长步骤，直到完成完全结合的肽。更好的结果，但缺点是只能通过Web服务器访问在外部程序中，值得一提的是，Haddock Pro和Haddock是刚体对接方法，其结果取决于肽的初始构象。这意味着，如果输入的结构与晶体结构。与前两种情况不同，HPEPDock和DINC 2分别通过嵌入式对接或基于片段的对接允许肽结构中的隐含可折叠性MDockPep和CABSDock可以从肽的序列建模和对接肽的结构我们的脚本中提供的对接协议受到DINC 2方法的启发[23]，围绕代码的并行化，候选人的选择以及肽片段作为输入文件的要求进行了讨论，这些都在我们的协议中建模在DINC 2的情况下，生成更多的并行运行以从一组解决方案中选择候选者在我们的情况下，我们提供了三种最终的蛋白质-肽复合物，其可以基于预测的得分或构象位姿进行过滤。运行次数可以由用户在代码中更改。在评估性能方面，限制之一与肽的大小有关，如在我们的情况下。具体而言，尺寸越大，构象自由度越大，如表1中具有较高RMSD值的较大肽所示。外部肽对接服务器的RMSD报告见补充表S3。差异蛋白预测可以与肽的初始构象相关在我们的对接方案中，肽输入构象异构体被预测，或者来自结构复合物的结晶片段可以直接用于生长完整的肽序列。另一方面，用于服务器的输入是用PEP-FOLD生成尽管不能准确地再现晶体结构，但我们的方法可用于筛选大量可按建议进行精制的配体。此外，我们使用一个蛋白质-肽系统作为参考（PDB id1bx 2），比较了我们的方案与Autodock Vina本身的计算效率。我们发现，我们的方法可以在Vina与24个CPU核心所需的一半时间内运行对接，并且当单独使用Vina时，最终对接姿势在晶体结构方面不太准确（参见补充图10）S1）。对于颗粒酶B系统，我们将878个肽对接在晶体结合位点，其中513个是已知底物，其余365个是用PepFun产生的随机序列。在将所有底物和随机肽序列对接到颗粒酶B系统后，我们遵循流水线，其中每个复合物经受MD模拟，并提取一组描述符以构建预测机器学习模型（图1A）。 2A）。最新的是重要的，因为它是困难的探索构象空间使用经典的对接协议。这可以通过使用MD、Metropolis Monte Carlo以及其他采样技术对复合物进行细化或采样来覆盖。我们的协议产生短的轨道系统与MD平衡模拟的10 ns，这是一个合适的时间，大规模的虚拟屏幕，R. Ochoa，P. Santiago和M. 阿莱格里亚阿尔科斯生命科学中的人工智能2（2022）1000445图二. 以颗粒酶B系统为例对所提方案进行了验证。(A)蛋白酶结构和应用过程中遵循的一般流程的表示。(B)10 ns模拟后获得的MD快照的重叠。(C)一个蛋白酶-肽轨迹的平均得分示例。连续的线是累积平均值。为了在拟合过程中发现的相同最小值内增加构象变异性（图2 B），因此通过对每个帧进行评分并将其平均为近似构象响应，在统计学上提高了预测得分（图2 B）。 2 C）。3.2. 模型描述符根据所有878种肽（513种底物和365种随机序列）的MD模拟，计算70种先前描述的描述符（参见方法）用于机器学习（ML）设置并选择其作为自变量。选择从MD模拟获得的每种蛋白质-肽复合物的平均Autodock Vina评分作为回归模型中预测的因变量。这种组合MD/评分方法在过去已经实施，以过滤与实验数据一致的候选人[51，52]。然而，用户可以运行更详尽的自由能计算来预测能量，或者包括实验值（如果有），以便证明了回归模型的设置能够预测能量，仅使用基本的MD模拟。这减少了所需的计算资源，并提供了一种混合MD/ML方法，可以更有效地进行大规模分析，如蛋白酶新底物识别[53]。所提供的示例是说明性情况，其中通过准备能够预测特定MD相关可观测量的模型，从MD模拟捕获信息可以允许减少预期模拟时间。这意味着来自MD轨迹的信息可以在使用基于MD的描述符训练的ML模型中捕获，或者如果实验值可用，则可以使用相同的基于MD的描述符生成和补充描述性模型。为了可视化这70个描述符如何分布在所包括的序列中，一些特性的直方图在补充图中示出S2. 我们还绘制了平均分数的分布，以评估示例中要预测的度量的可变性，这适用于机器学习应用（补充图S3）。建议的模型的摘要如图所示。 3.3.3. 机器学习模型性能作为一个简单的例子，我们提供了一个简单的分析，使用上一步计算的描述符训练和测试回归模型目标是说明一种运行分析的方法，但用户可以选择基于系统和可用数据定制协议，以构建自己的模型。对于这个应用程序，基于定义的描述符集，我们使用513肽底物作为回归模型，训练了两个回归模型R. Ochoa，P. Santiago和M. 阿莱格里亚阿尔科斯生命科学中的人工智能2（2022）1000446图三. 整体机器学习策略。这包括基于采样底物和随机对接肽的训练和测试数据集的定义。的MD模拟和肽的内在特性用于提取一组描述符，以将其用作预测回归模型的输入训练集，365个随机肽作为测试集。然而，对于513种肽，我们使用最大化学多样性分析对所包括的肽进行了75/25训练/测试方案（参见方法）。该分析的主要回归指标见补充表S4。使用平均分数作为输出变量的最终训练和测试的结果如表2所示。一般来说，我们观察到线性回归模型的性能更好然而，在这两种情况下，性能都是可接受的，R2值超过0.7。特别是，梯度提升技术使我们能够在每次迭代中可视化结果的偏差，并检查哪些特征对预测的贡献最大（图1）。 4）。关于特征，最相关的是那些来自蛋白酶-肽能量项的特征，包括库仑和Lennard-Jonnes平均和中值描述符。还突出了一些基于配体的特征，一个额外的排列重要性表2用肽底物训练并用随机肽测试的梯度增强回归量和线性回归模型的回归性能。度量与使用测试集的预测相关联。度量梯度提升线性回归均方误差（MSE）0.1950.075Pearson相关0.8770.947R20.7210.892对最相关的变量进行了分析，得到了类似的结果用于重现两个模型的训练以及生成梯度提升相关数据的协议在代码库中可用。R. Ochoa，P. Santiago和M. 阿莱格里亚阿尔科斯生命科学中的人工智能2（2022）1000447见图4。梯度提升回归模型偏差和特征重要性。(A)训练集偏差为蓝色的模型的偏差演化和测试将异常设置为红色。（B）特征重要性，红色方块中提到的模型的前5个特征3.4. 技术考虑这些协议是在Ubuntu 20.04操作系统下设计的但是，该项目可以安装在任何Conda虚拟环境中，并具有所需的依赖关系。对于docking协议，它依赖于对bash命令的调用，这些命令最初是在Linux环境中测试的。所有的工作流程都依赖于第三方工具的添加，这些工具也是开源的，但需要在项目实施的本地机器上构建源代码。我们提供的对接方法是一种有监督的方法，最初是由一个将表位对接到MHC II类结合位点的本地项目所激发的[54]。这意味着，不是提供盲对接策略，其中结合位点是不确定的，而是需要用户基于蛋白质和结合位点的先前知识来定制过程，以便将分析集中在管理肽固有的可折叠性和再现合理的结合构象上。为此，应根据所需的大小分配网格搜索空间必须提供一组已知的结合位点坐标来对接初始肽片段，这可以确定起始点以生长结合的肽结构。我们建议，如果存在结晶的蛋白质-肽复合物，则应考虑将直接从参比复合物中获得的三肽用于片段生长对接方法，以改善结果。最后，我们建议运行MD模拟的参数，但用户可以根据自己的需要配置它们唯一的要求是使用Gromacs进行计算。4. 结论肽如何与其他分子实体相互作用的计算研究对于加速具有更好性质（包括它们的构象）的新序列的设计至关重要。在这项工作中，我们提供了三个开放的协议，可以实现任何感兴趣的蛋白质-肽，但在颗粒酶B系统的背景下与可用的生物学和结构知识为例。该协议允许通过基于片段的对接分析大量肽底物以及分子的MD取样和评分代码是开放的，可以修改以适应用户需求，添加新类型的预测和模拟，并自动化管道以实现虚拟筛选目的。数据可用性的代码，例如，和指令到运行的Protocols-Peptide-Binding可在www.example.com上公开获得https://github.com/rochoa85/。竞争利益作者声明，他们没有已知的竞争性经济利益或个人关系，可能会影响本文报告的工作。致谢计算是在Max Planck tandem group的本地服务器上使用NVIDIATitan X GPU 进行的该项目由哥伦比亚 Ruta N 的安蒂奥基亚大学Minciencias和德国Max Planck学会资助补充材料与本文有关的补充材料可在在线版本中找到，网址： doi ：j.ailsci.2022.100044。引用[1] 放大图片London N，Raveh B，Schueler-Furman O.肽结合的肽对接和基于结构的表征：从知识到诀窍。 Curr Opin Struct Biol 2013;23 ： 894-902. doi ：10.1016/j.sbi.2013.07.006。[2] 安特岛DynaDock：一种新的基于分子动力学的蛋白质-肽对接算法，包括受体可互换性。Proteins 2010;78：1084-104. doi：10.1002/prot.22629。[3] Florez AM，Suarez-Barrera MO，Morales GM，Rivera KV，Orduz S，Ochoa R，Guerra D，马斯库斯角对苏云金芽孢杆菌cry11与X的x活性进行了分子模拟和对接模拟。FrontMicrobiol 2018;9：2461.doi：10.3389/fmicb.2018.02461。R. Ochoa，P. Santiago和M. 阿莱格里亚阿尔科斯生命科学中的人工智能2（2022）1000448[4] [10]王志，王军.蛋白质-肽复合物的十四种对接程序的综合评价。J Chem TheoryComput 2020;16：3959-69. doi ：10.1021/acs.jctc.9b01208。[5] Unal EB，Besray Unal E，Gursoy A，Erman B. VitAL：用于从头肽设计的维特比算法。PLoS One 2010;5：e10926.doi：10.1371/journal.pone.0010926。[6] Antunes DA，Devaurs D，Moll M，Lizée G，Kavraki LE.肽的一般预测使用增量对接的MHC结合模式：概念验证。Sci Rep 2018;8. doi：10.1038/s41598-018-22173-4。[7] Ochoa R，Laio A，Cossio P.通过评分分子动力学模拟预测肽对主要组织相容性复合物 II 类的亲和力。 JChemInfModel2019;59 ： 3464-73.doi ：10.1021/acs.jcim.9b00403。[8] Ochoa R，Soler MA，Laio A，Cossio P.评估计算机模拟突变的能力用于预测氨基酸的有限温度构象的协议。Phys Chem Chem Phys 2018;20：25901-9.d o i ：10.1039/C8CP03826K。[9] Kamenik AS，Lessel U，Fuchs JE，FoX T，Liedl KR.肽大环化合物-构象取样和热力学特性。J Chem Inf Model 2018;58：982-92. doi：10.1021/acs.jcim.8b00097。[10] 严毅，张丹，黄世英.高效的蛋白质构象系综生成结合肽。J Cheminform 2017;9：59.doi：10.1186/s13321-017-0246-7。[11]Rastelli G，Pinzi L.对虚拟筛查结果进行细化和重新评分《前沿化学》2019;7：498。doi：10.3389/fchem.2019.00498。[12] Chodera JD，Mobley DL，衬衫MR，DiX on RW，Branson K，Pande VS.药物发现的炼金术自由能方法：进展与挑战。 Curr Opin Struct Biol 2011;21 ：150doi：10.1016/j.sbi.2011.01.011。[13] 作者：J. MM/PBSA和MM/GBSA两种方法用于估计[29] Rawlings ND，Morton FR，Kok CY，Kong J，Barrett AJ. MEROPS：肽酶数据库。核酸研究2007;36：D320-5。doi：10.1093/nar/gkm954。[30] Ochoa R，Cossio P. PepFun：用于肽相关计算分析的开源协议。26.第26章大限将至d o i ：10.3390/molecules26061664。[31] Kozakov D，Hall DR，Xia B，Porter KA，Padhorny D，Yueh C，Beglov D，Vajda S.用于蛋白质-蛋白质对接的P2P Pro网络服务器。Nat Protoc 2017;12：255-78. doi：10.1038/nprot.2016.169。[32] 放大图片作者：John M，John M.用于数据驱动生物分子对接的HADDOCK网络服务器。Nat Protoc 2010;5：883doi：10.1038/nprot.2010.32。[33] 周平，金波，李宏，黄世炎. HPEPDOCK：一个用于盲肽-蛋白质的Web服务器基于分层算法的对接。核酸研究2018;46：W 443 -50。doi：10.1093/nar/gky357.[34] 徐X，严C，邹X. MDockPeP：从头开始蛋白质-肽对接服务器。J Comput Chem2018;39：2409-13. d o i ：10.1002/jcc.25555。[35] [10]李国雄，李国雄. CABS-dock Web服务器用于肽与蛋白质的非弹性对接，而无需预先知道结合位点。Nucleic Acids Res2015;43：W419doi：10.1093/nar/gkv456.[36] Lamiable A ， Thévenet P ， Rey J ， Vavrusa M ， DerreumauX P ， Tu P. PEP-FOLD3：Faster de novo structure prediction for linear peptides in solution and incomplex. Nucleic Acids Res 2016;44：W449-54. doi：10.1093/nar/gkw329.[37] Hauser AS，温德许格尔 B. LEADS-PEP：一基准数据设置评估-肽对接性能的改善。 J ChemInfModel2016;56 ： 188-200.doi ：10.1021/acs.jcim.5b00234。[38] [10]李晓，李晓. GROMACS 4：高效、负载平衡和可扩展的分子模拟算法。化学理论计算杂志mate体结合a非正式会议。E·X·pertOpin药物Discov 2015;10：4492008;4：435-47. do i ：10.1021/ct700301q。doi：10.1517/17460441.2015.1032936。[14] Jacob K S，Ganguly S，Kumar P，Poddar R，Kumar A.抗真菌治疗靶酶白念珠菌CYP 450羊毛甾醇14β-脱甲基酶的同源模型、分子动力学模拟及新型吡唑类似物的设计JBiomolStructDyn2017;35：1446doi：10.1080/07391102.2016.1185380。[15] Amaro RE，Baron R，McCammon JA.一种改进的松弛复格式，计算机辅助药物设计的灵活性 J Comput-Aided Mol Des 2008;22 ： 693doi ：10.1007/s10822-007-9159-2。[16] 王东东，欧阳亮，谢宏，朱明，严宏.基于分子动力学模拟和机器学习方法预测突变对蛋白质-配体结合能力的影响Comput Struct Biotechnol J 2020;18：439-54. doi：10.1016/j.csbj.2020.02.007。[17] 巴列斯特PJ，米切尔JBO。一种预测蛋白质的机器学习方法-配体结合能力及其在分子对接中的应用。Bioinformatics 2010;26：1169-75. doi ：10.1093/bioinformatics/btq112.[18] 作者：Wang Y，Lamim Ribeiro JM，Tiwary P. 用于分析和增强分子动力学模拟的机器学习方法。 CurrOpinStructBiol2020;61 ： 139-45.doi ：10.1016/j.sbi.2019.12.016。[19] Dral PO.机器学习时代的量子化学物理化学杂志2020;11：2336-47. d o i ：10.1021/acs.jpclet.9b03664。[20] 里尼克湾分子动力学指纹（MDFP）：从MD数据进行机器学习以预测自由能密度。JChem Inf Model 2017;57：726-41. doi：10.1021/acs.jcim.6b00778。[21] Wang S ， Riniker S. 在 SAMPL 6辛醇 - 水 log P 盲态激发中使用分子动力学指纹（MDFP）。J Comput-Aided Mol Des 2020;34：393-403. doi：10.1007/s10822-019-00252-6。[22] 王S，王伟.结合机器学习-应用分子动力学和生物信息学方法预测P-糖蛋白底物。J Chem Inf Model 2020;60：4730-49. doi：10.1021/acs.jcim.0c00525。[23] Antunes DA，Moll M，Devaurs D，Jackson KR，Lizée G，Kavraki LE. DINC 2.0：一个使用增量方法的新Cancer Res 2017;77：

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

2022年生命科学中的人工智能：肽对接和MD评分的开放方案

最新资源