基于细胞的高通量筛选中的机器学习预测

17 浏览量更新于2023-12-06 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

生命科学中的人工智能1（2021）100007在基于靶和基于细胞的测定中频繁命中的计算预测Conrad Storka，Neann Mathaib，Johannes Kirchmaira，b，c，a汉堡大学，数学、信息学和自然科学学院，信息学系，生物信息学中心，20146汉堡，德国b挪威卑尔根大学化学与计算生物学系（CBU），N-5020cDepartment of Pharmaceutical Sciences，Division of Pharmaceutical Chemistry，Faculty of Life Sciences，University of Vienna，1090 Vienna，AustriaaRT i cL e i nf o保留字：机器学习频繁的击球手营养成分疼痛生物学测定高通量筛选a b sTR a cT干扰高通量筛选（HTS）测定技术的化合物（也称为“不良干扰化合物”、“不良作用物”、“滋扰化合物”或“PAINS”）对早期药物发现提出了重大挑战。这些有问题的化合物中有许多是在这里，我们提出了新一代的机器学习模型，这些模型来自于一个大型的、手动管理和注释的数据集。这些模型首次涵盖了基于靶点的检测，以及基于细胞的检测。我们的实验表明，基于细胞的测定在命中率和频繁命中者方面确实与基于目标的测定不同，并且需要专用模型来产生有意义的预测。除了这些扩展和改进之外，我们还探索了各种额外的建模设置，包括四种机器学习分类器（即k-最近邻（KNN），额外树，随机森林和多层感知器）与四组描述符（Morgan 2指纹，Morgan 3指纹，MACCS密钥和2D物理化学属性描述符）的组合。对保留数据以及“暗化学物质”（即在生物测定中进行了广泛测试但从未显示出活性的化合物）和已知不良行为者的测试表明，多层感知器分类器与Morgan2指纹相结合在大多数情况下优于其他设置。最好的多层感知器分类器在保持数据上获得了高达0.648的马修斯相关系数。这些模型可以通过免费的网络服务获得介绍高通量筛选（HTS）分析技术是现代药物发现的基石。它们允许在短时间内对感兴趣的靶标进行大量化合物的生物学测试[1]。高通量筛选面临的一个主要挑战是不同类型的测定干扰导致的假阳性命中[2]。引起测定干扰的化合物被称为“有害化合物”、“不良作用物”或“有害化合物”。它们中的许多，但到目前为止不是全部，是“频繁命中”（即在生物测定中显示出高于预期命中率的化合物）。这是因为并非所有类型的测定干扰都是常见事件。事实上，许多类型的测定干扰仅由特定条件触发重要的是，并不是所有的频繁击球手都是令人讨厌的化合物。恰恰相反：频繁的击球手行为可能是由“特权骂人者”介导的真实承诺的结果被诅咒的人-能够以特定的方式与许多不同的蛋白质结合的化合物。这样的化合物在多药理学和药物再利用的背景下可以是特别有用的。区分真正命中与假阳性结果的既定实验策略是使用正交和反筛选测定[4]，但即使使用这种先进的实验设置，也可能无法捕获某些测定干扰情况，因为潜在机制是多种多样的。鉴于涉及的复杂性，在进行和分析的实验屏幕，计算工具，以帮助区分真正的命中从虚假的是在很高的需求。今天，我们可以使用各种计算机模拟方法来挑选最有希望的命中结果进行随访研究[5我们将讨论这些布里干酪在各种类型的测定干扰的背景生物测定（特别是生物化学测定）中最突出的干扰原因与小分子形成聚集体有关，这些小分子与∗ 通讯作者。电子邮件地址：johannes. univie.ac.at（J. Kirchmair）。https://doi.org/10.1016/j.ailsci.2021.100007接收日期：2021年6月14日;接收日期：2021年8月5日;接受日期：2021年8月6日2021年8月8日网上发售2667-3185/© 2021作者。出版社：Elsevier B.V.这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）可在ScienceDirect上获得目录列表生命科学期刊首页：www.elsevier.com/locate/ailsciC. Stork，N. Mathai和J. 基希迈尔生命科学中的人工智能1（2021）1000072生物大分子[5]。已经报道了几种计算方法用于评估小分子形成胶体聚集体的风险。这些工具包括Aggregator Advi- sor[11]，ChemAgg[12]和SCAM detective[13]。 Aggregator Advi- sor基于潜在聚合物与一组12，000个已知聚合物的分子相似性，并考虑logP，对潜在聚合物进行标记。 ChemAgg和SCAM Detective是用于将小分子分类为聚合物和非聚合物的机器学习模型。虽然ChemAgg基于XGBoost模型，但SCAM Detective利用了一组随机森林模型。测定干扰的第二个重要原因是化合物的化学反应性，特别是与亲电性相关的化学反应性[14]。化学反应性化合物可以共价结合到生物大分子上，或者以不期望的方式与测定筛选技术相互作用。用于识别反应性化合物的计算方法主要基于描述与化学反应性相关的子结构的规则集[15]。其他类型的测定干扰也包含在该保护伞下众所周知的泛测定干扰化合物（PAINS）概念[16]。疼痛是基于分子尺度的化合物，与各种类型的测定干扰相关。疼痛包括再循环化合物（例如，生成氧代维甲酸）、共价结合剂（例如，异噻唑酮或烯-绕丹宁）、膜破坏剂（例如，姜黄素）、金属络合物形成化合物（例如，羟基苯腙）和不稳定化合物（例如，苯酚-磺酰胺）[17]。与PAINS相关的分子片段已被汇编成数百种结构模式的集合，并且该集合已在各种计算机平台和软件库中实施，以提供用于标记潜在问题化合物的更好方法[18]。另一种方法 Koptelov等人最近提出了抑制潜在疼痛的方法[19]。他们使用判别子图挖掘来识别字符-疼痛和非疼痛的模式，并利用这些模式，与数值描述符组合，以导出用于PAINS预测的决策树模型。已经设计了许多集中的机器学习模型，用于识别可能导致特定类型的测定干扰的化合物。例如，荧光素酶顾问[20]和ChemFluc[21]是用于预测可能干扰基于荧光素酶的测定的化合物（荧光素酶抑制剂）的模型。InterPred[22]包括一组QSAR模型，用于在基于细胞和基于靶点的测定中预测荧光素酶抑制剂和荧光素化合物。存在几种计算工具，其预测与潜在机制（真正的混杂;各种类型的测定干扰）无关的频繁击球者。例如，AstraZeneca的研究人员已经基于其内部历史生物活性数据推导出了用于预测频繁击球手的统计模型[23]。另一个预测频繁击球手的统计模型是BADAPPLE[24]。与阿斯利康模型相反，BADAPPLE模型是从分子尺度而不是完整的分子结构衍生出来的。最近，机器学习已经成为频繁击球和测定干扰预测领域的焦点。例如，由我们中的一些人开发的Hit Dexter 2.0[25]利用一组额外的树模型来预测频繁的击球手，这些模型是在从PubChem生物测定数据库[26]中提取的大量数据集上训练的。最近，Feldmann等人[27]报告了一种用于预测真正混杂化合物（多目标化合物）的机器学习方法，其中他们从训练集中去除了可能的聚集剂和其他类型的测定干扰化合物，以使用更干净的混杂和非混杂化合物集尽管目前有相当数量的用于预测频繁命中和行为不良的化合物的计算机模型可供我们使用，但其中大多数在干扰机制和测定技术的覆盖范围方面具有明显的局限性。特别地，示例性方法集中于或限于生物化学（即基于靶标的）测定，并且不足以代表基于细胞的测定，其在测定干扰方面可能表现得非常不同表1手动分配的标签“目标类型”的值的定义标签值说明从纯化蛋白质或肽产生读数的基于靶点的测定从细胞其他任何其他测定，如基于组织和基于生物体的测定为了继续Hit Dexter的进一步开发，我们在这里提出了一套改进的机器学习模型，用于频繁的击球手预测，涵盖生化测定，并首次基于细胞的测定。更具体地说，我们已经开发了三种类型的模型：（i）基于靶标的测定模型，（ii）用于测量特定蛋白质-化合物相互作用的基于细胞的测定模型，以及（iii）用于扩展选择的基于细胞的测定模型，也涵盖了旨在测量非特异性相互作用（如毒性）的基于细胞的模型。每个模型都来自一个新的，大的，高质量的数据集，我们从PubChem生物测定数据库中提取并手动注释。除了精心使用的额外树（ET）分类器外，我们现在还在探索k-最近邻（KNN）分类器作为基线模型，以及随机森林（RF）和多层递归（MLP）分类器。本工作中提出的最佳模型可通过https://nerdd.univie.ac.at/hitdexter3/上的免费网络服务获得，有关测定数据集的信息作为支持信息提供。材料和方法数据集汇编PubChem生物测定数据选择和注释查询PubChem生物测定数据库[28具有唯一PubChem化合物ID，CID的化合物）。下载所选试验的数据，并根据表1和表2中提供的定义，将标签在手动测定标记后，汇编了三个不同的数据集：• 基于靶标的试验数据集：包括来自“靶标类型”=“基于靶标”（这意味着“生物活性类型”=“特定生物活性”）的试验的所有数据• 基于细胞的试验数据集：包括来自“靶标类型”=“基于细胞的”和“生物活性类型”=“特异性生物活性”的试验的所有数据• 扩展试验数据集：除了基于细胞的试验数据集中包括的数据外，还包括来自“靶类型”=“基于细胞”的试验的所有数据。检查了基于靶标的测定数据集的单个测定的蛋白质基因标识符（GI）信息的可用性，该信息用于从NCBI蛋白质数据库中检索蛋白质序列信息[31]（在后续步骤中，蛋白质聚类和确保多样化的蛋白质集将需要蛋白质序列信息）。基于靶标的测定数据集的SIXTY-SIX此外，删除了基于靶标的测定数据集的七项测定、基于细胞的测定数据集的四项测定和扩展的基于细胞的测定数据集的七项测定，因为命中率非常高（即，命中率超过平均命中率加上三个标准偏差（SNR），在相应数据集的所有测定中计算）。对于基于靶标的测定数据集，具有最高命中率的六个测定都测量DP450酶活性。在基于细胞的测定数据集的情况下，这涉及四种测定，命中率为59%、55%、17%和15%（注意，对于大约四分之三的包含在基于细胞的测定数据集中的测定，其命中率低于1%）。对于扩展的基于细胞的测定数据集，删除命中率高于16%的7个测定C. Stork，N. Mathai和J. 基希迈尔生命科学中的人工智能1（2021）1000073表2手动指定标签“生物活性类型”的值定义标签值说明speci fic bioactivity特异性生物活性测定旨在测量特定的生物特性，如酶的活性。细胞毒性试验不包括在该类别中。如果计数器筛选检测可测量特定生物学效应，则包括计数器筛选检测。一个反屏幕的例子分配该标记值的是荧光素酶反筛选，其通常用于鉴定可在基于内切酶（生物发光）的测定非特异性生物活性测定测量细胞生长、细胞活力、细胞毒性、细胞生长抑制或其他非特异性测定读数的其他测定测量物理化学过程（非生物活性）、DNA或RNA结合等的测定。表3在化学结构处理过程中删除的数据集大小和化合物。基于靶标的测定数据集基于细胞的测定数据集EX趋势基于细胞的测定数据集化学结构处理前数据集中的化合物数量1，545，406 1，421，4721，858，887由于SMILES无效而删除的化合物数量1 3 9号由于缺乏单一有效活性结果而删除的化合物145，184 23，259 53，984由于存在药物样化合物不常见的元素而移除的化合物数量331 381 3151分子量过滤器去除的化合物数量10，847 11，120 22，106最终数据集中的化合物数量1，489，043 1，386，709 1，779，6371由于缺乏可从原始数据中推导出的有效活性结果而被删除的化合物（即没有单个注释的“活性”或“非活性”测定结果的化合物作为最后一个过滤标准，从数据集中删除至少一种化合物测量为活性和一种化合物测量为非活性的任何测定。有关数据准备期间删除的所有测定的完整概述，请参见表SI_1。化学结构处理通过PubChem PUG REST界面从PubChem生物测定数据库中检索基于靶标的测定数据集涵盖的1，545，406种化合物、基于细胞的测定数据集涵盖的1，421，472种化合物和扩展的基于细胞的测定数据集涵盖的1，858，887种化合物的SMILES符号[32]。ChEMBL结构管线[33]（也称为(ii)除去盐和溶剂组分，和（iii）再次中和带电分子（以涵盖在步骤ii期间除去带电组分的情况）。该化学结构制备程序的技术描述见参考文献。[33]第33段。从数据集中去除分子量低于180或高于900 Da的任何化合物，以及由以下组成的任何化合物：除H、B、C、N、O、F、Si、P、S、Cl、Se、Br和I.使用RDKit [34]（版本2020.09.1）的“互变异构体枚举器”类中实施的“规范化”方法，将由多个互变异构体表示的分子合并为单个表示在此过程中，化合物表示为RDKit分子，并在最后一步转化为标准SMILES。基于相同的SMILES，删除了其他重复化合物。有关去除的化合物的概述，请参见表3。对于本研究中使用的所有其他数据集，包括ChEMBL 23数据库[35]，Wassermann等人编制的暗化学物质（DCM）数据集[36]，Dahlin等人[37]的数据集（包含已知在生物测定中引起干扰的化合物）和Borrel等人[22]的数据集（包含实验证实在生物发光测定中由于荧光素酶抑制和/或自动荧光而引起假阳性读数的化合物），相同的化学结构进行真实标准化处理由于Borrel的数据集等人只包含CAS编号作为化合物标识符，SMILES符号通过化学标识符解析器获取[38]。从所选试验中提取活性数据对于每项选定的试验，将始终（即一次或多次）标记为“活性”的任何化合物删除具有矛盾测定结果的任何化合物（例如如果化合物对蛋白质簇中的至少一种蛋白质具有活性，则该化合物被视为对该蛋白质簇具有活性（参见为了确保预测的一致性，具有相同Morgan2指纹[39，40]（1024位）但具有不同承诺标签（例如，对称分子）从相应的训练组中去除。对于具有相同Morgan2指纹的任何化合物，在相应的训练集中仅保留一个实例活性药物与供试品比值（ATR）的定义化合物在生物测定中的命中率被描述为活性物与测试物的比率（ATR;等式11）。（1））：�� =0，（1）��其中A是化合物被测试为活性的测定的数量，T是化合物被测试的测定的总数。对于化合物，术语命中率和ATR在本工作中可互换使用蛋白质聚类基于分配给单个蛋白质的GI，使用Biopython的“Zeroz”软件包[41]（版本1.78）从NCBI检索相应蛋白质的FASTA序列使用cd-hit[42]以参考文献[25]中描述的相同参数进行蛋白质聚类（序列同一性= 60%;容差=3）。这产生了273个蛋白质簇，使用296个独特的蛋白质用于基于靶标的假设数据集。模型开发和超参数优化在模型开发之前，将数据随机分层分为训练集（90%）和测试集（10%）， scikit- learn的“model_selection”模块的所有模型均在以下条件下进行训练和优化：训练集。在测试集上对最终模型进行了测试Morgan指纹和MACCS键使用RD- Kit计算，而206个2D物理化学性质描述符（意味着完整的可用2D描述符集）使用分子操作环境[44]（MoE;版本2020.09）计算。默认参数用于生成机器学习模型，以选择一组合适的描述符，但以下情况除外：对于KNN分类器，最近邻居的数量C. Stork，N. Mathai和J. 基希迈尔生命科学中的人工智能1（2021）1000074将预测要考虑的（n_neighbors）设置为1;对于在RF和ET分类器中，类权重（class_weight）被设置为使用不同的随机状态（即42至51）重复生成单个模型10次，以计算性能指标的中位数和方差（详细信息见结果部分）。最终模型是用随机状态=42和合成少数过采样技术（SMOTE版本0.7.0）[45]生成的。性能测量和方差估计MCC（Eq. (2)）被用作模型性能的主要度量。MCC是一个平衡的度量，它考虑了真阳性（TN）、假阳性（FP）、真阴性（TN）和假阴性（FN）实例：在模型开发准备过程中，我们根据“试验类型”（即基于靶标、基于细胞、其他;确切定义见表1）和“生物活性类型”（即特异性生物活性、非特异性生物活性、其他;确切定义见表2）手动注释了1180个试验数据集预测生物化学（即基于靶标）测定中频繁命中物的模型将基于标记为同样，将基于标记为“基于细胞”和“特异性生物活性”的所有（369）试验数据集构建用于测量特异性活性的基于细胞的试验模型。模型还将来源于一组扩展的基于细胞的分析，其中包括来自标记为“非特异性生物活性”的另外250项基于细胞的分析的数据这些额外的基于细胞的测定测量非特异性特性，例如细胞活力或细胞毒性。的列表MCC=产品介绍TPTN−FPFNFP）FP（TP+FN）FP（TN+FP）FP（TN+FN）（二）三个试验数据集的试验标识符（AID）见表SI_2。MCC返回-1（预测和观察之间的完全不一致）和+1（完全一致）之间的值。使用（受试者工作特征）曲线下面积（AUC）作为模型排序性能的指标。使用“scipy.stats”模块的“ttest_rel”函数进行统计学显著性检验通过在原始测试集的10个随机编译子集（80%）上测试模型，估计模型性能（测试数据）的方差结果PubChem生物测定数据的分析、注释和细化为了更好地理解PubChem生物测定数据库中用于模拟小分子频繁命中行为的数据的相关性，我们对化学和生物学数据进行了全面分析。PubChem Bioassay数据库拥有超过2.97亿个测量的生物活性，是世界它也是为数不多的能够访问大量高通量筛选数据的数据资源之一。在各个试验数据集中，每次试验记录的测量生物活性数量差异很大，从单一化合物到646，275种化合物（表4）。我们决定将我们的工作基于包含至少10，000种化合物的测量的1180（即474 + 706）个测定数据集，因为这些数据集在数据质量和覆盖率之间具有良好的权衡。这些数据集中的绝大多数是由最负盛名的HTS设施（包括Scripps研究所，Sanford-Burnham医学研究所，麻省理工学院和哈佛大学的Broad研究所以及NIH/国家推进转化科学中心（NCATS））生成的，因此可以预期HTS的高标准。表4PubChem生物测定数据集的大小1PubChem中的检测数量我们还设置了步骤来解决测定数据集收集中的两个重要偏倚。第一个偏倚来自异常高命中率的测定。在基于靶标的测定中，高命中率通常与高度混杂的蛋白质（如溶菌酶）的测量有关。在基于细胞的测定中，高命中率可以与例如细胞毒性相关。或高测定灵敏度。因此，无论出于何种原因，在这些测定中测量的化合物都可能被鉴定为频繁的命中物，无论其活性是否集中在许多密切相关的蛋白质上或在一系列不同的蛋白质中观察到。359次靶向检测的平均命中率为0.009。然而，少数检测具有高得多的命中率，高达0.252（图1）。类似地，369个基于细胞的测定的平均命中率为0.014，少数测定具有高得多的命中率，0.588。对于619个基于细胞的测定的扩展集，平均命中率为0.023，最大值为0.588。由于上述原因，我们决定删除命中率超过平均命中率加3个百分点的任何测定。这分别涉及基于靶标、基于细胞和基于扩展细胞的测定数据集的7、4和7项测定。第二种偏倚是由测量相关蛋白质的试验组引入的。相关蛋白质具有结合相同小分子的高可能性，这意味着，例如，蛋白激酶靶的强代表性将可能显示蛋白激酶抑制剂的高命中率。在此类数据上训练的频繁命中预测模型可能会将任何激酶抑制剂标记为频繁命中者，这不是这些模型的预期行为。为了解决任职人数偏高造成的偏见，根据靶蛋白的氨基酸序列，我们对基于靶的测定数据集进行聚类（注意，由于基于细胞的测定可能报告许多不同蛋白的活性，因此不对基于细胞的测定数据集进行聚类）。更具体地说，将与氨基酸序列同一性超过60%的蛋白质相关的所有数据集合并到一个聚类中（详见材料和方法）。该聚类程序产生296个蛋白质簇（从基于靶标的测定数据集覆盖的352个蛋白质开始）。生物测定数据库测量化合物数量587，477 1633，294 2至995082 100至9991403 1000至9999474 10，000至99，999706 100，000至646，275（最大）1 参考原始、未处理PubChem生物测定数据库的数字。在解决了这两个重要的偏见之后，在最后的处理步骤处理数据集中包含的分子结构并检查其正确性。如表3所示，删除了任何有问题的实例，并在材料和方法部分进行了详细描述。这产生了基于靶点、基于细胞和基于扩展细胞的试验数据集，分别由1，489，043、1，386，709和1，779，637种独特化合物组成，其中至少有一种经确认的靶蛋白。C. Stork，N. Mathai和J. 基希迈尔生命科学中的人工智能1（2021）1000075Fig. 1. 直方图（各200个箱）显示了（A）基于靶标、（B）基于细胞和（C）扩展的基于细胞的测定数据集中包括的测定的命中率。红线表示平均命中率+3%。请注意，三个图的x轴比例不同表5训练集和测试集的组成。数据集混杂类类定义训练集中试验组靶基分析数据集HPROM1ATR> 0.053 4614 550PROM ATR> 0.022 20274 2303NPROM ATR 0.007 219061 24483基于细胞的测定数据集HPROM1ATR> 0.058 5578 616PROM ATR> 0.025 24913 2825NPROM ATR 0.008 226382 25427扩展的基于细胞的测定数据集HPROM1ATR> 0.070 5135 538PROM ATR> 0.030 24673 2776NPROM ATR 0.010 235241 263981 标记为HPROM的化合物是标记为PROM的化合物的子集性早熟（PROM）或非混杂性早熟（NPROM）。根据这些定义，在三个测定数据集中，大约2%的化合物被标记为HPROM。同样，在三个测定数据集中，标记为PROM的化合物的百分比约为9%（请注意，所有HPROM化合物也是PROM子集的一部分）。在三个测定数据集中，标记NPROM的化合物的百分比约为90%（表5和图5）。 3）。为了获得训练集和测试集（分别用于所有三个数据集），进行分层随机分割，以获得90%的训练数据和10%的测试（保持）数据。遵循基于指纹的数据合并程序（即，合并具有相同指纹和相同类别标签的实例，并删除具有相同指纹但与类别标签相冲突的任何实例;参见材料和图二. 数据集大小（化合物的数量）作为可获得测量数据的蛋白质簇（在基于靶标的测定的情况下）或蛋白质（在基于细胞的测定的情况下复合命中率分析与混杂类标签分配ATR（Eq. (1)）可用于将分类混杂值分配给化合物，例如“非混杂”、“混杂”或“高度混杂”。ATR的重要性和稳健性取决于基础数据的质量和数量：T值越高（即T值越高），则ATR的可靠性越高。化合物测试的测定总数），ATR越稳健。ATR相对于其他指标的主要优势是其可解释性，因为它反映了化合物的命中率。在这项工作中，我们将用于模型开发的数据集中包含的化合物的最小阈值T设置为100，这代表ATR质量和覆盖率之间的良好平衡（图2）。该过滤程序导致在基于靶向的测定中测量了一组332，653种化合物，在基于细胞的测定中测量了345，743种化合物，旨在测量特定生物活性，在基于细胞的扩展测定中测量了360，094种化合物。基于表5中报告的ATR阈值，所有化合物均被分配混杂标签：高度混杂（HPROM）、混杂（HPR0M）、混杂（HPR0M）、混杂（HPR0M）和混杂（HPR0M）。方法）的目标为基础，细胞为基础和扩展细胞为基础训练集分别包含243，949、256，873和265，049种化合物，表5）。如表5所示，扩展的基于细胞的测定集的平均ATR高于基于细胞的测定集和基于靶点的测定集，表明非特异性相互作用可能在扩展的基于细胞的测定集（即，基于细胞的测定不是为了测量特定的生物过程，而是为了捕获诸如细胞活力和细胞毒性之类的特性）。分析训练集覆盖的化学空间训练集覆盖的化学空间是模型适用范围的决定性因素。为了了解我们的三个训练集与早期药物开发的相关性，我们对这些训练集中包括的分子结构和ChEMBL数据库中包括的所有分子结构进行了成对比较。图4显示了基于Morgan2指纹（长度为1024位）的三个数据集与ChEMBL数据库的成对最大Tanimoto系数的分布。三个数据集的分布相似，C. Stork，N. Mathai和J. 基希迈尔生命科学中的人工智能1（2021）1000076图3. （A）基于靶标的测定数据集、（B）基于细胞的测定数据集和（C）扩展的基于细胞的测定数据集的化合物之间的ATR分布。见图4。包括在ChEMBL数据库中的化合物被包括在（A）基于靶标的测定数据集（B）基于细胞的测定数据集和（C）扩展的基于细胞的测定数据集中的化合物的累积覆盖。图五. ChEMBL数据库和（A）基于靶标的测定集、（B）基于细胞的测定集和（C）扩展的基于细胞的测定集的PCA。PCA源自在MoE中实施的44个2D分子特性描述符（参见参考文献[46]为了清晰起见，只有1%的数据点（随机选择）是可视化的。括号中的数字报告了由相应主成分（PC）解释的方差ChEMBL数据库中50%的化合物由相应训练集中至少一种具有0.5或更高的Tanimoto系数的化合物表示。图5所示的主成分分析（PCA）散点图显示，来自ChEMBL23数据库的化合物最密集的化学空间区域也由用于模型训练的测定数据集很好地表示。然而，ChEMBL数据库中包含的大量化合物在化学上与训练集所代表的化合物不同。这些特别是具有大于10的PC1值的化合物，其占ChEMBL数据库的化合物总数的2.5%。这些化合物的目视检查显示它们异常大，分子量在575和900 Da之间。基于靶标和基于细胞的测定数据集（仅训练数据）具有180，278种化合物的重叠（分别代表基于靶标的测定数据集的75%和基于细胞的测定数据集的72%）。这些化合物中只有13，045（7%）具有矛盾的滥交标签（HPROM被视为PROM的子集）。首先，基于靶点和基于细胞的测定的读数之间的一致性似乎高得惊人。然而，仔细观察发现，这种一致性主要源于一致标记为NPROM的化合物。在两个数据集中存在的20，481种化合物中，至少有一种被标记为PROM，只有6616种（32%）具有相同的类别标签。这表明基于靶点和基于细胞的测定确实表现不同，并且它们应该由专用模型表示。用于化合物混杂性预测的机器学习模型的开发针对基于靶、基于细胞和基于扩展细胞的测定数据集生成了两种类型的分类器：区分HPROM与NPROM化合物的分类器，以及区分PROM与NPROM化合物的分类器。确定模型生成的最佳设置为了确定模型生成的最佳设置，我们测试了四种机器学习算法的所有可能组合（即KNN，C. Stork，N. Mathai和J. 基希迈尔生命科学中的人工智能1（2021）1000077见图6。在不同类型的描述符上训练的机器学习模型的性能（量化为MCC）。十个实验的方差（每个实验使用42至51之间的不同随机种子;详见材料和方法）由误差条表示。ET、RF、MLP）和四组描述符（即Morgan2和Morgan3指纹，每个指纹长度为1024位，MACCS密钥，以及在MoE中实现的206个2D物理化学性质描述符的完整集合，称为“MOE_2D”）。对于每个设置，使用不同的随机种子进行这些交叉验证实验中的十个。这允许，对于每个设置，计算独立于交叉验证的标准差。如图6所示，区分HPROM和NPROM化合物（MCC高达0.679）的任务比区分HPROM和NPROM化合物（MCCs高达0.679）的任务简单。在三个测定数据集上，从NPROM化合物中提取PROM（最佳HPROM-NPROM分类器的MCC为0.679，显著高于最佳PROM-NPROM分类器的MCC 0.599; p值2.48× 10−12）。这是预期的，因为HPROM和NPROM类之间的ATR裕度（裕度为3μ m）大于PROM和NPROM类之间的ATR裕度（裕度为1μ m）。在建模的试验类型方面，未观察到模型性能的实质性差异：最佳设置产生的基于靶标的试验集（HPROM-NPROM和PROM-NPROM分类的MCCs分别为0.679和0.592）、基于细胞的试验集（MCC分别为0.602和0.577）和扩展的基于细胞的试验集（MCC分别为0.631和0.599）的MCCs相当归因于模型算法的模型性能的差异相当小，在MCC中平均为0.104。在相同输入（即相同数据集和相同描述符集）上训练的任何模型观察到的MCC的最大差异为0.224。总的来说，MLP分类器在HPROM-NPROM分类中表现最好（最佳MLP分类器的MCC为0.679，明显高于第二最佳模型中，KNN模型获得MCC为0.630;p值为8.81 × 10−11），ET分类器在PROM-NPROM分类中表现最好（最佳ET分类器的MCC为0.599，显著高于第二个基于模型的MCC，KNN模型获得的MCC为0.585; p值为7.79 × 10−11）。有趣的是，在这个交叉验证场景中，简单的最近邻方法的表现几乎与更复杂的机器学习算法一样好（MCC高达0.587;对最佳MLP分类器的p值为7.79 × 10−11与我们观察到的机器学习算法相反，可以归因于分子描述符的模型性能的差异部分是实质性的。平均而言，在Morgan2指纹上训练的模型获得了最佳性能（在Morgan2指纹上训练的所有模型的MCC平均值为0.679）。紧随其后的是基于Morgan 3指纹的模型（在Morgan 3指纹上训练的所有模型的平均MCC：0.659;在Morgan 2上训练的模型的平均MCC的差异Morgan3指纹显著，p值为1.10 × 10−79）。MOE_2D物理化学性质描述符和MACCS键产生的模型明显较差，MCC分别不超过0.453和0.572模型优化期间的最高MCC（0.679）是由HPROM-NPROM MLP分类器与Morgan 2指纹组合获得的（第二好分类器的MCC，即在Morgan3指纹上训练的相应模型，为0.659; MCC中的差异显著，p值为3.98 ×10−5）。超参数优化现在关注Morgan2指纹，在模型开发的下一阶段，我们优化了各个算法（即KNN，ET，RF和MLP）的超参数。更具体地说，我们进行了一次在10倍交叉验证框架内进行网格搜索，以识别超参数，从而为机器学习算法和MCC描述符的特定组合产生最佳性能模型（在三个测定数据集的相应HPROM-NPROM和PROM-NPROM分类器上取平均值）。探索的超参数和值范围以及选择的超参数值的概述见表6。单个超参数设置对模型性能的影响通常较小（表SI_3）。在超参数优化期间观察到的MCC的最大改善为0.037（对于基于细胞的测定数据集训练的PROM-NPROM MLP分类器;优化的分类器的性能明显优于使用默认超参数的分类器; p值为1.01 × 10−10）。AUC值的改善与MCC一致（表SI_3），KNN除外，其中MCC随着邻居数量的减少而增加， AUC值降低。在RF和ET分类器的情况下，超过200个估计器的性能增益是微不足道的，并且不证明计算能力和内存的额外需求是合理的。对于MLP分类器也是如此，我们将250个感知器确定为最适合我们目的的感知器数量所有模型中最好的模型（用于基于目标的分析的HPROM-NPROMMLP分类器;具有250个感知器的单个隐藏层;激活函数relu）产生的MCC为0.686（优化的分类器的性能明显优于使用默认超参数的分类器; p值为3.79 × 10− 3）。表7列出了从超参数优化中选择的模型。模型性能作为训练集大小的函数为了确定训练集的大小对模型性能的影响，我们在完整训练集的0.01到1.00的分数上训练和测试了优化的HPROM- NPROM和PROM-NPROMMLP分类器（在10倍交叉验证框架内）。从图7中可以看出，仅基于20%的数据构建的模型已经实现了良好的性能（MCC在0.434和0.524之间）。更大的数据集可能会增加重要的价值，但主要是如果它们涵盖C. Stork，N. Mathai和J. 基希迈尔生命科学中的人工智能1（2021）1000078表6在10重交叉验证框架内的网格搜索期间优化的超参数概述1分类器参数值KNN n_neighbors（考虑的邻居数）1，3，5，10RF、ETn_estimators（树的数量）50，100，200，300，400，500 max_features（最佳分割搜索考虑的特征）表7MLP hidden_layer_sizes（每层感知器250，100，250，500hidden_layer_sizes（number hidden layer）21，2，3，4，5activation（activation function）[1]用粗体表示的超参数值是我们认为最适合建模的值该等值用于产生最终模型。2 hidden_layer_sizes接受两个值：一个是每层感知器的数量，另一个是隐藏层。不同类型最佳模型的交叉验证和测试集性能。机器学习数据分类算法交叉验证性能1测试集性能MCC2AUC2平衡精确度灵敏度规格 MCCAUC平衡精度灵敏度规格靶基分析数据集HPROM-NPROM KNN 0.624 0.843 0.733 0.469 0.998 0.376 0.909 0.871 0.818 0.9240.630 0.964 0.734 0.469 0.998 0.508 0.966 0.677 0.357 0.997电话：+86-0511 - 888888传真：+86-0511 - 88888880.686 0.946 0.796 0.595 0.997 0.648 0.949 0.798 0.601 0.995可编程只读存储器KNN 0.587 0.844 0.745 0.506 0.984 0.412 0.864 0.816 0.822 0.8090.597 0.928 0.746 0.504 0.986 0.518 0.910 0.721 0.464 0.977电话：+86-0578 - 888888传真：+86-0578 - 88888880.599 0.907 0.777 0.578 0.975 0.580 0.899 0.768 0.562 0.974基于细胞的测定数据集HPROM-NPROM KNN 0.571 0.827 0.704 0.41 0.998 0.338 0.899 0.857 0.812 0.9020.572 0.950 0.697 0.395 0.998 0.531 0.940 0.692 0.387 0.9970.514 0.947 0.651 0.303 0.999 0.520 0.932 0.692 0.387 0.9960.611 0.929 0.754 0.512 0.996 0.576 0.915 0.767 0.541 0.992可编程只读存储器KNN 0.566 0.845 0.74 0.501 0.979 0.413 0.860 0.809 0.834 0.7830.511 0.983 0.551 0.911 0.743 0.513 0.973电话：0572 - 8888888传真：0572 - 88888880.579 0.910 0.77 0.571 0.969 0.561 0.901 0.764 0.562 0.965扩展的基于细胞的测定数

下载后可阅读完整内容，剩余1页未读，立即下载