植物小肽分类的多类随机森林模型的性能评估

182 浏览量更新于2024-01-02 收藏 900KB PDF 举报

文件类型

论文

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

International Journal of Information Management Data Insights 1（2021）100029一种用于植物小肽分类的多类随机森林（MCRF）模型Ankita Tripathia，Tapas Goswamib，Shrawan Kumar Trivedic，Ravi Datta Sharmaa，d，a印度古尔冈Amity大学Amity生物技术研究所b印度德拉敦石油和能源研究大学助理教授c印度理工学院助理教授，印度d印度古尔冈Amity大学Amity生物技术研究所助理教授aRT i cL e i nf o保留字：小肽多类随机森林机器学习分类器精度灵敏度检测率a b sTR a cT对不同种类小肽的分类研究正成为生物信息学领域的一个挑战。然而，机器学习模型已经显示出解决此类应用的潜力。本文提出了一种多类随机森林（MCRF）分类器来对小分子肽进行分类，并与现有的RBF核支持向量机（SVM+RBF）、朴素贝叶斯（NB）、决策树（C5.0）、随机森林（RF）等分类器进行了比较。小肽序列选自ARA-PEP库（Hazarika等人，2017），其中13748种小肽以Six类别列出（即，分泌型，sORF，应激诱导肽(SIP)分泌型-sORF、sORF-SIP、SIP-分泌型）。每个小肽序列共提取27个特征准备数据。使用度量进行比较，即，F-值、灵敏度、特异性、ROC和FP率，以及一些统计验证，即，Kappa统计和WilcoX符号等级检验。该研究的结果表明，所提出的分类器具有准确分类多水平不平衡数据的潜力介绍植物有一个复杂的免疫系统，包括小肽。小肽由细胞产生和分泌，并作为触发细胞死亡的小肽的简单说明是代表二十种氨基酸组合的字母串（Jensen等人， 2006年）。根据Pimenta，De Lima（2005）的说法，小肽是如此小的分子，可以产生微效应。这些小分子很难可视化，了解甚少。第一个小肽是在1972年在受伤的番茄叶子中发现的，被命名为番茄系统素（TomSys）（Green和Ryan.， 1972年）。到目前为止，发现小肽在植物的生长、发育和防御机制中起重要作用（Lindsey等人，2002年）。在最近的研究中已经定义了小肽的不同类别，即分泌型（Lease& Walker，2006）、应激诱导型（De Con inck等人，2013）、sORF小肽（Hanada等人，2007年，2013年）和其他不同类别。小分泌肽在细胞间通讯中起着至关重要的作用（Murphy等人，2012年）。它的作用已在动物中观察到，但植物分泌的小肽的作用被认为是一个潜在的研究领域。越来越多的实验表明，由小开放阅读框（sORF，100个密码子）解释的小肽参与许多重要功能<植物。sORF是基因组中可能被翻译的DNA序列。近年来，经验证据表明，小于100个密码子（300 nt）的小ORF<被归类为非功能性的（Bazani等人， 2014年）。胁迫诱导的小肽在保护植物免受不同胁迫条件中起重要作用，并有助于植物发育（Cramer et al.，2011年）。任何影响或抑制植物新陈代谢、生长和发育的不良条件或物质都被认为是胁迫。植物对生长、发育、繁殖和环境胁迫的反应受到一个复杂的信号通路网络的严格调控。为了生产成熟的小肽，小分泌肽通过翻译后修饰进行加工，包括酪氨酸硫酸化、脯氨酸羟基化、羟基脯氨酸阿拉伯糖基化和蛋白水解加工。这些加工步骤负责检测激活小肽的类似受体的活性和能力（Ogawaetal.，2008; Okamotoetal.，2013年）。生物和非生物胁迫通过不同的途径诱导最大程度的活性氧物质（ROS）形成：细菌感染引起特异性ROS产生酶，如NADPH氧化酶、细胞壁过氧化物酶，导致细胞或细胞内ROS积累，如超氧化物或过氧化氢。∗ 通讯作者。电子邮件地址：tripathiankita0502@gmail.com（A.Tripathi），tgoswami@ddn.upes.ac.in（T.Goswami），shrawan@iitism.ac.in（S.K.Trivedi），rdsharma@ggn.amity.edu（R.D. Sharma）。https://doi.org/10.1016/j.jjimei.2021.100029接收日期：2021年5月27日;接收日期：2021年8月1日;接受日期：2021年8月1日2667-0968/© 2021作者。由Elsevier Ltd.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表国际信息管理数据杂志见解期刊主页：www.elsevier.com/locate/jjimeiA. Tripathi，T. Goswami，S.K. Trivedi etal.International Journal of Information Management Data Insights 1（2021）1000292Silverstein等人（2007年）的研究为每种肽类产生了序列基序模型。该模型可以在不同的数据库中迭代搜索相关字符串。使用这种策略，这项研究识别了近13，000个植物基因，这些基因编码具有相似特征的肽：（i）具有N-末端的信号肽，（ii）具有保守半胱氨酸的小的发散带电或极性成熟肽，（iii）内含子/外显子结构，（iv）基因组空间聚类和（v）特定分类群生殖结构表达顺序的更大识别。另一个产生预测样本的发现来自Geo Ruman等人的研究，2013.本研究建立了一个基于同源性的基因预测模型，用于在基因组水平上预测小肽的最佳水平。本研究开发了一个基因预测模型，应用于小肽比对发现应用程序（SPADA），以准确识别和预测小肽基因结构。此外，SPADA为小肽家族（如富含半胱氨酸的肽）提供了准确的预测结果。此外，一些研究涉及以不同方式评估的小肽数据库的创建。 Lease和Walker（2006）的研究通过逆转录-PCR评估了一个ORF子集，并对其中的五分之一进行了表达鉴定。这些结果支持了植物肽的数量和多样性比目前认为的要大作者为已识别肽及其注释的数据库创建了一个网络界面，以便可以在peptidom.missouri.edu上在线查看。此外，在潘等人的工作。（2012年），一个比较平台-构建了OrysPSSP（http://www.genoportal.org/PSSP/index.do），其由来自水稻和25种植物的>100，000个小分泌肽（SSP）组成。OrysPSSP有一个核心的小规模肽数据库和一个动态的网络界面，它吸收了各种有用的工具和资源。虽然很少有研究集中在小肽的预测上，但是已经使用机器预测模型对肽和蛋白质的不同应用做了很多工作。同样，Kumar等人（2015）开发了一种用于预测和设计新的抗高血压肽的模型。他们将这些肽分为四个不同的类别，例如，微小的，小的，中等的和大的，并开发了SVM回归模型，其最大精度为达84.21%。Lee et al.（2016）的另一项研究开发了一种基于SVM的分类器，以研究 α-螺旋AMP与功能统一性和序列同源性的相互关联之间的关系。Manavalan等人（2017年）的一项工作，通过提取以下属性，使用SVM和RF机器学习分类器建立了一个模型：抗癌肽（ACP）的氨基酸序列，包括氨基酸、二肽化合物、分子组成和物理化学性质。Manavalanet al.（2018）开发了一种先进的两层分类框架，用于自动识别细胞穿透肽（CPP），并将其命名为基于机器学习的细胞穿透肽（MLCPP）。在该模型中，第一层识别该肽是否来自CPP或非CPP，第二层识别CPP的效率。最近的工作（Hazarika等人，2017）创建了名为ARA-PEP的小肽库，其含有不同类别的各种被低估的小肽。由于ARA-PEP库中包含数千种小肽，因此随机小肽的识别是一项艰巨的该存储库包含13748个小肽数据，分为三类存储库，即，5139个分泌肽，7880个sORF和583个应激诱导肽，并且在三个重叠的类别中，87个分泌型sORF，45个sORF-SIP，14个SIP-分泌型。我们假设通过解释小肽的性质，人工神经网络和机器学习方法可以帮助有效地对这些小肽进行分类。本研究的目的是利用小肽的不同特征构建小肽预测模型。在这项研究中，我们提出了一种新的多类随机森林（MCRF）机器学习模型来识别小肽的独特类别。建议的模型使用多类方法收缩consid-在随机森林中使用一对一的概念。由于本研究的数据是多类的，因此所提出的模型在本研究情景中是有效的。这种方法增强了基础学习器的能力随机森林。此外，所提出的算法与其他最先进的分类器相兼容，包括具有RBF核的支持向量机（SVM+ RBF），朴素贝叶斯（NB），决策树（C5.0），随机森林（RF）。本研究的另一个目标是接近有效的数据管理，重点是如何有效地管理数据存储库中的信息与先进的分析技术。在本研究中，最终目标是通过生成有效的分类模型来区分不同类别的小肽，从而管理ARA-PEP（小肽）包括生物信息学研究在内，人工智能技术和机器学习的使用已广泛用于各种领域，如战略（ Adikari 等人， 2021;Zekić-Sušac 等人，2021），金融部门（Rawat等人，2021），市场营销（Verma等人，2021; Cavalcante等人，2019）、手术操作（Min等人，2019年）等，本研究利用这些概念开发有效的机器学习模型，用于不同小肽的该研究对于医疗保健行业具有重要意义，因为植物小肽在开发药物，化妆品和其他产品中起着至关重要的作用。Wu等人（2019）回顾了基于机器学习的肽预测结果的最新进展，以从潜在活性的抗微生物肽（AMP），抗癌肽（ACP）和抗微生物肽（AIP）的发现中获益。wang等人（2020），结合各种机器学习模型和化学描述符，开发了具有ACE抑制活性的收集和策划的肽和定量结构-活性关系（QSAR）模型。结果显示了几个结构特征占ACE抑制。Plisson等人（2020）建立了机器学习方法和离群值发现方法，以保证对AMP的发现和溶血活性降低的新型肽的设计进行稳健的预测。这项研究的结果表明，梯度增强分类器预测任何肽序列的溶血性质，准确率为95开展这项工作的动机是小肽的重要性：（1）小肽被认为是控制植物生长和发育的重要信号单元。(2)已经在拟南芥中检测到超过1000个基因的编码推定肽（ Arabidopsis thaliana; Read& Walker ， 2006;Greenenberger& Fletcher，2015）。(3)植物小分子肽在机体对多种病原体的免疫应答中发挥着重要作用。很明显，植物中小肽的总数被低估了。小肽数据集小肽氨基酸序列数据（13748）是从具有六个不同类别的分泌型sORF、sORF-SIP、SIP分泌型。R软件工具库（肽）被用于本研究中提取小肽的特性。通过该文库，提取了10种不同特征的小肽。特征解释、标准差（SD）和平均值见表1。计算小肽序列的18个不同特征的特征，即氨基酸组成，这些特征产生小肽的18个额外特征。包括这些子特征，小肽数据的总特征增加到27个。所有27个特征都被用来创建一个经过训练的机器学习预测模型。这些数据对于训练机器学习模型至关重要，因为它是高度不平衡的。这是很难的最先进的模型来处理这种不平衡的数据。本研究提出的模型将通过其独特的多类方案来解决这种不平衡的数据，即使用随机森林分类器进行一对一。不同的重要指标和统计数据-A. Tripathi，T. Goswami，S.K. Trivedi etal.International Journal of Information Management Data Insights 1（2021）1000293∏表1描述小肽的特征SN特征EX夷平面平均SD1长度计算小肽的氨基酸序列长度（以nm为单位）。48.61 22.192分子量这是使用的小肽的每个氨基酸的质量的总和可用的计算尺度pI/Mw。3净电荷Hasselbalch方程（Moore，1985）用于计算小分子的净电荷。肽，并在定义的pH值和9pKa标度之一下计算4脂肪族指数脂肪族指数是丙氨酸，缬氨酸，异亮氨酸和亮氨酸，并且被测量为增加小肽稳定性的正因子（Ikai，1980）。5Boman指数这也被称为潜在蛋白质相互作用指数，并计算为存在于氨基序列中的所有残基的溶解度值的总和一点二五一点十分5598.37 2525.26二点一二三点七七93.56 27.956等电点（PI）这是PH值的点，小肽的净电荷变为零。8.48 2.737疏水性指数疏水性指数计算相对疏水性，并告诉水氨基酸的溶解度。8疏水矩通过Eisenberg标准尺度11计算疏水矩。氨基酸并以一定角度（Eisenberg等， 1982年）。9不稳定性指数不稳定性指数通过以下方式识别小肽的稳定性：氨基酸组成，如果该指数的值小于40，则认为小肽是稳定的（Guruprasad，1990）10氨基酸组成这告诉不同种类的小肽的氨基酸百分比的不同的类别是：微小，小，脂肪族，芳香族，非极性，极性，0.08 0.210.53 0.1841.63 20.616.53带电、碱性和酸性本研究亦采用了cal技术，以检验分类器处理这种不平衡数据的能力。方法机器学习分类器提出了一种基于机器学习的多类随机森林模型。该模型的结果进行了比较，与国家的最先进的模型，即。朴素贝叶斯（NB）、支持向量机（SVM）、决策树（C5.0）和随机森林（RF）。选择这些模型的理由朴素贝叶斯（NB）朴素贝叶斯（NB）分类器是一种基于概率的分类器，适用于贝叶斯定理（Lewis.，1998年; Trivedi& Dey.，2016年a）。分类器指出：SVM通过在不同类别之间创建超平面来最大化边际。SVM提供了良好的性能，因为SVM如果数据不容易分离，SVM将使用核函数（如线性函数，多目标函数，径向函数和S形函数）。核函数将输入数据转换到高维特征空间，使输入数据易于分离。在这项研究中，核径向基函数（RBF）被认为是一个潜在的核在这项研究中，由于其普及和能力，以分离复杂的数据。决策树（C5.0）决策树是数据挖掘中最常见的方法，在回归和分类应用中很受欢迎。该算法易于理解和解释，需要较少的数据准备。它可以很容易地处理数值和分类数据，并提供了良好的性能，为大数据，很少的时间消耗。为��（（一）因此，这种方法在数据挖掘研究中是很流行的该方法( )能够可视化分类结果和关系在Eq。（1），��= ��表示数据点的可能类别X. 为此，我们��通过使用过去的知识结合观察到的数据来计算后验概率（= scin）。该模型假设输入特征与每个类都没有条件关系或“朴素”。该方法计算复杂度较低，产生结果所需时间较少，并且已被认为是许多复杂算法和应用中的最佳方法由于其假设的独立特征，它降低了方差，但提高了偏见，因此它是适合于避免过度拟合的训练集。该模型可以表示如下，其中不是对由特征给出的信息求和，而是使用产品，这意味着每个特征在检测输出类别时是独立的，argmaxPr（=）=Pr（=��闪烁=）（2）��预测因子（Berry& Lino），1997年）。最近的文献已经用许多决策树，如ID3，C4.5，C5.0，CART和CHAID（卡方自动交互检测器）算法进行了实验。该研究使用C5.0算法（Abdallah等人，2018;Rajeswari& Suthen-dran.， 2019年，由于上述各种重要功能。C5.0是Quinlan于1996年提出这是算法ID3和C4.5的扩展，其中它比ID3和C4.5算法速度快，占用内存少。C5.0允许使用预修剪和后修剪方法来开发决策树。随机森林随机森林（RF）（Liaw& Wiener.，2002; Trivedi& Dey.，2019）是生物信息学领域的热门选择，它致力于决策树的集成构建概念。它是一个非参数的，��∈��=1可解释的，有效的分类技术，为各种不同的应用提供高分类精度。独特的支持向量机支持向量机允许一个人与一个数据库，有许多重复和嘈杂的功能。SVM将数据映射到高维特征空间，其中映射函数可以分类或回归。使用装袋技术的决策树的随机抽样和集成过程有助于通过减少方差来更好地分类和概括。每个树投票和最受欢迎的类被选为分类问题的最终结果。A. Tripathi，T. Goswami，S.K. Trivedi etal.International Journal of Information Management Data Insights 1（2021）1000294RF算法给定��：=训练实例的数量，=总特征��，=为集成选择的总特征， =集成分类器的总数步骤1 RF随机选择一个称为训练子集的数据分区。��步骤2这个子集迭代地训练模型决策树，并将根据前一次训练的正确预测为下一次训练设置数据子集。步骤3在这一步中，RF为错误分类的解释分配一些更高的值，以便这些解释在下一次迭代中获得更高的分类机会。步骤4它还根据每个迭代步骤中特定分类器的准确度（为了更高的准确度，权重值应该很高）值为训练好的分类器分配一些权重值步骤5上述步骤应迭代地继续，直到数据的总输出是所有经过训练的分类器的聚集。一种新型多类随机森林该方法是随机森林分类器的增强以确保其适用于多类（Chaudhary等人，2016; Kang等人，2018年; Sebk& Kacsuk，2021年）（涉及两个以上类别的分类）。这种方法使用一对一（ OVA ）方法（ PolatGünektop，2009）。在该方法中，对于给定的类，训练随机的最优分类器，即，每个班级一个。假设要训练一个分类器，对于这个分类器，所有的实例都将被认为是正类，所有其他类都将被认为是负类。为了对一个未知的实例进行分类，所有的分类器集合将作为一个集合进行投票。假设随机森林模型预测了一个正类，那么对于一个正类的投票计数将是1，但是如果预测是负的，那么除了正类之外的其他类将得到一票。得票最高的班级将被分配到。实验设计本研究的测试已在 JAVA （ WEKA 3.8 ）和 R-Studio 操作系统WINDOWS 7上进行，计算机系统携带8 GB的RAM。最初，进行数据拆分，这是构建经过训练的ML分类器的常见做法。该技术将数据集分为两部分，即训练集和测试集。本研究准备了四个不同的训练和测试数据部分。使用50-50划分方法，其中50%的样本数据用于研究中的训练，剩余的50%用于随机抽样测试。另外两个分裂，即66-34%和80- 20%，也被用来分析数据在训练机器学习模型中的重要性。10倍交叉验证方法（Hastie等人，2004）也被用来验证数据分区方法的结果。一个10倍交叉验证测试将所有数据划分为适当的块。最初，90%的数据用于模型学习，其余10%用于测试。对80-20，70-30，10-90%的训练和测试数据进行相同的过程该方法为机器学习模型的训练和验证提供了理想的水平。培训测试划分的详细信息见表4。在实验设计中，通过手动分配不同的值来调整机器学习的不同参数使用朴素贝叶斯算法而不进行调整，并且采用参数的默认值，而对于SVM模型，成本和伽马参数针对RBF（径向基函数）内核进行SVM的参数调整使用库的“tune.svm”函数执行（e1071）。用于将成本（C）参数值从2-8调谐到1，并且将伽马参数值从2-8调谐到24。对于C5.0决策树算法，使用库（C5.0）的“C5.0control”功能控制参数。随机森林和建议的MCRF模型调整是手动完成的表2混淆矩阵预测实际TP FNFP TN业绩评价指标这项研究使用了许多性能评估指标（Lahmiri等人，2018;Trivedi&Dey.，2016 b），以比较本研究中测试的机器学习分类器的性能。本节介绍本研究中使用的指标描述，如混淆矩阵、分类准确度、灵敏度、特异性、检出率、ROC、曲线下面积（AUC）和统计检验（如Kappa统计量）。匹配数据的WilcoX符号秩检验也用于验证模型的显著性差异。性能见表3，并附有说明和评价公式。使用预测结果的混淆矩阵（表2）计算指标Accu- racy、Recall或灵敏度以及检测率。混淆矩阵（Bradley，1997）是一个包含“实际”和“预测”两个维度以及分类集的表格。列具有实际的分类，行具有预测的分类。真阳性（TP）：它包括小肽的实际类别以及小肽的预测值的情况，该类别为真。真阴性（TN）：它包括实际小肽类别以及小肽类别的预测值为假的情况。假阳性（FP）：它包括小肽类别的实际值为假，但小肽类别的预测值为真的情况。假阴性（FN）：它包括小肽类别的实际值为真但小肽类别的预测值为假的情况实验结果和ML模型分析在本节中，机器学习分类器的预测能力已通过不同性能在对数据进行仔细观察之后，发现小肽数据是不平衡的，即在不同类别的实例数量中发现了巨大的差异。在这种不平衡的数据情况下，灵敏度（真阳性）是性能评估中使用的重要指标。在目前的情况下，灵敏度的测量是最有益的，因为它给出了准确预测的每类物质。灵敏度结果见表4和图2。对于一个健壮的分类器，该值应该足够高，以实现准确和健壮的分类器。经过比较，机器学习分类器，提出的多类随机森林（MCRF）分类器被发现是每个分区方法的其他分类器中的佼佼者。对于50-50训练-测试分区，MCRF的灵敏度为82.2%，优于其他分类器。MCRF分类器在66-34和80-20的训练-测试分组中的灵敏度10-折叠交叉验证也证实MCRF在检测真阳性方面很好。对于10倍交叉验证，MCRF模型的灵敏度分别为100%和73.7%。由于MCRF模型是RF模型的扩展，因此已观察到RF是本研究的第二佳表现者，其中RF的灵敏度更接近于每种分区方法的MCRF（图10）。 1）。机器学习模型的性能准确度和检测率已在表5和图3中提到。对50-50、66-34和80-20三种分裂的准确率分别为81.8%、81.8%和81.8%，检出率分别为80.3%、81.0%和81.1%。提出的MCRF模型A. Tripathi，T. Goswami，S.K. Trivedi etal.International Journal of Information Management Data Insights 1（2021）1000295+++表3性能评估指标和统计测试。序列号和公式描述1准确度=�� 100总正确预测数占总预测数的比率+++作出的预测准确度越高，模型越好2回忆或敏感度=��实际预测值占所有预测值的比例电子邮件3检出率=实际值。它是实际真预测值占所有预测值的比例4Kappa统计（Carletta，1996）评估分类的好坏与随机分配值相比它位于-1和+1，小于0的值表示模型比随机分配的值差，接近1的值表示模型好。5受试者工作特性布拉德利（Bradley） 1997年）是评估机器的有力指标学习模式该曲线绘制在灵敏度（真阳性）和1-特异性（假阳性）之间。6曲线下面积（AUC）NA曲线下面积（AUC）表示参数可以区分两类（是/否）。AUC的范围介于0和1之间。AUC值接近1表示试验良好。7两两比较的Wilco XonNAWilco X on符号等级检验（Wilco X on，1945; Hu et al.，（2016）A非参数检验用作配对t检验的计数器。该测试表明，对于同一数据库，两种机器学习算法的性能是相同的或不同的。为该测试创建零假设，即“两个机器学习模型的预测能力相同”;因此，分类器精度的平均差异将为零（Trivedi和Panigrahi，2018）。该测试的结果示于表7中。在95%置信区间内，所有成对比较均具有显著性（p值<0.05）。因此，所有模型都各不相同其他.表4机器学习分类器的灵敏度比较训练-测试分区NB（%）SVM（%）C5.0（%）RF（%）MCRF（%）50-5068.977.775.681.882.266电话：+8610倍69.3 77.4 76.7 81.8 82.2再次证明了其优越性，在10倍交叉验证中的准确率为82.8%，检测率为82.2%，这有力地支持了从不同的训练-测试分裂方法中获得RF结果与建议的分类器接近。MCRF模型的曲线下面积（AUC）（表6和图4）为90.6%，这表明与其他分类器相比，该模型处理数据的稳健性。Kappa统计值（表7和图5）也证实了MCRF模型的优效性10倍交叉验证的Kappa统计值为0.66，大于0.5，表明C5.0是一个良好的模型。对于50-50、66-0.65 Kappa值。在本研究中还进行了配对观察的WilcoX on由于该统计量的p值小于0（p值0），因此对于每个配对比较，不接受零假设（分类器中位观察值之间的差异=0），接受备择假设。<这些观察结果证实，每个分类器的观察结果与其他分类器的观察结果显著不同讨论小肽的预测正成为一个有前途的研究领域，并获得了来自工业界的研究人员和开发人员的关注以及临床兴趣。由于小肽是一种难以检测的小分子物质，对植物的生长发育具有重要意义，因此研究小肽在植物体内的生物活性具有重要意义。Fig. 1. 小肽预测模型流程图。检测小肽。尽管很少有研究A. Tripathi，T. Goswami，S.K. Trivedi etal.International Journal of Information Management Data Insights 1（2021）1000296灵敏度（%）858075706560NB SVM C5.0 RF MCRF分类器图2. 机器学习分类器的灵敏度比较。50-50 66-34 80-20 10倍AUC（%）图三. 分类准确率和检出率的比较。10090807080-20NBSVMC5.050-50RFMCRF机器学习分类器50-50 66-34 80-20 10倍见图4。 AUC值比较。图五. 每个模型的Kappa统计量。本文提出了一种新的多类随机森林算法尽管已经进行了检测小肽性质以将它们置于不同的类别中，但仍然难以检测特定的小肽类别。搜索以识别小肽的类别。这项研究的基本障碍是数据的性质，这些数据被认为是高度不平衡的。最后，任何生物信息学应用程序都需要仔细考虑-灵敏度AUC分裂A. Tripathi，T. Goswami，S.K. Trivedi etal.International Journal of Information Management Data Insights 1（2021）1000297表5分类准确度和检测率的比较培训-测试分区NB（%）SVM（%）C5.0（%）RF（%）MCRF（%）ACC博士ACC博士访问DRACCDR访问博士50-50 72.3 70.1 79.0 77.1 75.0 73.0 81.0 79.9 81.8 80.366-34 73.1 71.2 78.5 77.1 72.0 71.1 80.3 81.8 81.080-20 72.4 69.5 78.3 77.4 75.4 73.1 81.4 81.8 81.110倍72.0 69.3 78.1 77.8 76.7 75.5 81.2 81.4 81.8 82.2Acc=准确度; DR=检测率表6AUC值比较。训练-测试分区分区NB（%）SVM（%）C5.0（%）RF（%）MCRF（%）AUC50–5077.177.178.490.590.566电话：+86-20 - 88888888传真：+86-20 - 8888888810倍83.3 77.4 78.3 90.4 90.6表7每个模型的Kappa统计量。训练-测试分区NBSVMC5.0RFMCRF50-500.450.550.520.640.6566-34 0.47 0.56 0.53 0.63 0.652019 - 05 - 25 0.46 0.55 0.53 0.64 0.6410折0.65 0.56 0.55 0.65 0.66表8WilcoX符号排序检验。NB SVM C5.0 RF MCRFNB 3.0E-11 5.0E-02 4.3E-033.01E-11 SVM 3.0E-113.0E-11 2.8 E-03NN 7.0E-05 3.0E-11C5.0 3.0E-11对于不平衡的数据，在灵敏度和特异性之间寻求最佳平衡为了准确预测小肽，应确保高灵敏度（即，轻微的假阳性），这意味着不要错过感兴趣的小肽类别。对于每个类别，灵敏度应该是最佳的，以避免小肽的错误分类。有几种方法可以处理不平衡数据。重要的技术是重新采样训练数据，机器学习分类器的集合，k倍交叉验证，正确选择评估指标等。由于数据集中提到的所有小肽类别都很重要，我们不能留下任何小肽序列。本研究的重点是使用不同的评估指标进行更广泛的分析稳健性分析考虑了F值、采用不同的采样方法50- 50%、66-理论贡献所提出的方法MCRF是这两种技术的结合。在第一种技术中，使用随机森林，一种基于集合的分类器，适用于不平衡数据，另一方面，多类方法也与随机搜索相结合，以处理多类数据。然后，将所提出的MCRF模型与其他最先进的机器学习分类器进行比较，发现在使用不同指标进行广泛评估后，该模型具有鲁棒性和准确性，可用于处理小肽的预测。为了检验所提出的模型的强度，还涉及例如Kappa统计和WilcoX符号排序检验。Kappa统计量用于查看机会一致性，因为该统计量的值大于0.6（Seldenrijk等人，1991年）。还进行了WilcoX符号排序检验，表明所有模型在统计学上彼此不同。在表9中，提供了小肽模型的比较分析。使用不同的算法开发了不同的模型，用于预测不同的类别。从表9中可以清楚地看出，据我们所知，其他研究中的模型已被用于两类问题，并且存档的准确性仍然是一个挑战。在这项研究中，为多类小肽开发了一个模型，并与最先进的分类器进行了比较建议的MCRF分类器给出了超过82%的准确度，似乎是好的，与其他最先进的分级机相比，所有性能指标均达到最佳水平。多类随机森林（MCRF）是这项研究的主要贡献，因为这种分类器的性能证明是好的分类多类监督数据。此外，当我们将小肽模型的结果与其他可用的小肽模型进行比较时（表9），所提出的分类器要么是最好的，要么是相当的。建议将该模型用于其他多类数据。影响这项研究的意义是双重的，即，研究开发的观点和管理的观点。由于生物学和生物信息学领域广泛研究的增加，大量数据每天积累并管理到不同的数据存储库中。已经进行了许多研究来开发和管理生物数据储存库（Mathur等人，2021; Jin等人，2021; Olexiouk等人，2018）巧妙地吸收了存储库上的自动数据搜索工具，以有效地管理数据和信息。肽是蛋白质的最小形式，用于许多医疗保健和化妆品，如抗衰老，抗炎和破坏微生物。关于蛋白质和肽有一个混淆，两者都是由氨基酸链组成，但肽的氨基酸很少另一方面，小肽是由很少的氨基酸组成的非常小的分子，有时它们非常小，看不见，通常研究得很少。由于重要的特征（Ovando等人，2018）的小肽用于植物生长，医疗保健用途，化妆品和其他用途，这项研究是一种尝试，以重组小肽库，即。ARA-PEPs，并利用自动人工智能和机器学习模型，开发了一个有效的小肽信息管理系统。由于不同类别的小肽在医疗保健中的应用各有利弊表9不同类别小肽的预测模型与建议模型。序列号型号年份URL类别ML算法性能描述引文1AVPPred，2012http://crdd.osdd.net/servers/avppredTwoSVM86%AMP PredictionThakur et al.， 20122CS-AMPPred，2012http://sourceforge.net/projects/csamppred/TwoSVM90.00%AMP PredictionPorto et al.， 20123iAMP-2L，2013http://www.jci-bioinfo.cn/iAMP-2L两个模糊kNN 86.32% AMP查询序列预测模型Xiao等人， 20134AntiCP，2013http://crdd.osdd.net/raghava/anticp/TwoSVM91.44%ACP Design and predictionTyagi et al.，20135Hajishari Fiet al.，2014NATwoSVM89.7%ACP预测Hajishari等人 20146Ng等人，2015NATwoSVM-LZ86.37%AMP预测Ng et al.， 20157Veltri等人，2017NATwoLR无数据AMP预测Veltri et al.，20178iAMPPred 2017http://cabgrid.res.in:8080/amppred/两个SVM 90% AMP预测9Gupta等人，2017http：//metagenomics.iiserb.ac.in/antiin peptiam/两个SVM，RF78.10%AIPs预测Gupta等人，201710IL-10pred2017http://crdd.osdd.net/raghava/IL-10pred/TwoRF81.24%IL-10 Peptide predictionNagpal et al.，201711MLACP2017http://www.thegleelab.org/MLACP.htmlTwoSVM，RF88.72%ACP predictionManavalan et al.， 201712Vishnepolskyetal.， 2018https://dbaasp.org两种kMC80%抗菌效力革兰氏阴性菌预测模型13AIPPred，2018http://www.thegleelab.org/AIPPred两个RF，ERT，SVM，k-NN.74.40% AIP预测Manavalan等人， 201814本研究2020正在建设中硅XMCRF82.20%小肽多类预测当前工作cAMP：抗菌肽，ACP：抗癌肽，AIP：抗炎肽，IL-10：白细胞介素-10A. Tripathi，T. Goswami，S.K. Trivedi etal.International Journal of Information Management Data Insights 1（2021）1000298A. Tripathi，T. Goswami，S.K. Trivedi etal.International Journal of Information Management Data Insights 1（2021）1000299和化妆品以及植物生长和发育，重要的是要知道小肽的特定类别。在这项研究中，已经创建了一个多类随机森林机器学习模型，用于识别小肽的特定类别，以便可以采取适当的决策，并可以巧妙地处理存储库的数据搜索。此外，对于多类数据，所提出的多类模型是最好的。所提出的模型可以通过在其他分类器中应用相同的多类技术来验证，即，神经网络，如作为DensNet（Chauhan等人，2021）、SVM、决策树等。此外，多类技术在其他生物启发优化技术中可能是适当的（Batra等人，2021）以及处理诸如文本数据的其他数据格式的问题（Kushwaha等人，2021年），进行情感分类。结论本研究提出了一种计算智能预测模型多类随机森林（MCRF）来预测特定类别的小肽。经过各种性能评价指标和统计测试的广泛分析，发现所提出的MCRF模型是一个强大的和准确的预测模型的小

下载后可阅读完整内容，剩余1页未读，立即下载