没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报使用许多相关特征和上下文无关语法对Sabenabanu Abdulkadhar,Gurusamy Murugesan,Jeyakumar Natarajan数据挖掘和文本挖掘实验室,生物信息学系,Bharathiar大学,Coimbatore,Tamilnadu 641 046,印度阿提奇莱因福奥文章历史记录:2017年6月7日收到2017年10月11日修订2017年10月12日接受2017年10月16日在线提供保留字:文章分类任务蛋白质-蛋白质相互作用命名实体识别Boosting classifier潜在语义分析上下文无关文法A B S T R A C T蛋白质相互作用(PPI)产物的检测本文提出了一种混合文本分类(TC)方法来识别蛋白质-蛋白质相互作用文章。我们的方法包括四个模块:i)特征提取,ii)基于语义相似性的特征选择,iii)包围学习和iv)基于上下文无关语法(CFG)的后处理,以分类PPI相关文章。在第一个模块中,我们提取了许多语言和领域特定的特征,如蛋白质名称,相互作用线索等,对文件进行分类第二个模块使用基于相似性的特征选择来提取相关的有效特征。在第三个模块中,我们采用基于AdaBoost的集成学习来提高弱学习分类器的性能。最后一个模块采用基于CFG的模式匹配来解决分类器中的错误。我们的混合TC方法的性能进行了训练和测试的BioCreative III语料库中,我们达到了0.5813的准确率和召回率为0.6582。该系统的整体F分数为0.6228,我们的混合方法结合集成分类器和CFG后处理方法优于大多数最先进的系统。©2017作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍蛋白质-蛋白质相互作用(PPI)信息对于理解诸如细胞周期控制和疾病原因等生物现象是重要的(Kolchinsky等人,2010年)。例如,PPI可以帮助我们理解某些疾病的原因,这反过来可以导致治疗干预的发展(Papanikolaou等人,2015 年)。目前广泛的PPI 数据库如BioGRID(Chatr-aryamontri等人, 2017)、INTACT(Orchard等人,2013)、MINT(Licata等人,2011)已经通过从包括生物医学文献(Kalpana等人,2013年)。PPI和上述PPI数据库的应用包括途径构建(Pyysalo等人,2015),网络分析(Alanis-Lobato等人,2017)和生物事件提取(He等人,目前,上述数据库的管理者从大量的蛋白质中提取蛋白质相互作用,*通讯作者。电子邮件地址:n. yahoo.co.in(J. Natarajan)。沙特国王大学负责同行审查。科学文章的人工编辑,这是一个耗时的过程(Wang等人,2017年)。为了从生物医学文献中自动提取PPI并减少人工管理时间,可以使用几种文本挖掘方法,例如术语共现(Daraselia等人,2004)、模式匹配方法(Hao等人,2005)和复杂的机器学习方法(Bobic等人,2012年)开发。从生物医学文献中有效识别和提取PPI的前提是必须首先确定给定的文章是否包含蛋白质-蛋白质相互作用。这被称为文章分类任务(ACT)或简单的文本分类(TC)任务。 TC旨在将文章二进制分类为与研究中的相应主题相关或不相关(例如,在我们的情况下,蛋白质-蛋白质相互作用)(Shatkay等人,2008; Zweigenbaum等人,2007年)。文本分类的目标描绘了语言学、统计学和机器学习技术的安排,这些技术对文本源的信息内容进行建模和结构化由于文章分类是自动PPI提取中的重要先决条件任务,因此已通过多个社区范围的挑战解决了该问题,例如BioCreative (http://www.w.w.w.cn/ ) 。 biocreative.org/ ) 上 提 供 。 BioCreative(BC)是一个社区范围的努力和特殊兴趣小组,用于评估应用于生物领域的文本挖掘和信息提取系统,https://doi.org/10.1016/j.jksuci.2017.10.0031319-1578/©2017作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com554S. Abdulkadhar等人/沙特国王大学学报定期举办生物学资讯提取专题讲座(http://www.biocreative.org/)上提供。BioCreative III组织于2010年,有一项特殊任务来识别PPI文章,该任务被命名为文章分类任务(ACT)Krallinger等人, 2011年的基准数据集,以评估各种系统的性能。用于BCIII PPI文章分类任务的数据集包括2280篇用于培训的文章,6000篇用于测试的文章和4000篇用于开发的文章。针对上述分类任务探索了各种方法,诸如朴素贝叶斯、可变三角阈值线性分类器、支持向量机(SVM)和基于特征的方法(Arighi等人, 2011年)。上述分类任务的F分数方面的报告结果范围为31.12%至61.42%(Arighi等人,2011年)。这些结果表明,还有很大的改进空间我们工作的动机来自使用集成学习的一般文本分类任务的当前趋势(Wang等人, 2017年)。 由于集成分类在一般文本分类任务中表现最好(Behera等人,2016年; Perikos和Hatzilygeroudis,2016年)。 为了了解集成分类在领域特定文本分类中的表现如何,基于语法的模式匹配方法优于诸如RegEX的简单模式匹配技术(Mitsumori等人,二 ○ ○六年;Temkin和Gilder,2003年)。在本文中,我们使用集成学习的PPI文章分类。一组相关的功能,潜在语义分析(LSA)为基础的特征选择,上下文无关语法(CFG)为基础的后处理规则与集成分类器,以提高我们的系统的性能。2. 文献综述2.1. 生物医学文本分类如前所述,生物医学领域的文本分类主要集中在PPI相关文章分类上。PPI文章分类任务提出了独特的挑战,例如大量的特征,大量的训练文档和特征之间的依赖性。为了克服上述挑战,引入了机器学习方法(Arighi等人,2011年)。此外,ML方法在与其他简单基线方法(诸如基于规则的系统(Park等人, 2009)、基于词典的方法(Liddy等人, 1994年)等。在BCIII-ACT中,使用了大量的方法来对PPI相关文章进行分类,这些文章使用了n元语法、单词和句法特征以及机器学习算法(Arighi等人,2011年)。例如,Garcia等人,使用用朴素贝叶斯模型训练的n-gram特征(García等人,2007年)。Agarwal等人,使用具有支持向量机和朴素贝叶斯多项模型的一元和二元特征(Agarwal等人,2011),Kim等人,使用特殊特征,如单词和句法特征,并使用Huber分类器训练模型(Kim和John Wilbur,2011)。此外,还针对PPI分类探索了不同的特征和特征选择方法(Wang等人,2011年; Chen等人,2015年)。Wang等人使用不同类型的MeSH信息特征来改进结果(Wang等人,2011年)。Chen等人,使用基于相似性的特征选择来过滤PPI文章分类的相关特征(Chen等人, 2015年)。2.2. 文本分类最近,基于集成的学习方法被用于一般文本分类任务(Onan andOnan,2017; Onan,2016)。包围学习方法旨在组合多种学习算法的预测,使得可以获得具有更高预测性能的分类模型(Rokach,2010; Lin等人,2014年)。与基本学习算法相比,分类器集成的泛化能力得到了很大的提高。此外,集成学习方法可以提高弱学习算法的预测性能(Rokach,2010)。集成的其他应用在聚类等任务中获得了关注(Onan和Onan,2017; Ren等人,2017年),分类(Onan和Onan , 2017 年 ; Onan , 2016 年 ) , 情 感 分 析 ( Onan 和KorukogZurlu,2017年 ;Onan等人,2016;Perikos和Hatzilygeroudis,2016)等。据我们所知,目前只有一项关于使用集成学习的PPI物品分类任务的工作(Chen等人,2014年)。Chen等人,提出了一种集成自训练SVM分类器和加权投票方案来对BCII语料库上的PPI文章进行分类(Chen等人,2014年)。基于上述事实,我们探索了PPI文章分类任务的集成学习。为了提高分类精度,提出了基于LSA的特征选择方法,从大特征集中提取相关特征,以及基于CFG的后处理方法,以减少分类器的误报。3. 材料和方法3.1. 架构本文中探索的用于对PPI相关文章进行分类的混合分类方法包括以下处理流水线和系统架构,如图所示。1.一、i) 由许多相关特征组成的特征集ii) 基于潜在语义分析iii) 集成分类器iv) 基于CFG的后处理3.2. 功能集在TC中,提取相关特征用于分类是重要的通常,特征可以是局部的或全局的。一个特征可以简单到一个标记,或者一个语言短语,或者更复杂的语法模板。特征可以是不同语言水平的特征量(Ciya等人,2001年)。在我们的混合分类方法中,我们使用了许多与PPI分类相关的相关特征。它们大致分为i)基本特征,ii)NER特征,iii)否定特征,iv)交互词特征和v)轮廓特征。在我们的混合方法中使用的所有上述特征在表1中示出。3.3. 特征选择由于TC问题的特征空间维数较高,通常采用特征选择的方法来降低维数。TC的常用特征选择方法包括X平方、互信息、信息增益、基尼指数等(Singh等人,2010年)。每种特征选择方法都有其自身的局限性(Mitchell,1997; Aggarwal和Zhai,2012)。卡方检验通常用于小数据集,信息增益存在过拟合问题,互信息在处理数据集时存在一些优化问题,基尼指数存在全球类别分布问题(Mitchell,1997; Aggarwaland Zhai,2012)。然而,最近的研究报道,基于语义相似性的特征选择方法可以给出良好的结果TC问题(Zong,2015; Harispe等人,2015年)。语义相似性是在一组文档或术语上定义的度量,其中它们之间的距离的设计是基于它们S. Abdulkadhar等人/沙特国王大学学报555Fig. 1. 系统架构。表1功能.特征类型描述特征示例基本特性可用于初始预处理的特性1. 令牌化2. 产生3. 词袋4. N-gram5. 词性6. 句子切分1. 令牌化在哺乳动物中,有一个平行的细胞周期进入系统,其中细胞周期蛋白依赖性激酶(CDK)激活转录因子E2 F/Dp。Tokenized符号e:In|哺乳动物|..................E2f|/|DP|. |2. 产生在哺乳动物中,有一个平行的细胞周期进入系统,其中细胞周期蛋白依赖性激酶(CDK)激活转录因子E2 F/Dp。词干后:哺乳动物,激活,3.词在哺乳动物中,有一个平行的细胞周期进入系统,其中细胞周期蛋白依赖性激酶(CDK)激活转录因子E2 F/Dp。在哺乳动物中,有.........................................E2 F/Dp。4. N-gram(3-gram)在哺乳动物中,有一个平行的细胞周期进入系统,其中细胞周期蛋白依赖性激酶(CDK)激活转录因子E2 F/Dp。3克:在哺乳动物中|................................. |transcription factor E2F/Dp.5.词性(POS)在哺乳动物中,有一个平行的细胞周期进入系统,其中细胞周期蛋白依赖性激酶(CDK)激活转录因子E2 F/Dp。位置:< PP>.....< E2 P>< NNP>>< DP>< NNP>。6.句子分割:在哺乳动物中,有一个平行的细胞周期进入系统,其中细胞周期蛋白依赖性激酶(CDK)激活转录因子E2 F/Dp。分割后:<哺乳动物>.......................................< E2 F/Dp>。NER(命名实体识别)功能用作特征的蛋白质/基因名称。钙调神经磷酸酶、丝氨酸/苏氨酸等在哺乳动物中,有一个平行的细胞周期进入系统,其中<蛋白质>细胞周期蛋白依赖性激酶(CDK)/蛋白质>激活转录因子<蛋白质>E2 F/Dp)蛋白质>。交互词特征两种蛋白质激活,互动,相互作用,抑制在哺乳动物中,有一个平行的细胞周期进入系统,其中细胞周期蛋白依赖性激酶(CDK)<关键字>激活关键字>转录因子E2 F/Dp。否定特征否定关键字,如not,does not出现在句子中作为特征。剖面特征实验方法描述了两个蛋白质之间的相互作用被用作特征。Not,does not,donot等双杂交、生化活性、远西等肌动蛋白丝聚合驱动的运动<不支持126-kDa蛋白质转运。通过酵母双杂交筛选、直接结合研究,证实Siva-1是一个与SLIMMER特异性相互作用的蛋白。意义或语义内容而不是相似性,所述相似性可以根据它们对文本的句法描述来估计(Harispe等人, 2015年)。例如,如果两个特征出现在两个文档中,并且这两个文档属于同一类,则认为这两个特征在语义上相似或相关。在我们的TC任务中,我们应用潜在语义分析(LSA)来实现基于语义相似度的特征选择方法。LSA是一种分析文档之间语义关系的技术。为了检索特征之间的语义相似性,应用奇异值分解方法(SVD)来创建相似性矩阵(Adams和Bedrick,2014)。在执行LSA之前,我们首先使用TF-IDF方法计算词频矩阵。TF-IDF的设计采用以下行动方针。TF- IDFm;n<$ tfm;n× idfm其中m是文档中使用的项,n是用于分类的文档的总数。在计算TF-IDF后,我们使用LSA进行基于语义相似度的特征选择。通过使用以下程序估计LSA。LSA10000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000其中m、n是项和文件的奇异值s,s是包含X的奇异值的矩阵。我们使用TML(http://tml-java.sourceforge.net/)实现LSA。3.4. 集成分类当考虑一个好的分类器TC任务,支持向量机已成功地用于几个分类任务(Joachims,2002)。然而,在最近的一些工作中,提升分类器给出了更好的性能(Freund和Schapire,1996)。Boosting是一556S. Abdulkadhar等人/沙特国王大学学报方法来改进弱学习分类器(Witten和Frank)。Boosting通过在制备信息上的不同传播上不止一次地运行给定的弱学习算法来工作,并且之后将弱学习器递送的分类器合并成单个复合分类器(Witten和Frank)。对于使用Boosting的集成分类,我们使用Ada-Boost算法。AdaBoost是一种构造“强”分类器的算法因此,AdaBoost作为一个元分类器,减少了弱学习分类器的错误给定一组训练样本,AdaBoost在这些样本上保持概率分布W,从初始均匀分布开始。然后AdaBoost算法在一系列循环中重复调用弱学习算法(Schapire和Singer,1999)。因此,我们决定使用Boosting分类器来完成我们的分类任务。在提升分类器中,我们使用AdaBoost的JBoost实现(http://jboost. sourceforge.net/)上提供。此外,为了比较增强分类器与传统分类器的性能,我们使用SVM(支持向量机)和SVR(支持向量回归)作为两个基线分类器。对于SVM和SVR分类,我们使用ClearTK(http://cleartk.www.example.comgithub.io/cleartk/ ) 实 现 , 其 具 有 RBF核、度3和正则化参数c为1.0。3.5. CFG在后处理步骤中,我们实现了基于上下文无关语法(CFG)的规则,以进一步改善分类器的结果。我们使用CFG代替正则表达式来实现上述规则。在比较正则表达式和CFG时,后者生成的语言模型比正则表达式有更好的匹配和结果。为了将句子输入到CFG中,我们首先使用链接语法分析器(Sleator和Davy,1995)对文章进行语法分析,以生成文本的基本语法第4.2节解释了CFG中使用的规则。3.5.1. 上下文无关文法CFG通过专注于特定领域的结构而不是分析给定语言的语义,大大降低了自然语言处理(NLP)的复杂性(Temkin和Gilder,2003)。在我们的分类任务中,我们部署了一组产生式规则来识别PPI信息。在CFG产生式规则中有四个关键组成部分(Aho等人,一九八六年)i) 一组标记T,称为终端符号。ii) 一组与T不相交的非终结符NTiii) 一组产品P的形式a?b,其中a ∈ N,b是N个符号的一个或多个符号的序列。iv) 起始符号S,其中Se N。我们应用NLTK(http://www.nltk.org)实现来为给定的句子生成CFG修改语法分析器输出,将蛋白质名称替换为末端(T),将交互词替换为(I),将否定词替换为(N),将交互方法替换为(P)。整个过程是通过使用自顶向下的方法。从开始符号(词法标记)开始,应用一组产生式,这是用于将字符串中产生式左侧的非终结符重写为产生式右侧的其他非终结符或终结符的规则。重复此过程,直到所有非终结符都被终结符替换。这将生成结果句子(图。2)的情况。后来,Knuth Morris Pratt算法的修改版本被用来从句子中提取模式(Pandey和Prajapati,2016)。该算法改进了移位长度,提高了精确模式匹配的速度它从图案的左到右比较字符。此外,如果算法发现匹配或不匹配,它使用先前的比较知识来计算文本中模式的下一个位置(Pandey和Prajapati,2016)。 图 2描述了上下文无关的gram- mar格式。CFG后处理用于去除假阳性,并有助于提高准确率和召回率。4. 结果和讨论4.1. 结果要评价任何一个分类器的性能,选择合适的语料库是必不可少的重要 前 提 。 PPI 文 章 分 类 任 务 一 直 是 BioCreative challenge(http://www.biocreative.org/)的主要关注主题,据我们所知,可用于该任务的最新黄金标准数据集是BioCrea- tive III语料库。BioCreative III语料库由2280个训练数据、4000个开发数据和6000个测试数据组成,如表2所示。训练数据平衡地收集了正面和负面的例子。注释人员根据PPI相关期刊,从当前合作蛋白质相互作用数据库的内容中准备开发和测试集。不同类型的指标被用来探索我们的TC系统的这些是准确度,精确度,召回率,MCC(Mathew在分类时,采用F-score和MCC来衡量系统的性能F分数通过四个度量来测量-真阳性(TP),图二. 上下文无关语法格式。S. Abdulkadhar等人/沙特国王大学学报557-1/4MCC评分表2BioCreative III语料库。身体例如SVM和SVR,但没有任何重要作用像AdaBoost这样的分类器。表5示出了混合模型的结果,该混合模型包括特征选择、集合培训考试22806000学习结合CFG后处理。总体结果在表5中,显示AdaBoost在com-发展4000使用两个SVM分类器进行分类这些结果表明,AdaBoost等优秀分类器克服了SVM、SVR等弱分类器在PPI分类任务中的局限性。真阴性(TN)、假阳性(FP)和假阴性(FN)。F分数和MCC通过以下程序设计。上述分类结果的ROC图如图1A和1B所示。3和4F评分2ωPωRPRTP TNFPFNPTPFPTPFNT NFPTNFNNFNð3Þð4Þ4.2. 讨论我们实现了混合TC分类方法,我们的分类方法的独特步骤是i)许多相关特征,ii)最先进的特征选择方法,iii)我们训练了我们的三个分类器SVM,SVR和AdaBoost与许多相关的特征,特征选择方法,CFG后处理,并创建了不同类型的模型来评估性能。使用BCIII数据集进行文章培训和测试进行了以下培训和测试方法,以评估我们的混合TC方法的性能。i) 所有要素,无需特征选择和后处理ii) 具有LSA特征选择且无后处理的特征集iii) 具有LSA特征选择和CFG后处理的特征集。结果在表3表3示出了所有三个分类器SVM、SVR和AdaBoost的结果,没有任何特征选择和后处理。类似地,表4探索了具有基于LSA的特征选择并且没有后处理的特征集的结果最后,表5显示了使用LSA和CFG后处理实现特征选择将表3的结果与包括LSA特征选择方法的表4的结果进行比较,示出了SVM和SVR分类器的精度的提高,但是召回率降低,因此F测量的边际提高。基于这些结果的一般结论是,特征选择方法,如LSA有助于提高弱分类器集成分类器和iv)基于CFG的后处理方法。下面讨论在上述每个处理管道中遇到的一些有趣的发现在我们的分类任务中,我们包括独特的功能,如NER功能,互动词,否定词,和个人资料的功能。对于NER特征,我们首先标记使用BANNER(命名实体标记器)识别的所有蛋白质名称(Leaman和Gonzalez,2008)。蛋白质名称作为一个单词包被包括在内,并用于所有三个分类器的训练。利用蛋白质名称实体标注技术对LYS 63、RSP5 、 SREBP-1-DNA 、 SREBP-1C 、 PKC ALPHA 、 CYS 296-CYS 298 、 PYK10、CSN 5等蛋白质名称进行了标注。类似地,交互词特征是我们用来命中PPI交互关键词的下一个独特 我们使用了400个手动策划的交互词,这些交互词来自作为我们小组先前工作的一部分而创建的交互关键词词典(Kalpana等人,2013年)。所有400个交互词都被包括在一个词袋中,并用于所有三个分类器的训练作为特征使用的一些代表性和罕见的相互作用关键词包括泛素化、免疫共沉淀、分解、耗尽、下调、升高等。此外,大多数相互作用文章包含负相互作用,其可以使用两种蛋白质之间的否定关键词和相互作用关键词的存在来识别。我们用了六个否定词,not,neither/nor,does not,do not,表3三种分类器(SVM,SVR,AdaBoost)的评估结果,无需特征选择和后处理。S.NO方法精度召回F-measureMCC1SVM +丰富的特征0.48470.69670.57170.49022SVR +丰富的功能0.56190.62300.59080.51423提升+丰富的功能0.58410.64830.61440.5424表4三个分类器的评估结果,基于LSA的特征选择,没有后处理。S.NO方法精度召回F-measureMCC1SVM + Features + LSA特征选择0.56390.62520.59290.51672SVR + Features + LSA功能选择0.57720.64060.60590.52053Boosting + Features+ LSA功能选择0.58900.64800.61700.5435表5三个分类器的评估结果与特征选择和基于CFG的后处理。S.NO方法精度召回F-measureMCC1SVM +特征+LSA特征选择+基于CFG的后处理0.57820.64710.60820.53742SVR+特征+LSA特征选择+基于CFG的后处理0.58770.65420.61910.55383Boosting + Features +LSA特征选择+基于CFG的后处理0.59130.65820.62280.5545558S. Abdulkadhar等人/沙特国王大学学报表7数据BCIII上的前20个功能,使用基于LSA的功能选择。特征选择特征LSA相互作用,相互作用,抑制,共免疫沉淀,激活,蛋白质,细胞,缀合,结合,结合,影响,促进,杂交,细胞,取代,上调,减少,抑制,刺激,调节图三. 3种不同分类器(SVM,SVR和Boosting)的ROC图,无特征选择和CFG。见图4。3种不同分类器(SVM,SVR和Boosting)的ROC图,带有特征选择和CFG。表6与基本功能和附加四个功能的性能比较S.NO特点F-SCORE1提升+基本功能0.58172提升+NER功能0.58863Boosting+ NER+交互词0.59174提升+否定功能0.58575Boosting +NER +交互词+个人资料特征0.6085功能.如果任何上述否定词出现在两个蛋白质之间的3-5个词的接近度内轮廓特征是我们在分类任务中使用的最后一个特征我们编制了一个交互方法列表,描述了两种蛋白质之间的相互作用,作为对文章进行分类的一个特征 谱特征被用于识别特定类型的相互作用方法,如FRET,双杂交筛选,亲和捕获发光,共晶结构等。我们总共使用了11种这样的交互方法作为配置文件功能。用于相互作用的方法取自BIOGRID(Chatraryamontri等人,2017)数据库。基本功能与四个附加功能的性能比较如表6所示。结果表明,上述四个附加特征有助于相对于具有基本特征(如POS、标记化词干等)的基线系统增加0.6085的F分数,该基线系统给出0.5817的F分数受Zong et al.(2015)和Harispe et al. (2015),我们应用了基于LSA的特征选择方法。LSA方法的优点包括简单的映射词与关系之间的特征被合并在同一个空间中,降低了特征的维数。通过使用LSA,我们实现了0.6170的F-得分,而没有特征选择的F-得分为0.6144。表7显示了实施LSA功能选择后的前20个功能。最后,我们应用了三个基于上下文无关语法的后处理规则,以消除误报,提高分类精度。每个规则的CFG后处理结果在表8中讨论,每个规则都有一个例句在使用CFG符号表示每个句子之后,这三个规则检查是否存在i) NER+交互词(包含交互)ii) NER+交互词+否定词(否定交互)iii) 剖面特征(交互方法)如表8所示,规则1用于通过将这些句子表示为CFG符号来识别文章中缺失的PPI交互句子,从而对其进行正确分类。规则2用于使用CFG标记来识别句子中否定关键字(例如,not、nei- ther/nor、does not、donot、最后,规则3,检查是否存在11个相互作用词(例如FRET,双杂交筛选,亲和捕获-发光,共晶结构等)在CFG符号之后。图 图3和图4区分了在应用CFG之前和之后每个分类器中的性能改进。对于每个分类器,差异以曲线的形式示出。4.3. 与其他系统的表9显示了我们的混合TC方法与在BioCreative III语料库上开发的其他最先进方法之间的比较。我们的方法通过使用丰富的特征集,基于LSA的特征选择和Entrance分类以及基于CFG的后处理方法来实现最佳结果。在其他作品中,他们采用了一系列不同的功能和不同的机器学习技术。Agarwal等人(2011)使用SVM和NBM算法进行分类和特征选择,他们使用简单的分类器来选择特征并实现0.6080的F分数。Kim和John Wilbur(2011)使用Huber分类器、词和句法特征对PPI相关文章进行分类,并获得了0.6258的F分数。Wang等人(2011)应用具有MeSH特征的Logistic回归SVM来提高性能的分类器,并达到0.5694 F-分数。Matos和Oliveira(2011)使用SVM和引理进行分类,并获得了0.6190的F分数。Chen等人(2015)使用基于上下文相似性的特征对与PPI相关或不相关的文章进行分类,其F评分为0.5796。总的来说,我们的方法优于大多数以前的方法,使用BCIII公司实施。这可能是由于以下事实:i)我们使用集成学习进行PPI文章分类任务,这 已 经 在 一 般 TC 任 务 中 进 行 了 充 分 的 探 索 ( Onan 和 Onan ,2017;Onan,2016)。ii)此外,我们包括基于LSA的特征选择方法,以从大量特征集中提取相关特征,以及基于CFG的后处理规则,以减少误报S. Abdulkadhar等人/沙特国王大学学报559表8在CFG后处理中使用的规则。规则模式例句后处理CFG净入学率+相互作用$ (T>=2) &&I>=1)包含交互作用E-cadherin和PTEN相互作用对上皮细胞CFG解析:NNP 1->相互作用。PP->的。NNP2->E-cadherin。“CC”和。NNP3->PTEN。VBZ->调节NP 3->上皮。NNS 2->细胞符号转换:$$(In相互作用,NT nof,T nE-cadherin,NT nand,TnPTEN,I n调节NT n上皮,NT n细胞)$$最终结果<蛋白质> E-钙粘蛋白/蛋白质>......................................上皮细胞的相互作用细胞NER+交互词+否定$(T>=2 I>=1 N)(T->蛋白质,I-相互作用词,N-否定词)检测否定交互。在酿酒酵母中,组蛋白。. .没有全局关联表达水平。CFG解析:PP->In. NNP->酵母菌属。NN->Cerevisiae. DT->The。NN1->histone.. . .. DT 2->否。JJ 1->全局NN 11->表达式。NN12-”水平。符号转换:$$(NT/In,NT/ Saccharomyces,NT/Cerevisiae N/no,NT/全局,I-关联NT/表达,NT/水平。)$$最终结果:在 Saccharomyces 酿酒酵母,蛋白<质>组蛋白蛋白质>.. .<否定>无否定>.............................表达水平。轮廓特征$(P>=1)(P ->轮廓特征)包含交互方法。Siva-1被确定为SLIMMER。.. . . ..酵母双杂交筛选直接结合研究。CFG解析:NP->湿婆-1。VBD->是。VBN->鉴定的NN 3->酵母-2杂交筛选ADJP->直接。VBG 2->绑定。符号转换:$$(NT/Siva-1,NT/was,NT/鉴定P/酵母双杂交-筛选,I/绑定)$$最终结果:Siva-1被鉴定为SLIMMER<概况>酵母双-杂交筛选/概况>直接结合研究表9与其他系统的性能比较系统描述F-scoreAgarwal等人(2011年)SVM +NBM 0.6080集成分类器中的假阳性。未来的工作包括探索不同的boosting算法和其他集成分类方法,如多数投票和装袋,以找到最好的PPI文章分类任务的集成分类器。金和约翰·威尔伯Huber分类器+词,句法特征0.6258(2011)引用Wang等人LR+ SVM + MeSH特征0.5964Matos和OliveiraSVM + 1 + 2克,引理0.6190(2011年)Chen等人201 5 年:上下文相似度特征0.5796混合TC方法增强(AdaBoost)+基于LSA的特征0.6228选择+CFG并且两者都提高了总体分类精度。我们的混合TC与其他方法在F分数方面的比较如表9所示。5. 结论和未来发展Navisphere本文提出了一种混合的方法,该方法包括许多相关的功能,LSA的特征选择,集成分类器和上下文无关的语法为基础的后处理PPI相关的文章进行分类。语义相似度通过过滤不相关的特征提高了特征选择的性能;集合分类减少了弱学习分类器的错误最后,基于CFG的后处理规则和模式匹配算法有助于解决分类错误,提高整体性能。实验和比较表明,我们的混合方法比最先进的系统在BCIII语料库的工作。目前的工作表明,集成分类器,如AdaBoost与基于LSA的特征选择和基于CFG的后处理性能优于基线分类器,如SVM和SVR。据我们所知,我们是第一个使用基于上下文无关语法(CFG)的后处理规则对PPI相关文章进行分类,以减少Adams,Joel Robert,Bedrick,Steven,2014. PubMed摘要的自动分类与潜在语义索引:工作笔记。在:在CLEF的问题分类实验室的会议记录。阿加瓦尔,S.,刘芳,余,H.,2011.用于识别蛋白质-蛋白质相互作用的简单有效的机器学习框架相 关 文 章 和 用 于 研 究 相 互 作 用 的 实 验方 法 。BMC Bioinf. 12(增刊8),S10。Aggarwal , Charu C. , Zhai , ChengXiang , 2012. 挖 掘 文 本 数 据 。 SpringerScience&Business Media.阿尔弗雷德五世Sethi,Ravi,Ullman,Jeffrey D.,1986.设计师,原则,技术。艾迪森·韦斯利Alanis-Lobato , Gregorio , Andrade-Navarro , Miguel A. , Schaefer , Martin H. ,2017. HIPPIE v2. 0:增强蛋白质相互作用网络的意义和可靠性。Nucleic Acids Res.45(D1),D408-D414。塞西莉亚·阿里吉例如,2011. BioCreative III研讨会概述。BMCBioinf.12(8). S1.Behera,Rabi Narayan,Manan,Roy,Dash,Sujata,2016.基于包围盒的混合机器学习情感分类方法综述。Int. J. Comput. 附录146(6).Bobic',Tamara等人,2012年。 改进药物-药物和蛋白质-蛋白质相互作用的远程监督提取。NLP中的无监督和半监督学习联合研讨会论文集。计算语言学协会。Chatr-aryamontri,Andrew等人,2017. BioGRID互动数据库:2017年更新。核酸研究45(D1)。D369-D379Chen,Yifei,Hou,Ping,Manderick,Bernard,2014. 集成自训练蛋白质相互作用文章分类器。生物医学脱线Eng.24(1),1323-1332.Chen,Yifei,Sun,Yuxing,Han,Bing-Qing,2015.使用基于上下文相似性的特征选择改进蛋白质相互作用文章的分类。生物医学研究所Int.锡亚湖 Shamim,A., 保罗,D., 2001. 文本分类中的特征预处理。Oracle文本选择 演讲。Daraselia,Nikolai等人,2004年使用全句分析器从MEDLINE中提取人类蛋白质相互作用。Bioinformatics 20(5),604-611.Freund,Yoav,Schapire,Robert E.,1996.使用新的boosting算法进行实验。第96章.García,Francisco Carrero等人,2007.生物医学文本分类中的属性分析。在:BioCreativeII研讨会论文集;马德里,西班牙。560S. Abdulkadhar等人/沙特国王大学学报Hao,Yu等人,2005.从文献中提取蛋白质-蛋白质相互作用的发现模式:第二部分。Bioinformati
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功