2017,53(10)
1 引言
细胞凋亡(apoptosis)是细胞的一种基本生物学现
象,在多细胞生物个体发育的正常进行、自稳平衡的保
持以及抵御外界各种因素的干扰等方面都起着非常重
要的 作用 。与 细胞 凋亡 有关 的蛋 白质 被称 为凋 亡蛋
白。研究表明,凋亡蛋白的功能与其在细胞内的亚细胞
位点密切相关
[1]
。因此,为了理解细胞凋亡的机制和各
种凋亡蛋白的功能,获得它们的亚细胞位点信息是非常
重要的。目前,利用生物学实验确定蛋白质亚细胞定位
的方法不仅费时而且代价过高,在实际应用中远远不能
满足蛋白质序列急剧增长的需要。因此,开发快速有效
的计算方法预测蛋白质亚细胞定位已成为蛋白质科学
和生物信息学领域的重要研究课题之一。
30 多年来,国内外学者在预测蛋白质亚细胞定位
方面已经做了大量的工作。2007 年,Chou 和 Shen
[2]
详
细综述了这一领域用到的主要算法。然而,目前对凋亡
蛋白亚细胞定位的预测研究相对较少,这主要是因为
当前数据库中经实验验证的凋亡蛋白数量较少。一般
基于 SVM-RF E 算法的凋亡蛋白亚细胞定位预测
刘太岗,王春华
LIU Taigang, WANG Ch unhua
上海海洋大学 信息学院,上海 201 306
College of Informat ion Technology, Shanghai Ocean University, Shanghai 201306, China
LIU Taigang, WANG Chunhua. Predicting apopt osis protein subcellul ar locati on based on SVM- RFE algorithm.
Computer Engine ering and Applications, 2017, 53(10):155-159.
Ab stract:Obtaining informa tion on subcellular location of apoptosis proteins plays an important role for revealing the
apopto sis mechanism and understanding the biological func tion of apoptosis pr otei ns. It is usually time- consuming and
costly to determine the subcellu lar location only relying on wet-bench experiments. Hence, it has become one of the most
important research fields in bioinformatics to develop fast and effective com putational method s to predict apoptosis proteins
subcell ular l ocation. I n this study, amino acid composition, dipeptide composition and auto covariance vari ables are
extracted to represent a protein based on posi tion s pecific scoring matrix. Then, recursive f eature e limination(RFE)is
adopted to select the optimal features. Finally, the reduced features are input to a Support Vector Machine(SVM)to perform
th e p rediction . Jackknife tests on two widely used datasets show that the proposed method provides the state-of-the-art
per formance in comparison with other existing methods.
Key words:po sition specif ic scoring mat rix; auto covarianc e tra nsformation; support vector machine; recursive feature
elimination; jackknife test
摘 要:获取凋亡蛋白亚细胞定位的信息对揭示细胞程序性死亡的机制和注解蛋白质功能都具有非常重要的意
义。鉴于实验方法确定亚细胞定位不仅费时费力而且代价过高,开发快速有效的计算方法预测亚细胞定位已成为
生物信息学领域的重要研究内容之一。首先基于位置特异性得分矩阵提取氨基酸组分、二肽组分和自协方差变量
等特征构建蛋白质序列的特征表示模型,然后采用递归特征消除法进行特征选择,最后选用支持向量机分类器在两
个常用数据集上进行夹克刀检验。实验结果表明,该方法优于大多数已报道的预测方法,从而证明了其有效性。
关键词:位置特异性得分矩阵 ;自协方差变换;支持向量机 ;递归特征消除 ;夹克刀检验
文献标志码:A 中图分类号:TP181 doi:10.3778/j.issn.1002-8331.1512-0276
基金项目:国家自然科学基金面上项目(No.41376135,No.31570112);上海海洋大学博士科研启动基金。
作者简介:刘太岗(1982—),男,博士,讲师,CCF 会员,研究领域为生物信息学,E-mail:tgliu @shou.edu.cn;王春华(1975—),男,博
士,副教授,研究方向为数学建模。
收稿日期:2015-12-22 修回日期:2016-04-11 文章编号:1002-8331(2017)10-0155-05
CN KI 网络优先出版:2016-05-27, http://www.cnki.net/kcms /detail/11.2127.TP.20160527.1527.0 28.html
Computer Engineering and Applications 计算机工程与应用
155