书书书
第 9 卷第 2 期
智 能 系 统 学 报
Vol.9 №.2
2014 年 4 月
CAAI Transactions on Intelligent Systems
Apr. 2014
DOI:10.3969 / j.issn.1673-4785.201307014
网络出版地址:http:/ / www.cnki.net / kcms / doi / CNKI:23-1538 / TP.20131105.1202.006.html
基因表达数据在邻域关系中的特征选择
陈玉明
1
,吴克寿
1
,李向军
2
(1. 厦门理工学院 计算机科学与技术系,福建 厦门 361024;2. 南昌大学 计算机科学与技术系,江西 南昌 330031)
摘 要:基因特征选择是基因表达数据分析中的一种重要方法。粗糙集是一种处理不确定性、不一致性、不精确性
数据的有效分类工具,其特点是保持基因表达数据集的分类能力不变,进行基因特征选择。为了避免传统粗糙集特
征选择方法所必需的离散化过程带来的信息损失,将邻域粗糙集特征选择方法应用于基因的特征选取,提出了基于
邻域粗糙集的基因选择方法。该方法从所有特征出发,根据特征重要度逐步删除冗余的特征,最后得到关键特征组
进行分类研究。在
2 个标准的基因表达数据集上进行特征选取,并进行了分类实验,实验结果表明该方法是有效可
行的。
关键词:粗糙集;邻域关系;基因表达数据;特征选择;分类
中图分类号:TP391 文献标志码:A 文章编号:1673-4785(2014)02-0210-04
中文引用格式:陈玉明,吴克寿,李向军. 基因表达数据在邻域关系中的特征选择[J]. 智能系统学报,2014,9(2):210-213.
英文引用格式:CHEN Yuming,WU Keshou,LI Xiangjun. Gene expression data feature selection with neighborhood relation[ J].
CAAI Transactions on Intelligent Systems,2014,9(2):209-212.
Gene expression data feature selection with neighborhood relation
CHEN Yuming
1
,WU Keshou
1
,LI Xiangjun
2
(1. Department of Computer Science and Technology,Xiamen University of Technology,Xiamen 361024,China;2. Department of
Computer Science and Technology,Nanchang University,Nanchang 330031,China)
Abstract:The selection of an efficient gene feature is a key procedure for analysis of gene expression data. The
rough set theory is an efficient classification tool to deal with uncertain
,inconsistent and inaccurate gene data. One
limitation of the rough set theory is the lack of effective methods for processing real valued data. However,gene ex-
pression data sets are always continuous. Discrete methods can result in information loss. This paper investigates an
approach to the selection of gene feature on the basis of the neighborhood rough set theory. Starting from all the fea-
tures
,this approach gradually removes the redundant features,and finally gets the key features of the group classifi-
cation study based on the importance degree of characteristics. To evaluate the performance of the proposed ap-
proach
,we applied it to two bench mark gene expression data sets which were compared to certain aspects of the
feature selections. The experimental results illustrate that our algorithm is more effective for selecting high discrimi-
native genes in cancer classification tasks.
Keywords:rough sets;neighborhood relation;gene expression data;feature selection;classification
收稿日期:2012-10-26. 网络出版日期:2013-11-05.
基金项目:国家自然科学青年基金资助项目(61103246).
通信作者:陈玉明. E-mail:cym0620@ 163.com.
美国人类基因组计划(HGP)把基因组信息学
定义为:它是一个学科领域,包含着基因组信息的获
取、处理、存储、分配、分析和解释的所有方面。基因
表达数据分析的对象是在不同条件下,全部或部分
基因的表达数据所构成的数据矩阵。通过对该数据
矩阵的分析,可以回答一些生物学问题。随着试验
技术及仪器的不断改进和基因组数据的急剧增长,
现代
DNA 微阵列或芯片技术产生的各种基因表达
数据均规模庞大、内容复杂。如何有效地分析利用
这些数据成为生物信息学中的挑战性课题。在基因
表达数据分析中,基因的数目成千上万,但往往只是