互信息最大化基因选择：模型无关方法与实验验证

38 浏览量更新于2024-08-27 收藏 1.14MB PDF 举报

"一种基于互信息最大化的模型无关基因选择方法" 本文提出了一种创新的基因选择策略，称为MMI-GA-Selection，旨在解决大规模基因芯片数据中高维度特征可能导致分类器性能下降的问题。在高通量基因表达数据中，大量的无关和冗余基因特征会增加计算复杂性，降低分类的准确性和效率。为了解决这个问题，研究者引入了互信息最大化的概念（MMI，Mutual Information Maximization）并结合遗传算法，设计出一种模型无关的特征选择方法。互信息最大化是信息论中的一个关键概念，它用来衡量两个随机变量之间的相互依赖程度。在基因选择的背景下，MMI被用来评估每个基因特征与目标分类之间的相关性。通过最大化基因特征与分类之间的互信息，可以选取那些对分类最具区分力的基因，从而消除无关和冗余基因的影响。遗传算法是一种全局优化方法，模拟了生物进化过程中的自然选择和遗传机制。在MMI-GA-Selection中，遗传算法被用来搜索最优的基因子集，其适应度函数是基于类间距离与类内距离的比值。这个适应度函数的设计有助于区分不同类别样本，使得算法能够优先保留那些能有效区分不同类别的基因。为了验证MMI-GA-Selection的有效性，研究者在三个不同的数据集上进行了实验，并采用了5折交叉验证来评估分类准确性。实验结果显示，该方法在所有数据集上都表现出较高的正确率，证明了其在减少冗余基因和提高分类精度方面的优势。此外，MMI-GA-Selection的一个显著优点是它的模型无关性。这意味着选择出的特征子集不仅适用于特定的分类模型，还可以直接应用于其他类型的分类器，这为生物信息学分析提供了更大的灵活性。这一特性使得研究者能够跨越不同模型进行比较，进一步优化分类性能。 MMI-GA-Selection提供了一个强大的工具，用于处理高维基因表达数据的特征选择问题。通过对基因数据进行有效的压缩，可以改善后续分类任务的性能，同时保持了方法的通用性，使其能够在各种机器学习和模式识别的上下文中发挥作用。这种方法的应用对于推动生物信息学领域的研究，特别是在癌症等疾病的早期诊断和治疗方面具有重要的潜在价值。

第

４１

卷

第

９

期

２０１４

年

９

月

计算机科学

Ｃｏｍ

ｐ

ｕｔｅｒ

Ｓｃｉｅｎｃｅ

Ｖｏｌ．４１Ｎｏ．９

Ｓｅ

ｐ

２０１４

到稿日期

：

２０１３

－

１１

－

２０

返修日期

：

２０１４

－

０２

－

２６

本文受国家自然科学基金

（

６１２７２３１５

，

６０８４２００９

，

６０９０５０３４

），

浙江省自然科学基金

（

Ｙ１１１０３４２

，

Ｙ１０８０９５０

），

浙江省科技厅国际合作项目

（

２０１２Ｃ２４０３０

）

资助

。

魏莎莎

（

１９８９－

），

女

，

硕士生

，

ＣＣＦ

会员

，

主要研究方向为机器学习

、

数据挖掘

，

Ｅ

－

ｍａｉｌ

：

ｗｅｉｓｈａｓｈａ５２１０

＠

１６３．ｃｏｍ

；

陆慧娟

（

１９６２－

），

女

，

博士

，

教

授

，

ＣＣＦ

常务理事

，

主要研究方向为机器学习

、

模式识别和生物信息学等

，

Ｅ

－

ｍａｉｌ

：

ｈ

ｊ

ｌｕ

＠

ｃ

ｊ

ｌｕ．ｅｄｕ．ｃｎ

（

通信作者

）；

安春霖

（

１９８８－

），

女

，

硕士生

，

ＣＣＦ

会员

，

主要研究方向为机器学习

、

数据挖掘

；

郑恩辉

（

１９７５－

），

男

，

博士

，

副教授

，

主要研究方向为模式识别和数据挖掘

；

金

伟

（

１９８９－

），

男

，

硕士生

，

主要研究方向为机器学习

、

模式识别

。

一种基于互信息最大化的模型无关基因选择方法

魏莎莎

１

陆慧娟

１

安春霖

１

郑恩辉

２

金

伟

１

（

中国计量学院信息工程学院

杭州

３１００１８

）

１

（

中国计量学院机电工程学院

杭州

３１００１８

）

２

摘

要

针对大规模基因芯片高维度的基因表达数据存在大量无关和冗余特征可能降低分类器性能的问题

，

提出了

一种基于互信息最大化方法

（

ＭＭＩ

）

和与遗传算法的模型无关的基因选择方法来将特征选择转化为全局优化问题

，

其

中的适应度函数定义为类间距离与类内距离之比

，

适应程度高

。

为了评价算法的性能

，

采用

３

个数据集进行了实验

，

结果表明

ＭＭＩＧＡ

－

Ｓｅｌｅｃｔｉｏｎ

取得了较好的效果

，

在每个数据集上获得了较高的

５

折交叉验证正确率

。

ＭＭＩＧＡ

－

Ｓｅｌｅｃ

－

ｔｉｏｎ

主要有两个优点

：

一是可以有效减少冗余基因

；

二是模型无关性

，

选择得出的特征子集可直接用于其他类型的分

类器

，

分类精度较高

。

关键词

互信息最大化

，

模型无关

，

遗传算法

，

基因选择

中图法分类号

ＴＰ１８１

文献标识码

Ａ

ＤＯＩ

１０．１１８９６

／

ｊ

．ｉｓｓｎ．１００２

－

１３７Ｘ．２０１４．０９．０４６

Ｍｏｄｅｌ

－

ｆｒｅｅ

Ｇｅｎｅ

Ｓｅｌｅｃｔｉｏｎ

Ｍｅｔｈｏｄ

Ｂａｓｅｄ

ｏｎ

Ｍａｘｉｍｕｍ

Ｍｕｔｕａｌ

Ｉｎｆｏｒｍａｔｉｏｎ

ＷＥＩ

Ｓｈａ

－

ｓｈａ

１

ＬＵ

Ｈｕｉ

－

ｊ

ｕａｎ

１

ＡＮ

Ｃｈｕｎ

－

Ｌｉｎ

１

ＺＨＥＮＧ

Ｅｎ

－

ｈｕｉ

２

ＪＩＮ

Ｗｅｉ

１

（

Ｄｅ

ｐ

ａｒｔｍｅｎｔ

ｏｆ

Ｉｎｆｏｒｍａｔｉｏｎ

Ｅｎ

ｇ

ｉｎｅｅｒｉｎ

ｇ

，

Ｃｈｉｎａ

Ｊｉｌｉａｎ

ｇ

Ｕｎｉｖｅｒｓｉｔ

ｙ

，

Ｈａｎ

ｇ

ｚｈｏｕ

３１００１８

，

Ｃｈｉｎａ

）

１

（

Ｄｅ

ｐ

ａｒｔｍｅｎｔ

ｏｆ

Ｍｅｃｈａｎｉｃａｌ

ａｎｄ

Ｅｌｅｃｔｒｉｃａｌ

Ｅｎ

ｇ

ｉｎｅｅｒｉｎ

ｇ

，

Ｃｈｉｎａ

Ｊｉｌｉａｎ

ｇ

Ｕｎｉｖｅｒｓｉｔ

ｙ

，

Ｈａｎ

ｇ

ｚｈｏｕ

３１００１８

，

Ｃｈｉｎａ

）

２

Ａｂｓｔｒａｃｔ

Ｔｈｅ

ｌａｒ

ｇ

ｅ

ｎｕｍｂｅｒ

ｏｆ

ｉｒｒｅｌｅｖａｎｔ

ａｎｄ

ｒｅｄｕｎｄａｎｔ

ｆｅａｔｕｒｅｓ

ｉｎ

ｈｉ

ｇ

ｈ

ｄｉｍｅｎｓｉｏｎａｌｉｔ

ｙ

ｏｆ

ｌａｒ

ｇ

ｅ

－

ｓｃａｌｅ

ｇ

ｅｎｅ

ｃｈｉ

ｐ

ｅｘ

ｐ

ｒｅｓ

－

ｓｉｏｎ

ｄａｔａ

ｍａ

ｙ

ｒｅｄｕｃｅ

ｔｈｅ

ｐ

ｅｒｆｏｒｍａｎｃｅ

ｏｆ

ｔｈｅ

ｃｌａｓｓｉｆｉｅｒｓ．Ｗｅ

ｐ

ｒｏ

ｐ

ｏｓｅｄ

ａ

ｍｏｄｅｌ

－

ｆｒｅｅ

ｇ

ｅｎｅ

ｓｅｌｅｃｔｉｏｎ

ｍｅｔｈｏｄ

ｂａｓｅｄ

ｏｎ

ｔｈｅ

ｍａｘｉｍｕｍ

ｍｕｔｕａｌ

ｉｎｆｏｒｍａｔｉｏｎ

（

ＭＭＩ

）

ｔｏ

ｔｒａｎｓｆｏｒｍ

ｆｅａｔｕｒｅ

ｓｅｌｅｃｔｉｏｎ

ｉｎｔｏ

ａ

ｇ

ｌｏｂａｌ

ｏ

ｐ

ｔｉｍｉｚａｔｉｏｎ

ｐ

ｒｏｂｌｅｍ．Ｔｈｅ

ｆｉｔｎｅｓｓ

ｆｕｎｃｔｉｏｎ

ｗａｓ

ｄｅｆｉｎｅｄ

ａｓ

ｔｈｅ

ｄｉｓｔａｎｃｅ

ｂｅｔｗｅｅｎ

ｔｈｅ

ｃｌａｓｓ

ａｎｄ

ｃｌａｓｓ

ｉｎ

ｔｈｅ

ｒａｔｉｏ

ｏｆ

ｔｈｅ

ｄｉｓｔａｎｃｅ．Ｉｎ

ｏｒｄｅｒ

ｔｏ

ｅｖａｌｕａｔｅ

ｔｈｅ

ｐ

ｅｒ

－

ｆｏｒｍａｎｃｅ

ｏｆ

ｔｈｅ

ａｌ

ｇ

ｏｒｉｔｈｍ

，

ｅｘ

ｐ

ｅｒｉｍｅｎｔｓ

ｗｅｒｅ

ｄｏｎｅ

ｉｎ

ｔｈｒｅｅ

ｄａｔａ

ｓｅｔｓ．Ｅｘ

ｐ

ｅｒｉｍｅｎｔａｌ

ｒｅｓｕｌｔｓ

ｓｈｏｗ

ｔｈａｔ

ＭＭＩＧＡ

－

Ｓｅｌｅｃｔｉｏｎ

ｏｂｔａｉｎｓ

ａ

ｂｅｔｔｅｒ

ｅｆｆｅｃｔ

ｉｎ

ｅｖｅｒ

ｙ

ｄａｔａ

ｓｅｔ

ｏｆ

ｔｈｅ

５ｆｏｌｄ

ｃｒｏｓｓ

ｖａｌｉｄａｔｉｏｎ

ａｃｃｕｒａｃ

ｙ

．ＭＭＩＧＡ

－

Ｓｅｌｅｃｔｉｏｎ

ｈａｓ

ｔｗｏ

ｍａｉｎ

ａｄｖａｎｔａ

－

ｇ

ｅｓ．Ｆｉｒｓｔ

，

ｉｔ

ｃａｎ

ｅｆｆｅｃｔｉｖｅｌ

ｙ

ｒｅｄｕｃｅ

ｔｈｅ

ｒｅｄｕｎｄａｎｔ

ｇ

ｅｎｅｓ．Ｓｅｃｏｎｄ

，

ｔｈｅ

ｍｏｄｅｌ

－

ｆｒｅｅ

ａｌ

ｇ

ｏｒｉｔｈｍ

ｍａｋｅｓ

ｔｈｅ

ｆｅａｔｕｒｅ

ｓｕｂｓｅｔ

ｄｉ

－

ｒｅｃｔｌ

ｙ

ａ

ｐｐ

ｌ

ｙ

ｔｏ

ｏｔｈｅｒ

ｔ

ｙｐ

ｅｓ

ｏｆ

ｃｌａｓｓｉｆｉｅｒ

ａｎｄ

ｏｂｔａｉｎｓ

ｈｉ

ｇ

ｈｅｒ

ｃｌａｓｓｉｆｉｃａｔｉｏｎ

ａｃｃｕｒａｃ

ｙ

．

Ｋｅ

ｙ

ｗｏｒｄｓ

Ｍａｘｉｍｕｍ

ｍｕｔｕａｌ

ｉｎｆｏｒｍａｔｉｏｎ

，

Ｍｏｄｅｌ

－

ｆｒｅｅ

，

Ｇｅｎｅｔｉｃ

ａｌ

ｇ

ｏｒｉｔｈｍ

，

Ｇｅｎｅ

ｓｅｌｅｃｔｉｏｎ

１

引言

随着生物芯片的不断发展

，

大规模基因芯片

（

ＤＮＡ

微阵

列

）

技术的应用成为功能基因组以及肿瘤诊断等研究中的重

要监测手段

［

１

］

，

由于有些基因只在特定实验条件下表达

，

并且

基因表达数据又具有维度高

、

样本小的特点

，

故需要对其进行

特征选择

，

选取与分类紧密关联的基因

，

降低后期的生物学分

析成本

，

降低机器学习的时间及空间复杂度

，

同时提高分类的

正确率

［

２

］

。

特征选择根据各个特征的重要程度

，

剔除一组特

征中不相关的冗余特征后

，

挑选出对分类有意义的某些特征

以降低特征空间维数

。

在模式识别

、

数据挖掘以及机器学习

中

，

特征选择都非常关键

［

３

］

。

根据是否依赖机器学习算法

，

特征选择算法可以分为两

大类

，

一类为

Ｗｒａ

ｐｐ

ｅｒ

型算法

，

另一类为

Ｆｉｌｔｅｒ

型算法

。

Ｗｒａ

ｐｐ

ｅｒ

法与具体分类器结合

，

将分类器预测正确率作为评

价基因组合好坏的标准

，

这种方法降维效果好

，

但计算代价

大

，

效率低

。

Ｆｉｌｔｅｒ

法如

ｔ

－

ｔｅｓｔ

［

４

］

、

信噪比

［

５

］

等泛化能力强

，

简

单快速

，

但以单个基因蕴含的分类信息多少为标准

，

没有考虑

基因之间的相互联系

，

其中分类信息高的并不一定是最优组

合

。

互信息通常用于描述两个随机变量间的统计相关性

，

用

一个变量中包含另一个变量的信息多少表示两个随机变量之

间的依赖程度

，

是信息论中的一个测度

，

一般用熵来表示

［

６

］

。

同一分类系统的基因在统计学上并非独立而是相关的

，

这是

用互信息进行筛选的基础

。

考虑在不同时间或不同条件下获

取的每一个基因

，

确定基因之间的互信息就是要定义相似性

３４２

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38740848

粉丝: 6
资源: 888

互信息最大化基因选择：模型无关方法与实验验证

基于云平台的互信息最大化特征提取方法研究

基于matlab实现的MRMR和relieff特征选择方法.rar

云平台驱动的高效基因特征提取：互信息最大化方法

云计算平台上的互信息最大化基因特征提取

mRMR算法在特征排序中的应用：最大互信息与最小冗余

云平台下的高效基因特征提取：CMI-Selection方法

基于组策略的MRMR特征选择算法

特征工程进阶技巧：10种方法让你的模型更强大

【特征选择技术】：关键步骤，提升模型性能

【深度解析】：决策树特征选择在模型优化中的关键作用

最新资源