基于统计相关性和K-means的混合基因选择算法

需积分: 0 54 浏览量更新于2024-06-30 收藏 1.03MB PDF 举报

"基于统计相关性与K-means的区分基因子集选择算法" 本文提出了一种基于统计相关性和K-means的新颖混合基因选择算法，以解决高维小样本癌症基因数据集的有效区分基因子集选择难题。该算法首先采用Pearson相关系数和Wilcoxon秩和检验计算各基因与类标的相关性，根据统计相关性原则选取与类标相关性较大的若干基因构成预选择基因子集。然后，采用K-means算法将预选择基因子集中高度相关的基因聚集到同一类簇，训练SVM分类模型，计算每一个基因的权重，从每一类簇选择一个权重最大或者采用轮盘赌思想从每一类簇选择一个得票数最多的基因作为本类簇的代表基因，各类簇的代表基因构成有效区分基因子集。该算法的优点在于能够选择到区分性能非常好的基因子集，建立在该区分基因子集上的分类器具有非常好的分类性能。实验结果表明，所提出的混合基因选择算法在几个经典基因数据集上的200次重复实验中取得了良好的结果，优于采用随机策略选择各类簇代表基因的随机基因选择算法Random、Guyon的经典基因选择算法SVM-RFE、采用顺序前向搜索策略的基因选择算法SVM-SFS。在该算法中，Pearson相关系数和Wilcoxon秩和检验是两个重要的统计相关性分析方法。Pearson相关系数用于计算两个变量之间的线性相关性，而Wilcoxon秩和检验则用于计算两个变量之间的秩相关性。K-means算法是一个常用的聚类算法，能够将相似的基因聚集到同一类簇中。在基因选择领域中，Filter算法和Wrapper算法是两种常用的基因选择方法。Filter算法根据每个基因的统计相关性来选择基因，而Wrapper算法则根据基因的分类性能来选择基因。所提出的混合基因选择算法结合了Filter算法和Wrapper算法的优点，能够选择到区分性能非常好的基因子集。本文提出了一种基于统计相关性和K-means的新颖混合基因选择算法，能够解决高维小样本癌症基因数据集的有效区分基因子集选择难题，具有广泛的应用前景。

2054

Journal of Software 软件学报 Vol.25, No.9, September 2014

们分别训练了两类 SVM 分类模型计算各基因的权重:一是训练一个包含全部预选择基因的 SVM 分类器,按照

上述方法计算基因权重;二是对每个基因簇,训练一个 SVM 分类器,每个分类器的训练样本只包含相应簇的基

因,根据上述方法计算每个基因的权重.

1.4 有效区分基因选择

利用 K-means 聚类得到 K 个基因簇,各基因簇内部基因之间高度相关,而类簇之间的基因相关度较低,造成

簇内基因冗余度很高.从每个类簇中选择一个代表基因,可以保证选择到的 K 个基因之间的冗余度很低.为选择

各基因簇的代表基因,本文采用权重策略和轮盘赌策略选择各类簇的代表基因.

1.4.1 权重策略

基因的权重表达了基因的类间区分能力大小,代表了基因对于分类的贡献,因此从每个基因簇中选择一个

权重最大的基因作为该簇代表基因,各类簇的代表基因构成有效区分基因子集.该策略默认单个分类能力强的

基因组合后依然具有较强的分类能力,然而分类能力稍弱的基因组合后的分类性能有可能更优

[2]

.通常情况下,

单个分类能力强的基因组合在一起往往能取得较好的分类效果.因此,本文从每个类簇选择具有最好分类能力

的基因构成基因子集能实现有效区分基因子集的选择.

1.4.2 轮盘赌策略

与权重策略不同,轮盘赌策略在保障高权重基因具有较高被选择概率的同时,也使具有次高权重的基因也

有可能被选择,克服了权重选择策略在个别情况下的缺憾.本文的轮盘赌策略对每个基因簇根据轮盘赌算法选

择 1 个基因,得到 K 个基因构成的基因子集;然后,根据被选择基因子集的分类性能更新其中基因的权重.重复该

过程L 次,并记录每次选中的基因.L 次重复结束后,选择每个类簇中得票数(被选中次数)最多的基因为该类簇的

代表基因.具体方法如下:

I. 初始化分类准确率 Acc,每个基因的初始权重 w

由 SVM 学习机得到,对训练集进行划分,保留 9/10 样

本为训练子集 sub_train,剩下的 1/10 为验证子集 sub_test;

II. 用轮盘赌算法从每个类簇中选出一个基因,得到包含 K 个基因的基因子集;

III. 由只包含被选择基因的 sub_train 训练 SVM,在 sub_test 上检验当前被选基因子集的分类性能,记分

类正确率为 AccNew,根据公式(4)更新被选择基因的权重,根据公式(5)更新 Acc;

IV. 重复步骤 II 和步骤 III 共 L 次,并保存每次选中的基因;

V. 根据保存的基因,选择每个类簇中得票数最多的基因作为本类簇的代表基因.各类簇的代表基因构

成规模为 K 的有效区分基因子集.

100

ccNew Acc





(4)

Acc=max(AccNew,Acc) (5)

1.5 基因子集质量评估

K-means 算法对基因进行聚类的结果不仅依赖于初始聚类中心,而且与数据集的不同划分以及样本的先后

顺序有关

[21]

.另外,对不同划分的训练集,SVM 学习机得到的基因权值也可能不同.这使得对于确定的 K 值,最终

选择的有效区分基因子集可能不同.因此,对确定的基因子集规模 K,我们重复运行算法 200 次,根据统计性能评

价算法质量.算法每次重复运行的分类正确率计算随数据集的不同划分而不同:若数据集划分采用 bootstrap 方

法,则用公式(6)计算当次重复的分类准确率,其中,M 是当次的 SVM 分类模型.

Acc=0.632Acc(M)

test_set

+0.368Acc(M)

train_test

(6)

分类器性能评估是一个非常复杂的问题,目前还没有关于分类器性能评价的客观和全面的理论研究

[22]

,通

常采用的分类器性能评价方法是对实验结果进行的比较和判断.为了说明本文算法的性能,我们将实验结果与

采用随机策略选择代表基因的基因选择算法 Random、经典基因选择算法 SVM-RFE 以及我们前期研究提出的

基因选择算法 SVM-SFS 在相同实验环境下的结果进行比较.

谢娟英等:基于统计相关性与 K-means 的区分基因子集选择算法

2055

1.6 算法分析

本文算法依据对预选择基因进行聚类后,选择代表基因的不同策略分为两大类,简记为 Weight 和 Roulette

Wheel,分别表示选择代表基因使用权重策略和轮盘赌策略.另外,依据计算基因权重时训练 SVM 模型的不同策

略,将本文依据权重选择类簇代表基因的方法分为 Weight 和 WAC Weight(weighted after clustering),将采用轮盘

赌策略选择各类簇代表基因的方法分为 Roulette Wheel 和 WAC Roulette Wheel,分别表示计算基因权重时,是训

练一个包含全部预选择基因的 SVM 分类模型,还是训练 K 个只含有当前簇基因的 SVM 分类模型两种情况.由

此得到 4 种混合基因选择算法 Weight,WAC Weight,Roulette Wheel 和 WAC Roulette Wheel.

1.6.1 时间复杂度分析

假设原始样本特征数为 d、样本数为 n,通过 Filter 算法过滤后的特征数为 m,K-means 算法的平均迭代次数

为 t.对基因数据集通常有关系 d>>m>>nk.在样本数为 n、特征数为 d 的数据集

,建立 SVM 模型的最坏时间复

杂度为 O(n

d).特征权重排序的最好时间复杂度为 O(dlog

d).因此 SVM-RFE 的时间复杂度为 O(d

log

[23]

而 SVM-SFS 的时间复杂度为 O(dlog

d).

本文算法的时间消耗主要来自 Filter 步的基因预选择,以及 Wrapper 步的基因聚类与代表基因选择.各步的

详细时间复杂度分析如下:

 Filter 步预选择基因的时间复杂度.

该步的时间复杂度来自计算基因类间区分能力的相关性分析,以及对基因依据区分能力进行的排序两部

分,因此,时间复杂度为 O(nd+dlog

d);

 Warpper 步基因聚类的时间复杂度.

该步采用适用于大数据聚类的 K-means 算法对预选择基因进行聚类.对预选择的 m 个基因进行 K-means

聚类的时间复杂度为 O(tkmn)

[10,21]

.其中,m 为 Filter 步预选择的基因数,即待聚类的基因数;t 为 K-means 的迭代

次数;n 为数据集样本数;

 Wrapper 步代表基因选择的时间复杂度.

该步首先计算预选择的各个基因的权重,然后采用权重策略或轮盘赌策略选择各类簇的代表基因.计算预

选择的 m 个基因的权重通过训练 SVM 获得,若训练一个包含全部预选择基因的 SVM 分类模型,则计算预选择

的 m 个基因的权重的时间复杂度是 O(n

m);若每个类簇训练一个 SVM 分类模型,则在假设每个类簇包含的基

因数相等的情况下,计算预选择的 m 个基因的权重的时间复杂度为

()()On mk k On m .因此,采用

K-means

对预选择基因进行聚类后,为选择各类簇的代表基因的计算每个预选择基因的权重的时间复杂度为

O(n

m).

选择各类簇代表基因的时间复杂度和采用的具体基因选择策略有关.权重策略选择每个类簇权值最大的

基因

,其时间复杂度为 O(m/k)(假设各类簇的大小相同),则选择 k 个类簇的代表基因的时间复杂度为

()()Omk k Om



 .

轮盘赌策略选择各类簇代表基因的时间复杂度主要由实现轮盘赌策略时对每个类簇进行的 SVM 模型训

练时间决定,其值不超过 O(kn

),则重复进行 L 次的总时间复杂度不超过 O(Lkn

以上时间复杂度分析揭示,本文提出的混合基因选择算法 Weight,WAC Weight 的时间复杂度为 O(nd+

dlog

d+tkmn+n

m+m).因为 d>>m>>n,由渐进时间复杂度理论

[24]

得知,Weight,WAC Weight 的时间复杂度 O(nd+

dlog

d+tkmn+n

m+m)与 O(nd+tkmn)同阶,因此,本文基于权重策略选择各类簇代表基因的混合基因选择算法

Weight,WAC Weight 的时间复杂度为 O(nd+tkmn);类似地分析可得,本文基于轮盘赌策略选择各类簇代表基因

的混合基因选择算法 Roulette Wheel 和 WAC Roulette Wheel 的时间复杂度为 O(nd+dlog

d+tkmn+n

m+Lkn

)

O(nd+tkmn).

因此,本文提出的基于统计相关性与 K-means 的混合基因选择算法的时间复杂度是 O(nd+tkmn).由

d>>m>>n

k 可知,本文算法的时间复杂度远小于 SVM-RFE 的时间复杂度 O(d

log

d).后面的第 2.2.5 节各算法

运行效率的实验比较,验证了这里关于算法时间复杂度的理论分析.

剩余25页未读，继续阅读

叫我叔叔就行

粉丝: 33
资源: 323

基于统计相关性和K-means的混合基因选择算法

基于相关性加权的K-means 算法

基于遗传算法和k_medoids算法的聚类新算法

SSLRP.rar_subset simulation_可靠度_子集模拟_子集模拟法_自由度 可靠度

4种算法(Apriori_k-means_遗传算法源码_神经网络).rar

Clustering_K_means_clustering.zip_This Is It

基于粒子群优化算法和相关性分析的特征子集选择.pdf

改进的基于划分算法的三维点云聚类matlab实现_三维点云颜色_点云聚类算法_改进k-means_k-mean_K.

(2021_天津大学学报)基于对称不确定性和三路交互信息的特征子集选择算法_顾翔元1

subset simulation.rar_subset simulation_失效分析_子集模拟_小概率_数值模拟

一种基于遗传算法的K-means聚类算法.docx

最新资源

SSLRP.rar_subset simulation_可靠度_子集模拟_子集模拟法_自由度可靠度