基于统计相关性和K-means的混合基因选择算法
需积分: 0 10 浏览量
更新于2024-06-30
收藏 1.03MB PDF 举报
"基于统计相关性与K-means的区分基因子集选择算法"
本文提出了一种基于统计相关性和K-means的新颖混合基因选择算法,以解决高维小样本癌症基因数据集的有效区分基因子集选择难题。该算法首先采用Pearson相关系数和Wilcoxon秩和检验计算各基因与类标的相关性,根据统计相关性原则选取与类标相关性较大的若干基因构成预选择基因子集。然后,采用K-means算法将预选择基因子集中高度相关的基因聚集到同一类簇,训练SVM分类模型,计算每一个基因的权重,从每一类簇选择一个权重最大或者采用轮盘赌思想从每一类簇选择一个得票数最多的基因作为本类簇的代表基因,各类簇的代表基因构成有效区分基因子集。
该算法的优点在于能够选择到区分性能非常好的基因子集,建立在该区分基因子集上的分类器具有非常好的分类性能。实验结果表明,所提出的混合基因选择算法在几个经典基因数据集上的200次重复实验中取得了良好的结果,优于采用随机策略选择各类簇代表基因的随机基因选择算法Random、Guyon的经典基因选择算法SVM-RFE、采用顺序前向搜索策略的基因选择算法SVM-SFS。
在该算法中,Pearson相关系数和Wilcoxon秩和检验是两个重要的统计相关性分析方法。Pearson相关系数用于计算两个变量之间的线性相关性,而Wilcoxon秩和检验则用于计算两个变量之间的秩相关性。K-means算法是一个常用的聚类算法,能够将相似的基因聚集到同一类簇中。
在基因选择领域中,Filter算法和Wrapper算法是两种常用的基因选择方法。Filter算法根据每个基因的统计相关性来选择基因,而Wrapper算法则根据基因的分类性能来选择基因。所提出的混合基因选择算法结合了Filter算法和Wrapper算法的优点,能够选择到区分性能非常好的基因子集。
本文提出了一种基于统计相关性和K-means的新颖混合基因选择算法,能够解决高维小样本癌症基因数据集的有效区分基因子集选择难题,具有广泛的应用前景。
2023-10-21 上传
2023-05-11 上传
2023-05-12 上传
2023-05-21 上传
2023-03-28 上传
2024-06-13 上传
2023-09-05 上传
2023-04-02 上传
叫我叔叔就行
- 粉丝: 33
- 资源: 323
最新资源
- JDK 17 Linux版本压缩包解压与安装指南
- C++/Qt飞行模拟器教员控制台系统源码发布
- TensorFlow深度学习实践:CNN在MNIST数据集上的应用
- 鸿蒙驱动HCIA资料整理-培训教材与开发者指南
- 凯撒Java版SaaS OA协同办公软件v2.0特性解析
- AutoCAD二次开发中文指南下载 - C#编程深入解析
- C语言冒泡排序算法实现详解
- Pointofix截屏:轻松实现高效截图体验
- Matlab实现SVM数据分类与预测教程
- 基于JSP+SQL的网站流量统计管理系统设计与实现
- C语言实现删除字符中重复项的方法与技巧
- e-sqlcipher.dll动态链接库的作用与应用
- 浙江工业大学自考网站开发与继续教育官网模板设计
- STM32 103C8T6 OLED 显示程序实现指南
- 高效压缩技术:删除重复字符压缩包
- JSP+SQL智能交通管理系统:违章处理与交通效率提升