无监督基因选择算法:基于相关性分析提升分类准确性
需积分: 10 112 浏览量
更新于2024-08-12
收藏 307KB PDF 举报
"这篇论文是2004年由王明怡、吴平和王德林发表在浙江大学学报(工学版)上的,探讨了一种基于相关性分析的基因选择算法,旨在解决微阵列数据中基因集合相关性过高影响分类器性能的问题。通过无监督的特征选择方法,算法能有效地划分基因并选择代表性的特征,降低时间复杂度,并在实际生物数据上验证了其提高分类准确性的效果。"
文章的核心内容是介绍一种新的基因选择算法,用于处理微阵列数据分析中的问题。微阵列数据通常包含大量高度相关的基因,这可能导致分类器性能下降。为了解决这个问题,作者提出了一种无监督的特征选择策略。这个算法主要包括两个步骤:
1. **特征聚类**:首先,利用特征之间的相关性作为度量标准,采用k近邻原则对原始特征集进行划分,形成一组组相似的子集,即聚类。这种方法允许算法自适应地确定聚类的数量,而不需要预先设定。
2. **选择代表性特征**:接着,在每个形成的聚类中,选择一个或多个具有代表性的特征。这一步骤有助于减少冗余基因,因为每个聚类的代表基因可以概括该聚类内的信息,从而降低了数据的维度。
这种算法的创新之处在于它的时间复杂度较低,这意味着即使面对大规模数据集,也能快速执行。更重要的是,通过实际的生物学数据实验,该算法被证明能够显著提高分类器的分类准确性。这表明,通过去除相关性高的基因,可以增强分类器对样本的区分能力,对于生物信息学领域的数据分析有着重要的应用价值。
关键词涉及到微阵列技术、基因选择、相关性分析以及元监督学习,表明该研究结合了统计分析方法和机器学习技术,为基因表达数据的预处理提供了一种有效工具。文章的中图分类号和文献标识码分别对应于计算机科学和技术领域,强调了这项工作的工程技术背景。
这篇论文贡献了一种新的无监督特征选择策略,解决了基因选择中的相关性问题,提高了分类器在生物医学数据上的性能,对于生物信息学和计算生物学领域具有重要研究价值。
1277 浏览量
1165 浏览量
130 浏览量
1169 浏览量
418 浏览量
4222 浏览量
1165 浏览量
2045 浏览量
6153 浏览量

weixin_38622962
- 粉丝: 3
最新资源
- 小学水墨风学校网站模板设计
- 深入理解线程池的实现原理与应用
- MSP430编程代码集锦:实用例程源码分享
- 绿色大图幻灯商务响应式企业网站开发源码包
- 深入理解CSS与Web标准的专业解决方案
- Qt/C++集成Google拼音输入法演示Demo
- Apache Hive 0.13.1 版本安装包详解
- 百度地图范围标注技术及应用
- 打造个性化的Windows 8锁屏体验
- Atlantis移动应用开发深度解析
- ASP.NET实验教程:源代码详细解析与实践
- 2012年工业观察杂志完整版
- 全国综合缴费营业厅系统11.5:一站式缴费与运营管理解决方案
- JAVA原生实现HTTP请求的简易指南
- 便携PDF浏览器:随时随地快速查看文档
- VTF格式图片编辑工具:深入起源引擎贴图修改