无监督基因选择算法:基于相关性分析提升分类准确性

需积分: 10 1 下载量 153 浏览量 更新于2024-08-12 收藏 307KB PDF 举报
"这篇论文是2004年由王明怡、吴平和王德林发表在浙江大学学报(工学版)上的,探讨了一种基于相关性分析的基因选择算法,旨在解决微阵列数据中基因集合相关性过高影响分类器性能的问题。通过无监督的特征选择方法,算法能有效地划分基因并选择代表性的特征,降低时间复杂度,并在实际生物数据上验证了其提高分类准确性的效果。" 文章的核心内容是介绍一种新的基因选择算法,用于处理微阵列数据分析中的问题。微阵列数据通常包含大量高度相关的基因,这可能导致分类器性能下降。为了解决这个问题,作者提出了一种无监督的特征选择策略。这个算法主要包括两个步骤: 1. **特征聚类**:首先,利用特征之间的相关性作为度量标准,采用k近邻原则对原始特征集进行划分,形成一组组相似的子集,即聚类。这种方法允许算法自适应地确定聚类的数量,而不需要预先设定。 2. **选择代表性特征**:接着,在每个形成的聚类中,选择一个或多个具有代表性的特征。这一步骤有助于减少冗余基因,因为每个聚类的代表基因可以概括该聚类内的信息,从而降低了数据的维度。 这种算法的创新之处在于它的时间复杂度较低,这意味着即使面对大规模数据集,也能快速执行。更重要的是,通过实际的生物学数据实验,该算法被证明能够显著提高分类器的分类准确性。这表明,通过去除相关性高的基因,可以增强分类器对样本的区分能力,对于生物信息学领域的数据分析有着重要的应用价值。 关键词涉及到微阵列技术、基因选择、相关性分析以及元监督学习,表明该研究结合了统计分析方法和机器学习技术,为基因表达数据的预处理提供了一种有效工具。文章的中图分类号和文献标识码分别对应于计算机科学和技术领域,强调了这项工作的工程技术背景。 这篇论文贡献了一种新的无监督特征选择策略,解决了基因选择中的相关性问题,提高了分类器在生物医学数据上的性能,对于生物信息学和计算生物学领域具有重要研究价值。