属性识别理论与K-NN结合的基因分类方法

需积分: 9 1 下载量 41 浏览量 更新于2024-08-12 收藏 259KB PDF 举报
"这篇论文是2009年发表在湖南大学学报(自然科学版)上的,由蔡立军、蒋林波、李艳和张蜡合作撰写,主要研究了基于属性识别理论的基因分类方法。该研究运用概率统计理论构建了一个新的分类器,旨在提高基因分类的效率和准确性。通过计算每个属性对分类的贡献,并采用加权机制综合所有属性信息,以提升分类性能。此外,为了改善单一分类器的局限性和分类精度,论文提出将新分类系统与经典的K-NN(K-最近邻)分类器结合,以增强分类系统的整体表现。实验结果显示,这种结合策略显著提高了分类系统的分类效果和稳定性。关键词包括属性集、属性测度、相似度和准确率。" 在该研究中,作者首先探讨了属性识别理论,这是一种用于理解和分析数据集中各个特征(属性)对目标分类影响的方法。属性识别理论通常关注如何量化和比较不同属性对决策过程的重要性。在基因分类问题中,每个基因可以看作一个属性,其表达水平或序列信息可能对生物类别(如疾病状态或物种归属)有不同程度的贡献。 利用概率统计理论,研究者设计了一个新的分类器。概率统计在这里可能涉及到贝叶斯定理,通过计算每个基因(属性)与目标类别的条件概率来评估其对分类的影响。这一过程可以理解为计算每个属性对分类决策的概率贡献,这有助于确定哪些基因在区分不同类别的样本时更重要。 接下来,通过加权机制,研究者综合了所有属性的贡献,以得出最终的分类决策。这种加权可能基于属性的重要性或相关性,使得对分类影响较大的属性得到更高的权重,从而影响整体分类结果。 为了提高分类的稳定性和泛化能力,研究者选择与K-NN分类器相结合。K-NN是一种基础且直观的监督学习算法,它根据最近的邻居来预测未知样本的类别。通过集成新分类器与K-NN,可以弥补单个分类器的不足,比如K-NN在处理高维数据时可能出现的维度灾难问题,以及新分类器可能存在的分类精度问题。 实验结果证明了这种结合策略的有效性,显示了较好的分类效果和鲁棒性,意味着即使在面对噪声数据或未知样本时,分类系统也能保持稳定的表现。这种方法对于生物信息学领域的基因分类问题尤其有价值,因为它可以帮助科学家更好地理解和解析复杂的基因表达模式,进而推动疾病的诊断和治疗研究。