Fisher准则下的加权K-means聚类算法提升效果

需积分: 18 2 下载量 198 浏览量 更新于2024-09-10 收藏 323KB PDF 举报
该篇论文探讨了如何通过Fisher线性判别率(Fisher's linear discriminant ratio)来优化K-means聚类算法。Fisher线性判别率是一种统计方法,它在高维数据集中有效地衡量了不同特征对于区分不同类别的贡献度。在传统的K-means算法中,所有特征被平等对待,而这种方法引入了特征加权的概念,根据每个特征的Fisher分数分配不同的权重,这样可以更好地反映数据的内在结构,减少噪声干扰,提高聚类的准确性。 论文首先明确了改进的目标,即提升K-means聚类的效果,尤其是在处理复杂数据集时。通过计算和比较不同特征的Fisher分数,算法能够动态地调整每个特征的重要性,从而在聚类过程中赋予不同特征不同程度的影响。这种方法尤其适用于类别间差异明显、特征之间相关性强的数据集。 实验部分,作者在人工合成数据和实际数据集上进行了深入的对比研究。结果表明,基于Fisher线性判别率的加权K-means聚类算法在类内误差(也称为类内离差平方和)和类间距离(通过调整随机指标衡量)等方面表现出显著的优势,相较于传统的加权K-means算法和其他同类方法,它能更准确地将数据分到相应的簇中。 关键词“K-means”、“聚类”、“Fisher线性判别率”、“特征加权”、“熵”和“调整随机指标”突出了本文的核心技术,而“类内错误率均方和”则强调了评价聚类性能的重要指标。此外,该研究还得到了江苏省自然科学基金和江苏大学高级人才项目的资助,显示出研究者在该领域的专业背景和研究成果。 这篇论文提供了一种有效的数据预处理和聚类策略,利用Fisher线性判别率增强K-means算法的性能,适用于处理具有复杂特征分布的数据集,对于提高机器学习和数据挖掘中的聚类任务具有实际应用价值。