仿射传播聚类优化K-means算法的研究与应用

需积分: 9 2 下载量 168 浏览量 更新于2024-09-06 收藏 397KB PDF 举报
"基于仿射传播聚类的K-means算法优化 .pdf" 在机器学习领域,聚类是一种无监督学习方法,用于将数据集中的样本分成不同的组或簇,使得同一簇内的样本相似度较高,而不同簇间的样本相似度较低。K-means算法作为最常用的距离敏感型聚类算法之一,它的核心思想是迭代地调整簇的中心和分配给簇的样本,直到达到收敛条件。然而,K-means算法存在一个显著的弱点:对初始聚类中心的选择非常敏感。一旦初始聚类中心选取不当,可能会导致最终的聚类结果产生较大偏差。 传统的K-means算法通常随机选择K个样本作为初始聚类中心。由于这种随机性,每次运行可能得到不同的聚类结果,这在处理大数据集时尤为明显,可能导致不稳定性和不可重复性。为了解决这一问题,研究者们提出各种策略来改进初始聚类中心的选择,例如K-means++算法。 本论文关注的是基于仿射传播聚类的K-means算法优化。仿射传播聚类(Affinity Propagation)是由Frey和Dueck在2007年提出的一种新型聚类方法,它不依赖于预先设定的簇的数量,而是通过传递消息来寻找“示范样例”(exemplars),这些示范样例可以代表整个簇的特征。与K-means不同,仿射传播聚类不是通过寻找簇的质心,而是通过最大化簇内样本之间的“相似度”。 论文中,作者周洋和任国霞提出了一种创新的方法,即先利用仿射传播聚类算法来确定更优的初始聚类中心,然后再执行标准的K-means算法进行聚类。这样做的目的是利用仿射传播聚类的全局信息优势来克服K-means的初始敏感性。通过这种方式,他们期望改进的算法能够提供更稳定且高质量的聚类结果。 实验部分,作者对比了改进后的算法与原始K-means算法在不同数据集上的性能,通过评估指标如轮廓系数、Calinski-Harabasz指数等来验证其优越性。实验结果表明,采用仿射传播聚类初始化的K-means算法在聚类效果上确实有所提升,证明了这种方法的有效性。 这项研究为K-means算法的优化提供了一个新的视角,将仿射传播聚类的优势引入到聚类中心的确定过程中,有助于改善聚类的稳定性和准确性。对于实际应用中需要处理大规模数据集或对聚类结果稳定性有高要求的场景,这种优化方法具有重要的实践意义。