层次聚类融合方法:ARI评估下的簇集成性能对比

需积分: 16 1 下载量 149 浏览量 更新于2024-09-08 收藏 517KB PDF 举报
本篇论文深入探讨了层次聚类在簇集成方法中的应用,针对聚类集成的鲁棒性和精确性提升这一核心议题。聚类是数据挖掘中的基础技术,通过将数据对象划分为相似性较高的簇,有助于发现潜在的模式和关系。在当前研究中,作者关注的是聚类集成,这是一种改进的无监督分类方法,旨在提高单一聚类算法的性能,尤其是在处理复杂形状和规模数据时。 论文首先介绍了聚类集成的概念,它通过结合多个个体成员(通过k-means或其他聚类算法生成),并利用层次聚类的单连接法、全连接法和平均连接法等融合策略,来增强最终聚类结果的稳定性和准确性。单连接法基于每个簇内部的相似性,全连接法则考虑所有簇间的联系,而平均连接法则则在两者之间寻找平衡。 研究者使用了Adjusted Rand Index (ARI)作为评估指标,因为ARI在衡量两个划分的相似性时,不仅考虑了完全一致的情况,还能捕捉到相对准确的划分。ARI的特性包括:当两个划分独立时,其值为0;而在其他指数中,ARI更容易识别出正确的划分。 在实验部分,作者比较了三种层次聚类融合方法在实际数据集上的表现,结果显示平均连接法在聚类集成中表现出更好的性能。同时,论文探讨了融合方法的聚类正确率与集成规模之间的关系,这有助于理解在不同数据集规模下,哪种融合策略更为有效。 论文最后总结了研究结果,并提出了未来可能的研究方向,例如探索更多元化的融合策略,优化聚类集成过程中的参数选择,以及如何在实际应用中更好地利用ARI等评估工具。此外,论文还强调了聚类集成的优势,如降低选择不当聚类算法的风险,从而为实际数据分析提供了有价值的方法论支持。