MCEMS算法:一种集成聚类方法,结合簇聚类和新相似性度量

0 下载量 179 浏览量 更新于2024-06-17 收藏 1.28MB PDF 举报
"基于簇聚类技术和新相似性度量的集成聚类方法:MCEMS算法研究" 在当前大数据时代,随着物联网(IoT)等技术的发展,数据量急剧增加,给数据管理和分析带来了巨大挑战。针对这一问题,研究者们提出了各种聚类方法来处理这些未标记的大数据。聚类作为无监督学习的一种重要手段,通过对实例间的相似性进行分析,将数据分组成若干个类别。其中,层次聚类(Hierarchical Clustering, HC)是一种常用的方法,它通过构建树状结构来组织数据,自底向上或自顶向下地形成聚类。 本文主要关注的是AHC(Agglomerative Hierarchical Clustering)方法,这是一种自底向上的层次聚类算法,从单个实例开始,逐步合并相似的实例,直到达到预设的聚类数量或满足特定的终止条件。然而,单一的聚类方法可能无法应对复杂的数据集,因此研究者开始探索集成聚类方法,即结合多种聚类算法以提高聚类性能和稳定性。 在此背景下,研究人员提出了MCEMS(Model Selection-based Meta-clustering Ensemble with Surrounding Strategy)算法。MCEMS建立在AHC集成方法之上,结合簇聚类技术与新的相似性度量,以克服单一聚类方法的局限性。在这个框架中,首先使用多种AHC个体方法从不同角度对数据进行聚类,形成主聚类。然后,通过一个新的相似性度量方法,根据各方法的聚类结果计算实例间的相似性。这种方法考虑了实例与主聚类的关联,而非仅仅比较实例间的关系,从而更全面地评估相似性。 MCEMS的关键创新在于其模型选择策略。它采用双加权策略来确定最佳聚类模型,有效地解决了模型选择中的问题。在聚类完成后,通过元聚类(Meta-clustering)过程,相似的主聚类被合并,并设置阈值以确定最优的聚类数。最后,根据实例与元聚类的相似度,将每个实例分配到与其最相似的元聚类,形成最终的聚类结果。 为了验证MCEMS算法的有效性,研究者在UCI机器学习存储库中选取了一些数据集进行了模拟实验,并将其与现有的先进算法(如HMM、DSPA和WHAC)进行了对比。实验结果表明,基于Wilcoxon检验和共表相关系数的MCEMS算法在聚类性能上表现出显著优势。 MCEMS算法通过集成AHC方法,结合簇聚类技术和新相似性度量,提供了一种改进的聚类解决方案,尤其适用于处理复杂和大规模的数据集。这种策略不仅提高了聚类的准确性和稳定性,还展示了在模型选择和数据解析上的创新思维,对于未来无监督学习和大数据分析领域具有重要的研究价值和实践意义。