创新层次聚类与新相似度度量:提升大数据挖掘效率

0 下载量 123 浏览量 更新于2024-06-17 收藏 1.28MB PDF 举报
本文主要探讨了"基于簇聚类技术和新相似性度量的数据挖掘研究",特别是在物联网(IoT)背景下,随着数据量的爆炸性增长,如何有效地处理和分析未标记的大数据成为了一个关键挑战。层次聚类作为一种无监督学习方法,如聚集层次聚类(AHC),以其自底向上的聚类过程在数据挖掘中占据重要地位。然而,单一聚类方法可能不足以应对复杂问题,因此研究者提出了一个创新的集成聚类框架——模型选择的元聚类包围方案(MCEMS)。 MCEMS的核心在于结合AHC的个体方法和一种新的相似性度量。它通过双加权策略来优化模型选择,旨在提高集成聚类的效果。具体步骤包括:首先,多个AHC方法对数据进行独立聚类,形成主聚类;然后,根据不同的聚类结果,利用新相似性度量计算实例间的相似性;接着,通过元聚类阶段,重新组合主集群,并通过合并相似类和设定阈值来决定最佳聚类数量;最后,通过比较实例与元聚类的相似度,将实例分配到最适合的元聚类,从而形成最终的聚类结果。 为了验证MCEMS的有效性,研究者将其应用到UCI数据集中,并通过威尔科xon检验和共变性相关系数与HMM、DSPA和WHAC等先进算法进行了性能对比。实验结果显示,MCEMS算法在数据挖掘任务中表现优越,显示出其在大规模数据处理和复杂场景下显著的优势。 本文的研究对于提升层次聚类和集成聚类在大数据环境中的效率,以及改进相似性度量在无监督学习中的作用具有重要意义。此外,其开放获取的CCBY-NC-ND许可证允许了更广泛的学术交流和应用,促进了数据挖掘领域的知识共享和发展。