重叠度衡量的层次聚类算法及其应用

需积分: 33 6 下载量 107 浏览量 更新于2024-09-12 收藏 476KB PDF 举报
"基于重叠度的层次聚类算法是一种旨在解决聚类分析中的关键问题——选择合适的聚类数量和处理簇间重叠数据的方法。该算法由瞿俊、姜青山和翁芳菲在厦门大学软件学院提出,通过定义重叠度并构建层次聚类模型,实现了无需预先设定聚类数的自动聚类过程。" 在聚类分析中,如何确定聚类的数量以及如何精确地划分具有重叠属性的数据一直是研究的重点。传统的聚类方法往往需要用户预设聚类数量,这在实际应用中可能会导致聚类结果的不准确。基于重叠度的层次聚类算法(CCSLM)则针对这一问题,提出了新的解决方案。 首先,算法引入了“重叠度”这一概念,它用于衡量两个簇之间的相似程度或重叠程度。通过对数据集中的每个簇进行比较,算法可以根据重叠度自动调整其结构,而无需人为设定聚类数量。这种灵活性使得算法能够在迭代过程中自我调整,找到最合适的聚类结构。 其次,算法采用层次聚类策略,从底层数据出发逐步构建簇结构。层次聚类通常包括自下而上的凝聚型(agglomerative)和自上而下的分裂型(divisive)两种方式,CCSLM可能采用了凝聚型方法,即从单个数据点开始,逐渐合并相似的簇,直到满足特定的停止条件——即簇间的重叠度低于某一阈值。 在实际应用中,如图像分割,该算法展示出了良好的效果和鲁棒性。与其他聚类算法(如K-means、DBSCAN等)相比,CCSLM的优势在于其能够处理具有复杂重叠的聚类场景,且自动确定最优聚类数,避免了因预设参数导致的误差。 为了验证算法的性能,论文进行了实验分析,使用真实数据集进行测试。实验结果进一步证实了CCSLM算法在处理重叠数据时的效率和准确性,同时也展示了其相对于其他常见聚类算法的优越性。 总结来说,基于重叠度的层次聚类算法是一种创新的聚类方法,通过定义和利用重叠度,解决了聚类分析中的关键挑战,为数据挖掘和机器学习等领域提供了更灵活、适应性强的聚类工具。