层次聚类驱动的高效最佳聚类数确定算法

1 下载量 54 浏览量 更新于2024-09-02 收藏 320KB PDF 举报
本文主要探讨了一种新的最佳聚类数确定方法,针对数据集的有效性评估和聚类性能优化问题。算法的核心是结合层次聚类的思想,通过一次性生成所有可能的聚类划分,然后依据一个不依赖于具体算法的聚类有效性指标Q(C)来评估每个划分的质量。Q(C)考虑了类内数据对象的紧凑度和类间对象的分离度,以此衡量聚类的优劣。 算法首先定义了一个基于曼哈顿距离的相似度计算公式,用于量化数据对象之间的相似程度,这有助于在后续的聚类过程中判断合并的合理性。在COBH算法的具体步骤中,从初始的每个数据对象作为一个独立类开始,逐步合并相似度高的对象,直到形成最优的聚类结构。在合并过程中,算法会处理噪声点和孤立点,通过MDL剪枝方法剔除对聚类结果有负面影响的元素。 实验部分,作者选取了五个数据集,包括人工合成和UCI标准数据集库,对比了COBH算法与FCM聚类算法基于Vxie和Vwsj两种几何结构的有效性指标,以及COPS(基于层次划分的最佳聚类数确定算法)的结果。实验旨在验证COBH算法的性能优越性,尤其是在聚类数确定的准确性、聚类质量和计算效率方面。 这种新的最佳聚类数确定方法提供了一种有效且鲁棒的方式来评估和优化数据集的聚类,它不仅能考虑到聚类的内部紧密度,还能处理数据集中的异常情况,并且在实际应用中展现了良好的性能。通过与现有算法的比较,该方法展现出其在确定最佳聚类数方面的优势,对于实际的数据分析和挖掘工作具有重要的实践价值。