频繁模式下的模糊聚类有效性评估指数

需积分: 9 0 下载量 89 浏览量 更新于2024-08-12 收藏 1.1MB PDF 举报
"基于频繁模式的聚类有效性指标" 本文主要探讨了基于频繁模式的聚类有效性指标,作者是Hongyan Cui和Kuo Zhang,他们来自于中国北京邮电大学的IKeyLab of Network System Architecture and Convergence以及KeyLab of Universal Wireless Communications。研究论文旨在提出一种用于模糊聚类算法(如模糊c均值,FCM)的聚类有效性指数,该指数利用全局信息而非几何特性,以更合理的逻辑推理为基础。 在数据挖掘领域,聚类是一种无监督的学习方法,用于将相似的数据点归入同一类别。然而,由于聚类算法可以产生多种分区,评估这些分区的质量就显得至关重要,以便选择最能代表数据结构的分区。这就是聚类有效性问题(Cluster-Validity, CV)及其指数的由来。作者提出的这个新的CV指数特别关注模糊聚类,模糊聚类允许数据点同时属于多个类别,具有更高的灵活性。 传统的聚类有效性指标往往依赖于数据的几何特征,例如簇间的距离或形状。然而,新提出的指数引入了“频繁模式”的概念,这是数据集中频繁出现的模式或子集。通过分析这些频繁模式,该指数能够更好地捕捉数据的内在结构。频繁模式在数据挖掘中被广泛应用于关联规则学习和序列挖掘,它们提供了关于数据项之间关系的重要洞察。 实验部分,作者在人造数据集和基准数据集上对比了新提出的指数与传统和近期的聚类有效性指标,以验证其性能。实验结果表明,新指数在识别和评估聚类质量方面表现出色,特别是在处理复杂和模糊的数据分布时,能提供更准确的评估。 关键词包括:频繁模式、聚类有效性(CV)、模糊聚类分析、模糊c均值(FCM)。 这篇研究论文提出了一个创新的聚类有效性指标,它利用数据的频繁模式来评估模糊聚类的效果,有望在聚类算法的评估和优化中发挥重要作用,尤其是在处理非结构化和复杂数据集时。