改进的共享近邻加权图Chameleon算法:提升聚类性能

需积分: 5 1 下载量 171 浏览量 更新于2024-08-12 收藏 337KB PDF 举报
本文主要探讨了2012年发表在《计算机应用》期刊上的一篇名为"引入共享近邻加权图的Chameleon算法"的论文。Chameleon算法原版在处理数据点间的相似度时,依赖于距离函数,这可能导致距离相近但特征共享少的问题。这种度量方式在实际操作中存在困难,特别是进行最小二分时,需要人为设定阈值,并且一旦完成合并就无法撤销,限制了算法的灵活性。 为解决这些问题,研究者们提出了一种改进方法,即构建共享近邻加权图(WSnnG)。WSnnG以数据对象之间的共享近邻数量作为衡量相似度的新标准,这有助于更好地捕捉数据点之间的关联性,而非仅仅依赖于单一的距离指标。通过WSnnG的构建,算法能够更准确地识别和聚集具有相似特性的数据点。 改进后的Chameleon算法引入了网络模块性评价函数,作为最小二分的指导工具,这有助于找到自然的数据分组,提高聚类的精度。同时,结构等价相似度被用作合并的依据,确保合并过程更为合理。为了处理合并后不可逆的问题,研究人员还引入了内聚度度量函数,使得在合并操作后可以对结果进行一定程度的修正或调整。 在实验部分,作者将新的WSnnG Chameleon算法应用于UCI数据集和四个二维人造数据集,结果显示其在聚类精度和运行时间上都有显著的优势。这表明引入共享近邻加权图和新策略显著提升了算法的性能,使其在处理大规模和复杂数据集时更具竞争力。 这篇论文提出了一个创新的Chameleon算法改进版本,通过引入共享近邻加权图、网络模块性和内聚度量,有效地解决了原有算法在数据处理中的局限性,为数据挖掘和聚类任务提供了更高效、准确的解决方案。