改进的BFS-COP-Kmeans算法:提升聚类准确性

需积分: 50 2 下载量 62 浏览量 更新于2024-09-06 收藏 445KB PDF 举报
"朱煜、钱景辉和季正波发表的《改进的基于广度优先搜索的COP-Kmeans算法》是一篇关于数据挖掘领域的学术论文,主要关注如何提升COP-Kmeans算法的准确性。该算法是将广度优先搜索(BFS)应用到结合限制的k均值算法(COP-Kmeans)中,但原始方法存在一个问题,即对相同的约束对产生不同的搜索序列,影响了算法的精度。" 本文中,作者们针对这一问题提出了一种改进策略。首先,他们对训练数据集执行多次聚类操作,获取多种聚类结果。接着,通过计算这些聚类结果的标准化互信息,评估不同数据对象之间的相关性。标准化互信息是一种衡量信息量的指标,能够反映出数据对象间的依赖程度。利用这些信息,作者们可以确定数据对象的稳定性,即对象在不同聚类结果中的稳定状态。 数据对象的稳定性被用作分配次序的参考依据,通过调整搜索顺序来优化算法的性能。这样做的目的是减少由于不同搜索序列导致的不一致性,从而提高算法的准确率。在完成这个预处理步骤后,再进行一次聚类,得出最终的、更为精确的聚类结果。 实验结果显示,应用了改进算法后,其准确率相比未改进的COP-Kmeans算法有显著提升。这表明,通过引入数据对象的稳定性,并结合广度优先搜索的策略,可以有效地改善原有算法在处理约束条件时的效率和准确性。 该论文的关键点在于: 1. 广度优先搜索算法(BFS)在COP-Kmeans中的应用及其问题识别。 2. 标准化互信息在评估数据对象相关性和稳定性的角色。 3. 数据对象稳定性在优化聚类过程中的作用,以及如何提升算法准确率。 4. 改进算法的实际效果验证,显示了其在提高聚类准确性方面的优越性。 这篇论文对数据挖掘和机器学习领域的研究者,特别是关注聚类算法优化和约束处理的研究人员具有很高的参考价值。它提供了一个新的视角,即如何通过调整搜索策略和利用数据对象特性来提升算法性能。