多中心非平衡K-均值聚类算法解决数据不均衡问题

下载需积分: 0 | PDF格式 | 324KB | 更新于2024-08-28 | 161 浏览量 | 举报

1 收藏

本文主要探讨的是"多中心的非平衡K-均值聚类方法"（MC_IK），一种针对非平衡数据聚类问题的有效解决方案。在传统的K-均值聚类中，当数据分布不均衡时，算法容易将大量样本误分到少数类，导致聚类结果的"均匀效应"，即大类中的样本被分散到多个小类中。为解决这一问题，研究者亓慧提出了一个创新的方法，通过引入多个中心来改进传统的K-均值聚类算法。首先，该方法在训练集上进行一次标准的K-均值聚类，获取初步的聚类结果。然后，从初次聚类中挑选出那些与两类或多类中心距离接近的样本，形成模糊工作集。这个步骤有助于识别那些可能被错误分配的样本，它们可能处于边缘地带或者属于多个类别。接下来，对各类样本进行二次聚类，得到更细致的子聚类结果。同时，利用模糊工作集中的样本与子聚类中心的距离进行二次分类，进一步优化聚类决策。这种方法通过多层次的聚类和细致的边缘处理，有效地缓解了均匀效应的问题。实验结果显示，多中心的非平衡K-均值聚类方法（MC_IK）在处理非平衡数据集时表现出显著的优势，能更准确地识别和聚集不同类别的样本，提高聚类的精度和稳定性。研究关注的关键点包括非平衡数据、K-均值聚类、均匀效应、模糊工作集以及MC_IK算法的实际应用。关键词：非平衡数据、K-均值聚类、均匀效应、模糊工作集、MC_IK算法。这篇论文的研究成果对于改进现有聚类算法，尤其是在处理现实世界中常见的数据不平衡问题时，具有重要的理论价值和实际应用意义。它可能对数据挖掘、机器学习等领域中的聚类任务提供新的思路和技术支持。