改进的粗k均值聚类算法:解决一致性与离群点问题

0 下载量 133 浏览量 更新于2024-08-29 收藏 202KB PDF 举报
"本文提出了一种改进的粗k均值聚类算法,旨在解决Lingras原始算法在处理随机初始化聚类中心和离群点时存在的问题,提高聚类的一致性和收敛性。该方法选择了潜能最大的k个对象作为初始聚类中心,并依据数据对象与这些中心的相对距离来决定其上下近似归属,从而更好地处理边界区域的划分。通过引入广义分类正确率这一评价指标,该算法能够更准确地评估其性能,尤其考虑了下近似集和边界区域的对象。实验结果显示,改进后的算法具有更高的分类正确率、更快的收敛速度以及对离群点的良好鲁棒性。" 在聚类领域,k均值算法是一种广泛应用的无监督学习方法,它将数据集分成k个簇,每个簇的成员是与其他成员相似的数据对象。然而,k均值算法的一个显著缺点是其对初始聚类中心的选择敏感,随机选择可能导致次优的聚类结果。Lingras提出的粗k均值算法尝试解决这个问题,但依然存在一致性差和无法收敛的问题。 本文提出的改进算法采用了新的策略来选择初始聚类中心,即选取潜能最大的k个对象,这里的“潜能”可能指的是数据对象到其他对象的平均距离或其他能反映其代表性的度量。这种方法有助于找到更具代表性的中心,从而改善聚类的质量。 此外,针对边界区域的处理,算法引入了“上下近似归属”的概念,这允许数据对象根据与聚类中心的距离动态地属于某个簇或者被认为是边界区域的一部分。这种灵活的归属规则可以更好地适应数据的复杂分布,减少边界区域的模糊性。 为了评估算法的性能,作者定义了广义分类正确率。传统的分类正确率通常只关注最终聚类的准确性,而忽视了边界区域的处理。广义分类正确率则同时考虑了下近似集(完全属于某簇的对象)和边界区域中的对象,提供了更为全面的评估。 仿真实验表明,该改进算法在分类正确率和收敛速度上表现出色,尤其是在面临离群点的情况下,它能够有效地降低离群点对聚类结果的负面影响。这使得该算法在处理包含异常值或噪声的真实世界数据时更具优势。 这项工作为聚类算法的研究提供了一个有价值的贡献,改进的粗k均值算法不仅提高了聚类效果,还增强了算法对数据异常的鲁棒性,为实际应用中的数据挖掘和模式识别提供了有力工具。