二维空间硬聚类算法HCMef:影响力因子研究

需积分: 9 0 下载量 75 浏览量 更新于2024-08-11 收藏 335KB PDF 举报
"二维空间中硬聚类算法影响力因子的作用研究 (2006年),由金健、黄国兴和梁道雷发表于《计算机科学》2006年第33卷第10期,探讨了如何改进经典硬聚类算法HCM(hard c-means)以适应不同簇规模差异的情况。" 文章主要关注的问题是,传统的HCM算法在处理聚类问题时,由于完全依赖于欧氏距离,可能无法有效地处理簇内样本数量差异较大的场景。为解决这一问题,作者提出了一种创新方法——HCMef算法。在HCMef中,通过在每个欧氏距离项上引入影响力因子,将距离标准转化为基于角度的标准,从而增强了算法的适应性和鲁棒性。 实验部分,作者使用了二维空间中的两类样本数据,这些数据具有相似的分布密度,但样本数对比分别为1000:1000、1000:5000和1000:10000,同时类边界从模糊到清晰变化。通过对这些数据集的应用,HCMef算法表现出了显著的优势,能够准确地找到聚类中心,且在各种情况下保持了良好的稳定性。这表明HCMef算法在处理样本数量不平衡的聚类问题时具有较高的可行性和可靠性。 关键词:HCM算法,聚类,影响力因子 通过引入影响力因子,HCMef算法克服了HCM算法的局限性,使得聚类过程不再单纯依赖于距离,而是考虑了样本间的相对位置关系,这种基于角度的判断方式有助于更好地识别和区分不同规模的簇。此外,该研究结果对于进一步推广到更高维度或更复杂的数据集也具有一定的启示意义,为聚类算法的优化提供了新的思路。 总结来说,这篇论文的核心贡献在于提出了一种改进的硬聚类算法,即HCMef,它通过影响力因子调整了距离度量,提高了在处理样本数量不平衡时的聚类效果。这种方法在实际应用中,尤其是在数据挖掘和模式识别领域,有望成为一种强大的工具,特别是在面对大规模、非均匀分布数据集时。