η型最大中心间隔极大熵聚类算法研究
下载需积分: 0 | PDF格式 | 1.66MB |
更新于2024-09-07
| 116 浏览量 | 举报
"这篇论文研究了一种基于最大中心间隔的缩放型η-极大熵聚类算法(η-MCS-MEC),旨在解决在数据缩放后聚类算法中心点趋于一致的问题,尤其针对极大熵聚类(MEC)算法的敏感性进行了改进。论文指出,当数据缩放比例低于10^-3数量级时,MEC算法的聚类效果会严重退化。为了解决这个问题,研究者在MEC算法基础上加入了最大中心间隔项和缩放因子η,构建了一个新的目标函数,即η-MCS-MEC算法。该算法通过对中心点间距离的调控,使它们达到最大化,同时利用η来调整类别的划分,防止聚类中心趋同。实验结果表明,新算法在模拟数据集和UCI数据集上表现出对数据变化的不敏感性和良好的鲁棒性。"
这篇学术论文详细探讨了数据预处理中的一个重要问题,即如何在保持数据信息完整性的前提下,有效处理数据之间的差异性。传统的处理方法是进行比例缩放,但这种做法可能对某些聚类算法,特别是极大熵聚类(MEC)算法产生负面影响。当缩放比例过于小,如10^-3数量级以下,MEC算法的聚类性能会显著下降,导致聚类中心趋于一致,这意味着不同类别的区分度降低。
为了解决这一问题,论文提出了η-极大熵聚类(η-MCS-MEC)算法,这是一种新的优化策略。它在MEC算法的基础上,引入了最大中心间隔的概念,这是一项用于确保聚类中心之间距离最大化的指标。此外,η-MCS-MEC算法还利用一个名为η的缩放因子来控制类别的划分,这个因子能够灵活地适应不同数据集的特性,从而避免聚类中心趋同的问题。
论文通过实验证明了η-MCS-MEC算法的有效性。在模拟数据集和UCI公开数据集上进行的实验显示,新算法对数据变化具有更强的鲁棒性,不再对缩放比例敏感。这一成果对于改善聚类分析的稳定性和准确性,特别是在面对大规模或复杂数据集时,具有重要的理论和实际意义。
关键词涉及的最大中心间隔、数据缩放、极大熵聚类和中心一致,揭示了研究的核心内容和目标。论文的贡献在于提出了一种新的聚类算法,它能够在处理缩放数据时保持聚类质量,对于数据挖掘、模式识别和智能计算领域有着重要的参考价值。