混合属性数据的聚类融合增量聚类算法

1 下载量 76 浏览量 更新于2024-08-29 收藏 359KB PDF 举报
"基于聚类融合的混合属性数据增量聚类算法是一种旨在改善传统增量聚类方法在处理混合属性数据时存在的不稳定、随机性大和准确性不足问题的算法。该算法由李桃迎、陈燕、张金松和秦胜君在2012年的《控制与决策》杂志上提出,其主要思想是结合多种聚类算法的结果以增强聚类的稳定性和精确性。通过聚类融合,该算法能够更好地利用数据的特性,提高聚类效果。关键词包括聚类融合、增量聚类、矢量量化和模糊k均值。" 在传统的增量聚类方法中,当新数据不断加入时,聚类结果可能会因算法的随机性或数据变化而变得不稳定。混合属性数据是指同时包含数值型和类别型属性的数据集,这类数据的聚类更具挑战性。为了应对这些挑战,该算法采用了聚类融合策略,即使用多种不同的聚类算法(如矢量量化和模糊k均值)对数据进行独立处理,然后将这些算法的结果综合考虑,而不是仅依赖单一的聚类结果。 在聚类融合过程中,每种聚类算法都会生成一个聚类方案,这些方案可能各有优劣。算法通过比较和集成这些方案,找出最佳的聚类结构,以提高整体聚类的准确性和稳定性。此外,算法还修正了阈值的选取范围,这有助于更精确地确定数据点应归属的类别,避免因阈值设置不当而导致的聚类错误。 矢量量化是一种将高维数据映射到低维空间的聚类方法,常用于图像压缩等领域。在此算法中,它可能被用来处理数值型属性,将高维数据点转化为低维表示,从而简化聚类过程。模糊k均值则是对经典k均值算法的一种扩展,允许数据点以一定程度的隶属度归属于多个类别,适合处理类别边界模糊的情况。 实验结果表明,基于聚类融合的混合属性数据增量聚类算法能够在保持计算效率的同时,显著提升聚类的稳定性和准确性。这种方法对于处理大规模、动态变化的混合属性数据集尤其有价值,例如在大数据分析、用户行为分析、市场细分等场景中。 该算法提供了一种有效处理混合属性数据的方法,通过融合多种聚类策略和调整阈值,能够在数据不断更新的环境中保持聚类的可靠性,为数据挖掘和模式识别领域提供了有价值的工具。