混合属性数据集聚类边界检测算法BERGE

0 下载量 133 浏览量 更新于2024-09-03 收藏 706KB PDF 举报
"混合属性数据集的聚类边界检测技术是一种用于数据分析的方法,旨在识别含有混合属性的数据集聚类的边界。此技术通过名为BERGE的算法实现,它结合了模糊聚类和证据积累的概念,提高了在高维数据中的聚类边界检测精度。BERGE首先利用模糊聚类的隶属度来定义边界因子,识别潜在的边界点集合,随后通过证据积累策略从这些候选边界集中提炼出真正的聚类边界。实验表明,BERGE算法在处理混合属性、数值属性和分类属性数据集时表现出色,其准确性优于现有的同类算法。" 本文介绍了李向丽、耿鹏和邱保志三位作者在《控制与决策》期刊上发表的研究成果,他们针对数据分析中的挑战,即如何从混合属性数据集中提取聚类边界,提出了BERGE算法。混合属性数据集包含不同类型的数据,如数值型和分类型,这给聚类分析带来了复杂性。传统的聚类方法可能无法准确地识别这些边界,而BERGE算法通过引入模糊聚类和证据积累的思想,有效地解决了这个问题。 在模糊聚类中,每个数据点对多个聚类可能存在不同程度的隶属度,这种模糊性使得边界识别更为灵活。边界因子是基于数据点对不同聚类的模糊隶属度定义的,它有助于识别那些位于聚类边缘,可能属于多个聚类的数据点。然后,算法应用证据积累的原理,将这些数据点的隶属度信息整合起来,以确定哪些是最有可能构成聚类边界的点。 证据积累是一种信息融合方法,它允许合并来自不同来源或不同类型的证据,以更全面地理解数据的分布。在聚类边界检测中,证据积累帮助克服单个指标或特征的局限性,提供了一种从整体上评估数据点是否为边界点的机制。 实验部分展示了BERGE算法在综合数据集和真实数据集上的表现,证实了它在检测各种类型属性数据集的聚类边界时具有高精度。相较于其他算法,BERGE在处理混合属性数据时的优越性能是其主要优势。这一研究成果对于数据挖掘、机器学习和模式识别等领域具有重要的理论和实践意义,为混合属性数据的聚类分析提供了新的有效工具。