高效子空间聚类算法:基于属性聚类与基尼值过滤

需积分: 10 3 下载量 81 浏览量 更新于2024-09-11 收藏 328KB PDF 举报
"该文提出了一种基于属性聚类的高维子空间聚类算法,旨在解决传统子空间聚类算法的时间复杂度高和对输入参数敏感的问题。算法通过计算属性的基尼值来筛选冗余属性,使用二维联合基尼值的关系函数构建非冗余属性之间的关系矩阵,以评估属性的相关性。在关系矩阵上应用特定的聚类算法,生成子空间候选集合,最终确定存在于这些子空间内的簇。实验表明,新算法在时间和聚类效果上都表现出优越性,并且对输入参数的变化不敏感。" 在高维数据的分析中,子空间聚类是一种有效的方法,它能够在数据的低维子空间中发现潜在的簇结构。传统的子空间聚类算法由于处理高维数据时的时间复杂度问题,往往效率较低,且对算法的参数设置非常敏感,这限制了它们在大规模数据集上的应用。牛琨等人提出的算法则针对这些问题进行了优化。 首先,算法通过计算每个属性的基尼值来过滤掉冗余属性。基尼值是一种衡量数据纯度的指标,常用于分类任务中。在子空间聚类中,高基尼值的属性可能包含较多的信息,而低基尼值的属性可能是冗余的。通过这种方式,算法减少了处理的属性数量,降低了计算复杂性。 其次,算法引入了二维联合基尼值的关系函数,用于度量两个非冗余属性之间的相关性。这种关系函数可以帮助识别哪些属性组合能提供更多的聚类信息。通过建立非冗余属性的关系矩阵,可以有效地探索属性间的关联,从而找出最具代表性的子空间组合。 在关系矩阵上,算法应用一种能够产生交叠聚类结果的算法。交叠聚类允许数据点同时属于多个簇,这在某些情况下比传统的非交叠聚类更能反映数据的复杂结构。通过这个步骤,生成了所有可能的兴趣度子空间的候选集合。 最后,通过在这些候选子空间上运行聚类算法,可以找到存在于各个子空间内的实际簇。实验结果证明,这种方法在时间和子空间簇的发现能力上都有显著提升,而且对输入参数的选取不那么敏感,这使得算法更具鲁棒性,适应性强。 总结来说,该算法通过属性聚类和二维联合基尼值的关系矩阵,提高了子空间聚类的效率和鲁棒性,为高维数据的聚类分析提供了一种新的有效工具。其在实际数据集上的良好表现,展示了在处理大规模高维数据时的巨大潜力。