稀疏条件下的重叠子空间聚类算法:OSCSC

需积分: 9 1 下载量 83 浏览量 更新于2024-09-08 收藏 1.15MB PDF 举报
"这篇论文提出了一种名为稀疏条件下的重叠子空间聚类(OSCSC)算法,旨在解决现有子空间聚类算法在处理数据稠密性、稀疏性以及重叠问题上的不足。通过结合l1范数和Frobenius范数的混合范数,该算法构建子空间表示模型,优化了不同子空间的稀疏性和同一子空间的稠密性。此外,引入了基于指数族分布的重叠概率模型,用于验证和调整已划分的子空间,以提高聚类准确性。实验结果证明,OSCSC算法在人造和真实数据集上表现出色。" 本文研究的是数据挖掘和机器学习领域的一个关键问题,即如何在重叠子空间中有效地执行聚类任务。传统的子空间聚类算法往往难以平衡数据的稠密性和稀疏性,同时无法处理数据间的重叠情况。邱云飞等研究人员提出的新颖算法OSCSC,特别关注了这些挑战。他们利用l1范数的稀疏性诱导特性,结合Frobenius范数,建立了一个混合范数表示的子空间模型。通过对l1范数的正则项加权处理,算法可以更好地保持不同子空间间的稀疏性,同时增强同一子空间内数据的紧密度。 接着,为了处理数据重叠问题,研究人员应用了一种基于指数族分布的重叠概率模型。这种模型允许数据点在不同子空间中有一定的重叠概率,通过这种方式,算法能更准确地识别和处理数据的重叠情况,进一步提升聚类效果。在实验阶段,OSCSC算法在人造和实际数据集上进行了测试,结果显示其聚类性能优于现有的方法,证明了算法的有效性和实用性。 这篇论文的贡献在于提供了一种新的子空间聚类策略,不仅考虑了数据的稀疏性和稠密性,还考虑了数据的重叠性,这对于处理现实世界中的复杂数据集具有重要意义。作者团队由邱云飞教授领导,包括博士研究生费博雯、刘大千和硕士研究生刘兴,他们的研究工作集中在数据挖掘、机器学习以及相关的计算领域。 OSCSC算法是一种创新的重叠子空间聚类方法,通过混合范数和重叠概率模型,为解决数据聚类中的关键问题提供了新的思路。这一研究对于未来数据挖掘和机器学习领域的理论发展和实际应用具有重要的参考价值。