信息熵驱动的高维分类数据子空间聚类新算法

需积分: 10 0 下载量 190 浏览量 更新于2024-08-20 收藏 653KB PDF 举报
本文档深入探讨了"基于信息熵的高维分类型数据子空间聚类算法"这一主题,针对高维分类型数据在传统相异度度量中遇到的局限性和稀疏性问题,提出了一种创新的理论解决方案。作者孙浩军、杜育林和姜大志,来自汕头大学计算机系,针对高维数据的复杂性,设计了一种高效且无监督的子空间搜索方法,这种方法结合了对应子空间和噪声空间的维度信息熵,旨在有效地降低数据维度,从而提高聚类性能。 该算法的核心在于利用信息熵作为度量标准,能够更好地理解和捕捉数据的内在结构,尤其是对于分类数据,这弥补了传统方法在处理高维稀疏数据时的不足。算法通过子空间搜索策略,对高维数据进行降维,减少了计算复杂性,同时引入全局优化策略,即基于整体数据的平均信息熵,进行聚类结果的迭代优化,以提升聚类准确性和稳定性。 作者通过实验验证了新算法的有效性,使用了人工数据和三个典型的真实分类数据集,包括Votes、Mushroom和Soybean,对比了新算法与传统分类型聚类算法在聚类准确性、信息熵值、CU(Category Utility,类别效用)以及类个数等多个关键指标上的表现。结果显示,新算法在这些方面均表现出显著的优势,证明了其在高维分类型数据聚类任务中的优越性。 这篇论文的主要贡献在于提供了一种适用于高维分类型数据的新型聚类方法,利用信息熵解决数据稀疏性和相似度度量问题,为大数据分析和高维数据挖掘提供了有力的工具。这对于工程实践和技术发展具有重要意义。