信息熵驱动的高维分类数据子空间聚类新算法

需积分: 10 188 浏览量更新于2024-08-20 收藏 653KB PDF 举报

本文档深入探讨了"基于信息熵的高维分类型数据子空间聚类算法"这一主题，针对高维分类型数据在传统相异度度量中遇到的局限性和稀疏性问题，提出了一种创新的理论解决方案。作者孙浩军、杜育林和姜大志，来自汕头大学计算机系，针对高维数据的复杂性，设计了一种高效且无监督的子空间搜索方法，这种方法结合了对应子空间和噪声空间的维度信息熵，旨在有效地降低数据维度，从而提高聚类性能。该算法的核心在于利用信息熵作为度量标准，能够更好地理解和捕捉数据的内在结构，尤其是对于分类数据，这弥补了传统方法在处理高维稀疏数据时的不足。算法通过子空间搜索策略，对高维数据进行降维，减少了计算复杂性，同时引入全局优化策略，即基于整体数据的平均信息熵，进行聚类结果的迭代优化，以提升聚类准确性和稳定性。作者通过实验验证了新算法的有效性，使用了人工数据和三个典型的真实分类数据集，包括Votes、Mushroom和Soybean，对比了新算法与传统分类型聚类算法在聚类准确性、信息熵值、CU（Category Utility，类别效用）以及类个数等多个关键指标上的表现。结果显示，新算法在这些方面均表现出显著的优势，证明了其在高维分类型数据聚类任务中的优越性。这篇论文的主要贡献在于提供了一种适用于高维分类型数据的新型聚类方法，利用信息熵解决数据稀疏性和相似度度量问题，为大数据分析和高维数据挖掘提供了有力的工具。这对于工程实践和技术发展具有重要意义。

weixin_38672940

粉丝: 5
资源: 970

信息熵驱动的高维分类数据子空间聚类新算法

稀疏子空间聚类代码包

子空间聚类算法解析PPT学习教案.pptx

结构α-熵的加权高斯混合模型的子空间聚类.docx

python传递包聚类算法

如何结合熵权法改进K-prototypes算法以提升对混合数据集的聚类精度和稳定性？

信息熵在聚类算法中的作用

NMF聚类算法的聚类效果评估，数据包含40个属性和3个类别；一共有5000个样本，对数据进行聚类效果评估的时候应该如何选择评价指标

如何应用组合模糊熵指数（CFE）来确定模糊聚类算法中的最优聚类数？请提供方法论和实际应用场景。

基于信息熵的多模态数据融合技术

在混合数据聚类中，如何应用信息熵对K-prototypes算法的属性权重进行优化，以提升聚类的精度和稳定性？

最新资源