信息熵驱动的高维分类数据子空间聚类新算法
需积分: 10 190 浏览量
更新于2024-08-20
收藏 653KB PDF 举报
本文档深入探讨了"基于信息熵的高维分类型数据子空间聚类算法"这一主题,针对高维分类型数据在传统相异度度量中遇到的局限性和稀疏性问题,提出了一种创新的理论解决方案。作者孙浩军、杜育林和姜大志,来自汕头大学计算机系,针对高维数据的复杂性,设计了一种高效且无监督的子空间搜索方法,这种方法结合了对应子空间和噪声空间的维度信息熵,旨在有效地降低数据维度,从而提高聚类性能。
该算法的核心在于利用信息熵作为度量标准,能够更好地理解和捕捉数据的内在结构,尤其是对于分类数据,这弥补了传统方法在处理高维稀疏数据时的不足。算法通过子空间搜索策略,对高维数据进行降维,减少了计算复杂性,同时引入全局优化策略,即基于整体数据的平均信息熵,进行聚类结果的迭代优化,以提升聚类准确性和稳定性。
作者通过实验验证了新算法的有效性,使用了人工数据和三个典型的真实分类数据集,包括Votes、Mushroom和Soybean,对比了新算法与传统分类型聚类算法在聚类准确性、信息熵值、CU(Category Utility,类别效用)以及类个数等多个关键指标上的表现。结果显示,新算法在这些方面均表现出显著的优势,证明了其在高维分类型数据聚类任务中的优越性。
这篇论文的主要贡献在于提供了一种适用于高维分类型数据的新型聚类方法,利用信息熵解决数据稀疏性和相似度度量问题,为大数据分析和高维数据挖掘提供了有力的工具。这对于工程实践和技术发展具有重要意义。
点击了解资源详情
点击了解资源详情
点击了解资源详情
2021-01-30 上传
点击了解资源详情
2021-10-04 上传
2023-02-23 上传
2022-07-02 上传
点击了解资源详情
weixin_38672940
- 粉丝: 5
- 资源: 970
最新资源
- 全国江河水系图层shp文件包下载
- 点云二值化测试数据集的详细解读
- JDiskCat:跨平台开源磁盘目录工具
- 加密FS模块:实现动态文件加密的Node.js包
- 宠物小精灵记忆配对游戏:强化你的命名记忆
- React入门教程:创建React应用与脚本使用指南
- Linux和Unix文件标记解决方案:贝岭的matlab代码
- Unity射击游戏UI套件:支持C#与多种屏幕布局
- MapboxGL Draw自定义模式:高效切割多边形方法
- C语言课程设计:计算机程序编辑语言的应用与优势
- 吴恩达课程手写实现Python优化器和网络模型
- PFT_2019项目:ft_printf测试器的新版测试规范
- MySQL数据库备份Shell脚本使用指南
- Ohbug扩展实现屏幕录像功能
- Ember CLI 插件:ember-cli-i18n-lazy-lookup 实现高效国际化
- Wireshark网络调试工具:中文支持的网口发包与分析