信息熵驱动的高维分类数据子空间聚类新算法
需积分: 10 58 浏览量
更新于2024-08-20
收藏 653KB PDF 举报
本文档深入探讨了"基于信息熵的高维分类型数据子空间聚类算法"这一主题,针对高维分类型数据在传统相异度度量中遇到的局限性和稀疏性问题,提出了一种创新的理论解决方案。作者孙浩军、杜育林和姜大志,来自汕头大学计算机系,针对高维数据的复杂性,设计了一种高效且无监督的子空间搜索方法,这种方法结合了对应子空间和噪声空间的维度信息熵,旨在有效地降低数据维度,从而提高聚类性能。
该算法的核心在于利用信息熵作为度量标准,能够更好地理解和捕捉数据的内在结构,尤其是对于分类数据,这弥补了传统方法在处理高维稀疏数据时的不足。算法通过子空间搜索策略,对高维数据进行降维,减少了计算复杂性,同时引入全局优化策略,即基于整体数据的平均信息熵,进行聚类结果的迭代优化,以提升聚类准确性和稳定性。
作者通过实验验证了新算法的有效性,使用了人工数据和三个典型的真实分类数据集,包括Votes、Mushroom和Soybean,对比了新算法与传统分类型聚类算法在聚类准确性、信息熵值、CU(Category Utility,类别效用)以及类个数等多个关键指标上的表现。结果显示,新算法在这些方面均表现出显著的优势,证明了其在高维分类型数据聚类任务中的优越性。
这篇论文的主要贡献在于提供了一种适用于高维分类型数据的新型聚类方法,利用信息熵解决数据稀疏性和相似度度量问题,为大数据分析和高维数据挖掘提供了有力的工具。这对于工程实践和技术发展具有重要意义。
2023-04-28 上传
2023-03-12 上传
2023-06-10 上传
2024-03-02 上传
2024-02-28 上传
2023-06-06 上传
2023-09-05 上传
2023-05-22 上传
weixin_38672940
- 粉丝: 5
- 资源: 970
最新资源
- 彩虹rain bow point鼠标指针压缩包使用指南
- C#开发的C++作业自动批改系统
- Java实战项目:城市公交查询系统及部署教程
- 深入掌握Spring Boot基础技巧与实践
- 基于SSM+Mysql的校园通讯录信息管理系统毕业设计源码
- 精选简历模板分享:简约大气,适用于应届生与在校生
- 个性化Windows桌面:自制图标大全指南
- 51单片机超声波测距项目源码解析
- 掌握SpringBoot实战:深度学习笔记解析
- 掌握Java基础语法的关键知识点
- SSM+mysql邮件管理系统毕业设计源码免费下载
- wkhtmltox下载困难?找到正确的安装包攻略
- Python全栈开发项目资源包 - 功能复刻与开发支持
- 即时消息分发系统架构设计:以tio为基础
- 基于SSM框架和MySQL的在线书城项目源码
- 认知OFDM技术在802.11标准中的项目实践