自底向上子空间层次聚类算法:高维分类型数据的高效解决方案
194 浏览量
更新于2024-08-26
收藏 456KB PDF 举报
本文主要探讨了"一种高维分类型数据的子空间聚类算法"这一研究主题,由孙浩军教授等人提出,他们属于汕头大学工学院,该研究得到了国家自然科学基金项目的资助。高维分类型数据的处理是当前数据科学中的一个重要挑战,因为高维数据中的冗余属性使得在全空间上进行聚类变得困难。子空间聚类作为一种有效的解决方案,通过在相关维度上进行搜索,可以提高聚类的效率和准确性。
论文的核心贡献是设计了一种自底向上的子空间层次聚类算法,该算法在全局范围内构建了一个最相似线性表,用于记录每个簇类与其最相似簇类的相似度。这种方法在信息熵的框架下进行搜索,有助于找到簇类的精确子空间。算法在聚类过程中通过不断选择最相似的簇类进行合并,通过维护线性表动态更新最相似簇类的信息。这种策略显著提高了算法在处理高维分类型数据时的精度和稳定性。
实验证明,通过在Zoo和Soybean两个典型的数据集上的实验,该算法相较于其他同类聚类算法,如k-means、CLARANS和DBSCAN等,显示出更高的聚类准确性和稳定性。这对于那些需要处理大规模高维分类数据的应用场景具有重要的实际价值,例如商务智能、图像模式识别和生物信息学等领域。
这篇论文提供了一种有效的解决高维数据聚类问题的方法,强调了子空间聚类在减少维度冗余、提高聚类效果方面的优势,并展示了其在实际数据集上的良好性能,为高维数据分析的研究者和实践者提供了新的思路和技术支持。
点击了解资源详情
129 浏览量
107 浏览量
133 浏览量
点击了解资源详情
1826 浏览量
196 浏览量
183 浏览量
151 浏览量

weixin_38725902
- 粉丝: 4
最新资源
- Verilog实现的Xilinx序列检测器设计教程
- 九度智能SEO优化软件新版发布,提升搜索引擎排名
- EssentialPIM Pro v11.0 便携修改版:全面个人信息管理与同步
- C#源代码的恶作剧外表答题器程序教程
- Weblogic集群配置与优化及常见问题解决方案
- Harvard Dataverse数据的Python Flask API教程
- DNS域名批量解析工具v1.31:功能提升与日志更新
- JavaScript前台表单验证技巧与实例解析
- FLAC二次开发实用论文资料汇总
- JavaScript项目开发实践:Front-Projeto-Final-PS-2019.2解析
- 76云保姆:迅雷云点播免费自动升级体验
- Android SQLite数据库增删改查操作详解
- HTML/CSS/JS基础模板:经典篮球学习项目
- 粒子群算法优化GARVER-6直流配网规划
- Windows版jemalloc内存分配器发布
- 实用强大QQ机器人,你值得拥有