网格与密度结合:簇边缘聚类精度提升算法
需积分: 9 151 浏览量
更新于2024-09-06
收藏 505KB PDF 举报
"该论文提出了一种新的聚类算法,旨在解决基于网格聚类算法在簇边缘精度不足的问题。该算法结合了网格和密度的概念,通过精细化处理位于簇边缘的网格,提高聚类的准确性。作者是张宁、单世民、江贺和张宪超,来自大连理工大学软件学院。实验结果显示,提出的算法在保持较低时间复杂度的同时,能够获得比CLIQUE算法更好的聚类效果。该方法适用于数据密集型场景,尤其适合处理大规模数据集,因为它降低了计算密集度,并且能够处理不规则形状的聚类。"
论文详细内容:
聚类是一种无监督学习方法,用于将数据集分成多个组,使同一组内的数据点彼此相似,而不同组的数据点差异大。常见的聚类算法包括基于划分、层次和密度的方法。基于网格的聚类算法,如CLIQUE,通过将数据空间划分为网格,简化了计算过程,但可能导致簇边缘的聚类质量下降。
本文针对这一问题,提出了一种创新的聚类策略。算法首先采用网格化空间,然后特别关注簇边缘的网格,对其进行更精细的密度分析,以恢复这些不确定数据点的原始信息。通过计算相似度,这些点被正确地分配到相应的簇中。这种方法的优势在于,它能够在保持较低的时间复杂度(优于CLIQUE的O(n)时间复杂度)的同时,提高聚类的精确度。
论文还指出,基于密度的聚类方法,如DBSCAN,虽然能够有效地处理非规则形状的簇并减少噪声的影响,但其计算成本较高。相比之下,新算法通过网格化和密度结合,既保留了密度方法的优点,又降低了计算复杂性。
实验部分展示了在空间数据集上的应用,证明了新算法在相同的时间内能获得优于CLIQUE的聚类结果。此外,由于对数据输入顺序不敏感,新算法适合处理增量数据,对于发现大规模数据集中的任意形状聚类具有显著优势。
关键词涵盖了数据聚类的核心概念,包括基于网格、基于密度以及混合算法的设计。文献标识码和中图分类号则将论文归类到计算机科学与技术领域,特别是数据挖掘和聚类算法的研究。
这篇论文贡献了一种新颖的聚类策略,它通过优化簇边缘的处理,提高了基于网格聚类算法的精度,为大数据分析和聚类问题提供了一个有效的解决方案。
2019-07-22 上传
2019-07-22 上传
2019-09-08 上传
2019-07-22 上传
2019-07-22 上传
2019-07-22 上传
weixin_39840387
- 粉丝: 790
- 资源: 3万+
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程