贪心DBSCAN:改进的多密度DBSCAN聚类算法

需积分: 17 9 下载量 30 浏览量 更新于2024-09-07 3 收藏 3.63MB PDF 举报
本文档深入探讨了一种名为"GreedyDBSCAN"的改进型DBSCAN算法,该算法针对传统DBSCAN算法在处理多密度数据集以及对输入参数敏感的问题进行了创新。DBSCAN是一种基于密度的聚类算法,其核心思想是通过定义邻域半径(Eps)和邻域内的最小点数(MinPts)来识别核心对象、边界对象和噪声点。 GreedyDBSCAN的主要改进在于其简化了参数选择过程。它摒弃了DBSCAN中的Eps参数依赖性,转而采用贪心策略,只接受用户输入一个基本参数MinPts。算法在运行时动态地确定Eps值,通过迭代和局部优化,自适应地调整邻域范围,这使得算法能够更有效地处理不同密度级别的数据。同时,它引入了相对稠密度的概念,用以识别和区分噪声数据,增强了对多密度数据集的聚类能力。 在核心聚类阶段,算法通过随机选取核对象,并利用邻域查询的方式进行高效搜索,这显著提高了算法的执行速度。这种方式避免了传统的邻域遍历,降低了计算复杂度。此外,GreedyDBSCAN在聚类结果生成阶段采用了簇合并策略,进一步优化了最终的聚类结构。 实验结果显示,这种改进后的算法在实际应用中表现出色,不仅能够有效分离噪声数据,还能准确识别和聚类多密度簇,提高了聚类的准确性和鲁棒性。这对于那些需要处理复杂数据分布和对算法参数敏感度较低的应用场景来说,具有重要的实用价值。 作者们冯振华、钱雪忠和赵娜娜来自江南大学物联网工程学院,他们的研究领域包括数据挖掘、数据库技术和网络安全等,他们在文中分享了他们对DBSCAN算法优化的理论基础和实践经验,为多密度聚类问题提供了一种新的解决方案。 GreedyDBSCAN算法通过创新的策略和优化的技术,成功地解决了DBSCAN在多密度聚类和参数敏感性方面的挑战,为提高聚类性能和实用性提供了有价值的贡献。这篇论文的研究成果对于数据挖掘和机器学习领域的研究人员以及实际应用中的数据分析师具有很高的参考价值。
2018-10-09 上传