改进的DBSCAN聚类算法:分区与参数自适应研究

需积分: 9 1 下载量 183 浏览量 更新于2024-08-08 收藏 1.06MB PDF 举报
“基于空间密度的群以噪声发现聚类算法研究 (2012年)”是一篇2012年7月发表在《南京大学学报(自然科学)》上的学术论文,作者包括毕方明、王为奎和陈龙。这篇论文主要探讨了对DBSCAN(Density-based spatial clustering of applications with noise)算法的改进,以解决其内存消耗大、I/O操作成本高、聚类质量受全局变量影响以及对输入参数敏感等问题。 DBSCAN是一种经典的无监督学习方法,用于发现数据中的核心对象、边界对象和噪声。该算法基于密度连接的概念,寻找连续的高密度区域以形成聚类。然而,DBSCAN存在一些局限性,特别是在处理大规模数据集时,其内存需求和I/O操作可能显著增加,且当数据密度不均匀时,使用全局统一的阈值可能导致聚类质量下降。此外,DBSCAN对输入参数(如ε和MinPts)的选择非常敏感,不合适的参数可能导致聚类效果不佳。 论文中提出的改进策略包括两部分:数据分区和参数自适应。首先,根据数据的空间分布特性,将数据空间划分为多个小的分区,这样可以减小每个分区的局部密度差异,使得每个分区内的密度更加均匀。通过这种方法,可以降低内存消耗,同时减少I/O操作,因为处理的只是小规模的数据子集。其次,针对每个分区,论文提出了一个改进的DBSCAN算法,该算法能自适应地根据数据分布选择中心点的近邻,并对这些近邻点进行采样和扩展。这一策略可以提高算法的准确性和效率,因为它能更好地适应不同区域的数据密度变化。 在聚类过程中,论文还引入了一种合并规则,将各个分区的聚类结果有效地整合在一起。通过对改进后的DBSCAN算法进行仿真实验,作者证明了新算法能够有效地解决原始DBSCAN的内存消耗过大、聚类质量差以及全局参数敏感性问题。 关键词涉及数据挖掘、空间聚类、基于密度的群以噪声发现聚类、数据分区和参数自适应。论文的核心贡献在于提供了一个优化的DBSCAN实现,它通过分区和自适应参数调整提高了算法在处理复杂和大规模空间数据时的性能和准确性。这对于大数据分析和空间数据挖掘领域具有重要的理论和实践价值。