GISN-DBSCAN: 基于扩展区域查询的密度聚类新算法

需积分: 9 0 下载量 179 浏览量 更新于2024-09-07 收藏 1.47MB PDF 举报
"一种基于扩展区域查询的密度聚类算法,GISN-DBSCAN,通过改进DBSCAN算法,解决其在确定最小点数、最大邻域半径、时间效率及识别不同密度簇上的问题。该算法引入扩展区域查询,构建k-影响空间域,并设计异常点判定函数以精确区分边界点和噪声点。实验结果证明GISN-DBSCAN能有效改善DBSCAN的局限性。" 本文主要探讨了一种新的密度聚类算法——GISN-DBSCAN,该算法是对经典DBSCAN算法的改进,旨在解决DBSCAN在实际应用中遇到的一些挑战。DBSCAN是一种基于密度的空间聚类算法,它能够发现任意形状的聚类并忽略噪声点,但其关键参数(最小点数和最大邻域半径)的设定往往依赖于领域知识,且算法的运行时间和对起始点选择的敏感度都是其不足之处。 GISN-DBSCAN算法首先提出了“扩展区域查询”这一概念,这是一种优化的查询策略,旨在更有效地寻找邻域内的点,从而减少算法的时间复杂度。通过扩展区域查询,可以更灵活地处理数据点的密度分布,避免了DBSCAN中因固定半径查询导致的问题。 接下来,算法利用最近邻域和反最近邻域的关系来建立每个数据点的“k-影响空间域”。k-影响空间域是根据点的邻域结构进行动态调整的,能更好地反映出数据点的局部密度特性,对于识别不同密度下的邻近簇非常有帮助。 此外,GISN-DBSCAN算法还引入了一个异常点判定函数,这个函数能够准确地区分边界点(位于两个或多个聚类交界处的点)和噪声点。这解决了DBSCAN在处理边界点时可能出现的误分类问题,提高了聚类的准确性。 通过一系列的实验,GISN-DBSCAN算法的性能被验证,结果显示它在处理DBSCAN算法的难点上表现优秀,特别是在参数确定、运行效率和边界点处理方面。因此,GISN-DBSCAN算法为密度聚类提供了一种更为稳健和实用的方法,尤其适用于那些密度不均匀或者需要快速聚类的数据集。 这项工作是由杨杰明教授领导的研究团队完成的,团队成员包括吴启龙、曲朝阳等,他们的研究领域涵盖了文本分类、机器学习、数据挖掘等多个方面。研究得到了国家自然科学基金和吉林省科技发展计划的资助。通过这篇论文,他们不仅贡献了一种新的聚类算法,也为未来在密度聚类领域的研究提供了新的思路和方法。