基于聚类的异常检测方法及其应用

需积分: 9 6 下载量 174 浏览量 更新于2024-07-23 收藏 445KB PDF 举报
"Cluster-based outlier detection" 是一种针对分类数据中的异常检测方法,它在数据挖掘领域有着广泛的应用,如欺诈检测、客户行为分析以及入侵检测。传统的离群点检测通常关注单个数据对象,但实际中许多异常事件往往具有时间和空间上的局部特性,可能形成小的异常集群。这些小集群同样可以被视为异常情况,因为它们的行为与数据集中的大部分显著不同。 论文《Cluster-based outlier detection》由 Lian Duan、Lida Xu、Ying Liu 和 Jun Lee 合著,于2008年6月12日在线发表于《应用运营研究》(Ann Oper Res),并获得了DOI:10.1007/s10479-008-0371-9。作者提出了一种新的离群点定义——基于聚类的离群点,这种定义强调了局部数据行为的重要性。通过这种方法,异常检测不再局限于孤立的数据点,而是扩展到识别由LDBSCAN聚类算法(Duan等人,2007年在《信息系统》期刊上发表的论文Inf.Syst.32(7):978-986中提出的)发现的小规模聚类。 LDBSCAN是一种强大的聚类算法,它不仅能够发现数据中的集群,还能计算每个数据对象的局部可达密度(Local Outlier Factor, LOF)。通过这种方式,该算法能够评估数据对象与其周围邻居的相似性,从而识别出那些在邻域内的密度显著低于其邻域平均密度的对象,这些对象被定义为潜在的离群点或基于聚类的离群点。 总结来说,这篇论文的主要贡献在于提出了一种新的离群点检测视角,通过结合聚类和局部密度分析,有效地检测出数据集中不仅孤立的异常点,还包括那些形成小型异常集群的数据对象。这对于理解和处理复杂数据集中的异常情况具有重要的实践价值。