邻域链异常检测：改进的数据异常点识别方法

14 浏览量更新于2024-08-31 收藏 512KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"基于邻域链的数据异常点检测方法通过替换传统的局部密度估计方式，以解决基于几何距离的估计在某些情况下可能导致的反直观结果。本文提出的这种方法在实验中显示了优于经典LOF（Local Outlier Factor）及其改进版本的能力，能更精确地识别正常点与异常点。" 在数据挖掘领域，异常点检测是一项关键任务，其目标是识别那些与大多数数据点显著不同的数据点，这些点可能是由于错误、欺诈或者未知现象导致的。传统的异常点检测方法往往依赖于统计学或几何学上的特征，如距离度量。然而，基于密度的异常点检测方法因其能够处理非线性结构和高维数据而受到广泛关注。这些方法主要包括LOF（Local Outlier Factor），它通过计算数据点的局部密度和其邻居的相对密度来识别异常点。 LOF方法的核心在于计算每个数据点的局部密度，通常使用的是欧氏距离。但这种方法在处理复杂数据分布时可能会遇到问题，例如在高密度区域的边界点可能会被错误地标记为异常点，因为它们的局部密度相对较低，尽管它们可能在实际环境中是正常的。这就是所谓的反直观结果。为了解决这个问题，"基于邻域链的数据异常点检测" 提出了一种新的策略。该方法利用邻域链的概念来估计局部密度，邻域链是一种动态构建的顺序邻域结构，它可以更好地捕捉数据点之间的关联性和局部结构。通过这种方式，异常点的检测不再单纯依赖于几何距离，而是考虑了数据点之间的连接关系，这有助于更准确地识别出真正的异常点。实验部分比较了新方法与LOF以及一些基于LOF的改进方法。结果显示，新方法在区分正常点和异常点的准确性上有所提高，有效地避免了反直观的结果。这表明，基于邻域链的方法在处理复杂数据集时可能具有更高的鲁棒性和适应性。基于邻域链的异常点检测方法提供了一个新的视角来理解和处理数据中的异常行为，对于提升数据挖掘和监控系统的性能有重要意义。这种方法特别适合于需要精确识别异常情况的场景，如金融交易监控、网络入侵检测、医疗诊断等。在未来的研究中，可以进一步探索邻域链如何适应不同类型的异常模式，以及如何优化其性能以适应更大规模和更复杂的数据集。

资源详情

资源推荐

第 34卷第 7期控制与决策 Vol.34 No.7

2019年 7月 Control and Decision Jul. 2019

文章编号: 1001-0920(2019)07-1433-08 DOI: 10.13195/j.kzyjc.2017.1649

基于邻域链的数据异常点检测

梁绍一, 韩德强

†

(1. 西安交通大学电信学院，西安 710049；

2. 中国电子科技集团公司航天信息应用技术重点实验室，石家庄 050081)

摘要: 异常点检测(outlier detection)领域的大量研究都集中于一类“基于密度的”方法,这类方法能够克服许多

传统异常点检测方法的缺陷, 但仍大多使用基于几何距离的方式进行数据点局部密度的估计, 导致在某些情况下

反直观结果的出现. 针对该问题, 用一种基于邻域链的方法取代传统方法进行局部密度的估计, 设计新的异常点

检测方法. 实验结果表明, 对比经典的基于密度的异常点检测方法 LOF(Local outlier factor) 以及几种基于 LOF 的

改进方法,所提出的方法能够更加准确地区分正常和异常数据点,避免反直观结果的出现.

关键词: 数据挖掘；异常点检测；局部密度；局部异常因子；欧氏距离；邻域链

中图分类号: TP181 文献标志码: A

Outlier detection based on neighborhood chain

LIANG Shao-yi, HAN De-qiang

†

(1. College of Electronic and Information Engineering，Xi’an Jiaotong University，Xi’an 710049，China；2. CETC Key

Laboratory of Aerospace Information Applications，China Electronics Technology Group Corporation，Shijiazhuang

050081，China)

Abstract: Many research works in the area of outlier detection are focused on the so called “density-based” methods.

Such kind of methods can counter-act many drawbacks of the traditional outlier detection methods. However, most

existing density-based methods use geometric-distance-based approaches to estimate the data point’s local density, which

leads to incorrect results in certain cases. To resolve the problem, the traditional local density estimation method is

substituted by a neighborhood-chain-based method, and a new outlier detection method is proposed. Compared to the

local outlier factor (LOF) and several of related modiﬁcations, the proposed one can ﬁnd the outliers more accurately.

Keywords: data mining；outlier detection；local density；local outlier factor；Euclidean distance；neighborhood chain

0 引言

对于数据挖掘领域的许多应用 (例如欺诈检测、

电子商务中的犯罪活动检测、机器故障检测等)而言,

寻找数据中的“异常点”往往比寻找数据中正常和

大量出现的模式更有意义

[1]

. 近年来, 出现许多异常

点检测方法, 这些方法通常被分为 4 类

[2-3]

: 基于分布

(Distribution-based) 的方法

[4-5]

、基于聚类 (Clustering

-based) 的方法

[6-7]

、基于距离 (Distance-based) 的方

法

[8-9]

以及基于密度 (Density-based) 的方法

[10]

. 其中

基于距离和基于密度的方法最为常见.

在早期的基于距离的方法中, 如果某个数据点

与其所属数据集中大部分数据点距离都较远, 则

该数据点将被认为是一个异常点. 这一类方法的

代表为文献 [8-9] 等. 在后期的发展中

[11-14]

, 许多基

于距离的方法已不再通过一个固定的距离阈值来

判别异常点, 而是通过计算某个点到其 k 近邻点的

距离 (k-nn distance) 来确定该点属于异常点的程度

(outlierness). 基于距离的异常点检测方法对异常点

的定义非常直观, 也易于实现, 因而应用广泛. 然而,

当数据集中的点所形成的类团具有不同的密度时, 这

一类方法无法保证异常点的准确判别.

相比于基于距离的异常点检测方法, 基于密度

的方法在处理具有不同密度分布的数据时有着明

显的优势. 这一类方法将异常点定义为那些与其邻

域点的局部密度具有很大差异的数据点. 局部异常

因子

[10]

(Local outlier factor, LOF) 方法就是一种经

收稿日期: 2017-12-05；修回日期: 2018-02-25.

基金项目: 国家自然科学基金项目 (61573275, 61671370)；国家973计划项目(2013CB329405)；陕西省科技计划项目

(2013KJXX-46)；中央高校基本科研业务费专项资金项目(xjj2016066)；中国博士后科学基金项目(2016M

592790)；中国电子科技集团公司航天信息应用技术重点实验室高校合作课题项目(KX172600034).

†

通讯作者. E-mail: deqhan@mail.xjtu.edu.cn.

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38640794

粉丝: 4
资源: 942

邻域链异常检测：改进的数据异常点识别方法

基于深度学习的异常点检测算法.zip

大规模数据的局部动态邻域离群点检测算法

基于自适应聚类算法的异常点检测研究

基于数据挖掘和社会网络分析的异常检测技术

基于MATLAB的异常值检测与处理技术

基于邻域搜索的双聚类方法在基因表达微阵列和单细胞RNA测序数据中的应用

lof异常检测算法代码

局部异常因子算法matlab

matlab实现LOF

邻域分析、查找分析、指标分析的优缺点

举例说明聚类的异常检测算法

去异常值方法 回归方法 matlab

基于密度的聚类算法 DBSCAN

LOF和DBSCAN的异同

LOF python

LOF matlab

详细介绍DBSCAN算法以及实现步骤

Coefficient of Outlier Factor算法

localoutlierfactor参数

lof算法 matlab

最新资源

去异常值方法回归方法 matlab