异常检测方法详解:从一维到多维

需积分: 10 1 下载量 19 浏览量 更新于2024-07-18 收藏 11.29MB PDF 举报
"异常检测课程笔记,涵盖一维和多维空间的异常检测方法,包括统计方法、非参数方法,如3σ准则、MAD规则、箱型图和LOF、ABOD等。" 异常检测是数据分析领域的重要部分,主要用于识别数据集中与正常模式显著偏离的观测值。异常点可能是由于测量错误、系统故障或特定事件导致,对数据清理和模型构建有重大影响。 在数据挖掘过程中,异常检测是数据预处理的关键步骤。未识别的异常点可能导致模型误分类,影响参数估计的准确性,甚至产生错误的分析结果。另一方面,对于专注于离群值研究的学者来说,异常点本身可能就代表了他们感兴趣的现象。 异常点的产生原因多样,可以是随机噪声、系统异常、人为错误或未知事件。针对这些异常,异常检测方法分为两大类:单变量方法和多变量方法。单变量方法关注单一变量,如3σ准则,它基于数据点与均值的距离(标准差的三倍)来识别异常。然而,3σ准则可能会受到“隐蔽”和“淹没”效应的影响,即一个大的异常值可能掩盖其他异常值,或者将正常值误判为异常。 为提高鲁棒性,可以采用基于中位数的度量,如MAD(中位绝对偏差)规则。MAD相对于平均值更为稳定,不易受极端值影响。箱型图法则也是一种常用的单变量异常检测工具,通过计算四分位数来识别异常点。改进的箱型图规则考虑了数据分布的偏斜,进一步优化了异常检测的性能。 多变量异常检测涉及多个特征,如线性代数中的马氏距离,它考虑了特征间的相关性。此外,局部异常因子(LOF)是一种非参数方法,通过评估数据点与其邻近点的相对密度来识别异常。对于高维数据,像角度基异常检测(ABOD)这样的方法更加有效,因为它能处理大量特征的情况,并且能捕捉到数据点在特征空间中的局部结构变化。 异常检测的应用广泛,涵盖了金融交易欺诈检测、网络入侵识别、医疗诊断等多种场景。通常,设定一个阈值(如5%)来决定哪些观测值被视为异常。然而,选择合适的阈值和方法依赖于具体的应用场景和数据特性,因此理解并灵活应用各种异常检测技术至关重要。