异常检测方法详解：从一维到多维

需积分: 10 19 浏览量更新于2024-07-18 收藏 11.29MB PDF 举报

"异常检测课程笔记，涵盖一维和多维空间的异常检测方法，包括统计方法、非参数方法，如3σ准则、MAD规则、箱型图和LOF、ABOD等。" 异常检测是数据分析领域的重要部分，主要用于识别数据集中与正常模式显著偏离的观测值。异常点可能是由于测量错误、系统故障或特定事件导致，对数据清理和模型构建有重大影响。在数据挖掘过程中，异常检测是数据预处理的关键步骤。未识别的异常点可能导致模型误分类，影响参数估计的准确性，甚至产生错误的分析结果。另一方面，对于专注于离群值研究的学者来说，异常点本身可能就代表了他们感兴趣的现象。异常点的产生原因多样，可以是随机噪声、系统异常、人为错误或未知事件。针对这些异常，异常检测方法分为两大类：单变量方法和多变量方法。单变量方法关注单一变量，如3σ准则，它基于数据点与均值的距离（标准差的三倍）来识别异常。然而，3σ准则可能会受到“隐蔽”和“淹没”效应的影响，即一个大的异常值可能掩盖其他异常值，或者将正常值误判为异常。为提高鲁棒性，可以采用基于中位数的度量，如MAD（中位绝对偏差）规则。MAD相对于平均值更为稳定，不易受极端值影响。箱型图法则也是一种常用的单变量异常检测工具，通过计算四分位数来识别异常点。改进的箱型图规则考虑了数据分布的偏斜，进一步优化了异常检测的性能。多变量异常检测涉及多个特征，如线性代数中的马氏距离，它考虑了特征间的相关性。此外，局部异常因子(LOF)是一种非参数方法，通过评估数据点与其邻近点的相对密度来识别异常。对于高维数据，像角度基异常检测(ABOD)这样的方法更加有效，因为它能处理大量特征的情况，并且能捕捉到数据点在特征空间中的局部结构变化。异常检测的应用广泛，涵盖了金融交易欺诈检测、网络入侵识别、医疗诊断等多种场景。通常，设定一个阈值（如5%）来决定哪些观测值被视为异常。然而，选择合适的阈值和方法依赖于具体的应用场景和数据特性，因此理解并灵活应用各种异常检测技术至关重要。