Sklearn异常检测：Isolation Forest与Local Outlier Factor在Kaggle中的应用

需积分: 0 159 浏览量更新于2024-08-03 收藏 205KB PDF 举报

Kaggle教程中关于Sklearn异常检测方法的内容涵盖了异常检测在实际应用中的重要性，特别是离群检测（Outlier Detection）和新奇检测（Novelty Detection）的区别。离群检测是在已知含有离群值的数据集中识别异常点，而新奇检测则是在无离群点的训练数据中判断新样本是否异常，后者属于半监督学习。在Scikit-learn（sklearn）库中，提供了几种常用的异常检测算法，包括： 1. Isolation Forest: 这是一种基于决策树的非参数方法，通过构建多个随机划分的决策树，使得异常点更容易被隔离。每个数据点的异常分数（outlier score）越低，表示它越可能是异常。关键参数有n_estimators（学习器数量）和max_samples（每次抽样的最大样本数）。 2. Local Outlier Factor (LOF): 该方法基于邻域密度估计，计算样本点周围邻居的数量，如果某点的邻域密度远低于其自身，那么它被认为是异常的。这有助于识别那些远离其他点的样本。 3. One-Class SVM: 虽然对异常值敏感，但通过调整超参数nu，如SGDOneClassSVM，可以改进其性能。One-Class SVM假设数据来自一个高斯分布，通过学习数据的结构来识别异常。 4. SGDOneClassSVM: 是One-Class SVM的一个更高效的版本，提供更低的模型复杂度。 5. EllipticEnvelope: 假设数据服从高斯分布，通过学习数据的椭圆形状来识别异常，适用于数据满足正态分布的情况。在选择方法时，需要根据具体问题和数据特性进行评估和调整，因为不同的算法对异常的定义和处理方式有所差异。理解这些方法的原理和适用场景，对于在Kaggle竞赛或实际数据分析中有效地识别和处理异常值至关重要。

Kaggle知识点：Sklearn异常检测方法

很多应用场景都需要能够确定样本是否属于与现有的分布，或者应该被视

为不同的分布。

 离群检测（Outlier

detection）：训练数据包含离群值，这些离群值被定义为与其他观察

值相差甚远的观察值。

 新奇检测 (Novelty

detection)：训练数据没有离群点，需要观察新的样本是否包含离群点

。

离群检测和新颖性检测都用于异常检测，其中人们对检测异常或不寻常的

观察感兴趣。离群检测也称为无监督异常检测，新奇检测称为半监督异常

检测。

在离群检测中离群值不能形成密集的集群，因为可以假设离群值位于低密

度区域。相反在新颖性检测中，新颖性处于训练数据的低密度区域。

Sklearn中支持的方法

如下图为scikit-learn

中异常值检测算法的比较，IsolationForest和LocalOutlierFactor在此处

考虑的数据集上表现相当不错。而OneClassSVM对离群值很敏感，因此在离

群值检测方面表现不佳。

但OneClassSVM仍可用于异常值检测，但需要微调其超参数nu以处理异常值

并防止过度拟合。SGDOneClassSVM提供了复杂度更低的实现。而EllipticE

nvelope假设数据是高斯分布的并学习一个椭圆。

下载后可阅读完整内容，剩余4页未读，立即下载

白话机器学习

粉丝: 1w+
资源: 7671

Sklearn异常检测：Isolation Forest与Local Outlier Factor在Kaggle中的应用

[] - 2022-11-09 Kaggle知识点：12种回归评价指标.pdf

[] - 2022-11-20 Kaggle知识点：模型加权集成7种方法.pdf

[] - 2023-11-12 Kaggle知识点：检测 LLMs文本的方法.pdf

[] - 2023-08-30 Kaggle知识点：Category Encoders库.pdf

[] - 2022-12-27 Kaggle 时序竞赛GoDaddy：五种不同思路.pdf

kaggle竞赛 https:__www.kaggle.com_c_nlp-getting-started.zip

kaggle-2022.pdf

kaggle-avazu-rank2.zip_kaggle_kaggle rank_kaggle比赛_rank2_亚马逊

[] - 2023-10-23 Kaggle赛题总结：Bengali 语音识别.pdf

Hello-Kaggle-Guide：适用于Kaggle的新手

最新资源