3σ原则和箱型图对数据进行异常值检测实验内容
时间: 2024-05-06 22:15:48 浏览: 170
异常值是指与数据集中其他数据显著不同的数据点。异常值可能是由于测量错误、输入错误或真实的极端值而导致。在数据挖掘和机器学习中,异常值可能会影响模型的准确性和可靠性。因此,对于任何数据分析项目,都需要进行异常值检测。
3σ原则是指在正态分布中,约有68%的数据点位于平均值加减1个标准差之间,95%的数据点位于平均值加减2个标准差之间,99.7%的数据点位于平均值加减3个标准差之间。因此,如果数据点的值超出平均值加减3个标准差的范围,则它被视为异常值。
箱型图是一种可视化工具,用于识别数据集中的异常值。箱型图显示了数据的中位数、上四分位数、下四分位数和数据的范围。箱型图中的异常值通常被定义为小于下四分位数减1.5倍四分位距或大于上四分位数加1.5倍四分位距的数据点。
在实验中,我们将使用Python和numpy库来生成带有异常值的随机数据集,并使用3σ原则和箱型图来检测异常值。
示例代码如下:
```python
import numpy as np
import matplotlib.pyplot as plt
# 生成随机数据集
data = np.random.normal(0, 1, 1000)
# 添加异常值
data = np.append(data, [10, -10, 20, -20])
# 使用3σ原则检测异常值
mean = np.mean(data)
std = np.std(data)
threshold = 3 * std
outliers = []
for x in data:
if abs(x - mean) > threshold:
outliers.append(x)
print("3σ原则检测到的异常值:", outliers)
# 使用箱型图检测异常值
plt.boxplot(data)
plt.show()
```
运行上述代码后,将输出3σ原则检测到的异常值,并显示箱型图,其中包含异常值。
阅读全文