通过箱型图对数据去除异常值代码
时间: 2023-09-14 13:05:57 浏览: 106
数据挖掘-Python-箱线图方法查找出数据表中异常值,并利用拉格朗日插值法和牛顿插值法补充空值(数据表+源码+报告)
5星 · 资源好评率100%
以下是使用 Python 和 Pandas 库进行箱型图去除异常值的代码示例:
```python
import pandas as pd
import seaborn as sns
# 读取数据
data = pd.read_csv("data.csv")
# 绘制箱型图
sns.boxplot(data=data)
# 找到异常值
q1 = data.quantile(0.25)
q3 = data.quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr
outliers = data[(data < lower_bound) | (data > upper_bound)].dropna()
# 去除异常值
data = data[(data >= lower_bound) & (data <= upper_bound)]
# 绘制去除异常值后的箱型图
sns.boxplot(data=data)
```
在上面的代码中,我们首先读取数据,并使用 Seaborn 库绘制出数据的箱型图。然后,我们计算出数据的四分位数和 IQR(四分位距),并根据 IQR 定义上下界,找到所有的异常值。最后,我们使用 Pandas 的条件查询功能,将数据中不在上下界内的值过滤掉,从而去除异常值。最后,我们再次绘制箱型图,以检查异常值是否已经被去除。
阅读全文