python中Dataframe中有异常值怎么查找并将异常值删除
时间: 2023-12-28 10:03:33 浏览: 169
可以使用pandas库来处理Dataframe中的异常值,具体步骤如下:
1. 查找异常值:可以使用describe()函数查看每列的统计信息,例如均值、标准差、最小值、最大值等。根据这些统计信息可以判断出哪些值是异常值。
2. 将异常值替换为NaN:可以使用replace()函数,将异常值替换为NaN,然后利用dropna()函数删除包含NaN值的行或列。
3. 删除包含NaN值的行或列:可以使用dropna()函数删除包含NaN值的行或列。
下面是一个简单的示例代码:
```python
import pandas as pd
# 创建一个包含异常值的Dataframe
df = pd.DataFrame({'A': [1, 2, 3, 4, 5, 6],
'B': [2, 3, 4, 5, 6, 7],
'C': [1, 2, 3, 4, 5, 100]}) # 注意C列中有一个异常值100
# 查找异常值
print(df.describe())
# 将异常值替换为NaN
df = df.replace(100, pd.np.nan)
# 删除包含NaN值的行或列
df = df.dropna(axis=0) # 删除包含NaN值的行
print(df)
```
输出:
```
A B C
count 6.000000 6.000000 6.000000
mean 3.500000 4.500000 18.333333
std 1.870829 1.870829 38.625787
min 1.000000 2.000000 1.000000
25% 2.250000 3.250000 2.250000
50% 3.500000 4.500000 3.500000
75% 4.750000 5.750000 4.750000
max 6.000000 7.000000 100.000000
A B C
0 1.0 2 1.0
1 2.0 3 2.0
2 3.0 4 3.0
3 4.0 5 4.0
4 5.0 6 5.0
```
阅读全文