举例说明data.dropna()的用法
时间: 2024-05-16 08:14:57 浏览: 157
`data.dropna()` 是 Pandas 库中的一个函数,用于删除数据集中包含缺失值(NaN)的行或列。它的具体用法如下:
```python
data.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
```
参数说明:
- `axis`:指定删除行或列,0 表示删除行,1 表示删除列,默认为 0。
- `how`:指定删除方式,'any' 表示只要该行或列中存在 NaN,就删除该行或列;'all' 表示该行或列中所有值都为 NaN 才删除该行或列,默认为 'any'。
- `thresh`:指定每行或每列中最少要有多少个非 NaN 值,否则该行或列将被删除。
- `subset`:指定要检查缺失值的列,只对这些列进行缺失值检查并删除。
- `inplace`:是否在原数据集上进行修改,True 表示在原数据集上进行修改,False 表示生成一个新的数据集,默认为 False。
举个例子,假设有以下数据集:
```python
import pandas as pd
import numpy as np
data = pd.DataFrame({'A': [1, 2, np.nan, 4, 5],
'B': [6, 7, 8, np.nan, 10],
'C': [11, np.nan, 13, 14, 15]})
print(data)
```
输出结果为:
```
A B C
0 1.0 6.0 11.0
1 2.0 7.0 NaN
2 NaN 8.0 13.0
3 4.0 NaN 14.0
4 5.0 10.0 15.0
```
现在我们想删除包含 NaN 值的行,可以使用 `dropna()` 函数:
```python
data.dropna()
```
输出结果为:
```
A B C
0 1.0 6.0 11.0
4 5.0 10.0 15.0
```
可以看到,第 1、2、3 行都包含 NaN 值,被删除了。如果我们想删除包含 NaN 值的列,可以设置 `axis=1`:
```python
data.dropna(axis=1)
```
输出结果为:
```
C
0 11.0
1 NaN
2 13.0
3 14.0
4 15.0
```
可以看到,第 1、2 列都包含 NaN 值,被删除了。
阅读全文