data.dropna()详细介绍下
时间: 2023-12-16 09:50:47 浏览: 63
ml_data.zip
`data.dropna()` 是 Pandas 库中的一个函数,用于删除 DataFrame 或 Series 中包含缺失值的行或列。缺失值可以是 NaN、None 或者其他表示缺失值的值。
该函数的语法为:
```python
data.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
```
参数说明:
- `axis`: 0 表示删除包含缺失值的行,1 表示删除包含缺失值的列,默认值为 0。
- `how`: 删除缺失值的方式,取值为 'any' 或 'all'。'any' 表示只要有一个缺失值就删除该行或列,'all' 表示当该行或列中所有元素都是缺失值时才删除该行或列,默认值为 'any'。
- `thresh`: 表示该行或列中非缺失值的数量达到该值时才不删除,如果该行或列中非缺失值数量小于该值,则会被删除。
- `subset`: 一个列表,表示只在该列表中列名所对应的列中删除缺失值。
- `inplace`: 是否原地修改 DataFrame 或 Series,即不返回副本。默认值为 False。
使用示例:
```python
import pandas as pd
# 创建一个包含缺失值的 DataFrame
data = pd.DataFrame({
'A': [1, 2, None, 4, 5],
'B': [None, 6, 7, 8, 9],
'C': [10, 11, 12, 13, 14]
})
# 删除包含缺失值的行
data.dropna()
# 删除包含缺失值的列
data.dropna(axis=1)
# 只删除 'A' 列中包含缺失值的行
data.dropna(subset=['A'])
# 只删除 'A' 和 'B' 列中同时包含缺失值的行
data.dropna(subset=['A', 'B'], how='all')
```
阅读全文