读取文件 数据对空值数据进行清洗
时间: 2024-10-19 16:13:04 浏览: 29
使用Pandas进行数据预处理 笔记2 任务 5.2 清洗数据代码数据
读取文件并清洗空值数据是数据分析过程中的常见步骤。在Python中,可以使用pandas库来操作数据。以下是基本流程:
1. **读取文件**:
- 使用`pandas.read_csv()`函数读取CSV文件,如果文件是Excel或其他格式,可以使用相应的方法,如`read_excel()`或`read_json()`等。
```python
import pandas as pd
data = pd.read_csv('filename.csv')
```
2. **检查空值**:
- 使用`isnull()`函数检查数据集中是否存在缺失值,返回的是一个布尔值数组,True表示有空值。
```python
null_values = data.isnull()
```
3. **清洗空值**:
- 可以选择几种策略处理空值:
- 删除含有空值的行(dropna()函数):
```python
cleaned_data = data.dropna() # 或者按列 dropna(axis=1)
```
- 插入默认值(fillna()函数):
```python
cleaned_data = data.fillna(value='N/A') # 如果你想用字符串填充
cleaned_data = data.fillna(data.mean()) # 如果你想用平均值填充数值列
```
- 使用统计信息填充(如众数、中位数):
```python
cleaned_data = data.fillna(data.mode().iloc[0]) # 对分类变量
```
4. **保存清洗后的数据**:
```python
cleaned_data.to_csv('cleaned_filename.csv', index=False) # 将清洗后的数据保存回新的CSV文件
```
阅读全文