python数据分析与挖掘实战数据清洗代码
时间: 2023-09-12 15:03:42 浏览: 85
以下是一个简单的Python数据清洗代码示例:
```python
import pandas as pd
# 读取CSV文件
data = pd.read_csv('data.csv')
# 删除重复行
data.drop_duplicates(inplace=True)
# 删除空值行
data.dropna(inplace=True)
# 修改列名
data.rename(columns={'old_name': 'new_name'}, inplace=True)
# 将日期字符串转换为日期格式
data['date'] = pd.to_datetime(data['date'])
# 删除不必要的列
data.drop(['unnecessary_column'], axis=1, inplace=True)
# 替换字符串中的错误值
data['column'] = data['column'].str.replace('error_value', 'correct_value')
# 保存清洗后的数据
data.to_csv('cleaned_data.csv', index=False)
```
这里使用了Pandas库来读取和操作数据,首先读取CSV文件,然后通过`drop_duplicates`方法删除重复行,通过`dropna`方法删除空值行,通过`rename`方法修改列名,通过`to_datetime`方法将日期字符串转换为日期格式,通过`drop`方法删除不必要的列,通过`str.replace`方法替换字符串中的错误值,最后将清洗后的数据保存为CSV文件。需要注意的是,这只是一个简单的数据清洗示例,实际数据清洗可能需要更复杂的处理。
阅读全文