数据清洗代码
时间: 2023-08-06 19:17:25 浏览: 45
数据清洗是数据处理过程中非常重要的一步,以下是一个简单的 Python 代码示例,用于演示如何清洗数据:
```python
import pandas as pd
import numpy as np
# 读取数据
df = pd.read_csv('data.csv')
# 删除重复行
df.drop_duplicates(inplace=True)
# 删除缺失值
df.dropna(inplace=True)
# 删除不必要的列
df.drop(['id', 'timestamp'], axis=1, inplace=True)
# 将字符串转换为数字
df['price'] = pd.to_numeric(df['price'], errors='coerce')
# 将日期时间格式转换为时间戳
df['date'] = pd.to_datetime(df['date'])
df['timestamp'] = df['date'].apply(lambda x: x.timestamp())
# 重命名列
df.rename(columns={'title': 'product_name', 'desc': 'description'}, inplace=True)
# 保存清洗后的数据
df.to_csv('cleaned_data.csv', index=False)
```
这个示例代码做了以下几件事情:
1. 读取数据文件 `data.csv`。
2. 删除重复行。
3. 删除缺失值。
4. 删除不必要的列。
5. 将价格列的字符串转换为数字。
6. 将日期时间格式转换为时间戳。
7. 重命名列。
8. 保存清洗后的数据到文件 `cleaned_data.csv`。