数据预处理; 填充空值、去重复值、去异常值、列名去空格、时间属性year、month、day、hour合并为一个时间字段。
时间: 2023-10-08 12:11:16 浏览: 105
数据预处理
5星 · 资源好评率100%
好的,以下是数据预处理的代码示例:
```python
import pandas as pd
import numpy as np
# 读取原始数据
df = pd.read_csv('original_data.csv')
# 填充空值
df.fillna(value=0, inplace=True)
# 去重复值
df.drop_duplicates(inplace=True)
# 去异常值
df = df[(df['column_name'] > 0) & (df['column_name'] < 100)]
# 列名去空格
df.columns = df.columns.str.strip()
# 合并时间字段
df['datetime'] = pd.to_datetime(df['year'].astype(str) + '-' + df['month'].astype(str) + '-' + df['day'].astype(str) + ' ' + df['hour'].astype(str) + ':00:00')
# 删除原来的时间字段列
df.drop(['year', 'month', 'day', 'hour'], axis=1, inplace=True)
# 保存处理后的数据
df.to_csv('processed_data.csv', index=False)
```
以上代码示例中,需要根据实际情况修改`'original_data.csv'`和`'processed_data.csv'`文件名,以及空值填充、异常值判断、合并时间字段等具体处理方法和参数。
阅读全文