对时间序列数据进行清洗,特诊提取,填充NA值的代码
时间: 2024-05-14 21:13:55 浏览: 115
清洗时间序列数据:
```python
import pandas as pd
# 读取数据
data = pd.read_csv('data.csv')
# 转换时间列的格式
data['time'] = pd.to_datetime(data['time'], format='%Y-%m-%d %H:%M:%S')
# 删除重复数据
data.drop_duplicates(subset=['time'], inplace=True)
# 将时间列设为索引列
data.set_index('time', inplace=True)
# 删除不需要的列
data.drop(columns=['id'], inplace=True)
# 打印清洗后的数据
print(data.head())
```
特征提取:
```python
# 计算每个时间段的平均值
data['mean'] = data.resample('H').mean()
# 计算每个时间段的最大值
data['max'] = data.resample('H').max()
# 计算每个时间段的最小值
data['min'] = data.resample('H').min()
# 打印特征提取后的数据
print(data.head())
```
填充NA值:
```python
# 前向填充
data.fillna(method='ffill', inplace=True)
# 后向填充
data.fillna(method='bfill', inplace=True)
# 打印填充后的数据
print(data.head())
```
阅读全文