提取合并后的数据集信息,并进行数据清洗与整理代码
时间: 2024-03-15 16:44:21 浏览: 126
好的,以下是一个示例代码,用于提取合并后的数据集信息,并进行一些常见的数据清洗和整理操作:
```python
import pandas as pd
# 读取合并后的数据集
train_df = pd.read_csv('train.csv')
# 查看数据集前5行
print(train_df.head())
# 查看数据集的形状
print(train_df.shape)
# 查看数据集中每列的数据类型和缺失值情况
print(train_df.info())
# 删除一些不需要的列
train_df = train_df.drop(['date', 'time', 'rv1', 'rv2'], axis=1)
# 将日期和时间列合并为一个时间列,并将其转换为时间戳格式
train_df['datetime'] = pd.to_datetime(train_df['date'] + ' ' + train_df['time'])
train_df = train_df.drop(['date', 'time'], axis=1)
# 处理缺失值
train_df = train_df.fillna(train_df.mean())
# 标准化数据
cols_to_normalize = ['lights', 'T1', 'RH_1', 'T2', 'RH_2', 'T3', 'RH_3', 'T4', 'RH_4', 'T5', 'RH_5', 'T6', 'RH_6', 'T7', 'RH_7', 'T8', 'RH_8', 'T9', 'RH_9', 'T_out', 'Press_mm_hg', 'RH_out', 'Windspeed', 'Visibility']
train_df[cols_to_normalize] = (train_df[cols_to_normalize] - train_df[cols_to_normalize].mean()) / train_df[cols_to_normalize].std()
# 查看处理后的数据集前5行
print(train_df.head())
```
这段代码将输出数据集的前5行,形状,每列的数据类型和缺失值情况。接着,它删除了一些不需要的列,并将日期和时间列合并为一个时间列。然后,它处理了缺失值,并对数据进行了标准化处理。最后,它输出了处理后的数据集的前5行。
请注意,这是一个示例代码,具体的数据清洗和整理操作取决于您的数据和模型。
阅读全文