西饼屋订单数据预处理代码
时间: 2024-11-24 08:26:34 浏览: 34
西饼屋订单数据预处理通常涉及清洗、转换和整合原始数据,以便后续分析。以下是预处理代码的一个简化示例,假设我们使用Python的pandas库:
```python
import pandas as pd
import numpy as np
# 读取数据
orders_df = pd.read_csv('order_data.csv') # 假设文件名
# 1. 数据清洗
# 检查并处理缺失值
orders_df = orders_df.dropna(subset=['customer_id', 'product']) # 删除含有缺失值的行
orders_df['quantity'] = orders_df['quantity'].fillna(0) # 对数量列填充默认值
# 处理异常值,如负数或非数字
orders_df['quantity'] = orders_df['quantity'].apply(lambda x: max(x, 0)) # 确保数量大于等于0
# 2. 数据转换
# 将日期时间字段转换为适合分析的格式
orders_df['order_date'] = pd.to_datetime(orders_df['order_date'])
# 如果有分类变量,可以进行独热编码 (One-Hot Encoding)
orders_df = pd.get_dummies(orders_df, columns=['category'])
# 3. 数据整合
# 如果有重复记录,可以考虑删除或合并
orders_df = orders_df.drop_duplicates()
# 划分训练集和测试集
train_data, test_data = train_test_split(orders_df, test_size=0.2, random_state=42)
# 输出预处理后的数据基本信息
print(orders_df.info())
```
阅读全文