现有奶茶店数据,有下单时间,开始制作奶茶时间,制作奶茶完成时间,一单中的杯量,门店编号,需要填充每个门店当天开始制作时间和制作完成时间的缺失值,写出Python代码
时间: 2024-03-27 19:40:32 浏览: 65
假数据已经存储在一个名为`orders`的DataFrame中,其中包括下单时间(`order_time`)、开始制作时间(`start_time`)、制作完成时间(`finish_time`)、杯量(`cup_num`)和门店编号(`store_id`)等列。可以按照以下步骤填充缺失值:
1. 将`order_time`列转换为时间类型。
2. 对数据按照门店编号和下单时间升序排序。
3. 对于每个门店,按照下单时间顺序遍历数据,依次填充开始制作时间和制作完成时间的缺失值。
4. 对于每一行,如果开始制作时间或制作完成时间为空,则根据前一行的制作完成时间和杯量计算出当前行的开始制作时间和制作完成时间。
下面是对应的Python代码:
```python
import pandas as pd
import numpy as np
# 将order_time列转换为时间类型
orders['order_time'] = pd.to_datetime(orders['order_time'])
# 对数据按照门店编号和下单时间升序排序
orders = orders.sort_values(['store_id', 'order_time'])
# 遍历每个门店的数据,依次填充缺失值
for store_id, group in orders.groupby('store_id'):
group['start_time'] = group['start_time'].fillna(method='ffill')
group['finish_time'] = group['finish_time'].fillna(method='ffill')
group[['start_time', 'finish_time']] = group[['start_time', 'finish_time']].fillna(method='backfill')
group[['start_time', 'finish_time']] = group[['start_time', 'finish_time']].fillna(method='ffill')
group['start_time'] = group['start_time'].fillna(group['finish_time'] - pd.to_timedelta(group['cup_num'], unit='min'))
group['finish_time'] = group['finish_time'].fillna(group['start_time'] + pd.to_timedelta(group['cup_num'], unit='min'))
orders.loc[group.index] = group
# 检查是否还有缺失值
assert orders[['start_time', 'finish_time']].isna().sum().sum() == 0
```
这段代码首先将`order_time`列转换为时间类型,然后对数据按照门店编号和下单时间升序排序。接下来,它遍历每个门店的数据,首先使用`ffill`方法填充开始制作时间和制作完成时间的缺失值,然后使用`backfill`方法填充剩余的缺失值,最后使用前向填充方法`ffill`再次填充可能存在的缺失值。如果仍然存在缺失值,则使用前一行的制作完成时间和杯量计算出当前行的开始制作时间和制作完成时间。最后,它检查是否还有缺失值。
阅读全文