首页dataframe有机组号列，故障代码列，触发时间，如果触发时间连续3天或超过3天都触发了该机组的故障代码，则将最新一天触发的机组号，故障代码，触发时间加到新的dataframe

dataframe有机组号列，故障代码列，触发时间，如果触发时间连续3天或超过3天都触发了该机组的故障代码，则将最新一天触发的机组号，故障代码，触发时间加到新的dataframe

时间: 2023-09-04 12:11:39 浏览: 92

可以使用pandas库来实现这个需求，具体代码如下： ```python import pandas as pd # 读取原始数据 df = pd.read_csv('原始数据.csv') # 将触发时间转换为日期格式 df['触发时间'] = pd.to_datetime(df['触发时间'], format='%Y-%m-%d') # 按照机组号和故障代码分组 grouped = df.groupby(['机组号', '故障代码']) # 定义一个函数，用于判断是否连续3天或超过3天都触发了该机组的故障代码 def is_continuous(series): days = (series - series.shift(1)).dt.days return (days <= 1).sum() >= 2 # 筛选出满足条件的数据，并只保留最新一天的数据 filtered = grouped.filter(is_continuous).groupby(['机组号', '故障代码']).last().reset_index() # 输出结果 filtered.to_csv('新的数据.csv', index=False) ``` 解释一下代码的执行过程： 1. 首先读取原始数据，并将触发时间转换为日期格式； 2. 然后按照机组号和故障代码分组； 3. 定义一个函数is_continuous，用于判断是否连续3天或超过3天都触发了该机组的故障代码。这里使用了pandas的shift函数来计算相邻两个触发时间的差值，如果差值小于等于1天，则认为是连续的。最后判断连续天数是否大于等于2即可； 4. 对分组后的数据进行筛选，保留满足条件的数据，并只保留最新一天的数据； 5. 最后将结果输出到新的csv文件中。需要注意的是，这个代码中没有对数据进行排序，如果需要按照触发时间排序，可以在groupby之前先对数据进行排序。另外，如果原始数据中存在缺失值，需要先进行处理。

阅读全文