帮我写一段Python 代码,现在有一个数据表,有姓名,年龄,工资,日期,有重复的数据,但是日期不一样,帮我找出日期最大的数据,删掉刷数据
时间: 2024-03-09 13:48:08 浏览: 6
好的,请使用 pandas 库来实现:
```python
import pandas as pd
df = pd.read_csv('data.csv') # 读取数据表
df['日期'] = pd.to_datetime(df['日期']) # 将日期列转换为 datetime 类型
df = df.sort_values(by='日期', ascending=False) # 按日期降序排序
df.drop_duplicates(subset=['姓名', '年龄', '工资'], keep='first', inplace=True) # 根据姓名、年龄、工资去重,保留日期最大的
df.to_csv('new_data.csv', index=False) # 将去重后的数据保存到新的文件
print('去重后的数据已保存到 new_data.csv 文件中')
```
其中,`data.csv` 是原始数据表的文件路径,`pd.to_datetime(df['日期'])` 将日期列转换为 datetime 类型,`df.sort_values(by='日期', ascending=False)` 按日期降序排序,`df.drop_duplicates(subset=['姓名', '年龄', '工资'], keep='first', inplace=True)` 根据姓名、年龄、工资去重,保留日期最大的,`df.to_csv('new_data.csv', index=False)` 将去重后的数据保存到新的文件。最后打印出去重后的数据已保存的提示。