python中read_csv读取文件后合并多个文件中部分索引并去除重复值,按照指定索引保存
时间: 2024-10-22 12:10:53 浏览: 10
在Python中,你可以使用pandas库的`read_csv()`函数来逐个读取CSV文件,并利用`concat()`函数将它们沿着特定索引合并。然后,可以使用`drop_duplicates()`函数去除重复值。这里是一个简单的步骤示例:
```python
import pandas as pd
# 指定合并的列名作为索引
index_col = 'your_index_column_name'
# 遍历所有需要合并的文件路径
files = ['file1.csv', 'file2.csv', 'file3.csv'] # 替换为你实际的文件路径列表
frames = []
for file in files:
df_temp = pd.read_csv(file, index_col=index_col) # 读取文件并设置索引
frames.append(df_temp)
# 合并数据框
merged_df = pd.concat(frames, ignore_index=True) # ignore_index=True会重新创建索引,防止重复
# 去除重复值,如果index_col是你想保留唯一性的列
merged_df = merged_df.drop_duplicates(subset=index_col, keep='first') # 或者根据其他列('last'、'first'等)
# 选择指定的索引保存到新的CSV文件
merged_df.to_csv('output.csv', index=False) # 保存结果,index=False表示不保存索引列到文件中
阅读全文