首页用pandas在csv中读取第一列内容后将重复的内容只保留一个，不重复的直接输出到另一个csv第一列

用pandas在csv中读取第一列内容后将重复的内容只保留一个，不重复的直接输出到另一个csv第一列

时间: 2023-05-22 11:06:19 浏览: 87

使用pandas读取csv文件的指定列方法

根据教程实现了读取csv文件前面的几行数据，一下就想到了是不是可以实现前面几列的数据。经过多番尝试总算试出来了一种方法。之所以想实现读取前面的几列是因为我手头的一个csv文件恰好有后面几列没有可用数据，但是却一直存在着。原来的数据如下： GreydeMac-mini:chapter06 greyzhang$ cat data.csv 1,name_01,coment_01,,,, 2,name_02,coment_02,,,, 3,name_03,coment_03,,,, 4,name_04,coment_04,,,, 5,name_05,coment_05,,,, 6,name_06,

可以使用 pandas 库中的 drop_duplicates 方法来去掉 csv 文件第一列中的重复项，再将结果输出到另一个 csv 文件中的第一列，具体代码如下： ``` import pandas as pd # 读取 csv 文件 df = pd.read_csv('input.csv') # 去掉第一列的重复项 df.drop_duplicates(subset=df.columns[0], keep='first', inplace=True) # 输出结果到另一个 csv 文件 df.to_csv('output.csv', index=False, header=['column_name']) ``` 其中，`subset` 参数表示要去重的列，`keep` 参数表示保留哪个重复项，`inplace` 参数表示是否在原 DataFrame 上直接操作，`index` 参数表示是否包含行索引，`header` 参数表示输出文件第一行的列名。

阅读全文