首页dataframe列去重

dataframe列去重

时间: 2023-08-03 07:56:35 浏览: 108

可以使用 pandas 库中的 drop_duplicates() 方法进行去重。该方法会返回一个新的数据帧，其中包含原始数据帧中去重后的数据。 drop_duplicates() 方法可以接受多个参数来指定在哪些列上进行去重，以及如何处理重复值。其中最常用的参数是 subset 和 keep。 - subset：指定需要去重的列名，可以是一个字符串或一个列表。 - keep：指定保留哪个重复值，可以是 'first'（保留第一个出现的值）、'last'（保留最后一个出现的值）或 False（全部删除）。以下是一个示例： ```python import pandas as pd # 创建一个包含重复值的数据帧 df = pd.DataFrame({'key1': ['A', 'B', 'A', 'C', 'B'], 'key2': ['X', 'Y', 'Y', 'Z', 'X'], 'value': [1, 2, 3, 4, 5]}) # 对 key1 和 key2 列进行去重，并保留第一个出现的值 df2 = df.drop_duplicates(subset=['key1', 'key2'], keep='first') print(df2) ``` 输出结果如下： ``` key1 key2 value 0 A X 1 1 B Y 2 3 C Z 4 4 B X 5 ``` 可以看到，重复的行已经被删除了，保留了第一个出现的值。

阅读全文