首页如何删除数据框里的重复数据

如何删除数据框里的重复数据

时间: 2023-02-08 16:28:22 浏览: 124

Pandas 数据框提供了 drop_duplicates() 函数可以用来删除重复的行。语法为： ``` DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) ``` 参数说明： - subset：可选参数，表示根据哪些列来判断重复。 - keep：可选参数，默认值为 'first'。'first' 表示保留第一个出现的重复行，'last' 表示保留最后一个出现的重复行，False 表示全部删除。 - inplace：可选参数，默认值为 False。若为 True，则在原数据框上进行修改；若为 False，则返回一个新的数据框。例： ``` import pandas as pd df = pd.DataFrame({'A':[1, 2, 3, 2], 'B':[4, 5, 6, 5], 'C':[7, 8, 9, 8]}) df = df.drop_duplicates() print(df) ``` 输出结果： ``` A B C 0 1 4 7 1 2 5 8 2 3 6 9 ``` 这段代码中，我们创建了一个数据框，里面有重复的值, 然后通过drop_duplicates() 删除重复的行，保留第一个出现的。请注意，如果需要根据某几列来删除重复行，可以传入参数 subset = [list of columns]

阅读全文