首页df.drop_duplicates()

df.drop_duplicates()

时间: 2023-10-09 20:10:35 浏览: 74

这个函数是 pandas 库中的一个方法，用于去除 DataFrame 中的重复行。它的作用是返回一个去除了重复行的新 DataFrame。具体用法如下： ```python df.drop_duplicates(subset=None, keep='first', inplace=False) ``` 其中： - `subset`：可以指定去重时考虑的列，默认是所有列。可以传入一个列名的列表，表示只考虑这些列的组合是否重复。 - `keep`：表示去重后保留哪个，可选值为 `'first'`、`'last'` 和 `False`，默认为 `'first'`，表示保留第一次出现的行，而将后面重复出现的行删除。若选 `'last'`，则保留最后一次出现的行。若选 `False`，则删除所有重复行。 - `inplace`：表示是否在原 DataFrame 上进行修改，若为 `True`，则会在原 DataFrame 上直接删除重复行，并返回 `None`。例如，可以这样使用： ```python import pandas as pd df = pd.DataFrame({'A': [1, 2, 2, 3], 'B': ['a', 'b', 'b', 'c']}) print(df) # A B # 0 1 a # 1 2 b # 2 2 b # 3 3 c df = df.drop_duplicates() print(df) # A B # 0 1 a # 1 2 b # 3 3 c ``` 在这个例子中，`df` 中第 2 行和第 3 行是重复的，因此在使用 `drop_duplicates()` 后被删除了。

阅读全文