首页pandas drop_duplicates 具体用法

pandas drop_duplicates 具体用法

时间: 2023-10-10 09:04:20 浏览: 182

`drop_duplicates()` 是 Pandas 中的一个函数，用于去除 DataFrame 或 Series 中重复的行。具体用法如下： ```python DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False) ``` 其中，各参数的含义如下： - `subset`：指定要去重的列，默认为全部列，如果指定了，则只对指定的列进行去重； - `keep`：指定保留哪个重复的值，可选参数为 `'first'`（保留第一个）、`'last'`（保留最后一个）和 `False`（全部删除），默认为 `'first'`； - `inplace`：是否在原 DataFrame 中进行修改，默认为 `False`，即返回一个新的 DataFrame； - `ignore_index`：是否重新设置索引，默认为 `False`，即保留原有的索引。例如，对如下的 DataFrame 进行去重： ```python import pandas as pd data = { 'name': ['Alice', 'Bob', 'Charlie', 'Bob'], 'age': [25, 30, 35, 30], 'gender': ['F', 'M', 'M', 'M'] } df = pd.DataFrame(data) print(df) ``` 输出： ``` name age gender 0 Alice 25 F 1 Bob 30 M 2 Charlie 35 M 3 Bob 30 M ``` 如果我们想要去掉重复的行，可以使用 `drop_duplicates()` 函数： ```python df.drop_duplicates(inplace=True) print(df) ``` 输出： ``` name age gender 0 Alice 25 F 1 Bob 30 M 2 Charlie 35 M ``` 可以看到，重复的行已经被去掉了。

阅读全文