首页drop_duplicates详解

drop_duplicates详解

时间: 2024-01-20 16:04:16 浏览: 97

详解pandas使用drop_duplicates去除DataFrame重复项参数

Pandas之drop_duplicates：去除重复项方法 DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) 参数这个drop_duplicate方法是对DataFrame格式的数据，去除特定列下面的重复行。返回DataFrame格式的数据。 subset : column label or sequence of labels, optional 用来指定特定的列，默认所有列 keep : {‘first’, ‘last’, False}, default ‘first’ 删除重复项并

drop_duplicates()函数是Pandas库中的一个函数，用于去除DataFrame中的重复行。该函数有四个参数，分别是subset、keep、inplace和ignore_index。具体介绍如下： 1. subset：指定列名，表示根据这些列进行去重，默认为None，表示所有列都参与去重。 2. keep：指定保留哪个重复的元素，可选值为'first'、'last'和False，默认为'first'，表示保留第一个出现的重复元素。 3. inplace：指定是否在原DataFrame上进行修改，可选值为True和False，默认为False，表示不在原DataFrame上进行修改。 4. ignore_index：指定是否忽略原来的索引，可选值为True和False，默认为False，表示不忽略原来的索引。下面是一个示例，演示如何使用drop_duplicates()函数去除DataFrame中的重复行： ```python import pandas as pd # 创建一个DataFrame df = pd.DataFrame({'A': [1, 1, 2, 2], 'B': [3, 4, 4, 5], 'C': [6, 7, 7, 8]}) # 去除重复行 df.drop_duplicates(inplace=True) # 输出去重后的结果 print(df) ``` 输出结果为： ``` A B C 0 1 3 6 1 1 4 7 2 2 4 7 3 2 5 8 ``` 可以看到，原来的DataFrame中有两行是重复的，经过drop_duplicates()函数处理后，重复的行被去除了。

阅读全文