首页python数据分析中关于pandas中drop-duolicates函数说法

python数据分析中关于pandas中drop-duolicates函数说法

时间: 2024-09-10 21:13:47 浏览: 38

在Python的pandas库中，`drop_duplicates()`函数是一个非常常用的数据清洗工具，用于从DataFrame中删除重复的行。这个函数的基本语法如下： ```python df.drop_duplicates([subset, keep='first', inplace=False]) ``` 参数说明： - `subset`: 可选参数，指定哪些列（默认为所有列）来判断重复。如果省略，那么所有列都会参与比较。 - `keep`: 决定保留哪一类重复值，有三个选项： - `'first'` (默认): 保留第一次出现的重复值，其他重复会被删除。 - `'last'`: 保留最后一次出现的重复值。 - `False` 或 `None`: 删除所有的重复项。 - `inplace`: 如果设为True，会在原地修改DataFrame，如果不设置或者为False，则返回一个新的DataFrame，不会改变原始数据。举个例子： ```python df = pd.DataFrame({'A': [1, 2, 2, 3], 'B': ['a', 'b', 'b', 'c']}) new_df = df.drop_duplicates() # 删除所有重复行 unique_df = df.drop_duplicates(subset=['A']) # 根据'A'列唯一性去除重复行 ```

阅读全文