首页pandas的去重函数

pandas的去重函数

时间: 2024-10-09 14:14:53 浏览: 45

python pandas dataframe 去重函数的具体使用

今天笔者想对pandas中的行进行去重操作，找了好久，才找到相关的函数先看一个小例子 from pandas import Series, DataFrame data = DataFrame({'k': [1, 1, 2, 2]}) print data IsDuplicated = data.duplicated() print IsDuplicated print type(IsDuplicated) data = data.drop_duplicates() print data 执行结果是： k 0 1 1 1 2 2 3 2 0 False 1

Pandas库中的去重功能主要通过`drop_duplicates()`和`duplicated()`这两个函数来实现。 1. `drop_duplicates()`函数：这个函数用于删除DataFrame或Series中重复的行。它接受一个可选的参数`subset`，指定哪些列参与去重；如果省略，则所有列都会被考虑。默认情况下，它是保留第一个出现的重复项，你可以设置`keep=False`来删除所有重复行。示例： ```python df.drop_duplicates(subset='column_name', keep='first') # 或者 keep=False 删除所有重复 ``` 2. `duplicated()`函数：这是一个返回布尔值系列的函数，表明每个索引是否是重复的。这个函数同样可以指定列子集进行检查，返回值是一个布尔型的DataFrame，True表示该行是重复的。示例： ```python duplicates = df.duplicated(subset='column_name') ``` 如果你想获取重复的数据行，可以用`df[duplicates]`。

阅读全文