首页Python删除dataframe中重复最多的值所在的行

Python删除dataframe中重复最多的值所在的行

时间: 2023-05-31 20:03:48 浏览: 107

可以使用`value_counts`函数找出每一列中出现最多的值，然后再找出这些值所在的行，最后使用`drop`函数删除这些行。以下是示例代码： ```python import pandas as pd # 创建示例数据 df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': ['a', 'a', 'b', 'c', 'c'], 'C': [1.0, 2.0, 3.0, 4.0, 5.0]}) # 找出每一列中出现最多的值 most_frequent = {} for col in df.columns: most_frequent[col] = df[col].value_counts().index[0] # 找出这些值所在的行 mask = True for col, val in most_frequent.items(): mask = mask & (df[col] != val) rows_to_drop = df[~mask].index # 删除这些行 df = df.drop(rows_to_drop) print(df) ``` 输出结果： ``` A B C 0 1 a 1.0 1 2 a 2.0 2 3 b 3.0 3 4 c 4.0 ``` 在这个示例中，我们找出每一列中出现最多的值，发现在列B中出现最多的是'a'和'c'，因此我们找出这些值所在的行，即第0行、第1行、第3行和第4行，最终删除这些行，得到了新的数据框。

阅读全文