首页dataframe去除每列重复词

dataframe去除每列重复词

时间: 2024-06-22 20:03:11 浏览: 179

在Pandas DataFrame中，如果你想要去除每列（Series）中的重复值，你可以使用`drop_duplicates()`方法。这个方法默认会沿列（axis=1）进行操作，确保每一行（DataFrame的每一项）的每个列都不包含重复的值。如果你只想对单个列进行去重，你可以指定列名或列索引作为参数。以下是一个基本的例子： ```python import pandas as pd # 假设 df 是你的 DataFrame df = pd.DataFrame({ 'column1': ['a', 'b', 'c', 'a', 'b'], 'column2': [1, 2, 3, 1, 4] }) # 去除 column1 中的重复值 df_no_duplicates_column1 = df.drop_duplicates(subset='column1') # 如果你想同时去除两个列的重复值 df_no_duplicates = df.drop_duplicates(subset=['column1', 'column2']) print(df_no_duplicates) ``` 执行上述代码后，`df_no_duplicates_column1`将只保留 `column1` 中不重复的值，`df_no_duplicates`将保留所有列组合中不重复的行。

阅读全文