dataframe去除每列重复词
时间: 2024-06-22 20:03:11 浏览: 179
在Pandas DataFrame中,如果你想要去除每列(Series)中的重复值,你可以使用`drop_duplicates()`方法。这个方法默认会沿列(axis=1)进行操作,确保每一行(DataFrame的每一项)的每个列都不包含重复的值。如果你只想对单个列进行去重,你可以指定列名或列索引作为参数。
以下是一个基本的例子:
```python
import pandas as pd
# 假设 df 是你的 DataFrame
df = pd.DataFrame({
'column1': ['a', 'b', 'c', 'a', 'b'],
'column2': [1, 2, 3, 1, 4]
})
# 去除 column1 中的重复值
df_no_duplicates_column1 = df.drop_duplicates(subset='column1')
# 如果你想同时去除两个列的重复值
df_no_duplicates = df.drop_duplicates(subset=['column1', 'column2'])
print(df_no_duplicates)
```
执行上述代码后,`df_no_duplicates_column1`将只保留 `column1` 中不重复的值,`df_no_duplicates`将保留所有列组合中不重复的行。
阅读全文