pandas中处理冗余数据中重复数据,只保留一条,python实现
时间: 2024-02-03 18:13:39 浏览: 132
TDM:TDM是一个小型python库,可轻松进行数据操作
可以使用 pandas 中的 `drop_duplicates()` 函数来实现去重。
```
import pandas as pd
# 创建一个包含冗余数据的DataFrame
df = pd.DataFrame({'A': [1, 2, 3, 1], 'B': [4, 5, 6, 4]})
# 使用 drop_duplicates() 函数去除重复数据
df = df.drop_duplicates()
print(df)
```
输出结果为:
```
A B
0 1 4
1 2 5
2 3 6
```
可以看到,DataFrame 中的重复数据已经被去除,只保留了一条。如果想要在指定列上进行去重,可以使用 `subset` 参数指定需要去重的列名。
```
import pandas as pd
# 创建一个包含冗余数据的DataFrame,并指定需要去重的列
df = pd.DataFrame({'A': [1, 2, 3, 1], 'B': [4, 5, 6, 4], 'C': [7, 8, 9, 7]})
# 使用 drop_duplicates() 函数去除重复数据
df = df.drop_duplicates(subset=['A', 'B'])
print(df)
```
输出结果为:
```
A B C
0 1 4 7
1 2 5 8
2 3 6 9
```
可以看到,只在 A 和 B 两列上进行了去重,而 C 列的数据并不会影响去重结果。
阅读全文