collect_set、collect_list
时间: 2024-10-20 19:06:59 浏览: 34
详解Java8 Collect收集Stream的方法
`collect_set()` 和 `collect_list()` 都是 Python 中 pandas 库中 DataFrame 对象的常用聚合函数,它们用于数据清洗和预处理过程中将数据转换成集合(set)或列表(list)的形式。
1. `collect_set(column)` 函数会收集指定列(column)中的所有唯一值,并返回一个集合。这个操作对于去除重复元素非常有用,因为集合中的元素都是唯一的。
2. `collect_list(column)` 则是将指定列的数据转换为列表。如果列中有多个相同的值,这个函数会将它们都包含在列表中。
例如:
```python
import pandas as pd
df = pd.DataFrame({
'A': ['a', 'b', 'c', 'a', 'b'],
'B': [1, 2, 3, 1, 4]
})
# 使用 collect_set
unique_values_A = df['A'].collect_set()
print(unique_values_A) # 输出:{a, b, c}
# 使用 collect_list
value_counts_B = df['B'].collect_list()
print(value_counts_B) # 输出:[1, 2, 3, 4]
```
阅读全文