pyspark 将指定列合并成list
时间: 2023-03-27 16:00:47 浏览: 101
Python将多个list合并为1个list的方法
可以使用 pyspark 中的 collect_list 函数将指定列合并成 list,示例代码如下:
```python
from pyspark.sql.functions import collect_list
df = spark.createDataFrame([(1, 'a'), (1, 'b'), (2, 'c'), (2, 'd')], ['id', 'value'])
result = df.groupBy('id').agg(collect_list('value').alias('value_list'))
result.show()
```
输出结果为:
```
+---+----------+
| id|value_list|
+---+----------+
| 1| [a, b]|
| 2| [c, d]|
+---+----------+
```
阅读全文