collect_set函数
时间: 2023-09-20 10:12:05 浏览: 168
大数据学习:Hive函数.pdf
collect_set函数是一种聚合函数,它用于将一个字段的所有值收集到一个集合中。它在Spark SQL中使用,可以用于对数据进行分析和处理。它的语法如下:
```
collect_set(expr)
```
其中expr是一个字段或者一个表达式,它的返回值是一个包含所有不重复的值的集合。这个函数可以应用于一个数据集上,返回一个集合,其中包含所有不重复的值。例如,如果你有一个包含订单数据的表,你可以使用collect_set函数来查找所有不同的客户:
```
SELECT collect_set(customer_name) FROM orders;
```
这将返回一个集合,其中包含所有不同的客户名称。
阅读全文