hive ARRAY_CONTAINS
时间: 2023-10-16 17:11:38 浏览: 293
Hive的ARRAY_CONTAINS函数类似于SQL中的IN关键字操作。它用于判断一个数组中是否包含指定的一个或多个值。与IN不同的是,ARRAY_CONTAINS可以用于判断一张表中同一个id的多条记录中的同一字段是否包含指定的一个或多个值。需要注意的是,字段的类型需要保持一致,如果不一致,则需要进行强制类型转换。该函数在某些场景下非常实用,比如统计当天访问主页和商品详情页的次数(人数)。可以使用以下Hive查询语句实现:
```sql
select '2021-03-20' dt,
sum(if(array_contains(pages,'home'),1,0)) home_count,
sum(if(array_contains(pages,'good_detail'),1,0)) good_detail_count
from (
select mid_id, collect_set(page_id) pages
from dwd_page_log
where dt='2021-03-20' and page_id in ('home','good_detail')
group by mid_id
) tmp;
```
这个查询语句首先从`dwd_page_log`表中筛选出日期为'2021-03-20',且页面ID为'home'或'good_detail'的记录。然后按照`mid_id`进行分组,使用`collect_set`函数将每个分组中的`page_id`收集到一个数组中。最后使用`array_contains`函数判断数组中是否包含指定的值,并使用`sum`和`if`函数进行统计。这样就可以得到当天访问主页和商品详情页的次数(人数)。
阅读全文