通过hive useraddress中储存了一堆地址 将useraddress列拆分出:省(浙江省)、市(浙江省 杭州市)、区(浙江省 杭州市 钱塘区)三个新列,如果useraddress的内容不足,省市区三个新列对应的内容置为NULL
时间: 2023-06-03 18:05:35 浏览: 93
首先选择省,然后选择市或区,最后选择更具体的地址
好的,这是一个数据处理问题,我可以为您提供解决方法。您可以使用 hive 的函数 `regexp_extract()` 和 `split()` 来拆分 useraddress 列,然后使用 `CASE WHEN` 语句来判断 useraddress 是否包含省、市、区信息,从而将其拆分到对应的列中。下面是一个示例 SQL 语句,您可以根据实际情况进行调整和优化:
```
SELECT
CASE WHEN useraddress RLIKE '^\\w+省' THEN regexp_extract(useraddress, '(\\w+省)', 1) ELSE NULL END AS province,
CASE WHEN useraddress RLIKE '^\\w+省\\s+\\w+市' THEN regexp_extract(useraddress, '(\\w+省)\\s+(\\w+市)', 2)
WHEN useraddress RLIKE '^\\w+市' THEN regexp_extract(useraddress, '(\\w+市)', 1)
ELSE NULL END AS city,
CASE WHEN useraddress RLIKE '^\\w+省\\s+\\w+市\\s+\\w+区' THEN regexp_extract(useraddress, '(\\w+省)\\s+(\\w+市)\\s+(\\w+区)', 3)
WHEN useraddress RLIKE '^\\w+市\\s+\\w+区' THEN regexp_extract(useraddress, '(\\w+市)\\s+(\\w+区)', 2)
ELSE NULL END AS district
FROM useraddress;
```
这样就可以将 useraddress 列拆分成省、市、区三个新列,并且对于缺少信息的地址,对应的新列内容会被置为 NULL。
阅读全文