hive写法:数仓信贷域用信流水表、借据标签表为主数据,记录所有申请用信用户,每日全量存储,其中:首次用信,最近一次用信指标每日增量更新;在贷每日全量更新
时间: 2024-09-29 18:15:21 浏览: 39
在Hive中处理信贷领域的用信流水表(如`credit_flow_table`)和借据标签表(如`loan_tag_table`),主数据主要包括所有申请用信的用户信息以及每日新增的数据。关键操作有:
1. **首次用信**:对于用户的首次用信记录,可以在每天的数据加载时检查是否有新的首次申请,然后通过`INSERT INTO TABLE credit_flow_table SELECT * FROM new_data WHERE is_first_time = true`这样的SQL语句,只将首次用信的数据插入到历史表中,并更新相应的标识。
2. **最近一次用信**:这个指标通常需要基于日期字段来计算。你可以创建一个触发器或者在每天的数据处理脚本中运行查询,找出每个用户的最新用信记录,例如:
```
INSERT INTO credit_flow_table (user_id, last_used_date)
SELECT user_id, MAX(used_date) as latest_used_date
FROM daily_updates
GROUP BY user_id
```
3. **在贷信息**:对于在贷状态的数据,由于可能存在频繁的修改,每次数据更新时都需要全量替换,可以使用`OVERWRITE TABLE`命令:
```
OVERWRITE INTO TABLE credit_flow_table
SELECT * FROM daily_updates;
```
记得定期清理旧的历史数据,避免表过大。同时,为了提高性能,可以考虑分区表(partitioning)或使用时间戳作为分区键。
阅读全文