hive left join 为什么行数会翻倍

时间: 2023-07-12 17:03:05 浏览: 187

hive sql + left join 数据缺失

### Hive SQL Left Join 数据缺失问题解析 #### 一、问题背景在大数据处理场景中，Hive 是一种广泛使用的工具，用于对存储在 Hadoop 文件系统中的数据进行数据汇总、查询和分析。随着Hive版本的不断更新，部分用户在升级至Hive 3之后遇到了数据处理中的一个常见问题——在执行Left Join操作时出现数据缺失。 #### 二、问题复现问题发生在如下的SQL语句中： ```sql SELECT a.* FROM ( SELECT n.* FROM dw.dwm_exhibition_base n INNER JOIN ( SELECT database_name, MAX(dt) AS dt FROM dw.dwm_exhibition_base WHERE database_name = 'fair' GROUP BY database_name ) m ON n.database_name = m.database_name AND n.dt = m.dt WHERE n.exh_name = '亚太洁净技术与设备展览会' ) a LEFT JOIN ( SELECT database_name, exh_id, exh_name, actor_exh_time, CONCAT(exh_id, '_', database_name, '_', exh_name, '_', actor_exh_time) AS exh_id_new, COUNT(*) AS actor_cnt FROM ( SELECT database_name, exh_id, exh_name, SUBSTR(actor_exh_time, 0, 10) AS actor_exh_time, actor_id, actor_name FROM dw.dwd_actor_exhibition WHERE exh_id IS NOT NULL AND exh_name IS NOT NULL AND actor_exh_time IS NOT NULL --AND exh_name = '亚太洁净技术与设备展览会' GROUP BY database_name, exh_id, exh_name, SUBSTR(actor_exh_time, 0, 10), actor_id, actor_name ) t GROUP BY database_name, exh_id, exh_name, actor_exh_time, CONCAT(exh_id, '_', database_name, '_', exh_name, '_', actor_exh_time) ) t2 ON a.exh_id = t2.exh_id_new WHERE t2.actor_cnt > 0 ``` #### 三、问题分析问题的核心在于Hive 2 和 Hive 3 版本之间对于JOIN操作的实现方式存在差异。具体来说，这是由于不同版本的Hive在JOIN操作时采用了不同的Hash算法导致的。具体细节如下： 1. **Hive 2 vs Hive 3 的Hash算法差异**： - Hive 2 版本在JOIN操作时采用了一种特定的Hash算法来确保相同的数据能够正确地关联在一起。 - 升级到 Hive 3 后，新的版本改变了Hash算法，这导致在相同的JOIN操作中，原本应该被正确关联的数据因为Hash值的不同而未能成功匹配。 2. **Bucketing Version的影响**： - Bucketing Version 是Hive表的一个属性，用于控制如何对数据进行分区和分桶。 - Hive 3 默认的bucketing_version为2，而旧版Hive的bucketing_version为1。 - 这个属性的变化直接影响了数据的分桶方式，从而影响了JOIN操作的Hash算法选择。 3. **TEZ引擎的问题**： - 使用TEZ引擎执行Join操作时，可能会遇到数据丢失的情况。这是因为TEZ引擎在转换多个MapJoin为单个操作时，可能会限制输入数据的最大大小，从而导致数据的丢失。 #### 四、解决方案针对上述问题，可以通过以下几种方式进行解决： 1. **调整bucketing_version**： - 通过查询当前表的bucketing_version属性，并将其调整为与旧版本一致的设置（例如设置为1）。 - 查询示例SQL如下： ```sql SELECT c.NAME AS DB_NAME, a.TBL_NAME, b.PARAM_KEY, b.PARAM_VALUE FROM TBLS a LEFT JOIN TABLE_PARAMS b ON a.TBL_ID = b.TBL_ID AND b.PARAM_KEY = 'bucketing_version' LEFT JOIN DBS c ON a.DB_ID = c.DB_ID WHERE b.TBL_ID IS NULL AND c.NAME = 'dw'; ``` 2. **优化TEZ参数配置**： - 调整TEZ引擎的相关参数，比如增大允许的输入数据大小等，以避免数据丢失的问题。 - 可以通过设置tez.mapjoin.thresholdsize-mb等参数来实现。 3. **使用兼容模式**： - 如果可能的话，可以尝试在Hive 3中启用兼容模式，使得其行为更加接近Hive 2的行为，从而减少因版本升级带来的兼容性问题。通过上述方法，可以有效解决Hive 3版本中Left Join操作出现的数据缺失问题，确保数据分析的准确性。

Hive中的LEFT JOIN操作是基于两个表之间的连接关系，在连接时，Hive会将左边表中的每一条记录与右边表中匹配的记录组合成一条新的记录。如果左边表中的一条记录有多个匹配的记录，则会出现翻倍的情况。例如，如果左表有m条记录，右表有n条记录，并且它们之间有x个匹配的记录，那么LEFT JOIN操作后的结果集将会有m条记录。如果存在一对多的关系，即左表中一条记录匹配到右表中多条记录，那么在LEFT JOIN操作中，每一条左表记录都会与所有匹配的右表记录组合成一条新纪录，因此结果集的行数会翻倍。为了避免这种情况，可以在LEFT JOIN操作前进行数据去重，或者在查询时使用DISTINCT关键字去重。

阅读全文

hive left join 为什么行数会翻倍

相关推荐

hive 中join和Group的优化

SQL left join

Hive数据查询与过滤

Hive 数据分析基础：数据统计与分组查询

Hive的基本数据类型与操作：掌握核心概念

【Hive与Hadoop数据仓库】：集成实践与使用技巧

数据仓库中的Semi Join：其角色与优化技术详解

hive数据库常见函数用法

hive实现笛卡尔积的

16-17 数据挖掘算法基础 - 分类与回归1(1).ipynb

精选微信小程序源码：停车场管理小程序（含源码+源码导入视频教程&文档教程，亲测可用）

最新闪客网盘系统源码支持限速+按时收费+文件分享+可对接易支付

利用MIT 6.S094的Tesla数据集训练深度学习模型，根据车辆的前置相机所拍摄的路况图像，实现对车辆转向角度的预测.zip

【java毕业设计】体育用品商城源码（完整前后端+说明文档+LW）.zip

student_distribution_map.html

【java毕业设计】酒店人员管理系统ssh+mysql源码（完整前后端+说明文档+LW）.zip

MATLAB实现WOA-CNN-LSTM鲸鱼算法优化卷积长短期记忆神经网络时间序列预测（含完整的程序和代码详解）

渗透测试中常用脚本整理.zip

基于文本挖掘算法与深度学习模型的网上法律咨询系统Spring Boot开发项目（包括需求分析文档，项目源代码）.zip

最新推荐

Hive查询sql left join exists

如何在python中写hive脚本

Hive函数大全.pdf

16-17 数据挖掘算法基础 - 分类与回归1(1).ipynb

C语言数组操作：高度检查器编程实践

管理建模和仿真的文件

【KUKA系统变量进阶】：揭秘从理论到实践的5大关键技巧

如何使用Python编程语言创建一个具有动态爱心图案作为背景并添加文字'天天开心（高级版）'的图形界面？

基于Swift开发的嘉定单车LBS iOS应用项目解析

"互动学习：行动中的多样性与论文攻读经历"