hive 去重为什么不用group 不用

时间: 2023-07-06 12:28:45 浏览: 121

HiveSQL解析原理.docx

### HiveSQL解析原理详解 #### 一、引言 Hive作为一款建立在Hadoop之上的数据仓库系统，被广泛应用于大数据处理场景中。对于众多企业和组织而言，它不仅是存储和管理海量数据的有效手段，同时也是进行数据分析的关键工具之一。本文旨在深入探讨HiveSQL解析原理及其如何将SQL转化为MapReduce过程，并解释MapReduce如何实现基本SQL操作。 #### 二、MapReduce实现基本SQL操作的原理在深入理解Hive如何将SQL语句转换为MapReduce任务之前，我们需要首先了解MapReduce是如何实现基本的SQL操作，比如Join、Group By以及Distinct等。 ##### 1. Join的实现原理在Hive中，实现两个表的Join操作通常涉及到以下步骤： - 在Map阶段，为来自不同表的数据打上标记(tag)，这些标记会被添加到Map输出的Value中。 - 在Reduce阶段，根据标记来判断数据来源并进行相应的Join操作。例如，假设我们要执行以下SQL查询： ```sql SELECT u.name, o.orderid FROM orders o JOIN users u ON o.uid = u.uid; ``` 在这种情况下，MapReduce过程如下所示： - Map函数将输入的键值对转换成一系列新的键值对，其中键可能是空，而值则包含有标记的记录。 - Reduce函数将带有相同键的所有值收集起来，并在此基础上执行Join操作。值得注意的是，这只是最基本的一种Join实现方式，还有其他更复杂的实现策略，如Broadcast Join等。 ##### 2. Group By的实现原理 Group By操作用于对数据进行分组统计。在Hive中，实现Group By的常见方法如下： - 在Map阶段，将Group By字段组合为输出键(Key)。 - 由于MapReduce框架会自动对键进行排序，因此可以在Reduce阶段对相同键的值进行聚合处理。以以下SQL为例： ```sql SELECT rank, isonline, COUNT(*) FROM city GROUP BY rank, isonline; ``` 在这个例子中，`rank` 和 `isonline` 字段被用作Map输出的键，以便在Reduce阶段进行分组计数。 ##### 3. Distinct的实现原理 Distinct操作用于去除重复数据。当只有单个Distinct字段时，其实现较为简单；但当存在多个Distinct字段时，则需要采用不同的策略。 - **单个Distinct字段**：只需将Group By字段与Distinct字段组合为Map输出的键即可。通过MapReduce的排序机制，在Reduce阶段保留每个键的最后一个值(即LastKey)即可完成去重。 - **多个Distinct字段**：存在两种实现方式： - **第一种**：仍然按照单个Distinct字段的方式进行，但这种方式无法对多个Distinct字段分别排序，需要在Reduce阶段使用Hash表来去重。 - **第二种**：对所有Distinct字段进行编号，每行数据生成多行数据，使得相同字段能够分别排序。此时，在Reduce阶段只需记录LastKey即可完成去重。虽然这种方法减少了内存消耗，但会增加shuffle的数据量。 #### 三、SQL转化为MapReduce的过程 Hive将SQL转化为MapReduce任务的整个过程分为六个阶段： 1. **Phase1：SQL词法，语法解析** - 使用Antlr工具定义SQL的语法规则，完成SQL词法和语法的解析，并将SQL转化为抽象语法树(AST Tree)。 - Antlr是一种语言识别工具，通过编写特定的语法文件来定义词法和语法规则。 - Hive早期版本使用单一文件Hive.g来定义语法规则，但在0.11版本后，为了适应日益复杂的语法规则，将其拆分成多个文件。 2. **Phase2：查询基本组成单元提取** - 遍历AST Tree，抽象出查询的基本组成单元Query Block。 3. **Phase3：翻译为执行操作树** - 遍历Query Block，将其翻译为执行操作树(Operator Tree)。 4. **Phase4：逻辑层优化** - 对Operator Tree进行逻辑优化，如合并不必要的ReduceSink Operator以减少shuffle的数据量。 5. **Phase5：翻译为MapReduce任务** - 遍历优化后的Operator Tree，将其翻译为具体的MapReduce任务。 6. **Phase6：物理层优化** - 进行MapReduce任务的物理层优化，生成最终的执行计划。通过以上六个阶段，Hive能够有效地将用户提交的SQL查询转化为高效执行的MapReduce任务，进而实现对大规模数据集的高效处理。

在 Hive 中，使用 GROUP BY 关键字进行分组，可以将相同的键值（Key）的记录放在一起，并对每组记录进行聚合操作。但是 GROUP BY 并不能去重，因为它只是对相同的键值进行聚合，并不会删除重复的记录。如果想要去重，可以使用 DISTINCT 关键字，该关键字会对整个记录进行去重，只保留不同的记录，而不是对相同的键值进行聚合操作。因此，DISTINCT 更适合于对整个记录进行去重操作。此外，GROUP BY 在进行聚合操作时需要对数据进行分组，可能会产生大量的中间结果，需要进行 Shuffle 操作，消耗大量的时间和资源。而 DISTINCT 只需要对整个记录进行去重，不需要进行分组和聚合操作，相对而言更加高效。因此，在需要去重的情况下，使用 DISTINCT 更为合适。

阅读全文

hive 去重 为什么不用group 不用

相关推荐

hive常用函数参数手册

hive 去重 为什么性能上group by优于distinct

hive 去重的方法

hive去重保留时间最近的数据

Hive Sql 去重

hive sql去重有哪些方法

hive字段去重有几种方法

hive对表数据去重

hive的group by和distinct去重区别

hive 开窗去重统计

hive 对一个字段做group by 聚合 不能去重吗

hive中distinct,group by,row_number()的去重效率

hive row_number() over()去重和group by的区别

hive row_number() over()去重和group by的哪个效率搞

hive groupby

hive中distinct与group by 的区别

hive中distinct和group by的效率

hive 如何使用 group_concat

hive distinct和group by区别

最新推荐

python入门-30.寻找列表中只出现一次的数字-寻找单身狗.py

火炬连体网络在MNIST的2D嵌入实现示例

管理建模和仿真的文件

L2正则化的终极指南：从入门到精通，揭秘机器学习中的性能优化技巧

如何构建一个符合GB/T19716和ISO/IEC13335标准的信息安全事件管理框架，并确保业务连续性规划的有效性？

Angular插件增强Application Insights JavaScript SDK功能

"互动学习：行动中的多样性与论文攻读经历"

L1正则化模型诊断指南：如何检查模型假设与识别异常值（诊断流程+案例研究）

如何构建一个符合GB/T19716和ISO/IEC13335标准的信息安全事件管理框架，并确保业务连续性规划的有效性？

实时三维重建：InfiniTAM的ros驱动应用

hive 去重为什么不用group 不用

hive 去重为什么性能上group by优于distinct

hive 对一个字段做group by 聚合不能去重吗