SQLonHadoop技术解析：Hive与Impala的架构对比

94 浏览量更新于2024-08-30 收藏 866KB PDF 举报

"这篇文章主要探讨了SQL on Hadoop领域中主要采用的技术，通过对比不同的系统，如Hive、Impala，以及提及SparkSQL、Presto、TAJO等，分析了两种主要架构：基于运行时框架和MPP（大规模并行处理）架构。文章并未深入讨论商业产品如HAWQ或成熟度较低的开源方案Apache Drill。" 在SQL on Hadoop的世界里，Hive是最早被广泛采用的系统，它基于Hadoop的MapReduce框架构建查询引擎。然而，随着对交互式查询需求的增加，出现了更多针对性能优化的解决方案。Impala便是其中之一，它的设计灵感来源于传统的关系数据库MPP架构，强调内存中的计算以提高性能。 MPP架构的系统，如Impala和Presto，通常比基于运行时框架的系统表现更优，主要体现在以下几个方面： 1. **DAG（有向无环图）与MR（MapReduce）：** MPP架构的系统能够避免中间结果写入磁盘，从而减少了I/O操作，实现了连续计算。 2. **流水线计算：** 结果在上游阶段产出后立即传递，减少了延迟。 3. **并行处理：** 数据被分割并在多台机器上并行处理，提高了效率。 4. **内存计算：** 数据尽可能地保留在内存中，减少了磁盘访问，提升了速度。然而，Hive代表的基于现有计算模型的方法并非没有价值。例如，它能够利用Hadoop生态系统的灵活性，适应大规模数据处理，并且与多种数据源兼容。此外，Hive支持复杂的查询和数据转换，适合批量处理任务，而不仅仅局限于交互式查询。 SparkSQL是另一个值得一提的系统，它结合了Spark的DAG计算模型和SQL接口，提供了比Hive更快的响应时间，但仍然属于基于运行时框架的类别，不是完整的MPP实现。 SQL on Hadoop领域的技术选择取决于具体的需求和场景。Hive适用于大规模离线处理，而Impala、Presto等MPP架构的系统则更适合实时或近实时的查询。每个系统都有其独特的优势和适用范围，用户应根据业务需求来选择最合适的解决方案。

盘点盘点SQLonHadoop中用到的主要技术中用到的主要技术

自打Hive出现之后，经过几年的发展，SQL on Hadoop相关的系统已经百花齐放，速度越来越快，功能也越来越齐全。本文

并不是要去比较所谓“交互式查询哪家强”，而是试图梳理出一个统一的视角，来看看各家系统有哪些技术上相通之处。

以下是作者原文：

考虑到系统使用的广泛程度与成熟度，在具体举例时一般会拿Hive和Impala为例，当然在调研的过程中也会涉及到一些其他系

统，如Spark SQL，Presto，TAJO等。而对于HAWQ这样的商业产品和apache drill这样成熟度还不是很高的开源方案就不做

过多了解了。

系统架构

Runtime Framework v.s. MPP

在SQL on Hadoop系统中，有两种架构，一种是基于某个运行时框架来构建查询引擎，典型案例是Hive；另一种是仿照过去

关系数据库的MPP架构。前者现有运行时框架，然后套上SQL层，后者则是从头打造一个一体化的查询引擎。有时我们能听

到一种声音，说后者的架构优于前者，至少在性能上。那么是否果真如此？

一般来说，对于SQL on Hadoop系统很重要的一个评价指标就是：快。后面提到的所有内容也大多是为了查询速度更快。在

Hive逐渐普及之后，就逐渐有了所谓交互式查询的需求，因为无论是BI系统，还是Ad-Hoc，都不能按照离线那种节奏玩。这

时候无论是有实力的大公司（比如Facebook），还是专业的供应商（比如Cloudera），都试图去解决这个问题。短期可以靠

商业方案或者关系数据库去支撑一下，但是长远的解决方案就是参考过去的MPP数据库架构打造一个专门的系统，于是就有

了Impala，Presto等等。从任务执行的角度说，这类引擎的任务执行其实跟DAG模型是类似的，当时也有Spark这个DAG模型

的计算框架了，但这终究是别人家的孩子，而且往Spark上套SQL又是Hive的那种玩法了。于是在Impala问世之后就强调自

己“计算全部在内存中完成”，性能也是各种碾压当时还只有MR作为计算模型的Hive。那么Hive所代表的“基于已有的计算模

型”方式是否真的不行？

不可否认，按照这种方式去比较，那么类MPP模式确实有很多优势：

DAG v.s. MR：最主要的优势，中间结果不写磁盘（除非内存不够），一气呵成。

流水线计算：上游stage一出结果马上推送或者拉到下一个stage处理，比如多表join时前两个表有结果直接给第三个表，

不像MR要等两个表完全join完再给第三个表join。

高效的IO：本地查询没有多余的消耗，充分利用磁盘。这个后面细说。

线程级别的并发：相比之下MR每个task要启动JVM，本身就有很大延迟，占用资源也多。

当然MPP模式也有其劣势，一个是扩展性不是很高，这在关系数据库时代就已经有过结论；另一个是容错性差，对于Impala

来说一旦运行过程中出点问题，整个查询就挂了。

但是，经过不断的发展，Hive也能跑在DAG框架上了，不仅有Tez，还有Spark。上面提到的一些劣势，其实大都也可以在计

算模型中解决，只不过考虑到计算模型的通用性和本身的设计目标，不会去专门满足（所以如果从这个角度分类，Impala属

于“专用系统”，Spark则属于“通用系统”）。在最近Cloudera做的benchmark中，虽然Impala仍然一路领先，但是基于Spark的

Spark SQL完全不逊色于Presto，基于Tez的Hive也不算很差，至少在并发模式下能超过Presto，足见MPP模式并不是绝对占

上风的。所以这种架构上的区别在我看来并不是制胜的关键，至少不是唯一的因素，真正要做到快速查询，各个方面的细节都

要有所把握。后面说的都是这些细节。

核心组件

不管是上面提到的那种架构，一个SQL on Hadoop系统一般都会有一些通用的核心组件，这些组件根据设计者的考虑放在不

同的节点角色中，在物理上节点都按照Master/Worker的方式去做，如果Master压力太大，一些本来适合放在Master上的组件

可以放到一个辅助Master上。

UI层负责提供用户输入查询的接口。一般有Web/GUI，命令行，编程方式3类。

QL层负责把用户提交的查询解析成可以运行的执行计划（比如MR Job）。这部分在后面会专门提到。

执行层就是运行具体的Job。一般会有一个Master负责Query的运行管理，比如申请资源，观察进度等等，同时Master也

负责最终聚合局部结果到全局结果。而每个节点上会有相应的Worker做本地计算。

IO层提供与存储层交互的接口。对于HDFS来说，需要根据I/O Format把文件转换成K/V，Serde再完成K/V到数据行的映

射。对于非HDFS存储来说就需要一些专门的handler/connector。

存储层一般是HDFS，但也有可以查询NoSQL，或者关系数据库的。

系统另外还需要一个元数据管理服务，管理表结构等。

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38610657

粉丝: 3

SQLonHadoop技术解析：Hive与Impala的架构对比

SQLonHadoop核心技术解析：架构对比与性能优化

轨道交通智能运输系统：从“西体中用”到“中源洋适”

总结MyBatis框架中用到的10种设计模式及其应用场景。

通信技术中用到的关键核心技术

在VB中用颜色渐变技术制作幻影字

浅析如何在历史教学中用好多媒体技术.doc

ckfinder_3.2（传智播客中用到的).zip（传智播客中用到的).zip

mycrm中用到的包

cisco中用到的英语

程序中用到的文件

最新资源