impala采用mapreduce作为计算引擎

时间: 2024-09-10 07:01:31 浏览: 40

impala单机部署手册

Impala 单机部署手册 Impala 是 Cloudera 提供的一款高效率的 SQL 查询工具，提供实时的查询效果，官方测试性能比 Hive 快 10 到 100 倍，其 SQL 查询比 SparkSQL 还要更加快速，号称是当前大数据领域最快的查询 SQL 工具。Impala 是参照谷歌的新三篇论文（Caffeine、Pregel、Dremel）中的 Dremel 实现而来，其中旧三篇论文分别是（BigTable、GFS、MapReduce）分别对应我们即将学的 HBase 和已经学过的 HDFS 以及 MapReduce。 Impala 是基于 Hive 并使用内存进行计算，兼顾数据仓库，具有实时、批处理、多并发等优点。Impala 与 Hive 的关系：Impala 是基于 Hive 的大数据分析查询引擎，直接使用 Hive 的元数据库 Metadata，意味着 Impala 元数据都存储在 Hive 的 metastore 当中，并且 Impala 兼容 Hive 的绝大多数 SQL 语法。所以需要安装 Impala 的话，必须先安装 Hive，保证 Hive 安装成功，并且还需要启动 Hive 的 metastore 服务。 Impala 的优点： 1. Impala 比较快，非常快，因为所有的计算都可以放入内存当中进行完成，只要你内存足够大。 2. 摈弃了 MR 的计算，改用 C++ 来实现，有针对性的硬件优化。 3. 具有数据仓库的特性，对 Hive 的原有数据做数据分析。 4. 支持 ODBC、JDBC 远程访问。 Impala 的缺点： 1. 基于内存计算，对内存依赖性较大。 2. 改用 C++ 编写，意味着维护难度增大。 3. 基于 Hive，与 Hive 共存亡，紧耦合。 4. 稳定性不如 Hive，不存在数据丢失的情况。 Impala 的架构包括： * Impala-server：启动的守护进程，执行我们的查询计划从节点，官方建议与所有的 Datanode 装在一起，可以通过 Hadoop 的短路读取特性实现数据的快速查询。 * Impala-statestore：状态存储区主节点。 * Impala-catalog：元数据管理区主节点。查询执行 Impala 分为 frontend 和 backend 两个层次，frontend 用 Java 实现（通过 JNI 嵌入 Impalad），负责查询计划生成，而 backend 用 C++ 实现，负责查询执行。Frontend 生成查询计划分为两个阶段： 1. 生成单机查询计划，单机执行计划与关系数据库执行计划相同，所用查询优化方法也类似。 2. 生成分布式查询计划。根据单机执行计划，生成真正可执行的分布式执行计划，降低数据移动，尽量把数据和计算放在一起。 Impala 的查询优化器支持代价模型：利用表和分区的 Cardinality，每列的 distinct 值个数等统计数据，Impala 可以估算执行计划代价，并生成较优的执行计划。 Impala 支持两种分布式 join 方式： 1. 表广播方式保持一个表的数据不动，将另一个表广播到所有相关节点。 2. 哈希重分布的原理是根据 join 字段哈希值重新分布两张表数据。 Impala 的分布式计划中的聚集函数分拆为两个阶段执行： 1. 针对本地数据进行分组聚合（Pre-AGG）以降低数据量，并进行数据重分步。 2. 进一步汇总之前的聚集结果（mergeAgg）计算出最终结果。 Backend 从 frontend 接收 plan segment 并执行，执行性能非常关键，Impala 采取的查询性能优化措施有向量执行、LLVM 编译执行、CPU 密集型查询效率提升 5倍以上、IO 本地化等。

Impala是一个开源的大数据查询系统，它可以直接在Hadoop集群上运行SQL查询，而不需要把数据移动到专用的数据仓库。在早期版本中，Impala确实使用了MapReduce作为其计算引擎之一，主要是利用了Hadoop生态系统中已经成熟的技术和工具。MapReduce是一种编程模型，用于大规模数据集的并行运算，它将复杂的问题分解为两个阶段：Map（映射）和Reduce（归约）。然而，随着时间的推移和Impala的发展，它开始使用自己的分布式查询引擎来提高效率。Impala直接在Hadoop分布式文件系统（HDFS）和Amazon S3上运行SQL查询，绕过了MapReduce的开销。这使得Impala能够提供更快的查询速度和更低的延迟，尤其是在执行交互式或实时查询时。Impala的查询引擎与Hive的查询引擎不同，后者默认使用MapReduce作为其后端执行引擎，但也支持Tez和Spark等更高级的执行引擎。 Impala的设计目标是提供一个更轻量级、更快速的查询处理框架，因此它依赖于一个高度优化的分布式查询执行引擎，以实现对SQL的快速响应和处理能力。这使得Impala特别适合那些需要快速读取和查询大规模数据集的场景。

阅读全文

impala采用mapreduce作为计算引擎

相关推荐

impala官方文档

Impala

大数据分析查询引擎Impala.docx

impala jdbc hive

Impala用户指南

Getting Started with Impala

cloudera-impala官方手册

Impala大数据实时查询引擎详解

MapReduce与Impala融合提升大数据查询性能：实验结果与应用

Impala大数据查询引擎详解

Oozie深度解析：工作流引擎与Hadoop MapReduce/Pig任务整合

"尚硅谷大数据技术：Impala高性能低延迟实时查询引擎

Cloudera Impala交互式查询引擎解析

若依管理存在任何文件读取漏洞检测系统，渗透测试.zip

【java毕业设计】学生社团管理系统源码（完整前后端+说明文档+LW）.zip

【java毕业设计】音乐+商城的设计与实现源码（完整前后端+说明文档+LW）.zip

最新推荐

Python连接Impala实现步骤解析

大数据基础操作说明-HADOOP HIVE IMPALA

impala快速入门手册

Impala安装，亲测

若依管理存在任何文件读取漏洞检测系统，渗透测试.zip

C语言数组操作：高度检查器编程实践

管理建模和仿真的文件

【KUKA系统变量进阶】：揭秘从理论到实践的5大关键技巧

如何使用Python编程语言创建一个具有动态爱心图案作为背景并添加文字'天天开心（高级版）'的图形界面？

基于Swift开发的嘉定单车LBS iOS应用项目解析