Presto：高性能的大数据SQL查询引擎

67 浏览量更新于2024-08-28 收藏 384KB PDF 举报

"Presto是Facebook开发的一种大数据分布式SQL查询引擎，专为高效、交互式查询大规模数据而设计。它支持多种数据源，包括Hive、Cassandra，并且具有出色的性能，比Hive快10倍以上。Presto的核心架构由Coordinator、DiscoveryServer和多个Worker节点组成，实现Master-Slave模式，确保快速响应和高并发查询。其低延迟特性源于内存计算、流水线作业、本地化计算和动态编译执行计划等优化策略。Presto还支持通过连接器机制灵活接入各种数据存储系统，如Hive、HBase等，允许用户通过SQL进行统一查询。" Presto架构的核心组件详解： 1. Coordinator：作为Presto的主节点，它负责接收用户的SQL查询，对其进行解析，生成高效的执行计划，并将执行任务分配给各个Worker节点。Coordinator还负责整个查询的协调工作，监控查询状态，并确保查询结果的正确性。 2. DiscoveryServer：通常与Coordinator集成在一起，提供Worker节点的发现和注册服务。所有Worker节点在启动时都会向DiscoveryServer注册，这样Coordinator就能知道哪些Worker是活动的，可以接收查询任务。 3. Worker节点：是Presto的执行单元，它们直接与数据存储系统交互，执行查询任务。每个Worker都可以并行处理多个任务，以加速查询速度。当Worker处理来自Hive的数据时，需要与HiveMetaStore服务通信获取元数据信息。 Presto的低延迟原理深入理解： - 完全基于内存的并行计算：Presto将大部分数据存储在内存中，避免了磁盘I/O的瓶颈，提高了查询速度。 - 流水线式计算作业：Presto将查询任务分解为一系列小任务，这些任务之间形成流水线，数据在任务间流动，减少了不必要的数据转换和传递。 - 本地化计算：尽可能地将计算任务分配到数据所在的位置执行，减少网络传输，提高效率。 - 动态编译执行计划：Presto根据查询的具体情况，实时编译优化执行计划，针对特定查询进行定制，提升性能。 - GC控制：通过优化内存管理，减少垃圾收集对查询性能的影响。 Presto的存储插件（连接器）是其灵活性的关键。通过定义一组接口，Presto可以轻松地接入新的数据源，比如Hive、HBase等，使得用户能够在不同系统间无缝切换，实现多源数据的统一查询。这种设计极大地扩展了Presto的应用场景，使得它成为一个强大的跨数据源查询工具。在查询过程中，用户通过PrestoCLI或其他客户端提交SQL，请求被发送到Coordinator，经过一系列处理后，任务被分发到各个Worker执行。Worker读取数据，执行计算，并将结果返回给Coordinator，最后由Coordinator汇总结果并返回给用户。这个过程中的每一步都是高度优化的，确保了Presto能够在大数据环境下提供高效、低延迟的查询服务。

Presto架构及原理架构及原理

Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎，可对从数 G 到数 P 的大数据进行交互式的查

询，查询的速度达到商业数据仓库的级别，据称该引擎的性能是 Hive 的 10 倍以上。Presto 可以查询包括 Hive、Cassandra

甚至是一些商业的数据存储产品，单个 Presto 查询可合并来自多个数据源的数据进行统一分析。Presto 的目标是在可期望的

响应时间内返回查询结果，Facebook 在内部多个数据存储中使用 Presto 交互式查询，包括 300PB 的数据仓库，超过 1000

个 Facebook 员工每天在使用 Presto 运行超过 3 万个查询，每天扫描超过 1PB 的数据。

Presto架构

Presto查询引擎是一个Master-Slave的架构，由下面三部分组成:

一个Coordinator节点

一个Discovery Server节点

多个Worker节点

Coordinator: 负责解析SQL语句，生成执行计划，分发执行任务给Worker节点执行

Discovery Server: 通常内嵌于Coordinator节点中

Worker节点: 负责实际执行查询任务,负责与HDFS交互读取数据

Worker节点启动后向Discovery Server服务注册，Coordinator从Discovery Server获得可以正常工作的Worker节点。如果配置

了Hive Connector，需要配置一个Hive MetaStore服务为Presto提供Hive元信息

更形象架构图如下：

Presto低延迟原理

完全基于内存的并行计算

流水线式计算作业

本地化计算

动态编译执行计划

GC控制

Presto存储插件

Presto设计了一个简单的数据存储的抽象层，来满足在不同数据存储系统之上都可以使用SQL进行查询。

存储插件（连接器,connector）只需要提供实现以下操作的接口，包括对元数据（metadata）的提取，获得数据存储的位

置，获取数据本身的操作等。

除了我们主要使用的Hive/HDFS后台系统之外，我们也开发了一些连接其他系统的Presto 连接器，包括HBase，Scribe和定

制开发的系统

插件结构图如下：

presto执行过程

执行过程示意图：

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38647567

粉丝: 4
资源: 924

Presto：高性能的大数据SQL查询引擎

Presto介绍、原理、安装使用

marcelopaesrech/presto-oracle

presto-research:presto原始分析

Presto-开源

Presto SQL on Everything

Presto在Uber的使用

JD-Presto广州之行

presto-hive-0.67.zip

Presto大数据交互式查询实验手册

Presto中的高可用架构设计思路

最新资源