Presto 0.166：内存计算的分布式SQL引擎，PB级数据分析利器

132 浏览量更新于2024-08-28 收藏 374KB PDF 举报

Presto 0.166 是Facebook开源的一款高性能、内存密集型的分布式SQL查询引擎，专为大规模并行处理(Massively Parallel Processing, MPP)设计。它的核心特点是基于内存计算，每个节点通过扩展式Connector组件连接各种数据源，可处理从GB到PB级的数据量。Presto采用的关键技术包括向量计算、动态编译执行计划以及优化的ORC和ParquetReader。 Presto的优势在于其快速的查询性能，相比Hive，查询速度可以快5-10倍，特别适用于实时交互式查询，支持复杂的PB级海量数据分析，且能够跨多个数据源进行无缝查询。然而，由于其内存依赖性，它并不适合处理大量的JOIN操作，特别是当涉及到多个大表时，因为所有数据都必须在内存中，这可能会超出内存限制。 Presto与Hive在应用场景上有所区别：Hive更像一个数据仓库，适合离线批处理，交互性相对较弱，主要依赖于Hadoop MapReduce (MR)执行查询。而Presto则强调交互式查询，能够在秒级或分钟级内返回结果，同时能访问多种数据源，但不适合长时间运行的查询，因为这可能导致内存消耗过大，影响其他查询的执行。 Presto的架构主要包括协调器(Coordinator)、分片器(Split Manager)和执行器(Worker)。协调器负责接收查询请求，处理元数据获取和查询计划生成，而分片器负责将查询任务拆分并发给执行器执行。执行器则负责实际的数据读取和计算。Presto在内部实现了类似Hive的查询逻辑，但在执行效率上有显著提升。总结来说，Presto是一个高度优化的查询引擎，适用于需要快速交互式分析大规模数据的场景，但在处理大规模JOIN操作或者长时间查询时，应考虑其内存限制和资源管理策略，以确保高效和合理使用。与Hive相比，两者各有优势，适用于不同的数据处理需求。

presto0.166概述概述

presto是什么

是Facebook开源的，完全基于内存的并?计算，分布式SQL交互式查询引擎

是一种Massively parallel processing (MPP)架构，多个节点管道式执?

持任意数据源（通过扩展式Connector组件），数据规模GB~PB级

使用的技术，如向量计算，动态编译执?计划，优化的ORC和Parquet Reader等

presto不太支持存储过程，支持部分标准sql

presto的查询速度比hive快5-10倍

上面讲述了presto是什么，查询速度，现在来看看presto适合干什么

适合：PB级海量数据复杂分析，交互式SQL查询，?持跨数据源查询

不适合：多个大表的join操作，因为presto是基于内存的，多张大表在内存里可能放不下

和hive的对比：

hive是一个数据仓库，是一个交互式比较弱一点的查询引擎，交互式没有presto那么强，而且只能访问hdfs的数据

presto是一个交互式查询引擎，可以在很短的时间内返回查询结果，秒级，分钟级，能访问很多数据源

hive在查询100Gb级别的数据时，消耗时间已经是分钟级了

但是presto是取代不了hive的，因为p全部的数据都是在内存中，限制了在内存中的数据集大小，比如多个大表的join，这些大

表是不能完全放进内存的，实际应用中，对于在presto的查询是有一定规定条件的，比比如说一个查询在presto查询超过30分

钟，那就kill掉吧，说明不适合在presto上使用，主要原因是，查询过大的话，会占用整个集群的资源，这会导致你后续的查询

是没有资源进行查询的，这跟presto的设计理念是冲突的，就像是你进行一个查询，但是要等个5分钟才有资源继续查询，这

是很不合理的，交互式就变得弱了很多

presto基本架构

在谈presto架构之前，先回顾下hive的架构

hive：client将查询请求发送到hive server，它会和metastor交互，获取表的元信息，如表的位置结构等，之后hive server会进

行语法解析，解析成语法树，变成查询计划，进行优化后，将查询计划交给执行引擎，默认是MR，然后翻译成MR

presto：presto是在它内部做hive类似的逻辑

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38687904

粉丝: 8
资源: 920

Presto 0.166：内存计算的分布式SQL引擎，PB级数据分析利器

Presto0.196 server以及客户端.zip

presto-server-0.196.tar.gz

Presto简介.docx

java.io.NotSerializableException: io.prestosql.jdbc.PrestoArray

如何解决Could not initialize class io.prestosql.teradata.functions.TeradataDateFunctions

presto io.trino.hive.$internal.org.codehaus.jackson.JsonParseException

presto node.data-dir

Javaapi presto查询kudu

presto安装教程

presto 除了用row_number over 来做分页，还有别的办法嘛

最新资源