华为云：Apache Hudi优化下的湖仓一体查询实战与数据布局策略

版权申诉

29 浏览量更新于2024-08-03 收藏 196KB PDF 举报

华为云在大数据领域持续进行技术创新，尤其在构建湖仓一体（LakeHouse）架构方面有着深入实践。湖仓一体架构融合了数据湖的灵活性和数据仓库的结构化特性，通过使用Apache Hudi作为核心基座，实现高效的数据存储和分析。Hudi负责数据的存储，而HetuEngine（Presto的增强版）则作为统一的SQL分析平台，提供一站式查询服务。 Hudi的优势在于其数据布局和索引设计，这对于查询性能优化至关重要。数据布局优化主要体现在能够针对查询过滤条件有效地减少无关数据的读取，通过所谓的"Data Skipping"技术，通过合理的分区字段设置和数据排序，使得相关数据紧密存放，降低I/O开销。例如，Presto和Spark等查询引擎在处理Parquet文件时，已经支持Rowgroup和Page级别的过滤，这进一步提升了点查性能。然而，除了数据布局，还有其他多个层面的查询性能优化策略，如索引优化、预聚合以及统计信息管理。索引是加速查询速度的重要手段，通过创建合适的索引，可以显著提高查询响应时间。预聚合是在数据写入阶段就进行部分计算，减少查询时的复杂度，但本文并未详述这部分内容，会在后续分享中详细介绍。华为云在Apache Hudi的基础上，通过持续的技术探索和实践，旨在优化HetuEngine与Hudi的结合，使查询效率接近专业级的分布式数仓，从而满足用户对于高性能数据分析的需求。这一系列的优化措施不仅提升了大数据处理的效率，也为湖仓一体架构的广泛应用提供了强有力的支持。

华为云基于 Apache Hudi 极致查询优化的探索

实践!

FI_mengtao 发表于 2022/09/23 11:40:39 2022/09/23

982 0 0

【摘要】湖仓一体（LakeHouse）是一种新的开放式架构，它结合了数据湖和数据仓库的最佳元

素，是当下大数据领域的重要发展方向。华为湖仓一体架构核心基座是 Apache Hudi，所有入湖

数据都通过 Apache Hudi 承载，对外通过 HetuEngine（Presto增强版）引擎承担一站式SQL分析

角色，因此如何更好的结合 Presto 和 Hudi 使其查询效率接近专业的分布式数仓意义重大。

背景

湖仓一体（LakeHouse）是一种新的开放式架构，它结合了数据湖和数据仓库的最佳元素，是当下

大数据领域的重要发展方向。

华为云早在2020年就开始着手相关技术的预研，并落地在华为云智能数据湖解FusionInsight MRS

决方案中。

目前主流的三大数据湖组件 Apache Hudi、Iceberg、Delta各有优点，业界也在不断探索选择适

合自己的方案。

华为湖仓一体架构核心基座是 Apache Hudi，所有入湖数据都通过 Apache Hudi 承载，对外通

过 HetuEngine（Presto增强版）引擎承担一站式SQL分析角色，因此如何更好的结合 Presto 和

Hudi 使其查询效率接近专业的分布式数仓意义重大。查询性能优化是个很大的课题，包括索引、

数据布局、预聚合、统计信息、引擎 Runtime优化等等。本文主要介绍 Presto 如何更好的利用

Hudi 的数据布局、索引信息来加速点查性能。预聚合和统计信息我们将在后续分享。

数据布局优化

大数据分析的点查场景一般都会带有过滤条件，对于这种类型查询，如果目标结果集很小，理论

上我们可以通过一定手段在读取表数据时大量跳过不相干数据，只读取很小的数据集，进而显著

的提升查询效率。我们可以把上述技术称之为。DataSkipping

好的数据布局可以使相关数据更加紧凑（当然小文件问题也一并处理掉了）是实现DataSkipping

的关键一步。日常工作中合理设置分区字段、数据排序都属于数据布局优化。当前主流的查询引

擎 Presto/Spark 都可以对Parquet文件做 Rowgroup 级别过滤，最新版本甚至支持 Page 级别的

过滤；选取合适的数据布局方式可以使引擎在读取上述文件可以利用列的统计信息轻易过滤掉大

量 Rowgroup/Page，进而减少IO。

那么是不是仅仅依赖数据布局就好了？其实不然。上述过滤还是要打开表里每一个DataSkipping

文件才能完成过滤，因此过滤效果有限，数据布局优化配合才能更好的发挥效果。FileSkipping

当我们完成数据布局后，对每个文件的相关列收集统计信息，下图给个简单的示例，数据经过排

序后写入表中生成三个文件，指定点查下图可以清楚的看出的结果集只存在where a < 10 a < 10

于文件中，中 a 的最小值都比10大，显然不可能存在结果集，所以parquet1 parquet2/parquet3

直接裁剪掉和即可。parquet2 parquet3

下载后可阅读完整内容，剩余7页未读，立即下载

北极象

粉丝: 1w+
资源: 404

华为云：Apache Hudi优化下的湖仓一体查询实战与数据布局策略

华为云优化Apache Hudi查询实践：湖仓一体架构的秘密加速器

华为云视觉预训练大模型：云原生时代的探索与实践

华为云隐私保护策略与全球合规实践

华为云Kubernetes大规模场景下的Service性能优化实践

年度重磅！华为云2021应用构建技术实践精选集，七大领域400页+云上开发宝典，免费下载！

华为云数据湖探索服务DLI

华为技术前沿--物联网的探索与实践

架构革新高效可控__华为云数据库GaussDB，使能企业数字化升级的实践与探索.pdf

华为FusionCloud桌面云链接克隆部署优化实践

华为云与GaussDB分布式数据库的应用实践探索

最新资源