Apache Hudi：数据湖高效流处理与更新架构详解

PDF格式 | 486KB | 更新于2024-08-28 | 158 浏览量 | 举报

Apache Hudi是一款专为大数据湖设计的高效存储解决方案，它建立在Hadoop兼容的存储之上，旨在支持大规模数据的存储和实时处理。Hudi的核心亮点在于它提供了两种原语，即Update/Delete记录和变更流，这些原语极大地扩展了数据处理的灵活性。首先，Update/Delete记录功能是通过细粒度的文件/记录级别索引来实现的，这意味着Hudi能够支持对单个记录的精确更新和删除操作，这在传统的批处理模型中是很难做到的。同时，Hudi确保写操作具有事务性，保证数据的一致性和完整性。查询时，系统会处理最新的提交快照，输出基于最新状态的结果，从而避免了频繁的全表扫描。变更流是Hudi的另一个强大特性，它允许用户实时获取数据的变更，包括inserted、updated和deleted的记录，这对于监控、审计和实时分析场景至关重要。这种能力使得数据管道能够处理实时数据流，不再受限于批处理模式，提高了处理速度和响应性。在架构层面，Hudi的优势主要体现在三个方面： 1. 效率提升：传统的数据处理方式可能会因为处理更新、删除和唯一键约束而消耗大量计算资源。Hudi通过记录级更新优化，只处理有实际变更的记录，避免了不必要的全表重写，从而极大地提高了处理效率。 2. 加速ETL/派生Pipelines：当从外部系统获取数据后，Hudi支持增量查询，只需处理上游表的增量变化，而不是每次都重新处理全部数据。这显著缩短了ETL和派生数据处理的时间，降低了资源消耗，使得数据分析和机器学习任务得以快速响应。 3. 实时获取新鲜数据：Hudi的设计使得数据处理更加高效，不仅在性能上有所提升，还减少了资源占用。通过支持增量处理，数据湖的响应时间显著缩短，让业务团队能够更快地获取和利用新鲜数据，这对于业务决策和用户体验有着直接的积极影响。 Apache Hudi凭借其创新的设计和高效的架构，为企业提供了强大的数据处理和实时分析能力，使得数据湖不再局限于静态存储，而是能够动态响应数据变化，满足现代业务对数据处理时效性和效率的高要求。

数据湖数据湖|ApacheHudi设计与架构最强解读设计与架构最强解读

1.简介

Apache Hudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理

之外，还可以在数据湖上进行流处理。

这两种原语分别是：

Update/Delete记录：Hudi使用细粒度的文件/记录级别索引来支持Update/Delete记录，同时还提供写操作的事务保证。查询

会处理最后一个提交的快照，并基于此输出结果。

变更流：Hudi对获取数据变更提供了一流的支持：可以从给定的时间点获取给定表中已updated/inserted/deleted的所有记录

的增量流，并解锁新的查询姿势（类别）。

这些原语紧密结合，解锁了基于DFS抽象的流/增量处理能力。如果您熟悉流处理，那么这和从kafka主题消费事件，然后使用

状态存储逐步累加中间结果类似。

这在架构上会有以下几点优势：

1）效率的提升：摄取数据通常需要处理更新、删除以及强制唯一键约束。然而，由于缺乏像Hudi这样能对这些功能提供标准

支持的系统，数据工程师们通常会采用大批量的作业来重新处理一整天的事件，或者每次运行都重新加载整个上游数据库，从

而导致大量的计算资源浪费。由于Hudi支持记录级更新，它通过只处理有变更的记录并且只重写表中已更新/删除的部分，而

不是重写整个表分区甚至整个表，为这些操作带来一个数量级的性能提升。

2）更快的ETL/派生Pipelines：从外部系统摄入数据后，下一步需要使用Apache Spark/Apache Hive或者任何其他数据处理

框架来ETL这些数据用于诸如数据仓库、机器学习或者仅仅是数据分析等一些应用场景。通常，这些处理再次依赖以代码或

SQL表示的批处理作业，这些作业将批量处理所有输入数据并重新计算所有输出结果。通过使用增量查询而不是快照查询来查

询一个或多个输入表，可以大大加速此类数据管道，从而再次像上面一样仅处理来自上游表的增量更改，然后upsert或者

delete目标派生表。

3）新鲜数据的获取：减少资源还能获取性能上的提升并不是常见的事。毕竟我们通常会使用更多的资源（例如内存）来提升

性能（例如查询延迟）。Hudi通过从根本上摆脱数据集的传统管理方式，将批量处理增量化带来了一个附加的好处：与以前

的数据湖相比，pipeline运行的时间会更短，数据交付会更快。

4）统一存储：基于以上三个优点，在现有数据湖之上进行更快速、更轻量的处理意味着仅出于访问近实时数据的目的时不再

需要专门的存储或数据集市。

2.设计原则

流式读/写:Hudi借鉴了数据库设计的原理，从零设计，应用于大型数据集记录流的输入和输出。为此，Hudi提供了索引实现，

可以将记录的键快速映射到其所在的文件位置。同样，对于流式输出数据，Hudi通过其特殊列添加并跟踪记录级的元数据，

从而可以提供所有发生变更的精确增量流。

自管理：Hudi注意到用户可能对数据新鲜度（写友好）与查询性能（读/查询友好）有不同的期望，它支持了三种查询类型，

这些类型提供实时快照，增量流以及稍早的纯列数据。在每一步，Hudi都努力做到自我管理（例如自动优化编写程序的并行

性，保持文件大小）和自我修复（例如：自动回滚失败的提交），即使这样做会稍微增加运行时成本（例如：在内存中缓存输

入数据已分析工作负载）。如果没有这些内置的操作杠杆/自我管理功能，这些大型流水线的运营成本通常会翻倍。

万物皆日志:Hudi还具有 append only、云数据友好的设计，该设计实现了日志结构化存储系统的原理，可以无缝管理所有云

提供商的数据。

键-值数据模型：在写方面，Hudi表被建模为键值对数据集，其中每条记录都有一个唯一的记录键。此外，一个记录键还可以

包括分区路径，在该路径下，可以对记录进行分区和存储。这通常有助于减少索引查询的搜索空间。

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38645208

粉丝: 6
资源: 929

Apache Hudi：数据湖高效流处理与更新架构详解

hudi-branch-ci

hudi：大数据的增量和增量处理

开源数据湖方案选型：Hudi、Delta、Iceberg深度对比

华为云基于ApacheHudi极致查询优化的探索实践!

前端面试攻略（前端面试题、react、vue、webpack、git等工具使用方法）

常用的java基础类包括MD5、错误处理、映射、服务等等

带头像公司组织机构图PPT模板-2.pptx

IMG_20250110_222443.jpg

首医+药理学+表格（补充与添加）

基于留出法、k折交叉验证和留一法的多种机器学习模型对比（用于分类）MATLAB程序：代码中共包含决策树（DT）、判别分析（DA）、集成树（ET）、高斯混合模型（GMM）、k近邻（KNN）、多分类支持向

最新资源