Flink+Iceberg+对象存储：构建阿里数据湖实践

需积分: 24 184 浏览量更新于2024-08-04 收藏 1.59MB PDF 举报

本文主要探讨了如何利用Apache Flink（流处理框架）与Apache Iceberg（开源数据湖管理系统）结合对象存储构建高效且灵活的数据湖解决方案。阿里巴巴云栖号在2021年7月16日发布的这篇文章，由Dell科技集团高级软件研发经理孙伟在FlinkMeetup活动中分享。首先，文章对数据湖生态进行了概述。一个成熟的数据湖应具备以下关键特性：1）海量的存储能力，如对象存储、公有云存储和Hadoop分布式文件系统(HDFS)；2）支持多种数据类型，包括非结构化的图像和视频，半结构化的CSV、XML和日志，以及结构化的数据库表；3）高效的元数据管理，确保计算引擎能够轻松访问和分析各类数据；4）兼容多样的计算引擎，如Flink、Spark、Hive和Presto，以适应企业现有的应用架构。接着，作者重点讨论了在数据湖中使用结构化数据的应用场景。例如，来自不同数据源（如事务数据、日志、事件跟踪和物联网数据）的多样化数据通过流处理后，需要一个结构化的存储方案，既能实时处理，又能支持灵活的数据修改，如增加列或更改格式，而无需完全重构整个数据集。为了实现这些目标，文章介绍了Flink与Iceberg的结合。Flink的强大实时处理能力与Iceberg的动态列式存储和可验证数据变更历史相结合，提供了高性能的数据写入和查询。同时，借助对象存储（如阿里云的OSS），数据湖可以实现低成本、高扩展性的存储，并且能轻松地跨区域复制和备份数据。存储优化方面，文章提出了几点思考：如何在保证数据一致性（ACID）的同时，处理实时数据流，避免读取脏数据；如何通过Iceberg的特性减少数据转换的成本，实现灵活的数据更新；以及如何在大规模数据处理中实现高效的性能和成本效益。总结来说，这篇文章提供了一个实用的框架，展示了如何通过Flink、Iceberg和对象存储技术构建高效的数据湖解决方案，以满足现代企业对数据处理和存储的需求，实现数据价值的快速提取和分析。

如上图所示，上方有命名空间，数据库表的隔离；中间有多个表，可以提供多种数据

Schema 的保存；底下会放数据，表格需要提供 ACID 的特性，也支持局部 Schema

的演进。

4. Iceberg 表数据组织架构

快照 Metadata：表格 Schema、Partition、Partition spec、Manifest List 路径、当前

快照等。

Manifest List：Manifest File 路径及其 Partition，数据文件统计信息。

Manifest File：Data File 路径及其每列数据上下边界。

Data File：实际表内容数据，以 Parque，ORC，Avro 等格式组织。

接下来具体看一下 Iceberg 是如何将数据组织起来的。如上图所示：

可以看到右边从数据文件开始，数据文件存放表内容数据，一般支持 Parquet、

ORC、Avro 等格式；

往上是 Manifest File，它会记录底下数据文件的路径以及每列数据的上下边界，方便

过滤查询文件；

再往上是 Manifest List，它来链接底下多个 Manifest File，同时记录 Manifest File 对

应的分区范围信息，也是为了方便后续做过滤查询；Manifest List 其实已经表示了快

照的信息，它包含当下数据库表所有的数据链接，也是 Iceberg 能够支持 ACID 特性

的关键保障。有了快照，读数据的时候只能读到快照所能引用到的数据，还在写的数

据不会被快照引用到，也就不会读到脏数据。多个快照会共享以前的数据文件，通过

共享这些 Manifest File 来共享之前的数据。

再往上是快照元数据，记录了当前或者历史上表格 Scheme 的变化、分区的配置、所

有快照 Manifest File 路径、以及当前快照是哪一个。

同时，Iceberg 提供命名空间以及表格的抽象，做完整的数据组织管理。

5. Iceberg 写入流程

百度首页

倍鲁奇

剩余13页未读，继续阅读

心有猛虎-细嗅玫瑰

粉丝: 0
资源: 10

Flink+Iceberg+对象存储：构建阿里数据湖实践

基于Flink+Iceberg构建企业级实时数据湖.pdf

基于Flink+Iceberg构建企业级实时数据湖(1).pdf

使用Flink+Iceberg打造实时数据湖解决方案

基于Flink+Iceberg构建可落地的企业级实时数据湖教程

腾讯基于Flink + Iceberg 全场景实时数仓的建设实践.pdf

腾讯Flink+Iceberg实时数仓建设实践：2022年解决方案

3-5+如何基于+Iceberg+构建云原生数据湖服务.pdf

数据湖iceberg+Flink 戴尔对象存储解决方案 apache-iceberg-dell-emc-ecs.pdf

3-4+腾讯基于+Apache+Iceberg+的数据治理与优化.pdf

使用Flink和Iceberg构建实时数据湖实践

最新资源