探索流批一体近实时数仓：时间旅行与设计挑战

版权申诉

147 浏览量更新于2024-08-03 收藏 366KB DOCX 举报

本文探讨了流批一体的近实时数仓的设计与思考，主要围绕以下几个关键点展开： 1. **数据时间旅行与业务需求**：数据时间旅行的概念引入，指出业务对数据的需求主要关注行为的可探索和可观察。随着大数据技术的发展，离线数仓成为主流，但业务对数据在时间维度上的确定性是否被完全满足是一个值得思考的问题。数据的时间维度包括业务期望的用户空间下的时间数据，如t1时间点或时间段的明细和统计数据。 2. **传输延迟与控制**：传输延迟主要指数据从产生到存储或处理过程中的不确定性，如网络问题导致的数据延迟或丢失。这种延迟通常是不可控的，对实时性要求较高的场景带来挑战。 3. **存储与计算延迟**： - **离线数仓**：数据存放在分布式文件系统中，以小时为单位进行分区，时间精度相对较低。 - **实时数仓**：如Kafka，数据处理速度较快，通常涉及ProcessTime-IngestTime之间的计算延迟。 - **近实时数仓**（分钟级）：介于实时和离线之间，时效性较高，处理延迟相对较短。 4. **数仓体系的分类**：根据计算延迟，将数仓分为秒级实时数仓（秒级时效）、分钟级近实时数仓和小时级离线数仓，这些分类反映了时效性的不同，尤其是在处理传输延迟不可控的情况下。 5. **流批一体的实践**：文章着重讨论了如何在FlinkSQL中实现流批一体，强调SQL表达的一致性、结果一致性，以及如何通过分离流批任务和混合调度依赖来优化设计。 6. **基于数据湖的设计**：提及数据湖在Flink中的应用，特别是数据湖元数据类型，为流批一体的实践提供了新的视角。数据湖作为中间层，可以支持多种时效性的数据处理需求。总结来说，本文的核心是深入分析数据处理中的时间特性，结合数据湖和Flink技术，提出了流批一体的近实时数仓的设计策略，旨在优化数据处理的效率和时效性，同时保持SQL表达的统一性和结果的一致性。

划分为三种主流的数仓体系，秒级的实时数仓，分钟级的近实时数仓，小时级的

离线数仓。可以看出，数仓的时效性差异，因为传输延迟的不可控，退化为计算

延迟的差异。

离线、近实时、实时三种数仓

在时间维度下的成因

在离线数仓和实时数仓，常常会提到数据的有界和无界，认为离线数仓的数据是

有界的，实时数仓的消息流是无界的。准确与否在于数据的确定性考量。

离线数仓的确定性，在于文件自然生成时间的确定性和不可更改性，某个小时的

自然文件生成，近似等于事件时间在自然时间的确定性，反例就是我们能看到数

据漂移的情况，事件时间会或多或少落入上个小时或者下个小时的自然文件生成

时间。那么离线数仓的确定性，实质是数据的 IngestTime 的确定性，具有天然的

文件属性，易于分割。当我们说离线数仓计算的数据是准确的时候，默认了传输

延迟带来的影响很小或者默认了当前小时的数据指标的标准是文件的自然形成时

间。

实时数仓，常常会提及不确定性或者说 Lambda 架构实际是对实时数仓的不确定性

的替代方案。这种不确定性的原因是什么呢？这里分为四类情况说明，一是 ETL

的处理，从窗口上来说，是单条数据即为一个窗口，窗口的产生和销毁在一个

剩余10页未读，继续阅读

jane9872

粉丝: 108
资源: 7795

探索流批一体近实时数仓：时间旅行与设计挑战

基于Flink的实时数仓建设实践.docx

互联网大厂实时数仓建设案例.docx

美团增量数仓建设新进展.docx

Gartner 报告最新解读：数仓 or 数据湖.docx

数仓构建案例：从需求分析到数仓构建全流程.docx

Flink+Kafka：网易云音乐实时数仓建设实践.docx

传统数仓如何转型大数据数仓？.docx

数仓建设规划核心问题.docx

大数据数仓高级面试题整理.docx

流动人员档案信息化建设的思考与研究.docx

最新资源