Pravega：Flink实时处理的理想搭档，解决大数据痛点

130 浏览量更新于2024-08-28 收藏 723KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"本文主要探讨了大数据架构的发展，特别是Pravega在Flink实时处理中的重要作用，以及它如何解决传统大数据处理平台的痛点。Pravega由DellEMC研发，旨在提供一种统一的流式数据存储解决方案，解决Lambda架构中的问题。文章还介绍了Pravega的进阶特性和在车联网领域的应用案例。" 大数据架构的变迁通常被视为从传统的批处理到实时流处理的转变。Lambda架构是这一转变中的一个关键阶段，它将大数据处理分为批处理和实时流处理两个独立部分。然而，这种架构存在明显的局限性，例如无法高效地结合实时和历史数据进行分析，导致延迟问题，同时也增加了数据存储成本和重复开发的工作量。 Kafka作为常见的消息队列系统，用于实时数据摄取，但其不保存历史数据的特性限制了结合历史数据的分析。为了处理历史数据，需要引入批处理流水线，如使用Spark Streaming和Hadoop生态系统组件，但这增加了延迟并导致了数据冗余。 Pravega的出现，作为Flink的完美搭档，旨在解决这些问题。Pravega是一款持久化的、可扩展的流式数据存储系统，能够支持低延迟的实时读写，并能长时间保留数据，从而允许实时分析与历史数据的结合。这消除了对Lambda架构中批处理流水线的需求，降低了存储成本，减少了重复开发工作。 Pravega的进阶特性包括高度可扩展性、强一致性和高可用性，使其成为处理大规模流式数据的理想选择。此外，Pravega在车联网等领域的应用展示了其在实时数据分析中的价值，如收集和分析车辆产生的大量传感器数据，为智能交通管理和自动驾驶提供实时洞察。 Pravega与Flink的结合，实现了从数据存储到计算的无缝集成，提供了高效的实时流处理能力。Flink的连续查询模型能够直接访问Pravega中的数据流，进行实时分析，极大地提高了数据处理效率和响应速度。 Pravega作为新一代的数据存储层，是构建统一、高效的大数据处理架构的关键，它优化了数据处理流程，降低了运营成本，提升了数据分析的灵活性和准确性。在大数据和实时分析的领域中，Pravega和Flink的组合正逐渐成为业界的新标准。

资源详情

资源推荐

Flink完美搭档：数据存储层上的完美搭档：数据存储层上的Pravega

本文将从大数据架构变迁历史，Pravega 简介，Pravega 进阶特性以及车联网使用场景这四个方面介绍 Pravega，重点介绍

DellEMC 为何要研发 Pravega，Pravega 解决了大数据处理平台的哪些痛点以及与 Flink 结合会碰撞出怎样的火花。

大数据架构变迁

Lambda 架构之痛

如何有效地提取和提供数据，是大数据处理应用架构是否成功的关键之处。由于处理速度和频率的不同，数据的摄取需要通过

两种策略来进行。上图就是典型的 Lambda架构：把大数据处理架构分为批处理和实时流处理两套独立的计算基础架构。

对于实时处理来说，来自传感器，移动设备或者应用日志的数据通常写入消息队列系统（如 Kafka), 消息队列负责为流处理应

用提供数据的临时缓冲。然后再使用 Spark Streaming 从 Kafka 中读取数据做实时的流计算。但由于 Kafka 不会一直保存历

史数据，因此如果用户的商业逻辑是结合历史数据和实时数据同时做分析，那么这条流水线实际上是没有办法完成的。因此为

了补偿，需要额外开辟一条批处理的流水线，即图中" Batch "部分。

对于批处理这条流水线来说，集合了非常多的的开源大数据组件如 ElasticSearch, Amazon S3, HDFS, Cassandra 以及 Spark

等。主要计算逻辑是是通过 Spark 来实现大规模的 Map-Reduce 操作，优点在于结果比较精确，因为可以结合所有历史数据

来进行计算分析，缺点在于延迟会比较大。

这套经典的大数据处理架构可以总结出三个问题：

两条流水线处理的延迟相差较大，无法同时结合两条流水线进行迅速的聚合操作，同时结合历史数据和实时数据的处理性能低

下。

数据存储成本大。而在上图的架构中，相同的数据会在多个存储组件中都存在一份或多份拷贝，数据的冗余无疑会大大增加企

业客户的成本。并且开源存储的数据容错和持久化可靠性一直也是值得商榷的地方，对于数据安全敏感的企业用户来说，需要

严格保证数据的不丢失。

重复开发。同样的处理流程被两条流水线进行了两次，相同的数据仅仅因为处理时间不同而要在不同的框架内分别计算一次，

无疑会增加数据开发者重复开发的负担。

流式存储的特点

在正式介绍 Pravega 之前，首先简单谈谈流式数据存储的一些特点。

如果我们想要统一流批处理的大数据处理架构，其实对存储有混合的要求。

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38593380

粉丝: 4
资源: 964

Pravega：Flink实时处理的理想搭档，解决大数据痛点

Flink 完美搭档 – Pravega：架构总览.pdf

Flink Table Store：流批一体存储.pdf

Flink与Spark：数据处理引擎对比分析

Flink实战入门：数据结构与关键操作详解

Flink广播流：数据共享与实时配置的关键

Flink原理详解：无穷数据集的流式处理与功能特性

Flink入门指南：数据流处理、API与编程模型详解

Flink技术解析：处理数据流的利器

Flink：实时流式数据计算引擎

Flink与Hive集成：实时数据处理与分析

Flink流式数据处理实战：掌握实时数据处理核心技术

Flink：下一代大数据处理引擎的前沿技术解读

flink源目录下没有flink-core

flink使用standalone模式部署在服务器上，flink cdc 如何离线部署，使flink 可以使用flinkcdc 进行数据同步

springboot 用引入flink cdc需要配置什么

flink支持哪些机器学习算法

flink开发需要用到的依赖

19.flink中时间有哪几类，说法错误的是? 处理时间(processingtime): Flink中算子处理数据的时间 事件时间(event time):数据本身真正产生时间 摄取时间(ingestion time):Flink读取数据时的时间 调度时间(Schedulingtime):flink提交到Yarn调度的时间

flink sql 报错：java.lang.ClassCastException: java.lang.String cannot be cast to java.lang.Long怎么解决

启动flink standalone 报错: Name or service not knownname t-dn01为什么

最新资源

19.flink中时间有哪几类，说法错误的是? 处理时间(processingtime): Flink中算子处理数据的时间事件时间(event time):数据本身真正产生时间摄取时间(ingestion time):Flink读取数据时的时间调度时间(Schedulingtime):flink提交到Yarn调度的时间