Flink与Spark：数据处理引擎对比分析

需积分: 5 130 浏览量更新于2024-06-16 收藏 1.48MB DOCX 举报

"这篇文章主要介绍了Apache Flink，一个用于处理有界和无界数据流的分布式计算引擎，以及它与Spark的区别。Flink的核心理念在于流处理，它将批处理视为特殊的流处理情况，提供了对无界和有界数据流的高效处理能力。" Apache Flink是一个强大的大数据处理工具，其设计目标是在各种集群环境中运行，支持大规模内存级计算。Flink的核心特性之一是它的数据处理模型，它可以处理两种类型的数据流：有界数据流和无界数据流。有界数据流（Bounded DataStream）是有限的数据集合，有明确的起点和终点，通常对应于传统的批处理任务。Flink处理有界数据流时，可以获取所有数据并进行完整的处理，这使得批处理任务在Flink中得以实现。相比之下，无界数据流（Unbounded DataStream）是持续不断的数据流，没有明显的结束点。无界数据流的例子包括实时事件流或传感器数据流。由于数据的持续性，Flink必须对这些数据进行连续处理，即时处理新到达的数据，以确保结果的及时性。在处理无界数据流时，Flink提供了处理顺序和容错机制，保证了数据处理的正确性。 Flink与Spark在数据处理架构上有显著差异。Spark最初是为批处理设计，然后扩展到流处理，其Spark Streaming采用微批次处理方式，实际上是一种近实时处理。这种方式在处理延迟敏感的流任务时可能不如Flink。而Flink则是以流处理为中心，其流处理能力更强大，尤其在低延迟场景下表现出色。另一方面，Spark的微批次处理方式在处理大量数据时表现出高吞吐量，且其丰富的生态和易用的API使其在批处理领域占有优势。然而，Flink在流处理的低延迟性能和对状态管理的支持上更胜一筹，适合实时分析和复杂事件处理等场景。 Flink和Spark各有特色，适用于不同的大数据处理需求。Flink的流处理设计理念使其在实时计算领域具有竞争力，而Spark则在批处理和综合生态系统方面展现出强大的能力。选择哪种工具取决于具体的应用场景和业务需求。

4.1.3

并行度（Parallelism）

1. 并行子任务和并行度

把一个算子操作，“复制”多份到多个节点，数据来了之后就可以到其中任意一个执行。这样一来，

一个算子操作就被拆分成了多个并行的“子任务”（ subtasks），再将它们分发到不同节点，就真正

实现了并行计算。

在Flink 执行过程中，每一个算子（operator）可以包含一个或多个子任务（operator subtask），这些子

任务在不同的线程、不同的物理机或不同的容器中完全独立地执行。

图 4-8 并行数据流

一个特定算子的子任务（subtask）的个数被称之为其并行度（parallelism）。这样，包含并

行子任务的数据流，就是并行数据流，它需要多个分区（stream partition）来分配并行任务。

一般情况下，一个流程序的并行度，可以认为就是其所有算子中最大的并行度。一个程序中，

不同的算子可能具有不同的并行度。

如图 4-8 所示，当前数据流中有 Source、map()、keyBy()/window()/apply()、Sink 四个算子，除

最后 Sink，其他算子的并行度都为 2。整个程序包含了 7 个子任务，至少需要 2 个分区来并行

执行。我们可以说，这段流处理程序的并行度就是 2。

2. 并行度的设置

在 Flink 中，可以用不同的方法来设置并行度，它们的有效范围和优先级别也是不同的。

（1）代码中设置

我们在代码中，可以很简单地在算子后跟着调用 setParallelism()方法，来设置当前算子的

并行度：

stream.map((_,1)).setParallelism(2)

这种方式设置的并行度，只针对当前算子有效。

另外，我们也可以直接调用执行环境的 setParallelism()方法，全局设定并行度：

env.setParallelism(2)

这样代码中所有算子，默认的并行度就都为 2 了。我们一般不会在程序中设置全局并行度，因为如

果在程序中对全局并行度进行硬编码，会导致无法动态扩容。

这里要注意的是，由于 keyBy()方法返回的不是算子，所以无法对 keyBy()设置并行度。

（2）提交作业时设置

在使用 flink run 命令提交作业时，可以增加-p 参数来指定当前应用程序执行的并行度，

它的作用类似于执行环境的全局设置：

如果我们直接在Web UI 上提交作业，也可以在对应输入框中直接添加并行度。

（3）配置文件中设置

我们还可以直接在集群的配置文件 flink-conf.yaml 中直接更改默认并行度：

bin/flink run –p 2 –c com.atguigu.wc.StreamWordCount

./FlinkTutorial-1.0-SNAPSHOT.jar

剩余40页未读，继续阅读

龙骨

粉丝: 161

Flink与Spark：数据处理引擎对比分析

Flink总结.docx

Flink实战总结1

flink

技术运维-机房巡检表及巡检说明

第四次算法分析与设计整理

图像处理_U2Net_优化模型大小_工程化部署方案_1741785598.zip

jaxlib-0.4.18-cp311-cp311-macosx_11_0_arm64.whl

视频点播系统完美版源码前后端分离开源版.zip

毕业答辩爆款黑板风教育文艺毕业论文答辩通用模板.pptx

systemd-devel-219-78.el7-9.9.x64-86.rpm.tar.gz

最新资源