Apache Flink：大数据流处理框架详解

需积分: 48 33 浏览量更新于2024-07-09 收藏 4.73MB DOCX 举报

"尚硅谷的Flink教程文档详细介绍了Flink的大数据处理技术和核心特性。" Apache Flink是一个强大的开源流处理框架，源自于Stratosphere项目，该项目由多所大学共同研发并在2014年捐赠给Apache软件基金会，成为其顶级项目。Flink的名字来源于德语中的“快速”和“灵巧”，象征着其高效和灵活的处理能力。项目标志是一只具有Apache风格的红棕色松鼠，寓意其快速和灵活的特性。 Flink的核心理念在于提供分布式、高性能、高可用和精确的流处理解决方案。它能够处理无界和有界数据流，并且设计目标是在各种集群环境中以内存计算速度进行大规模处理。这意味着Flink能够在不影响性能的情况下处理大规模实时数据流。 Flink的一个显著特点是其事件驱动型(Event-driven)架构。这种模式下，应用从事件流中获取数据，基于事件触发计算和状态更新。与之对比，Spark Streaming采用微批次处理，而不是真正的事件驱动。事件驱动型应用更适合实时响应和状态管理，如消息队列（如Kafka）中的应用。 Flink在处理流和批上有独特的世界观。批处理处理有界数据，适合离线分析；而流处理则针对无界数据，适用于实时计算。在Spark中，流被视为一系列小批次，而在Flink中，无论是离线数据还是实时数据，都被视为流动的数据流。无界数据流代表持续不断的数据源，需要持续处理，而有界数据流则有明确的开始和结束点。 Flink提供了一种统一的API来处理这两种类型的数据流，允许开发者在同一个平台上进行批处理和流处理。这使得Flink在处理实时数据时能够保持低延迟，同时具备处理历史数据的能力，从而实现近实时分析。 Flink的关键特性还包括容错机制，它可以确保在分布式环境中处理数据的准确性和一致性。此外，Flink还支持状态管理和窗口操作，使得开发者能够轻松管理和操作处理过程中积累的状态，以及按时间或事件数量定义的数据窗口。 Flink是一个强大且灵活的大数据处理工具，特别适用于需要实时分析和事件驱动的应用场景。通过理解Flink的核心概念和技术，开发者可以构建出高性能、实时响应的流处理系统。

到目标文件夹中查看计算结果

注意：计算结果根据会保存到  的机器下，不会在 #' 下。

在

webui

控制台查看计算过程

3.2 Yarn 模式

以 8 模式部署  任务时，要求  是有 9% 支持的版本，9% 环

境需要保证版本在 3 以上，并且集群中安装有 9  服务。

78

 提供了两种在 ) 上运行的模式，分别为 (" 和 (:'("

模式。

1) Session-cluster 模式：

(" 模式需要先启动集群，然后再提交作业，接着会向 ) 申请一块

空间后，资源永远保持不变。如果资源满了，下一个作业就无法提交，只能等到 )

中的其中一个作业执行完成后，释放了资源，下个作业才会正常提交。所有作业共享

 和 ;<；共享资源；适合规模小执行时间短的作业。

在 ) 中初始化一个  集群，开辟指定的资源，以后提交任务都向这里提交。

这个  集群会常驻在 ) 集群中，除非手工停止。

2) Per-Job-Cluster 模式：



一个 :' 会对应一个集群，每提交一个作业会根据自身的情况，都会单独向 )

申请资源，直到作业执行完成，一个作业的失败与否并不会影响下一个作业的正常提

交和运行。独享  和 ;<，按需接受资源申请；适合规模大长时

间运行的作业。

每次提交都会创建一个新的  集群，任务之间互相独立，互不影响，方便管理。

任务执行完成之后创建的集群也会消失。

-90

启动

hadoop

集群（略）

启动

yarn-session

./yarn-session.sh -n 2 -s 2 -jm 1024 -tm 1024 -nm test -d

其中：

(/((0：&< 的数量。

(/((0：每个 &< 的  数量，默认一个  一个  ，默认每个

 的  的个数为 ，有时可以多一些 ，做冗余。

(#：:'< 的内存（单位 <=0。

(：每个  的内存（单位 <=0。

(：)的 >/现在 ) 的  上的名字0。

(%：后台执行。

剩余63页未读，继续阅读

时时刻刻看着自己的心

粉丝: 43
资源: 17

Apache Flink：大数据流处理框架详解

尚硅谷大数据之flink教程1

大数据之Flink.docx

大数据之flink教程-TableAPI和SQL.docx

尚硅谷大数据技术之数据湖Iceberg-1.1.0.docx

spark-streaming课堂讲义.docx

尚硅谷大数据技术之Apache Paimon解析

s硅谷大数据项目之Flink实时数仓完整版

Flink学习资料.zip

大数据技术之高频面试题8.0.2.pdf

flink学习教程，flink学习案例

最新资源