Flink实战入门：数据结构与关键操作详解

需积分: 0 61 浏览量更新于2024-06-30 收藏 1.55MB PDF 举报

Flink实战总结1深入探讨了Apache Flink在大数据处理中的核心应用和关键概念。Flink是一个强大的分布式流处理框架，它支持实时数据的高效处理和复杂转换。学习Flink的关键点包括理解其分布式执行模型，数据结构（DataSet和DataStream的区别），以及数据源的接入方式。首先，Flink程序的基础是通过数据源接收实时或批处理的数据，这些数据源可以多样化，如从文件系统读取（如`readTextFile`和`readFile`），通过网络套接字接收（如`socketTextStream`），利用集合（如`fromCollection`）或自定义数据源（如通过`addSource`或Flink-Kafka Consumer）。DataSource的多样性使得Flink能够灵活适应不同的数据获取场景。 DataSet和DataStream是Flink中的两种主要数据结构，它们都代表数据的集合。DataSet是有限的，这意味着它有一个确定的大小，而DataStream则没有边界，可以处理无限流数据。Flink的设计目标是尽可能地将相关操作聚集在一个TaskSlot内，以提高性能和资源利用率。对于序列化对象和内存管理，Flink提供了内置的支持，允许开发者根据需求进行定制。Apache Flink文档提供了详细的编程指南，例如`JugglingwithBitsandBytes`章节，解释了如何正确地序列化和反序列化数据，以及如何合理分配内存资源以优化性能。迭代操作是Flink Dataset的重要特性，尤其是Delta迭代（即增量计算），它允许在处理过程中只对变化的部分进行更新，显著提高了效率。`FlinkDataSet`的迭代操作可以通过`savepoint`功能进行持久化和恢复。Savepoint是一种用户控制的数据点，用于保存运行时状态，Flink 1.7版本的Savepoint和Checkpoint机制相似，但Checkpoint使用RocksDB作为state backend，这影响了其存储格式。触发Savepoints的操作通常是通过用户设置的触发条件，如周期性或基于时间间隔，这对于故障恢复和监控至关重要。FsStateBackend是Savepoints的主要存储后端，它确保了数据的一致性和可靠性。 Flink实战总结1涵盖了Flink的分布式处理能力、数据结构管理、数据源接入、内存优化、序列化以及关键操作如迭代和持久化。深入理解和掌握这些知识点，有助于在实际项目中高效地使用Flink进行实时和批量数据分析。

-jm,--jobManagerMemory <arg> Memory for JobManager Container with

optional unit (default: MB)

-nm,--name Set a custom name for the application on

YARN

-q,--query Display available YARN resources (memory,

cores)

-qu,--queue <arg> Specify YARN queue.

-s,--slots <arg> Number of slots per TaskManager

-tm,--taskManagerMemory <arg> Memory per TaskManager Container with

optional unit (default: MB)

-z,--zookeeperNamespace <arg> Namespace to create the Zookeeper sub-

paths for HA mode

提交到yarn-cluster上需要以 y 或者yarn作为前缀；如: ynm=nm

flink run -c com.jacobs.jobs.realtime.wordcount.WindowWordCount target/real-

time-jobs-1.0.0-SNAPSHOT.jar

flink run -m yarn-cluster -ynm SinkToKafkaStream -yn 4 -yjm 1024m -ytm 4096m -

ys 4 -yqu feed.prod -c com.weibo.api.feed.dm.stream.TestFlinkStream /data1/dm-

flink/feed-dm-flink-1.0.4-SNAPSHOT.jar

flink run -m yarn-cluster -ynm SinkToKafkaStream -yn 2 -yjm 1024m -ytm 4096m -

ys 2 -yqu feed.prod -c com.weibo.api.feed.dm.stream.SinkToKafkaStream /data1/

dm-flink/feed-dm-flink-1.0.4-SNAPSHOT.jar

停任务

关闭或重启flink程序能直接kill掉，这样会导致flink来不及制作checkpoint，󰖳应该调

󰉁flink提供的cancel语意

//重启正确姿势, with savepoint

1. 调󰉁cancel，cancel之前先触发savepoint

bin/flink cancel -s [:targetDirectory] :jobId -yid: yarnAppId

: flink cancel -s hdfs://vcp-yz-nameservice1/user/hcp/hcpsys/feed/flink-

checkpoints/test-user-logs 97b4e67859af4bfb1b597355f1c846f3 -yid

application_1542801635735_2121

2. 从savepoint中恢复flink程序

剩余15页未读，继续阅读

基鑫阁

粉丝: 731
资源: 358

Flink实战入门：数据结构与关键操作详解

Flink实战：一小时窗口下用户行为分析—点击量TopN商品统计

Apache Flink实战：状态ful流处理入门与架构解析

总结Flink学习经验：关键点、难点与实战经验。

Flink实战之 MySQL CDC.pdf

flink实战java

flink cdc实战案例

Flink快速入门与实战.pdf

大数据工程师 Flink技术与实战 源码笔记下载

实时数据处理与分析：Apache Flink系统实战

Flink SQL 实战：自定义 Redis 数据汇表解析与源码分享

最新资源

大数据工程师 Flink技术与实战源码笔记下载