Flink深度解析：入门到实战文档

需积分: 5 67 浏览量更新于2024-07-15 收藏 2.64MB PDF 举报

Flink超神文档深入解析了Apache Flink这一强大的流处理和批处理框架。Flink是一款开源的实时数据流处理系统，专为低延迟、高吞吐量和容错性而设计，适用于大规模分布式环境。它支持两种主要的数据流类型：无界流（UnboundedStreams）和有界流（BoundedStreams），前者处理持续不断的数据流，后者处理有限长度的数据集。在Flink中，stateful computations是关键特性，它允许系统维护状态信息以进行复杂的计算，如窗口操作和迭代处理。Flink的主要用户包括数据科学家、开发者和运维人员，他们可以利用Flink的实时处理能力构建实时分析应用和复杂的工作流。 Flink的安装与部署部分详细介绍了在Standalone集群和Hadoop YARN上运行Flink的方法。Standalone模式适合小规模测试，而YARN模式则适用于大规模生产环境，提供了session和run a Flink job两种运行模式，分别对应不同的资源管理和生命周期管理。 Flink API详解深入浅出，包括Dataflows（数据流图）的概念，以及如何配置开发环境。例如，常见的算子如Map、FlatMap、Filter、KeyBy、Reduce和聚合操作都有所涉及。Flink的任务调度规则和并行度设置是优化性能的重要环节，同时支持各种数据源，如文件、集合、Socket、Kafka和自定义源。 Flink的数据流处理还支持高级特性，如迭代处理（Iterate）和函数类，包括ProcessFunction API，这些为复杂业务逻辑提供了丰富的表达能力。此外，数据流的分区策略是确保数据分布均匀和性能优化的关键，如shuffle、rebalance、rescale等策略。 FlinkState管理是Flink的核心，它包括CheckPoint和SavePoint两种持久化机制，以及不同的状态后端选项，如内存存储。CheckPoint用于定期保存状态，SavePoint则是在特定时间点进行保存，而MemoryStateBackend适用于内存容量充足的场景。 Flink超神文档全面覆盖了Flink的基础概念、安装部署、API使用、高级特性和状态管理，为理解和运用Flink提供了详尽的指南，无论你是初次接触还是资深开发者，都能从中受益匪浅。

Source map()

keyBy()/

window()/

apply()

Sink

Operator

Subtask

Source

[1]

map()

[1]

keyBy()/

window()/

apply()

[1]

Sink

[1]

Source

[2]

map()

[2]

keyBy()/

window()/

apply()

[2]

Stream

Partition

Operator Stream

Streaming Dataflow

(parallelized view)

Streaming Dataflow

(condensed view)

parallelism = 1

parallelism = 2

配置开发环境

每个 Flink 应用都需要依赖一组 Flink 类库。Flink 应用至少需要依赖 Flink APIs。许多应用还会额外依

赖连接器类库(比如 Kafka、Cassandra 等)。当用户运行 Flink 应用时(无论是在 IDEA 环境下进行测

试，还是部署在分布式环境下)，运行时类库都必须可用

开发工具：IntelliJ IDEA

配置开发Maven依赖：

注意点：

如果要将程序打包提交到集群运行，打包的时候不需要包含这些依赖，因为集群环境已经包含了这

些依赖，此时依赖的作用域应该设置为provided provided

Flink 应用在 IntelliJ IDEA 中运行，这些 Flink 核心依赖的作用域需要设置为 compile 而不是

provided 。否则 IntelliJ 不会添加这些依赖到 classpath，会导致应用运行时抛出

NoClassDefFountError 异常

添加打包插件：

<groupId>org.apache.flink</groupId>

<artifactId>flink-scala_2.11</artifactId>

</dependency>

<groupId>org.apache.flink</groupId>

<artifactId>flink-streaming-scala_2.11</artifactId>

</dependency>

<build>

 <plugins>

   <plugin>

WordCount流批计算程序

批计算：统计HDFS文件单词出现的次数

读取HDFS数据需要添加Hadoop依赖

WordCount代码：

     <groupId>org.apache.maven.plugins</groupId>

     <artifactId>maven-shade-plugin</artifactId>

     <version>3.1.1</version>

     <executions>

       <execution>

         <phase>package</phase>

         <goals>

           <goal>shade</goal>

         </goals>

         <configuration>

           <artifactSet>

             <excludes>

              

<exclude>com.google.code.findbugs:jsr305</exclude>

               <exclude>org.slf4j:*</exclude>

               <exclude>log4j:*</exclude>

             </excludes>

           </artifactSet>

           <filters>

             <filter>

               <!--不要拷贝 META-INF 目录下的签名，

               否则会引起 SecurityExceptions 。 -->

               <artifact>*:*</artifact>

               <excludes>

                 <exclude>META-INF/*.SF</exclude>

                 <exclude>META-INF/*.DSA</exclude>

                 <exclude>META-INF/*.RSA</exclude>

               </excludes>

             </filter>

           </filters>

           <transformers>

             <transformer

implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransfor

mer">

               <mainClass>my.programs.main.clazz</mainClass>

             </transformer>

           </transformers>

         </configuration>

       </execution>

     </executions>

   </plugin>

 </plugins>

</build>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-client</artifactId>

</dependency>

流计算：统计数据流中，单词出现的次数

WordCount Dataﬂows 算子链

为了更高效地分布式执行，Flink会尽可能地将operator的subtask链接（chain）在一起形成task。每个

task在一个线程中执行。将operators链接成task是非常有效的优化：它能减少线程之间的切换，减少

消息的序列化/反序列化，减少数据在缓冲区的交换，减少了延迟的同时提高整体的吞吐量

Flink任务调度规则

不同Task下的subtask分到同一个TaskSlot，提高数据传输效率

相同Task下的subtask不会分到同一个TaskSlot，充分利用集群资源

val env = ExecutionEnvironment.getExecutionEnvironment

 val initDS: DataSet[String] =

env.readTextFile("hdfs://node01:9000/flink/data/wc")

 val restDS: AggregateDataSet[(String, Int)] = initDS.flatMap(_.split("

")).map((_,1)).groupBy(0).sum(1)

 restDS.print()

//准备环境

 /**

  * createLocalEnvironment 创建一个本地执行的环境 local

  * createLocalEnvironmentWithWebUI 创建一个本地执行的环境同时还开启Web UI的查看

端口 8081

  * getExecutionEnvironment 根据你执行的环境创建上下文，比如local cluster

  */

 val env = StreamExecutionEnvironment.getExecutionEnvironment

 env.setParallelism(1)

 /**

  * DataStream：一组相同类型的元素组成的数据流

  */

 val initStream:DataStream[String] = env.socketTextStream("node01",8888)

 val wordStream = initStream.flatMap(_.split(" "))

 val pairStream = wordStream.map((_,1))

 val keyByStream = pairStream.keyBy(0)

 val restStream = keyByStream.sum(1)

 restStream.print()

 /**

  * 6> (msb,1)

  * 1> (,,1)

  * 3> (hello,1)

  * 3> (hello,2)

  * 6> (msb,2)

  * 默认就是有状态的计算

  * 6> 代表是哪一个线程处理的

  *

  * 相同的数据一定是由某一个thread处理

  **/

 //启动Flink 任务

 env.execute("first flink job")

剩余86页未读，继续阅读

柯南721

粉丝: 54
资源: 37

Flink深度解析：入门到实战文档

Flink 文档 资料.zip

Flink 全网最全资源（视频、博客、PPT、入门、原理、实战、性能调优、源码解析、问答等持续更新）

Flink深入部署高级开发与案例实战-视频教程网盘链接提取码下载 .txt

flink入门文档.pdf

flink 客户端操作.pdf

flink环境搭建.pdf

Flink Connector 开发.pdf

flink源码分析.pdf

Flink面试题.pdf

最新资源

Flink 文档资料.zip