Flink多语言实战：PyFlink与Scala开发电商日志分析

flink

需积分: 0 191 浏览量更新于2024-06-30 收藏 649KB DOCX 举报

身份认证购VIP最低享 7 折!

30元优惠券

本项目名为"项目8-Flink-多语言开发1", 主要关注Apache Flink在Python和Scala语言中的应用。Flink是一个强大的开源流处理框架，特别适用于实时数据处理场景，如在线分析和事件驱动的数据处理。课程的目标是让学生熟悉PyFlink和Scala API，并通过实战项目来掌握其编程技巧。首先，课程的核心内容是使用Scala语言编写Flink程序，这是因为Scala提供了丰富的类型系统和函数式编程特性，有助于构建高效、可维护的流处理逻辑。学习者将从官方文档（https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/scala_api_extensions.html）中获取Scala-Flink的开发指南，了解如何处理实时数据。具体任务包括从Kafka实时接收电商点击流日志，对这些数据进行预处理。预处理步骤包括拓宽数据，即在原始日志基础上添加用户行为的相关字段，这需要与外部数据库（如HBase）交互，获取用户历史访问状态。预处理后的数据将用于分析实时频道的热点和PV/UV（页面访问量和独立访客数量）。热点分析是基于频道被访问次数的累计，而PV/UV则涉及到更复杂的用户唯一性判断。在环境准备阶段，参与者需要安装Apache Flink的Python包，通过pip命令行工具（pip install apache-flink），可能需要良好的网络条件，因为此过程可能涉及大量的依赖包下载，耗时大约2小时。官方文档链接提供了Python DataStream API教程（https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/python/datastream_tutorial.html）和Table API教程（https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/python/table_api_tutorial.html），供学习者参考和深入学习。整个项目不仅锻炼了学生在实际场景下运用Flink的能力，还涵盖了数据流处理的基础概念，以及不同语言API的运用和性能优化。通过完成这个项目，学习者可以提升他们的数据处理和分布式计算技能，为未来在大数据领域工作打下坚实基础。

资源详情

资源推荐

在作业被

Cancel

时被删除

//ExternalizedCheckpointCleanup.DELETE_ON_CANCELLATION

：

true,

当作业被取消时，删

除外部的

checkpoint(

默认值

)

//ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION

：

false,

当作业被取消时，保

留外部的

checkpoint

env.getCheckpointConfig.enableExternalizedCheckpoints(ExternalizedCheckpointClean

up.RETAIN_ON_CANCELLATION)

//=================

建议必须设置的

===================

//=================

直接使用默认的即可

===============

设置

checkpoint

的执行模式为

EXACTLY_ONCE(

默认

注意

得需要外部支持

如

Source

和

Sink

的支持

env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)

设置

checkpoint

的超时时间

如果

Checkpoint

在

60s

内尚未完成说明该次

Checkpoint

失败

则丢弃。

env.getCheckpointConfig.setCheckpointTimeout(60000)//

默认

分钟

设置同一时间有多少个

checkpoint

可以同时执行

env.getCheckpointConfig.setMaxConcurrentCheckpoints(1)//

默认为

//=================

直接使用默认的即可

===============

//======================

配置重启策略

==============

//1.

如果配置了

Checkpoint,

而没有配置重启策略

那么代码中出现了非致命错误时

程序会无限

重启

//2.

配置无重启策略

//env.setRestartStrategy(RestartStrategies.noRestart())

//3.

固定延迟重启策略

开发中使用

如下

如果有异常

每隔

10s

重启

次

最多

次

env.setRestartStrategy(RestartStrategies.fixedDelayRestart(

3, //

最多重启

次数

org.apache.flink.api.common.time.Time.of(10, TimeUnit.SECONDS) //

重启时间间

隔

))

//4.

失败率重启策略

开发偶尔使用

如下

分钟内

最多重启

次

每次间隔

/*env.setRestartStrategy(RestartStrategies.failureRateRestart(

3, //

每个测量时间间隔最大失败次数

Time.of(5, TimeUnit.MINUTES), //

失败率测量的时间间隔

Time.of(10, TimeUnit.SECONDS) //

两次连续重启的时间间隔

))*/

//======================

配置重启策略

==============

//TODO 3.Source-Kafka

val topic: String = "pyg"

val schema = new SimpleStringSchema()

val props:Properties = new Properties()

props.setProperty(CommonClientConfigs.BOOTSTRAP_SERVERS_CONFIG,"node1:9092")

props.setProperty("group.id","flink")

props.setProperty("auto.offset.reset","latest")//

如果有记录偏移量从记录的位置开

始消费

如果没有从最新的数据开始消费

props.setProperty("flink.partition-discovery.interval-millis","5000")//

动态分

区检测

开一个后台线程每隔

检查

Kafka

的分区状态

val kafkaSource: FlinkKafkaConsumer[String] = new

剩余16页未读，继续阅读

王佛伟

粉丝: 21
资源: 319

Flink多语言实战：PyFlink与Scala开发电商日志分析

Flink学习1

实验8 Flink初级编程实践

项目2-Flink安装部署与快速入门1

PyPI 官网下载 | apache-flink-1.12.5.tar.gz

大数据三剑合一：Flink + Zeppelin + Airflow-Flink Forward Asia 2021.pdf

flink-example：flink的联系项目

Flink-Super:一套基于Scala开发的一套完整的Flink代码

flink-1.19.0-bin-scala-2.12.tgz flink-1.16.3-bin-scala-2.12.tgz

flink-sclas-demo:flink学习scala版

flink-samples:Flink样本

flink-study:flink学习和演示

Flink-开源

李呈祥-Apache Flink: The Next Big Thing?

Flink:Flink

flink-1.10.2-bin-scala_2.12.tgz

flink-1.14.4 安装包 scala 2.12

flink1.zip

Flink与TensorFlow融合：2017年Flink-Forward-SF会议亮点

最新资源