开启 Hadoop 集群,在 yarn 上以 perjob 模式(即 Job 分 离 模 式 , 不 采 用 Session 模 式 ) 运 行$FLINK_HOME/examples/batch/WordCount.jar, 将运行结果最后
时间: 2024-09-12 11:02:00 浏览: 51
HadoopHA集群部署、YARNHA测试Job教学课件.pptx
开启Hadoop集群并以YARN上的perjob模式运行Flink作业大致可以分为以下步骤:
1. 启动Hadoop集群:确保Hadoop集群已经正确配置并且所有节点都处于运行状态。这通常涉及到启动NameNode和DataNodes等关键服务。
2. 配置YARN资源管理器:确保YARN的ResourceManager(通常位于NameNode上)正在运行,并且配置了足够的资源供Flink作业使用。
3. 设置Hadoop和YARN环境:在运行Flink作业的机器上配置Hadoop和YARN的环境变量,包括HADOOP_CONF_DIR和YARN_CONF_DIR,以便Flink可以找到Hadoop和YARN的配置文件。
4. 部署Flink环境:确保在运行作业的节点上已经部署了Flink,并且环境变量$FLINK_HOME正确指向Flink的安装目录。
5. 运行Flink作业:
使用`yarn-session.sh`脚本启动一个YARN Session是Flink的默认行为,但这不适用于perjob模式。在perjob模式下,你需要使用Flink的命令行工具直接提交作业。
下面是一个命令示例,用于启动WordCount作业:
```sh
$FLINK_HOME/bin/flink run -m yarn-cluster -p <parallelism> $FLINK_HOME/examples/batch/WordCount.jar
```
这里`-m yarn-cluster`指定运行模式为YARN集群模式,`-p <parallelism>`指定作业的并行度,`$FLINK_HOME/examples/batch/WordCount.jar`是作业的JAR包路径。
6. 监控作业执行:作业启动后,可以通过YARN的ResourceManager Web UI来监控作业的执行状态。
7. 查看作业结果:作业完成后,可以通过指定的输出目录来查看WordCount的结果。
阅读全文