首页开启 Hadoop 集群，在 yarn 上以 perjob 模式（即 Job 分离模式，不采用 Session 模式）运行$FLINK_HOME/examples/batch/WordCount.jar，将运行结果最后

开启 Hadoop 集群，在 yarn 上以 perjob 模式（即 Job 分离模式，不采用 Session 模式）运行$FLINK_HOME/examples/batch/WordCount.jar，将运行结果最后

时间: 2024-09-12 18:02:00 浏览: 57

【Flink篇02】Flink部署1

（1）修改 flink/conf/flink-conf.yaml 文件（3）分发给另外两台机子（4）启动（5）访问Web界面（6）任务提交到集群（2）

开启Hadoop集群并以YARN上的perjob模式运行Flink作业大致可以分为以下步骤： 1. 启动Hadoop集群：确保Hadoop集群已经正确配置并且所有节点都处于运行状态。这通常涉及到启动NameNode和DataNodes等关键服务。 2. 配置YARN资源管理器：确保YARN的ResourceManager（通常位于NameNode上）正在运行，并且配置了足够的资源供Flink作业使用。 3. 设置Hadoop和YARN环境：在运行Flink作业的机器上配置Hadoop和YARN的环境变量，包括HADOOP_CONF_DIR和YARN_CONF_DIR，以便Flink可以找到Hadoop和YARN的配置文件。 4. 部署Flink环境：确保在运行作业的节点上已经部署了Flink，并且环境变量$FLINK_HOME正确指向Flink的安装目录。 5. 运行Flink作业：使用`yarn-session.sh`脚本启动一个YARN Session是Flink的默认行为，但这不适用于perjob模式。在perjob模式下，你需要使用Flink的命令行工具直接提交作业。下面是一个命令示例，用于启动WordCount作业： ```sh $FLINK_HOME/bin/flink run -m yarn-cluster -p <parallelism> $FLINK_HOME/examples/batch/WordCount.jar ``` 这里`-m yarn-cluster`指定运行模式为YARN集群模式，`-p <parallelism>`指定作业的并行度，`$FLINK_HOME/examples/batch/WordCount.jar`是作业的JAR包路径。 6. 监控作业执行：作业启动后，可以通过YARN的ResourceManager Web UI来监控作业的执行状态。 7. 查看作业结果：作业完成后，可以通过指定的输出目录来查看WordCount的结果。

阅读全文