cdh部署flink on yarn
时间: 2023-09-29 20:00:41 浏览: 139
cdh6.3.1 FLINK_ON_YARN-1.14.0.jar
CDH是一种大数据处理平台,而Flink是一种流处理框架,这里讲述了如何使用CDH平台来部署Flink在YARN上。
首先,将Flink的二进制文件下载到CDH集群的一个节点上。然后,在Flink的conf目录中,编辑flink-conf.yaml配置文件。在该文件中,需要确保以下配置项正确设置:
1. flink.yarn.execution-mode: 设置为yarn-session,表示将Flink作为YARN上的一个会话运行。
2. yarn.application.name: 设置一个适当的名称,用于在YARN资源管理器中显示。
3. yarn.queue: 设置为YARN调度队列的名称,以确定Flink的调度优先级。
4. yarn.container.memory-mb: 设置每个Flink任务容器(TaskManager)的内存大小,以MB为单位。
5. yarn.container.vcores: 设置每个Flink任务容器(TaskManager)的虚拟内核数。
接下来,在CDH集群上启动一个YARN会话来运行Flink。输入以下命令:
```
./bin/yarn-session.sh -n <number_of_taskmanagers>
```
其中,`<number_of_taskmanagers>`表示要启动的Flink任务管理器(TaskManager)的数量。这将创建一个YARN应用程序,运行Flink并分配所需的资源。
一旦Flink会话在YARN上成功启动,就可以通过Web界面或Flink命令行工具来监控和管理任务。
需要注意的是,在CDH上部署Flink时,确保所使用的Flink版本与CDH版本兼容。此外,在配置Flume、Kafka等外部数据源时,也要根据具体需求进行相应的配置。
总结来说,通过正确配置Flink的运行模式、资源分配和调度优先级,然后在CDH集群上启动Flink的YARN会话,即可实现Flink在YARN上的部署。这样可以充分利用CDH平台的资源管理和任务调度功能,来处理大规模的流数据。
阅读全文