通过yarn提交perjob的flink任务设置内存和cpu

时间: 2023-05-27 19:02:09 浏览: 290

yarn内存和CPU配置

### YARN内存与CPU配置详解 #### 一、引言 Apache Hadoop YARN（Yet Another Resource Negotiator）作为新一代的资源管理和任务调度框架，在大数据处理领域占据着重要的地位。YARN不仅支持内存资源的调度，还支持CPU资源的调度。合理地配置YARN中的内存和CPU参数对于提高系统的整体性能至关重要。本文将详细介绍如何配置YARN中的内存和CPU资源，以帮助读者更好地理解和优化这些配置。 #### 二、YARN资源管理基础在深入讨论配置之前，我们需要了解一些基本概念： - **Container**：YARN中资源分配的基本单位，它包含一定数量的内存和CPU资源。 - **ResourceManager (RM)**：集群级别的资源管理器，负责接收来自应用程序的资源请求，并根据当前可用资源分配Container。 - **NodeManager (NM)**：节点级别的服务，负责管理单个节点上的Container，并向ResourceManager报告节点的状态。 #### 三、内存配置在配置YARN的内存时，需要考虑以下几个方面： 1. **系统内存预留**：为了确保系统的稳定运行，需要保留一部分内存供操作系统和其他必要的服务使用。这部分内存称为系统内存预留。 - **系统内存预留计算**：一般来说，可以根据服务器内存大小参照以下表格来预留系统内存： | 内存大小(GiB) | 预留内存(GiB) | | --- | --- | | 4 | 1 | | 8 | 2 | | 16 | 2 | | 24 | 4 | | 48 | 6 | | 64 | 8 | | 72 | 8 | | 96 | 12 | | 128 | 24 | | 256 | 32 | | 512 | 64 | 2. **最大容器大小**：为了确保每个Container都有足够的内存资源，需要设定最小的容器大小。这可以通过以下方式计算得出： - `MIN_CONTAINER_SIZE =` 根据具体场景设置，默认值通常为256MB。 - `RAM-per-container = max(MIN_CONTAINER_SIZE, (TotalAvailableRAM) / containers)` - 其中，`TotalAvailableRAM` 是指系统总的可用内存，`containers` 是指单个节点上可以容纳的最大Container数量。 3. **最大Container数量**：单个节点上可以容纳的最大Container数量可以通过以下公式计算： - `containers = min(2 * CORES, 1.8 * DISKS, (TotalAvailableRAM - reserved) / MIN_CONTAINER_SIZE)` - 其中，`CORES` 表示CPU核心数，`DISKS` 表示磁盘数量，`reserved` 表示系统内存预留。 #### 四、CPU配置在配置YARN的CPU资源时，需要关注以下几点： 1. **CPU核心数**：YARN会根据节点上的CPU核心数来决定每个Container可以使用的CPU资源量。一般情况下，每个Container可以分配一个或多个CPU核心。 2. **Container数量与CPU核心数的比例**：根据经验，每两个Container使用一个CPU核心是比较合理的比例，这样可以在确保资源充分利用的同时减少竞争。 3. **磁盘与Container的关系**：通常情况下，建议每两个Container使用一块磁盘，这样可以在确保数据读写效率的同时避免过多的I/O冲突。 #### 五、示例分析假设我们有一台服务器，配置如下： - 内存：128GiB - CPU核心数：32个 - 磁盘数量：7个 - 系统内存预留：24GiB - 不使用HBase 根据上述配置，我们可以按照以下步骤进行计算： 1. **计算可用内存**： - `TotalAvailableRAM = 128 - 24 = 104 GiB` 2. **计算最大Container数量**： - `containers = min(2 * 32, 1.8 * 7, (104) / MIN_CONTAINER_SIZE)` - 假设 `MIN_CONTAINER_SIZE = 2 GiB` - `containers = min(64, 12.6, 52) = 13` 3. **计算每个Container的平均内存大小**： - `RAM-per-container = max(MIN_CONTAINER_SIZE, (104) / 13)` - `RAM-per-container = max(2, 8) = 8 GiB` #### 六、脚本实现为了简化计算过程，可以编写一个简单的Python脚本来自动化计算。以下是一个示例脚本： ```python #!/usr/bin/env python import optparse from pprint import pprint import logging import sys import math import ast # 定义预留内存 reserved_stack = { 4: 1, 8: 2, 16: 2, 24: 4, 48: 6, 64: 8, 72: 8, 96: 12, 128: 24, 256: 32, 512: 64 } def get_min_container_size(memory): if memory <= 4: return 256 elif memory <= 8: return 512 elif memory <= 24: return 1024 else: return 2048 def get_reserved_stack_memory(memory): if reserved_stack.get(memory): return reserved_stack[memory] if memory <= 4: ret = 1 elif memory >= 512: ret = 64 else: ret = 1 return ret def main(): log = logging.getLogger(__name__) out_hdlr = logging.StreamHandler(sys.stdout) out_hdlr.setFormatter(logging.Formatter('%(asctime)s %(levelname)s %(message)s')) log.addHandler(out_hdlr) log.setLevel(logging.INFO) parser = optparse.OptionParser() parser.add_option('-m', '--memory', help='Total memory in GB', default=128) parser.add_option('-c', '--cores', help='Number of cores', default=32) parser.add_option('-d', '--disks', help='Number of disks', default=7) options, args = parser.parse_args() # 获取输入参数 memory = int(options.memory) cores = int(options.cores) disks = int(options.disks) # 计算 reserved = get_reserved_stack_memory(memory) min_container_size = get_min_container_size(memory) total_available_ram = memory - reserved containers = min(2 * cores, 1.8 * disks, total_available_ram / min_container_size) ram_per_container = max(min_container_size, total_available_ram / containers) log.info(f"Total available RAM: {total_available_ram} GiB") log.info(f"Maximum number of containers: {containers}") log.info(f"RAM per container: {ram_per_container} GiB") if __name__ == '__main__': main() ``` 该脚本可以帮助快速计算出每个节点的最大Container数量以及每个Container的平均内存大小，从而简化配置过程。 #### 七、总结通过本文的介绍，我们了解到合理配置YARN的内存和CPU资源对于提升大数据处理系统的性能至关重要。正确地设定内存预留、计算最大Container数量及平均内存大小等参数，能够有效提高资源利用率，降低资源浪费，最终达到优化系统性能的目的。希望本文能为读者提供有价值的指导和帮助。

在使用yarn提交perjob的flink任务时，可以通过以下方式设置内存和CPU： 1. 通过--yarn-properties参数设置yarn的参数。示例命令： ``` yarn per-job -m 4g -yD yarn.app.mapreduce.am.resource.cpu-vcores=2 -yD yarn.app.mapreduce.am.resource.memory-mb=4096 ``` 上述命令设置了flink任务的内存为4G，yarn的CPU核心数为2，yarn的内存为4096M。可以根据实际需要进行修改。 2. 通过flink-conf.yaml文件设置flink的参数。示例内容： ``` jobmanager.memory.process.size: 1024m taskmanager.memory.process.size: 2048m ``` 上述设置将jobmanager的内存设置为1G，taskmanager的内存设置为2G。可以根据实际需要进行修改。注意：以上两种方式只能选择其中一种进行设置，否则会出现参数冲突的问题。

阅读全文

通过yarn提交perjob的flink任务设置内存和cpu

相关推荐

flink-spark-submiter:从本地IDEA提交FlinkSpark任务到Yarnk8s集群

yarn-flink-examples

flink on yarn 模式下，flink 1.12.5版本运行所需完整lib包

使用脚本实现hadoop-yarn-flink自动化部署

一文搞定Yarn kill spark或flink container的原因

Flink内存模型详解：YARN配置与内存结构剖析

YARN内存与CPU配置指南

Hadoop YARN中MapReduce内存与CPU调度优化策略详解

flink提交任务到yarn命令

flink服务的指标 和flink on yarn 中的flink的指标 有哪些相似的地方

Yarn上找不到flink提交的任务

flink yarn session 重启恢复任务

flink yarn

yarn flink java

flink的yarn模式的任务调度流程

FLink yarn模式

flink yarn模式部署

开启 Hadoop 集群，在 yarn 上以 perjob 模式（即 Job 分 离 模 式 ， 不 采 用 Session 模 式 ） 运 行$FLINK_HOME/examples/batch/WordCount.jar， 将运行结果最后

请说出Flink On Yarn的作业完整提交流程

最新推荐

Yarn 内存分配管理机制及相关参数配置.

Cloudera的yarn任务监控api

Flink实用教程_预览版_v1.pdf

Flink基础讲义.docx

深入了解Django框架：Python中的网站开发利器

管理建模和仿真的文件

Thermo-calc中文版：预测材料热膨胀行为的精确科学

5.1输出一个整数的逆序数

Spring Boot集成框架示例：深入理解与实践

"互动学习：行动中的多样性与论文攻读经历"

flink服务的指标和flink on yarn 中的flink的指标有哪些相似的地方

开启 Hadoop 集群，在 yarn 上以 perjob 模式（即 Job 分离模式，不采用 Session 模式）运行$FLINK_HOME/examples/batch/WordCount.jar，将运行结果最后