spark on yarn环境配置
时间: 2023-09-05 14:13:51 浏览: 129
在配置 Spark on YARN 环境之前,你需要确保以下条件已经满足:
1. 安装了 Hadoop 分布式文件系统和 YARN(Yet Another Resource Negotiator)资源管理器。
2. 下载和安装了 Spark。
接下来,你需要按照以下步骤配置 Spark on YARN 环境:
1. 在 Spark 安装目录中,找到 `conf` 目录并复制 `spark-env.sh.template` 文件并将其命名为 `spark-env.sh`。
2. 打开 `spark-env.sh` 文件并添加以下内容:
```bash
export HADOOP_CONF_DIR=/path/to/hadoop/conf
export YARN_CONF_DIR=/path/to/hadoop/conf
export SPARK_EXECUTOR_MEMORY=1g
export SPARK_DRIVER_MEMORY=1g
export SPARK_YARN_APP_NAME=Spark
export SPARK_HOME=/path/to/spark
```
其中,`/path/to/hadoop/conf` 是你的 Hadoop 配置文件的路径,`/path/to/spark` 是你的 Spark 安装路径,`SPARK_EXECUTOR_MEMORY` 和 `SPARK_DRIVER_MEMORY` 分别设置了 Spark executor 和 driver 的内存大小,`SPARK_YARN_APP_NAME` 是 Spark 在 YARN 上的应用名称。
3. 配置 Spark 的运行模式。在 `conf` 目录下找到 `spark-defaults.conf` 文件,并将以下内容添加到文件末尾:
```bash
spark.master yarn
spark.submit.deployMode client
spark.driver.extraJavaOptions -Dhdp.version=2.7.3.2.6.0.3-8
spark.yarn.am.extraJavaOptions -Dhdp.version=2.7.3.2.6.0.3-8
spark.executor.extraJavaOptions -Dhdp.version=2.7.3.2.6.0.3-8
```
`spark.master yarn` 表示 Spark 运行在 YARN 上,`spark.submit.deployMode client` 表示 Spark 运行在客户端模式下。
4. 启动 Spark on YARN。在 Spark 安装目录中运行以下命令:
```bash
./bin/spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
--executor-memory 1g \
--num-executors 2 \
--driver-memory 1g \
--executor-cores 1 \
--queue default \
examples/jars/spark-examples_2.11-2.4.5.jar 10
```
这会启动一个 Spark 应用程序,并在 YARN 上分配 2 个执行器,并使用 1GB 的内存。
配置完成后,你可以在 Spark on YARN 上运行 Spark 应用程序了。
阅读全文