spark on yarn 配置具体步骤
时间: 2023-10-24 21:37:37 浏览: 137
配置Spark on YARN的具体步骤如下:
1. 确认集群环境:检查所有节点上的Java和Hadoop版本是否兼容,并确保每个节点都可以透过SSH访问其他节点。
2. 安装Spark:在每个节点上安装Spark,并确保配置文件路径相同。
3. 配置Spark运行环境:在每个节点上创建一个类似于“/usr/local/spark/conf/spark-env.sh”的配置文件,并设置相关环境变量。其中,SPARK_HOME必须指向Spark安装目录,JAVA_HOME必须指向JDK安装目录,HADOOP_CONF_DIR必须指向Hadoop配置目录。
4. 配置YARN:在每个节点上创建一个类似于“/usr/local/hadoop/etc/hadoop/yarn-site.xml”的配置文件,并设置以下属性:
a. yarn.resourcemanager.hostname:指定YARN的主机名。
b. yarn.nodemanager.aux-services:指定YARN NodeManager的辅助服务类别,例如“mapreduce_shuffle”。
c. yarn.nodemanager.aux-services.mapreduce.shuffle.class:指定YARN NodeManager的特定辅助服务的实现类。
5. 提交应用程序:准备Spark应用程序的jar包,并使用命令行工具在YARN上提交它。首先运行“spark-submit”命令,然后提供Spark应用程序的jar包、主函数类、应用程序参数和其他选项(例如,--master yarn)。
完成以上步骤后,Spark应用程序就可以在YARN上运行了。
阅读全文