Spark on Yarn集群详细搭建指南

需积分: 49 156 浏览量更新于2024-09-08 收藏 572KB DOCX 举报

"Spark on Yarn集群搭建手册旨在详述如何在Yarn上构建Spark集群，以优化大数据处理。本文档适用于对Spark和Hadoop有基础认知的学习者，特别是使用Ubuntu 16.04 LTS和CentOS 7操作系统的环境。搭建过程中涉及的主要软件版本包括Scala 2.10.6、Hadoop 2.7.2、Spark 1.6.1-bin-hadoop2.6以及Java 1.8.0_77。硬件环境包括一个Master节点和两个Slave节点，具有相似的配置。" Spark on Yarn集群的搭建流程： 1. **软件环境准备**：在所有节点上安装相同版本的软件，包括Ubuntu或CentOS操作系统、Scala、Hadoop、Spark以及Java。确保所有软件版本与Hadoop的版本兼容，因为Spark需要与Hadoop共同运行。 2. **配置hosts文件**：更新每台机器的`/etc/hosts`文件，添加所有节点的IP地址和主机名映射。这有助于集群内的节点间通信。如果配置错误，可能导致集群启动失败。 3. **设置SSH免密码登录**：安装SSH服务器（如OpenSSH）并在所有节点上生成SSH密钥对。通过`ssh-keygen -t rsa`命令生成公钥和私钥，然后使用`scp`命令将公钥传输到Master节点。在Master节点上，将所有节点的公钥合并到`~/.ssh/authorized_keys`文件中，以便无需密码即可在节点间进行SSH访问。 4. **安装Hadoop**：首先安装Hadoop并配置HDFS和YARN。在所有节点上配置`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`和`mapred-site.xml`等配置文件。这些配置文件会定义Hadoop集群的存储和计算策略。 5. **配置Spark**：下载Spark并解压到指定目录。修改Spark的配置文件`spark-defaults.conf`，设置`spark.master`为`yarn-client`或`yarn-cluster`，表明Spark将运行在Yarn之上。同时，根据Hadoop的安装路径调整`spark.yarn.jar`等参数。 6. **启动和验证**：启动Hadoop的NameNode、DataNode、ResourceManager和NodeManager服务。然后，在Spark的bin目录下，使用`spark-submit`命令提交一个简单的Spark程序，测试Spark on Yarn集群是否正常运行。 7. **监控和维护**：通过Hadoop的Web UI监控HDFS和YARN的状态，通过Spark的Web UI监控Spark作业的执行情况。定期检查日志文件，以确保没有错误或警告信息。 8. **故障排查**：如果遇到问题，首先检查配置文件是否有误，如hosts文件、SSH设置、Hadoop和Spark的配置。其次，查看日志文件定位错误，根据错误信息进行相应的解决。在实践中，搭建Spark on Yarn集群可能需要根据具体环境和需求进行调整。理解每个组件的作用和配置选项是成功部署的关键。此外，保持软件更新和安全是运维中的重要环节，定期升级和修补漏洞能确保集群的稳定性和安全性。

<4$4#(>??<4$4$#1(9

8 将公钥文件 $#1(9 分发给每台 &

<4$4$#1(956.56 =<4$4

,8 在每台机子上验证 " 无密码登录

在终端中输入登录命令，例如：$56.56 如果直接登录成

功而不需要登录密码，则表示设置正确；如果登录不成功，即仍然需要登录密

码，则可能需要修改文件 $#1(9 的权限。

注：$文件夹的权限必须为 ，$#1(9 文件权限必须为



使用如下命令改变文件夹权限：$3<4$4$#1(9

二、安装 Java

从官网下载最新版 %&， 官方说明 %&只要是  以上的版本都

可以，本文使用的是 @ '/ #A A61。

在下载目录下直接解压  1&5@ '/ #A A61 并复制文件

到44#4@&3 中，命令如下：

 @'(44#4@&37如果没有 @&3 文件夹，则手动创建一个8，修

改环境变量 &#3445#，添加下列内容：

A%BCB("DE44#4@&34@'(

A%FD("DEG%BCB("D4@

A-B"EG%BCB("D4#=G%BCB("D4@4#=G-B"

AB-B"EGB-B"==G%BCB("D4#=G%BCB("D4@4#

然后使环境变量生效，并验证 %&是否安装成功

剩余10页未读，继续阅读

Nonowiwi

粉丝: 1
资源: 2

Spark on Yarn集群详细搭建指南

Spark on Yarn分布式集群搭建教程详解

Spark on YARN集群模式搭建全攻略

Spark on YARN集群部署指南

Sparkonyarn集群搭建详细过程.pdf

Sparkonyarn集群搭建详细过程.docx

Spark-on-yarn-Installation-Manual:Spark on yarn 丛集安装手册

spark on yarn 集群部署

spark on yarn的搭建步骤

Spark环境搭建——on yarn集群模式

Docker+Spark-on-Yarn集群搭建与可视化教程

最新资源