Spark on Yarn分布式集群搭建教程详解

需积分: 23 145 浏览量更新于2024-07-15 收藏 571KB DOCX 举报

本文档详细介绍了Spark On Yarn在完全分布式集群环境中的搭建过程，适用于大数据处理场景。整个搭建分为五个关键步骤： 1. **环境准备** - 软件和版本选择：文档推荐使用Java JDK 8u211、Scala 2.12.11、Zookeeper 3.4.7、Hadoop 2.7.7以及Spark 2.4.5版本，这些是构建Spark On Yarn的基础组件。 - 服务器架构：搭建涉及六台服务器，分别为Zookeeper、Hadoop（HDFS、Hadoop JN和Yarn）、和Spark集群，每种服务都有明确的角色划分，例如Zookeeper负责集群管理，Hadoop的HDFS和Yarn分别有主备节点，Spark集群也包含NodeManager和Spark Worker。 2. **Zookeeper集群搭建** - Zookeeper作为分布式系统协调服务，用于集群间通信和配置管理。首先在三台服务器上安装和配置Zookeeper。 3. **Hadoop集群搭建** - Hadoop包括HDFS（分布式文件系统）和YARN（资源调度器）的搭建。HDFS有两主三从节点，而YARN则有两主三从的资源管理器和NodeManager。Hadoop的配置需要考虑高可用性和负载均衡。 4. **Spark On Yarn搭建** - 在Hadoop集群基础上，文档讲解如何将Spark与YARN集成，Spark在Yarn模式下运行可以利用YARN的资源管理和调度，实现更高效的并行计算。 5. **集群启动与配置** - 提供了关于服务器设置的具体指导，如关闭防火墙（尽管这可能不是最佳实践，但为了简化搭建过程），并配置必要的网络和服务。最后，文章还提供了下载最新视频教程的百度网盘链接和提取码，以帮助读者更好地理解和实践Spark On Yarn的搭建过程。对于希望在大数据处理中利用Spark进行分布式计算的开发者或管理员来说，这是一个非常实用且详尽的指南。

2>配置环境变量

修改 001。

这个文件是每个用户登录时都会运行的环境变量设置，当用户第一次登录时，

该文件被执行。并从001 目录的配置文件中搜集 ! 的设置。

vim /etc/profile

在文件行尾加入以下内容后保存退出。

JAVA_HOME=/usr/local/java/jdk-8u211-linux-x64

Export PATH=$PATH:$JAVA_HOME/bin

4．安装 Scala

1>解压安装

上传解压 ，并更名，命令如下：

Cd /usr/local/

Mkdir scala

tar -zxvf  5 000

2>配置环境变量

修改001。

vim /etc/profile

配置示例：

剩余29页未读，继续阅读

qq_17499275

粉丝: 0
资源: 1

Spark on Yarn分布式集群搭建教程详解

Hadoop 2.9.0 YARN-site.xml核心属性详解与默认值

Spark on YARN集群模式搭建全攻略

Hadoop HA集群：yarn-site.xml配置详解与故障转移策略

Spark on Yarn模式部署.docx

基于Linux平台下的Hadoop和Spark集群搭建研究.docx

Sparkonyarn集群搭建详细过程.docx

Spark集群与应用.docx

spark搭建手册.docx

own_Spark-day01.docx

大数据平台搭建.docx

最新资源