Spark实验:On Yarn模式安装部署(带答案)1
Spark on Yarn是一种将Spark应用程序部署在Hadoop YARN资源管理器上的方法,它允许Spark充分利用YARN的资源管理和调度功能。在这个实验中,我们将详细探讨如何在Yarn模式下安装和部署Spark集群。 我们需要准备实验环境,这里包括三台虚拟机,操作系统为CentOS 7.5,Hadoop版本为2.7.3,Spark版本为2.1.1。这些版本的兼容性对于实验的成功至关重要。 实验的步骤如下: 1. **解压Spark安装包**:在master节点上,将下载的Spark压缩包解压到指定目录,并检查解压后的文件结构,确保所有必需的文件都在其中。 2. **配置环境变量**:在master节点中,我们需要更新`.bash_profile`文件,添加Hadoop、HDFS和YARN的配置文件路径。这样,每次启动shell时,系统都能正确识别这些组件的位置。 3. **配置yarn-site.xml**:为了防止YARN因内存限制而终止Spark任务,我们需要在`yarn-site.xml`中取消内存检查。这可以通过设置两个属性`yarn.nodemanager.pmem-check-enabled`和`yarn.nodemanager.vmem-check-enabled`为`false`来实现。这个改动需要在master节点以及所有slave节点上执行,可以通过复制文件来同步配置。 4. **启动Hadoop集群**:启动Hadoop的所有服务,包括NameNode、SecondaryNameNode、ResourceManager等,并在所有DataNode和NodeManager上确认它们已经启动。使用`jps`命令可以快速查看进程状态。 5. **提交Spark应用**:在master节点上,使用`spark-submit`命令提交一个示例应用,如SparkPi,指定运行在Yarn上,提供jar包路径,以及应用的主类和参数。将应用输出重定向到本地文件以便查看结果。 6. **监控Yarn Resource Manager**:通过访问YARN Resource Manager的Web界面(默认地址为http://master:18088),可以查看集群的状态和正在运行的应用信息,确保Spark应用正常运行。 在这个过程中,还需要掌握一些基本的Linux命令,例如解压文件、编辑文本文件、启动服务和查看进程状态等。同时,理解Hadoop和Spark的配置文件是至关重要的,因为它们决定了系统的行为和性能。 总结来说,Spark on Yarn的安装部署涉及到多个环节,包括环境配置、资源管理器的设置、集群启动以及应用的提交和监控。每个步骤都需要仔细操作,以确保Spark能够有效地在Hadoop集群上运行。通过这个实验,不仅可以学习到Spark与Hadoop的集成,还能加深对分布式计算环境的理解。