Spark on YARN集群部署指南

版权申诉

spark

37 浏览量更新于2024-08-24 收藏 471KB DOCX 举报

身份认证购VIP最低享 7 折!

30元优惠券

"Spark集群部署文档，主要涵盖了Spark在Standalone、Mesos和YARN三种部署模式中的使用，重点讲述了在Hadoop YARN模式下的部署。文档还提到了相关软件版本，如VirtualBox、CentOS、Windows、Spark、XShell和FileZilla，并列出了操作步骤，包括下载Spark、安装和配置等环节。" 在Spark的部署中，有三种常见的集群模式：Standalone、Mesos和YARN。Standalone模式是Spark自带的集群管理器，适合在没有其他资源管理框架的环境中快速搭建集群。Mesos则是一个通用的分布式资源管理框架，可以支持多种计算框架，但在此文档中并未详述其部署方法。YARN（Hadoop Yet Another Resource Negotiator）模式是Hadoop的资源调度器，能够统一管理集群资源，支持多种计算框架，如MapReduce和Storm。文档指出，实际生产环境中，大多数采用的是Hadoop YARN作为集群管理器，因此重点讲解了在YARN上的Spark部署。在这种模式下，Spark程序作为客户端提交到YARN运行，无需单独部署Spark集群。只需在Hadoop的Master节点上部署Spark，即可利用YARN的资源进行任务调度。在部署过程中，首先需要从Spark官网下载对应版本的Spark，考虑到与已部署的Hadoop CDH5.7（hadoop2.6）兼容性，可能需要下载源码并重新编译。然后，通过SFTP工具将Spark安装包上传到Master节点，使用`tar`命令解压缩到指定目录。接着，进入Spark的配置文件夹`conf`，编辑`spark-env.sh`文件，对环境变量进行必要的设置，以适应集群环境。在配置阶段，可能需要调整的参数包括但不限于`SPARK_MASTER_IP`（Spark Master的IP地址）、`HADOOP_CONF_DIR`（指向Hadoop配置文件的路径）以及JVM相关的内存设置（如`SPARK_EXECUTOR_MEMORY`和`SPARK_DRIVER_MEMORY`）。确保这些配置符合集群的硬件资源和性能需求。完成配置后，启动Spark Master和Worker节点，通常通过执行脚本`start-all.sh`或`start-master.sh`、`start-slave.sh`来启动服务。然后，就可以在YARN上提交Spark应用程序，利用YARN的资源管理和调度功能执行Spark作业。 Spark在YARN上的部署涉及下载、安装、配置和启动等多个步骤，需要理解不同部署模式的特点，根据实际环境调整配置，确保Spark能有效地与YARN集成，实现高效的数据处理。

资源详情

资源推荐

Spark 集群部署

1、背景知识

Spark 有 3 种集群部署模式,分别是 Standalone、Mesos 和 YARN，这 3 种模式都属于

master/slave 模式。

1. Standalone 独立模式，Spark 原生的简单集群管理器，自带完整的服务，可单独

部署到一个集群中，无需依赖任何其他资源管理系统，使用 Standalone 可以很方

便地搭建一个集群，一般在公司内部没有搭建其他资源管理框架的时候才会使用。

2. Mesos 模式，一个强大的分布式资源管理框架，它允许多种不同的框架部署在其

上，包括 yarn，由于 mesos 这种方式目前应用的比较少，这里没有记录 mesos 的

部署方式。

3. YARN 模式：统一的资源管理机制，在上面可以运行多套计算框架，如 map

reduce、storm 等，根据 driver 在集群中的位置不同，分为 yarn client 和 yarn

cluster。

由于在实际工厂环境下使用的绝大多数的集群管理器是 Hadoop YARN，因此我们

关注的重点是 Hadoop YARN 模式下的 Spark 集群部署。

2、使用软件及其版本

• 环境

– 虚拟机:VirtualBox 6.0.24 r139119

– Linux:CentOS 7

– Windows:Windows10

• 软件

– Spark

• 工具

– 远程连接工具:XShell6

– SFTP 工具:FileZilla3.33.0

3、目标

• Spark 集群部署

4、操作步骤

1. 下载 Spark

在 Spark 官网`http://spark.apache.org/downloads.html,下载 spark。

由于前面使用的 hadoop 是 hadoop2.6 的 cdh5.7 版本，官网并没有直接提供，只能

在官网下载二进制的版本，进行重新编译

下载后可阅读完整内容，剩余5页未读，立即下载

㫪旧

粉丝: 20
资源: 5

Spark on YARN集群部署指南

spark集群部署及入门.docx

大数据管理与监控：Ambari：Spark集群部署与监控.docx

两个docx文档，1.docx和2.docx，需要将1.docx文档中的页眉页脚复制到2.docx，用java编写，使用开源jar包，比如poi，poi-tl，docx4j等等，请注意验证你提供的代码中的方法，麻烦给我源码。

.docx文件在vscode打开后。.docx文件发生了错误

使用python将xx文件夹下的.sv文件复制到mode.docx文件并另存为.sv文件名的.docx文件

将每个子文件夹里的.docx文件都合成一个.docx文件

两个docx文档，1.docx和2.docx，需要将1.docx文档中的页眉页脚同步到2.docx，用java编写，使用开源jar包，比如poi，poi-tl，docx4j等等，麻烦给我源码

将xx文件夹下的每个子文件夹里的.docx文件都合成一个.docx文件

"linkUrl ": [ {label: "avue文档.docx", value: "http://59.219.204.221:2015/vingsoft/upload/20230721/d70856f4050948bd2de3d01a7014dd76.docx"}, {label: "avue文档.docx", value: "http://59.219.204.221:2015/vingsoft/upload/20230721/d70856f4050948bd2de3d01a7014dd76.docx"}, ] 遍历这个数组

使用python编写代码将一个文件夹下的所有子文件夹下的.sv文件按照文件名称为model.docx的文件格式转化为与.sv同名的.docx的文件，页眉写上该.SV文件的名称

在vs code里怎么打开.docx文件

接口文档示例.docx

Java中D:\2\00\00\02测试2.docx转换成D:/2/00/00/02测试2.docx

raise PackageNotFoundError( docx.opc.exceptions.PackageNotFoundError: Package not found at 'example.docx'

接着上面的回答，在使用putdocx myreg.docx, replace时报错unknown subcommand myreg.docx

使用python去除xxwe文件夹及其子文件夹下的.docx文件中的空行

最新资源