掌握Spark-submit：部署与应用提交指南

Spark-submit

需积分: 9 84 浏览量更新于2024-07-19 收藏 1.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Spark-submit是Apache Spark项目中的一个重要组件，用于在集群上提交、管理和监控Spark应用程序的执行。它允许用户轻松地在Hadoop分布式文件系统（HDFS）上运行大规模的数据处理任务，无需详细了解底层的集群配置和调度。本篇内容主要涵盖以下几个关键知识点： 1. **创建Spark应用**：学习如何编写一个Spark应用程序，包括基础的Scala或Python代码，如Spark WordCount示例，这通常是使用Scala的`SparkContext`对象进行操作。 2. **部署模式（Deploy Mode）**： Spark-submit支持两种部署模式：local和cluster。local模式是在本地机器上运行，而cluster模式则利用Hadoop YARN或Mesos等资源管理器在集群上并行执行。了解不同模式下的配置和适用场景是十分重要的。 3. **提交应用程序**：学习如何通过命令行工具`spark-submit`提交应用程序，这个过程涉及到提供必要的参数，如主类路径、JAR包、应用配置文件等。链接`http://spark.apache.org/docs/latest/submitting-applications.html#launching-applications-with-spark-submit`提供了详细的指南。 4. **可选参数配置**：包括设置作业的资源限制（如内存、CPU）、日志级别、监控选项等，这些配置可以帮助优化应用程序的性能和资源利用率。 5. **HDP和Sandbox环境**：如果在HDP（Hortonworks Data Platform）环境中使用，可能还需要理解Hortonworks的特定接口和配置，如`http://sandbox.hortonworks.com:18080/history/application_1492949290794_0019/2/stages/`所示的HDP作业历史查看。 6. **Spark shell与OpenZeppelin**：提及了OpenZeppelin作为一个交互式环境，可以结合Spark-submit来运行脚本或者进行数据探索，这对于数据分析和机器学习场景尤其有用。 7. **脚本打包**：如何将应用程序的依赖项（如库、数据文件）打包成一个可执行的jar或egg，以便于在不同的环境中部署。 8. **脚本结构**：分析了Scala或Python脚本的基本结构，包括导入所需的Spark库、设置入口点（`if_name_=”_main_”:`）、处理条件语句、创建SparkContext以及编写主逻辑代码。 9. **示例：WordCount Script in Scala/Python**：通过具体的WordCount示例展示了如何在Scala或Python中编写和提交这样的应用程序，帮助读者深入理解Spark-submit的工作原理。通过学习和实践Spark-submit，开发者可以有效地将复杂的数据处理任务分解为易于管理的小任务，充分利用大数据处理平台的强大功能。掌握这些技能对于在实际生产环境中部署和管理Spark应用至关重要。

资源详情

资源推荐

Hadoop Decoded – Spark Project

Page 9

spark-submit arguments

Some of the commonly used arguments are:

--class: The entry point for your application (e.g. org.apache.spark.examples.SparkPi)

--master: Resource Manger which to use (e.g. spark://23.195.26.187:7077)

--deploy-mode: Whether to deploy your Driver: If want on the Worker node (cluster) or locally as an

external client (client) (default: client) *

--conf: Arbitrary Spark configuration property in key=value format. For values that contain

spaces wrap “key=value” in quotes (as shown).

application-jar: Path to a bundled jar including your application and all dependencies. The URL

must be globally visible inside of your cluster, for instance, an hdfs:// path or a file

path that is present on all nodes.

application-arguments: Arguments passed to the main method of your main class, if any

Generic syntax:

spark-submit [arguments] <app jar | python file> [app arguments]

To see all arguments, run: spark-submit --help

剩余52页未读，继续阅读

li12345bukeneng

粉丝: 0
资源: 14

掌握Spark-submit：部署与应用提交指南

Spark实验：Standalone模式安装部署（带答案）1

sparkstreaming.zip

Spark源码系列（一）spark-submit提交作业过程

spark-submit提交spark-examples位置

【spark源码】spark-submit和spark-class

spark之spark任务的提交方式【spark-shell、spark-submit】

spark-submit提交

./spark-submit概述

spark-submit 提交指定executor-memory

spark中spark-submit用法

spark-submit：未找到命令

-bash: spark-submit: command not found

第1关：spark-submit提交

spark-submit学习

liunx 定时任务脚本调用spark-submit

spark-submit scala

那项目构建完成后，如何调试spark-submit任务提交过程

spark-submit 命令使用详解

pyspark入门 | spark-submit 提交pyspark任务

spark-submit程序

最新资源