第1关:spark-submit提交解析

时间: 2023-10-27 14:14:57 浏览: 288

Spark源码系列（一）spark-submit提交作业过程

Spark-submit是Spark自带的提交脚本，用于将Spark应用程序提交到集群中运行。Spark-submit可以将应用程序打包成一个JAR包并提交到集群中运行，也可以直接提交一个Python文件或者一个Scala文件。使用Spark-submit提交应用程序时，需要指定以下参数： 1. --class：指定主类名，如果是Java应用程序，需要指定该参数；如果是Scala应用程序，可以省略该参数，Spark-submit会自动查找Scala文件中的main函数。 2. --master：指定运行模式，可以是local、yarn、mesos等。 3. --deploy-mode：指定部署模式，可以是client或者cluster，如果是client模式，则Driver运行在提交任务的机器上；如果是cluster模式，则Driver运行在集群中的某个节点上。 4. --executor-memory：指定Executor的内存大小。 5. --total-executor-cores：指定Executor的总核数。 6. --num-executors：指定Executor的个数。 7. 应用程序的JAR包路径或者Python/Scala文件路径。例如，使用Spark-submit提交一个Java应用程序，命令如下： ``` ./bin/spark-submit --class com.spark.example.WordCount --master yarn --deploy-mode client --executor-memory 2g --total-executor-cores 4 --num-executors 2 /path/to/WordCount.jar /path/to/input /path/to/output ``` 其中，--class指定了Java应用程序的主类名为com.spark.example.WordCount，--master指定了运行模式为yarn，--deploy-mode指定了部署模式为client，--executor-memory指定了每个Executor的内存大小为2g，--total-executor-cores指定了Executor总核数为4，--num-executors指定了Executor的个数为2，最后两个参数为输入和输出路径。

阅读全文

第1关:spark-submit提交 解析

相关推荐

Spark-submit

spark-3.2.0-bin-hadoop3-without-hive

Spark YarnCluster 模式源码解析：Executor 向 Driver 注册

机器学习与大数据：spark集群的机器学习应用

Spark on YARN 实现深度解析

"深入解析Spark原理及源码：通用的流程与内核组件运行机制

在Spark集群模式下实现driver-class-path对HDFS路径的支持

探索Spark编程模型：RDD与应用程序架构

Hadoop与YARN：资源管理演进全解析及安全漏洞防范

从零开始打造Java定时任务框架： ScheduledExecutorService扩展应用全解析

【Hadoop任务提交秘密】：ResourceManager与客户端交互深入解析

Apache Storm入门指南：概念与架构解析

MapReduce工作原理揭秘：WordCount案例深度解析与实践

在本地环境搭建Spark：入门指南

分治算法在大数据处理中的应用：Java实战案例解析

Spark基础教程：快速大数据处理与分析

Apache Spark快速入门：从原理到实践的完整路径

揭秘Python文件遍历：从基础到高级的全面解析

最新推荐

实验七：Spark初级编程实践

Spark-Sql源码解析

基于springboot教育资源共享平台源码数据库文档.zip

全国江河水系图层shp文件包下载

管理建模和仿真的文件

Keras模型压缩与优化：减小模型尺寸与提升推理速度

MTK 6229 BB芯片在手机中有哪些核心功能，OTG支持、Wi-Fi支持和RTC晶振是如何实现的？

点云二值化测试数据集的详细解读

"互动学习：行动中的多样性与论文攻读经历"

Keras正则化技术应用：L1_L2与Dropout的深入理解

第1关:spark-submit提交解析