Spark源码系列(一)源码系列(一)spark-submit提交作业过程提交作业过程
前言
折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。
这个是Spark的App运行图,它通过一个Driver来和集群通信,集群负责作业的分配。今天我要讲的是如何创建这个Driver
Program的过程。
作业提交方法以及参数
我们先看一下用Spark Submit提交的方法吧,下面是从官方上面摘抄的内容。
# Run on a Spark standalone cluster
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://207.184.161.138:7077 \
--executor-memory 20G \
--total-executor-cores 100 \
/path/to/examples.jar \
这个是提交到standalone集群的方式,打开spark-submit这文件,我们会发现它最后是调用了
org.apache.spark.deploy.SparkSubmit这个类。
我们直接进去看就行了,main函数就几行代码,太节省了。
def main(args: Array[String]) {
val appArgs = new SparkSubmitArguments(args)
val (childArgs, classpath, sysProps, mainClass) = createLaunchEnv(appArgs)
launch(childArgs, classpath, sysProps, mainClass, appArgs.verbose)
}
我们主要看看createLaunchEnv方法就可以了,launch是反射调用mainClass,精华全在createLaunchEnv里面了。
在里面我发现一些有用的信息,可能在官方文档上面都没有的,发出来大家瞅瞅。前面不带--的可以在spark-defaults.conf里
面设置,带--的直接在提交的时候指定,具体含义大家一看就懂。
评论0