spark | 记录下spark作业执行时常见的参数属性配置
时间: 2023-04-25 13:01:15 浏览: 97
1. spark.driver.memory:指定Driver进程的内存大小,默认为1g。
2. spark.executor.memory:指定每个Executor进程的内存大小,默认为1g。
3. spark.executor.cores:指定每个Executor进程的CPU核数,默认为1。
4. spark.executor.instances:指定Executor进程的数量,默认为2。
5. spark.default.parallelism:指定RDD的默认并行度,默认为CPU核数。
6. spark.sql.shuffle.partitions:指定Shuffle操作的并行度,默认为200。
7. spark.serializer:指定序列化方式,默认为Java序列化。
8. spark.shuffle.compress:指定Shuffle操作是否压缩,默认为true。
9. spark.shuffle.spill.compress:指定Shuffle溢写是否压缩,默认为true。
10. spark.shuffle.file.buffer:指定Shuffle写入磁盘的缓冲区大小,默认为32k。
11. spark.reducer.maxSizeInFlight:指定Reducer端每个任务接收的最大数据量,默认为48m。
12. spark.shuffle.io.maxRetries:指定Shuffle读写操作的最大重试次数,默认为3。
13. spark.shuffle.io.retryWait:指定Shuffle读写操作的重试等待时间,默认为5s。
14. spark.network.timeout:指定网络超时时间,默认为120s。
15. spark.task.maxFailures:指定任务最大失败次数,默认为4。
阅读全文