spark-defaults.conf文件中的常用配置有那些,并给出模板
时间: 2023-05-28 10:02:20 浏览: 203
spark-defaults.conf文件中的常用配置如下:
1. master:设置Spark集群的主节点地址,例如local、yarn、mesos、spark://host:port等。
2. executor-memory:设置每个Executor进程的内存大小,例如512m、1g、2g等。
3. driver-memory:设置Driver进程的内存大小,例如512m、1g、2g等。
4. spark.driver.maxResultSize:设置Driver进程返回给用户的最大结果集大小,例如1g、2g等。
5. spark.executor.instances:设置Executor进程的数量,例如10、20等。
6. spark.serializer:设置序列化方式,例如org.apache.spark.serializer.KryoSerializer。
7. spark.shuffle.service.enabled:是否启用Shuffle服务,默认为true。
8. spark.sql.shuffle.partitions:设置Shuffle操作的分区数,默认为200。
9. spark.streaming.blockInterval:设置流式计算的时间间隔,例如1s、5s等。
10. spark.streaming.kafka.maxRatePerPartition:设置每个分区从Kafka读取数据的最大速率,例如1000。
模板:
# Spark Master
spark.master yarn
# Executor Memory
spark.executor.memory 1g
# Driver Memory
spark.driver.memory 1g
# Driver Max Result Size
spark.driver.maxResultSize 1g
# Executor Instances
spark.executor.instances 10
# Serializer
spark.serializer org.apache.spark.serializer.KryoSerializer
# Shuffle Service Enabled
spark.shuffle.service.enabled true
# Shuffle Partitions
spark.sql.shuffle.partitions 200
# Block Interval
spark.streaming.blockInterval 1s
# Kafka Max Rate Per Partition
spark.streaming.kafka.maxRatePerPartition 1000
阅读全文