大数据期末考试重点:Spark组件与配置

版权申诉
5星 · 超过95%的资源 1 下载量 116 浏览量 更新于2024-09-03 收藏 18KB PDF 举报
"大数据处理期末考试题库.pdf" 本题库主要涵盖了Spark的相关知识,包括Spark的组件、配置、版本特性、调度模式、运行模式、RDD(弹性分布式数据集)的特性和操作,以及Spark的分布式部署方式等核心概念。以下是详细解析: 1. Spark的四大组件包括Spark Streaming、MLlib、GraphX和Spark SQL,选项D BMlib 不是其中之一。 2. Spark自带的服务端口有8080(Web UI)、4040(Application UI),而8090不是Spark默认的端口。 3. Spark 1.4版本的最大变化是引入了SparkR,一个用于R语言的Spark接口。 4. Spark Job的默认调度模式是FIFO(先进先出)。 5. 在本地模式运行Spark,需要设置`spark.localExecution.enabled=true`,显式指定本地运行,并且final Stage无父Stage。选项D partition默认值不是本地模式运行的条件。 6. RDD(弹性分布式数据集)的特点包括可分区、可序列化和可持久化,但不可修改。 7. 广播变量是只读的,存储在各个节点上,但不会存储在磁盘或HDFS。 8. 累加器支持加法操作,支持数值类型,且在并行环境中使用,但不支持自定义类型。 9. Spark支持的分布式部署方式包括standalone(独立部署)、Spark on Mesos、Spark on YARN,而Spark on local是本地运行模式,不是分布式部署方式。 10. Stage中的Task数量由Partition决定。 11. 窄依赖操作如filter(过滤)只依赖前一个阶段的完整数据,而join、reduceByKey和shuffle操作属于宽依赖,可能导致全数据重新分布。 12. Spark的Master和Worker之间通过Akka框架进行通信。 13. 默认的存储级别是MEMORY_ONLY,仅在内存中存储数据。 14. Spark的recoveryMode支持ZooKeeper和FileSystem,但不支持NONE。 15. RDD的缓存方法包括persist()和cache(),而Memory()不是RDD的缓存方法。 16. Task是在Executor上运行的,Executor负责执行计算任务。 这些知识点是Spark开发和使用中的基础,对于理解Spark的工作原理和优化非常重要。考生需要深入理解每个概念的含义及其在实际应用中的作用,以应对可能的考试题目。