大数据期末考试重点:Spark组件与配置
版权申诉
5星 · 超过95%的资源 116 浏览量
更新于2024-09-03
收藏 18KB PDF 举报
"大数据处理期末考试题库.pdf"
本题库主要涵盖了Spark的相关知识,包括Spark的组件、配置、版本特性、调度模式、运行模式、RDD(弹性分布式数据集)的特性和操作,以及Spark的分布式部署方式等核心概念。以下是详细解析:
1. Spark的四大组件包括Spark Streaming、MLlib、GraphX和Spark SQL,选项D BMlib 不是其中之一。
2. Spark自带的服务端口有8080(Web UI)、4040(Application UI),而8090不是Spark默认的端口。
3. Spark 1.4版本的最大变化是引入了SparkR,一个用于R语言的Spark接口。
4. Spark Job的默认调度模式是FIFO(先进先出)。
5. 在本地模式运行Spark,需要设置`spark.localExecution.enabled=true`,显式指定本地运行,并且final Stage无父Stage。选项D partition默认值不是本地模式运行的条件。
6. RDD(弹性分布式数据集)的特点包括可分区、可序列化和可持久化,但不可修改。
7. 广播变量是只读的,存储在各个节点上,但不会存储在磁盘或HDFS。
8. 累加器支持加法操作,支持数值类型,且在并行环境中使用,但不支持自定义类型。
9. Spark支持的分布式部署方式包括standalone(独立部署)、Spark on Mesos、Spark on YARN,而Spark on local是本地运行模式,不是分布式部署方式。
10. Stage中的Task数量由Partition决定。
11. 窄依赖操作如filter(过滤)只依赖前一个阶段的完整数据,而join、reduceByKey和shuffle操作属于宽依赖,可能导致全数据重新分布。
12. Spark的Master和Worker之间通过Akka框架进行通信。
13. 默认的存储级别是MEMORY_ONLY,仅在内存中存储数据。
14. Spark的recoveryMode支持ZooKeeper和FileSystem,但不支持NONE。
15. RDD的缓存方法包括persist()和cache(),而Memory()不是RDD的缓存方法。
16. Task是在Executor上运行的,Executor负责执行计算任务。
这些知识点是Spark开发和使用中的基础,对于理解Spark的工作原理和优化非常重要。考生需要深入理解每个概念的含义及其在实际应用中的作用,以应对可能的考试题目。
点击了解资源详情
点击了解资源详情
点击了解资源详情
2022-01-05 上传
2021-10-28 上传
2021-10-24 上传
366 浏览量
2021-11-02 上传
2023-02-27 上传
回忆是个旧美人
- 粉丝: 0
- 资源: 2万+
最新资源
- 串 行 通 信 论 谈
- oracle集群完全配置手册
- AJAX In Action(中文版) .pdf
- IDL入门与提高(教程) 编程
- 计算机三级上机试题--南开一百题
- Joomla开发.PDF
- ATSC Standard:Program and System Information Protocol for Terrestrial Broadcast and Cable
- visual basic发展历程
- 新一代存储器MRAM
- JAVA电子书Thinking.In.Java.3rd.Edition.Chinese.eBook
- 经典算法(c语言),51个经典算法
- 高质量c/c++编程指南
- DSP基本知识学习入门
- C程序设计 第二版 PDF
- 操作系统课设 进程调度模拟程序
- 2008年4月计算机等级考试软件测试工程师试题