大数据期末考试重点:Spark组件与配置
版权申诉
5星 · 超过95%的资源 89 浏览量
更新于2024-09-03
收藏 18KB PDF 举报
"大数据处理期末考试题库.pdf"
本题库主要涵盖了Spark的相关知识,包括Spark的组件、配置、版本特性、调度模式、运行模式、RDD(弹性分布式数据集)的特性和操作,以及Spark的分布式部署方式等核心概念。以下是详细解析:
1. Spark的四大组件包括Spark Streaming、MLlib、GraphX和Spark SQL,选项D BMlib 不是其中之一。
2. Spark自带的服务端口有8080(Web UI)、4040(Application UI),而8090不是Spark默认的端口。
3. Spark 1.4版本的最大变化是引入了SparkR,一个用于R语言的Spark接口。
4. Spark Job的默认调度模式是FIFO(先进先出)。
5. 在本地模式运行Spark,需要设置`spark.localExecution.enabled=true`,显式指定本地运行,并且final Stage无父Stage。选项D partition默认值不是本地模式运行的条件。
6. RDD(弹性分布式数据集)的特点包括可分区、可序列化和可持久化,但不可修改。
7. 广播变量是只读的,存储在各个节点上,但不会存储在磁盘或HDFS。
8. 累加器支持加法操作,支持数值类型,且在并行环境中使用,但不支持自定义类型。
9. Spark支持的分布式部署方式包括standalone(独立部署)、Spark on Mesos、Spark on YARN,而Spark on local是本地运行模式,不是分布式部署方式。
10. Stage中的Task数量由Partition决定。
11. 窄依赖操作如filter(过滤)只依赖前一个阶段的完整数据,而join、reduceByKey和shuffle操作属于宽依赖,可能导致全数据重新分布。
12. Spark的Master和Worker之间通过Akka框架进行通信。
13. 默认的存储级别是MEMORY_ONLY,仅在内存中存储数据。
14. Spark的recoveryMode支持ZooKeeper和FileSystem,但不支持NONE。
15. RDD的缓存方法包括persist()和cache(),而Memory()不是RDD的缓存方法。
16. Task是在Executor上运行的,Executor负责执行计算任务。
这些知识点是Spark开发和使用中的基础,对于理解Spark的工作原理和优化非常重要。考生需要深入理解每个概念的含义及其在实际应用中的作用,以应对可能的考试题目。
2020-06-06 上传
2023-07-23 上传
2023-09-04 上传
2023-07-02 上传
2023-11-29 上传
2023-08-09 上传
2023-07-26 上传
回忆是个旧美人
- 粉丝: 0
- 资源: 2万+
最新资源
- 达梦数据库DM8手册大全:安装、管理与优化指南
- Python Matplotlib库文件发布:适用于macOS的最新版本
- QPixmap小demo教程:图片处理功能实现
- YOLOv8与深度学习在玉米叶病识别中的应用笔记
- 扫码购物商城小程序源码设计与应用
- 划词小窗搜索插件:个性化搜索引擎与快速启动
- C#语言结合OpenVINO实现YOLO模型部署及同步推理
- AutoTorch最新包文件下载指南
- 小程序源码‘有调’功能实现与设计课程作品解析
- Redis 7.2.3离线安装包快速指南
- AutoTorch-0.0.2b版本安装教程与文件概述
- 蚁群算法在MATLAB上的实现与应用
- Quicker Connector: 浏览器自动化插件升级指南
- 京东白条小程序源码解析与实践
- JAVA公交搜索系统:前端到后端的完整解决方案
- C语言实现50行代码爱心电子相册教程