Spark RDD与HBase基础知识及内存管理详解

版权申诉
0 下载量 140 浏览量 更新于2024-06-28 1 收藏 877KB DOCX 举报
本资源是一份关于大数据分布并行处理的试题及答案文档,涵盖了Spark框架的相关知识点。主要讨论了以下内容: 1. **RDD基础知识**: - RDD(Resilient Distributed Dataset)是Spark的核心抽象,但题目指出它不能仅通过文件创建,这个判断题答案为“错”。 2. **Spark函数的区别**: - `map`和`flatMap`是Spark中的操作符,其中`flatMap`允许返回多个元素,因此判断题答案为“对”。 3. **内存管理**: - 题目询问可能导致driver端内存溢出的操作,`collect`通常会收集所有数据回driver,答案是“collect”,即正确答案。 4. **持久化策略**: - `MEMORY_ONLY`表示只存储在内存中,不序列化,这是正确选项。 5. **Spark变量与内存**: - 广播变量不会保证每个Executor只有一份数据,判断题答案为“错”。 6. **Stage划分**: - Spark在划分Stage时,窄依赖不会导致额外Stage,判断题答案为“错”。 7. **RDD的持久化和血缘关系**: - 持久化确实会影响RDD的血缘关系,但题目中的判断为“对”,可能有误,因为血缘关系会随着操作改变。 8. **HBase概述**: - HBase是键值对型NoSQL数据库,判断题答案为“对”。 9. **HBase应用场景和特性**: - HBase适合海量数据分析,判断题答案为“对”;HBase支持多种数据类型,包括数字和字符串,判断题答案为“错”。 - Rowkey在HBase中非常重要,不能为null,判断题答案为“错”。 - 列族在HBase中创建后不可修改,判断题答案为“对”。 - HBase存储按照Rowkey排序,但没有提及历史版本排序,判断题答案可能错误。 10. **HBase操作**: - 插入数据时,需要指定完整的列族和列名,答案是“put't1','rowkey1','level:abc','xyz'”,正确。 11. **数据存储细节**: - HRegionServer包含HLog和某些其他组件,具体未给出,答案可能是“HDFSData”或“HStore”; - HStore由StoreFile和MemStore两部分组成,答案是“MemStore”。 这份文档提供了深入理解Spark和HBase分布式数据处理的重要概念和实践问题,适用于学习者测试自己的知识水平或作为教学材料使用。