Hadoop复习关键点：4V特征，MapReduce与YARN

需积分: 0 140 浏览量更新于2024-08-04 2 收藏 27KB DOCX 举报

"该资源是一份关于Hadoop的复习资料，包含了Hadoop的相关知识点和期末考试的填空题，适用于大学复习和考试准备。" 在Hadoop领域，大数据的4V特征是其核心特点，分别代表了Volume(大量)、Variety(多样)、Velocity(高速)和Value(价值)，这四个方面概括了大数据的基本属性。Hadoop作为一个开源的大数据处理框架，其主要由三大组件构成：HDFS（Hadoop Distributed File System）负责分布式存储，MapReduce处理大规模数据计算，而YARN（Yet Another Resource Negotiator）则作为资源管理系统。 Hadoop 2.x版本的HDFS架构包括NameNode作为主节点，管理元数据；DataNode作为数据存储节点，存储实际数据；SecondaryNameNode则辅助NameNode，定期合并fsimage和EditLog，防止NameNode挂载时数据丢失。Hadoop的发行版有开源社区版和商业版，如Cloudera、 Hortonworks等公司提供的企业级解决方案。 Apache Hadoop的版本历史包括1.x、2.x和3.x，每个版本都有所改进和增强，例如Hadoop 2.x引入了YARN，提高了系统的资源利用率和可扩展性。Hadoop集群的运行模式包括本地单机的独立模式、模拟分布式环境的伪分布式模式以及生产环境的完全分布式模式。在日常运维中，我们可能需要通过`source /etc/profile`命令来加载环境变量配置文件，以应用修改。`hadoop namenode -format`用于初始化或格式化NameNode，`start-all.sh`脚本可以一键启动Hadoop集群服务。Hadoop的默认端口设置为HDFS的50070用于Web界面监控，而YARN的ResourceManager Web界面端口是8088。在HDFS的工作机制中，NameNode负责整个文件系统的元数据管理，DataNode则存储数据块，并通过心跳机制与NameNode保持通信。NameNode的元数据包括fsimage（文件系统镜像）和EditLog（操作日志）。MapReduce工作流程包括数据分片、Mapper处理、Shuffle阶段、Reducer处理和结果写回。在Hadoop生态系统中，Zookeeper是一个分布式协调服务，其角色包括Leader、Follower和Observer，Znode分为永久节点和临时节点，且支持Watch机制进行分布式通知。YARN的主要组件是ResourceManager、NodeManager和ApplicationMaster，负责资源分配、节点管理和任务调度。数据仓库是数据分析的重要基础，它是一个集中的、主题导向的、经过整合的、非易失的数据集合，用于支持企业的决策制定。Hive是一个基于Hadoop的数据仓库工具，其元数据默认存储在Derby数据库中，可以使用`ROW FORMAT DELIMITED FIELDS TERMINATED BY`命令来定义字段分隔符。Hive SQL查询语句可以进行各种数据操作，如选择特定列（`SELECT c`）等。这份复习资料覆盖了Hadoop的关键概念、组件、工作原理以及运维和使用技巧，对于理解和掌握Hadoop有极大的帮助，适合准备相关考试的学生或从业人员学习。

一、填空题

1. 大数据的 4V 特征包含大量、多样、高速和价值。

2. Hadoop 三大组件包含 HDFS、MapReduce 和 Yarn。

3. Hadoop2.x 版本中的 HDFS 是由 NameNode、DataNode 和 Secondary NameNode

组成。

4. Hadoop 发行版本分为开源社区版和商业版。

5. 目前 Apache Hadoop 发布的版本主要有 Hadoop1.x 、 Hadoop2.x 和

Hadoop3.x。

6. Hadoop 集群的部署方式分别是独立模式、伪分布式模式和完全分布式模式。

7. 加载环境变量配置文件需要使用 source /etc/profile 命令。

8. 格式化 HDFS 集群命令是 hadoop namenode -format。

9. 脚本一键启动 Hadoop 集群服务命令是 start-all.sh。

10. Hadoop 默认开设 HDFS 端口号 50070 和监控 YARN 集群端口号 8088。

11. NameNode 用于维护文件系统名称并管理客户端对文件的访问，DataNode 存

储真实的数据块。

12. NameNode 与 DataNode 通过心跳监测机制互相通信。

13. NameNode 以元数据形式维护着 fsimage 和 EditLog 文件。

14. 在 MapReduce 中，Map 阶段负责将任务分解，Reduce 阶段将任务合并。

15. MapReduce 工作流程分为分片、格式化数据源、执行 MapTask、执行 Shuffle

过程、执行 ReduceTask、写入文件。

16. Partitioner 组件目的是将 key 均匀分布在 ReduceTask 上。

17. Zookeeper 集群主要有 Leader、Follower、Observer 三种角色。

18. Znode 有两种节点，分别是永久节点、临时节点。

19. Zookeeper 引入 Watch 机制实现分布式的通知功能。

20. YARN 的核心组件包括 ResourceManager 、 NodeManager 、

ApplicationMaster。

21. ResourceManager 内部包含了两个组件，分别是调度器（Scheduler）和应用

程序管理器（Application Manager）。

22. 数据仓库是面向主题的、集成的、非易失的和时变的数据集合，用于支持管

理决策。

23. Hive 默认元数据存储在 Derby 数据库数据库中。

24. Hive 建表时设置分割字符命令 row format delimited fields terminated

by char。

25. Hive 查询语句 select ceil(2,34)输出内容是 3。

26. Hive 创建桶表关键字 clustered by，且 Hive 默认分桶数量是-1。

27. Flume 分为两个版本，分别是 Flume-og、Flume-ng。

28. Flume 的核心是把数据从数据源通过数据采集器（Source）收集过来，再将

收集的数据通过缓冲通道（Channel）汇集到指定的接收器（Sink）。

29. Flume 采用三层架构，分别为 agent，collector 和 storage，每一层均可以

水平扩展。

30. Flume 的负载均衡接受器处理器支持使用 round_robin（轮询）和 random

（随机）机制进行流量分配，其默认选择机制为 round_robin。

31. Azkaban 是由 Linkedin 公司开源的一个批量工作流任务调度器，用于在一个

工作流内以一个特定的顺序运行一组工作和流程。

下载后可阅读完整内容，剩余8页未读，立即下载

闫海南

粉丝: 3843
资源: 10

Hadoop复习关键点：4V特征，MapReduce与YARN

hadoop考试题实例

Hadoop测试题

Hadoop大数据期末考试重点

hadoop大数据平台技术与应用 --课后习题参考答案.pdf

Python应用程序设计 课后习题参考答案 易建勋

《医学计算机基础》课后习题及答案-大数据.pdf

《医学计算机基础》课后习题及答案-大数据.docx

《Spark编程基础及项目实践》课后习题及答案4.pdf

《Spark编程基础及项目实践》课后习题及答案1.pdf

数据工程师考试课后习题答案

最新资源

Python应用程序设计课后习题参考答案易建勋