Hadoop面试详解：启动过程、Hadoop1.x与2.x的区别

需积分: 5 62 浏览量更新于2024-08-03 收藏 829KB PDF 举报

"Apache Hadoop面试题涵盖了Hadoop生态系统中的核心组件、其功能以及Hadoop 1.x和2.x版本之间的关键区别。" 在Apache Hadoop面试中，了解Hadoop集群启动过程及其主要组件的工作原理至关重要。以下是相关知识点的详细说明： 1. **Hadoop集群启动的关键进程**： - **NameNode**：作为Hadoop分布式文件系统的主节点，NameNode维护文件系统元数据，包括文件系统树和文件与目录的信息。它保存命名空间镜像和编辑日志，处理客户端的数据块位置请求，并接收来自DataNode的故障报告。在非HA模式下，SecondaryNameNode负责定期合并编辑日志和命名空间镜像，以辅助NameNode容错。 - **SecondaryNameNode（非HA模式）**：不是NameNode的备份，而是用于辅助NameNode的容错，通过定期合并编辑日志和命名空间镜像。 - **DataNode**：实际存储数据块的节点，执行数据的读写操作，并定期向NameNode报告存储的数据块列表。 - **ResourceManager**：在YARN中，负责全局的资源管理和任务调度，将任务分配给NodeManager。 - **NodeManager**：运行在每个工作节点上，执行ResourceManager分配的任务，向ApplicationMaster报告任务进度。 - **JournalNode（HA启用）**：在高可用性配置下，存储NameNode的editlog文件，确保NameNode故障时的无缝切换。 2. **Hadoop 1.x的缺点**： - **单点故障**：JobTracker是单点故障，如果它出现问题，整个集群将无法正常工作。 - **过度负载**：JobTracker同时负责任务调度和资源管理，导致压力过大。 - **简单资源表示**：TaskTracker以Map/Reduce任务槽位表示资源，可能导致资源分配不灵活。 - **资源浪费**：MapSlot和ReduceSlot的分离可能导致任务所需的特定资源未被充分利用。 3. **Hadoop 1.x与Hadoop 2.x的区别**： - **资源调度方式**：2.x引入了YARN，由ResourceManager进行资源管理，而ApplicationMaster负责任务管理，减轻了单点负担。 - **HA模式**：Hadoop 2.x引入了高可用性（HA）模式，允许有Active和Standby两个NameNode，以提供NameNode的冗余和故障切换能力。深入理解这些知识点对于准备Hadoop相关的面试或优化Hadoop集群的性能至关重要。Hadoop的演进反映了对高可用性、资源管理和任务调度效率的持续改进。在实际工作中，熟悉这些概念能够帮助解决性能瓶颈，提升大数据处理的效率和可靠性。

1. 启动Hadoop集群会分别启动哪些进程,各⾃的作⽤

NameNode：

维护⽂件系统树及整棵树内所有的⽂件和⽬录。这些信息永久保存在本地磁盘的两个⽂件中：命名空间

镜像⽂件、编辑⽇志⽂件

记录每个⽂件中各个块所在的数据节点信息，这些信息在内存中保存，每次启动系统时重建这些信息

负责响应客户端的数据块位置请求。也就是客户端想存数据，应该往哪些节点的哪些块存；客户端想

取数据，应该到哪些节点取

接受记录在数据存取过程中，datanode节点报告过来的故障、损坏信息

SecondaryNameNode(⾮HA模式)：

实现namenode容错的⼀种机制。定期合并编辑⽇志与命名空间镜像，当namenode挂掉时，可通过⼀

定步骤进⾏上顶。(注意并不是NameNode的备⽤节点)

DataNode：

根据需要存取并检索数据块

定期向namenode发送其存储的数据块列表

ResourceManager：

负责Job的调度,将⼀个任务与⼀个NodeManager相匹配。也就是将⼀个MapReduce之类的任务分配给

⼀个从节点的NodeManager来执⾏。

NodeManager：

运⾏ResourceManager分配的任务，同时将任务进度向application master报告

JournalNode(HA下启⽤):

⾼可⽤情况下存放namenode的editlog⽂件

2. Hadoop1.x的缺点

1. JobTracker存在单点故障的隐患

2. 任务调度和资源管理全部是JobTracker来完成,单点负担过重

3. TaskTracker以Map/Reduce数量表示资源太过简单

4. TaskTracker 分Map Slot 和 Reduce Slot, 如果任务只需要map任务可能会造成资源浪费

3. Hadoop1.x 和Hadoop 2.x 的区别

1. 资源调度⽅式的改变

在1.x, 使⽤Jobtracker负责任务调度和资源管理,单点负担过重,在2.x中,新增了yarn作为集群的调度⼯具.在

yarn中,使⽤ResourceManager进⾏资源管理, 单独开启⼀个Container作为ApplicationMaster来进⾏任务管

理.

2. HA模式

在1.x中没有HA模式,集群中只有⼀个NameNode,⽽在2.x中可以启⽤HA模式,存在⼀个Active NameNode 和

Standby NameNode.

3. HDFS Federation

下载后可阅读完整内容，剩余9页未读，立即下载

荒野无尽

粉丝: 0

Hadoop面试详解：启动过程、Hadoop1.x与2.x的区别

最新大数据Hadoop面试题!(附答案解析).pdf

hadoop面试题大全

hadoop面试题分解.pdf

Apache Hadoop 3.3.5与Apache Hadoop 3.3.4

详细说一下hadoop面试题和答案大全

如何使用Apache Hadoop和Apache Spark

出一个Hadoop面试题

Apache Hadoop与 Cloudera Hadoop 的区别

hadoop面试题及答案

比较一下Apache Hadoop和Apache Spark

最新资源