Hadoop面试详解:启动过程、Hadoop1.x与2.x的区别

需积分: 5 1 下载量 28 浏览量 更新于2024-08-03 收藏 829KB PDF 举报
"Apache Hadoop面试题涵盖了Hadoop生态系统中的核心组件、其功能以及Hadoop 1.x和2.x版本之间的关键区别。" 在Apache Hadoop面试中,了解Hadoop集群启动过程及其主要组件的工作原理至关重要。以下是相关知识点的详细说明: 1. **Hadoop集群启动的关键进程**: - **NameNode**:作为Hadoop分布式文件系统的主节点,NameNode维护文件系统元数据,包括文件系统树和文件与目录的信息。它保存命名空间镜像和编辑日志,处理客户端的数据块位置请求,并接收来自DataNode的故障报告。在非HA模式下,SecondaryNameNode负责定期合并编辑日志和命名空间镜像,以辅助NameNode容错。 - **SecondaryNameNode(非HA模式)**:不是NameNode的备份,而是用于辅助NameNode的容错,通过定期合并编辑日志和命名空间镜像。 - **DataNode**:实际存储数据块的节点,执行数据的读写操作,并定期向NameNode报告存储的数据块列表。 - **ResourceManager**:在YARN中,负责全局的资源管理和任务调度,将任务分配给NodeManager。 - **NodeManager**:运行在每个工作节点上,执行ResourceManager分配的任务,向ApplicationMaster报告任务进度。 - **JournalNode(HA启用)**:在高可用性配置下,存储NameNode的editlog文件,确保NameNode故障时的无缝切换。 2. **Hadoop 1.x的缺点**: - **单点故障**:JobTracker是单点故障,如果它出现问题,整个集群将无法正常工作。 - **过度负载**:JobTracker同时负责任务调度和资源管理,导致压力过大。 - **简单资源表示**:TaskTracker以Map/Reduce任务槽位表示资源,可能导致资源分配不灵活。 - **资源浪费**:MapSlot和ReduceSlot的分离可能导致任务所需的特定资源未被充分利用。 3. **Hadoop 1.x与Hadoop 2.x的区别**: - **资源调度方式**:2.x引入了YARN,由ResourceManager进行资源管理,而ApplicationMaster负责任务管理,减轻了单点负担。 - **HA模式**:Hadoop 2.x引入了高可用性(HA)模式,允许有Active和Standby两个NameNode,以提供NameNode的冗余和故障切换能力。 深入理解这些知识点对于准备Hadoop相关的面试或优化Hadoop集群的性能至关重要。Hadoop的演进反映了对高可用性、资源管理和任务调度效率的持续改进。在实际工作中,熟悉这些概念能够帮助解决性能瓶颈,提升大数据处理的效率和可靠性。