Hadoop基础面试题详解与部署模式

需积分: 12 4 下载量 42 浏览量 更新于2024-09-01 收藏 18KB DOCX 举报
Hadoop是一种开源的大数据处理框架,它主要用于处理海量数据,通过其分布式计算模型来提高数据处理效率。在Hadoop面试中,面试官可能会提问关于Hadoop集群的不同运行模式、配置、组件以及在不同环境下的应用等问题。以下是一些关键知识点的详细解释: 1. **Hadoop运行模式**: - **单机模式 (Standalone)**: 这是Hadoop最基础的模式,仅在一台机器上运行,不涉及分布式文件系统,而是使用本地文件系统。适合于开发过程中的本地测试,但实际生产环境中很少使用。 - **伪分布式模式 (Pseudo-Distributed)**: 与单机模式类似,但在一台机器上模拟分布式环境的各个角色,如NameNode, DataNode等,便于开发和测试。所有守护进程在同一台机器上运行。 - **全分布式模式 (Fully Distributed)**: 生产环境的标准模式,通过多台机器组成Hadoop集群,每个守护进程如Namenode、Datanode和TaskTracker分别在独立的服务器上运行,实现真正的分布式处理。 2. **术语理解**: - Pseudo不适用于表示虚拟机,它特指Hadoop的伪分布式模式。 3. **故障处理**: - 当JobTracker(任务跟踪器)宕机时,如果Namenode(名称节点)仍正常,集群仍可运行,因为任务调度和协调主要由Namenode负责。 4. **数据分片**: - 输入分片的决定因素不在客户端,而是通过配置文件定义,这些配置可能包括数据块大小和输入文件的分割策略。 5. **平台支持**: - Hadoop可以运行在Windows上,但推荐使用Red Hat Linux或Ubuntu,因为它们更适合大数据处理环境。 6. **遵循的模式**: - Hadoop确实遵循UNIX模式,例如有"conf"目录用于存放配置文件。 7. **安装位置**: - Cloudera和Apache Hadoop的默认安装路径通常为`/usr/lib/hadoop-0.20/`,但随着版本更新,路径可能会有所不同。 8. **端口分配**: - Namenode的端口通常是70(也可能因配置不同而变化),JobTracker的端口为30,TaskTracker的端口为60。 9. **核心配置**: - Hadoop的核心配置主要通过`hadoop-default.xml`和`hadoop-site.xml`两个XML文件管理,这些文件包含了许多核心参数,如内存分配、磁盘空间设置、网络配置等,对性能和稳定性有很大影响。 面试时,了解这些基本概念将有助于展示你的Hadoop知识深度和对集群管理的理解。同时,熟悉Hadoop的生态系统(如MapReduce、YARN、HDFS等)和实际项目经验将大大提高你在面试中的竞争力。