Hadoop集群运行模式与配置详解

版权申诉
0 下载量 138 浏览量 更新于2024-06-30 收藏 108KB DOCX 举报
"Hadoop面试题.docx" Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储大规模数据。它设计的目标是高容错性和可扩展性,使得数据可以在多台计算机(节点)之间进行分布式处理。在面试中,理解Hadoop的运行模式、配置细节以及其组件的工作原理是非常重要的。 1. Hadoop集群的三种运行模式: - 单机(本地)模式:在这个模式下,所有组件都在单个JVM上运行,没有实际的分布式环境,适合开发和调试。 - 伪分布式模式:在一台机器上模拟分布式环境,所有守护进程(如Namenode、DataNode等)都在同一台机器上运行,适用于开发和测试。 - 全分布式模式:这是生产环境常用的模式,多个节点构成集群,每个节点运行不同的守护进程,实现真正的分布式计算。 2. 注意点: - 单机模式中没有真正意义上的DFS,而是使用本地文件系统。 - 伪分布式模式虽然在一台机器上,但能模拟分布式环境,帮助开发者检查代码的正确性。 - 全分布式模式需要考虑节点间的通信、容错和数据复制等问题。 3. Hadoop遵循UNIX模式,其配置文件结构和UNIX系统类似,比如有“conf”目录。 4. Hadoop的安装路径通常在Cloudera和Apache环境下为`/usr/lib/hadoop-0.20/`。 5. Namenode、Jobtracker和Tasktracker的默认端口号分别是50070、8021和50060。请注意,这些是旧版本Hadoop的端口号,新版本中,如YARN(Yet Another Resource Negotiator)取代了JobTracker,相关端口号可能不同。 6. Hadoop的核心配置文件已经从`hadoop-default.xml`和`hadoop-site.xml`演变为`core-site.xml`、`hdfs-site.xml`和`mapred-site.xml`,它们都位于`conf/`子目录下,分别用于配置Hadoop的基本设置、HDFS(Hadoop Distributed File System)和MapReduce。 7. 溢出因子(Spill factor)是指MapReduce阶段,数据写入内存达到一定比例时,会将超出部分的数据写入磁盘,通常是Hadoop-temp目录下的临时文件。 8. `fs.mapr.working.dir`是一个配置属性,代表工作目录,通常用于指定Hadoop工作时的临时文件位置。 9. `hdfs-site.xml`文件用于配置HDFS的相关参数,例如副本数量、块大小等。 了解这些基础知识对于理解和解决Hadoop集群中的问题至关重要,同时也是面试中考察候选人技能的重要部分。熟悉Hadoop的运行模式、配置和组件交互,可以帮助优化性能,确保数据处理的高效和稳定。
2022-10-16 上传