Hadoop集群运行模式与配置详解

版权申诉

138 浏览量更新于2024-06-30 收藏 108KB DOCX 举报

"Hadoop面试题.docx" Hadoop是一个开源的分布式计算框架，由Apache基金会开发，主要用于处理和存储大规模数据。它设计的目标是高容错性和可扩展性，使得数据可以在多台计算机（节点）之间进行分布式处理。在面试中，理解Hadoop的运行模式、配置细节以及其组件的工作原理是非常重要的。 1. Hadoop集群的三种运行模式： - 单机（本地）模式：在这个模式下，所有组件都在单个JVM上运行，没有实际的分布式环境，适合开发和调试。 - 伪分布式模式：在一台机器上模拟分布式环境，所有守护进程（如Namenode、DataNode等）都在同一台机器上运行，适用于开发和测试。 - 全分布式模式：这是生产环境常用的模式，多个节点构成集群，每个节点运行不同的守护进程，实现真正的分布式计算。 2. 注意点： - 单机模式中没有真正意义上的DFS，而是使用本地文件系统。 - 伪分布式模式虽然在一台机器上，但能模拟分布式环境，帮助开发者检查代码的正确性。 - 全分布式模式需要考虑节点间的通信、容错和数据复制等问题。 3. Hadoop遵循UNIX模式，其配置文件结构和UNIX系统类似，比如有“conf”目录。 4. Hadoop的安装路径通常在Cloudera和Apache环境下为`/usr/lib/hadoop-0.20/`。 5. Namenode、Jobtracker和Tasktracker的默认端口号分别是50070、8021和50060。请注意，这些是旧版本Hadoop的端口号，新版本中，如YARN（Yet Another Resource Negotiator）取代了JobTracker，相关端口号可能不同。 6. Hadoop的核心配置文件已经从`hadoop-default.xml`和`hadoop-site.xml`演变为`core-site.xml`、`hdfs-site.xml`和`mapred-site.xml`，它们都位于`conf/`子目录下，分别用于配置Hadoop的基本设置、HDFS（Hadoop Distributed File System）和MapReduce。 7. 溢出因子（Spill factor）是指MapReduce阶段，数据写入内存达到一定比例时，会将超出部分的数据写入磁盘，通常是Hadoop-temp目录下的临时文件。 8. `fs.mapr.working.dir`是一个配置属性，代表工作目录，通常用于指定Hadoop工作时的临时文件位置。 9. `hdfs-site.xml`文件用于配置HDFS的相关参数，例如副本数量、块大小等。了解这些基础知识对于理解和解决Hadoop集群中的问题至关重要，同时也是面试中考察候选人技能的重要部分。熟悉Hadoop的运行模式、配置和组件交互，可以帮助优化性能，确保数据处理的高效和稳定。

侵入等等.Hadoop 为机器之间的连接提供了一个相对安全的方式。

37. SSH 工作的端口号是？

SSH 工作的端口号是 NO.22，当然可以通过它来配置，22 是默认的端口号.

38。 SSH 中的注意点还包括？

SSH 只是个安全的 shell 通信，可以把它当做 NO.22 上的一种协议，只需要配置一

个密码就可以安全的访问.

39. 为什么 SSH 本地主机需要密码？

在 SSH 中使用密码主要是增加安全性，在某些情况下也根本不会设置密码通信。

40. 如果在 SSH 中添加 key，是否还需要设置密码?

是的，即使在 SSH 中添加了 key，还是需要设置密码。

41. 假如 Namenode 中没有数据会怎么样?

没有数据的 Namenode 就不能称之为 Namenode，通常情况下，Namenode 肯定

会有数据.

42。当 Job Tracker 宕掉时，Namenode 会发生什么?

当 Job Tracker 失败时，集群仍然可以正常工作,只要 Namenode 没问题.

43。是客户端还是 Namenode 决定输入的分片?

这并不是客户端决定的,在配置文件中以及决定分片细则。

44。是否可以自行搭建 Hadoop 集群？

是的,只要对 Hadoop 环境足够熟悉，你完全可以这么做。

45. 是否可以在 Windows 上运行 Hadoop？

你最好不要这么做，Red Hat Linux 或者是 Ubuntu 才是 Hadoop 的最佳操作系统。

在 Hadoop 安装中,Windows 通常不会被使用,因为会出现各种各样的问题.因此，

Windows 绝对不是 Hadoop 的推荐系统。

剩余15页未读，继续阅读

春哥111

粉丝: 1w+
资源: 5万+

Hadoop集群运行模式与配置详解

Hadoop试题题库.doc.docx

Hadoop面试题.pdf

Hadoop面试题目及答案.pdf

大数据面试题.docx

.net面试题.docx

大数据高频面试题.docx

大厂数据仓库面试题.docx

数据仓库工程师面试题.docx

大数据技术之高频面试题.docx

2021年大数据常见面试题.docx

最新资源