Hadoop期末复习关键：组件、安装与免密SSH设置详解

需积分: 10 72 浏览量更新于2024-09-02 3 收藏 409KB PDF 举报

在《Hadoop大数据技术与应用》期末学习重点中，主要内容涵盖Hadoop生态系统的关键组件及其功能，以及Hadoop的安装过程。这部分的重点在于理解Hadoop生态系统的组成部分和它们各自的作用： 1. **Hadoop生态圈组件及功能** - **HDFS**（Hadoop分布式文件系统）：作为Hadoop的基础，提供大规模数据的分布式存储和访问。 - **YARN**（Yet Another Resource Negotiator）：负责资源管理和调度，使得不同的计算任务可以在集群中高效执行。 - **MapReduce**：一种分布式并行计算模型，用于处理大规模数据集的批量处理任务。 - **HBase**：基于HDFS的列式数据库，适用于实时读写的大数据存储。 - **Hive**：构建在Hadoop之上，提供SQL-like查询接口，用于大数据仓库管理。 - **Pig**：数据分析平台，用于处理半结构化数据。 - **Flume**：用于收集、聚合和传输海量日志的分布式系统，确保数据可靠性。 - **Sqoop**：用于在关系型数据库和Hadoop之间迁移数据的工具。 - **ZooKeeper**：分布式协调服务，提供一致性服务，维护分布式系统状态。 - **Ambari**：集群管理工具，简化Hadoop的部署、管理和监控。 - **Mahout**：包含机器学习算法的库，支持在Hadoop上执行大规模机器学习任务。 2. **Hadoop安装** - **单机模式**：适用于学习和小规模测试，包括环境准备、配置文件设置和基本测试步骤。 - **伪分布式模式**：更接近生产环境的部署方式，重点讲解如下： - 安装前准备：涉及系统环境、JDK配置等。 - 配置SSH免密登录：由于Hadoop在启动和停止节点时需要频繁交互，免密登录提高效率，确保安全。 - 配置Hadoop核心文件（如hadoop-env.sh, core-site.xml, mapred-site.xml, hdfs-site.xml），调整参数以适应伪分布式环境。 - 设置环境变量和格式化NameNode，启动所有节点服务。理解这些知识点有助于学生深入掌握Hadoop的大数据处理架构和实际操作，从而顺利通过期末考试。在实际项目中，掌握这些组件的配置和使用将对大数据处理有深远影响。

4.HDFS 的高级功能（简答）p68

1．安全模式 2.回收站 3.快照 4.配额 5.联邦 6.HA（高可用性）

（每一个功能概念作为了解，可能会简述）

1.安全模式是 HDFS 所处的一种特殊状态，在这种状态下，文件系统只接受读数据请求，

而不接受删除、修改等变更请求。

2. HDFS 会为每一个用户创建一个回收站目录：/user/用户名/.Trash/，每一个被用户通过

Shell 删除的文件/目录，在系统回收站中都一个周期，也就是当系统回收站中的文件目录在

一段时间之后没有被用户恢复的话，HDFS 就会自动的把这个文件/目录彻底删除

3. Hadoop 2.x HDFS 新特性。基于某时间点的数据的备份复制.利用快照,可以针对基本的目

录或者整个文件系统,让 HDFS 在数据损坏时恢复到过去一个正确的时间点,快照比较常见的

应用场景书数据备份,以防止一些用户错误或者灾难。

4. 提供两种配额（Quota）管理命令

setQuota 针对 HDFS 中的某个目录设置文件和目录数量之和的最大值。

setSpaceQuota 用于设置 HDFS 中某个目录可用存储空间的大小。

5. 允许一个 HDFS 集群中存在多个 NameNode 同时对外提供服务，这些 NameNode 分管

一部分目录（水平切分），彼此之间相互隔离，但共享底层的 DataNode 存储资源。使用优

点：（1）HDFS 集群扩展性。每个 NameNode 分管一部分 namespace，相当于 namenode 是

一个分布式的。（2）性能更高效。多个 NameNode 同时对外提供服务，提供更高的读写吞

吐率。（3）良好的隔离性。用户可根据需要将不同业务数据交由不同 NameNode 管理，这

样不同业务之间影响很小。

6.通过提供同一集群中运行两个 NameNode 的方法来解决问题，一台保持活跃（Active）

状态对外提供服务，一台处于备用（Standby）状态，两个节点保持数据同步。

5.YARN 架构组成及功能（重点） p93

1).ResourceManager（资源管理器）的作用如下：

（由调度器 Scheduler 和应用程序管理器 ApplicationManager 两个组件构成）

1.处理客户端的请求

2.监控 NodeManager

3.启动或监控 ApplicationMaster

4.资源分配与调度

2).NodeManager（节点管理器）的作用如下：

1.管理单个节点上的资源

2.处理来自 ResourceManager 的命令

3.处理来自 ApplicationMaster 的命令

3).ApplicationMaster（主应用）的作用如下：

1.负责数据的切分

2.为应用程序申请资源并分配给内部的任务

3.任务的监控与容错

4).Container（容器）的作用：

Container 是 Yarn 中的资源抽象，它封装了某个节点上的多维资源，如内存、CPU、磁盘、

网络等。

剩余11页未读，继续阅读

青蛙大王66

粉丝: 6
资源: 15

Hadoop期末复习关键：组件、安装与免密SSH设置详解

解决window本地执行Hadoop时缺少hadoop.dll和winutils.exe问题

Hadoop 3.2.1版本winutils.exe和hadoop.dll文件使用指南

Hadoop 0.20.205.0与HBase 0.90.5集群及单机安装配置指南

仲恺农业工程学院《数据库原理及应用》14年期末考试试卷.pdf

《Hadoop系统搭建及项目实践》课程标准.pdf

《Hadoop大数据技术与应用》课程教学大纲 - 20190422.pdf

《Hadoop大数据技术与应用》教学大纲 - 20180823 (2).pdf

2021年-Hive大数据仓库-期末考试知识点重点-笔记整理.pdf

2015年北京工业大学《高级数据库技术》期末试卷.pdf

福建师范大学精品大数据导论课程系列 (3.1.1)--2.1 《大数据相关技术基础（1）》PPT.pdf

最新资源