Hadoop 2.x 学习指南：核心模块与生态详解

3星 · 超过75%的资源需积分: 10 102 浏览量更新于2024-07-19 收藏 6.22MB PDF 举报

Hadoop2.x 是一个强大的开源分布式计算框架，用于处理海量数据。这份学习资料详尽介绍了Hadoop2.x 的核心组件以及相关的技术应用，对于深入理解Hadoop 的工作原理和实际操作具有很高的价值。首先，关于处理大文件中的重复行问题，作者提出了两种思路。思路1 采用迭代和内存操作的方式，通过逐行比较实现，类似于冒泡排序，适合于内存足够处理部分数据的情况。而思路2 则利用Hadoop 的特点，将大文件切分成小文件，并通过哈希函数将数据映射到不同的文件中，这样可以有效地利用分布式环境，降低单台机器的压力。 Hadoop 的三大核心模块是其核心技术基石： 1. **Hadoop Distributed File System (HDFS)**: 作为分布式存储系统，HDFS 为大数据处理提供了高可靠性和扩展性。HDFS 将大文件切割成固定大小的Block，分布在多个节点上，支持一次写入多次读取，但不支持修改现有数据（因为修改会引发全网的同步操作）。此外，它支持append模式追加数据，且允许设置Block的副本数，提高数据冗余和可用性。 2. **MapReduce**: 这是一种分布式计算模型，简化了程序员编写并行处理任务的难度。它由Map阶段（将输入数据分片并执行函数处理）和Reduce阶段（合并中间结果生成最终输出）组成，具有容错性和扩展性，非常适合处理大规模数据处理任务。 3. **YARN (Yet Another Resource Negotiator)**: 作为Hadoop的下一代资源管理框架，YARN 负责整个集群的资源管理和调度，使得MapReduce作业和其他应用程序能够更高效地共享硬件资源。 Hadoop的生态系统丰富多样，包括但不限于： - **Hive**: 一个基于SQL的数据仓库工具，便于数据分析人员进行查询和报表生成。 - **HBase**: 一个分布式列式存储系统，适合于实时查询和大规模数据处理。 - **Spark**: 实时计算框架，提供了比MapReduce更快的处理速度，尤其适合迭代计算任务。在Hadoop的分布式存储系统HDFS中，关键概念包括文件元数据（如权限、名称等）和数据本身。NameNode作为元数据存储的中心节点，维护着文件系统的命名空间，而DataNode则负责实际的数据存储和复制。HdfsClient与NameNode交互，获取文件的元数据信息，进一步实现文件的访问和操作。这份学习资料涵盖了Hadoop2.x 的基础理论、核心组件以及实战应用，无论是对初学者还是进阶者来说，都是深入理解和掌握Hadoop 非常重要的参考资料。

</property>

</configuration>

[root@node01 hadoop]# vi slaves

node02

node03

node04

4. 将 node01 的 hadoop 安装目录分发给其他节点

[root@node01 sxt]# scp -r hadoop-2.6.5 node02:`pwd`

[root@node01 sxt]# scp -r hadoop-2.6.5 node03:`pwd`

[root@node01 sxt]# scp -r hadoop-2.6.5 node04:`pwd`

5. 格式化文件系统（只在第一次启动时格式化）

[root@node01 sxt]# hdfs namenode -format

6. 启动服务

[root@node01 sxt]# start-dfs.sh

Starting namenodes on [node01]

node01: starting namenode, logging to /opt/sxt/hadoop-2.6.5/logs/hadoop-root-namenode-

node01.out

node04: starting datanode, logging to /opt/sxt/hadoop-2.6.5/logs/hadoop-root-datanode-

node04.out

node02: starting datanode, logging to /opt/sxt/hadoop-2.6.5/logs/hadoop-root-datanode-

node02.out

node03: starting datanode, logging to /opt/sxt/hadoop-2.6.5/logs/hadoop-root-datanode-

node03.out

Starting secondary namenodes [node02]

node02: starting secondarynamenode, logging to /opt/sxt/hadoop-2.6.5/logs/hadoop-root-

secondarynamenode-node02.out

7. 进行一些操作

[root@node01 ~]# for i in `seq 100000`;do echo "$i Hello sxt You Are Good" >>

/tmp/hello.txt;done

[root@node01 ~]# hdfs dfs -D dfs.blocksize=1048576 -put /tmp/hello.txt

#hdfs 切割文件时，按照字节来切分，思考，如果是中文，怎么切割？

了，为了保持 SNN 实时的与 ANN 的元数据保持一致，他们之间交互通过一系列守护的轻

量级进程 JournalNode。基本原理就是用 2N+1 台 JN 存储 editlog，每次写数据操作有超过

半数（>=N+1）返回成功时即认为该次写成功，数据不会丢失了。当然这个算法所能容忍

的是最多有 N 台机器挂掉，如果多于 N 台挂掉，这个算法就失效了。任何修改操作在 ANN

上执行时，JN 进程同时也会记录修改 log 到至少半数以上的 JN 中，这时 SNN 监测到 JN 里

面的同步 log 发生变化了会读取 JN 里面的修改 log，然后同步到自己的的目录镜像树里

面。当发生故障时，ANN 挂掉后，SNN 会在它成为 ANN 前，读取所有的 JN 里面的修改日

志，这样就能高可靠的保证与挂掉的 NN 的目录镜像树一致，然后无缝的接替它的职责，

维护来自客户端请求，从而达到一个高可用的目的。

DN：同时向两个 NameNode 汇报数据块信息（位置）。

两个 NN 之间的切换：

手动切换：通过命令实现主备之间的切换，可以用 HDFS 升级等场合。

自动切换：基于 Zookeeper 实现。

HDFS 2.x 提供了 ZookeeperFailoverController 角色，部署在每个 NameNode 的节点上，

作为一个 deamon 进程, 简称 zkfc，zkfc 主要包括三个组件：

HealthMonitor：监控 NameNode 是否处于 unavailable 或 unhealthy 状态。当前通过

RPC 调用 NN 相应的方法完成。

ActiveStandbyElector：管理和监控自己在 ZK 中的状态。

ZKFailoverController：它订阅 HealthMonitor 和 ActiveStandbyElector 的事件，并管理

NameNode 的状态。

ZKFailoverController 主要职责：

 健康监测：周期性的向它监控的 NN 发送健康探测命令，从而来确定某个

NameNode 是否处于健康状态，如果机器宕机，心跳失败，那么 zkfc 就会标记它

处于一个不健康的状态

 会话管理：如果 NN 是健康的，zkfc 就会在 zookeeper 中保持一个打开的会话，如

果 NameNode 同时还是 Active 状态的，那么 zkfc 还会在 Zookeeper 中占有一个类

型为短暂类型的 znode，当这个 NN 挂掉时，这个 znode 将会被删除，然后备用的

NN，将会得到这把锁，升级为主 NN，同时标记状态为 Active，当宕机的 NN 新启

动时，它会再次注册 zookeper，发现已经有 znode 锁了，便会自动变为 Standby

状态，如此往复循环，保证高可靠，需要注意，目前仅仅支持最多配置 2 个 NN.

 master 选举：如上所述，通过在 zookeeper 中维持一个短暂类型的 znode，来实

现抢占式的锁机制，从而判断那个 NameNode 为 Active 状态。

HDFS 2.x HA 搭建

角色划分

NN-1

NN-2

ZKFC

JNN

node01

√

node02

√

node03

√

node04

√

步骤：

剩余114页未读，继续阅读

独照松月冷别赋

粉丝: 1
资源: 1

Hadoop 2.x 学习指南：核心模块与生态详解

Hadoop 2.x

大数据开发--hadoop全套学习课程--百度网盘

hadoop2.x 介绍

haima malala aotuo towin hadoop 2.x(二)大数据视频课程

尚硅谷hadoop3.x上课资料

spark-3.3.0-bin-hadoop3.tg和spark-3.3.0-bin-without-hadoop.tgz

简述Hadoop版本区别。

JDK与hadoop的安装与配置

linux虚拟机安装hadoop

linux安装hadoop完全分布式

最新资源