Hadoop入门与学习：分布式存储与计算解析

需积分: 8 19 浏览量更新于2024-07-16 1 收藏 6.05MB PDF 举报

"这是一份关于Hadoop学习的笔记，涵盖了Hadoop的基本概念、安装、使用以及分布式计算和存储的相关知识，适合Hadoop初学者。笔记中提到了如何处理大规模数据的重复行查找问题，并介绍了Hadoop的三大核心模块：HDFS、MapReduce和YARN，以及Hadoop生态系统中的其他技术如Hive、Hbase和Spark。" 在Hadoop学习笔记中，首先提出了一个实际问题：如何在一台普通计算机上查找1TB大文件中的重复行。笔记提出了两种思路。思路一是基于冒泡排序思想，逐行比较并清除内存中的旧数据，但这种方法效率低下。思路二是通过计算哈希值将大文件拆分成小文件，按哈希值对文件进行分组，这样能有效减少比较次数。接着，笔记详细介绍了Hadoop的三大核心模块： 1. **分布式存储系统HDFS (Hadoop Distributed File System)**：HDFS设计用于可靠、可扩展且高吞吐量的数据存储。它将大文件分割成块（Block），每个块有固定的大小，通常为128MB或256MB，且可以设置副本数以提高容错性。HDFS遵循一次写入、多次读取的原则，不支持块内的修改，但允许追加数据。NameNode作为主节点负责存储文件元数据，而DataNode作为从节点保存实际的Block数据，两者通过心跳机制保持通信。 2. **分布式计算框架MapReduce**：MapReduce简化了大规模数据处理的编程模型，具有易编程、高容错和高扩展性的特点。它将任务分解为Map阶段和Reduce阶段，Map阶段处理数据并将结果暂存，Reduce阶段聚合这些结果以生成最终输出。 3. **分布式资源管理框架YARN**：YARN负责集群资源的管理和调度，为Hadoop提供了一个通用的资源管理层，使得除了MapReduce之外的其他计算框架也能在Hadoop集群上运行。 Hadoop的生态系统还包括了其他组件，例如： - **Hive**：一个基于Hadoop的数据仓库工具，用于数据查询和分析，支持SQL-like语言（HQL）。 - **HBase**：一个分布式的、面向列的NoSQL数据库，运行在HDFS之上，提供实时读写操作。 - **Spark**：快速、通用且可扩展的大数据处理框架，支持批处理、交互式查询和实时流处理，与Hadoop兼容。这些组件共同构建了强大的大数据处理平台，使得开发者能够高效地处理PB级别的数据。通过学习这份笔记，读者将对Hadoop有深入的理解，并具备处理大数据问题的基础能力。

</property>

</configuration>

[root@node01 hadoop]# vi slaves

node02

node03

node04

4. 将 node01 的 hadoop 安装目录分发给其他节点

[root@node01 sxt]# scp -r hadoop-2.6.5 node02:`pwd`

[root@node01 sxt]# scp -r hadoop-2.6.5 node03:`pwd`

[root@node01 sxt]# scp -r hadoop-2.6.5 node04:`pwd`

5. 格式化文件系统（只在第一次启动时格式化）

[root@node01 sxt]# hdfs namenode -format

6. 启动服务

[root@node01 sxt]# start-dfs.sh

Starting namenodes on [node01]

node01: starting namenode, logging to /opt/sxt/hadoop-2.6.5/logs/hadoop-root-namenode-

node01.out

node04: starting datanode, logging to /opt/sxt/hadoop-2.6.5/logs/hadoop-root-datanode-

node04.out

node02: starting datanode, logging to /opt/sxt/hadoop-2.6.5/logs/hadoop-root-datanode-

node02.out

node03: starting datanode, logging to /opt/sxt/hadoop-2.6.5/logs/hadoop-root-datanode-

node03.out

Starting secondary namenodes [node02]

node02: starting secondarynamenode, logging to /opt/sxt/hadoop-2.6.5/logs/hadoop-root-

secondarynamenode-node02.out

7. 进行一些操作

[root@node01 ~]# for i in `seq 100000`;do echo "$i Hello sxt You Are Good" >>

/tmp/hello.txt;done

[root@node01 ~]# hdfs dfs -D dfs.blocksize=1048576 -put /tmp/hello.txt

#hdfs 切割文件时，按照字节来切分，思考，如果是中文，怎么切割？

了，为了保持 SNN 实时的与 ANN 的元数据保持一致，他们之间交互通过一系列守护的轻

量级进程 JournalNode。基本原理就是用 2N+1 台 JN 存储 editlog，每次写数据操作有超过

半数（>=N+1）返回成功时即认为该次写成功，数据不会丢失了。当然这个算法所能容忍

的是最多有 N 台机器挂掉，如果多于 N 台挂掉，这个算法就失效了。任何修改操作在 ANN

上执行时，JN 进程同时也会记录修改 log 到至少半数以上的 JN 中，这时 SNN 监测到 JN 里

面的同步 log 发生变化了会读取 JN 里面的修改 log，然后同步到自己的的目录镜像树里

面。当发生故障时，ANN 挂掉后，SNN 会在它成为 ANN 前，读取所有的 JN 里面的修改日

志，这样就能高可靠的保证与挂掉的 NN 的目录镜像树一致，然后无缝的接替它的职责，

维护来自客户端请求，从而达到一个高可用的目的。

DN：同时向两个 NameNode 汇报数据块信息（位置）。

两个 NN 之间的切换：

手动切换：通过命令实现主备之间的切换，可以用 HDFS 升级等场合。

自动切换：基于 Zookeeper 实现。

HDFS 2.x 提供了 ZookeeperFailoverController 角色，部署在每个 NameNode 的节点上，

作为一个 deamon 进程, 简称 zkfc，zkfc 主要包括三个组件：

HealthMonitor：监控 NameNode 是否处于 unavailable 或 unhealthy 状态。当前通过

RPC 调用 NN 相应的方法完成。

ActiveStandbyElector：管理和监控自己在 ZK 中的状态。

ZKFailoverController：它订阅 HealthMonitor 和 ActiveStandbyElector 的事件，并管理

NameNode 的状态。

ZKFailoverController 主要职责：

 健康监测：周期性的向它监控的 NN 发送健康探测命令，从而来确定某个

NameNode 是否处于健康状态，如果机器宕机，心跳失败，那么 zkfc 就会标记它

处于一个不健康的状态

 会话管理：如果 NN 是健康的，zkfc 就会在 zookeeper 中保持一个打开的会话，如

果 NameNode 同时还是 Active 状态的，那么 zkfc 还会在 Zookeeper 中占有一个类

型为短暂类型的 znode，当这个 NN 挂掉时，这个 znode 将会被删除，然后备用的

NN，将会得到这把锁，升级为主 NN，同时标记状态为 Active，当宕机的 NN 新启

动时，它会再次注册 zookeper，发现已经有 znode 锁了，便会自动变为 Standby

状态，如此往复循环，保证高可靠，需要注意，目前仅仅支持最多配置 2 个 NN.

 master 选举：如上所述，通过在 zookeeper 中维持一个短暂类型的 znode，来实

现抢占式的锁机制，从而判断那个 NameNode 为 Active 状态。

HDFS 2.x HA 搭建

角色划分

NN-1

NN-2

ZKFC

JNN

node01

√

node02

√

node03

√

node04

√

步骤：

剩余114页未读，继续阅读

则不达

粉丝: 10
资源: 5

Hadoop入门与学习：分布式存储与计算解析

学习大数据Hadoop的笔记，自己整理的比较条理

Hadoop学习笔记

最新Hadoop学习笔记

Exception in thread "main" org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.fs.FileAlreadyExi

java: 不兼容的类型: org.apache.hadoop.mapreduce.Job无法转换为org.apache.hadoop.mapred.JobConf

Exception in thread "main" java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V at org.apache.hadoop.conf.Configuration.set(Configuration.java:1357) at org.apache.hadoop.conf.Configurati

java.lang.Exception: java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.Text, received org.apache.hadoop.io.LongWritable

错误: 找不到或无法加载主类 jar.usr.local.hadoop-3.1.4.share.hadoop.mapreduce.hadoop-mapreduce-examples-3.1.4.jar

将org.apache.hadoop.io.Text类型的对象转换为org.apache.hadoop.hive.serde2.io.DateWritableV2类型的对象

最新资源