Hadoop分布式框架详解：从1.0到2.0

4星 · 超过85%的资源需积分: 10 77 浏览量更新于2024-07-24 1 收藏 925KB PPTX 举报

"这篇资料详细介绍了Hadoop，包括Hadoop 1.0和2.0的架构、编程以及部署方面，旨在深入理解这个分布式存储和计算框架。" Hadoop是Apache软件基金会开发的一个开源框架，它允许在廉价硬件上进行大规模数据处理。此资料主要分为以下几个部分： 1. **Hadoop 1.0架构**： Hadoop 1.0的核心由两个主要组件构成：HDFS（Hadoop Distributed File System）和MapReduce。HDFS提供了分布式文件系统，将大型数据集分割成块并分布在多台机器上。MapReduce则是一种并行处理模型，通过Map阶段将任务分解，然后在Reduce阶段进行聚合。 2. **Hadoop 1.0编程**：开发者使用Java编写Map和Reduce函数，这些函数在Hadoop集群中运行。Map函数对输入数据进行处理，Reduce函数则整合Map的结果。在这个版本中，JobTracker负责作业调度和任务监控，TaskTracker管理节点上的任务执行。 3. **Hadoop 1.0弊端**： Hadoop 1.0的主要问题是单点故障，因为JobTracker和NameNode都是单个的中心节点，如果它们失败，整个系统可能会受到影响。此外，数据处理效率不高，因为所有Reduce任务都要等待所有Map任务完成。 4. **Hadoop 2.0架构**：为了克服1.0的局限性，Hadoop 2.0引入了YARN（Yet Another Resource Negotiator），将JobTracker的功能拆分成ResourceManager和ApplicationMaster，提高了资源管理和调度的效率。同时，NameNode的高可用性也被增强，可以通过备用NameNode实现。 5. **Hadoop 2.0编程**：在Hadoop 2.0中，开发者仍然使用MapReduce，但API有所改进，支持更灵活的编程模型，如Spark和Tez，这些可以在YARN上运行，提供更高的处理速度。 6. **Hadoop 2.0部署**：部署Hadoop 2.0涉及安装配置HDFS、YARN以及其他的生态系统组件，如Hive、Pig等。集群的扩展性和容错性是部署时的关键考虑因素。 Hadoop的设计理念在于通过分布式计算解决大数据问题，提供高容错性和可扩展性。在分布式引例中，资料通过一个简单的场景展示了如何通过分布式存储和计算解决存储和计算的问题，尤其是在处理大规模数据时的优势。通过Map、Shuffle和Reduce步骤，可以有效地分发计算任务，提高处理效率，并通过数据冗余确保系统的可靠性。

分布式存储架构思路

分布式引例

分布式解决方案

第一类问题存储

思路



取 M01 ， M02 ， M99



构建 master/slave 体系分布式集群

规定



M99 ：不做存储，统一管理 M01 ， M02 硬盘空

间



M01 ， M02 ：存储具体文件

M99

M01

M02

M99

M01

M02

M99

M01

M02

存储问题②

由于硬盘空间大，可任意存

存储问题①

由于硬盘连在一起，可任意存

le01

le0

采用分布式 -- 存储问题全部解决

Hadoop 里 Hdfs 架构思想

由于采用 master/slave 架构，很容易添加

slave

M03

M0X

存储

主节点

存储

主节点

存储

主节点

剩余43页未读，继续阅读

boss0000

粉丝: 12
资源: 1

Hadoop分布式框架详解：从1.0到2.0

详解Hadoop核心架构HDFS

详解Hadoop.2013

详解hadoop1.0、hadoop2.0，和hadoop三大组件和三驾马车

hive安装与配置详解hadoop2.7

hadoop安装与配置详解

Hadoop中Properties类详解

hadoop配置文件详解

hadoop配置详解

Hadoop的distcp命令携带参数详解

Hadoop组件详解

最新资源