Hadoop入门：理解HDFS与MapReduce

需积分: 3 54 浏览量更新于2024-07-31 收藏 98KB DOC 举报

Hadoop学习笔记主要围绕Apache Hadoop框架展开，这是一个开源的大数据处理平台，最初是由Google的GFS（Google File System）和MapReduce算法的开源实现发展而来。Hadoop的核心组件包括Hadoop Distributed File System (HDFS) 和 MapReduce模型。 1. **HDFS** (Hadoop Distributed File System): - HDFS是Hadoop的核心组成部分，它是一个高度容错的分布式文件系统，能够在廉价的硬件上高效运行，特别适合处理大规模数据集。 - HDFS采用master-slave架构，NameNode作为主节点，负责全局命名空间的管理和元数据存储，而DataNodes作为从节点，负责数据块的存储和读写。 - 用户可以使用类似于传统文件系统的方式操作HDFS，如创建、删除文件，移动文件等，但其底层机制更为健壮，能容忍节点故障。 2. **MapReduce的实现**: - MapReduce是一种编程模型，最初是Google为了处理海量数据而设计的，后来被Hadoop采纳并加以优化。 - MapReduce分为两个阶段：Map阶段，将输入数据划分为多个小任务并交给不同的节点处理；Reduce阶段，收集Map阶段的结果进行汇总和排序。 - 在Hadoop中，MapReduce API提供了一种简洁的方式来编写并运行这些分布式计算任务，使得复杂的数据处理任务可以并行化执行，显著提高了处理能力。 3. **Hadoop的发展历程**: - Hadoop起源于Nutch项目，Nutch是一个基于Lucene的搜索引擎，而Lucene是一个强大的全文搜索库。Nutch早期版本包含了HDFS和MapReduce，但从Nutch 0.8.0开始，这两个组件独立出来形成了Hadoop项目。 - Nutch 0.8.0后的Hadoop成为了一个独立的分布式计算平台，利用GFS和MapReduce实现了大规模数据处理，使其能够适应更广泛的应用场景。 4. **Hadoop的应用范围**: - Hadoop的设计目标不仅限于存储，而是作为一个分布式计算框架，支持各种分布式应用程序的开发和执行，尤其适用于那些需要处理大量数据且难以放在单台机器上处理的任务。通过学习Hadoop，开发者能够掌握如何在大规模分布式环境中进行数据处理，这对现代大数据分析、云计算等领域至关重要。后续的学习可能会深入探讨Hadoop的安装配置、编程接口、性能优化以及与Spark等其他大数据技术的对比。

Hadoop 学习笔记

HDFS 采取了副本策略，其目的是为了提高系统的可靠性，可

用性。HDFS 的副本放置策略是三个副本，一个放在本节点上，一

个放在同一机架中的另一个节点上，还有一个副本放在另一个不同

的机架中的一个节点上。当前版本的 hadoop0.12.0 中还没有实现，

但是正在进行中，相信不久就可以出来了。

2、MapReduce 的实现

MapReduce 是 Google 的一项重要技术，它是一个编程模型，

用以进行大数据量的计算。对于大数据量的计算，通常采用的处理

手法就是并行计算。至少现阶段而言，对许多开发人员来说，并行

计算还是一个比较遥远的东西。MapReduce 就是一种简化并行计

算的编程模型，它让那些没有多少并行计算经验的开发人员也可以

开发并行应用。

MapReduce 的名字源于这个模型中的两项核心操作：Map 和

Reduce。也许熟悉 Functional Programming（函数式编程）的

人见到这两个词会倍感亲切。简单的说来，Map 是把一组数据一对

一的映射为另外的一组数据，其映射的规则由一个函数来指定，比

如对[1, 2, 3, 4]进行乘 2 的映射就变成了[2, 4, 6, 8]。Reduce 是

对一组数据进行归约，这个归约的规则由一个函数指定，比如对[1,

2, 3, 4]进行求和的归约得到结果是 10，而对它进行求积的归约结

果是 24。

剩余23页未读，继续阅读

wminglun

粉丝: 0
资源: 2

Hadoop入门：理解HDFS与MapReduce

最新Hadoop学习笔记

Hadoop 学习笔记.md

hadoop学习笔记 hadoop基础知识

Hadoop使用学习笔记（5）

linux进入hadoop取数

大海哥hadoop笔记

尚硅谷hadoop笔记

基于hadoop与python的笔记本数据分析可视化

kafka学习笔记尚硅谷

尚硅谷Hadoop客户端代码

最新资源