Hadoop MapReduce：打造大数据处理的超级计算机

版权申诉

152 浏览量更新于2024-07-13 收藏 321KB PDF 举报

Hadoop MapReduce教程深入解析在Java__Hadoop_MapReduce教程中，我们探讨了Apache Hadoop这个强大的分布式计算框架，特别关注其MapReduce模型。Hadoop的核心理念在于将大量数据分布在多台廉价硬件上，形成一个高性能且容错的超级计算机集群，用于处理大规模数据处理任务。 1. **集群构建与优势**: Hadoop通过将众多普通机器组织成一个分布式系统，每个机器可能包含多个CPU核心和大量存储空间，从而实现高性能计算。MapReduce允许任务在这些节点间并行执行，提高了处理能力。对于大数据集（TB级别），Hadoop通过减少网络I/O，将计算任务分解为Map和Reduce阶段，确保数据在本地或局域网内传输，显著降低了I/O延迟，并支持缓存，进一步提高效率。 2. **数据管理与容错性**: Hadoop作为一个分布式文件系统，提供了一个高效的存储解决方案。数据会被分散存储在多个地理位置，这样不仅提升了读取速度，还实现了数据冗余和灾难恢复。Hadoop能动态管理数据节点，通过高强的错误检测和恢复机制，减少数据丢失风险。 3. **实际应用示例**: Nutch搜索引擎的网页抓取和PageRank计算、QQ空间的日志分析（如PV和UV统计）是Hadoop MapReduce在实际场景中的典型应用，展示了其在大规模数据处理中的强大威力。 4. **学习路径**: 该教程的目标是为用户提供一个全面的用户视角，帮助初学者理解和掌握Hadoop MapReduce框架。读者需要确保Hadoop已正确安装、配置并运行，可以参考《Hadoop快速入门》和《大规模分布式集群搭建》等资料。 5. **工作流程**: 一个典型的MapReduce作业首先将输入数据划分为独立的数据块，map任务并行处理这些块。map阶段输出的数据会进行排序，然后由reduce任务合并和分析结果，整个过程既高效又可靠。总结来说，Hadoop MapReduce教程深入讲解了如何利用Hadoop构建高性能、可扩展的分布式计算环境，处理海量数据，及其在实际项目中的应用和实施步骤。这对于数据科学家、工程师和想要理解大数据处理的同学来说，是一份不可或缺的学习资源。

< Hadoop, 1>

< Goodbye, 1>

< Hadoop, 1>

关于组成一个指定作业的 map数目的确定，以及如何以更精细的方式去控制这些

map，我们将在教程的后续部分学习到更多的内容。

WordCount还指定了一个 combiner (46 行) 。因此，每次 map运行之后，会对输

出按照 key 进行排序，然后把输出传递给本地的 combiner （按照作业的配置与

Reducer 一样），进行本地聚合。

第一个 map的输出是：

< Bye, 1>

< Hello, 1>

< World, 2>

第二个 map的输出是：

< Goodbye, 1>

< Hadoop, 2>

< Hello, 1>

Reducer(28-36 行) 中的 reduce 方法 (29-35 行) 仅是将每个 key（本例中就是单

词）出现的次数求和。

因此这个作业的输出就是：

< Bye, 1>

< Goodbye, 1>

< Hadoop, 2>

< Hello, 2>

< World, 2>

代码中的 run 方法中指定了作业的几个方面，例如：通过命令行传递过来的输

入/ 输出路径、key/value 的类型、输入 / 输出的格式等等 JobConf 中的配置信息。

随后程序调用了 JobClient.runJob(55 行) 来提交作业并且监控它的执行。

我们将在本教程的后续部分学习更多的关于 JobConf， JobClient ， Tool 和其

他接口及类 (class) 。

Map/Reduce - 用户界面

这部分文档为用户将会面临的 Map/Reduce框架中的各个环节提供了适当的细

节。这应该会帮助用户更细粒度地去实现、配置和调优作业。然而，请注意每个

类/ 接口的 javadoc 文档提供最全面的文档；本文只是想起到指南的作用。

我们会先看看 Mapper 和 Reducer 接口。应用程序通常会通过提供 map和 reduce

方法来实现它们。

然后，我们会讨论其他的核心接口，其中包括： JobConf ，JobClient ，

Partitioner ， OutputCollector ，Reporter ， InputFormat ，OutputFormat 等

等。

最后，我们将通过讨论框架中一些有用的功能点（例如： DistributedCache ，

IsolationRunner 等等）来收尾。

核心功能描述

应用程序通常会通过提供 map和 reduce 来实现 Mapper 和 Reducer 接口，它们

组成作业的核心。

Mapper

Mapper将输入键值对 (key/value pair) 映射到一组中间格式的键值对集合。

Map是一类将输入记录集转换为中间格式记录集的独立任务。这种转换的中间

格式记录集不需要与输入记录集的类型一致。一个给定的输入键值对可以映射成

0 个或多个输出键值对。

Hadoop Map/Reduce框架为每一个 InputSplit 产生一个 map任务，而每个

InputSplit 是由该作业的 InputFormat 产生的。

概括地说，对 Mapper的实现者需要重写 JobConfigurable.configure(JobConf)

方法，这个方法需要传递一个 JobConf 参数，目的是完成 Mapper的初始化工作。

然后，框架为这个任务的 InputSplit 中每个键值对调用一次

map(WritableComparable, Writable, OutputCollector, Reporter) 操作。应用

程序可以通过重写 Closeable.close() 方法来执行相应的清理工作。

输出键值对不需要与输入键值对的类型一致。一个给定的输入键值对可以映射成

0 个或多个输出键值对。通过调用

OutputCollector.collect(WritableComparable,Writable) 可以收集输出的键

值对。

应用程序可以使用 Reporter 报告进度，设定应用级别的状态消息，更新 Counters

（计数器），或者仅是表明自己运行正常。

框架随后会把与一个特定 key 关联的所有中间过程的值（ value ）分成组，然后

把它们传给 Reducer 以产出最终的结果。用户可以通过

JobConf.setOutputKeyComparatorClass(Class) 来指定具体负责分组的

剩余38页未读，继续阅读

xuedaozhijing

粉丝: 0
资源: 6万+

Hadoop MapReduce：打造大数据处理的超级计算机

Hadoop.MapReduce.v2.Cookbook pdf

Mapreduce实现KNN算法和K-means算法.zip_bottleudc_hadoop_java_mapReduce_p

Hadoop MapReduce教程.pdf

hdfs_design.rar_HDFS-OPERATE_hadoop_hadoop java_hdfs

在Windows上安装Hadoop教程.zip_YJVH_hadoop_hadoop book

windows下配置hadoop和mapreduce.pdf

Hadoop MapReduce.pdf

6.Hadoop入门进阶课程_第6周_MapReduce应用案例.pdf

5.Hadoop入门进阶课程_第5周_MapReduce原理及操作.pdf

大数据教程之搭建Hadoop集群.zip_大数据环境搭建hadoop

最新资源