Hadoop Map-Reduce编程模型详解

需积分: 9 67 浏览量更新于2024-07-23 收藏 1.26MB PDF 举报

"该资料是关于Map-Reduce体系架构的介绍，主要涵盖了Map-Reduce编程模型、Mapper和Reducer的功能解析，以及Shuffler的作用，并通过实例展示了Map-Reduce的工作流程。资料来源于DATAGURU专业数据分析网站，日期为2012年9月10日。" Map-Reduce是一种分布式计算模型，由Google于2004年提出，主要用于大规模数据集的并行处理。这一框架借鉴了函数式编程的概念，将复杂问题拆解为两个主要阶段：Map和Reduce，以及一个可选的Shuffle阶段，常用于大数据处理平台如Hadoop。 **Map阶段**： Map阶段是Map-Reduce的核心部分，其思想是“分而治之”。Mapper将输入数据集分割为多个独立的键值对，然后对每个键值对执行用户定义的映射函数。这个阶段的任务可以并行执行，且数据通常在本地节点上处理，以减少网络传输的开销。Mapper输出的一系列中间结果键值对会进一步被处理。 **Reduce阶段**： Reducer则负责聚合Map阶段产生的中间结果。Reducer的数量可以由配置参数`mapred.reduce.tasks`设定，默认为1，但可以根据需求调整。Reducer接收Mapper的输出，通过Shuffle阶段的排序和分区后，对相同键的值进行规约操作，生成最终结果。 **Shuffle阶段**： Shuffle阶段并非必须，但它在处理过程中起着关键作用。它将Mapper的输出按照键进行排序，并将具有相同键的值分组，确保所有属于同一键的数据都会被送到同一个Reducer。这样，Reducer可以对这些数据进行聚合计算，简化处理逻辑。 **Map-Reduce实例**：在实际应用中，Mapper通常执行数据过滤、转换等操作，Reducer则执行总计、分类或其他聚合操作。例如，一个简单的应用可能涉及Mapper将文本文件中的单词拆分成单个词，Reducer则计算每个词的出现次数。 **监控与调试**：在Hadoop环境中，可以通过JobTracker界面（如示例中的http://192.168.1.102:50030/jobtracker.jsp）监控Map-Reduce作业的进度和状态，查看作业页面以获取更详细的信息。 Map-Reduce提供了一种强大的工具，使得处理海量数据变得简单和高效，尤其适合大数据分析和互联网应用中的批量处理任务。它的设计理念和实现机制为现代大数据处理框架如Spark和Flink等奠定了基础。

DATAGURU专业数据分析网站

2012.9.10

Reducer

 对map阶段的结果进行汇总

 Reducer的数目由mapred-site.xml配置文件里的项目mapred.reduce.tasks决定。缺

省值为1，用户可以覆盖之

剩余30页未读，继续阅读

kcwang1020

粉丝: 0
资源: 8

Hadoop Map-Reduce编程模型详解

Map-Reduce原理体系架构和工作机制，eclipse与Hadoop集群连接

炼数成金 Hadoop 视频教程

云计算、Cloud computing 、map-reduce

Hadoop Map-Reduce原理与实战：Eclipse集群连接教程

Eclipse连接Hadoop集群实战：从安装到Map-Reduce开发

Eclipse连接Hadoop集群教程：Run方法与Map-Reduce开发

Solving-Classroom-Scheduling:开发了Hadoop Map-Reduce应用程序，该应用程序构建了从布法罗大学教室信息数据库收集的大小为4GB的数据集

Hadoop-体系架构（非常完整）

基于映射-归约分布式架构的城市轨道交通信号系统检测平台.pdf

基于Map/Reduce的分布式搜索引擎研究

最新资源