MapReduce：分布式计算框架详解

需积分: 10 142 浏览量更新于2024-07-17 1 收藏 1.07MB PDF 举报

"这篇文档介绍了分布式计算框架，特别是聚焦于MapReduce模型，由星环科技讲解。内容包括MapReduce的起源、基本概念、Mapper-Reducer的运行机制以及MR任务的监控与诊断。" MapReduce是一种分布式计算框架，起源于Google发布的MapReduce论文，其主要目的是解决搜索引擎中对大规模网页数据进行并行化处理的问题。该框架的核心思想是“分而治之”，即把大问题分解成小问题，然后在分布式环境中并行处理，最终将结果汇总。MapReduce的特点包括自动化并行和分布式计算，计算能力随着节点数增加近似线性递增，具有出错容忍机制，采用I/O调度策略（计算跟着数据走）以及提供状态监控功能。文档以WordCount为例，展示了MapReduce在词频统计中的应用。在这种场景下，MapReduce通过map函数将大量文本文件分解，逐行处理并提取单词，然后reduce函数负责聚合相同单词的计数，实现全局的词频统计。在MapReduce的运行机制中，作业（job）是客户端提交的待处理工作单元，包含了输入数据、MapReduce程序及配置信息。作业被拆分成多个任务（task），分为map任务和reduce任务。JobTracker作为主节点负责调度任务在TaskTracker节点上运行，并在任务失败时进行重试。TaskTracker作为工作节点，执行任务并向JobTracker报告进度。输入数据在Map阶段前被分割成若干等长的分片（split），每个分片由一个map任务处理。Map任务将原始数据转化为键值对，然后通过shuffle阶段，将相同键的值聚合在一起，传递给reduce任务。Reduce任务则对这些键值对进行进一步处理，如求和，得到最终结果。监控与诊断MR任务是确保系统稳定性和性能的关键环节。这通常涉及跟踪任务的执行状态，检查错误日志，以及在必要时进行故障排查和恢复操作。 MapReduce提供了处理大规模数据的强大工具，通过分布式计算解决了单机无法处理的海量数据问题，而其设计的容错机制和自动调度使得系统更健壮，适用于各种大数据处理场景。

2017-7-5 8

www.transwarp.cn

基本概念--分片split

• 分片的定义

– MapReduce把输入的数据划分成等长的小数据块，称为输入分片input split，简称分

片

• 分片大小

– 分片越小，负载越平衡

• 异构时根据计算机性能分配任务个数

• 失败重启更加平衡

– 分片越小，框架开销越大

• 每个分片一个map任务

• 管理分配的总时间和构建map任务时间变大

– 默认HDFS块大小，128MB

• 计算数据本地化

– 在本地存有HDFS数据的节点上运行map任务

剩余40页未读，继续阅读

yxpyqf

粉丝: 0

MapReduce：分布式计算框架详解

Fourinone分布式并行计算四合一框架

腾讯Angel平台(高性能分布式计算框架)v1.0.0官方正式版

一个神奇的分布式计算框架：jini

Fourinone分布式计算框架

云计算的分布式计算框架

diffusive:Java分布式计算框架

Python-分布式计算框架DPark

分布式计算框架Paracel.zip

Ray分布式计算框架介绍PPT

Hadoop之mr分布式计算机框架

最新资源