MapReduce基础：原理与单词计数示例

需积分: 10 173 浏览量更新于2024-09-09 收藏 23KB DOCX 举报

MapReduce是一种分布式计算模型，由Google开发并广泛应用于大规模数据处理场景中，如搜索引擎和日志分析等。它的核心理念是将复杂的计算任务分解成一系列独立的小任务，然后在多台机器上并行执行，最后汇总结果。这个模型主要由两个阶段构成：Map阶段和Reduce阶段。 **Map阶段** Map阶段是处理数据的第一步，其主要任务是对输入数据进行初步处理，通常是键值对形式（key-value pairs）。在这个例子中，文件"helloyou"和"hellome"被读取，每个单词被视为一个键，而键对应的频率作为一个值。使用`FileInputFormat`类从Hadoop Distributed File System (HDFS) 中读取数据，数据按行拆分，每行作为一个输入给`Mapper`类。例如，第一次调用`map`函数时，key为0，value为"helloyou"，将其分割后得到键值对<hello,1>。因为有两个输入行，所以`map`函数会被调用两次，分别处理两行文本，生成四个键值对。 **Reducer阶段** Reduce阶段是对Map阶段的结果进行汇总和清洗。在默认情况下，只有一个分区，所有map输出的键值对都会被发送到同一个Reducer。Reducer接收到这些键值对后，会对具有相同键的值进行累加，比如在我们的例子中，<hello,1>和<hello,1>会被合并，最终得到<hello,2>。由于只有一个单词"me"，所以它对应的键值对<me,1>保持不变。 **Map数量与分区** Map阶段的数量取决于输入数据块的数量，每个数据块在分布式存储中都有一个独立的DataNode。而`map`函数的调用次数则由文件中的行数决定。分区的数量可以通过配置调整，它对性能有着重要影响，过多或过少的分区可能导致性能瓶颈或资源浪费。 MapReduce的核心在于通过将数据切分成小块并在多个节点上并行处理，然后在Reduce阶段汇总结果，实现了大数据的高效处理。在实际应用中，为了优化性能，开发者需要根据数据规模、硬件资源以及具体业务需求灵活配置Map和Reduce阶段的参数，如分区数、mapper和reducer的数量等。对于给定的单词计数业务，虽然代码示例简单，但展示了MapReduce模型的基本工作流程和关键概念。

1.1.4. 对每个分区中的 kv 对进行排序

按照 k 的大小进行排序，按照字典排序。

上面的输出排序后的结果是<hello, 1>,<hello, 1>,<me, 1>,<you, 1>。

1.1.5. 对每个分区排序后的 kv 对进行分组

上面排序后的数据分组后是<hello, {1, 1}>,<me,{1}>,<you, {1}>。分成了 3 组。

分组不会影响 kv 对的数量，分组后有 4 个 kv 对。

1.1.6. (可选)对分组后的数据执行 combiner

1.2. reduce 阶段的执行过程

1.2.1. shue

map 程序和 reduce 程序不一定在同一个节点上。

reduce 要通过网络读取 map 阶段运行的结果。每个分区对应一个 reduce 进程。相同分区的

数据进入同一个 reduce 进程。有多少个分区就有多少个 reduce 进程。

数据从 map 节点传输到 reduce 节点，因为不同 map 节点中相同分区的数据会被传输到同

一个 reduce 中，所以数据在网络中传输的时候，死乱死乱的，称作 shu8e 过程。【shu8e

的本义指的是扑克牌中的洗牌过程】

shu8e 实际上是 map 输出的数据通过网络传输到 reduce 节点的过程。

1.2.2. reduce 函数处理数据

reduce 接收的是分组后的数据。

public class Reducer{

public void reduce(key, values, context){

剩余11页未读，继续阅读

逍遥僧

粉丝: 0
资源: 5

MapReduce基础：原理与单词计数示例

深入理解MapReduce运行原理及案例分析

Hadoop MapReduce实战：从单词计数到矩阵运算与网页排名

Hive原理与MapReduce详解

基于MapReduce的Apriori算法代码及其使用

hadoop中 MapReduce学习代码WordCount

Hadoop应用系列2--MapReduce原理浅析(上)

Hadoop原理与技术MapReduce实验

MapReduce的原理及应用

MapReduce工作原理揭秘：WordCount案例深度解析与实践

MapReduce的原理与实践：揭开分布式计算的神秘面纱

最新资源