以WordCount为例,简述MapReduce的执行过程。假设输入为“1.Hello world by world”, “2. Hello Hadoop by Hadoop”, “3. Bye Hadoop hello Hadoop”
时间: 2024-06-07 09:06:42 浏览: 17
以WordCount为例,MapReduce的执行过程如下:
1. Map阶段:将输入数据分割成若干个小数据块,每个小数据块由Map任务处理。对于每个小数据块,Map任务将其处理为中间键值对,即将每个单词作为键,将其出现次数作为值,输出为中间键值对(word, 1)。
对于输入数据:
1.Hello world by world
2. Hello Hadoop by Hadoop
3. Bye Hadoop hello Hadoop
Map任务将其处理成中间键值对:
(Hello, 1) (world, 1) (by, 1) (world, 1)
(Hello, 1) (Hadoop, 1) (by, 1) (Hadoop, 1)
(Bye, 1) (Hadoop, 1) (hello, 1) (Hadoop, 1)
2. Shuffle阶段:将Map任务输出的中间键值对按照键进行分组,相同键的值放在同一个组内,并按照键进行排序。对于上述中间键值对,将按键进行分组和排序后得到:
(Bye, 1)
(Hadoop, 1) (Hadoop, 1) (Hadoop, 1)
(Hello, 1) (Hello, 1)
(by, 1) (by, 1)
(hello, 1)
3. Reduce阶段:将Shuffle阶段输出的组进行Reduce操作,对每个组的键值对进行统计,统计出每个单词的出现次数。对于上述组,Reduce任务将其处理为键值对(word, count)。
最终输出结果为:
(Bye, 1)
(Hadoop, 3)
(Hello, 2)
(by, 2)
(hello, 1)
(world, 2)
以上就是MapReduce的执行过程。
相关推荐
![gz](https://img-home.csdnimg.cn/images/20210720083447.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![doc](https://img-home.csdnimg.cn/images/20210720083327.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)