mapreduce的shuffle去重
时间: 2023-08-23 13:14:16 浏览: 104
在MapReduce中,shuffle过程可以用于去重。在shuffle过程中,相同key的数据会被聚集在一起,并传递给reduce节点进行处理。对于数据去重问题,可以将数据作为key,而对应的value可以设置为空。当reduce节点接收到相同的key时,只需要将key复制到输出的key中,并将value设置为空值,然后输出即可实现去重。这样,在reduce的输出中,每个key只会出现一次,实现了数据的去重操作。\[1\]
#### 引用[.reference_title]
- *1* [Mapreduce实例(三):数据去重](https://blog.csdn.net/u011109589/article/details/125066617)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
- *2* *3* [MapReduce 基础案例 之 数据去重](https://blog.csdn.net/qq_38924171/article/details/100531904)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]
阅读全文