MapReduce与Spark Shuffle原理详解：数据转换关键

185 浏览量更新于2024-08-31 收藏 532KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

资源详情

资源推荐

MapReduceShuffle原理与原理与SparkShuffle原理原理

MapReduce的Shuffle过程介绍

Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle

更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。

为什么MapReduce计算模型需要Shuffle过程？我们都知道MapReduce计算模型一般包括两个重要的阶段：Map是映射，负责

数据的过滤分发；Reduce是规约，负责数据的计算归并。Reduce的数据来源于Map，Map的输出即是Reduce的输

入，Reduce需要通过Shuffle来获取数据。

从Map输出到Reduce输入的整个过程可以广义地称为Shuffle。Shuffle横跨Map端和Reduce端，在Map端包括Spill过程，在

Reduce端包括copy和sort过程，如图所示：

Spill过程

Spill过程包括输出、排序、溢写、合并等步骤，如图所示：

Collect

每个Map任务不断地以<key, value>对的形式把数据输出到在内存中构造的一个环形数据结构中。使用环形数据结构是为了更

有效地使用内存空间，在内存中放置尽可能多的数据。

这个数据结构其实就是个字节数组，叫Kvbuffer，名如其义，但是这里面不光放置了<key, value>数据，还放置了一些索引数

据，给放置索引数据的区域起了一个Kvmeta的别名，在Kvbuffer的一块区域上穿了一个IntBuffer（字节序采用的是平台自身的

字节序）的马甲。<key, value>数据区域和索引数据区域在Kvbuffer中是相邻不重叠的两个区域，用一个分界点来划分两者，

分界点不是亘古不变的，而是每次Spill之后都会更新一次。初始的分界点是0，<key, value>数据的存储方向是向上增长，索

引数据的存储方向是向下增长，如图所示：

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38743506

粉丝: 349
资源: 2万+

MapReduce与Spark Shuffle原理详解：数据转换关键

MapReduce技术原理深入理解.pdf

MapReduceshuffle过程剖析及调优

mapreduceshuffle

解除劳动合同五大热点问题及裁员概述.ppt

暴风TV 43X-45X-50X-55X、43B2-50B2-55B2升级程序

基于Springboot和Mysql的中小企业设备管理系统代码，包括程序，中文注释，配置说明操作步骤

暴风电视刷机数据 43X-45X-50X-55X、43B2-50B2-55B2升级程序 1.045版本

exv20240812.msg

基于Docker的在线Java实验平台（毕业设计）.zip

基于ssm的企业培训管理系统设计与实现.docx

基于ssm的高校学生比赛活动信息系统设计与实现.docx

基于JavaScript实现微信小程序音乐播放器源代码+文档说明（期末大作业&毕业设计）

智慧政务大数据解决方案.pdf

公司裁员人力资源表1.xlsx

matlab三电平statcom无功检测双闭环svpwm调制两电平 三电平逆变器拓扑，pq无功电流检测模块，直流电压外环电流内环

『人事全景图』人力资源管理模型.docx

基于S7-200 PLC和组态王组态污水处理控制系统的设计 1.1 研究的目的和意义 3 1.2 国内外发展概况 3 2 系统设

IMG_20240908_170746.jpg

labview框架 产线MES系统 物料管理，排产计划，设备管理，报表管理，功能齐全 扫码追溯 PLC通信 数据库存储 标签打印

1.html

最新资源

matlab三电平statcom无功检测双闭环svpwm调制两电平三电平逆变器拓扑，pq无功电流检测模块，直流电压外环电流内环

labview框架产线MES系统物料管理，排产计划，设备管理，报表管理，功能齐全扫码追溯 PLC通信数据库存储标签打印