腾讯TDW计算引擎：深度解析Shuffle在MapReduce与Spark中的关键作用

95 浏览量更新于2024-08-28 收藏 625KB PDF 举报

腾讯大数据之TDW计算引擎解析——Shuffle 腾讯分布式数据仓库(TDW)作为腾讯公司的重要离线数据处理平台，基于开源软件Hadoop和Hive构建，经过针对大规模数据和复杂计算场景的优化，已发展至大规模集群，日处理作业量庞大。为了适应多样化计算需求，TDW正朝着实时化方向演进，提供高效、稳定的服务。 TDW的计算引擎分为MapReduce和Spark两个部分，核心组件之一就是Shuffle，它是这两个引擎中的关键数据传输和重组操作。Shuffle的过程可以理解为将数据从无规则分布转变为有序分组，这对于MapReduce的两个主要阶段——Map和Reduce至关重要。Map阶段处理原始数据，生成中间结果，而Reduce阶段则需要这些有序的中间结果进行聚合计算。在MapReduce中，Shuffle涉及以下几个步骤： 1. **Spill过程**：当内存不足以存储所有中间结果时，Map任务会将数据写入磁盘，即Spill，包括排序、溢写和合并操作，确保数据有序性。 2. **Collect**：Map任务不断收集<key,value>对，并放入内存中的环形数据结构Kvbuffer，同时存储索引数据（Kvmeta）以支持快速查找。 Spark引擎同样包含Shuffle，但其性能优化显著，尤其是在实时计算场景中。与MapReduce相比，Spark的Shuffle通常更为高效，因为它使用内存计算和局部性原理，减少了磁盘I/O，从而提升了整体计算速度。对TDW来说，深入理解Shuffle并优化这一过程至关重要。通过对比MapReduce和Spark的Shuffle机制，可以挖掘出更高效的执行策略，降低延迟，提升资源利用率。未来，随着技术的发展，TDW将继续优化Shuffle，可能采用新的内存管理技术、数据分区策略或分布式计算架构，以实现更卓越的性能和扩展性。 Shuffle是TDW计算引擎中不可或缺的核心技术，它对于处理大规模数据、保证计算效率和优化资源分配起着决定性作用。深入研究和优化Shuffle是推动TDW进一步提升性能和服务质量的关键。

腾讯大数据之腾讯大数据之TDW计算引擎解析计算引擎解析——Shuffle

腾讯分布式数据仓库（Tencent distributed Data Warehouse, 简称TDW）基于开源软件Hadoop和Hive进行构建，并且根据公

司数据量大、计算复杂等特定情况进行了大量优化和改造，目前单集群最大规模达到5600台，每日作业数达到100多万，已经

成为公司最大的离线数据处理平台。为了满足用户更加多样的计算需求，TDW也在向实时化方向发展，为用户提供更加高

效、稳定、丰富的服务。

TDW计算引擎包括两部分：一个是偏离线的MapReduce，一个是偏实时的Spark，两者内部都包含了一个重要的过程——

Shuffle。本文对Shuffle过程进行解析，并对两个计算引擎的Shuffle过程进行比较，对后续的优化方向进行思考和探索，期待

经过我们不断的努力，TDW计算引擎运行地更好。

Shuffle过程介绍过程介绍

MapReduce的的Shuffle过程介绍过程介绍

Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle

更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。

为什么MapReduce计算模型需要Shuffle过程？我们都知道MapReduce计算模型一般包括两个重要的阶段：Map是映射，负责

数据的过滤分发；Reduce是规约，负责数据的计算归并。Reduce的数据来源于Map，Map的输出即是Reduce的输

入，Reduce需要通过Shuffle来获取数据。

从Map输出到Reduce输入的整个过程可以广义地称为Shuffle。Shuffle横跨Map端和Reduce端，在Map端包括Spill过程，在

Reduce端包括copy和sort过程，如图所示：

Spill过程过程

Spill过程包括输出、排序、溢写、合并等步骤，如图所示：

Collect

每个Map任务不断地以<key, value>对的形式把数据输出到在内存中构造的一个环形数据结构中。使用环形数据结构是为了更

有效地使用内存空间，在内存中放置尽可能多的数据。

这个数据结构其实就是个字节数组，叫Kvbuffer，名如其义，但是这里面不光放置了<key, value>数据，还放置了一些索引数

据，给放置索引数据的区域起了一个Kvmeta的别名，在Kvbuffer的一块区域上穿了一个IntBuffer（字节序采用的是平台自身的

字节序）的马甲。<key, value>数据区域和索引数据区域在Kvbuffer中是相邻不重叠的两个区域，用一个分界点来划分两者，

分界点不是亘古不变的，而是每次Spill之后都会更新一次。初始的分界点是0，<key, value>数据的存储方向是向上增长，索

引数据的存储方向是向下增长，如图所示：

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38727087

粉丝: 6
资源: 965

腾讯TDW计算引擎：深度解析Shuffle在MapReduce与Spark中的关键作用

腾讯TDW用户手册(海量数据)

从TDW-Hive到TDW-Spark-SQL_ 腾讯TDW数据引擎演进之路

画个图 讲解一个简单的pipeline lambda 流程

Java语言编程基础及Web开发入门教程：Java 是一种广泛使用的面向对象编程语言，以其平台无关性和安全性著称 Java 不仅

5345-微信小程序校园二手交易平台小程序（源码+数据库）.zip

基于 Flask 和 MongoDB 的任务管理项目.zip

5104-微信小程序小说实体书商城+ssm（源码+数据库+lun文）.zip

最新资源

画个图讲解一个简单的pipeline lambda 流程