分布式计算框架与资源调度及其特殊组件的研究综述

需积分: 0 59 浏览量更新于2024-01-19 收藏 1.5MB DOCX 举报

第1章分布式计算框架与资源调度 1.1 分布式计算框架分布式计算框架是一种用于处理大规模数据和计算任务的技术架构。它将计算任务分解为多个小任务，并将这些小任务分配给多台计算机进行并行处理，从而实现快速高效的计算。 1.1.1 编程模型在分布式计算框架中，编程模型是一种定义计算任务和数据传输方式的规范。常见的编程模型包括MapReduce模型、Spark模型等。 MapReduce模型是一种将计算任务划分为两个阶段的模型，即Map阶段和Reduce阶段。在Map阶段，输入数据被分割成多个小数据块，并由多个计算节点分别处理。在Reduce阶段，计算节点将Map阶段的结果进行合并和汇总。 Spark模型是一种基于内存的分布式计算模型，相比于MapReduce模型具有更快的计算速度和更灵活的编程方式。Spark模型支持多种数据处理操作，如map、reduce、filter等，并且可以在不同的节点之间共享数据。 1.1.2 特殊的组件 partitioner 与 combiner 在分布式计算框架中，partitioner和combiner是两个特殊的组件，用于优化任务的执行效率。 partitioner组件用于将输入数据划分为多个数据块，并将这些数据块分配给不同的计算节点进行处理。通过合理划分数据块，可以实现负载均衡和任务并行化，从而提高计算速度。 combiner组件用于在Map阶段的输出结果中进行本地汇总。它可以将相同键的数据进行局部计算，并将计算结果发送给Reducer节点。通过在Map阶段进行一部分计算，可以减少网络传输和Reducer节点的计算量，进而提升整体性能。第一章分布式计算框架与资源调度 1.1 分布式计算框架分布式计算框架是一种用于处理大规模数据和计算任务的技术架构。它将计算任务分解为多个小任务，并将这些小任务分配给多台计算机进行并行处理，从而实现快速高效的计算。 1.1.1 编程模型在分布式计算框架中，编程模型是一种定义计算任务和数据传输方式的规范。常见的编程模型包括MapReduce模型、Spark模型等。 MapReduce模型是一种将计算任务划分为两个阶段的模型，即Map阶段和Reduce阶段。在Map阶段，输入数据被分割成多个小数据块，并由多个计算节点分别处理。在Reduce阶段，计算节点将Map阶段的结果进行合并和汇总。 Spark模型是一种基于内存的分布式计算模型，相比于MapReduce模型具有更快的计算速度和更灵活的编程方式。Spark模型支持多种数据处理操作，如map、reduce、filter等，并且可以在不同的节点之间共享数据。 1.1.2 特殊的组件 partitioner 与 combiner 在分布式计算框架中，partitioner和combiner是两个特殊的组件，用于优化任务的执行效率。 partitioner组件用于将输入数据划分为多个数据块，并将这些数据块分配给不同的计算节点进行处理。通过合理划分数据块，可以实现负载均衡和任务并行化，从而提高计算速度。 combiner组件用于在Map阶段的输出结果中进行本地汇总。它可以将相同键的数据进行局部计算，并将计算结果发送给Reducer节点。通过在Map阶段进行一部分计算，可以减少网络传输和Reducer节点的计算量，进而提升整体性能。总结：第一章介绍了分布式计算框架与资源调度的基本概念和组件。分布式计算框架通过将计算任务分解为多个小任务，并利用多台计算机进行并行处理，实现了快速高效的计算。常见的编程模型有MapReduce模型和Spark模型，它们分别通过不同的方式定义了计算任务和数据传输方式。此外，partitioner和combiner作为特殊的组件，用于优化任务的执行效率。通过合理划分数据块和在Map阶段进行一部分计算，可以提高计算速度和整体性能。

6.9.3 资源参数参考示例.............................................................................................................339

6.10 数据倾斜调优......................................................................................................................340

6.10.1 调优概述...............................................................................................................................340

6.10.2 数据倾斜发生时的现象....................................................................................................340

6.10.3 数据倾斜发生的原理........................................................................................................340

6.10.4 如何定位导致数据倾斜的代码......................................................................................341

6.10.5 查看导致数据倾斜的 key 的数据分布情况...............................................................344

6.10.6 数据倾斜的解决方案........................................................................................................345

6.11 shuffle 调优.......................................................................................................................358

6.11.1 调优概述...............................................................................................................................358

6.11.2 ShuffleManager 发展概述..............................................................................................358

6.11.3 HashShuffleManager 运行原理.....................................................................................358

6.11.4 SortShuffleManager 运行原理.....................................................................................360

6.11.5 shuffle 相关参数调优.....................................................................................................362

6.12 Spark 面试题汇总..............................................................................................................365

1. spark 中的 RDD 是什么，有哪些特性.....................................................................................366

2. 概述一下 spark 中的常用算子区别（ map 、 mapPartitions 、 foreach 、

foreachPartition） ..........................................................................................................................366

3. 谈谈 spark 中的宽窄依赖 ..........................................................................................................366

4. spark 中如何划分 stage.............................................................................................................367

5. spark-submit 的时候如何引入外部 jar 包 .........................................................................367

6. spark 如何防止内存溢出 ..........................................................................................................367

7. spark 中 cache 和 persist 的区别 .........................................................................................368

8. 简要描述 Spark 分布式集群搭建的步骤...............................................................................368

9. spark 中的数据倾斜的现象、原因、后果............................................................................368

10. 如何解决 spark 中的数据倾斜问题......................................................................................369

11. flume 整合 sparkStreaming 问题 .........................................................................................370

12. kafka 整合 sparkStreaming 问题 .........................................................................................372

6.12.1 ----简答题 ---- 网上资料 --- .................................................................................374

6.12.2 -------Spark on Yarn 面试篇.....................................................................................379

6.12.3 -------spark sql 面试篇.............................................................................................383

6.12.4 ----选择题 --- .................................................................................................................383

6.12.5 补充资料: (spark 集群 standalone + spark on yarn) ................................385

第一章分布式计算框架与资源调度

1.1 分布式计算框架

1.1.1 编程模型

1. inputformat

在 MapReduce 程序的开发过程中，往往需要用到 FileInputFormat 与

TextInputFormat，我们会发现 TextInputFormat 这个类继承自 FileInputFormat，

FileInputFormat 这个类继承自 InputFormat，InputFormat 这个类会将文件 file 按照

逻辑进行划分，划分成的每一个 split 切片将会被分配给一个 Mapper 任务,文件先被切

分成 split 块，而后每一个 split 切片对应一个 Mapper 任务

FileInputFormat 的划分机制:

A. 简单地按照文件的内容长度进行切片

B. 切片大小，默认等于 block 大小

C. 切片时不考虑数据集整体，而是逐个针对每一个文件单独切片

默认情况下， split size =block size,在 hadoop 2.x 中为 128M。

注意:bytesRemaining/splitSize > 1.1 不满足的话，那么最后所有剩余的会作为一个

切片。从而不会形成例如 129M 文件规划成两个切片的局面。

2. MaTask 端的工作机制

input File 通过 split 被逻辑切分为多个 split 文件，通过 Record 按行读取

内容给 map （用户自己实现的）进行处理，数据被 map 处理结束之后交给

OutputCollector 收集器，对其结果 key 进行分区（默认使用 hash 分区），然后写入

buffer，每个 map task 都有一个内存缓冲区，存储着 map 的输出结果，当缓冲区快

满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘，当整个 map task 结

束后再对磁盘中这个 map task 产生的所有临时文件做合并，生成最终的正式输出文件，

然后等待 reduce task 来拉数据。 Map 端的输入的(k,v)分别是该行的起始偏移量,以

及每一行的数据内容,map 端的输出(k,v)可以根据需求进行自定义,但是如果输出的是

javabean 对象,需要对 javabean 继承 writable

3. shuffle 的过程

shuffle 的过程是:Map 产生输出开始到 Reduc 取得数据作为输入之前的过程称作

shuffle.

1).Collect 阶段：将 MapTask 的结果输出到默认大小为 100M 的环形缓

冲区，保存的是 key/value，Partition 分区信息等。

2).Spill 阶段：当内存中的数据量达到一定的阀值的时候，就会将数据写

入本地磁盘，在将数据写入磁盘之前需要对数据进行一次排序的操作，如果配

置了 combiner，还会将有相同分区号和 key 的数据进行排序。

3).Merge 阶段：把所有溢出的临时文件进行一次合并操作，以确保一个

MapTask 最终只产生一个中间数据文件。

4).Copy 阶段： ReduceTask 启动 Fetcher 线程到已经完成 MapTask 的

节点上复制一份属于自己的数据，这些数据默认会保存在内存的缓冲区中，

当内存的缓冲区达到一定的阀值的时候，就会将数据写到磁盘之上。

5).Merge 阶段：在 ReduceTask 远程复制数据的同时，会在后台开启两个

线

程对内存到本地的数据文件进行合并操作。

6).Sort 阶段：在对数据进行合并的同时，会进行排序操作，由于 MapTask

阶段已经对数据进行了局部的排序，ReduceTask 只需保证 Copy 的数据的

最终整体有效性即可。

Shuffle 中的缓冲区大小会影响到 mapreduce 程序的执行效率，原则上说，

缓冲区越大，磁盘 io 的次数越少，执行速度就越快缓冲区的大小可以通

过参数调整, 参数：io.sort.mb 默认 100M

剩余58页未读，继续阅读

Jaihwoe

粉丝: 21

分布式计算框架与资源调度及其特殊组件的研究综述

分布式计算框架

分布式计算课件1

第12章 分布式计算

Node.js-Node.js的分布式计算框架

"第四章：MapReduce分布式计算框架初探-大数据技术教程

深入解析MapReduce分布式计算框架

分布式计算框架Spark入门与实践

TiDB与分布式计算框架的集成与优化

ZooKeeper与分布式计算框架的深度整合与优化

Hadoop分布式计算框架：深入理解与实践应用

最新资源

第12章分布式计算