伯克利大学发布：大规模集群数据处理架构（修正版）

需积分: 50 71 浏览量更新于2024-07-21 收藏 5.53MB PDF 举报

《【spark论文】大型集群上的快速和通用数据处理架构（修正版）》是一篇由Matei Zaharia博士撰写的重要技术报告，发表于加州大学伯克利分校电气工程和计算机科学系。这篇论文针对的是在大规模集群环境下实现高效、通用的数据处理问题。作者Matei Zaharia是该领域的专家，其研究旨在设计一种架构，能够在大型分布式计算环境中优化数据处理性能，适用于各种复杂的数据分析任务。论文的修订版解决了之前版本中图表存在的问题，强调了在大型集群上如何通过Spark这种数据处理框架来提升效率。Spark是一个分布式计算框架，以其容错性、交互式处理和内存计算模型而闻名，使得它在实时和批量数据分析场景中表现出色。论文的核心内容可能包括以下几个方面： 1. **架构设计**：介绍了一个面向大型集群的架构设计，这个设计可能包括了任务调度、数据分区、缓存策略等关键组件，以支持快速的数据处理和低延迟响应。 2. **性能优化**：论文可能会深入讨论如何通过并行化、数据本地性、资源管理和负载均衡等手段来提高处理速度，尤其是在面对海量数据时。 3. **可扩展性**：大型集群的处理能力往往依赖于良好的可扩展性，论文可能会探讨如何随着集群规模的增长保持性能的线性增长。 4. **容错机制**：由于集群环境的复杂性和不可预测性，论文可能涉及故障检测、恢复和数据一致性保证等容错技术。 5. **实践案例与应用**：文中可能包含实际案例和使用Spark处理大型集群数据的示例，展示其在推荐系统、流处理、机器学习等领域的应用效果。 6. **社区与贡献**：论文翻译社区CSDN CODE的参与展示了学术成果的社会传播和开源精神，也反映了Spark社区的活跃度和协作模式。在版权方面，论文原文和翻译都受到严格保护，允许个人或教育机构出于非商业目的使用，但任何形式的复制、转载或商业发行都需要事先获得授权。论文的翻译工作是由35名译者和6名审校员集体完成的，他们为理解并准确传达原作的精神付出了大量努力，特别提及了项目经理吴小然和主要审校人员邵赛赛、张李晔以及余根茂等人的贡献。这篇论文为理解大型集群中的数据处理提供了深度洞察，对于研究分布式计算、Spark技术以及集群管理的读者来说，具有很高的参考价值。

2.6.3 故障恢复 ....................................................... 30

2.6.4 内存不足的情况 ................................................. 31

2.6.5 交互式数据挖掘 ................................................. 32

2.6.6 实际应用 ....................................................... 33

2.7 讨论 ............................................................... 34

2.7.1 对现有编程模型的表达 ........................................... 34

2.7.2 解释 RDD 表达能力 ............................................... 35

2.7.3 利用 RDD 来调试 ................................................. 36

2.8 相关工作 ........................................................... 36

2.9 总结 ............................................................... 38

第三章基于 RDD 的模型 ......................................................... 38

3.1 简介 ............................................................... 38

3.2 一些在 RDDs 上实现其他模型的技术 .................................... 39

3.2.1 RDDs 里的数据格式 .............................................. 39

3.2.2 数据分区 .......................................................... 40

3.2.3 关于不可变性 ................................................... 41

3.2.4 实现自定义转换 ................................................. 42

3.3 Shark:RDDs 上的 SQL ................................................. 42

3.3.1 动机 ........................................................... 42

3.4 实现 ............................................................... 44

3.4.1 列式内存存储 ................................................... 45

3.4.2 数据协同划分 ................................................... 45

3.4.3 分区统计和映射修剪 ................................................ 46

3.4.4 局部 DAG 执行（PDE） ........................................... 46

3.5 性能 ............................................................... 48

3.5.1 方法和集群设置 ................................................. 48

3.5.2 Pavlo 等人的基准测试 ........................................... 49

3.5.3 微基准测试 ..................................................... 51

3.5.4 容错 ........................................................... 53

3.5.5 真实的 Hive 数据仓库查询 .......................................... 54

3.6 与 SQL 相结合的复杂分析 ............................................. 55

3.6.1 语言集成 ....................................................... 56

3.6.2 执行引擎集成 ................................................... 57

3.6.3 性能 ........................................................... 57

3.7 总结 ............................................................... 58

第四章离散流 ................................................................. 59

4.1 简介 ............................................................... 59

4.2 目标与背景 ......................................................... 61

4.2.1 目标 ........................................................... 61

4.2.2 以往的处理模型 ................................................. 62

4.3 离散流（D-Streams） ................................................ 63

4.3.1 计算模型 ....................................................... 64

4.3.2 时序方面的考虑 ................................................. 66

4.3.3 D-Stream API ................................................... 67

4.3.4 一致性语义 ..................................................... 70

4.3.5 批处理与交互式处理的统一 ....................................... 70

4.3.6 总结 ........................................................... 71

4.4 系统架构 ....................................................... 72

4.4.1 应用程序执行 ................................................... 73

4.4.2 流处理优化 ..................................................... 74

4.4.3 内存管理 ....................................................... 74

4.5 故障和慢节点恢复 ............................................... 75

4.5.1 并行恢复 ....................................................... 75

4.5.2 减缓慢结点的影响 ............................................... 76

4.5.3 Master 恢复 .................................................... 76

4.6 评估............................................................... 77

4.6.1 性能 ........................................................... 77

4.6.2 故障和慢节点恢复 ............................................... 79

4.6.3 实际应用 ....................................................... 81

4.7 讨论 ............................................................... 83

4.8 相关工作 ....................................................... 85

4.9 总结 ........................................................... 86

第五章 RDD 的通用性 ........................................................ 88

5.1 简介 ........................................................... 88

5.2 观点描述 ....................................................... 88

5.2.1 MapReduce 所能涵盖的计算范围 ..................................... 88

5.2.2 lineage 和故障恢复 ............................................. 89

5.2.3 与 BSP 的比较 ................................................... 91

5.3 系统角度 ....................................................... 91

5.3.1 瓶颈资源 ....................................................... 92

5.3.2 容错的开销 ..................................................... 93

5.4 限制与扩展 ..................................................... 94

5.4.1 延迟 ........................................................... 94

5.4.2 通信模式 ....................................................... 94

5.4.3 异步 ........................................................... 94

5.4.4 细粒度更新 ..................................................... 95

5.4.5 不变性和版本追踪 ............................................... 95

5.5 相关工作 ....................................................... 96

5.6 小结................................................................ 96

第六章总结 ............................................................... 97

6.1 经验总结 ....................................................... 98

第 1 章简介

在过去的几年里已经看到了计算机系统的重大变革，随着数据量的不断增长越来越多的应用需

要扩展到大型集群。在商业和科学领域，新的数据源和工具

(例如,

基因测序仪，RFID 和 Web)正

在生产越来越多的信息。不幸的是，单机的处理能力和 I/O 性能并没有跟上这种增长。这样一来，

越来越多的企业不得不向外扩展他们的计算至集群模式。

可编程的集群环境会带来一些挑战。第一个是并行化：这需要以并行的方式重写应用程序，同

时这种编程模型能够处理范围广泛的的计算。然而，与其他并行平台相比，集群的第二个挑战是

容错:在大规模的情况下节点故障和

straggler

（慢节点）将变得很常见，而且可以极大地影响应

用程序的性能。最后，集群通常在多个用户之间共享，因此需要在运行时可以动态地扩展和缩减

计算资源，而且加剧了应用互相干扰的可能性。

因此，各种各样针对集群的新的编程模型已经被设计出来。起初，谷歌的 MapReduce[36]提出

了一种简单通用而且能够自动处理故障的批处理计算模型。然而，MapReduce 并不适合其他类型的

计算任务，以至于出现了大量的与 MapRedeuce 有显著不同的特制的编程模型。例如,在谷歌，

Pregel[72] 提供了一个 bulk-sunchronous parallel（BSP）并行迭代图计算模型；F1[95]是一个

快速但没有容错的 SQL 查询系统；MillWheel[2] 支持连续地流式处理。谷歌之外，像 Storm [14],

Impala [60], Piccolo [86] and GraphLab [71]系统提供了相似的模型。随着每年新模型持续地

出现，集群计算势必需要一系列的解决不同的计算工作的方案。

本论文讨论的刚好相反，我们可以设计一个

统一

的编程抽象，不仅可以处理这些不同的计算

任务，而且能使新的应用更好的编程。特别的是，我们将展示 MapReduce 的一个简单扩展，称为

弹性分布式数据集（RDDS）,它增加了高效的数据共享元语，以及大大增加了它的通用性。由此产

生的架构比当前系统有几个关键优势：

1. 在相同的运行环境下，它支持批处理、交互式、迭代和流计算，

结合

这些模式提供丰富的应

用编程，并且相对于单一模式的系统能更好的发挥其性能。

2. 它以很小的代价在这些计算模式上提供结点故障和 straggler 的容忍功能。事实上，在一些

地方（如流和 SQL），基于 RDD 产生的新系统比现有的系统有更强的容错性。

3. 它实现的性能往往比 MapReduce 高 100 倍，并可媲美各个应用领域的专业系统。

4. 这很适合多组织用户管理，允许应用程序弹性地扩缩容和响应式地共享资源。

剩余130页未读，继续阅读

LuoRuiYuan_1

粉丝: 4
资源: 70

伯克利大学发布：大规模集群数据处理架构（修正版）

大型集群上的快速和通用数据处理架构

【spark论文翻译版】大型集群上的快速和通用数据处理架构

《循序渐进学spark 》spark架构与集群环境

数据处理_使用Spark RDD进行快速数据处理

【spark】spark概述 及 集群部署

Spark的架构以及运行架构

利用spark迁移cassandra集群数据

spark(一) -- spark的简介与集群的安装

如何利用Hadoop和Spark等技木在计算机集群上处理大数据

spark概述、原理分析、集群部署快速上手

最新资源

【spark】spark概述及集群部署