"Apache Spark 实战攻略：集群计算引擎的规模扩展和最佳实践"

需积分: 0 167 浏览量更新于2024-01-17 收藏 3.69MB PDF 举报

本文总结了《Apache Spark 中文实战攻略（下册）》中的各章节内容。该书深入介绍了在集群计算引擎使用率快速增长的过程中，面临的多维度计算基础架构规模扩展性的挑战，以及如何提升 Spark 的性能和可扩展性。第一章介绍了 Spark 最佳实践，探讨了如何使用 Databricks 作为分析平台，以及领英如何应对 Apache Spark 的 Scalability 挑战。第二章介绍了如何利用闪存优化 Spark Shuffle，并介绍了在 Cosco 基础上的实践经验。第三章介绍了基于 Spark 和 TensorFlow 的机器学习实践，讲解了在大数据平台上运行新兴的人工智能应用的方法。第四章介绍了在 Kubernetes 上运行 Apache Spark 的最佳实践和陷阱。第五章介绍了使用 RayOnSpark 在大数据平台上运行可扩展的自动化机器学习（AutoML）的方法。第六章介绍了 Apache Spark 3.0 对 Prometheus 监控的原生支持，以及阿里云开源大数据平台实践的经验。第七章介绍了如何助力云上开源生态，详细介绍了阿里云开源大数据平台的发展。第八章揭秘了 EMR Spark-SQL 性能极致优化的方法，包括概览篇、RuntimeFilter Plus 和 Native Codegen Framework。第九章浅析了 Spark Codegen 的原理和应用。最后一章介绍了如何将 Tablestore 结合 Spark 进行流批一体的 SQL 实战，探讨了 Tablestore 的特点和与 Spark 的结合方式。通过阅读本书，读者可以深入了解 Apache Spark 的实际应用和优化实践，掌握如何构建可扩展的大数据计算和分析平台，以应对不断增长的数据规模和计算需求。本书还通过实例介绍了各种大数据技术与 Spark 的结合方法，包括机器学习、自动化机器学习、监控、云上开源生态等，为读者提供了丰富的实战经验和最佳实践。总之，《Apache Spark 中文实战攻略（下册）》是一本实用性强的书籍，对于正在使用或计划使用 Apache Spark 的开发者和数据分析师来说，是一本非常有价值的参考资料。

Spark 最佳实践 < 16

第二类问题：如何找到运行时的性能瓶颈？

针对第二类问题，领英为此开发了性能分析工具 GridBench，它可以通过各种报告帮助用户理解性能

指标，可以对同一个 Spark 应用多次运行后的结果自动分析，从而发现性能瓶颈点。GridBench 也可

以作为很好的衡量工具，帮助用户了解存储和计算模块的性能指标。下图中展示了 GridBench 针对某

个应用做出的性能比较报告，通过对比两组不同时间下运行间的之间执行记录。GridBench 可以确定

应用性能是否有变化，可以发现 Executer CPU Time 有了明显的提升，直观的告诉用户性能瓶颈所在，

在优化性能时更加的有针对性。

第三类问题：如何调参，使得应用运行的更快？

针对第三类问题，领英为用户提供了自动化参数调优建议。通过一系列预定义调参方案，自动化检

查应用配置，资源设置等等，给出对应的建议。如下图，某个调优方案显示的是红色，表明有进一

步优化的空间，如果显示绿色表示参数设置已经比较合理。下图中应用的内存设置太高，建议将其

设置为较低的值，避免资源浪费。

19 > Spark 最佳实践

四、Solutions to scale Spark compute infrastructure

Spark Shuffle Service

有了提升用户生产力的各种工具之后，Spark 团队可以更多的投入的优化计算引擎之上。Spark 本身

是一个复杂的系统，应该首先改进哪个组件呢？随着 Spark 在领英内部使用率的快速增长，Spark

Shuffle Service 成为了最先扩展瓶颈的的 Spark 组件之一。领英使用了 External Spark Shuffle Service 管

理 Shuffle 文件，启用 Spark 动态资源分配功能，这种配置对多租户集群中 Spark 应用间的公平资源共

享至关重要。在这样的部署中，集群中的每个计算节点都将部署一个 Spark Shuffle Service，每个 Spark

Executer 在启动时会和本地的 Spark Shuffle Service 对接，并提供注册信息。之后 Spark Executer 中

Shuffle Map Tasks 会生成 Shuffle 文件，每个文件都包含对应不同 Shuffle 分区的 Shuffle Block，Shuffle

文件被 External Spark Shuffle Service 统一管理。当 Shuffle Reducer Tasks 开始运行时，都会从远程的

Shuffle Service 当中获取相应的 Shuffle Block。在繁忙的生成集群当中，单个 Shuffle Service 可以轻易

的接收到数千个 Shuffle 并发连接，这些连接来自数十个应用中的 Shuffle Reducer Tasks。由于 Spark

Shuffle Service 共享性质，在大规模部署应用服务时遇到了很多问题。

Spark Shuffle Service 问题

首先是 Shuffle 可靠性问题，在生成集群当中，在集群高峰时段 Reducer Tasks 经常无法与 Shuffle 进行

连接，连接失败将导致 Shuffle Block 的获取失败。这种问题导致工作流中的 SLA 无法满足，甚至运行

失败。在此之外，还遇到了 Shuffle 效率问题，在集群当中，Shuffle 文件存储在硬盘之上，由于 Reducer

Tasks 请求陆续发出，Shuffle Service 也将访问数据，如果 Shuffle Block 大小很小，那么 Shuffle Service

生成的少数据随机获取操作将严重硬盘的数据吞吐量，从而延长 Shuffle 等待时间。第三个问题是

Shuffle 规模扩展性问题，由于 Shuffle Service 的共享属性，一个需要 Shuffle 很多小 Blocks 的应用，

在获取 Shuffle Block 时很容易对 Shuffle Service 造成过大压力，导致性能的下降。这不仅影响对 Shuffle

不友好的应用，还会影响共享同一个 Shuffle Service 的相邻应用。对于这些应用而言，调整 Shuffle Block

并不容易，这种现象发生时也会导致其它正常应用运行时间的延长。

剩余137页未读，继续阅读

宝贝的麻麻

粉丝: 41
资源: 294

"Apache Spark 实战攻略：集群计算引擎的规模扩展和最佳实践"

Practical Apache Spark

Spark 入门实战系列

Spark入门实战系列

藏经阁-Apache Spark 中文实战攻略上册-118.pdf

Apache Spark：Spark项目实战：实时推荐系统.docx

Apache Spark：Spark项目实战：大数据分析案例.docx

Apache Spark：Spark项目实战：机器学习模型部署.docx

掌握Apache Spark：实战指南

Apache Spark 2实战指南：从入门到应用与SQL优化

Apache Spark容错实战：José Soltren在Cloudera的生产经验分享

最新资源