"Apache Spark 实战攻略:集群计算引擎的规模扩展和最佳实践"

需积分: 0 1 下载量 157 浏览量 更新于2024-01-17 收藏 3.69MB PDF 举报
本文总结了《Apache Spark 中文实战攻略(下册)》中的各章节内容。该书深入介绍了在集群计算引擎使用率快速增长的过程中,面临的多维度计算基础架构规模扩展性的挑战,以及如何提升 Spark 的性能和可扩展性。 第一章介绍了 Spark 最佳实践,探讨了如何使用 Databricks 作为分析平台,以及领英如何应对 Apache Spark 的 Scalability 挑战。第二章介绍了如何利用闪存优化 Spark Shuffle,并介绍了在 Cosco 基础上的实践经验。第三章介绍了基于 Spark 和 TensorFlow 的机器学习实践,讲解了在大数据平台上运行新兴的人工智能应用的方法。第四章介绍了在 Kubernetes 上运行 Apache Spark 的最佳实践和陷阱。 第五章介绍了使用 RayOnSpark 在大数据平台上运行可扩展的自动化机器学习(AutoML)的方法。第六章介绍了 Apache Spark 3.0 对 Prometheus 监控的原生支持,以及阿里云开源大数据平台实践的经验。第七章介绍了如何助力云上开源生态,详细介绍了阿里云开源大数据平台的发展。第八章揭秘了 EMR Spark-SQL 性能极致优化的方法,包括概览篇、RuntimeFilter Plus 和 Native Codegen Framework。第九章浅析了 Spark Codegen 的原理和应用。 最后一章介绍了如何将 Tablestore 结合 Spark 进行流批一体的 SQL 实战,探讨了 Tablestore 的特点和与 Spark 的结合方式。 通过阅读本书,读者可以深入了解 Apache Spark 的实际应用和优化实践,掌握如何构建可扩展的大数据计算和分析平台,以应对不断增长的数据规模和计算需求。本书还通过实例介绍了各种大数据技术与 Spark 的结合方法,包括机器学习、自动化机器学习、监控、云上开源生态等,为读者提供了丰富的实战经验和最佳实践。 总之,《Apache Spark 中文实战攻略(下册)》是一本实用性强的书籍,对于正在使用或计划使用 Apache Spark 的开发者和数据分析师来说,是一本非常有价值的参考资料。