"Apache Spark 实战攻略:集群计算引擎的规模扩展和最佳实践"
需积分: 0 167 浏览量
更新于2024-01-17
收藏 3.69MB PDF 举报
本文总结了《Apache Spark 中文实战攻略(下册)》中的各章节内容。该书深入介绍了在集群计算引擎使用率快速增长的过程中,面临的多维度计算基础架构规模扩展性的挑战,以及如何提升 Spark 的性能和可扩展性。
第一章介绍了 Spark 最佳实践,探讨了如何使用 Databricks 作为分析平台,以及领英如何应对 Apache Spark 的 Scalability 挑战。第二章介绍了如何利用闪存优化 Spark Shuffle,并介绍了在 Cosco 基础上的实践经验。第三章介绍了基于 Spark 和 TensorFlow 的机器学习实践,讲解了在大数据平台上运行新兴的人工智能应用的方法。第四章介绍了在 Kubernetes 上运行 Apache Spark 的最佳实践和陷阱。
第五章介绍了使用 RayOnSpark 在大数据平台上运行可扩展的自动化机器学习(AutoML)的方法。第六章介绍了 Apache Spark 3.0 对 Prometheus 监控的原生支持,以及阿里云开源大数据平台实践的经验。第七章介绍了如何助力云上开源生态,详细介绍了阿里云开源大数据平台的发展。第八章揭秘了 EMR Spark-SQL 性能极致优化的方法,包括概览篇、RuntimeFilter Plus 和 Native Codegen Framework。第九章浅析了 Spark Codegen 的原理和应用。
最后一章介绍了如何将 Tablestore 结合 Spark 进行流批一体的 SQL 实战,探讨了 Tablestore 的特点和与 Spark 的结合方式。
通过阅读本书,读者可以深入了解 Apache Spark 的实际应用和优化实践,掌握如何构建可扩展的大数据计算和分析平台,以应对不断增长的数据规模和计算需求。本书还通过实例介绍了各种大数据技术与 Spark 的结合方法,包括机器学习、自动化机器学习、监控、云上开源生态等,为读者提供了丰富的实战经验和最佳实践。
总之,《Apache Spark 中文实战攻略(下册)》是一本实用性强的书籍,对于正在使用或计划使用 Apache Spark 的开发者和数据分析师来说,是一本非常有价值的参考资料。
2019-02-22 上传
2018-01-18 上传
2024-01-11 上传
点击了解资源详情
点击了解资源详情
宝贝的麻麻
- 粉丝: 41
- 资源: 294
最新资源
- 深入浅出:自定义 Grunt 任务的实践指南
- 网络物理突变工具的多点路径规划实现与分析
- multifeed: 实现多作者间的超核心共享与同步技术
- C++商品交易系统实习项目详细要求
- macOS系统Python模块whl包安装教程
- 掌握fullstackJS:构建React框架与快速开发应用
- React-Purify: 实现React组件纯净方法的工具介绍
- deck.js:构建现代HTML演示的JavaScript库
- nunn:现代C++17实现的机器学习库开源项目
- Python安装包 Acquisition-4.12-cp35-cp35m-win_amd64.whl.zip 使用说明
- Amaranthus-tuberculatus基因组分析脚本集
- Ubuntu 12.04下Realtek RTL8821AE驱动的向后移植指南
- 掌握Jest环境下的最新jsdom功能
- CAGI Toolkit:开源Asterisk PBX的AGI应用开发
- MyDropDemo: 体验QGraphicsView的拖放功能
- 远程FPGA平台上的Quartus II17.1 LCD色块闪烁现象解析