Apache Spark 高级指南:使用 H20、Databricks 和 Titan 实现高级数据处理
5星 · 超过95%的资源 需积分: 0 39 浏览量
更新于2024-06-11
收藏 17.29MB PDF 举报
Mastering Apache Spark
本书主要介绍了 Apache Spark 的高级使用方法,旨在帮助开发者扩展 Spark 的功能。书中涵盖了 Spark 与第三方应用程序的集成,如 H20、Databricks 和 Titan,同时也探讨了 Cassandra 和 Hbase 在存储方面的应用。
在第一章中,作者对 Apache Spark 进行了概述,介绍了 Spark 生态系统的各个组件。然后,在第二章中,作者详细介绍了 MLlib 的使用方法,包括如何使用 MLlib 创建一个完整的神经网络用于手写识别。
在第三章中,作者讨论了 Spark 流处理的优化方法,如何调整流处理以实现并行处理。第四章则集中讨论了 Spark SQL 的使用方法,包括如何创建 Spark 模式和如何将数据填充到 Spark 模式中。
第五章介绍了 Spark GraphX 的使用方法,包括如何使用 GraphX 进行图形处理。第六章讨论了基于图形的存储方法,包括如何使用 Titan 和 HBase 实现图形存储。第七章则介绍了如何使用 H20 进行机器学习。
第八章讨论了如何将 Spark 与 Databricks 结合使用,实现云端的 Spark 处理。最后一章则介绍了如何使用 Databricks 实现数据可视化。
本书适合具有 Spark 基础知识的开发者,旨在帮助他们扩展 Spark 的功能,提高他们在 Spark 领域的技能。书中提供了许多实践例子和 Scala 代码,帮助读者快速掌握 Spark 的高级使用方法。
本书是一本非常实用的 Spark 指南,涵盖了 Spark 的各个方面,包括流处理、机器学习、图形处理和云端处理等。读者可以通过本书学习到许多实用的 Spark 技巧和方法,从而提高自己的 Spark 开发能力。
知识点:
1. Apache Spark 的概述和生态系统
2. MLlib 的使用方法和神经网络的创建
3. Spark 流处理的优化方法
4. Spark SQL 的使用方法和模式创建
5. Spark GraphX 的使用方法和图形处理
6. 基于图形的存储方法和 Titan、HBase 的使用
7. H20 的使用方法和机器学习
8. Spark 与 Databricks 的结合使用和云端处理
9. Databricks 的使用方法和数据可视化
2015-01-17 上传
2023-10-31 上传
2024-01-11 上传
2024-05-26 上传
2024-01-27 上传
2023-07-07 上传
2023-10-01 上传
ramissue
- 粉丝: 354
- 资源: 1487
最新资源
- 新型智能电加热器:触摸感应与自动温控技术
- 社区物流信息管理系统的毕业设计实现
- VB门诊管理系统设计与实现(附论文与源代码)
- 剪叉式高空作业平台稳定性研究与创新设计
- DAMA CDGA考试必备:真题模拟及章节重点解析
- TaskExplorer:全新升级的系统监控与任务管理工具
- 新型碎纸机进纸间隙调整技术解析
- 有腿移动机器人动作教学与技术存储介质的研究
- 基于遗传算法优化的RBF神经网络分析工具
- Visual Basic入门教程完整版PDF下载
- 海洋岸滩保洁与垃圾清运服务招标文件公示
- 触摸屏测量仪器与粘度测定方法
- PSO多目标优化问题求解代码详解
- 有机硅组合物及差异剥离纸或膜技术分析
- Win10快速关机技巧:去除关机阻止功能
- 创新打印机设计:速释打印头与压纸辊安装拆卸便捷性