Apache Spark 高级指南:使用 H20、Databricks 和 Titan 实现高级数据处理

5星 · 超过95%的资源 需积分: 0 452 下载量 39 浏览量 更新于2024-06-11 收藏 17.29MB PDF 举报
Mastering Apache Spark 本书主要介绍了 Apache Spark 的高级使用方法,旨在帮助开发者扩展 Spark 的功能。书中涵盖了 Spark 与第三方应用程序的集成,如 H20、Databricks 和 Titan,同时也探讨了 Cassandra 和 Hbase 在存储方面的应用。 在第一章中,作者对 Apache Spark 进行了概述,介绍了 Spark 生态系统的各个组件。然后,在第二章中,作者详细介绍了 MLlib 的使用方法,包括如何使用 MLlib 创建一个完整的神经网络用于手写识别。 在第三章中,作者讨论了 Spark 流处理的优化方法,如何调整流处理以实现并行处理。第四章则集中讨论了 Spark SQL 的使用方法,包括如何创建 Spark 模式和如何将数据填充到 Spark 模式中。 第五章介绍了 Spark GraphX 的使用方法,包括如何使用 GraphX 进行图形处理。第六章讨论了基于图形的存储方法,包括如何使用 Titan 和 HBase 实现图形存储。第七章则介绍了如何使用 H20 进行机器学习。 第八章讨论了如何将 Spark 与 Databricks 结合使用,实现云端的 Spark 处理。最后一章则介绍了如何使用 Databricks 实现数据可视化。 本书适合具有 Spark 基础知识的开发者,旨在帮助他们扩展 Spark 的功能,提高他们在 Spark 领域的技能。书中提供了许多实践例子和 Scala 代码,帮助读者快速掌握 Spark 的高级使用方法。 本书是一本非常实用的 Spark 指南,涵盖了 Spark 的各个方面,包括流处理、机器学习、图形处理和云端处理等。读者可以通过本书学习到许多实用的 Spark 技巧和方法,从而提高自己的 Spark 开发能力。 知识点: 1. Apache Spark 的概述和生态系统 2. MLlib 的使用方法和神经网络的创建 3. Spark 流处理的优化方法 4. Spark SQL 的使用方法和模式创建 5. Spark GraphX 的使用方法和图形处理 6. 基于图形的存储方法和 Titan、HBase 的使用 7. H20 的使用方法和机器学习 8. Spark 与 Databricks 的结合使用和云端处理 9. Databricks 的使用方法和数据可视化
2019-01-30 上传