Apache Spark 高级指南：使用 H20、Databricks 和 Titan 实现高级数据处理

5星 · 超过95%的资源需积分: 0 39 浏览量更新于2024-06-11 收藏 17.29MB PDF 举报

Mastering Apache Spark 本书主要介绍了 Apache Spark 的高级使用方法，旨在帮助开发者扩展 Spark 的功能。书中涵盖了 Spark 与第三方应用程序的集成，如 H20、Databricks 和 Titan，同时也探讨了 Cassandra 和 Hbase 在存储方面的应用。在第一章中，作者对 Apache Spark 进行了概述，介绍了 Spark 生态系统的各个组件。然后，在第二章中，作者详细介绍了 MLlib 的使用方法，包括如何使用 MLlib 创建一个完整的神经网络用于手写识别。在第三章中，作者讨论了 Spark 流处理的优化方法，如何调整流处理以实现并行处理。第四章则集中讨论了 Spark SQL 的使用方法，包括如何创建 Spark 模式和如何将数据填充到 Spark 模式中。第五章介绍了 Spark GraphX 的使用方法，包括如何使用 GraphX 进行图形处理。第六章讨论了基于图形的存储方法，包括如何使用 Titan 和 HBase 实现图形存储。第七章则介绍了如何使用 H20 进行机器学习。第八章讨论了如何将 Spark 与 Databricks 结合使用，实现云端的 Spark 处理。最后一章则介绍了如何使用 Databricks 实现数据可视化。本书适合具有 Spark 基础知识的开发者，旨在帮助他们扩展 Spark 的功能，提高他们在 Spark 领域的技能。书中提供了许多实践例子和 Scala 代码，帮助读者快速掌握 Spark 的高级使用方法。本书是一本非常实用的 Spark 指南，涵盖了 Spark 的各个方面，包括流处理、机器学习、图形处理和云端处理等。读者可以通过本书学习到许多实用的 Spark 技巧和方法，从而提高自己的 Spark 开发能力。知识点： 1. Apache Spark 的概述和生态系统 2. MLlib 的使用方法和神经网络的创建 3. Spark 流处理的优化方法 4. Spark SQL 的使用方法和模式创建 5. Spark GraphX 的使用方法和图形处理 6. 基于图形的存储方法和 Titan、HBase 的使用 7. H20 的使用方法和机器学习 8. Spark 与 Databricks 的结合使用和云端处理 9. Databricks 的使用方法和数据可视化

ramissue

粉丝: 354
资源: 1487

Apache Spark 高级指南：使用 H20、Databricks 和 Titan 实现高级数据处理

Kafka集成Spark Streaming并写入数据到HBase

mastering-apache-spark

Mastering-Spark

mastering apache pulsar pdf

mastering your phd 的pdf版

maven参考文献近三年

mastering elasticsearch[m]. 2nd edition. uk: packt publishing

mastering docker – second edition

mastering go 2 pdf

mastering freeswitch pdf

最新资源