Spark实战:大型数据分析指南

5星 · 超过95%的资源 需积分: 10 308 下载量 53 浏览量 更新于2024-07-21 3 收藏 4.1MB PDF 举报
"《Big Data Analytics with Spark》是关于学习Spark——一个开源的、快速且通用的集群计算框架,用于大规模数据分析的逐步指南。本书将教你如何利用Spark进行不同类型的大型数据分析项目,包括批处理、交互式、图数据和流数据分析以及机器学习。此外,它还将帮助你成为备受追捧的Spark专家。Spark是目前最热门的大数据技术之一,随着设备、应用程序和用户生成的数据量急剧增加,对于能够分析大规模数据并从中解锁价值的工具的需求变得至关重要。Spark是一种强大的技术,能满足这一需求,例如,你可以使用Spark通过高效的缓存和迭代算法实现低延迟计算,利用其shell的特性进行轻松交互式数据分析,利用其快速的批处理和低延迟特性处理实时数据流等。因此,Spark的采用率正在迅速增长,并逐渐取代Hadoop MapReduce成为大数据分析的首选技术。 本书提供了对Spark及其相关大数据技术的介绍,涵盖了Spark核心及其附加库,包括Spark SQL、Spark Streaming、GraphX和MLlib。《Big Data Analytics with Spark》专为忙碌的专业人士编写,他们更倾向于从一个综合来源学习新技术,而不是花费大量时间在网上从不同来源收集零散信息。 书中还有一章专门介绍Scala——最热门的函数式编程语言,也是Spark的基础。你将学习Scala中的函数式编程基础知识,以便用它编写Spark应用程序。此外,本书还介绍了通常与Spark一起使用的其他大数据技术,如Hive、Avro和Kafka,使得本书自成一体,涵盖所有使用Spark所需的技术。唯一需要读者掌握的就是任何一种编程语言的基础知识。 大数据专家的短缺使得拥有Spark和Scala等技能的人才非常抢手,因此掌握这些技能将对你的职业生涯产生重大推动作用。 书中的章节包括: 1. 大数据技术全景 2. 使用Scala编程 3. Spark核心 4. 使用Spark Shell进行交互式数据分析 5. 编写Spark应用程序 6. Spark Streaming 7. Spark SQL 8. 使用Spark进行机器学习 9. 使用Spark进行图处理 10. 集群管理器 11. 监控 通过阅读这本书并理解其中的原则,你的职业生涯可能会得到显著提升。"