Spark 2.0实战:实时大数据处理与部署
需积分: 10 63 浏览量
更新于2024-07-21
收藏 14.17MB PDF 举报
《快速数据处理与Spark第二版》是一本针对Apache Spark平台的专业教程,该书由 Krishna Sankar 和 Holden Karau 联合撰写。Spark自发布以来,以其在大规模分布式计算中的高效、快速和可扩展性赢得了数据分析师和大数据开发者的青睐。它革新了传统的数据处理流程,将数据收集、存储、转换(collect-store-transform)与数据科学分析(reason-model)和模型部署紧密融合,使得处理大型数据集不再局限于样本数据,而是能够支持实际应用。
本书的核心内容在于教授读者如何利用Spark进行实时数据分析,通过实战经验来掌握这个强大工具的基础知识和高级功能。Spark不仅是一个计算框架,它还提供了一种方式,使数据科学家能够构建模型并在生产环境中无缝部署,当然,这需要工程团队对“能力”或基础设施进行额外的调整。
作者希望通过这本书,帮助工程师全面理解Spark平台的工作原理,并通过实践项目熟悉其核心组件如Spark SQL、Spark Streaming、MLlib等的使用。此外,书中还会涉及如何与Kafka等其他技术结合,构建高效的数据管道,以实现数据的实时处理和流式分析。
版权方面,所有权利归Packt Publishing所有,未经许可,不得以任何形式复制、存储或传输本书内容。尽管作者和出版社已尽最大努力确保信息的准确性,但本书提供的内容不带有任何保证,也不承担因使用本书信息而产生的直接或间接损失的责任。
在商标使用上,Packt Publishing已尽力以正确的方式提及书中提及的所有公司和产品。然而,出版社并不保证商标信息的完整性和准确性。
《快速数据处理与Spark第二版》是一本深度解读Spark技术的实用指南,适合想要深入学习和实践Spark的开发者、数据科学家以及工程师阅读,帮助他们在大数据处理领域取得突破。
133 浏览量
179 浏览量
105 浏览量
点击了解资源详情
149 浏览量
601 浏览量
点击了解资源详情
点击了解资源详情
点击了解资源详情
mbpeter08
- 粉丝: 0
- 资源: 4