Spark 2.0实战:大数据分析升级教程

需积分: 0 6 下载量 53 浏览量 更新于2024-07-01 收藏 8.66MB PDF 举报
《图灵程序设计丛书:Spark高级数据分析(第2版)》是由美国数据科学家桑迪·里扎、于里·莱瑟森、肖恩·欧文和乔希·威尔斯合作撰写,经龚少成和邱鑫翻译的一本权威指南。本书专注于使用Apache Spark进行大规模数据分析,尤其针对Spark的最新发展进行了深度剖析。 在第1版的基础上,作者对书中示例代码和参考资料进行了全面更新,以反映Spark 2.0以来的重大变化,如新核心API的引入、MLlib和SparkSQL项目的革新。本书特别强调了Dataset和DataFrame的使用,这两个功能是新版Spark的核心组件,它们提供了更高效的数据处理方式,并与DataFrame API紧密结合,极大地提升了分析性能。 本书不仅适合数据分析师、数据科学家,以及任何对大数据处理和机器学习有兴趣的专业人士,无论是初学者还是经验丰富的开发者,都能从中获益。它不仅提供理论知识,更注重实战操作,帮助读者掌握如何在实际项目中利用Spark进行高效的数据分析。 此外,关于版权方面,读者需要注意的是,该电子书可以通过图灵社区在多种设备和浏览器上阅读,但必须确保个人使用,并尊重知识产权。未经授权的传播或侵权行为可能会导致账号被关闭甚至法律追责。购买者需确保自己的行为符合授权规定。 该书由人民邮电出版社出版,定价为69.00元,同时提供了读者服务热线、印装质量热线以及反盗版热线,以确保读者的权益和图书的正版销售。版权信息和版权声明显示了著作人的权利以及对读者合法阅读的保障。 《Spark高级数据分析(第2版)》是一本紧跟技术潮流,实用性强的工具书,对于那些希望在大数据领域保持竞争力的读者来说,是一部不可或缺的参考资源。