Spark 2.0:数据科学与机器学习实战指南

1星 需积分: 10 5 下载量 59 浏览量 更新于2024-07-19 收藏 9.43MB PDF 举报
"《Spark for Data Science》是一本深入讲解大数据处理和机器学习技术的教程,专为数据科学专业人士设计,基于最新的Spark版本2.0。作者Srinivas Duvvuri和Bikramaditya Singhal共同撰写了这本书,主要针对那些希望在数据分析领域施展才华的读者。该书不仅提供了丰富的理论知识,还包含了大量的实战案例,帮助读者从基础到高级全面掌握Apache Spark这一强大的数据处理工具。 书中内容涵盖了Spark的核心概念,如分布式计算、内存计算的优势、DataFrame和Dataset API的高效操作,以及如何利用Spark进行实时流处理和批处理。此外,重点放在了Spark在机器学习场景中的应用,包括但不限于分类、聚类、回归、深度学习等,展示了如何通过Spark进行模型训练、特征工程和模型评估。 值得注意的是,版权方面,所有版权信息受到严格保护,未经出版商Packt Publishing事先书面许可,不得以任何形式复制、存储或传输书中的内容。尽管作者和出版商已尽力确保信息的准确性,但本书提供的内容不带任何保证,无论是明示还是默示,均不对由此产生的任何损失或声称的损失负责。 Packt Publishing在书中对提及的所有公司和产品名称进行了商标标识,但并不保证这些信息的准确性。首次出版日期为2016年9月,这表明它反映了当时的技术发展水平,对于当今的数据科学家来说,它仍然是一个宝贵的资源,可以帮助他们跟上技术的最新进展并提升自己的专业技能。 《Spark for Data Science》是一本实用且具有前瞻性的指南,适合想要深入理解和运用Spark进行大数据分析和机器学习的读者,无论是初学者还是经验丰富的专业人士,都能从中获益匪浅。"