利用Spark构建大规模机器学习应用

需积分: 10 146 浏览量更新于2024-07-20 收藏 5.38MB PDF 举报

"《机器学习与Spark》是一本由Nick Pentreath编著的专业书籍，它针对的是在大数据驱动的商业环境中利用Apache Spark进行机器学习的实践指南。该书的出版机构是Packt Publishing，版权归属2015年，强调了所有内容未经作者或出版社事先书面许可不得复制、存储或传输。作者在编写过程中力求提供准确的信息，但读者需自行承担使用信息可能带来的风险，因为本书不提供任何形式的保修。《机器学习与Spark》的核心内容涵盖了如何构建可扩展的机器学习应用程序，这些应用程序能够利用Spark的强大分布式计算能力，处理海量数据，支持诸如预测分析、分类、聚类和深度学习等各种机器学习任务。书中深入讲解了Spark的MLlib（机器学习库）和其他相关的工具和技术，包括如何设计有效的特征工程、模型选择、训练和优化，以及如何在Spark环境下部署和管理机器学习项目。此外，书中还讨论了如何在实际业务场景中应用机器学习，例如通过实时流处理进行实时决策，或者使用历史数据进行业务预测。读者可以预期学习到如何将Spark与Hadoop生态系统中的其他组件（如HDFS和YARN）集成，以构建高效的数据处理和分析架构。由于版权保护，未经授权的复制可能会侵犯作者和出版商的权益。因此，这本书不仅是一份技术参考，也是一份对Spark在机器学习领域实践的权威指南，适合数据科学家、工程师以及对Spark有兴趣的读者深入了解和掌握这一关键技术。对于想要利用Spark进行大规模机器学习的读者来说，这是一本不可或缺的资源。"

剩余126页未读，继续阅读

zhuzhenlong

粉丝: 3
资源: 38

利用Spark构建大规模机器学习应用

spark大数据编程头歌

Spark和NLP技术参考文献

pyspark学习推荐书籍

给我一个用Scala编写的复杂一点的和药相关的spark实例，包含代码和数据获取网址

spark hadoop

sqlserver 18

feature engineering python

Apache Mahout

python大数据处理的书籍推荐

C:\Users\Administrator\IdeaProjects\spark_tutorial\datas

最新资源