利用Apache Spark构建大规模机器学习应用
需积分: 10 180 浏览量
更新于2024-07-21
收藏 5.38MB PDF 举报
"《机器学习与Spark》是一本深入探讨如何利用Apache Spark构建可扩展机器学习应用的实用指南。随着大数据时代的发展,海量数据的收集、存储和分析需求激增,尤其是在互联网、移动设备和传感器网络等领域。传统的单机处理方式已难以满足实时分析的需求,因此催生了"大数据"和机器学习技术,旨在自动化地从这些数据中学习并做出决策。
Spark是由Google、Yahoo!、Amazon和Facebook等公司推动的开源项目,其目标是通过在集群计算机上分布式存储(Hadoop Distributed File System, HDFS)和计算(Hadoop MapReduce框架),降低处理大规模数据的成本和复杂性。Spark以其高效的数据处理能力和内存计算模型,相较于Hadoop MapReduce在迭代算法和交互式查询方面表现更优,成为大数据处理的热门选择。
本书作者Nick Pentreath引导读者如何利用Spark构建现代数据驱动业务,包括数据预处理、特征工程、模型训练、模型优化以及部署和监控。书中涵盖了各种机器学习算法的实现,如监督学习(如线性回归、决策树、随机森林和深度学习)、无监督学习(聚类、关联规则挖掘)、以及推荐系统等,同时介绍了Spark MLlib库和Spark Streaming对于实时数据流处理的支持。
值得注意的是,版权方面,读者需确保在未经出版商书面许可的情况下,不进行任何形式的复制、存储或传输。尽管本书力求提供准确的信息,但出版社和作者不对因使用本书内容而产生的任何损失或声称的损失承担责任。此外,书中提及的商标信息已尽可能按规范使用,但并不能保证其准确性。
《机器学习与Spark》是一本适合对大数据处理和机器学习有兴趣的专业人士以及企业开发人员的实用教程,它提供了实战经验和理论知识的结合,帮助读者掌握如何在实际场景中有效地利用Spark进行数据驱动决策和创新业务发展。"
2017-11-11 上传
2018-02-28 上传
2018-09-18 上传
2017-05-09 上传
2018-09-07 上传
179 浏览量
2017-09-28 上传
2020-03-07 上传
mbpeter08
- 粉丝: 0
- 资源: 4
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库