《机器学习与Spark》是一本由Nick Pentreath编著的实用指南,旨在帮助读者创建可扩展的机器学习应用程序,以驱动现代数据驱动的业务,利用Apache Spark的强大功能。本书共分为10章,详细介绍了在Spark框架下进行机器学习开发的各种关键技术和实践。 第一章“快速入门Spark”首先介绍了如何安装和配置本地Spark开发环境,以及如何在AWS Amazon EC2上搭建Spark集群。此外,作者通过Scala、Java和Python三种编程语言展示了创建简单Spark应用的基础。 第二章“设计机器学习系统”通过一个实际案例探讨了机器学习系统的构建,为Spark中的智能系统设计了一个高级架构,帮助读者理解如何将机器学习融入到实际应用场景中。 第三章“使用Spark获取、处理和准备数据”着重讲解如何从公开资源获取数据,并介绍如何使用Spark及相关工具对数据进行清洗、预处理和特征工程,以便于机器学习模型的训练。 第四章“基于协同过滤的推荐引擎”深入研究了如何建立一个推荐系统,包括用户个性化推荐和相似项推荐,同时涵盖了评估推荐模型性能的标准指标。 第五章和第六章分别阐述了如何用Spark构建分类和回归模型,包括模型的构建方法和性能评价标准。第五章关注二分类任务,而第六章则在此基础上扩展至回归问题。 第七章“使用Spark进行聚类分析”探讨了如何创建和分析聚类模型,以及如何评估聚类效果,并提供可视化手段来理解和解读生成的簇。 第八章“Spark中的维度缩减”讲解了如何通过降维技术提取数据内在结构,减少数据维度,以及如何将降维后的数据用于进一步的机器学习模型。 第九章“Spark高级文本处理”介绍了处理大规模文本数据的策略,包括从文本中提取特征和应对高维文本特征的技术。 第十章“实时机器学习与Spark Streaming”深入介绍Spark Streaming,讲解如何将机器学习应用于实时数据流,以及它如何与在线和增量学习相结合。 本书强调实践性和实用性,适合希望掌握Spark进行机器学习的开发人员和数据科学家。版权信息表明,未经出版商许可,不得复制或传播书中的任何内容。尽管本书努力确保信息的准确性,但所有信息均以无保证的方式提供,作者和出版社不对由此产生的任何损失负责。
- 粉丝: 95
- 资源: 23
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 多模态联合稀疏表示在视频目标跟踪中的应用
- Kubernetes资源管控与Gardener开源软件实践解析
- MPI集群监控与负载平衡策略
- 自动化PHP安全漏洞检测:静态代码分析与数据流方法
- 青苔数据CEO程永:技术生态与阿里云开放创新
- 制造业转型: HyperX引领企业上云策略
- 赵维五分享:航空工业电子采购上云实战与运维策略
- 单片机控制的LED点阵显示屏设计及其实现
- 驻云科技李俊涛:AI驱动的云上服务新趋势与挑战
- 6LoWPAN物联网边界路由器:设计与实现
- 猩便利工程师仲小玉:Terraform云资源管理最佳实践与团队协作
- 类差分度改进的互信息特征选择提升文本分类性能
- VERITAS与阿里云合作的混合云转型与数据保护方案
- 云制造中的生产线仿真模型设计与虚拟化研究
- 汪洋在PostgresChina2018分享:高可用 PostgreSQL 工具与架构设计
- 2018 PostgresChina大会:阿里云时空引擎Ganos在PostgreSQL中的创新应用与多模型存储