使用Spark构建大规模机器学习应用
5星 · 超过95%的资源 需积分: 11 125 浏览量
更新于2024-07-22
9
收藏 4.74MB PDF 举报
"Machine Learning with Spark" 是一本由Nick Pentreath编著的书籍,主要讲解如何使用Apache Spark构建可扩展的机器学习应用,以驱动数据驱动的现代业务。本书面向具有Scala、Java或Python背景,并对机器学习和数据分析感兴趣的读者,即使没有Spark经验也能学习。书中通过实际案例,教你如何利用Spark开发自己的机器学习系统,结合多种技术和模型构建智能机器学习系统,以及如何加载、分析、清洗和转换数据。
书中详细涵盖了Spark API的基础知识,用于数据处理和准备,以便输入到各种机器学习模型中。内容包括推荐系统、分类、回归、聚类和降维等常见模型的实现。此外,还涉及了大规模文本数据处理、在线机器学习和使用Spark Streaming进行模型评估的高级主题。
书中的目录包括:
1. Spark的入门与启动:介绍Spark的安装、集群设置和编程模型,涵盖SparkContext、SparkConf、SparkShell、ResilientDistributedDatasets(RDD)以及Spark的基本操作。
2. 设计机器学习系统:以MovieStream为例,讨论机器学习系统的业务应用场景,如个性化推荐、目标营销和客户细分。
3. 使用Spark获取、处理和准备数据:教授如何利用Spark进行数据预处理工作。
4. 使用Spark构建推荐引擎:展示如何创建推荐系统。
5. 使用Spark构建分类模型:介绍分类模型的构建方法。
6. 使用Spark构建回归模型:阐述回归模型的实现过程。
7. 使用Spark构建聚类模型:讲解如何执行数据聚类。
8. 使用Spark进行降维:探讨降维技术的应用。
9. 使用Spark进行高级文本处理:介绍处理大规模文本数据的策略。
10. 使用Spark Streaming进行实时机器学习:讨论如何在实时环境中应用机器学习。
这本书适合希望在分布式环境中进行大规模机器学习的开发者,通过实例和实践指导,帮助读者掌握Spark在机器学习领域的应用技巧。
2018-09-10 上传
2019-04-18 上传
2020-04-07 上传
2018-08-11 上传
149 浏览量
2015-09-09 上传
2020-03-07 上传
2017-11-16 上传
2019-01-15 上传
ramissue
- 粉丝: 354
- 资源: 1487
最新资源
- WPF渲染层字符绘制原理探究及源代码解析
- 海康精简版监控软件:iVMS4200Lite版发布
- 自动化脚本在lspci-TV的应用介绍
- Chrome 81版本稳定版及匹配的chromedriver下载
- 深入解析Python推荐引擎与自然语言处理
- MATLAB数学建模算法程序包及案例数据
- Springboot人力资源管理系统:设计与功能
- STM32F4系列微控制器开发全面参考指南
- Python实现人脸识别的机器学习流程
- 基于STM32F103C8T6的HLW8032电量采集与解析方案
- Node.js高效MySQL驱动程序:mysqljs/mysql特性和配置
- 基于Python和大数据技术的电影推荐系统设计与实现
- 为ripro主题添加Live2D看板娘的后端资源教程
- 2022版PowerToys Everything插件升级,稳定运行无报错
- Map简易斗地主游戏实现方法介绍
- SJTU ICS Lab6 实验报告解析