Apache Mahout:分布式算法设计与实现
5星 · 超过95%的资源 需积分: 9 85 浏览量
更新于2024-07-20
收藏 1.43MB PDF 举报
"Apache Mahout: Beyond MapReduce" 是一本由 Dmitriy Lyubimov 和 Andrew Palumbo 合著的书籍,专注于介绍如何利用Apache Mahout "Samsara"平台设计分布式数学和机器学习算法。这本书面向机器学习从业者、算法设计师、应用研究人员以及对融合数学的算法感兴趣的实验者。书中涵盖了Apache Mahout 0.10和0.11版本的内容,并深入探讨了如何在大数据集上解决机器学习问题的最佳编程实践和概念方法。
书中的章节分布如下:
第一部分:初识Mahout
- 第1章 了解Mahout:这一章将引导读者进入Mahout的世界,解释其核心概念和用途。
- 第2章 搭建环境:介绍了设置和准备使用Mahout所需的步骤和工具。
第二部分:使用Mahout编码
- 第3章 内存中的代数:讨论如何在内存中进行数学运算,提供代码示例,以帮助理解Mahout的基础。
- 第4章 分布式代数:进一步深入,介绍如何在分布式环境中执行这些计算。
第三部分:近似分布式问题
- 第5章 随机SVD(奇异值分解):讲解如何使用随机方法解决大规模数据集上的SVD问题。
- 第6章 随机PCA(主成分分析):类似地,探讨了处理PCA的分布式策略。
- 第7章 使用Bahmani sketch进行数据概化:介绍了一种用于大数据的快速且近似的统计方法。
第四部分:Samsara教程
- 第8章 朴素贝叶斯示例:通过一个实际的机器学习任务,展示了如何使用Mahout Samsara实现朴素贝叶斯分类器。
附录部分提供了关于书中所用约定的指南,以及内核代数和分布式代数的参考材料,帮助读者更好地理解和应用书中介绍的概念。
本书不仅关注理论,还强调实践,通过数学原理的解释和代码示例,使读者能够设计和实现分布式机器学习算法,同时也能够利用Mahout "Samsara"现成的算法。对于那些希望深入理解并掌握大规模数据集上机器学习技术的人来说,这是一本宝贵的资源。
2018-05-27 上传
2024-01-09 上传
2023-05-31 上传
2023-06-01 上传
2023-06-01 上传
2023-05-16 上传
2023-05-11 上传
2023-06-08 上传
ramissue
- 粉丝: 354
- 资源: 1487
最新资源
- 多模态联合稀疏表示在视频目标跟踪中的应用
- Kubernetes资源管控与Gardener开源软件实践解析
- MPI集群监控与负载平衡策略
- 自动化PHP安全漏洞检测:静态代码分析与数据流方法
- 青苔数据CEO程永:技术生态与阿里云开放创新
- 制造业转型: HyperX引领企业上云策略
- 赵维五分享:航空工业电子采购上云实战与运维策略
- 单片机控制的LED点阵显示屏设计及其实现
- 驻云科技李俊涛:AI驱动的云上服务新趋势与挑战
- 6LoWPAN物联网边界路由器:设计与实现
- 猩便利工程师仲小玉:Terraform云资源管理最佳实践与团队协作
- 类差分度改进的互信息特征选择提升文本分类性能
- VERITAS与阿里云合作的混合云转型与数据保护方案
- 云制造中的生产线仿真模型设计与虚拟化研究
- 汪洋在PostgresChina2018分享:高可用 PostgreSQL 工具与架构设计
- 2018 PostgresChina大会:阿里云时空引擎Ganos在PostgreSQL中的创新应用与多模型存储