使用Python开发Spark数据应用实战
需积分: 9 9 浏览量
更新于2024-07-19
收藏 6.16MB PDF 举报
"Spark for Python Developers" 是一本面向Python开发者介绍如何使用Spark进行大数据处理的图书。本书由Packt Publishing于2016年出版,作者通过实例详细讲解了如何利用Spark和Python构建实时流处理和批量数据密集型基础设施。
在书中,作者首先介绍了数据密集型应用的架构,包括基础设施层、持久化层、集成层、分析层和参与层。然后,重点讲解了Apache Spark,这是一个开源的、快速的、通用的集群计算系统,以其多阶段内存原语提供比Hadoop快100倍的性能,并且非常适合机器学习算法。
针对Python开发者,书中的内容涵盖了如何配置由Spark、Blaze和Bokeh支持的Python开发环境,以及如何连接到MySQL、MongoDB、Cassandra和Hadoop等数据存储。读者将逐步学习各种数据源(如GitHub、Twitter、Meetup和博客)的数据结构,并了解如何处理复杂性问题。通过iPython Notebook,读者可以探索数据集并优化数据模型和管道。
此外,书中的章节还涉及创建训练数据集和训练机器学习模型,以及如何使用Spark构建一个实时的、具有洞察力的趋势追踪数据密集型应用。书的最后部分涵盖了虚拟环境的设置,包括使用Oracle VirtualBox安装Ubuntu、安装Anaconda(Python 2.7版本)、Java 8和Spark,以及启用IPython Notebook。同时,书中也讨论了使用Vagrant和Docker虚拟化环境的方法,以及在Amazon Web Services (AWS)上部署应用程序的步骤。
这本书适合有一定Python基础,希望利用Spark进行大数据处理的开发者阅读。书中遵循的约定清晰,旨在帮助读者逐步提升技能,从安装环境到实际开发,直至构建出高效的数据处理应用。通过阅读此书,读者将能够充分利用PySpark的强大功能,实现数据的高效分析和实时处理。
176 浏览量
2017-11-11 上传
2024-07-02 上传
2017-03-28 上传
764 浏览量
2018-12-18 上传
2017-10-29 上传
2015-06-05 上传
2017-10-03 上传
DevOpSec
- 粉丝: 4
- 资源: 4
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍