使用Python开发Spark数据应用实战
需积分: 9 166 浏览量
更新于2024-07-19
收藏 6.16MB PDF 举报
"Spark for Python Developers" 是一本面向Python开发者介绍如何使用Spark进行大数据处理的图书。本书由Packt Publishing于2016年出版,作者通过实例详细讲解了如何利用Spark和Python构建实时流处理和批量数据密集型基础设施。
在书中,作者首先介绍了数据密集型应用的架构,包括基础设施层、持久化层、集成层、分析层和参与层。然后,重点讲解了Apache Spark,这是一个开源的、快速的、通用的集群计算系统,以其多阶段内存原语提供比Hadoop快100倍的性能,并且非常适合机器学习算法。
针对Python开发者,书中的内容涵盖了如何配置由Spark、Blaze和Bokeh支持的Python开发环境,以及如何连接到MySQL、MongoDB、Cassandra和Hadoop等数据存储。读者将逐步学习各种数据源(如GitHub、Twitter、Meetup和博客)的数据结构,并了解如何处理复杂性问题。通过iPython Notebook,读者可以探索数据集并优化数据模型和管道。
此外,书中的章节还涉及创建训练数据集和训练机器学习模型,以及如何使用Spark构建一个实时的、具有洞察力的趋势追踪数据密集型应用。书的最后部分涵盖了虚拟环境的设置,包括使用Oracle VirtualBox安装Ubuntu、安装Anaconda(Python 2.7版本)、Java 8和Spark,以及启用IPython Notebook。同时,书中也讨论了使用Vagrant和Docker虚拟化环境的方法,以及在Amazon Web Services (AWS)上部署应用程序的步骤。
这本书适合有一定Python基础,希望利用Spark进行大数据处理的开发者阅读。书中遵循的约定清晰,旨在帮助读者逐步提升技能,从安装环境到实际开发,直至构建出高效的数据处理应用。通过阅读此书,读者将能够充分利用PySpark的强大功能,实现数据的高效分析和实时处理。
点击了解资源详情
点击了解资源详情
点击了解资源详情
131 浏览量
2017-03-28 上传
196 浏览量
118 浏览量
2024-07-02 上传
2018-06-09 上传
DevOpSec
- 粉丝: 4
- 资源: 4
最新资源
- 智睿学校选课系统 v3.2.0
- javascript-pw-generator
- 带有Blynk和全息图的蜂窝物联网-项目开发
- SkytecBotRewrite:Skytec Bot
- 基于欧姆龙的PLC实验.rar
- java-array-classwork1-CalebC94:GitHub Classroom创建的java-array-classwork1-CalebC94
- expo-sample-app
- crossphp简洁高效PHP开发框架 v1.6.0
- 海康威视LED屏DS-TVL224文本语音二次开发代码
- Leetcode
- 智睿录取查询报名系统 v8.2.0
- website-2.0
- 索尔玛兹·波托利奥
- letmehear:有声书批处理器(resplitter)
- jhipster-sample-application
- MSR Paraphrase Corpus data.zip