使用Python开发Spark数据应用实战

需积分: 9 2 下载量 9 浏览量 更新于2024-07-19 收藏 6.16MB PDF 举报
"Spark for Python Developers" 是一本面向Python开发者介绍如何使用Spark进行大数据处理的图书。本书由Packt Publishing于2016年出版,作者通过实例详细讲解了如何利用Spark和Python构建实时流处理和批量数据密集型基础设施。 在书中,作者首先介绍了数据密集型应用的架构,包括基础设施层、持久化层、集成层、分析层和参与层。然后,重点讲解了Apache Spark,这是一个开源的、快速的、通用的集群计算系统,以其多阶段内存原语提供比Hadoop快100倍的性能,并且非常适合机器学习算法。 针对Python开发者,书中的内容涵盖了如何配置由Spark、Blaze和Bokeh支持的Python开发环境,以及如何连接到MySQL、MongoDB、Cassandra和Hadoop等数据存储。读者将逐步学习各种数据源(如GitHub、Twitter、Meetup和博客)的数据结构,并了解如何处理复杂性问题。通过iPython Notebook,读者可以探索数据集并优化数据模型和管道。 此外,书中的章节还涉及创建训练数据集和训练机器学习模型,以及如何使用Spark构建一个实时的、具有洞察力的趋势追踪数据密集型应用。书的最后部分涵盖了虚拟环境的设置,包括使用Oracle VirtualBox安装Ubuntu、安装Anaconda(Python 2.7版本)、Java 8和Spark,以及启用IPython Notebook。同时,书中也讨论了使用Vagrant和Docker虚拟化环境的方法,以及在Amazon Web Services (AWS)上部署应用程序的步骤。 这本书适合有一定Python基础,希望利用Spark进行大数据处理的开发者阅读。书中遵循的约定清晰,旨在帮助读者逐步提升技能,从安装环境到实际开发,直至构建出高效的数据处理应用。通过阅读此书,读者将能够充分利用PySpark的强大功能,实现数据的高效分析和实时处理。