使用Python开发Spark数据应用实战

需积分: 9 166 浏览量更新于2024-07-19 收藏 6.16MB PDF 举报

"Spark for Python Developers" 是一本面向Python开发者介绍如何使用Spark进行大数据处理的图书。本书由Packt Publishing于2016年出版，作者通过实例详细讲解了如何利用Spark和Python构建实时流处理和批量数据密集型基础设施。在书中，作者首先介绍了数据密集型应用的架构，包括基础设施层、持久化层、集成层、分析层和参与层。然后，重点讲解了Apache Spark，这是一个开源的、快速的、通用的集群计算系统，以其多阶段内存原语提供比Hadoop快100倍的性能，并且非常适合机器学习算法。针对Python开发者，书中的内容涵盖了如何配置由Spark、Blaze和Bokeh支持的Python开发环境，以及如何连接到MySQL、MongoDB、Cassandra和Hadoop等数据存储。读者将逐步学习各种数据源（如GitHub、Twitter、Meetup和博客）的数据结构，并了解如何处理复杂性问题。通过iPython Notebook，读者可以探索数据集并优化数据模型和管道。此外，书中的章节还涉及创建训练数据集和训练机器学习模型，以及如何使用Spark构建一个实时的、具有洞察力的趋势追踪数据密集型应用。书的最后部分涵盖了虚拟环境的设置，包括使用Oracle VirtualBox安装Ubuntu、安装Anaconda（Python 2.7版本）、Java 8和Spark，以及启用IPython Notebook。同时，书中也讨论了使用Vagrant和Docker虚拟化环境的方法，以及在Amazon Web Services (AWS)上部署应用程序的步骤。这本书适合有一定Python基础，希望利用Spark进行大数据处理的开发者阅读。书中遵循的约定清晰，旨在帮助读者逐步提升技能，从安装环境到实际开发，直至构建出高效的数据处理应用。通过阅读此书，读者将能够充分利用PySpark的强大功能，实现数据的高效分析和实时处理。

剩余126页未读，继续阅读

DevOpSec

粉丝: 4
资源: 4

使用Python开发Spark数据应用实战

2015年Nandi Spark教程Python开发代码解压指南

PySpark入门指南：Python开发者打造数据处理神器

Python开发者指南：利用PySpark构建数据密集应用

Spark for Python Developers

Spark for Python Developers.pdf

Spark for Python Developers 无水印pdf 0分

Spark for Python Developers,Packt Publishing,2015

Nandi -- Spark for Python Developers -- 2015 -- code.7z

Matplotlib for Python Developers

OpenCV for Python Developers

最新资源