Python开发者指南：利用PySpark构建数据密集应用

需积分: 9 91 浏览量更新于2024-07-20 收藏 6.16MB PDF 举报

《Spark for Python Developers》是一本专为Python开发者设计的指南，旨在将Python语言的优雅与灵活性与Apache Spark的强大功能和多功能性相结合。Spark虽然主要用Scala编写并运行在Java虚拟机上，但它支持多种编程语言，包括Java、Scala、Python和R。本书关注的核心是PySpark，它作为PyData生态系统的一部分，与Pandas、Blaze、Scikit-Learn、Matplotlib、Seaborn和Bokeh等流行的开源数据科学库紧密结合。书中的旅程从搭建Spark基础环境开始，包括理解数据密集型应用架构的各个层次：基础设施层、持久层、集成层、分析层和交互层。作者强调了Spark库的重要性，特别是Resilient Distributed Dataset（RDD），这是Spark处理数据的基本抽象，提供了分布式计算的能力。本书特别提到了Anaconda Python发行版，它对PySpark与PyData生态系统的集成给予支持。读者将学习如何设置Spark增强环境，如在Oracle VirtualBox上安装Ubuntu，以及如何配置Java 8和Spark。此外，还介绍了如何使用IPython Notebook进行开发，并通过实际示例构建第一个PySpark应用程序。接着，书本探讨了如何将应用部署到云端，如Amazon Web Services（AWS），并讨论了使用Docker进行环境虚拟化的可能性。整体而言，《Spark for Python Developers》不仅教授技术技能，还引导读者理解和实践如何在大数据处理场景中运用Python与Spark，从而构建高效的数据驱动应用。通过阅读这本书，Python开发者将能够提升对Spark的理解，掌握如何在实际项目中有效地整合PySpark和其他相关工具，实现数据的收集、处理、分析和实时流处理，最后呈现可视化的结果。无论是初学者还是经验丰富的开发者，都能从中受益匪浅。

剩余126页未读，继续阅读

gjinshang

粉丝: 1
资源: 6

Python开发者指南：利用PySpark构建数据密集应用

code: spark for python developer

Spark for Python Developers 无水印pdf 0分

大数据技术分享 Spark技术讲座 Apache Spark Developer的机器学习 共16页.pdf

Python-Data-Developer-LM-N-267

Spark The Definitive Guide epub

HCIP-IoT Developer资料

zOS上的Spark：在此旅程中，我们演示了在zOS上使用Spark运行分析应用程序。 zOS上的Apache Spark是对结构化和非结构化企业数据的就地优化优化和实时分析

Mastering Apache Spark 2.x Scale your m l and d l systems with SparkML, DL4j and

Mastering Apache Spark 2.x - Second Edition

HCNP-Big Data-Developer教材docx版本

最新资源

大数据技术分享 Spark技术讲座 Apache Spark Developer的机器学习共16页.pdf