使用Python和Spark2.0构建大数据应用

需积分: 22 43 浏览量更新于2024-07-17 收藏 9.38MB PDF 举报

"Learning PySpark 是一本专注于使用Python和Spark 2.0构建大规模数据处理应用的指南。书中深入探讨了PySpark的核心概念和技术，帮助读者掌握如何在本地开发并扩展到集群的应用程序。作者Tomasz Drabas和Denny Lee通过这本书分享了他们在大数据处理领域的专业知识。" 在大数据爆炸的时代，2013年全球产生了约4.4泽字节（即4.4万亿GB）的数据，预计到2020年，这个数字将增长十倍。面对海量数据的挑战，Google的员工Jeffrey Dean和Sanjay Ghemawat在2004年发表的MapReduce论文提出了简化大型集群上数据处理的方法。MapReduce概念的提出催生了Apache Hadoop的崛起，并构建了一个包括Pig、Hive和Mahout等工具在内的生态系统，这些工具都利用了map和reduce的思想来处理大数据。 PySpark是Apache Spark的Python API，它结合了Python的易用性和Spark的强大性能。本书"Learning PySpark"旨在教会读者如何使用PySpark开发数据密集型应用。书中涵盖了以下关键知识点： 1. **Spark基础**：介绍Spark的核心概念，如RDD（弹性分布式数据集）、DataFrame和Dataset，以及它们在处理数据时的角色。 2. **PySpark编程**：详细讲解如何使用Python编写Spark应用程序，包括数据加载、转换和操作，以及数据持久化。 3. **Spark SQL**：阐述如何利用Spark SQL进行结构化数据处理，与传统SQL的对比，以及如何与其他数据源集成。 4. **数据处理**：涵盖数据清洗、预处理、聚合和统计分析，以及机器学习算法的实现。 5. **Spark性能优化**：讨论如何调整配置参数以提高Spark应用的执行效率，包括内存管理、任务调度和并行化策略。 6. **Spark集群部署**：介绍如何在多节点集群上部署和运行PySpark应用，包括YARN、Mesos和standalone模式。 7. **案例研究**：提供真实世界的数据处理和分析示例，展示PySpark在实际场景中的应用。书中的内容旨在确保信息的准确性，但不提供任何明示或暗示的保证。尽管作者和出版社尽力提供准确的商标信息，但可能存在的错误或遗漏不承担责任。这本书是为那些希望深入理解并有效利用PySpark处理大数据的读者准备的，无论是初学者还是经验丰富的开发者，都能从中受益。

Table of Contents

[ v ]

Chapter 8: TensorFrames 157

What is Deep Learning? 157

The need for neural networks and Deep Learning 161

What is feature engineering? 163

Bridging the data and algorithm 164

What is TensorFlow? 166

Installing Pip 168

Installing TensorFlow 169

Matrix multiplication using constants 170

Matrix multiplication using placeholders 171

Running the model 172

Running another model 172

Discussion 173

Introducing TensorFrames 174

TensorFrames – quick start 175

Conguration and setup 176

Launching a Spark cluster 176

Creating a TensorFrames library 176

Installing TensorFlow on your cluster 176

Using TensorFlow to add a constant to an existing column 177

Executing the Tensor graph 178

Blockwise reducing operations example 179

Building a DataFrame of vectors 180

Analysing the DataFrame 180

Computing elementwise sum and min of all vectors 181

Summary 182

Chapter 9: Polyglot Persistence with Blaze 183

Installing Blaze 184

Polyglot persistence 185

Abstracting data 186

Working with NumPy arrays 186

Working with pandas' DataFrame 188

Working with les 189

Working with databases 192

Interacting with relational databases 192

Interacting with the MongoDB database 194

Data operations 194

Accessing columns 194

Symbolic transformations 195

Operations on columns 197

https://www.iteblog.com

剩余272页未读，继续阅读

Chiang_t

粉丝: 3
资源: 2

使用Python和Spark2.0构建大数据应用

Learning-PySpark:Packt学习PySpark的代码存储库

Learning PySpark epub

Learning PySpark英文版PDF+书中代码+安装教程

deep-learning-with-pytorch.pdf 15章

解释attitude数据集中的“rating=63.53570++0.63187*complaints +-0.53005*learning-1.44649*advance +0.63187* learning*advance”模型，详细说明

python强化学习项目 python reinforcement learning projects - 2018.pdf

怎么下载winequality-red.csv

MLU220-M.2核数

最新资源

解释attitude数据集中的“rating=63.53570++0.63187complaints +-0.53005learning-1.44649advance +0.63187 learning*advance”模型，详细说明