Python入门：Spark大数据处理详解与环境搭建

165 浏览量更新于2024-08-31 收藏 552KB PDF 举报

本文档是关于Python学习笔记，主要探讨了Apache顶级项目中的热门大数据处理工具——Spark。Spark被广泛应用于离线计算、交互式查询、数据挖掘、流式计算和图计算等领域，因其强大的处理能力和灵活性而备受瞩目。 Spark的核心组件包括： 1. SparkCore：这是Spark的基础，提供了RDD（弹性分布式数据集）的API，它是Spark计算的基本单元，支持数据的分布式处理和操作。开发者可以通过定义和操作RDD来执行各种计算任务，同时，SparkCore还定义了动作（Actions），这些动作会触发实际的数据计算。 2. SparkSQL：作为Spark的一个扩展，SparkSQL使得用户能够通过Apache Hive的SQL变体HiveQL与Spark进行交互。它将Hive表视为RDD，将SQL查询转化为Spark操作，简化了从结构化数据中获取和分析的过程，特别适合那些熟悉Hive和HiveQL的用户。 3. SparkStreaming：针对实时数据流处理的重要模块，Spark Streaming允许开发者处理来自实时数据源的数据，如Apache Storm或Kafka，以实现实时数据分析和控制。 4. MLlib：Spark的机器学习库，提供了各种机器学习算法的Spark操作实现，特别是那些基于迭代且需要处理大规模数据集的任务，如分类和回归。随着Mahout库逐渐融入Spark，SparkMLlib的机器学习能力得到了进一步增强。 5. GraphX：专用于图处理的组件，它扩展了RDD API，支持图的创建、操作和分析，如图的子图提取、路径查询等，对于图形数据分析和社交网络分析等场景十分有用。 Spark的存储支持广泛，它能读取Hadoop分布式文件系统（HDFS）和其他Hadoop兼容存储，如本地文件系统、Amazon S3、Hive和HBase等。此外，Spark还与YARN（Yet Another Resource Negotiator）集成，后者作为Hadoop的资源管理器，为Spark提供了统一的资源管理和调度服务，提升了集群的效率和资源利用率。 Spark凭借其高效的数据处理能力、易用的API支持（包括Scala、Java和Python）以及丰富的生态系统，成为了大数据时代不可或缺的一部分，吸引了众多数据科学家和开发者选择它作为解决大数据问题的首选工具。

Python学习笔记学习笔记——大数据之大数据之Spark简介与环境搭建简介与环境搭建

Spark 是 Apache 顶级项目里面最火的大数据处理的计算引擎，它目前是负责大数据计算的工作。包括离线计算或交互式查

询、数据挖掘算法、流式计算以及图计算等。

spark生态系统

核心组件如下：

Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和

Spark Core之上的。

Spark SQL：提供通过Apache Hive的SQL变体Hive查询语言（HiveQL）与Spark进行交互的API。每个数据库表被当做一个

RDD，Spark SQL查询被转换为Spark操作。对熟悉Hive和HiveQL的人，Spark可以拿来就用。

Spark Streaming：允许对实时数据流进行处理和控制。很多实时数据库（如Apache Store）可以处理实时数据。Spark

Streaming允许程序能够像普通RDD一样处理实时数据。

MLlib：一个常用机器学习算法库，算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法，比如分类、回归等需

要对大量数据集进行迭代的操作。之前可选的大数据机器学习库Mahout，将会转到Spark，并在未来实现。

GraphX：控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API，包含控制图、创建子图、访问路径

上所有顶点的操作。

由于这些组件满足了很多大数据需求，也满足了很多数据科学任务的算法和计算上的需要，Spark快速流行起来。不仅如

此，Spark也提供了使用Scala、Java和Python编写的API；满足了不同团体的需求，允许更多数据科学家简便地采用Spark作

为他们的大数据解决方案

spark的存储层次

spark不仅可以将任何的hadoop分布式文件系统上的文件读取为分布式数据集，也可以支持其他支持hadoop接口的系统，比

如本地文件、亚马逊S3、Hive、HBase等。下图为hadoop与节点之间的关系：

spark on yarn

Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一

个通用资源管理系统，可为上层应用提供统一的资源管理和调度.YARN 分层结构的本质是 ResourceManager。这个实体控制

整个集群并管理应用程序向基础计算资源的分配。ResourceManager 将各个资源部分（计算、内存、带宽等）精心安排给基

础 NodeManager（YARN 的每节点代理）?Hadoop2版本以上，引入YARN之后，不仅仅可以使用MapReduce，还可以引用

spark等等计算?

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38618315

粉丝: 1
资源: 920

Python入门：Spark大数据处理详解与环境搭建

Python 笔记源码——内含python后端&机器学习等.zip

Python学习笔记——运算符

第九届信息素养大赛——大数据组.ipynb

Python大数据之Spark编程基础与提升视频课程课件PPT模板.pptx

Python大数据之Spark编程基础与提升视频课程

Spark快速大数据分析.zip_Spark快速大数据分析_spark python_spark大数据_spark实时分析_数据

带有PySpark的Spark和Python用于大数据：Spark机器学习项目

学习笔记——Python实现垃圾邮件过滤-附件资源

python小游戏——扫雷

大数据技术实践——Spark词频统计

最新资源