Spark编程基础：Spark RDD操作详解

52 浏览量更新于2024-08-29 收藏 282KB PDF 举报

Spark是Apache Hadoop生态系统中的一个快速、通用且可扩展的大数据处理框架，它以其核心组件Resilient Distributed Datasets (RDDs)而闻名。RDD是Spark的核心数据结构，提供了容错性和并行计算的能力。本章主要介绍了Spark的RDD以及编程接口。 1. Spark程序“Hello World” Spark程序的基本结构通常包括创建Spark上下文（SparkContext）和执行数据处理任务。在"Hello World"示例中，我们首先创建SparkContext，指定集群地址、应用名称、安装路径和JAR包路径。接着，通过SparkContext的`textFile`方法读取HDFS上的日志文件，得到一个表示文件内容的RDD。然后，使用`filter`函数对RDD进行操作，筛选出包含"Hello World"的行，创建新的RDD。再通过`cache`方法缓存结果，提高效率，最后用`count`行动操作计算匹配行的数量。 2. SparkRDD RDD是一种不可变、分区的数据集，分布在Spark集群的多个节点上。RDD可以由原始数据集（如文件）创建，或通过其他RDD转换而来。RDD有两种主要的操作类型： - 转换操作（Transformation Operations）：这些操作不立即执行，而是创建一个新的RDD。例如，`map`、`filter`、`reduceByKey`等。转换操作是延迟计算的，只有当触发行动操作时才会执行。 - 行动操作（Action Operations）：这些操作会触发实际的计算，并可能返回结果到驱动程序或写入外部存储。如`count`、`collect`、`saveAsTextFile`等。 3. RDD创建操作创建操作是通过SparkContext的API，如`textFile`，将外部数据源（如文件系统）转化为RDD。此外，还可以使用`parallelize`将本地数据集分布到集群中。 4. RDD转换操作转换操作用于在RDD之间创建新的关系。例如，`filter`函数根据给定的条件过滤元素，`map`函数将每个元素应用一个函数，生成新RDD，而`reduceByKey`用于对键值对RDD进行聚合操作。 5. RDD控制操作控制操作如`cache`和`persist`允许用户将RDD持久化在内存或磁盘中，以供后续使用。这提高了计算效率，因为重复访问已缓存的RDD不需要重新计算。 6. 懒计算模型 Spark采用懒计算模型，只有在需要结果时才执行转换操作。这种设计减少了不必要的计算，提高了性能。总结来说，Spark的RDD机制和编程接口提供了一种高效、灵活的大数据处理方式，它通过简单的API实现了复杂的数据处理任务，并利用分布式计算的力量处理大规模数据。掌握Spark的RDD和编程接口是深入理解和使用Spark的关键。

第二章第二章 Spark RDD以及编程接口以及编程接口

Spark程序”Hello World”

Spark RDD

创建操作

转换操作

控制操作

行动操作

注：学习《Spark大数据处理技术》笔记

1. Spark程序程序”Hello World”

1. 概述概述

计算存储在HDFS的Log文件中出现字符串”Hello World”的行数

2. 代码实现代码实现

3. 行解行解

第一行第一行

对于所有的Spark程序而言，要进行任何操作，首先要创建一个Spark上下文，在创建上下文的过程中，程序会向集群申请资

源以及构建相应的运行环境

需要传入四个变量

1. Spark程序运行的集群地址，如”spark://localhost:7077″

2. Spark程序的标识

3. 指明Spark程序安装的路径

4. Spark程序的jar包路径

第二行第二行

通过sc变量，利用textFile接口从HDFS文件系统读入Log文件，返回一个变量file

第三行第三行

对file变量进行过滤操作，传入的参数是一个function对象，function的原型p:(A)=>Boolean，对于file中的每一行字符串判断是

否含有”Hello World”，生成新的变量filterRDD

第四行第四行

对filterRDD进行cache操作，以便后续重用filterRDD这个变量

第五行第五行

对filterRDD进行count计数，最后返回包含”Hello World”字符串的文本行数

4. 重要概念重要概念

弹性分布式数据集RDD(Resilient Distributed DataSets)

file和filterRDD变量都是RDD

创建操作(creation operation)

RDD的初始创建都是由SparkContext来负责的，将内存中的集合或者外部文件系统作为输入源

转换操作(transformation operation)

将一个RDD通过一定的操作变换成另一个RDD，比如file这个RDD通过一个filter操作变换成filterRDD，所以filter就是一个转换

操作

控制操作(control operation)

对RDD进行持久化，可以让RDD保存在磁盘或者内存中，以便后续重复使用。比如cache接口默认将filterRDD缓存在内存中

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38638163

粉丝: 3
资源: 975

Spark编程基础：Spark RDD操作详解

《Spark 编程基础》 教材讲义 厦门大学 林子雨

Spark编程：使用RDD进行数据处理

Spark RDD中的MapReduce操作详解

sparkrdd项目案例

sparkrdd 和 spark sql区别

用spark RDD 编程实现，实现单词统计

sparkRDD：第1节 RDD概述；第2节 创建RDD

spark streaming rdd编程

2. 结合词频统计的例子，用文字和验证代码说明SparkRDD编程的特点

[spark学习] spark rdd详解

最新资源

《Spark 编程基础》教材讲义厦门大学林子雨

sparkRDD：第1节 RDD概述；第2节创建RDD