Spark Streaming中文文档详解：入门与实战指南

需积分: 10 57 浏览量更新于2024-07-20 收藏 2.45MB PDF 举报

Spark Streaming 是Apache Spark项目的一部分，专为大规模实时数据处理而设计，支持低延迟的数据流处理。这份中文文档详细介绍了Spark Streaming的基本概念、使用方法以及高级特性。 1. **快速入门**： - SparkShell是Spark提供的交互式环境，通过它可以直接运行Spark代码进行探索。 - 独立应用程序部分讲述了如何将Spark Streaming集成到完整的应用中，包括创建Spark StreamingContext，这是处理连续数据流的核心对象。 2. **编程指南**： - **介绍Spark**：这部分涵盖了Spark的整体架构和核心组件，如SparkSession，它是与Spark交互的主要入口。 - **初始化Spark**：指导用户如何配置Spark环境和设置配置参数，以适应不同的应用场景。 - **SparkRDDs**：介绍弹性分布式数据集(RDD，Resilient Distributed Datasets)，它们是Spark处理数据的基本单元，支持并行计算。 3. **并行集合和操作**： - 外部数据集和RDD操作：文档解释了如何处理来自不同数据源的数据，如文本文件、数据库等，并介绍了Spark的算子，如map, filter, reduce等，用于转换和聚合数据。 4. **Transformations和Actions**： - Transformations是只读操作，不会触发数据的实际计算，而Actions则会触发计算并返回结果，如collect, count等。理解两者之间的区别对于优化性能至关重要。 5. **RDD持久化**： - 存储优化，包括内存中的存储（如memory, memory-only）和磁盘上的存储（如disk, disk-only），这对于减少重复计算、提高性能有重要作用。 - 共享变量允许在分布式环境中保持状态，但需谨慎使用，以避免数据一致性问题。 6. **Spark Streaming**： - **一个快速的例子**：通过实例展示如何创建和处理实时数据流，比如接收实时日志或网络数据。 - **基本概念**：介绍DStream（Discretized Stream）的概念，它是时间戳划分的数据序列，支持滑动窗口处理。 - **离散流**：阐述DStream的不同类型，如持续流、处理流和检查点流。 7. **高级特性**： - Checkpointing（检查点）是定期将中间结果保存到磁盘，以便在出现故障时恢复计算。 - **SparkSQL**：文档还涉及Spark SQL模块，支持结构化数据处理，包括数据源、Parquet和JSON数据集的处理，以及与Hive表的交互。 8. **GraphX编程指南**： - GraphX提供了处理图形数据的工具，包括属性图、图操作符、Pregel API（图算法的图形并行处理框架）等。 9. **部署与管理**： - 包括如何在本地、YARN等集群上部署Spark应用，以及如何监控和优化性能，如调整批处理大小、内存设置和容错机制。这份文档提供了一个全面的Spark Streaming学习路径，无论你是初学者还是进阶开发者，都能从中找到所需的信息来构建和优化实时数据处理管道。

弹性分布式数据集(RDDs)

Spark核心的概念是ResilientDistributedDataset(RDD)：一个可并行操作的有容错机制的数

据集合。有2种方式创建RDDs：第一种是在你的驱动程序中并行化一个已经存在的集合；

另外一种是引用一个外部存储系统的数据集，例如共享的文件系统，HDFS，HBase或其他

Hadoop数据格式的数据源。

并行集合

外部数据集

RDD操作<<<<<<<HEAD

传递函数到Spark

使用键值对

Transformations

Actions

RDD持久化

传递函数到Spark

使用键值对

Transformations

Actions

RDD持久化

master

Spark编程指南-简体中文版

16SparkRDDs

外部数据集

Spark可以从任何一个Hadoop支持的存储源创建分布式数据集，包括你的本地文件系统，

HDFS，Cassandra，HBase，AmazonS3等。Spark支持文本文件(text

files)，SequenceFiles和其他HadoopInputFormat。

文本文件RDDs可以使用SparkContext的 textFile方法创建。在这个方法里传入文件的

URI(机器上的本地路径或 hdfs://， s3n://等)，然后它会将文件读取成一个行集合。这里

是一个调用例子：

scala>valdistFile=sc.textFile("data.txt")

distFile:RDD[String]=MappedRDD@1d4cee08

一旦创建完成， distFiile就能做数据集操作。例如，我们可以用下面的方式使用 map和

reduce操作将所有行的长度相加： distFile.map(s=>s.length).reduce((a,b)=>a+b)。

注意，Spark读文件时：

如果使用本地文件系统路径，文件必须能在work节点上用相同的路径访问到。要么复制

文件到所有的workers，要么使用网络的方式共享文件系统。

所有Spark的基于文件的方法，包括 textFile，能很好地支持文件目录，压缩过的文件

和通配符。例如，你可以使用 textFile("/my/文件目录")， textFile("/my/文件目

录/*.txt")和 textFile("/my/文件目录/*.gz")。

textFile方法也可以选择第二个可选参数来控制切片(slices)的数目。默认情况下，

Spark为每一个文件块(HDFS默认文件块大小是64M)创建一个切片(slice)。但是你也可

以通过一个更大的值来设置一个更高的切片数目。注意，你不能设置一个小于文件块数

目的切片值。

除了文本文件，Spark的ScalaAPI支持其他几种数据格式：

SparkContext.wholeTextFiles让你读取一个包含多个小文本文件的文件目录并且返回每

一个(filename,content)对。与 textFile的差异是：它记录的是每个文件中的每一行。

对于SequenceFiles，可以使用SparkContext的sequenceFile[K,V]方法创建，K和V

分别对应的是key和values的类型。像IntWritable与Text一样，它们必须是Hadoop

的Writable接口的子类。另外，对于几种通用的Writables，Spark允许你指定原生类型

来替代。例如： sequenceFile[Int,String]将会自动读取IntWritables和Text。

对于其他的HadoopInputFormats，你可以使用SparkContext.hadoopRDD方法，它可以

指定任意的 JobConf，输入格式(InputFormat)，key类型，values类型。你可以跟设置

Hadoopjob一样的方法设置输入源。你还可以在新的MapReduce接口

(org.apache.hadoop.mapreduce)基础上使用SparkContext.newAPIHadoopRDD(译者注：老

的接口是 SparkContext.newHadoopRDD)。

Spark编程指南-简体中文版

18外部数据集

RDD操作

RDDs支持2种类型的操作：转换(transformations)从已经存在的数据集中创建一个新的数据

集；动作(actions)在数据集上进行计算之后返回一个值到驱动程序。例如， map是一个转换

操作，它将每一个数据集元素传递给一个函数并且返回一个新的RDD。另一方面， reduce

是一个动作，它使用相同的函数来聚合RDD的所有元素，并且将最终的结果返回到驱动程序

(不过也有一个并行 reduceByKey能返回一个分布式数据集)。

在Spark中，所有的转换(transformations)都是惰性(lazy)的，它们不会马上计算它们的结

果。相反的，它们仅仅记录转换操作是应用到哪些基础数据集(例如一个文件)上的。转换仅仅

在这个时候计算：当动作(action)需要一个结果返回给驱动程序的时候。这个设计能够让

Spark运行得更加高效。例如，我们可以实现：通过 map创建一个新数据集在 reduce中使

用，并且仅仅返回 reduce的结果给driver，而不是整个大的映射过的数据集。

默认情况下，每一个转换过的RDD会在每次执行动作(action)的时候重新计算一次。然而，

你也可以使用 persist(或 cache)方法持久化(persist)一个RDD到内存中。在这个情况

下，Spark会在集群上保存相关的元素，在你下次查询的时候会变得更快。在这里也同样支持

持久化RDD到磁盘，或在多个节点间复制。

基础

为了说明RDD基本知识，考虑下面的简单程序：

vallines=sc.textFile("data.txt")

vallineLengths=lines.map(s=>s.length)

valtotalLength=lineLengths.reduce((a,b)=>a+b)

第一行是定义来自于外部文件的RDD。这个数据集并没有加载到内存或做其他的操

作： lines仅仅是一个指向文件的指针。第二行是定义 lineLengths，它是map转换

(transformation)的结果。同样， lineLengths由于懒惰模式也没有立即计算。最后，我们执

行 reduce，它是一个动作(action)。在这个地方，Spark把计算分成多个任务(task)，并且让

它们运行在多个机器上。每台机器都运行自己的map部分和本地reduce部分。然后仅仅将

结果返回给驱动程序。

如果我们想要再次使用 lineLengths，我们可以添加：

lineLengths.persist()

在 reduce之前，它会导致 lineLengths在第一次计算完成之后保存到内存中。

Spark编程指南-简体中文版

20RDD操作

剩余131页未读，继续阅读

铁克

粉丝: 0
资源: 2

Spark Streaming中文文档详解：入门与实战指南

psf的matlab代码-STReM_source_code:该存储库包含STReM源代码，用于简单演示3D分解

psf的matlab代码-STReM:由LandesLab开发的STReM3D显微镜方法。请引用DOI：10.1021/acs.jpclett

javade strem

文本文件中有以下的数据: (java strem流式表达式做) 2-1-9-4-7-8 最后写回文本文件: 1-2-4-7-8

3.文本文件中有以下的数据: (strem流式表达式做) 2-1-9-4-7-8 最后写回文本文件: 1-2-4-7-8

strem中sorted

java strem分组

strem.anyMatch

strem list转map

java的strem流

最新资源