Apache Spark 2.0.2 中文编程与部署指南

需积分: 20 68 浏览量更新于2024-07-15 收藏 4.23MB PDF 举报

"Apache Spark 2.0.2 中文文档.pdf 是由ApacheCN组织编译的一份详细指南，旨在帮助用户理解和使用Apache Spark 2.0.2版本。文档覆盖了Spark的各个方面，包括Spark的概述、编程指南、部署方法以及更多的进阶主题。" Apache Spark是一个用于大规模数据处理的开源集群计算系统，它设计的目标是提供一个通用、快速且易用的平台。在Spark 2.0.2版本中，主要的知识点包括： 1. **Spark概述**：这部分介绍了Spark的基本概念，强调其核心特性，如内存计算、弹性、容错性和多工作负载支持。Spark支持多种编程语言，如Java、Scala、Python和R，以及它的关键组件，如Spark SQL、Spark Streaming、MLlib（机器学习库）和GraphX（图处理）。 2. **编程指南**：这部分详细解释了如何编写Spark应用程序。快速入门章节展示了如何设置环境并运行第一个Spark程序。Spark编程指南详细介绍了RDD（弹性分布式数据集）、DataFrame和Dataset的使用，以及如何进行并行计算、数据持久化和使用共享变量。 - **RDD**：RDD是Spark的基础数据结构，它是不可变的、分区的记录集合，支持并行操作。 - **DataFrame和Dataset**：在Spark 2.0中引入，提供了更高级别的抽象，支持SQL查询和面向对象编程，适用于结构化和半结构化数据。 3. **SparkStreaming**：Spark Streaming是Spark的一个模块，用于处理实时数据流。它将数据流分解为微批次，然后使用Spark的核心API处理这些批次，实现低延迟的流处理。 4. **部署**：这部分详细阐述了在不同集群环境中部署Spark应用的步骤，包括Spark Standalone、Mesos和YARN。每个集群模式的配置和提交应用的方法都有所介绍。 - **Spark Standalone**：Spark自带的独立集群管理模式，适合小规模或测试环境。 - **Spark on Mesos**：在Mesos集群上运行Spark，利用Mesos的资源调度。 - **Spark on YARN**：在Hadoop的YARN（Yet Another Resource Negotiator）上运行Spark，充分利用Hadoop生态系统的资源管理。 5. **更多**：这部分涵盖了Spark的高级话题，如配置、监控、优化、作业调度、安全性和硬件配置。此外，还包括如何构建Spark项目，以及版本说明和贡献者信息。 - **Spark配置**：讲解了如何自定义Spark的行为，通过配置文件调整性能和行为。 - **Spark监控**：介绍了如何使用Spark的Web UI和其他工具来监控应用的运行状态。 - **优化指南**：提供了性能调优的最佳实践和策略，以提高Spark应用的效率。 6. **版本说明**：提供了关于Spark 2.0.0版本的主要更新和改进，这对于理解新版本的功能和迁移旧版本的应用至关重要。 7. **贡献者和联系我们**：这部分列出了项目的贡献者，并提供了如何加入ApacheCN社区和参与Spark项目的方式。这份中文文档是学习和开发Spark应用的重要资源，无论你是初学者还是经验丰富的开发者，都能从中受益。通过深入阅读和实践，可以掌握Spark的核心概念和技术，从而在大数据处理领域游刃有余。

ApacheCN - Apache Spark 2.0.2 中文文档 - v0.1.0 - 加入我们

的所有元素。然而，在集群模式下，输出正在被执行写操作的代替，而不是在一个驱动程序上，因此D cluster stdout executors stdout std

的程序不会显示这些！要打印程序的所有元素，可以使用的方法首先把放到程序节点上 : out driver driver collect() RDD driver rdd.collec

。这可能会导致程序耗尽内存，虽说，因为获取整个到一台机器; 如果你只需要打印的几个元t().foreach(println) driver collect() RDD RDD

素，一个更安全的方法是使用 : 。take() rdd.take(100).foreach(println)

使用 Key-Value 对工作

虽然大多数操作工作在包含任何类型对象的上，只有少数特殊的操作可用于对的。最常见的是分布式 “Spark RDDs Key-Value RDDs shuff

” 操作，如通过元素的来进行或操作。le key grouping aggregating

在中，这些操作时自动可用于包含对象的（在语言中内置的元组，通过简单的写）。在类中Scala Tuple2 RDDs (a, b) PairRDDFunctions

该对的操作有效的，其中围绕元组的自动包装。Key-Value RDD

例如，下面的代码使用的对的操作统计文本文件中每一行出现了多少次 : Key-Value reduceByKey

val lines = sc.textFile("data.txt")

val pairs = lines.map(s => (s, 1))

val counts = pairs.reduceByKey((a, b) => a + b)

我们也可以使用，例如，在对按字母顺序排序，最后把他们作为一个数据对象返回给的驱动程序。 counts.sortByKey() counts.collect()

注意 : 使用自定义对象作为对操作的时，您必须确保自定义方法有一个方法相匹配。有关详情，请参Key-Value key equals() hashCode()

见这是中列出的约定。Object.hashCode() documentation

Transformations （转换）

下表列出了一些常用的（转换）。详情请参考文档（）Spark transformations RDD API Scala，Java，Python，R 和函数文档（pair RDD

，）。Scala Java

Transformation（转换） Meaning（含义）

map(func) 返回一个新的（分布式数据集），它由每个（数据源）中的元素应用一distributed dataset source

个函数来生成。func

filter(func) 返回一个新的（分布式数据集），它由每个（数据源）中应用一个函数distributed dataset source

且返回值为的元素来生成。func true

flatMap(func) 与类似，但是每一个输入的可以被映射成个或多个输出的（所以应该返map item 0 items func

回一个而不是一个单独的）Seq item

mapPartitions(func) 与类似，但是单独的运行在在每个的（分区，）上，所以在一个类型为 map RDD partition block

的上运行时必须是 T RDD func 类型。Iterator<T> => Iterator<U>

mapPartitionsWithIndex(func) 与类似，但是也需要提供一个代表的（索引）的（mapPartitions partition index interger value

整型值）作为参数的，所以在一个类型为的上运行时必须是 func T RDD func (Int, Iterator<T>)

=> Iterator<U> 类型。

sample(withReplacement, fraction,

seed)

样本数据，设置是否放回（）、采样的百分比（）、withReplacement fraction 使用指定的随机数

（）。生成器的种子 seed

union(otherDataset) 返回一个新的，它包含了（源数据集）和（其它数据集）的dataset source dataset otherDataset

。并集

intersection(otherDataset) 返回一个新的，它包含了（源数据集）和（其它数据集）的RDD source dataset otherDataset 交

。集

distinct([numTasks])) 返回一个新的，它包含了（源数据集）中的元素。dataset source dataset 去重

groupByKey([numTasks]) 在一个的上调用时，返回一个 (K, V) pair dataset 的。(K, Iterable<V>) pairs dataset

注意 : 如果分组是为了在每一个上执行聚合操作（例如，或 )，此时使用 key sum average reduce

或来计算性能会更好。ByKey aggregateByKey

默认情况下，并行度取决于父的分区数。可以传递一个可选的参数来设置注意 : RDD numTasks

不同的任务数。

reduceByKey(func, [numTasks]) 在一个的上调用时，返回一个 (K, V) pair dataset 的它的值会(K, Iterable<V>) pairs dataset，

针对每一个使用指定的函数来聚合，它必须为 key reduce func 类型。像 (V,V) => V groupByK

一样，可通过第二个可选参数来配置任务的数量。ey reduce

ApacheCN - Apache Spark 2.0.2 中文文档 - v0.1.0 - 加入我们

aggregateByKey(zeroValue)(seqO

p, combOp, [numTasks])

在一个的上调用时，返回一个 (K, V) pair dataset 的它的值会(K, Iterable<V>) pairs dataset，

针对每一个使用指定的函数和一个中间的 “ ” 值来聚合，它必须为 key combine zero (V,V) =>

类型。为了避免不必要的配置，可以使用一个不同与类型的 V input value 类型aggregated value

。

sortByKey([ascending],

[numTasks])

在一个的上调用时，其中的实现了，返回一个按升序或降序(K, V) pair dataset K Ordered keys

的 (K, V) pairs 的 dataset。

join(otherDataset, [numTasks]) 在一个和类型的上调用时，返回一个 (K, V) (K, W) dataset 的，它拥有(K, (V, W)) pairs dataset

每个中所有的元素对。key Outer joins 可以通过 leftOuterJoinrightOuterJoin 和fullOu

terJoin

cogroup(otherDataset,

[numTasks])

在一个和的上调用时，返回一个 (K, V) dataset (K, (Iterable<V>, Iterable<W>)) tuples 的 data

。这个操作也调用了。set groupWith

cartesian(otherDataset) 在一个和类型的上调用时，返回一个T U dataset (T, U) pairs 类型的（所有元素的 dataset pairs

，即）。笛卡尔积

pipe(command, [envVars]) 通过使用 shell 命令来将每个的分区给。例如，一个或脚本。的元素会RDD Pipe Perl bash RDD

被写入进程的标准输入（），并且（行）输出到它的标准输出（）被作为一个字stdin lines stdout

符串型的返回。RDD string

coalesce(numPartitions) Decrease（降低）RDD 中 partitions（分区）的数量为 numPartitions。对于执行过滤后一个大的

dataset 操作是更有效的。

repartition(numPartitions) （重新洗牌）中的数据以创建或者更多的（分区）并将每个分区中的数据Reshuffle RDD partitions

尽量保持均匀。该操作总是通过网络来所有的数据。shuffles

repartitionAndSortWithinPartitions

(partitioner)

根据给定的分区器）对进行重新分区，并在每个结果分区中，按照值对记（partitioner RDD key

录排序。这比每一个分区中先调用然后再（排序）效率更高，因为它可以将排repartition sorting

序过程推送到操作的机器上进行。shuffle

Actions （动作）

下面列出了一些常用的操作。详细请参考文档 Spark actions RDD API (Scala, Java, Python, R) 和函数文档 ( , )。pair RDD Scala Java

Action 意思

reduce( )func 使用函数聚合数据集（）中的元素，这个函数输入为两个元素，返回为一个元素。这个函数应该func dataset func

是可交换（）和关联（）的，这样才能保证它可以被并行地正确计算。commutative associative

collect() 在驱动程序中，以一个数组的形式返回数据集的所有元素。这在返回足够小（）的数据子集的过滤sufficiently small

器（）或其他操作（）之后通常是有用的。filter other operation

count() 返回数据集中元素的个数。

first() 返回数据集中的第一个元素（类似于）。take(1)

take( )n 将数据集中的元素作为一个数组返回。前 n 个

takeSample(withRe

, , placement num [s

])eed

对一个数据集随机抽样，返回一个包含个随机抽样（）元素的数组，参数 num random sample withReplacement

指定是否有放回抽样，参数指定生成随机数的种子。seed

takeOrdered( , [n ord

])ering

返回按自然顺序（）或自定义比较器（）排序后的前个元素。 RDD natural order custom comparator n

saveAsTextFile(path

)

将数据集中的元素以文本文件（或文本文件集合）的形式写入本地文件系统、或其它支持的文件系HDFS Hadoop

统中的给定目录中。将对每个元素调用方法，将数据元素转换为文本文件中的一行记录。Spark toString

saveAsSequenceFile

( ) path

(Java and Scala)

将数据集中的元素以的形式写入到本地文件系统、或其它支持的文件系统Hadoop SequenceFile HDFS Hadoop

指定的路径中。该操作可以在实现了的接口的键值对（）的上使用。在 Hadoop Writable key-value pairs RDD S

中，它还可以隐式转换为的类型（包括了基本类型的转换，例如、、等等)cala Writable Spark Int Double String

。

saveAsObjectFile(p

) ath

(Java and Scala)

使用序列化（）以简单的格式（）编写数据集的元素，然后使用 Java serialization simple format SparkContext.o

进行加载。bjectFile()

countByKey() 仅适用于类型的。返回具有每个的计数的的。（K,V） RDD key （K , Int）对 hashmap

ApacheCN - Apache Spark 2.0.2 中文文档 - v0.1.0 - 加入我们
ApacheCN - Apache Spark 2.0.2 中文文档 - v0.1.0 - 加入我们
foreach( )func 对数据集中每个元素运行函数   。这通常用于副作用（ ），例如更新一个累加器（ ）func side effects Accumulator
或与外部存储系统（ ）进行交互。注意：修改除  之外的累加器以外的变量（external storage systems  foreach() va
）可能会导致未定义的行为（ ）。详细介绍请阅读 riables undefined behavior 理解闭包（Understanding
 部分。closures）
shuffle 操作
Spark 里的某些操作会触发  。  是 重新分配数据的一种机制，使得这些数据可以跨不同的区域进行分组。这通常涉及在 shuffle shuffle spark  ex
 和 机器之间拷贝数据，这使得   成为一个复杂的、代价高的操作。ecutors shuffle
后台
为了明白   操作的过程，我们以   为例。  操作产生一个新的  ，其中   相同的所有的值组合成为一个 shuffle reduceByKey reduceBykey RDD key t
 -   以及 与   相关联的所有值在   函数上的执行结果。但问题是，一个   的所有值不一定都在一个同一个分区里，甚至是不uple key key reduce key
一定在同一台机器里，但是它们必须共同被计算。
在   里，特定的操作需要数据不跨分区分布。在计算期间，一个任务在一个分区上执行，为了所有数据都在单个   的 spark reduceByKey reduce
 任务上运行，我们需要执行一个   操作。它必须从所有分区读取所有的   和  对应的所有的值，并且跨分区聚集去计算每个   all-to-all key key key
的结果 - 这个过程就叫做  。shuffle
尽管每个分区新   的数据集将是确定的，分区本身的顺序也是这样，但是这些数据的顺序是不确定的。如果希望   后的数据是有序shuffle shuffle
的，可以使用 : 
mapPartitions 对每个分区进行排序，例如  。.sorted
repartitionAndSortWithinPartitions 在分区的同时对分区进行高效的排序。
sortBy 做一个整体的排序。
触发   的操作包括   操作，如  、 ；' ' 操作（除了   相关操作），如  、shuffle repartition repartition coalesce ByKey counting groupByKey reduc
 和   操作，如   和  。eByKey join cogroup join
性能影响
shuffle 是一个代价比较高的操作，它涉及磁盘 、数据序列化、网络  。为了准备   操作的数据，  启动了一系列的   任务 IO IO shuffle Spark map
和   任务，  任务组织数据，  完成数据的聚合。这里的  、  来自  ，跟   的  操作和 reduce map reduce map reduce MapReduce Spark map  reduce
操作没有关系。 
在内部，一个   任务的所有结果数据会保存在内存，直到内存不能全部存储为止。然后，这些数据将基于目标分区进行排序并写入一个单独map
的文件中。在   时，任务将读取相关的已排序的数据块。reduce
某些   操作会大量消耗堆内存空间，因为   操作在数据转换前后，需要在使用内存中的数据结构对数据进行组织。需要特别说明的shuffle shuffle
是，  和  在   时会创建这些数据结构， 操作在   时创建这些数据结构。当内存满的时候，reduceByKey aggregateByKey  map ByKey  reduce Spa
 会把溢出的数据存到磁盘上，这将导致额外的磁盘   开销和垃圾回收开销的增加。rk IO
shuffle 操作还会在磁盘上生成大量的中间文件。在   中，这些文件将会保留至对应的   不在使用并被垃圾回收为止。这么做的好Spark 1.3 RDD
处是，如果在   重新计算   的血统关系（ ）时，  操作产生的这些中间文件不需要重新创建。如果   应用长期保持Spark RDD lineage shuffle Spark
对   的引用，或者垃圾回收不频繁，这将导致垃圾回收的周期比较长。这意味着，长期运行   任务可能会消耗大量的磁盘空间。临时RDD Spark
数据存储路径可以通过   中设置参数   进行配置。SparkContext spark.local.dir
shuffle 操作的行为可以通过调节多个参数进行设置。详细的说明请看   中的 “  行为” 部分。配置页面 Shuffle
RDD 持久化
Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个   时，每个节点RDD
的其它分区都可以使用  在内存中进行计算，在该数据上的其他   操作将直接使用内存中的数据。这样会让以后的   操作计算RDD  action action
速度加快（通常运行速度会加速  倍）。缓存是迭代算法和快速的交互式使用的重要工具。10 
RDD 可以使用  方法或  方法进行持久化。数据将会在第一次   操作时进行计算，并缓存在节点的内存中。  的缓存 persist() cache()  action Spark
具有容错机制，如果一个缓存的   的某个分区丢失了，  将按照原来的计算过程，自动重新计算并进行缓存。RDD Spark
另外，每个持久化的   可以使用不同的存储级别进行缓存，例如，持久化到磁盘、已序列化的   对象形式持久化到内存（可以节省空间RDD Java
）、跨节点间复制、以   的方式存储在  。这些存储级别通过传递一个  对象（ 、 、 ）给 off-heap Tachyon StorageLevel  Scala Java Python persi
 方法进行设置。 方法是使用默认存储级别的快捷设置方法，默认的存储级别是  （将反序列化的对st() cache()  StorageLevel.MEMORY_ONLY
象存储到内存中）。详细的存储级别介绍如下 : 
MEMORY_ONLY : 将   以反序列化   对象的形式存储在   中。如果内存空间不够，部分数据分区将不再缓存，在每次需要RDD Java JVM
用到这些数据时重新进行计算。这是默认的级别。
MEMORY_AND_DISK : 将   以反序列化   对象的形式存储在   中。如果内存空间不够，将未缓存的数据分区存储到磁盘，RDD Java JVM
在需要使用这些分区时从磁盘读取。
MEMORY_ONLY_SER : 将   以序列化的   对象的形式进行存储（每个分区为一个   数组）。这种方式会比反序列化对象的RDD Java byte
方式节省很多空间，尤其是在使用  时会节省更多的空间，但是在读取时会增加   的计算负担。fast serializer CPU
MEMORY_AND_DISK_SER : 类似于   ，但是溢出的分区会存储到磁盘，而不是在用到它们时重新计算。MEMORY_ONLY_SER
DISK_ONLY : 只在磁盘上缓存  。RDD

ApacheCN - Apache Spark 2.0.2 中文文档 - v0.1.0 - 加入我们

DISK_ONLY : 只在磁盘上缓存。RDD

MEMORY_ONLY_2，MEMORY_AND_DISK_2，等等 : 与上面的级别功能相同，只不过每个分区在集群中两个节点上建立副本。

OFF_HEAP（实验中）: 类似于，但是将数据存储在，这需要启动内存。MEMORY_ONLY_SER off-heap memory off-heap

注意，在中，缓存的对象总是使用进行序列化，所以在中不关心你选择的是哪一种序列化级别。中的存储级Python Pickle Python python

别包括，，，，和。MEMORY_ONLY MEMORY_ONLY_2 MEMORY_AND_DISK MEMORY_AND_DISK_2 DISK_ONLY DISK_ONLY_2

在操作中（例如），即便是用户没有调用方法，也会自动缓存部分中间数据。这么做的目的是，在 shuffle reduceByKey persist Spark shuff

的过程中某个节点运行失败时，不需要重新计算所有的输入数据。如果用户想多次使用某个，强烈推荐在该上调用方法le RDD RDD persist

。

如何选择存储级别

Spark 的存储级别的选择，核心问题是在内存使用率和效率之间进行权衡。建议按下面的过程进行存储级别的选择 : CPU

如果使用默认的存储级别（），存储在内存中的没有发生溢出，那么就选择默认的存储级别。默认存储级别可MEMORY_ONLY RDD

以最大程度的提高的效率,可以使在上的操作以最快的速度运行。CPU RDD

如果内存不能全部存储，那么使用，并将对象序列化，以节省内存空间。使用这种RDD MEMORY_ONLY_SER 挑选一个快速序列化库

存储级别，计算速度仍然很快。

除了在计算该数据集的代价特别高，或者在需要过滤大量数据的情况下，尽量不要将溢出的数据存储到磁盘。因为，重新计算这个数

据分区的耗时与从磁盘读取这些数据的耗时差不多。

如果想快速还原故障，建议使用多副本存储级别（例如，使用作为应用的后台服务，在服务出故障时需要快速恢复的场景Spark web

下）。所有的存储级别都通过重新计算丢失的数据的方式，提供了完全容错机制。但是多副本级别在发生数据丢失时，不需要重新计

算对应的数据库，可以让任务继续运行。

删除数据

Spark 自动监控各个节点上的缓存使用率，并以最近最少使用的方式（）将旧数据块移除内存。如果想手动移除一个，而不是等待该 LRU RDD

被自动移除，可以使用方法。RDD Spark RDD.unpersist()

共享变量

通常情况下，一个传递给操作（例如或）的函数是在远程的集群节点上执行的。该函数在多个节点执行过Spark map reduce func func

程中使用的，是同一个的多个。这些的以的方式拷贝到每个机器上，并且各个远程机器上的并不会传播回变量变量副本变量副本变量更新 drive

驱动程序）。通用且支持（读-写）的共享变量在任务间是不能胜任的。所以，提供了两种特定类型的共享变（r program read-write Spark

量 : （广播变量）和（累加器）。broadcast variables accumulators

Broadcast variables（广播变量）

（Broadcast variables 广播变量）允许程序员将一个只读的）变量缓存到每台机器上，而不是给任务传递一个副本。它们是如何（read-only

来使用呢，例如，广播变量可以用一种高效的方式给每个节点传递一份比较大的（输入数据集）副本。在使用广播变量时，input dataset Spa

也尝试使用高效广播算法分发变量）以降低通信成本。rk （广播broadcast variables

Spark 的（动作）操作是通过一系列的（阶段）进行执行的，这些（阶段）是通过分布式的 " " 操作进行拆分的。action stage stage shuffle S

会自动广播出每个（阶段）内任务所需要的公共数据。这种情况下广播的数据使用序列化的形式进行缓存，并在每个任务运行前进park stage

行反序列化。这也就意味着，只有在跨越多个（阶段）的多个任务会使用相同的数据，或者在使用反序列化形式的数据特别重要的情况stage

下，使用广播变量会有比较好的效果。

广播变量通过在一个变量上调用方法来进行创建。广播变量是的一个（包装器），可以通v SparkContext.broadcast(v) v wrapper

过调用方法来访问它的值。代码示例如下 : value

scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))

broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] =

Broadcast(0)

scala> broadcastVar.value

res0: Array[Int] = Array(1, 2, 3)

在创建广播变量之后，在集群上执行的所有的函数中，应该使用该广播变量代替原来的值，所以节点上的最多分发一次。另外，对象在v v v

广播后不应该再被修改，以保证分发到所有的节点上的广播变量具有同样的值（例如，如果以后该变量会被运到一个新的节点）。

Accumulators（累加器）

（Accumulators 累加器）是一个仅可以执行 “ ”（添加）的变量来，因此可以高效地执行支持并行。累加器added 通过一个关联和交换操作

可以用于实现（计数，类似在中那样）或者（求和）。原生支持数值型的累加器，并且程序员可以添加新counter MapReduce sums Spark

的支持类型。

创建（累加器）并命名之后，在的界面上将会显示它。这样可以帮助理解正在运行的阶段的运行情况（注意 :accumulators Spark UI

该特性在中还不支持）。Python

剩余126页未读，继续阅读

l410505

粉丝: 0
资源: 4

Apache Spark 2.0.2 中文编程与部署指南

Spark V3.0 概述.pdf

spark详解 PDF 下载

spark官方文档中文版.pdf

Apache Spark 2.0.2 中文文档

ApacheCN - Apache Spark 2.0.2 中文文档 - v0.1.0PDF

Apache Spark 2.0.2 中文文档 - v0.1.0

Apache Spark 2.0.2 中文官方文档

Apache Spark 2.0.2中文文档详解：从入门到实战

Apache Spark 2.0.2中文文档：全面指南与部署详解

2天驾驭DIV+CSS(全新发布2.0.2版本).pdf

最新资源