Spark：大数据处理的快速与灵活选择

83 浏览量更新于2024-08-30 收藏 249KB PDF 举报

"Spark：大数据的“电光石火” Spark作为一种先进的大数据处理框架，它的出现极大地提升了大数据处理的速度和效率。Spark的设计哲学在于提供一个轻量级、快速、灵活且巧妙的解决方案，这使得它在大数据领域中脱颖而出。 “轻”指的是Spark的高效代码实现。Spark的核心代码量远少于Hadoop，这得益于Scala编程语言的简洁性和强大的表达能力。同时，Spark充分利用了Hadoop和Mesos的基础设施，减少了自身开发的复杂度，但并未牺牲在容错方面的能力。Spark的创始人Matei扎扎实实地考虑了系统的健壮性，将容错设计视为基础设施的重要组成部分。 “快”是Spark的核心优势之一。Spark通过内存计算显著提高了处理速度，对于小数据集可以实现亚秒级延迟，远超MapReduce。对于大数据集的迭代计算、即席查询和图计算，Spark的性能通常是MapReduce和其他系统的10到100倍。这一成就归功于其高效的内存管理、数据本地性优化、传输优化和智能调度策略。 “灵”体现在Spark的高度灵活性。它支持多种编程语言（如Java和Python），并且允许用户扩展新的数据算子、数据源和集群调度器。Spark还兼容不同的计算范式，包括内存计算、多迭代处理、即席查询、流处理和图计算，这使得Spark能够适应各种复杂的大数据应用场景。 “巧”在于Spark的资源整合和生态集成。Spark与Hadoop紧密集成，无缝对接HDFS，同时通过Shark实现了与Hive的数据仓库功能。在图计算方面，Spark借鉴了Pregel和PowerGraph的API，实现了更高效和灵活的图处理。 Spark的这些特性使其成为大数据处理的首选工具。它的出现不仅提升了处理速度，还简化了开发过程，为数据科学家和工程师提供了更强大的数据分析平台。Spark的成功并非偶然，而是其设计理念和技术创新的结晶，它在大数据领域中扮演着重要的角色，推动着大数据分析技术的发展。

Spark：大数据的：大数据的“电光石火电光石火”

摘要：Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算，从多迭代批量处理出发，兼收

并蓄数据仓库、流处理和图计算等多种计算范式，是罕见的全能选手。

Spark已正式申请加入Apache孵化器，从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐。本文主要讲述

Spark的设计思想。Spark如其名，展现了大数据不常见的“电光石火”。具体特点概括为“轻、快、灵和巧”。

轻：Spark 0.6核心代码有2万行，Hadoop 1.0为9万行，2.0为22万行。一方面，感谢Scala语言的简洁和丰富表达力；另一方

面，Spark很好地利用了Hadoop和Mesos（伯克利另一个进入孵化器的项目，主攻集群的动态资源管理）的基础设施。虽然

很轻，但在容错设计上不打折扣。主创人Matei声称：“不把错误当特例处理。”言下之意，容错是基础设施的一部分。

快：Spark对小数据集能达到亚秒级的延迟，这对于Hadoop MapReduce（以下简称MapReduce）是无法想象的（由于“心

跳”间隔机制，仅任务启动就有数秒的延迟）。就大数据集而言，对典型的迭代机器学习、即席查询（ad-hoc query）、图计

算等应用，Spark版本比基于MapReduce、Hive和Pregel的实现快上十倍到百倍。其中内存计算、数据本地性（locality）和

传输优化、调度优化等该居首功，也与设计伊始即秉持的轻量理念不无关系。

灵：Spark提供了不同层面的灵活性。在实现层，它完美演绎了Scala trait动态混入（mixin）策略（如可更换的集群调度器、

序列化库）；在原语（Primitive）层，它允许扩展新的数据算子（operator）、新的数据源（如HDFS之外支持

DynamoDB）、新的language bindings（Java和Python）；在范式（Paradigm）层，Spark支持内存计算、多迭代批量处

理、即席查询、流处理和图计算等多种范式。

巧：巧在借势和借力。Spark借Hadoop之势，与Hadoop无缝结合；接着Shark（Spark上的数据仓库实现）借了Hive的势；图

计算借用Pregel和PowerGraph的API以及PowerGraph的点分割思想。一切的一切，都借助了Scala（被广泛誉为Java的未来

取代者）之势：Spark编程的Look'n'Feel就是原汁原味的Scala，无论是语法还是API。在实现上，又能灵巧借力。为支持交

互式编程，Spark只需对Scala的Shell小做修改（相比之下，微软为支持JavaScript Console对MapReduce交互式编程，不仅

要跨越Java和JavaScript的思维屏障，在实现上还要大动干戈）。

说了一大堆好处，还是要指出Spark未臻完美。它有先天的限制，不能很好地支持细粒度、异步的数据处理；也有后天的原

因，即使有很棒的基因，毕竟还刚刚起步，在性能、稳定性和范式的可扩展性上还有很大的空间。

计算范式和抽象

Spark首先是一种粗粒度数据并行（data parallel）的计算范式。

数据并行跟任务并行（task parallel）的区别体现在以下两方面。

计算的主体是数据集合，而非个别数据。集合的长度视实现而定，如SIMD（单指令多数据）向量指令一般是4到64，GPU的

SIMT（单指令多线程）一般是32，SPMD（单程序多数据）可以更宽。Spark处理的是大数据，因此采用了粒度很粗的集

合，叫做Resilient Distributed Datasets（RDD）。

集合内的所有数据都经过同样的算子序列。数据并行可编程性好，易于获得高并行性（与数据规模相关，而非与程序逻辑的并

行性相关），也易于高效地映射到底层的并行或分布式硬件上。传统的array/vector编程语言、SSE/AVX intrinsics、

CUDA/OpenCL、Ct（C++ for throughput），都属于此类。不同点在于，Spark的视野是整个集群，而非单个节点或并行处理

器。

数据并行的范式决定了 Spark无法完美支持细粒度、异步更新的操作。图计算就有此类操作，所以此时Spark不如

GraphLab（一个大规模图计算框架）；还有一些应用，需要细粒度的日志更新和数据检查点，它也不如RAMCloud（斯坦福

的内存存储和计算研究项目）和Percolator（Google增量计算技术）。反过来，这也使Spark能够精心耕耘它擅长的应用领

域，试图粗细通吃的Dryad（微软早期的大数据平台）反而不甚成功。

Spark的RDD，采用了Scala集合类型的编程风格。它同样采用了函数式语义（functional semantics）：一是闭包，二是RDD

的不可修改性。逻辑上，每一个RDD算子都生成新的RDD，没有副作用，所以算子又被称为是确定性的；由于所有算子都是

幂等的，出现错误时只需把算子序列重新执行即可。

Spark的计算抽象是数据流，而且是带有工作集（working set）的数据流。流处理是一种数据流模型，MapReduce也是，区

别在于MapReduce需要在多次迭代中维护工作集。工作集的抽象很普遍，如多迭代机器学习、交互式数据挖掘和图计算。为

保证容错，MapReduce采用了稳定存储（如HDFS）来承载工作集，代价是速度慢。HaLoop采用循环敏感的调度器，保证前

次迭代的Reduce输出和本次迭代的Map输入数据集在同一台物理机上，这样可以减少网络开销，但无法避免磁盘I/O的瓶颈。

Spark的突破在于，在保证容错的前提下，用内存来承载工作集。内存的存取速度快于磁盘多个数量级，从而可以极大提升性

能。关键是实现容错，传统上有两种方法：日志和检查点。考虑到检查点有数据冗余和网络通信的开销，Spark采用日志数据

更新。细粒度的日志更新并不便宜，而且前面讲过，Spark也不擅长。 Spark记录的是粗粒度的RDD更新，这样开销可以忽略

不计。鉴于Spark的函数式语义和幂等特性，通过重放日志更新来容错，也不会有副作用。

编程模型

来看一段代码：textFile算子从HDFS读取日志文件，返回“file”（RDD）；filter算子筛出带“ERROR”的行，赋给 “errors”（新

RDD）；cache算子把它缓存下来以备未来使用；count算子返回“errors”的行数。RDD看起来与Scala集合类型没有太大差

别，但它们的数据和运行模型大相迥异。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38678300

粉丝: 4
资源: 1001

Spark：大数据处理的快速与灵活选择

Spark：大数据处理的高效能解决方案

C2000，28335Matlab Simulink代码生成技术，处理器在环，里面有电力电子常用的GPIO，PWM，ADC，DMA，定时器中断等各种电力电子工程师常用的模块儿，只需要有想法剩下的全部自

OpenArk64-1.3.8beta版-20250104

面向对象（下）代码.doc

基于springboot的校园台球厅人员与设备管理系统--论文.zip

【创新无忧】基于matlab蜣螂算法DBO优化极限学习机KELM故障诊断【含Matlab源码 10720期】.zip

基于springboot的数码论坛系统设计与实现--论文.zip

基于springboot的生鲜超市管理的设计与实现.zip

基于污水再生全流程的AO除磷工艺研究：工艺优化与群落结构分析

返岗证明模板.docx

最新资源