Spark：大数据处理的高效能解决方案

151 浏览量更新于2024-08-27 收藏 249KB PDF 举报

"Spark是大数据处理领域中的一个快速、通用且可扩展的开源框架，以其轻量级、高效、灵活和巧妙的设计赢得了广泛赞誉。Spark的核心设计理念在于内存计算，这使得它在处理多迭代任务和实时流数据时展现出显著的性能优势。与传统的Hadoop MapReduce相比，Spark在延迟和吞吐量方面都有显著提升。Spark的轻量化体现在其简洁的代码结构，这得益于Scala语言的特性，并且能够有效利用Hadoop和Mesos的基础设施。在容错性方面，Spark采取了全面的策略，确保系统的健壮性。" Spark的设计特点可以总结为以下几点： 1. **轻**：Spark的轻量级设计体现在其紧凑的代码库和高效的资源利用率。Spark 0.6的核心代码只有2万行，远少于Hadoop的相应版本，这得益于Scala的简洁语法和对已有基础设施的充分利用。同时，Spark在容错性方面并没有妥协，保证了系统的稳定性和可靠性。 2. **快**：Spark的高性能主要归功于内存计算，它将数据存储在内存中，避免了传统磁盘I/O导致的延迟。对于小数据集，Spark能实现亚秒级响应时间，对于大数据集的迭代计算、即时查询和图计算等任务，其速度比基于MapReduce的系统快得多。此外，数据本地性和传输优化也是提升性能的关键因素。 3. **灵**：Spark的灵活性体现在多个层面。在实现层，它支持动态混入，可以更换不同的集群调度器和序列化库。在原语层，用户可以扩展新的数据操作和数据源。在范式层，Spark支持多种计算模式，包括批处理、交互式查询、流处理和图计算，满足了多样化的应用场景需求。 4. **巧**：Spark巧妙地整合了现有的技术，如与Hadoop的无缝集成，Shark对Hive功能的扩展，以及在图计算中借鉴Pregel和PowerGraph的API。这种借力打力的方式使Spark能够快速适应和集成到现有的大数据生态系统中。 Spark的这些特性使其在大数据处理领域脱颖而出，成为研究和企业中首选的工具之一。它的广泛应用不仅限于数据科学和机器学习，还包括实时分析、数据仓库、图分析等多个场景。随着Spark社区的不断壮大和新功能的持续开发，Spark的影响力还将进一步增强。

Spark：大数据的：大数据的“电光石火电光石火”

摘要：Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算，从多迭代批量处理出发，兼收

并蓄数据仓库、流处理和图计算等多种计算范式，是罕见的全能选手。

Spark已正式申请加入Apache孵化器，从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐。本文主要讲述

Spark的设计思想。Spark如其名，展现了大数据不常见的“电光石火”。具体特点概括为“轻、快、灵和巧”。

轻：Spark 0.6核心代码有2万行，Hadoop 1.0为9万行，2.0为22万行。一方面，感谢Scala语言的简洁和丰富表达力；另一方

面，Spark很好地利用了Hadoop和Mesos（伯克利另一个进入孵化器的项目，主攻集群的动态资源管理）的基础设施。虽然

很轻，但在容错设计上不打折扣。主创人Matei声称：“不把错误当特例处理。”言下之意，容错是基础设施的一部分。

快：Spark对小数据集能达到亚秒级的延迟，这对于Hadoop MapReduce（以下简称MapReduce）是无法想象的（由于“心

跳”间隔机制，仅任务启动就有数秒的延迟）。就大数据集而言，对典型的迭代机器学习、即席查询（ad-hoc query）、图计

算等应用，Spark版本比基于MapReduce、Hive和Pregel的实现快上十倍到百倍。其中内存计算、数据本地性（locality）和

传输优化、调度优化等该居首功，也与设计伊始即秉持的轻量理念不无关系。

灵：Spark提供了不同层面的灵活性。在实现层，它完美演绎了Scala trait动态混入（mixin）策略（如可更换的集群调度器、

序列化库）；在原语（Primitive）层，它允许扩展新的数据算子（operator）、新的数据源（如HDFS之外支持

DynamoDB）、新的language bindings（Java和Python）；在范式（Paradigm）层，Spark支持内存计算、多迭代批量处

理、即席查询、流处理和图计算等多种范式。

巧：巧在借势和借力。Spark借Hadoop之势，与Hadoop无缝结合；接着Shark（Spark上的数据仓库实现）借了Hive的势；图

计算借用Pregel和PowerGraph的API以及PowerGraph的点分割思想。一切的一切，都借助了Scala（被广泛誉为Java的未来

取代者）之势：Spark编程的Look'n'Feel就是原汁原味的Scala，无论是语法还是API。在实现上，又能灵巧借力。为支持交

互式编程，Spark只需对Scala的Shell小做修改（相比之下，微软为支持JavaScript Console对MapReduce交互式编程，不仅

要跨越Java和JavaScript的思维屏障，在实现上还要大动干戈）。

说了一大堆好处，还是要指出Spark未臻完美。它有先天的限制，不能很好地支持细粒度、异步的数据处理；也有后天的原

因，即使有很棒的基因，毕竟还刚刚起步，在性能、稳定性和范式的可扩展性上还有很大的空间。

计算范式和抽象

Spark首先是一种粗粒度数据并行（data parallel）的计算范式。

数据并行跟任务并行（task parallel）的区别体现在以下两方面。

计算的主体是数据集合，而非个别数据。集合的长度视实现而定，如SIMD（单指令多数据）向量指令一般是4到64，GPU的

SIMT（单指令多线程）一般是32，SPMD（单程序多数据）可以更宽。Spark处理的是大数据，因此采用了粒度很粗的集

合，叫做Resilient Distributed Datasets（RDD）。

集合内的所有数据都经过同样的算子序列。数据并行可编程性好，易于获得高并行性（与数据规模相关，而非与程序逻辑的并

行性相关），也易于高效地映射到底层的并行或分布式硬件上。传统的array/vector编程语言、SSE/AVX intrinsics、

CUDA/OpenCL、Ct（C++ for throughput），都属于此类。不同点在于，Spark的视野是整个集群，而非单个节点或并行处理

器。

数据并行的范式决定了 Spark无法完美支持细粒度、异步更新的操作。图计算就有此类操作，所以此时Spark不如

GraphLab（一个大规模图计算框架）；还有一些应用，需要细粒度的日志更新和数据检查点，它也不如RAMCloud（斯坦福

的内存存储和计算研究项目）和Percolator（Google增量计算技术）。反过来，这也使Spark能够精心耕耘它擅长的应用领

域，试图粗细通吃的Dryad（微软早期的大数据平台）反而不甚成功。

Spark的RDD，采用了Scala集合类型的编程风格。它同样采用了函数式语义（functional semantics）：一是闭包，二是RDD

的不可修改性。逻辑上，每一个RDD算子都生成新的RDD，没有副作用，所以算子又被称为是确定性的；由于所有算子都是

幂等的，出现错误时只需把算子序列重新执行即可。

Spark的计算抽象是数据流，而且是带有工作集（working set）的数据流。流处理是一种数据流模型，MapReduce也是，区

别在于MapReduce需要在多次迭代中维护工作集。工作集的抽象很普遍，如多迭代机器学习、交互式数据挖掘和图计算。为

保证容错，MapReduce采用了稳定存储（如HDFS）来承载工作集，代价是速度慢。HaLoop采用循环敏感的调度器，保证前

次迭代的Reduce输出和本次迭代的Map输入数据集在同一台物理机上，这样可以减少网络开销，但无法避免磁盘I/O的瓶颈。

Spark的突破在于，在保证容错的前提下，用内存来承载工作集。内存的存取速度快于磁盘多个数量级，从而可以极大提升性

能。关键是实现容错，传统上有两种方法：日志和检查点。考虑到检查点有数据冗余和网络通信的开销，Spark采用日志数据

更新。细粒度的日志更新并不便宜，而且前面讲过，Spark也不擅长。 Spark记录的是粗粒度的RDD更新，这样开销可以忽略

不计。鉴于Spark的函数式语义和幂等特性，通过重放日志更新来容错，也不会有副作用。

编程模型

来看一段代码：textFile算子从HDFS读取日志文件，返回“file”（RDD）；filter算子筛出带“ERROR”的行，赋给 “errors”（新

RDD）；cache算子把它缓存下来以备未来使用；count算子返回“errors”的行数。RDD看起来与Scala集合类型没有太大差

别，但它们的数据和运行模型大相迥异。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38703895

粉丝: 4
资源: 910

Spark：大数据处理的高效能解决方案

DBZT3 Model Builder v3.2.1

2020新小学六年级语文下册期末测试考试题及答案(新部编版).pdf

Spark：大数据处理的快速与灵活选择

精选毕设项目-微笑话.zip

在线教育系统-springboot毕业项目，适合计算机毕-设、实训项目、大作业学习.zip

基于智能推荐的卫生健康系统-springboot毕业项目，适合计算机毕-设、实训项目、大作业学习.zip

精选毕设项目-课程预约.zip

同步机(VSG)三相并网仿真模型 有功功率从20k突变到10k再恢复至20k 系统始终稳定运行 该仿真主要用于基础原理的学习

南京理工大学毕业论文overleaf LaTex模板，微调版

智能物流管理系统-springboot毕业项目，适合计算机毕-设、实训项目、大作业学习.rar

最新资源

同步机(VSG)三相并网仿真模型有功功率从20k突变到10k再恢复至20k 系统始终稳定运行该仿真主要用于基础原理的学习