Spark：内存计算加速数据挖掘与机器学习

需积分: 10 68 浏览量更新于2024-07-22 收藏 253KB DOCX 举报

"Spark是一个高效的分布式计算系统，由UC Berkeley AMP lab开发，作为Hadoop MapReduce的替代品。它允许中间输出和结果存储在内存中，减少了对HDFS的读写，特别适合数据挖掘和机器学习的迭代算法。Spark提供丰富的数据集操作，如map, filter, join等，以及Transformations和Actions，具有更灵活的编程模型和更高的容错性。它支持Scala, Java, Python API，并有交互式Shell，易于使用。Spark可以与Hadoop无缝集成，直接读写HDFS数据。" Spark是一个分布式计算框架，旨在解决大数据处理中的性能和效率问题。它借鉴了MapReduce的思想，但在设计上进行了优化，尤其是针对需要多次迭代的计算任务。在Spark中，核心的数据抽象是弹性分布式数据集（Resilient Distributed Dataset，RDD），这是一种不可变、分区的数据集合，可以在集群的内存中持久化，从而减少了I/O操作，提升了计算速度。与Hadoop MapReduce相比，Spark的主要优势在于它的内存计算能力。MapReduce每次计算都需要将中间结果写入磁盘，然后在下一次迭代中重新读取，这在处理大规模数据时极大地降低了效率。Spark通过保持数据在内存中，避免了这种磁盘I/O开销，使得迭代计算更加高效。此外，Spark的RDD允许用户控制数据分区和缓存策略，增加了灵活性。 Spark提供了多种数据集操作，包括转换（Transformations）和动作（Actions）。转换如map、filter和reduceByKey等，是对数据集进行的懒评估操作，不会立即执行，直到触发动作操作，如collect、save或count。这种延迟计算策略有助于减少不必要的计算和提高效率。在容错方面，Spark依赖于checkpoint机制来恢复故障。Checkpoint可以是数据的全量复制，也可以记录更新日志，用户可以根据需求选择。这种机制确保了系统的高可用性。为了提升易用性，Spark提供了全面的API支持，包括Scala、Java和Python接口，使得开发者能够轻松地构建分布式应用。此外，Spark Shell提供了一个交互式的环境，方便用户快速测试和探索数据。 Spark与Hadoop的集成使得它可以无缝地读写HDFS上的数据，这不仅保留了对现有Hadoop生态系统的兼容性，还使得Spark成为Hadoop生态系统中的有力补充，尤其在需要高性能计算和迭代算法的场景下。Spark通过其高效、灵活和易用的特性，成为了大数据处理领域的一个重要工具。

> "" 只能从持久存储或通过 &' ( 操作产生，相比于分布式

共享内存（"）可以更高效实现容错，对于丢失部分数据分区只需根据

它的 (, 就可重新计算出来，而不需要做特定的 )(。

> "" 的不变性，可以实现类  的推测式执行。

> "" 的数据分区特性，可以通过数据的本地性来提高性能，这与 

 是一样的。

@> "" 都是可序列化的，在内存不足时可自动降级为磁盘存储，把 "" 存

储于磁盘上，这时性能会有大的下降但不会差于现在的 。

 "" 的存储与分区

> 用户可以选择不同的存储级别存储 "" 以便重用。

> 当前 "" 默认是存储于内存，但当内存不足时，"" 会 ( 到 (。

> "" 在需要进行分区把数据分布于集群中时会根据每条记录 9 进行分区

（如 )分区），以此保证两个数据集在 !( 时能高效。

 "" 的内部表示

在 "" 的内部实现中每个 "" 都可以使用 A 个方面的特性来表示：

> 分区列表（数据块列表）

> 计算每个分片的函数（根据父 "" 计算出此 ""）

> 对父 "" 的依赖列表

@> 对 C-"" 的 ((【可选】

A> 每个数据分片的预定义地址列表1如 "# 上的数据块的地址2【可选】

 "" 的存储级别

"" 根据 "(、 、((D、(( 四个参数的组合提

供了  种存储级别：















-0=0GH+,$-1'%'%'2

-".9I=0$/H+,$-1%'%'2

-".9I=0$/IH+,$-1%'%'%2

-G=/I=0$/H+,$-1'%%2

-G=/I=0$/IH+,$-1'%%%2

-G=/I=0$/IGH+,$-1'%%'2

-G=/I=0$/IGIH+,$-1'%%'%2

-G=/I0"I".9H+,$-1%%2

-G=/I0"I".9IH+,$-1%%%2

-G=/I0"I".9IGH+,$-1%%'2

-G=/I0"I".9IGIH+,$-1%%'%2

剩余15页未读，继续阅读

stockjava

粉丝: 0
资源: 19

Spark：内存计算加速数据挖掘与机器学习

distributed-computing-pyspark:使用PySpark进行分布式计算

基于Spark实现的集群分布式计算框架，支持地理分布式数据的高效处理+源代码+文档说明

Piflow是一个基于分布式计算框架Spark开发的大数据流水线系统

基于Spark MapReduce框架的分布式渲染系统研究.pdf

关联规则推荐的高效分布式计算框架.pdf

Cloudera Spark：高性能分布式计算框架

快速入门Spark：部署与分布式计算详解

华为大数据认证：Spark2x内存分布式计算解析

快速掌握Spark进行高效分布式编程

Spark GraphX：分布式图计算与应用

最新资源