Spark技术解析：内存计算，快速通用的集群引擎

需积分: 5 110 浏览量更新于2024-07-09 收藏 19.46MB DOCX 举报

"Spark学习文档概述了Spark的基本概念、历史、特点、通用性以及其可融合性，并介绍了Spark的核心组件——集群管理器。文档适用于初学者了解和掌握Spark的基础知识。" Spark是一个由Apache维护的开源大数据处理框架，最初由UC Berkeley的AMP实验室在2009年开发，并于2010年开源。自那时起，Spark发展迅速，成为了Apache最活跃的项目之一，拥有众多贡献者。在2014年，Spark晋升为Apache的顶级项目，当前稳定版本为2.4.5。 Spark的主要特点是其快速的处理速度。相比Hadoop MapReduce，Spark通过内存计算提升了执行效率，速度可达到MapReduce的100倍，即使是基于硬盘的计算也比MapReduce快10倍以上。这得益于其DAG（有向无环图）执行引擎，它优化了数据流的处理。此外，Spark的易用性也是一个显著优点，支持Scala、Java、Python、R和SQL等多种编程语言，提供了80多种高性能算法，简化了并行应用的开发。Spark还拥有交互式的Python和Scala shell，便于快速原型开发。 Spark的通用性体现在它可以结合SQL、流处理、复杂分析等多种功能。其包含SQL和DataFrames库、机器学习库MLlib、图计算库GraphX以及实时流处理库Spark Streaming，允许开发者在一个应用中集成多种处理方式，降低了开发和运维的复杂度。 Spark的可融合性使其能很好地与其他开源工具配合，如使用Hadoop的YARN或Apache Mesos作为资源管理器，兼容HDFS、HBase等Hadoop生态中的数据存储系统，增强了其在大数据生态系统中的适应性。在Spark架构中，集群管理器（ClusterManager）是一个关键组件，它负责资源分配和任务调度，使得Spark能够在多节点间弹性扩展，以适应不同规模的计算需求。Spark还支持不同的部署模式，包括本地模式、standalone模式、Hadoop YARN模式和Apache Mesos模式，这提供了更大的灵活性。总结来说，Spark是一个强大且灵活的大数据处理框架，以其速度、易用性、通用性和可融合性赢得了广泛的应用。对于希望在大数据领域进行分析和处理的开发者，深入理解Spark的基本原理和操作将大有裨益。

 textFile("input")：读取本地文件 input 文件夹数据；

 flatMap(_.split(" "))：压平操作，按照空格分割符将一行数据映射成

一个个单词；

2 map((_,1))

：

对每一个元素操作，将单词映射为元组；

7 reduceByKey(_+_)：按照  将值进行聚合，相加；

8 collect：将数据收集到 Driver 端展示。

2.2 Spark 核心概念介绍

2.2.1 Master

 特有资源调度系统的 ) 。掌管着整个集群的资源信息，类似于 .'框架中

的 !'，主要功能：

1. 监听 Worker，看 Worker 是否正常工作；

2. Master 对 Worker、Application 等的管理(接收 Worker 的注册并管理所有的

Worker，接收 Client 提交的 Application，调度等待的 Application 并向

Worker 提交)。

2.2.5 RDDs(Resilient Distributed Dataset) 弹性分布式数据集

一旦拥有了 1'9 对象就可以使用它来创建 ""了在前面的例子中我们

调用 9+来创建了一个 ""表示文件中的每一行文本我们可以对这些文

本行运行各种各样的操作

在第二部分的 1 中 我们重点就是学习 ""

2.2.6 cluster managers(集群管理器)

为了在一个 集群上运行计算1'9 对象可以连接到几种集群管理器

I6'''!'. /

集群管理器负责跨应用程序分配资源

2.2.7 专业术语列表

@ ''



<,!'1'?driver program'

executors'!构建于 之上的应用程序包含驱动

程序和运行在集群上的执行器



'H

H'''!I'3'

!66''J!,HK'''

''6''@!IH!

'%'!,6%6,

!'

"%



@!''''?!''?''

'1'9

剩余63页未读，继续阅读

AI小王子2022

粉丝: 119
资源: 4

Spark技术解析：内存计算，快速通用的集群引擎

SparkCore.docx

spark官方文档.docx

CHD升级spark2.X文档.docx

"linkUrl ": [ {label: "avue文档.docx", value: "http://59.219.204.221:2015/vingsoft/upload/20230721/d70856f4050948bd2de3d01a7014dd76.docx"}, {label: "avue文档.docx", value: "http://59.219.204.221:2015/vingsoft/upload/20230721/d70856f4050948bd2de3d01a7014dd76.docx"}, ] 遍历这个数组

两个docx文档，1.docx和2.docx，需要将1.docx文档中的页眉页脚复制到2.docx，用java编写，使用开源jar包，比如poi，poi-tl，docx4j等等，请注意验证你提供的代码中的方法，麻烦给我源码。

接口文档示例.docx

两个docx文档，1.docx和2.docx，需要将1.docx文档中的页眉页脚同步到2.docx，用java编写，使用开源jar包，比如poi，poi-tl，docx4j等等，麻烦给我源码

医疗器械软件网络安全描述文档.docx

.docx文件在vscode打开后。.docx文件发生了错误

最新资源