Spark与Shark：集群计算与Hive工具详解

5星 · 超过95%的资源需积分: 11 189 浏览量更新于2024-09-11 收藏 1.04MB DOC 举报

"Spark是一个开放源码的集群计算系统，专注于提高数据分析的速度，通过内存计算和简洁的API实现。Spark最初设计用于迭代算法和交互式数据挖掘，速度比Hadoop快很多。Spark支持在Mesos集群框架上运行，并且与Hadoop数据源兼容。Shark是基于Spark的，与Apache Hive兼容的数据仓库系统，提供更快的查询速度。Spark的机制基于无循环的数据流模型，但通过RDD（弹性分布式数据集）提供容错性和高效的内存计算，适合迭代和多查询场景。" **一、Spark简介** Spark作为一个高性能的集群计算框架，主要目标是提升数据分析的效率。它通过内存计算来加速数据处理，避免频繁的磁盘I/O，从而显著提升查询速度。Spark用Scala编写，提供了简洁的API接口，不仅支持Scala和Java，还允许通过Scala命令行进行大数据集的查询。Spark特别适合处理需要多次数据迭代的算法，如机器学习和图挖掘，以及交互式数据分析，其性能在这些场景下远超Hadoop。 **二、Spark机制介绍** Spark的核心编程模型是基于弹性分布式数据集（RDD），这是一种容错的数据结构，可以在内存中高效处理。RDD允许数据在计算过程中被持久化，减少了对磁盘的依赖。此外，Spark支持动态调度，可以自动决定任务在集群中的执行位置，增强了系统的容错能力。相比传统的基于磁盘的数据流模型，Spark更适合需要多次聚合查询的在线分析处理（OLAP）场景。 **三、Spark的部署** Spark的部署可以灵活地在多种环境中进行，包括独立模式、Hadoop YARN、Apache Mesos或者Kubernetes。在Mesos上，Spark能够利用其资源管理功能，实现跨应用共享集群资源。 **四、Spark支持的应用** 1. **Pregel on Spark (Bagel)**：Spark提供了对图计算的支持，Bagel是基于Pregel的分布式图计算框架，允许在Spark上执行大规模的图算法。 2. **Hive on Spark (Shark)**：Shark是AMPLab开发的，它是Apache Hive的快速版本，完全兼容Hive的查询语言(HQL)，但利用Spark的计算引擎实现了更快的查询性能。 - **Shark架构**：Shark通过在Spark上运行Hive查询，利用Spark的内存计算优势，减少磁盘I/O，提高了数据仓库查询的效率。 - **执行SQL over RDDs**：Shark使得用户可以直接在RDD上执行SQL查询，简化了数据分析过程。 - **机器学习支持**：Spark还提供了MLlib库，支持多种机器学习算法，结合Shark可以加速机器学习任务的执行。 **五、性能对比与Shark的部署** Spark的性能优势在与Hadoop的比较中尤为明显，尤其是在迭代计算和交互式查询上。Shark的部署通常涉及到配置Hive与Spark的集成，使得Hive查询可以直接利用Spark的计算能力。 **总结** Spark的出现革新了大数据处理领域，它的内存计算和高效的编程模型使其成为大数据分析的首选工具。Shark作为Spark上的Hive加速器，进一步提升了数据仓库的查询速度。Spark的广泛应用和持续优化，使其在数据科学、机器学习和实时分析等多个领域都有广泛的影响。

 和  简介及使用

Spark programming model

Spark 引入了基于内存的集群计算，它允许应用在内存中保存工作集以便高效地重复

利用，它支持多种数据处理应用，同时它也保存了 MapReduce 的重要特性，如高容错性、

数据本地化和大规模处理等。Sapark 提出了弹性分布式数据集（Resilient Distributed

Datasets ）的概念，描述如下：

1、 RDD 表现为一个 Scala 对象，可由一个文件创建而来

2、分布在一个集群内的，不可变的对象切分集

3、通过并行处理（map、filter、groupby、join）固定数据（BaseRDD）创建模型，

生成 Transformed RDD

4、故障时可使用 RDD 血统信息重建

5、可高速缓存，以便再利用

Spark 中的应用被称为 Drivers，这些 Drivers 实现了各种操作（单机或并行）。

下面是一个日志挖掘的示例，首先将日志数据中的 error 信息导入内存，然后进行交

互搜索：

在导入数据时，模型以 block 形式存在于 worker 上，由 driver 向 worker 分发任务，

处理完后 work 向 driver 反馈结果。也可在 work 上对数据模型建立高速缓存 cache，对

cache 的处理过程与 block 类似，也是一个分发、反馈的过程。



剩余13页未读，继续阅读

zhengjian8972

粉丝: 0
资源: 4

Spark与Shark：集群计算与Hive工具详解

hadoop&spark简介及应用实例及实例分析.txt

Spark简介以及其生态圈

Spark简介

spark简介及应用.pdf

Spark-Fundamentals:Spark基础知识I-Spark简介

storm与spark简介

Spark MLlib简介

Spark入门简介

Spark Streaming简介

Spark框架简介

最新资源