Spark入门：高效内存计算与Hadoop对比详解

需积分: 50 25 浏览量更新于2024-07-20 收藏 1.84MB PPT 举报

Spark学习总结-入门 Spark是Apache软件基金会的一个重要项目，起源于美国加州大学伯克利分校的AMPLab，它是一个高效且内存优化的分布式计算框架。相比于传统的Hadoop MapReduce，Spark在性能上具有显著提升，其设计初衷是通过内存计算加速数据处理，使得相同的算法在Spark中的实现通常比Hadoop更加简洁高效，性能可以达到100倍甚至更高。 Spark的核心特性之一是利用Resilient Distributed Datasets (RDD)进行迭代运算。RDD是一个只读、分区的数据集，可以在内存中持久化，这使得Spark在执行迭代任务时能够重用中间结果，大大减少I/O开销，提高计算效率。这种内存计算的优势特别适合那些迭代运算频繁的机器学习（ML）和数据挖掘（DM）任务。与Hadoop MapReduce相比，Spark提供了更为丰富的数据集操作类型，包括但不限于map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort, partitionBy等，这些操作支持多种计算模型，如MapReduce之外的并行操作，为开发人员提供了更大的灵活性和便利性。 Spark在机器学习和图计算方面也有出色的支持，能够有效地处理复杂的分析任务。Spark SQL和MLlib库为数据处理和机器学习提供了统一的接口，使得开发过程更加便捷。此外，Spark还能够兼容Hadoop生态系统，能读取HDFS和HBase等Hadoop数据文件格式，这意味着用户可以无缝地在Hadoop和Spark之间切换。 Spark的引入标志着大数据处理进入了内存计算的新时代，它不仅提升了计算性能，还简化了开发者的工作流程。自2013年加入Apache孵化器以来，Spark得到了全球众多企业和研究机构的关注与贡献，包括阿里巴巴、Cloudera、Databricks、IBM、Intel和雅虎等大型公司。如今，Spark已经成为大数据处理领域的重要组件，广泛应用于大数据分析、实时流处理、交互式查询等场景。

五

运行模式

目前 Apache Spark 支持四种分布式部署方式，分别是 standalone 、

spark on mesos 和 spark on YARN 、 Spark on cloud

standalone 模式，即独立模式，自带完整的服务，可单独部署到一

个集群中，无需依赖任何其他资源管理系统。 Spark 在 standalone

模式下单点故障问题是借助 zookeeper 实现的，思想类似于 Hbase

master 单点故障解决方案。

Spark On Mesos 模式 , Spark 运行在 Mesos 上会比运行在 YARN 上

更加灵活，更加自然。在 Spark On Mesos 环境中，用户可选择两种

调度模式之一运行自己的应用程序 , 粗粒度模式（ Coarse-grained

Mode ）和细粒度模式（ Fine-grained Mode ）。

Spark On YARN 模式。这是一种最有前景的部署模式。但限于

YARN自身的发展，目前仅支持粗粒度模式（ Coarse-grained Mod

e ）。

Spark On cloud 模式。比如 AWS 的 EC2, 使用这种模式，方便的访

问 Amazon 的 S3

剩余36页未读，继续阅读

sl4379

粉丝: 56
资源: 7

Spark入门：高效内存计算与Hadoop对比详解

spark学习总结

spark个人总结.doc

spark以及mr的个人心得

Spark学习总结-入门

Spark学习总结-入门.rar_Spark!_spark_spark入门_大数据 spark

Spark入门学习总结-大数据分析开发者指南

spark入门教程

大数据Spark入门宝典

hadoop hive入门学习总结

spark从入门到实战

最新资源