Apache Spark：大数据处理的新星

Spark

需积分: 20 17 浏览量更新于2024-09-08 收藏 241KB DOCX 举报

身份认证购VIP最低享 7 折!

30元优惠券

"Spark是加州大学伯克利分校AMP实验室开发的一种通用内存并行计算框架，旨在提供快速、易用且通用的数据处理解决方案。Spark在短时间内成为Apache顶级项目，并发展出SparkSQL、SparkStreaming、MLLib和GraphX等多个组件，构建了伯克利数据分析栈（BDAS），形成了大数据处理的一站式平台。Spark使用Scala作为主要编程语言，其特点包括运行速度快、易用性好、通用性强以及能够在多种环境运行。Spark通过内存计算和DAG执行引擎实现了比Hadoop MapReduce更快的速度，同时支持Scala、Java和Python等多种编程语言，提供了一整套涵盖核心计算、实时处理、SQL查询、机器学习和图处理的工具。" 在大数据领域，Spark的出现是对Hadoop现有计算模式的一种挑战。Spark的核心在于其内存计算能力，这使得它可以快速处理数据，尤其适合需要多次迭代的算法。与Hadoop MapReduce相比，Spark在内存中处理数据时，性能提升了数十到数百倍。此外，Spark的API设计友好，允许开发者用更少的代码实现复杂任务，增强了开发效率。 SparkSQL是Spark生态系统中的一个重要组成部分，它允许用户使用SQL或DataFrame API进行结构化数据处理，与传统数据库系统接口兼容，方便了数据分析人员的工作。SparkStreaming则提供了实时流处理的能力，能够处理持续不断的数据流，适用于实时监控和分析应用场景。MLLib是Spark的机器学习库，包含各种机器学习算法和实用工具，简化了机器学习模型的构建过程。GraphX则专注于图计算，适用于社交网络分析、推荐系统等需要处理图形结构数据的场景。 Spark的适应性体现在它可以运行在多种分布式存储系统上，如HDFS、Cassandra、HBase等，这使得Spark能很好地融入现有的大数据基础设施。此外，Spark还支持Mesos、YARN和standalone模式，可以在不同的集群管理器上部署，增强了其部署的灵活性。 Spark作为一个全面的大数据处理框架，以其高性能、易用性和广泛适用性，正在逐步改变大数据处理的格局，成为企业和研究机构的首选工具之一。尽管目前Spark在大规模生产环境中的验证仍有待加强，但其潜力和影响力已经不容忽视。

资源详情

资源推荐

1.复杂的批量处理（Batch Data Processing），偏重点在于处理海量数据的能

力，至于处理速度可忍受，通常的时间可能是在数十分钟到数小时；

2.基于历史数据的交互式查询（Interactive Query），通常的时间在数十秒到

数十分钟之间

3.基于实时数据流的数据处理（Streaming Data Processing），通常在数百毫

秒到数秒之间

目前对以上三种场景需求都有比较成熟的处理框架，第一种情况可以用

Hadoop 的 MapReduce 来进行批量海量数据处理，第二种情况可以 Impala 进

行交互式查询，对于第三中情况可以用 Storm 分布式处理框架处理实时流式数据。

以上三者都是比较独立，各自一套维护成本比较高，而 Spark 的出现能够一站式

平台满意以上需求。

通过以上分析，总结 Spark 场景有以下几个：

lSpark 是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。

需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算

密集度较大的场合，受益就相对较小

l 由于 RDD 的特性，Spark 不适用那种异步细粒度更新状态的应用，例如 web 服

务的存储或者是增量的 web 爬虫和索引。就是对于那种增量修改的应用模型不适

合

l 数据量不是特别大，但是要求实时统计分析需求

1.4Spark 演进时间表

演进时间表：

l2009 年由 Berkeley's AMPLab 开始编写最初的源代码

l2010 年开放源代码

l2013 年 6 月进入 Apache 孵化器项目

l2014 年 2 月成为 Apache 的顶级项目（8 个月时间）

l2014 年 5 月底 Spark1.0.0 发布

l2014 年 9 月 Spark1.1.0 发布

l2014 年 12 月 Spark1.2.0 发布

目前情况：

l目前已经有 30+公司 100+开发者在提交代码

lHadoop 最大的厂商 Cloudera 宣称加大 Spark 框架的投入来取代 Mapreduce

lHortonworks

lHadoop 厂商 MapR 投入 Spark 阵营

lApache Mahout 放弃 MapReduce，将使用 Spark 作为后续算子的计算平台

1.5Spark 成功案例

目前大数据在互联网公司主要应用在广告、报表、推荐系统等业务上。在广告

业务方面需要大数据做应用分析、效果分析、定向优化等，在推荐系统方面则需要

大数据优化相关排名、个性化推荐以及热点点击分析等。这些应用场景的普遍特点

是计算量大、效率要求高。Spark 恰恰满足了这些要求，该项目一经推出便受到开

源社区的广泛关注和好评。并在近两年内发展成为大数据处理领域最炙手可热的开

源项目。

剩余10页未读，继续阅读

guodong_1989

粉丝: 0
资源: 1

Apache Spark：大数据处理的新星

Spark及其生态圈简介

Spark简介以及其生态圈

spark生态系统的学习

spark生态圈是在什么之间通过大规模集成展现大数据应用的平台

大数据spark基础和hadoop生态圈

spark之 spark简介、生态圈详解

Hadoop生态圈介绍是什么

使用HADOOP生态圈实现医疗病历智能辅助诊断可以实现吗？给出详细技术方案，不少于1000字

hadoop生态圈都有什么

pandas 属于hadoop生态圈吗

hadoop 生态圈

hadoop的生态圈

spark的部署模式有？

spark相对hadoop mapreduce的优势包括哪些方面

Kafka,Spark,Mapreduce,Flink哪个不属于典型的分布式计算系统

数据开发工程师面试题

请为我模拟一场大数据开发工程师岗位的面试，你作为面试官问我一些问题

Apache Giraph、Apache Flink Gelly、GraphX、GraphLab、PowerGraph的优缺点有哪些， 异同点有哪些

Hadoop怎么清洗数据库

DolphinScheduler

最新资源

Apache Giraph、Apache Flink Gelly、GraphX、GraphLab、PowerGraph的优缺点有哪些，异同点有哪些