Scala基础入门：Spark大数据处理框架详解与发展历程

需积分: 7 74 浏览量更新于2024-07-21 1 收藏 4.45MB PDF 举报

Scala基础教程是一本全面介绍Scala编程语言及其在大数据领域中的应用和优势的指南。Scala作为一种多范式编程语言，结合了面向对象编程和函数式编程的特点，尤其适合构建高性能、可扩展的大数据处理系统。本教程的第1章首先概述了Apache Spark，一个重要的分布式计算框架。 Spark的核心理念是基于内存计算，它显著提升了大数据环境下的实时处理能力，同时保持高容错性和可扩展性。它的设计允许在廉价硬件上轻松构建大规模集群，极大地降低了大数据处理的成本。Spark起源于2009年的加州大学伯克利分校AMPLab，并在2010年成为开源项目。随后，Spark经历了快速发展阶段，2013年加入Apache孵化器项目，2014年成为顶级项目，并逐渐取代MapReduce成为首选的大数据处理工具。 Spark生态系统日益壮大，包括SparkSQL（用于SQL查询的模块）、SparkStreaming（实时流处理）和GraphX（图处理库）等多个子项目。这些组件使得Spark能够支持多样化的大数据分析任务，如批处理、迭代计算和SQL查询，性能相比传统方法有显著提升。此外，Pivotal Hadoop、MapR等大数据公司纷纷支持Spark，甚至Cloudera宣布将投入更多资源于Spark，显示其在业界的广泛接受度。 Spark的历史发展中，关键里程碑包括2014年5月Pivotal将Spark整合到Hadoop全栈，以及同年5月发布的Spark 1.0.0版本。Spark峰会在同月举行，进一步推动了技术交流和社区建设。AMPLab和Databricks作为主要开发者，吸引了众多公司如Yahoo!和Intel的参与，以及众多开源爱好者的贡献。 Scala基础教程的第1章为读者揭示了Scala在大数据处理领域的核心价值和Spark框架的发展历程，为后续章节深入探讨Scala语法、API和实际应用案例奠定了坚实的基础。学习者通过这一章节能更好地理解Spark如何通过内存计算实现高效性能，以及如何适应不断扩大的生态系统，从而在大数据处理场景中发挥重要作用。

Spark大数据处理：技术、应用与性能优化

在 2013 年，Yahoo! 拥有 72 656 600 个页面，有上百万的商品类别，上千个商品和用户

特征，超过 800 万用户，每天需要处理海量数据。

通过图 1-11 可以看到 Yahoo! 使用 Spark 进行数据分析的整体架构。

Mobile App

批处理 / 数据管理

未来的分析栈

Spark

View 1 Shark

Spark/MR Hive

YARN

View

Pixel Server

Ad Server

Web Page

Stream Processing/

Queues

ETL/HDFS

数据传递 & 收集

RDBMS/

NoSQL

Adhoc

BI/OLAP

Staging/

Distribution

Colos

实时 App/

查询

图 1-11　Yahoo! 大数据分析栈

大数据分析平台架构解析如下。

整个数据分析栈构建在 YARN 之上，这是为了让 Hadoop 和 Spark 的任务共存。主要包

含两个主要模块：

1）离线处理模块：使用MapReduce 和 Spark+Shark 混合架构。由于MapReduce 适

合进行 ETL 处理，还保留 Hadoop 进行数据清洗和转换。数据在 ETL 之后加载进 HDFS/

HCat/Hive 数据仓库存储，之后可以通过 Spark、Shark 进行 OLAP 数据分析。

2）实时处理模块：使用 Spark Streaming + Spark+Shark 架构进行处理。实时流数据源

源不断经过 Spark Steaming 初步处理和分析之后，将数据追加进关系数据库或者 NoSQL 数

据库。之后，结合历史数据，使用 Spark 进行实时数据分析。

之所以选择 Spark，Yahoo! 基于以下几点进行考虑。

1）进行交互式 SQL 分析的应用需求。

2）RAM 和 SSD 价格不断下降，数据分析实时性的需求越来越多，大数据急需一个内

存计算框架进行处理。

3）程序员熟悉 Scala 开发，接受 Spark 学习曲线不陡峭。

4）Spark 的社区活跃度高，开源系统的 Bug 能够更快地解决。

5）传统 Hadoop 生态系统的分析组件在进行复杂数据分析和保证实时性方面表现得力

第1章　Spark　简　介

不从心。Spark 的全栈支持多范式数据分析能够应对多种多样的数据分析需求。

6）可以无缝将 Spark 集成进现有的 Hadoop 处理架构。

Yahoo! 的 Spark 集群在 2013 年已经达到 9.2TB 持久存储、192GB RAM、112 节点（每

节点为 SATA 1×500GB（7200 转的硬盘））、400GB SSD（1×400GB SATA 300MB/s）的集

群规模。

1.5.3　Spark 在西班牙电信的应用

西班牙电信（Telefónica, S.A.）是西班牙的一家电信公司。这是全球第五大固网和移动

通信运营商。

Telefónica 成立于 1924 年。在 1997 年电信市场自由化之前，Telefónica 是西班牙唯一

的电信运营商，至今仍占据主要的市场份额（2004 年超过 75%）。

西班牙电信的数据与日俱增，随着数据的增长，网络安全成为一个不可忽视的问题而

凸显。DDoS 攻击、SQL 注入攻击、网站置换、账号盗用等网络犯罪频繁发生。如何通过

大数据分析，预防网络犯罪与正确检测诊断成为迫在眉睫的问题。

传统的应对方案是，采用中心化的数据存储，收集事件、日志和警告信息，对数据分

析预警，并对用户行为进行审计。但是随着犯罪多样化与数据分析技术越来越复杂，架构

已经演变为中心架构服务化，并提供早期预警、离线报告、趋势预测、决策支持和可视化

的大数据网络安全分析预警策略。

西班牙电信采用 Stratio 公司提供的含有 Spark 的数据分析解决方案构建自身的网络安全

数据分析栈，将使用的大数据系统缩减了一半，平台复杂性降低，同时处理性能成倍提升。

整体架构如图 1-12 所示。

在架构图中，最顶层通过 Kafka 不断收集事件、日志、预警等多数据源的信息，形成

流数据，完成数据集成的功能。接下来 Kafka 将处理好的数据传输给 Storm，Storm 将数

据混合与预处理。最后将数据存储进 Cassandra、Mongo 和 HDFS 进行持久化存储，使用

Spark 进行数据分析与预警。

在数据收集阶段：数据源是多样化的，可能来自 DNS 日志、用户访问 IP、社交媒体数

据、政府公共数据源等。Kafka 到数据源拉取不同数据维度数据。

在数据预处理阶段：通过 Storm 进行数据预处理与规范化。在这个阶段为了能够实时

预警，采用比 Spark Streaming 实时性更高的 Storm 进行处理。

在数据批处理阶段：数据经过预处理阶段之后将存储到 Cassandra 中持久化。开发人

员通过 Cassandra 进行一些简单的查询和数据报表分析。对于复杂的数据分析，需要使用

Spark 来完成。Spark+Cassandra 的架构结合了两个系统的优势。Cassandra 的二级索引能够

加速查询处理。

Spark大数据处理：技术、应用与性能优化

Streaming 适合处理历史数据和实时数据混合的应用需求，能够显著提高流数据处理的吞吐

量。其对交易数据、用户浏览数据等流数据进行处理和分析，能够更加精准、快速地发现

问题和进行预测。

2）GraphX

一

：淘宝将交易记录中的物品和人组成大规模图。使用 GraphX 对这个大图进

行处理（上亿个节点，几十亿条边）。GraphX 能够和现有的 Spark 平台无缝集成，减少多平

台的开发代价。

本节主要介绍了 Spark 在工业界的应用。Spark 起源于学术界，发展于工业界，现在已

经成为大数据分析不可或缺的计算框架。通过 Amazon 提供 Spark 云服务，可以看到 Big

Data on Cloud 已经兴起。Yahoo! 很早就开始使用 Spark，将 Spark 用于自己的广告平台、

商品交易数据分析和推荐系统等数据分析领域。同时 Yahoo! 也积极回馈社区，与社区形成

良好的互动。Stratio 公司为西班牙电信提供基于 Spark+Cassandra+Storm 架构的数据分析解

决方案，实现流数据实时处理与离线数据分析兼顾，通过它们的案例可以看到多系统混合

提供多数据计算范式分析平台是未来的一个趋势。最后介绍国内淘宝公司的 Spark 应用案

例，淘宝是国内较早使用 Spark 的公司，通过 Spark 进行大规模机器学、图计算以及流数据

分析，并积极参与社区，与社区形成良好互动，并乐于分享技术经验。希望读者通过企业

案例能够全面了解 Spark 的广泛应用和适用场景。

1.6　本章小结

本章首先介绍了 Spark 分布式计算平台和 BDAS。BDAS 的核心框架 Spark 为用户提供

了系统底层细节透明、编程接口简洁的分布式计算平台。Spark 具有计算速度快、实时性高、

容错性好等突出特点。基于 Spark 的应用已经逐步落地，尤其是在互联网领域，如淘宝、

腾讯、网易等公司的发展已经成熟。同时电信、银行等传统行也开始逐步试水 Spark 并取

得了较好效果。本章也对 Spark 的基本情况、架构、运行逻辑等进行了介绍。最后介绍了

Spark 在工业界的应用，读者可以看到 Spark 的蓬勃发展以及在大数据分析平台中所处的位

置及重要性。

读者通过本章可以初步认识和理解 Spark，更为底层的细节将在后续章节详细阐述。

相信读者已经想搭建自己的 Spark 集群环境一探究竟了，接下来将介绍 Spark 的安装与

配置。

一

　参见文章：黄明，吴炜 . 快刀初试：Spark GraphX 在淘宝的实践 . 程序员，2014.8。

剩余254页未读，继续阅读

sijiyufeng

粉丝: 0
资源: 2

Scala基础入门：Spark大数据处理框架详解与发展历程

scala 基础教程

scala中文教程(java 平台开发语言 scala 简单教程)

Scala编程实战基础教程

Scala基础

scala 教程

Scala 教程

scala 中文教程下载

scala入门教程pdf

Scala实操教程及演示

scala语言教程及规范

最新资源