Spark 2.4.0编程入门教程：快速掌握Dataset API

需积分: 9 122 浏览量更新于2024-09-06 收藏 624KB PDF 举报

"Spark 2.4.0的编程指南快速入门文档，涵盖了Spark的基本概念、API使用、交互式分析和数据集操作等核心内容。文档旨在帮助开发者快速熟悉Spark的使用，包括通过SparkShell进行交互式分析，理解数据集的操作，以及如何编写基于Java、Scala和Python的应用程序。" 在Spark 2.4.0版本中，编程指南主要分为以下几个部分： 1. **概览**：这部分简要介绍Spark的核心功能和主要组件，包括SparkShell、编程API和部署选项。 2. **快速开始**：为初学者提供了快速了解和使用Spark的路径。首先推荐使用SparkShell，它是Spark提供的一个交互式环境，可用于学习API并进行数据分析。SparkShell支持Scala和Python，启动命令为`./bin/spark-shell`。 3. **数据集**：Spark 2.0以后，数据集成为主要的编程接口，它提供了强类型和更丰富的优化，相比RDD有更好的性能。数据集可以从HadoopInputFormats创建，例如从HDFS文件读取，也可以通过转换其他数据集得到。例如，使用`spark.read.textFile("README.md")`可以从文件创建一个文本数据集。 4. **RDD**：虽然RDD（弹性分布式数据集）不再是主要接口，但仍然支持，并且在RDD编程指南中有详细的参考。RDD是Spark的基础，它是一组不可变、分区的数据元素，可以在集群中并行操作。 5. **高速缓存**：Spark支持将数据集缓存到内存中，以便后续操作可以更快地访问，这是实现高性能的关键特性。使用`cache()`或`persist()`方法可以将数据集保存在内存中。 6. **自包含的应用程序**：开发Spark应用程序时，需要确保所有依赖项都包含在构建文件中，以便在不同环境中正确运行。 7. **API文档**和**部署**：Spark提供了详细的API文档，覆盖了所有编程语言的接口。此外，部署部分指导用户如何在不同的集群配置上安装和运行Spark。 8. **学习路径**：文档最后会指引用户如何进一步学习Spark，包括深入理解数据集的使用和SQL编程，以及如何扩展到更高级的主题。 Spark 2.4.0编程指南是学习和掌握Spark基础功能的重要资源，它通过实例和清晰的解释，帮助开发者快速上手，从而高效地利用Spark处理大规模数据。

2018/12/15

快速入门 - Spark 2.4.0文档

https://translate.googleusercontent.com/translate_c?depth=1&rurl=translate.google.com.hk&sl=en&sp=nmt4&tl=zh-CN&u=http://spark.apache.org/docs/latest/q

…

1/4

2.4.0

概

观

编

程

指

南

API

文

档

部

署

更

多

Scala Python

快

速

开

始

使

用

Spark Shell

进

行

交互

式

分

析

基

本

有

关

数据

集

操

作

的

更

多

信

息

高

速

缓

存

自

包

含

的

应

用

程

序

从

这

往

哪

儿

走

本

教

程简

要

介

绍

了

如

何使

用

Spark

。

我

们

将

首

先

通过

Spark

的

交互

式

shell

（

在

Python

或

Scala

中

）

介

绍

API

，

然

后

展

示

如

何使

用

Java

，

Scala

和

Python

编

写

应

用

程

序

。

要

继续

本

指

南

，

首

先

，

从

Spark

网

站

下

载

Spark

的

打

包

版

本

。

由

于

我

们

不

会使

用

HDFS

，

您

可

以

下

载

任何

版

本

的

Hadoop

的

软

件

包

。

请

注

意

，

在

Spark 2.0

之

前

，

Spark

的

主

要

编

程

接

口

是

弹性

分

布

式

数据

集

（

RDD

）

。

在

Spark 2.0

之

后

，

RDD

被

数据

集

取

代

，

数据

集

类

似于

RDD

一

样

强

类

型

，

但

在

底

层

有更

丰

富

的

优

化

。

仍

然

支

持

RDD

接

口

，

您

可

以

在

RDD

编

程

指

南

中

获

得

更

详

细

的

参

考

。

但

是

，

我

们

强

烈

建

议

您

切

换

到

使

用

Dataset

，

它

具

有

比

RDD

更

好

的

性

能

。

请

参

阅

SQL

编

程

指

南

以

获

取

有

关

数据

集

的

更

多

信

息

。

使

用

Spark Shell

进

行

交互

式

分

析

基

本

Spark

的

shell

提

供了

一

种

学

习

API

的

简

单

方

法

，

以

及

一

种

以交互

方

式

分

析

数据

的

强

大

工

具

。

它

可

以

在

Scala

（

在

Java VM

上

运

行

，

因

此

是

使

用现

有

Java

库

的

好

方

法

）

或

Python

中使

用

。

通过

在

Spark

目

录

中

运

行

以

下

命

令

来

启

动

它

：

./bin/spark-shell

Spark

的

主

要

抽

象

是

一个

名

为

Dataset

的

分

布

式

项

目

集

合

。

可

以从

Hadoop InputFormats

（

例

如

HDFS

文

件

）

或

通过转

换

其

他

数据

集

来

创

建

数据

集

。

让

我

们从

Spark

源

目

录

中

的

README

文

件

的

文

本

中

创

建

一个

新

的

数据

集

：

scala > val textFile = spark . read . textFile ( "README.md" ) textFile : or

g.apache.spark.sql.Dataset [ String ] = [ value: string ]

您

可

以

通过

调

用

某

些

操

作

直

接

从

Dataset

获

取

值

，

或

者

转

换数据

集

以

获

取

新

值

。

有

关

更

多

详

细

信

息

，

请

阅

读

API

文

档

。

scala > textFile . count () // Number of items in this Dataset res0 : Long =

126 // May be different from yours as README.md will change over time, simila

下载后可阅读完整内容，剩余3页未读，立即下载

wlcdcy

粉丝: 2

Spark 2.4.0编程入门教程：快速掌握Dataset API

spark官方文档中文版

Linux内核源代码情景分析.pdf---linux-2.4.0.tar.bz2--Source Insight 3

compass-2.1.2.jar'、lucene-analyzers-2.4.0.jar、 lucene-core-2.3.0.jar、 lucene-highlighter-2.4.0.jar、 struts2-core-2.0.9.jar、 struts2-spring-plugin-2.0.9.jar、 xwork-2.0.4.jar

springfox-schema-2.4.0.jar中文-英文对照文档.zip

jackson-annotations-2.4.0.jar中文-英文对照文档.zip

springfox-core-2.4.0.jar中文-英文对照文档.zip

assertj-core-2.4.0.jar中文-英文对照文档.zip

parquet-format-2.4.0.jar中文-英文对照文档.zip

jackson-databind-2.4.0.jar中文-英文对照文档.zip

springfox-spi-2.4.0.jar中文-英文对照文档.zip

最新资源