Spark 2.0实战：大数据处理与流计算解析

需积分: 9 98 浏览量更新于2024-07-18 收藏 10.99MB PDF 举报

"Spark in Action--2016" 在2016年出版的《Spark in Action》一书中，作者Petar Zecevic和Marko Bonaci深入浅出地介绍了如何利用Spark处理批量数据和流数据。这本书针对Spark 2.0进行了全面更新，旨在帮助读者掌握理论知识和实战技能。 Spark作为一款强大的大数据处理框架，其核心组件包括Spark Core、Spark Streaming、Spark SQL和Spark MLlib。Spark Core是整个框架的基础，提供了分布式计算的基本功能，如并行化操作（parallelize）、映射（map）和归约（reduceByKey）等。RDD（弹性分布式数据集）是Spark Core中的核心抽象，它是一种不可变、容错的数据结构，可以通过转换（transformations）和动作（actions）进行操作。 Spark Streaming构建在Spark Core之上，用于处理实时数据流。它通过DStream（Discretized Stream）将连续的数据流分解为离散的批次，周期性地创建RDD。Spark Streaming可以与各种数据源集成，如Kafka、Flume、Twitter、HDFS和ZeroMQ，同时能利用Spark SQL和机器学习模型对流数据进行分析。 Spark SQL引入了DataFrame，它是Spark MLlib和Spark ML的基石。DataFrame提供了更高级别的抽象，可以看作是结构化的RDD，允许用户使用SQL语句进行数据分析。DataFrame的操作会转换为RDD上的操作，从而简化了数据处理。Spark SQL还支持多种数据源，包括Hive、JSON、关系型数据库、NoSQL数据库和Parquet文件。 Spark MLlib和Spark ML是Spark的机器学习库，它们使用DataFrame和RDD来表示和处理数据。Spark MLlib提供了一系列机器学习算法，而Spark ML则提供了更高层次的API，使得模型构建更加直观。这两个库都依赖于Spark Core的功能，如并行计算、数据转换和容错机制。 Spark GraphX是Spark处理图数据的组件，它使用GraphRDD来存储和操作图数据。GraphX同样基于Spark Core，可以在接收的数据上应用图算法，并与其他组件（如Spark Streaming）协同工作。《Spark in Action--2016》涵盖了Spark的主要组件和用法，包括数据处理、流计算、SQL查询和机器学习，是一本全面了解和掌握Spark的宝贵资源。读者通过本书可以深入理解Spark的内部机制，如RDD的血缘关系（lineage）和转换过程，以及如何与各种存储系统（如HDFS、GusterFS、Amazon S3）交互。这不仅有助于提升数据处理能力，也为实际项目中的数据解决方案提供了有力支持。

CONTENTS

xiv

10.3 Configuring Spark 295

Spark configuration file 295

■

Command-line parameters 295

System environment variables 296

■

Setting configuration

programmatically 296

■

The master parameter 297

■

Viewing

all configured parameters 297

10.4 Spark web UI 297

Jobs page 298

■

Stages page 300

■

Storage page 302

Environment page 302

■

Executors page 303

10.5 Running Spark on the local machine 303

Local mode 304

■

Local cluster mode 305

10.6 Summary 305

Running on a Spark standalone cluster 306

11.1 Spark standalone cluster components 307

11.2 Starting the standalone cluster 308

Starting the cluster with shell scripts 309

■

Starting the cluster

manually 312

■

Viewing Spark processes 313

■

Standalone

master high availability and recovery 313

11.3 Standalone cluster web UI 315

11.4 Running applications in a standalone cluster 317

Location of the driver 317

■

Specifying the number of

executors 318

■

Specifying extra classpath entries and files 319

Killing applications 320

■

Application automatic restart 320

11.5 Spark History Server and event logging 321

11.6 Running on Amazon EC2 322

Prerequisites 323

■

Creating an EC2 standalone cluster 324

Using the EC2 cluster 327

■

Destroying the cluster 329

11.7 Summary 329

Running on YARN and Mesos 331

12.1 Running Spark on YARN 332

YARN architecture 332

■

Installing, configuring, and starting

YARN 334

■

Resource scheduling in YARN 335

■

Submitting

Spark applications to YARN 336

■

Configuring Spark on YARN 338

Configuring resources for Spark jobs 339

■

YARN UI 341

■

Finding

logs on YARN 343

■

Security considerations 344

■

Dynamic

resource allocation 344

剩余475页未读，继续阅读

白鸽-小蛋

粉丝: 10

Spark 2.0实战：大数据处理与流计算解析

Spark in Action-2016

spark-in-action

Spark in Action

spark in action true pdf

Spark In Action.pdf

Spark in Action.pdf

Spark in Action 无水印原版pdf

cloud-in-action-training

Spark in Action.pdf.zip

Spark GraphX In Action 2016英文原版.pdf

最新资源