搭建Spark集群计算：从创建工程到Spark-Yarn集成

需积分: 10 182 浏览量更新于2024-09-11 收藏 326KB PDF 举报

"Spark是一个由加州伯克利大学AMP实验室开发的开源集群计算系统，它以内存计算为核心，显著提升了数据分析的速度。Spark以其简洁和高效而著名，项目核心部分仅包含63个Scala文件。在实际操作中，创建Spark工程需要进行一系列步骤，包括设置项目目录、编写源代码和配置构建文件，如`sbt`和`build.sbt`。对于中国开发者，由于对国外源的访问限制，通常需要将Maven仓库替换为国内源，例如oschina或自定义的Nexus服务器。在配置完成后，可以使用`sbt`命令进行编译、打包和运行。对于在Yarn上的部署，需要额外的SBT配置来支持Spark与Yarn的集成。" Spark作为大数据处理的重要工具，其核心特性包括： 1. **内存计算**：Spark引入了弹性分布式数据集(RDD)，这是一种容错的、存储在内存中的数据集合。这使得Spark能快速处理大量数据，比传统的Hadoop MapReduce快几个数量级。 2. **易用性**：Spark提供了一套丰富的API，支持多种编程语言，包括Scala、Java、Python和R。此外，Spark Shell提供了交互式数据分析的可能性。 3. **模块化设计**：Spark包含多个模块，如Spark Core、Spark SQL、Spark Streaming、MLlib（机器学习库）和GraphX（图计算）。这些模块可以单独使用，也可以协同工作，提供了一站式的数据分析解决方案。 4. **兼容性**：Spark可以与各种数据存储系统集成，如HDFS、Cassandra、HBase等，同时支持在多种集群管理器上运行，包括YARN、Mesos和独立模式。 5. **容错机制**：RDD通过血统(lineage)来实现容错，当数据丢失时，可以通过重算丢失的数据块来恢复，保证了系统的高可用性。在创建Spark工程的过程中，关键步骤包括： 1. **项目初始化**：创建项目目录，并在其中放置源代码文件（如Scala文件）和构建配置文件（如`sbt`项目结构）。 2. **配置文件**：在`sbt`文件中设置项目名称、版本、Scala版本以及依赖项，如`spark-core`库。还要配置 resolver，确保可以从正确的Maven仓库下载依赖。 3. **添加依赖**：在`build.sbt`文件中声明Spark和其它必要的库，如`libraryDependencies += "org.apache.spark" %% "spark-core" % "0.9.1"`。 4. **编译与运行**：通过`sbt`命令行工具，可以执行`compile`、`package`和`run`等任务，完成代码的编译、打包和运行。对于在Yarn上运行Spark应用，还需要在`build.sbt`或`plugins.sbt`中添加Yarn相关的配置，以确保Spark作业能够正确提交到Yarn集群上执行。此外，开发者可能还需要调整Yarn的配置参数，以优化性能和资源利用率。在实际开发中，理解并掌握这些知识点，能够帮助开发者有效地利用Spark进行大数据处理和分析，提升工作效率。

Spark经验

创建第一个spark工程

创建工程参考>AStandaloneAppinScala

创建工程目录：

$>mkdirhello

$>cdhello

$>#

创

建

SimpleApp.scala

$>#

创

建

simple.sbt

特别说明：

由于默认源：http://repo1.maven.org国外源没法用，你们懂的！

设置账号级源配置优先级别：

[repositories]

maven.oschina:http://maven.oschina.net/service/local/repositories/central/content/

my.releases:http://172.16.0.6:8081/nexus/content/repositories/releases/

my.snapshots:http://172.16.0.6:8081/nexus/content/repositories/snapshots/

maven2:http://repo1.maven.org/maven2

再simple.sbt文件上添加，国内源

resolvers:=List("maven.oschina"at

"http://maven.oschina.net/service/local/repositories/central/content/")

externalResolvers<<=resolversmap{rs=>

Resolver.withDefaultResolvers(rs,mavenCentral=false)

}

name:="SimpleProject"

version:="1.0"

scalaVersion:="2.10.3"

libraryDependencies+="org.apache.spark"%%"sparkcore"%"0.9.1"

resolvers+="AkkaRepository"at"http://repo.akka.io/releases/"

后面就可以编译了：

下载后可阅读完整内容，剩余3页未读，立即下载

NinjaPanda

粉丝: 30
资源: 231

搭建Spark集群计算：从创建工程到Spark-Yarn集成

Spark入门：Scala环境配置与WordCount实战

Spark入门实战：Scala开发环境配置与WordCount案例

Spark实战：构建与优化指南

用sbt构造好的Intellij版的spark工程

Spark

spark

使用Scala编写spark工程代码，将MySQL的shtd_store库中表user_info、sku_info、base_province、base_region、order_info、order_detail的数据增量抽取到hudi的ods库中对应表user_info、sku_info、base_province、base_region、order_info、order_detail中

spark 特征工程

spark2014:SPARK 2014是SPARK的新版本，SPARK是专门为工程高可靠性应用程序设计的软件开发技术

Spark数据处理与特征工程

最新资源