SparkContext入门：编程接口与作业管理

spark

需积分: 0 148 浏览量更新于2024-08-05 收藏 798KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

SparkContext是Apache Spark编程的核心组件，它在PySpark中扮演着至关重要的角色。它是与Spark集群的连接点，所有作业的提交、任务的调度和应用程序的注册都依赖于SparkContext。通过一个SparkContext实例，开发人员可以创建RDD（弹性分布式数据集）和Broadcast变量，这些是Spark处理大规模数据的基础。获取SparkContext主要有两种方式： 1. **通过SparkSession**：在命令行中运行`pyspark --master spark://hadoop-master:7077`，这会启动一个SparkSession并自动创建一个SparkContext。SparkSession提供了更高级别的接口，但底层仍依赖SparkContext。在启动过程中，可以看到SparkContext连接的Spark集群的master地址，即`spark://hadoop-master:7077`。 2. **直接导入SparkContext**：在Python脚本中，可以导入`pyspark.SparkContext`并创建实例。例如，在`sparkContext.py`中，创建一个SparkConf对象设置master地址为本地模式，然后初始化SparkContext。之后创建一个RDD来演示基本操作，并在程序结束时停止SparkContext。 Accumulator是SparkContext提供的一个重要工具，它允许在多个任务（Task）之间共享状态并进行累加。Accumulator支持单个操作（如add），并且可以设置初始值。在`accumulator.py`中，我们创建了一个Accumulator实例，用于执行1到50的加法运算，通过numpy库辅助计算。Accumulators在Spark的分布式计算中很有用，尤其是在需要全局累计或汇总数据的场景。 SparkConf对象是Spark应用的配置容器，用于设置运行时参数，如master地址、内存分配等。通过配置它可以调整Spark的工作方式以适应不同的环境和需求。在上述例子中，调整log4j.properties文件的日志级别是为了优化日志输出，便于分析和调试。 SparkContext是PySpark开发者进行大数据处理的基石，理解和掌握其工作原理和使用方法对于构建高效、可靠的Spark应用至关重要。同时，Accumulator作为Spark共享状态的机制，是分布式计算中的关键组件之一。通过适当的配置和使用，SparkContext和Accumulator能够帮助我们充分利用Spark的分布式计算能力。

资源详情

资源推荐

1.SparkContext是pyspark的编程入口，作业的提交，任务的分发，应用的注册都会在SparkContext中进行。一个SparkContext实例代

表着和Spark的一个连接，只有建立了连接才可以把作业提交到集群中去。实例化了SparkContext之后才能创建RDD和Broadcast广播变

量。

2.Sparkcontext获取，启动pyspark--masterspark://hadoop-maste:7077之后，可以通过SparkSession获取Sparkcontext对象

从打印的记录来看，SparkContext它连接的Spark集群的master地址是spark://hadoop-maste:7077

另外一种获取SparkContext的方法是，引入pyspark.SparkContext进行创建。新建sparkContext.py文件，内容如下：

frompysparkimportSparkContext

frompysparkimportSparkConf

conf=SparkConf()

conf.set('master','local')

sparkContext=SparkContext(conf=conf)

rdd=sparkContext.parallelize(range(100))

print(rdd.collect())

sparkContext.stop()

运行之前先将spark目录下的conf配置目录中的log4j.properties配置文件中的日志级别改为如下：

这样后台打印的日志不至于太多印象查看！重启Spark集群

运行spark-submitsparkContext.py

上面代码中的Sparkconf对象是Spark里面用来配置参数的对象，接下来我们会详细讲解到。

3.accumulator是Sparkcontext上用来创建累加器的方法。创建的累加器可以在各个task中进行累加，并且只能够支持add操作。该方法

支持传入累加器的初始值。这里以Accumulator累加器做1到50的加法作为讲解的例子。

新建accumulator.py文件，内容如下：

frompysparkimportSparkContext,SparkConf

importnumpyasnp

conf=SparkConf()

conf.set('master','spark://hadoop-maste:7077')

context=SparkContext(conf=conf)

acc=context.accumulator(0)

print(type(acc),acc.value)

rdd=context.parallelize(np.arange(101),5)

defacc_add(a):

 acc.add(a)

 returna

rdd2=rdd.map(acc_add)

print(rdd2.collect())

print(acc.value)

context.stop()

使用spark-submitaccumulator.py运行

下载后可阅读完整内容，剩余6页未读，立即下载

老许的花开

粉丝: 31
资源: 328

SparkContext入门：编程接口与作业管理

03_SparkSql.docx

sparkspall：spark项目实践

neoprogrammer 2.2.0.8

sayatoo2.2.1.3129

1.1mw/2.2mwh 跟电池1c 0.5c

win10 tornado2.2替换

4台pc的IP分别为211.1.1.1、211.1.2.2、211.1.1.3、211.1.2.4时他们的默认网关应该为什么

[R2]ospf 1 router-id 2.2.2.2 [R2-ospf-1]area 0 [R2-ospf-1-area-0.0.0.0]network 22.1.1.1 0.0.0.0

sayatoo2.2.1.3129 win10版

nexus 2.2 linux 下载

号倒谱分析和 lpc 谱分析的编程流程图(图 2.1、图 2.2)编制浊音

intellilock 2.2.0.0

hc32x0xj-flash v2.2.rar

tensorflow2.2下载地址

lin 2.2 中文版

apache2.2官方安装包

在虚拟机中部署ONOS2.2，并用bazel构建onos2.2

lin2.2a pdf

忧愁_跨程序辅助类库v2.2

最新资源