sparksession与sparkcontext区别

SparkSession和SparkContext都是Apache Spark中的抽象概念，它们存在一定的区别。具体分析如下： - **SparkSession** 是Spark 2.0中引入的新概念，为用户提供了统一的切入点来学习Spark的各项功能。它是SQLContext和HiveContext的组合，并封装了SparkConf、SparkContext和SQLContext。SparkSession作为DataSet和DataFrame API的接入点，使得在SQLContext和HiveContext上可用的API同样可以在SparkSession上使用。SparkSession内部封装了sparkContext，计算实际上是由sparkContext完成的。 - **SparkContext** 是任何Spark程序的起点，它的初始化需要一个SparkConf对象，包含Spark集群配置的各种参数。SparkContext只能在driver机器上启动，是对Spark计算集群的一个连接。在早期版本的Spark中，SparkContext是主要的切入点，通过它来创建和操作RDD。对于其他API，如StreamingContext、SQLContext和HiveContext，需要使用不同的context。综上所述，SparkSession是一个更高级别的抽象，提供了更简单的方式来使用Spark的不同功能，而SparkContext是Spark的基础，负责底层的计算任务。

sparkSession.sparkContext

`sparkSession.sparkContext`是一个SparkSession对象的属性，它返回一个SparkContext对象，用于与Spark集群进行交互。可以使用SparkContext对象来创建RDD、累加器和广播变量等。例如，以下是使用`sparkSession.sparkContext`创建一个RDD的示例： ```python # 创建一个SparkSession对象 from pyspark.sql import SparkSession spark = SparkSession.builder.appName("example").getOrCreate() # 使用SparkContext对象创建一个RDD rdd = spark.sparkContext.parallelize([1, 2, 3, 4, 5]) ``` 在上面的示例中，我们首先创建了一个SparkSession对象，然后使用`sparkSession.sparkContext`属性创建了一个RDD。这个RDD包含数字1到5。

def getCMeter(dateTIme:DateTime=null)={ val tableName = DW + CMeter.READ_TABLE_NAME sparkSession.catalog.refreshTable(tableName)} var cMeterRDD:RDD[CMeter] = sparkSession.sparkContext.emptyRDD[CMeter] val dateStr = if（dateTime==null）"null" else dateTime.toString("yyyyMMdd") if (CacheUtils.getRDDCMeter.isEmpty){cMeterRDD=sql(s"select*from ${tableName}") .as[CMeter] .rdd if(dateTime != null) cMeterRDD = cMeterRDD.filter(x => TimeUtils.filterLastInsert(dateTime,x.lastInsertDate)) cMeterRDD = CacheUtils.putRDD[CMeter](tableName,dateStr,cMeterRDD)}else{ cMeterRDD=CacheUtills.getRDD[CMeter](ttableName,dateStr).gett}}

这段代码是一个方法定义，名为`getCMeter`，接受一个可选的`DateTime`类型参数`dateTIme`。下面是对代码的逐行解释： 1. `val tableName = DW + CMeter.READ_TABLE_NAME`：声明一个名为`tableName`的常量，值为`DW + CMeter.READ_TABLE_NAME`的字符串拼接结果。 2. `sparkSession.catalog.refreshTable(tableName)`：刷新SparkSession中指定表名的元数据信息。 3. `var cMeterRDD: RDD[CMeter] = sparkSession.sparkContext.emptyRDD[CMeter]`：声明一个变量`cMeterRDD`，类型为RDD[CMeter]，初始值为空RDD。 4. `val dateStr = if（dateTime==null）"null" else dateTime.toString("yyyyMMdd")`：根据传入的`dateTime`参数判断是否为空，如果为空则将`dateStr`赋值为字符串"null"，否则将`dateTime`转换为格式为"yyyyMMdd"的字符串并赋值给`dateStr`。 5. `if (CacheUtils.getRDDCMeter.isEmpty)`：检查是否存在名为CacheUtils的对象的方法调用结果为空。 6. `cMeterRDD = sql(s"select*from ${tableName}") .as[CMeter] .rdd`：执行一个SQL查询，将查询结果转为Dataset[CMeter]类型，并将其转换为RDD[CMeter]类型并赋值给`cMeterRDD`。 7. `if(dateTime != null) cMeterRDD = cMeterRDD.filter(x => TimeUtils.filterLastInsert(dateTime,x.lastInsertDate))`：如果`dateTime`不为空，则对`cMeterRDD`进行过滤操作，根据`lastInsertDate`字段和传入的`dateTime`参数进行筛选。 8. `cMeterRDD = CacheUtils.putRDD[CMeter](tableName,dateStr,cMeterRDD)`：将`cMeterRDD`存储到名为CacheUtils的对象中的方法`putRDD`中，并传入表名、日期字符串和`cMeterRDD`。 9. `cMeterRDD = CacheUtills.getRDD[CMeter](ttableName,dateStr).gett`：从名为CacheUtills的对象中的方法`getRDD`中获取存储的`cMeterRDD`，并将其赋值给`cMeterRDD`变量。请注意，代码中存在一些拼写错误（如`CacheUtills`应为`CacheUtils`），以及语法问题（如if条件语句中的圆括号使用了中文括号）需要进行修正。

阅读全文

sparksession与sparkcontext区别

sparkSession.sparkContext

相关推荐

2.2 Sparkcontext编程入口1

Hadoop 和 Spark 安装、环境配置与使用教程.pdf

SparkRPC简单代码实现.pdf

sparkcontext和sparksession的区别

sparkcontext和sparksession

如果sparkcontext和sparksession同时使用，sparksession的实例化要在sparkcontext之前吗

sparksession和sparkcontent区别

1.SparkContext可以由SparkSession对象得到吗

from pyspark.conf import SparkConf from pyspark.sql.session import SparkSession from pyspark import SparkContext from pyspark.sql.types import Row if __name__ == "__main__": sc = SparkContext("local","Simple App") peopleRDD = sc.textFile("file:///usr/loca

sparkSession

SparkSession

sparksession

sparkContext

py4j。Py4JException:构造函数org.apache.spark.sql。org.apache.spark SparkSession([类。SparkContext，类java.util.HashMap])不存在

Only one SparkContext should be running in this JVM (see SPARK-2243).The currently running SparkContext was created at: org.apache.spark.sql.SparkSession$Builder.getOrCreate

conf = SparkConf().setAppName("QARpython")；sc = SparkContext(conf=conf)，我已经在主程序中定义了一个sparkcontext，会和你上面这个示例中创建的sparkSession有冲突吗

大家在看

LTE软件使用介绍

速达3000 数据库结构

JESD47I中文版.docx

mike21建模

网游诛仙分金鉴挖宝坐标计算器

最新推荐

2021最新直播系统+短视频源码+教程+演示APP+开发文档+IOS与安卓源码

AkariBot-Core：可爱AI机器人实现与集成指南

管理建模和仿真的文件

CC-LINK远程IO模块AJ65SBTB1现场应用指南：常见问题快速解决

switch语句和for语句的区别和使用方法

易语言实现程序启动限制的源码示例

"互动学习：行动中的多样性与论文攻读经历"

CC-LINK远程IO模块在环境监控中的应用：技术与案例探讨

Java 获取当前日期

轻量级开源应用程序CoverSearch快速下载音乐封面

from pyspark.conf import SparkConf from pyspark.sql.session import SparkSession from pyspark import SparkContext from pyspark.sql.types import Row if name == "main": sc = SparkContext("local","Simple App") peopleRDD = sc.textFile("file:///usr/loca