val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark") val sparkContext = new SparkContext(sparkConf) val dataRDD1: RDD[Int] = dataRDD.mapPartitions( datas => { datas.filter(_==2) } ) dataRDD1.collect().foreach(println) sparkContext.stop()

时间: 2023-05-15 10:04:42 浏览: 88

Spark——SparkContext简单分析1

SparkContext是Spark程序开发的核心类，它是与Spark集群交互的起点。SparkContext的主要职责是建立与Spark集群的连接，创建RDD（弹性分布式数据集），管理累加器和广播变量。在Spark 2.0.1版本中，SparkContext扮演着驱动程序（Driver Program）的核心角色，负责协调和控制整个计算过程。 SparkConf是Spark的配置类，它存储了所有Spark应用的配置参数，如master URL（指定运行模式，如local或YARN）、应用程序名称（appName）、JAR文件列表以及Executor的相关环境设置。这些配置信息以键值对的形式存储在ConcurrentHashMap中，允许用户自定义和调整Spark运行的参数。 SparkEnv是Spark执行环境的关键组件，它维护了多个重要子系统，如序列化器、RPC环境、Block Manager、MapOutputTracker等。SparkEnv的实例在整个应用程序中是全局共享的，确保所有线程都能访问相同的执行环境。SparkContext通过SparkEnv.createDriverEnv方法创建SparkEnv实例。 - SecurityManager处理权限和账户管理，特别是在Hadoop YARN模式下处理安全证书。 - RpcEnv是Spark中的远程过程调用（RPC）环境，用于节点间的通信。Spark原先是基于Akka的，但现在默认使用Netty作为RPC框架，提供更高效的通信。 - SerializerManager管理数据的序列化和反序列化，以适应网络传输和存储需求。 - BroadcastManager管理广播变量的分发，使用TorrentBroadcastFactory作为默认的广播工厂，优化广播数据的分发效率。 - MapOutputTracker跟踪Map阶段的输出状态，帮助Reduce阶段定位数据，根据运行角色创建MapOutputTrackerMaster或MapOutputTrackerWorker。 - ShuffleManager负责管理shuffle操作，SortShuffleManager是默认实现，处理数据的排序和分布。 - MemoryManager管理Spark内存使用策略，1.6版本之后引入UnifiedMemoryManager，允许execution和storage之间灵活分配内存。 - BlockTransferService处理Block的网络传输，通常基于Netty实现。 - BlockManagerMaster协调Block的管理，而BlockManager则是Spark存储系统的基础，负责数据块的存储和检索。 - MetricsSystem则用于收集和展示Spark应用的性能指标。 LiveListenerBus是Spark事件通知系统的一部分，它异步传递事件并注册SparkListeners，使开发者能够实时监控应用的运行状态。 JobProgressListener是专门用于监听和报告Spark任务进度的监听器，它为SparkUI提供了任务数、进度和其他关键信息，帮助用户监控作业的执行情况。 SparkContext是Spark程序的中心，它通过SparkConf配置集群，通过SparkEnv管理执行环境，并通过各种组件协调计算资源，确保任务的高效执行。理解SparkContext的工作原理对于优化Spark应用性能和解决问题至关重要。

这段代码是使用 Spark 框架进行数据处理的代码，其中使用了 SparkConf 和 SparkContext 对象来配置和管理 Spark 应用程序。具体来说，这段代码创建了一个本地模式的 Spark 应用程序，将数据集 dataRDD 中的元素进行过滤，只保留值为 2 的元素，并将过滤后的结果打印输出。最后，调用 sparkContext.stop() 方法来停止 Spark 应用程序的运行。

阅读全文

val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark") val sparkContext = new SparkContext(sparkConf) val dataRDD1: RDD[Int] = dataRDD.mapPartitions( datas => { datas.filter(_==2) } ) dataRDD1.collect().foreach(println) sparkContext.stop()

相关推荐

Scala-hadoop-spark-新教程含金量最高的大数据教程

Apache Spark优化1

not found: type sparkConf val sparkConf = new sparkConf().setMaster("local[*]").setAppName("sparkSQL")

val conf = new SparkConf().setAppName("test").setMaster("local[*]")，其中local[*]的意思是_____。

实验室管理系统 微信小程序+SSM毕业设计 源码+数据库+论文+启动教程.zip

基于java的苹果网吧计费管理系统设计与实现.docx

纸中世界-跳跃游戏.sb3

Keysight 网络分析仪新建校准件操作指导

调查海域浮游动物各类群栖息密度的空间分布表格.docx

ssm框架Java项目源码-高校毕业生就业管理系统+jsp毕设-大作业.zip

使用 Python 进行视频编辑.zip

最新推荐

实验室管理系统 微信小程序+SSM毕业设计 源码+数据库+论文+启动教程.zip

基于java的苹果网吧计费管理系统设计与实现.docx

纸中世界-跳跃游戏.sb3

Keysight 网络分析仪新建校准件操作指导

调查海域浮游动物各类群栖息密度的空间分布表格.docx

俄罗斯RTSD数据集实现交通标志实时检测

管理建模和仿真的文件

预测区间与置信区间：机器学习中的差异与联系

基于KNN通过摄像头实现0-9的识别python代码

易语言开发的文件批量改名工具使用Ex_Dui美化界面

val conf = new SparkConf().setAppName("test").setMaster("local[]")，其中local[]的意思是_____。

实验室管理系统微信小程序+SSM毕业设计源码+数据库+论文+启动教程.zip

实验室管理系统微信小程序+SSM毕业设计源码+数据库+论文+启动教程.zip