spark RDD是什么
时间: 2023-10-05 18:13:16 浏览: 201
spark rdd api
Spark RDD(Resilient Distributed Datasets)是Spark中最基本的数据结构,是一个可靠的、分布式的、不可变的数据集合。它是Spark的核心抽象概念,可以看作是一个分布式的、带有容错机制的元素集合。RDD是由若干个partition(分区)组成的,每个分区存储着RDD中的一个子集。RDD可以在集群中的多个节点上并行计算,可以通过转换操作(如map、filter、reduce等)进行数据的转换和处理,也可以通过action操作(如count、collect等)触发计算并返回结果。RDD的特点是具有容错性、分布式计算和数据共享的特性,因此可以实现高效的、可靠的大数据处理。
阅读全文