pyspark系列3-spark核心之rdd介绍
时间: 2023-04-26 16:00:59 浏览: 210
Pyspark-With-Python-main.zip
RDD(Resilient Distributed Datasets)是Spark中最基本的数据结构,也是Spark的核心之一。它是一个不可变的分布式数据集合,可以在集群中进行并行处理。RDD可以从Hadoop的HDFS文件系统、本地文件系统、HBase、Cassandra等数据源中创建,也可以通过转换操作(如map、filter、reduce等)从已有的RDD中创建。RDD支持两种类型的操作:转换操作和行动操作。转换操作是指对RDD进行转换,生成一个新的RDD,但并不会立即执行,只有在行动操作被调用时才会执行。行动操作是指对RDD进行计算并返回结果。RDD的特点是容错性强,可以自动进行数据分区和数据恢复,因此可以在大规模数据处理中发挥出很好的性能。
阅读全文