Spark RDD详解:原理、属性和应用
需积分: 10 149 浏览量
更新于2024-09-10
收藏 554KB DOCX 举报
Spark RDD 详解
Spark RDD(Resilient Distributed Dataset,弹性分布式数据集)是 Spark 中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD 具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。
RDD 的属性:
1. 一组分片(Partition),即数据集的基本组成单位。对于 RDD 来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建 RDD 时指定 RDD 的分片个数,如果没有指定,那么就会采用默认值。默认值就是程序所分配到的 CPU Core 的数目。
2. 一个计算每个分区的函数。Spark 中 RDD 的计算是以分片为单位的,每个 RDD 都会实现 compute 函数以达到这个目的。compute 函数会对迭代器进行复合,不需要保存每次计算的结果。一个 function 作用在一个分片上。
3. RDD 之间的依赖关系。RDD 的每次转换都会生成一个新的 RDD,所以 RDD 之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时,Spark 可以通过这个依赖关系重新计算丢失的分区数据,而不是对 RDD 的所有分区进行重新计算。
4. 一个 Partitioner,即 RDD 的分片函数。当前 Spark 中实现了两种类型的分片函数,一个是基于哈希的 HashPartitioner,另外一个是基于范围的 RangePartitioner。只有对于于 key-value 的 RDD,才会有 Partitioner,非 key-value 的 RDD 的 Partitioner 的值是 None。Partitioner 函数不但决定了 RDD 本身的分片数量,也决定了 parentRDDShuffle 输出时的分片数量。
5. 一个列表,存储存取每个 Partition 的优先位置(preferred location)。对于一个 HDFS 文件来说,这个列表保存的就是每个 Partition 所在的块的位置。按照“移动数据不如移动计算”的理念,Spark 在进行任务调度的时候,会尽可能地将计算任务分配到其所要处理数据块的存储位置。
创建 RDD 的方式有多种:
1. 由一个已经存在的 Scala 集合创建:val rdd = sc.parallelize(data)
2. 通过读取外部数据源创建:val rdd = sc.textFile("hdfs://...")
3. 通过转换其他 RDD 创建:val rdd = otherRdd.map(x => x * 2)
RDD 的优点:
1. 高效:RDD 可以将计算任务分配到多个节点上,并行计算,提高计算效率。
2. 弹性:RDD 可以自动容错,重新计算丢失的分区数据。
3. 可扩展:RDD 可以根据需要增加或减少计算节点,提高计算能力。
RDD 的应用场景:
1. 数据处理:RDD 可以用于处理大规模数据,例如数据清洁、数据转换、数据聚合等。
2. 机器学习:RDD 可以用于机器学习算法的训练和测试,例如逻辑回归、决策树、随机森林等。
3. 图计算:RDD 可以用于图计算,例如PageRank、图聚类等。
RDD 是 Spark 中最基本的数据抽象,具有高效、弹性、可扩展的特点,广泛应用于数据处理、机器学习和图计算等领域。
2020-09-09 上传
2022-01-24 上传
2018-05-03 上传
2016-11-13 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
dengddddw
- 粉丝: 1
- 资源: 52
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍