21、在Spak的处理逻辑中,下面哪个操作是窄依赖? ( ) A filter B.sort C.join D. group
时间: 2024-04-09 10:29:42 浏览: 96
A. filter
在Spark的处理逻辑中,窄依赖指的是每个父RDD分区只有一个子RDD分区依赖于它。根据这个定义,filter操作是窄依赖。
filter操作通过过滤出满足条件的元素,生成一个新的RDD,其每个分区的数据都是从父RDD相应分区中筛选出来的。因为每个父RDD分区只有一个子RDD分区依赖于它,所以filter操作符合窄依赖的特征。
而sort、join和group操作都涉及到对数据进行重新分区或重新排列,会导致每个父RDD分区对应多个子RDD分区的情况,因此它们不属于窄依赖。
所以,选项A. filter是窄依赖操作。
相关问题
Spak正式开源的时间
Apache Spark正式开源的时间是2010年。Spark最初由加州大学伯克利分校的AMPLab实验室开发,并于2010年6月1日在伯克利发布了首个开源版本。随后,Spark于2013年成为Apache软件基金会的顶级项目,并得到了广泛的社区支持和贡献。自此以后,Spark在大数据处理和分析领域取得了巨大的成功和影响力。
阅读全文