首页21、在Spak的处理逻辑中，下面哪个操作是窄依赖? ( ) A filter B.sort C.join D. group

21、在Spak的处理逻辑中，下面哪个操作是窄依赖? ( ) A filter B.sort C.join D. group

时间: 2024-04-09 10:29:42 浏览: 96

A. filter 在Spark的处理逻辑中，窄依赖指的是每个父RDD分区只有一个子RDD分区依赖于它。根据这个定义，filter操作是窄依赖。 filter操作通过过滤出满足条件的元素，生成一个新的RDD，其每个分区的数据都是从父RDD相应分区中筛选出来的。因为每个父RDD分区只有一个子RDD分区依赖于它，所以filter操作符合窄依赖的特征。而sort、join和group操作都涉及到对数据进行重新分区或重新排列，会导致每个父RDD分区对应多个子RDD分区的情况，因此它们不属于窄依赖。所以，选项A. filter是窄依赖操作。

Spak正式开源的时间

Apache Spark正式开源的时间是2010年。Spark最初由加州大学伯克利分校的AMPLab实验室开发，并于2010年6月1日在伯克利发布了首个开源版本。随后，Spark于2013年成为Apache软件基金会的顶级项目，并得到了广泛的社区支持和贡献。自此以后，Spark在大数据处理和分析领域取得了巨大的成功和影响力。

阅读全文