RDD过滤掉空行
时间: 2023-09-14 20:09:14 浏览: 47
可以使用RDD的filter函数过滤掉空行。
假设你的RDD名字是rdd,代码如下:
```
rdd.filter(lambda x: x != '')
```
这个lambda表达式的意思是,只要RDD中的元素不是空字符串,就保留下来。这样就可以过滤掉空行了。
相关问题
RDD的过滤语句
RDD的过滤语句可以使用`filter()`函数实现,该函数可以接受一个函数参数,用于对RDD中的每个元素进行过滤。
例如,假设有一个包含数字的RDD,我们想要过滤出大于10的数字,可以使用以下代码:
```
rdd = sc.parallelize([1, 5, 12, 8, 20, 15])
filtered_rdd = rdd.filter(lambda x: x > 10)
```
其中,`lambda x: x > 10`表示一个匿名函数,接受一个参数x,返回x是否大于10的布尔值。`filter()`函数将该函数应用到RDD中的每个元素,只保留返回值为True的元素,最终返回一个新的RDD。在上述例子中,`filtered_rdd`将包含数字12、20和15。
RDD filter
RDD filter是一种转换操作算子,可以过滤掉RDD中的一部分元素,达到数据清洗的效果。在filter中,我们可以传入一个函数作为参数,该函数的参数是RDD中的每一个元素,如果该函数返回true,则该元素会被加入到新的RDD中,否则就会被过滤掉。下面是一个使用filter清洗数据的例子:
```
val source = sc.parallelize(Seq(1,2,3,4,5,6,7,8,9,10))
source.filter(item => item % 2 != 0)
.collect()
.foreach(item => println(item))
```
上述代码中,我们创建了一个数据集source,然后使用filter算子过滤掉其中的偶数,最后输出剩余的奇数。