spark算子flatMap
时间: 2024-05-09 09:13:53 浏览: 145
25个经典Spark算子的JAVA实现
5星 · 资源好评率100%
Spark中的flatMap算子是一种数据转换算子,它可以将一个RDD中的每个元素转换为多个新元素,并将所有新元素合并到一个新的RDD中。在flatMap操作中,输入的RDD中的每个元素都会被传递到一个函数中,这个函数将返回一个序列(可以是空序列),这些序列中的所有元素都将被合并到一个新的RDD中。
下面是一个简单的例子,假设有一个存储了一组字符串的RDD,我们可以使用flatMap将每个字符串拆分为单词,并将所有单词合并到一个新的RDD中。
```python
lines = sc.parallelize(["hello world", "hi there"])
words = lines.flatMap(lambda line: line.split(" "))
```
在上述代码中,我们使用flatMap函数将输入的RDD(lines)中的每个元素(字符串)拆分成多个单词,并将所有单词合并到一个新的RDD(words)中。
阅读全文