展示一段spark代码
时间: 2023-06-01 08:03:42 浏览: 82
spark任务基于业务场景的资源分配、代码优化总结+源代码+文档说明
以下是一个简单的Spark代码示例,用于计算文本文件中单词的出现频率:
```scala
import org.apache.spark.{SparkConf, SparkContext}
object WordCount {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("Word Count")
val sc = new SparkContext(conf)
val input = sc.textFile(args(0))
val words = input.flatMap(line => line.split(" "))
val counts = words.map(word => (word, 1)).reduceByKey(_ + _)
counts.saveAsTextFile(args(1))
}
}
```
这个代码使用Spark的RDD(弹性分布式数据集)来处理数据。首先从文件中读取输入数据,然后将每行拆分成单词,并使用`flatMap`函数将单词扁平化为一个RDD。接下来,使用`map`函数将每个单词映射到一个键值对`(word, 1)`,然后使用`reduceByKey`函数将具有相同键的值相加,从而计算每个单词的出现次数。最后,将结果保存到输出文件中。
阅读全文