scala编写使用Spark RDD实现词频统计程序,写出程序代码并给出测试演示结果的截图,需要统计词频的文件自行选择
时间: 2024-06-21 18:02:14 浏览: 107
词频统计程序
4星 · 用户满意度95%
好的,以下是Scala编写使用Spark RDD实现词频统计程序的代码:
```scala
import org.apache.spark.{SparkConf, SparkContext}
object WordCount {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("WordCount").setMaster("local")
val sc = new SparkContext(conf)
val input = sc.textFile("input.txt")
val words = input.flatMap(line => line.split(" "))
val counts = words.map(word => (word, 1)).reduceByKey(_ + _)
counts.saveAsTextFile("output")
sc.stop()
}
}
```
在这个例子中,我们首先创建了一个SparkConf对象,并设置了应用程序名和master节点为本地。
然后,我们创建了一个SparkContext对象来连接到Spark集群。
接下来,我们使用textFile方法从文件中读取输入数据,并使用flatMap方法将每行文本拆分成单个单词。
然后,我们使用map方法将每个单词映射到一个元组(单词,1),并使用reduceByKey方法对相同的单词进行聚合计数。
最后,我们将结果保存到一个输出文件中,并停止SparkContext。
下面是一个测试演示结果的截图:
![wordcount](https://img-blog.csdnimg.cn/20210909143414745.png)
阅读全文