用spark RDD 编程实现,实现单词统计
时间: 2023-11-14 08:13:28 浏览: 110
好的,关于单词统计,可以使用Spark RDD编程来实现。以下是一个简单的代码示例:
```
import org.apache.spark._
import org.apache.spark.SparkContext._
import org.apache.log4j._
object WordCount {
def main(args: Array[String]) {
// 设置日志级别
Logger.getLogger("org").setLevel(Level.ERROR)
// 创建SparkContext
val sc = new SparkContext("local[*]", "WordCount")
// 读取文本文件并切分单词
val input = sc.textFile("input.txt")
val words = input.flatMap(x => x.split(" "))
// 将单词计数为1
val pairs = words.map(x => (x, 1))
// 对单词计数进行求和
val wordCounts = pairs.reduceByKey((x, y) => x + y)
// 打印结果
wordCounts.foreach(println)
}
}
```
以上代码实现了从文本文件中读取数据并进行单词统计,最终输出每个单词出现的次数。其中,flatMap()函数用于将每行文本切分为单词,map()函数将每个单词计数为1,reduceByKey()函数对相同单词的计数进行求和。
阅读全文