import org.apache.spark._ import org.apache.spark.streaming._ import org.apache.spark.{SparkConf, SparkContext} object WordCountStreaming { def main(args: Array[String]) { val ssc = new StreamingContext(sc, Seconds(10))// 时间间隔为10秒 val lines = ssc.textFileStream("file:///export/server/test") //这里采用本地文件,当然你也可以采用HDFS文件 val words = lines.flatMap(_.split(" ")) val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _) wordCounts.print() ssc.start() ssc.awaitTermination() } }
时间: 2023-06-27 13:08:22 浏览: 191
Hadoop 和 Spark 流行的大数据处理框架.docx
这是一个使用 Spark Streaming 实现的 WordCount 程序,可以实时地对文件夹中的文本文件进行处理。程序的主要流程如下:
1. 创建一个 StreamingContext 对象,并设置时间间隔为 10 秒。
2. 从指定文件夹中读取文本文件,每一行作为一个 RDD。
3. 对每一行进行切分,得到单词,并转换为 (word, 1) 的形式。
4. 对所有相同单词的 (word, 1) 对进行聚合操作,得到每个单词出现的次数。
5. 打印每个单词及其出现次数。
6. 启动 StreamingContext,并等待程序结束。
需要注意的是,这个程序并没有使用实际的 SparkContext 对象,而是直接使用了 sc 变量。如果你想在本地运行程序,需要先创建一个 SparkConf 对象,并指定本地模式运行。例如:
```
val conf = new SparkConf().setAppName("WordCountStreaming").setMaster("local[2]")
val sc = new SparkContext(conf)
val ssc = new StreamingContext(sc, Seconds(10))
...
```
这里的 `local[2]` 表示使用本地模式,使用两个 CPU 核心运行程序。
阅读全文