首页flink词频统计scala

flink词频统计scala

时间: 2023-07-08 10:55:54 浏览: 115

下面是使用 Flink 和 Scala 进行词频统计的示例代码： ```scala import org.apache.flink.api.scala._ import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment object WordCount { def main(args: Array[String]): Unit = { val env = StreamExecutionEnvironment.getExecutionEnvironment // 读取文本文件 val textStream = env.readTextFile("path/to/your/text/file") // 转换成单词流 val wordStream = textStream.flatMap(_.split("\\s+")) // 统计单词数量 val countStream = wordStream.map((_, 1)).keyBy(0).sum(1) // 打印结果 countStream.print() env.execute("WordCount") } } ``` 在上面的示例代码中，我们首先创建了一个 `StreamExecutionEnvironment` 对象，然后使用 `readTextFile` 方法从指定的文本文件中读取数据，接着使用 `flatMap` 方法将每行文本数据转换成单词流，再使用 `map` 方法将每个单词映射成一个 `(单词, 1)` 的键值对，最后使用 `keyBy` 方法将键值对按照键进行分组，再使用 `sum` 方法对值进行累加，得到每个单词的数量。最后，我们使用 `print` 方法将结果打印出来，并且调用 `env.execute` 方法启动任务的执行。

阅读全文