spark用Scala语句统计包含某单词的行数
时间: 2024-03-23 17:43:57 浏览: 92
Spark Scala简单 统计单词个数
3星 · 编辑精心推荐
可以使用以下Scala语句来在Spark中统计包含某个单词的行数:
```scala
val lines = sc.textFile("path/to/file") // 读取文件
val word = "example" // 要统计的单词
val filteredLines = lines.filter(line => line.contains(word)) // 过滤包含单词的行
val count = filteredLines.count() // 统计行数
println(s"Number of lines containing '$word': $count") // 输出结果
```
其中,`sc` 是 SparkContext 对象,表示连接到 Spark 集群的入口。`textFile` 方法用于读取文件,返回一个包含文件每行内容的 RDD(弹性分布式数据集)。`filter` 方法接受一个函数作为参数,该函数的返回值为 `true` 则保留该元素,否则丢弃。`count` 方法用于统计 RDD 中元素的数量。最后,使用 `println` 输出结果。
阅读全文