简答题(共2题,20.0分) 32.(10.0分)假设用户hadoop在当前的Linux操 作系统中已成功安装Spark和Hadoop , 完成了 Hadoop的伪分布式模式配置以及Spark在 Local部 署模式下的配置。HDFS已在伪分布式模式下启 动;并且当前已成功进入Spark Shell交互式环 境。另假设HDFS的/user/hadoop/input, /目录事 先已存在且该目录下存有3个英文内容的文本文 件。 下面请根据编程要求写出相应的多条Scala代码语 句。 通过加载HDFS的/user/hadoop/input/目录下的 文件内容,形成一个文本RDD。然后,针对该文 本RDD,分别统计出包含英文缩略语“IT”和 “WWW”的行数,并将统计结果显示出来。
时间: 2024-03-24 12:37:13 浏览: 56
```scala
// 加载HDFS的/user/hadoop/input/目录下的文件内容,形成一个文本RDD
val textRDD = sc.textFile("hdfs://localhost:9000/user/hadoop/input/")
// 统计包含英文缩略语“IT”的行数
val itCount = textRDD.filter(line => line.contains("IT")).count()
// 统计包含英文缩略语“WWW”的行数
val wwwCount = textRDD.filter(line => line.contains("WWW")).count()
// 将统计结果显示出来
println("包含IT的行数:" + itCount)
println("包含WWW的行数:" + wwwCount)
```
阅读全文