假设用户hadoop在当前的Linux操作系统中已成功安装Spark和Hadoop,完成了Hadoop的伪分布式模式配 置以及Spark在Local部署模式下的配置。HDFS已在伪分布式模式下启动;并且当前已成功进入spark Shell交 互式环境。假设HDFS的/user/hadoop/input/目录事先巴存在日该目录下存有3个英文内容的文本文件。 下面请根据编程要求写出相应的多条scala代码语句。 通过加载HDFS的/user/hadoop/input/目录下的文件内容,形成一个文本RDD。然后,针对该文本RDD,分 别统计出包含单词“they” 和单词“we〞 的行数,并将统计结果品示出来。
时间: 2024-03-23 14:41:48 浏览: 111
Hadoop3.1.3安装和单机/伪分布式配置
以下是多条 Scala 代码语句,用于加载 HDFS 中的文件内容,形成一个文本 RDD,并分别统计包含单词“they”和“we”的行数:
```scala
// 加载 HDFS 的 /user/hadoop/input/ 目录下的文件内容,形成一个文本 RDD
val textRDD = sc.textFile("hdfs://localhost:9000/user/hadoop/input/")
// 统计包含单词 "they" 的行数
val theyCount = textRDD.filter(line => line.contains("they")).count()
// 统计包含单词 "we" 的行数
val weCount = textRDD.filter(line => line.contains("we")).count()
// 输出统计结果
println(s"Lines containing 'they': $theyCount")
println(s"Lines containing 'we': $weCount")
```
需要注意的是,这些代码需要在 Spark Shell 中运行。如果您希望在 Scala 代码文件中运行这些代码,需要将它们放入一个 main 函数中,并添加 Spark 相关的配置和依赖。
阅读全文