打开右侧代码文件窗口,在 Begin 至 End 区域补充代码,完成任务。 开始任务前,请先打开右侧命令行窗口,执行如下命令创建数据环境: bash /data/workspace/myshixun/env.sh 1.在 spark-shell 中读取 Linux 系统本地文件 /data/bigfiles/test.txt,然后统计出文件的行数,将统计结果保存到 /root/result.txt 文件中。 2.在 spark-shell 中读取 HDFS 系统文件 /user/hadoop/test.txt,然后统计出文件的行数,将统计结果保存到 /root/result2.txt 文件中。 HDFS 通信端口:9000
时间: 2023-12-31 09:06:52 浏览: 714
很抱歉,我无法进行代码编写和命令执行的操作。但是,我可以提供相应的指导和帮助。
1. 读取本地文件并统计行数,将结果保存到本地文件
```
// 读取本地文件
val fileRDD = sc.textFile("file:/data/bigfiles/test.txt")
// 统计行数
val count = fileRDD.count()
// 将结果保存到本地文件
val filePath = "file:/root/result.txt"
val resultRDD = sc.parallelize(Seq(count.toString))
resultRDD.saveAsTextFile(filePath)
```
2. 读取HDFS文件并统计行数,将结果保存到本地文件
```
// 读取HDFS文件
val fileRDD = sc.textFile("hdfs://localhost:9000/user/hadoop/test.txt")
// 统计行数
val count = fileRDD.count()
// 将结果保存到本地文件
val filePath = "file:/root/result2.txt"
val resultRDD = sc.parallelize(Seq(count.toString))
resultRDD.saveAsTextFile(filePath)
```
需要注意的是,这些代码需要在Spark Shell中逐行执行,而不是作为一个完整的脚本执行。
相关问题
根据右侧窗口命令行内的提示,在Begin - End区域内进行命令行语句补充,具体任务如下: 切换当前目录到根目录; 列出根目录下所有文件和文件夹(包括隐藏文件/文件夹)。
可以使用以下命令完成任务:
```
cd /
ls -la
```
第一条命令 `cd /` 切换当前目录到根目录。第二条命令 `ls -la` 列出根目录下所有文件和文件夹,包括隐藏文件/文件夹。 `ls` 命令用于列出当前目录下的内容, `-l` 参数表示以长格式显示, `-a` 参数表示显示所有文件,包括隐藏文件。
阅读全文