(2)在spark-shell中读取HDFS系统文件“/user/hadoop/20230516.txt”(如果该文件不存在,请先创建),然后,统计出文件的行数;
时间: 2024-05-16 12:16:38 浏览: 138
统计文件行数
首先需要在HDFS上创建一个文件,可以使用以下命令:
```
hdfs dfs -mkdir /user/hadoop/
hdfs dfs -put local_file_path /user/hadoop/20230516.txt
```
其中,`local_file_path`是本地文件路径。
然后,在`spark-shell`中,可以使用以下命令读取文件并统计行数:
```
val fileRDD = sc.textFile("/user/hadoop/20230516.txt")
val count = fileRDD.count()
println("文件行数:" + count)
```
其中,`sc`是SparkContext对象,如果没有创建可以使用以下命令:
```
val conf = new SparkConf().setAppName("WordCount").setMaster("local")
val sc = new SparkContext(conf)
```
这里假设使用本地模式,如果要在集群上运行,需要将`setMaster`参数设置为对应的值。
阅读全文