hadoop生成测试文件保存在hdfs
时间: 2023-08-11 21:17:19 浏览: 242
SpringBoot整合Hadoop的案例代码demo,含HDFS文件操作、MapReduce分词操作、案例数据分析,系统推荐等
5星 · 资源好评率100%
要在Hadoop集群中生成测试文件并保存到HDFS中,可以使用以下命令:
```
hadoop jar /path/to/hadoop-mapreduce-examples.jar teragen <num of rows> <output path>
```
其中,`<num of rows>`是要生成的行数,`<output path>`是文件保存的HDFS路径。
例如,要生成100万行数据并保存到HDFS的`/user/hadoop/testdata`目录下,可以执行以下命令:
```
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar teragen 10000000 /user/hadoop/testdata
```
执行完毕后,可以通过以下命令查看生成的文件:
```
hadoop fs -ls /user/hadoop/testdata
```
可以看到,生成了3个文件,每个文件大小为128MB,总大小为384MB:
```
-rw-r--r-- 1 hadoop supergroup 0 2021-09-03 11:38 /user/hadoop/testdata/_SUCCESS
-rw-r--r-- 1 hadoop supergroup 134217728 2021-09-03 11:38 /user/hadoop/testdata/part-m-00000
-rw-r--r-- 1 hadoop supergroup 134217728 2021-09-03 11:38 /user/hadoop/testdata/part-m-00001
-rw-r--r-- 1 hadoop supergroup 115343360 2021-09-03 11:38 /user/hadoop/testdata/part-m-00002
```
阅读全文