java spark 读取hdfs文件
时间: 2023-07-05 15:18:09 浏览: 234
java 中Spark中将对象序列化存储到hdfs
你可以使用 Java Spark 的 API 来读取 HDFS 文件,具体步骤如下:
1. 创建 SparkConf 和 SparkContext 对象
```
SparkConf conf = new SparkConf().setAppName("ReadHDFSFile");
JavaSparkContext sc = new JavaSparkContext(conf);
```
2. 使用 SparkContext 对象的 `textFile` 方法读取 HDFS 文件,该方法返回一个 RDD 对象
```
JavaRDD<String> fileRDD = sc.textFile("hdfs://<HDFS_IP>:<HDFS_PORT>/<FILE_PATH>");
```
3. 对 RDD 进行操作,比如打印文件内容
```
fileRDD.foreach(line -> System.out.println(line));
```
4. 关闭 SparkContext 对象
```
sc.close();
```
其中,`<HDFS_IP>` 和 `<HDFS_PORT>` 分别是 HDFS 的 IP 地址和端口号,`<FILE_PATH>` 是要读取的文件在 HDFS 中的路径。你需要根据实际情况进行替换。
阅读全文