spark读取hdfs上的多目录parquet文件
时间: 2023-04-23 18:07:06 浏览: 220
Hadoop&spark-性能调优
要使用Spark读取HDFS上的多目录Parquet文件,可以按照以下步骤操作:
1. 创建SparkSession对象
```scala
val spark = SparkSession.builder()
.appName("Read Parquet Files from HDFS")
.master("local[*]")
.getOrCreate()
```
2. 读取Parquet文件
```scala
val df = spark.read.parquet("hdfs://<namenode>:<port>/<path1>,hdfs://<namenode>:<port>/<path2>,...")
```
其中,`<namenode>`是HDFS的NameNode节点地址,`<port>`是HDFS的端口号,`<path1>,<path2>,...`是多个Parquet文件所在的目录路径,用逗号分隔。
3. 显示数据
```scala
df.show()
```
以上就是使用Spark读取HDFS上的多目录Parquet文件的步骤。
阅读全文