首页使用scala写两个方法，用于读取hdfs上某个目录下的parqute文件，目录格式为hdfs://ns-hf/project/rdg_cbm_kg/rdg_cbm_kg/newbing-common-crawl/当前日期/当前小时/

使用scala写两个方法，用于读取hdfs上某个目录下的parqute文件，目录格式为hdfs://ns-hf/project/rdg_cbm_kg/rdg_cbm_kg/newbing-common-crawl/当前日期/当前小时/

时间: 2023-07-05 21:27:15 浏览: 74

好的，下面是使用 Scala 读取 HDFS 上 Parquet 文件的两个方法： 1. 读取单个 Parquet 文件 ```scala import org.apache.spark.sql.{DataFrame, SparkSession} // 传入文件路径，返回 DataFrame def readParquetFile(filePath: String)(implicit spark: SparkSession): DataFrame = { spark.read.parquet(filePath) } ``` 使用示例： ```scala implicit val spark: SparkSession = SparkSession.builder() .appName("Read Parquet File") .master("local[*]") // 这里使用 local 模式，实际使用时需要修改 .getOrCreate() val filePath = "hdfs://ns-hf/project/rdg_cbm_kg/rdg_cbm_kg/newbing-common-crawl/2022-02-22/12/*.parquet" val df = readParquetFile(filePath) df.show() ``` 其中，`filePath` 是 Parquet 文件的路径，可以使用通配符 `*` 匹配多个文件。 2. 读取目录下所有 Parquet 文件 ```scala // 传入目录路径，返回 DataFrame def readParquetFiles(dirPath: String)(implicit spark: SparkSession): DataFrame = { spark.read.parquet(dirPath) } ``` 使用示例： ```scala implicit val spark: SparkSession = SparkSession.builder() .appName("Read Parquet Files") .master("local[*]") // 这里使用 local 模式，实际使用时需要修改 .getOrCreate() val dirPath = "hdfs://ns-hf/project/rdg_cbm_kg/rdg_cbm_kg/newbing-common-crawl/2022-02-22/12/" val df = readParquetFiles(dirPath) df.show() ``` 其中，`dirPath` 是目录的路径，该方法会自动读取该目录下的所有 Parquet 文件。

最新推荐

使用scala写两个方法，用于读取hdfs上某个目录下的parqute文件，目录格式为hdfs://ns-hf/project/rdg_cbm_kg/rdg_cbm_kg/newbing-common-crawl/当前日期/当前小时/

相关推荐

spark-scala-hdfs-docker-example：使用Scala的Spark将文件写入HDFS，并使用Docker“ scale”自动添加新的Spark工人

Flink 读取 HDFS数据 （scala源码）

基于scala语言的spark操作，包含连接操作mysql，连接hdfs+源代码+文档说明

scala读取hdfs多个目录的文件信息

spark读取hdfs上的多目录parquet文件

在Ubuntu上安装scala时，报错/usr/bin/env：bash：没有那个文件和目录 该怎么解决

使用scala写一个随机生成日期的方法，格式为（yyyy-mm-dd）

使用scala写一个随机生成一个月内日期的方法，格式为（yyyy-mm-dd）

hadoop@lbw:/usr/local/spark/mycode/remdup$ /usr/local/sbt/sbt package -bash: /usr/local/sbt/sbt: 是一个目录

export SCALA_HOME=/usr/local/scala: 没有那个文件或目录

Exception in thread main" java. io. FileNotFoundException: / tmp/ hadoop- unj ar563676407029357009/ scala/LowP riorityImplicits. class ( ( 设备上没有空间)

将数据用逗号分割 mkString，RDD 重新分区为 1 个分区，保存到 HDFS 的 /foodsparktask1

http://jcenter.bintray.com/com/netflix/netflix-commons/netflix-statistics/0.1.1/netflix-statistics-0.1.1.pom

spark读取hbase使用TableInputFormat的方式 读取列为info:date 值为2023/07/01 的数据

/usr/local/sbt/sbt: 没有那个文件或目录

https://plugins.gradle.org/ java-platform

使用scala写一个随机生成一个星期内日期（yyyy-mm-dd）的方法

最新推荐

scala 读取txt文件的方法示例

使用Scala生成随机数的方法示例

Scala 操作Redis使用连接池工具类RedisUtil

浅谈Scala的Class、Object和Apply()方法

RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz

管理建模和仿真的文件

：YOLOv1目标检测算法：实时目标检测的先驱，开启计算机视觉新篇章

info-center source defatult

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf

"互动学习：行动中的多样性与论文攻读经历"

Flink 读取 HDFS数据（scala源码）

在Ubuntu上安装scala时，报错/usr/bin/env：bash：没有那个文件和目录该怎么解决

spark读取hbase使用TableInputFormat的方式读取列为info:date 值为2023/07/01 的数据