scala spark sql 抽取 ods 库中表 table9 最新分区的数据，并结合 HBase 中 table9_offline 表中的数据合并抽取到 dwd 库中 table9 的分区表，分区字段为 etl_date 且值与 ods 库的相对应表该值相等，并添加 dwd_insert_user 、 dwd_insert_time 、 dwd_modify_user 、 dwd_modify_time 四列，其中 dwd_insert_user、dwd_modify_user 均填写“user1”，dwd_insert_time、 dwd_modify_time 均填写当前操作时间（年月日必须是今天，时分秒只需在比赛时间范围内即可），抽取 HBase 中的数据时，只抽取 XXXX 年 XX 月 XX 日的数据（以 rowkey 为准），并进行数据类型转换。

时间: 2023-06-13 09:06:38 浏览: 95

以下是 Scala Spark SQL 的代码实现： ```scala import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import java.time.LocalDate import java.time.format.DateTimeFormatter object Table9Merge { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName("Table9Merge").getOrCreate() val odsTable = "ods.table9" val hbaseTable = "hbase.table9_offline" // 获取最新分区的数据 val latestPartition = spark.sql(s"SHOW PARTITIONS $odsTable").collect().last.getString(0) val odsDf = spark.table(odsTable).filter(col("etl_date") === latestPartition.split("=").last) // 获取需要抽取的日期 val extractDate = LocalDate.of(XXXX, XX, XX) // 从 HBase 中抽取数据 val hbaseDf = spark.read.format("org.apache.hadoop.hbase.spark") .option("hbase.table", hbaseTable) .option("hbase.mapreduce.inputtable", hbaseTable) .option("hbase.mapreduce.scan.row.start", extractDate.format(DateTimeFormatter.ofPattern("yyyyMMdd"))) .option("hbase.mapreduce.scan.row.stop", extractDate.plusDays(1).format(DateTimeFormatter.ofPattern("yyyyMMdd"))) .load() // 合并抽取到的数据 val dwdDf = odsDf.join(hbaseDf, Seq("id")).select( odsDf("id"), odsDf("name"), odsDf("age"), odsDf("etl_date"), hbaseDf("offline_date"), hbaseDf("offline_time") ) // 添加四列数据 val user = "user1" val now = LocalDate.now().atStartOfDay() val dwdDfWithColumns = dwdDf.withColumn("dwd_insert_user", lit(user)) .withColumn("dwd_insert_time", lit(now)) .withColumn("dwd_modify_user", lit(user)) .withColumn("dwd_modify_time", lit(now)) // 写入 DWD 库中的表 dwdDfWithColumns.write.partitionBy("etl_date").insertInto("dwd.table9") spark.stop() } } ``` 需要替换的地方： - 将 `ods.table9` 和 `hbase.table9_offline` 替换为实际的表名。 - 将 `XXXX`、`XX`、`XX` 替换为需要抽取的日期。

相关推荐

SparkStreaming_HBase:将从Kafka收集过来的数据保存到HBase中

基于Scala的spark_1大数据处理作业设计源码

Spark SQL常见4种数据源详解

编写scala代码抽取MySQL库中table的增量数据进入hive的ods库中表table

scala sparksql 抽取hive user表数据并结合hbase表user1合并并写入dwd层table1表

scalaspark 抽取原始数据集至大数据集群ODS层指定分区表中

使用Spark抽取MySQL指定数据表中的增量数据到ods层的指定的分区表中

如何编写 Scala 工程代码，将 MySQL 库中表 table1 的数据增量抽取到 Hive 的 ods 库中 对应表 table1 中

如何编写 Scala 工程代码，将 MySQL 库中表 table1 的数据增量抽取到 Hive 的 ods 库中 对应表 table1 中。...

如何编写 Scala 工程代码，将 MySQL 库中表 table1 的数据增量抽取到 Hive 的 ods 库中 对应表 table1 中。

编写scala 工程代码,将mysql的shtd_store 库中表orders、lineitem 增量抽取到hive

（3） 使用Scala编写程序读取Spark中的人事管理表的数据，并保存在本地

scala spark增量抽取mysql数据到hive

使用Scala编写程序读取Spark中的人事管理表的数据，并保存在本地

使用spark.sql分别读取hive中表的数据

scala如何将DataFrame的Spark sql表达式中的空值写入数据库表

spark——intellij idea中spark应用程序连接远程hadoop集群读写hive表数据(scala/python)

最新推荐

scala API 操作hbase表

六首页数字藏品NFT交易网React NextJS网站模板 六首页数字藏品nft交易网反应NextJS网站模板

zigbee-cluster-library-specification

管理建模和仿真的文件

实现实时数据湖架构：Kafka与Hive集成

2． 通过python绘制y=e-xsin(2πx)图像

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

实现实时监控告警系统：Kafka与Grafana整合

导入numpy库，创建两个包含9个随机数的3*3的矩阵，将两个矩阵分别打印出来，计算两个数组的点积并打印出来。（random.randn()、dot（）函数）

如何编写 Scala 工程代码，将 MySQL 库中表 table1 的数据增量抽取到 Hive 的 ods 库中对应表 table1 中

如何编写 Scala 工程代码，将 MySQL 库中表 table1 的数据增量抽取到 Hive 的 ods 库中对应表 table1 中。...

如何编写 Scala 工程代码，将 MySQL 库中表 table1 的数据增量抽取到 Hive 的 ods 库中对应表 table1 中。

（3）使用Scala编写程序读取Spark中的人事管理表的数据，并保存在本地

六首页数字藏品NFT交易网React NextJS网站模板六首页数字藏品nft交易网反应NextJS网站模板

2．通过python绘制y=e-xsin(2πx)图像