scala spark 抽取 db 库中 table4 的增量数据进入 Hive 的 ods 库中表 table4，增量字段取 ods.table4 表中 time1、time2 中的最大者，只将新增的数据抽入，字段名称、类型不变，同时添加静态分区，分区字段为 etl_date，类型为 String，且值为当前比赛日的前一天日期（分区字段格式为 yyyyMMdd）详细代码以及两种方法

方法一： ```scala import org.apache.spark.sql.functions._ import java.text.SimpleDateFormat import java.util.Calendar val dbUrl = "jdbc:mysql://localhost:3306/db" val dbUser = "user" val dbPwd = "password" val hiveDb = "ods" // 获取当前比赛日的前一天日期 val date = Calendar.getInstance() date.add(Calendar.DATE, -1) val etlDate = new SimpleDateFormat("yyyyMMdd").format(date.getTime()) // 初始化 SparkSession val spark = SparkSession.builder() .appName("db to hive") .enableHiveSupport() .getOrCreate() // 读取 db 库中 table4 表的最大时间戳 val maxTimeDF = spark.read.format("jdbc") .option("url", dbUrl) .option("dbtable", "table4") .option("user", dbUser) .option("password", dbPwd) .load() .agg(max(col("time1")).as("max_time")) // 如果表中没有数据，则将最大时间戳设置为 0 val maxTime = maxTimeDF.head().getAs[java.sql.Timestamp]("max_time") val maxTimeStr = if (maxTime != null) maxTime.toString() else "0" // 从 db 库中读取增量数据 val df = spark.read.format("jdbc") .option("url", dbUrl) .option("dbtable", s"(SELECT * FROM table4 WHERE time1 > '$maxTimeStr') as table4") .option("user", dbUser) .option("password", dbPwd) .load() // 添加静态分区 val resultDF = df.withColumn("etl_date", lit(etlDate)) // 将数据写入 Hive 的 ods 库中的 table4 表中 resultDF.write.mode("append").partitionBy("etl_date") .format("hive") .saveAsTable(s"$hiveDb.table4") ``` 方法二： ```scala import org.apache.spark.sql.functions._ import java.text.SimpleDateFormat import java.util.Calendar val dbUrl = "jdbc:mysql://localhost:3306/db" val dbUser = "user" val dbPwd = "password" val hiveDb = "ods" // 获取当前比赛日的前一天日期 val date = Calendar.getInstance() date.add(Calendar.DATE, -1) val etlDate = new SimpleDateFormat("yyyyMMdd").format(date.getTime()) // 初始化 SparkSession val spark = SparkSession.builder() .appName("db to hive") .enableHiveSupport() .getOrCreate() // 读取 Hive 的 ods 库中的 table4 表中时间戳最大的记录 val maxTimeDF = spark.sql(s"SELECT MAX(time1) as max_time FROM $hiveDb.table4") val maxTime = maxTimeDF.head().getAs[java.sql.Timestamp]("max_time") // 如果表中没有数据，则将最大时间戳设置为 0 val maxTimeStr = if (maxTime != null) maxTime.toString() else "0" // 从 db 库中读取增量数据 val df = spark.read.format("jdbc") .option("url", dbUrl) .option("dbtable", s"(SELECT * FROM table4 WHERE time1 > '$maxTimeStr') as table4") .option("user", dbUser) .option("password", dbPwd) .load() // 添加静态分区 val resultDF = df.withColumn("etl_date", lit(etlDate)) // 将数据写入 Hive 的 ods 库中的 table4 表中 resultDF.write.mode("append").partitionBy("etl_date") .format("hive") .saveAsTable(s"$hiveDb.table4") ``` 两种方法的区别在于，方法一通过读取 db 库中的表获取最大时间戳，而方法二通过读取 Hive 的表获取最大时间戳。方法一可能会比方法二更快，因为读取 db 库中的表比读取 Hive 的表更快，但是方法一需要在 Spark 中进行一次聚合操作，而方法二不需要。

阅读全文

相关推荐

全国职业技能大赛大数据赛项十套赛题（shtd）

spark考试练习题含答案.rar

大数据 大数据技能大赛 离线数据处理

编写scala代码抽取MySQL库中table的增量数据进入hive的ods库中表table

如何编写 Scala 工程代码，将 MySQL 库中表 table1 的数据增量抽取到 Hive 的 ods 库中 对应表 table1 中。...

如何编写 Scala 工程代码，将 MySQL 库中表 table1 的数据增量抽取到 Hive 的 ods 库中 对应表 table1 中

如何编写 Scala 工程代码，将 MySQL 库中表 table1 的数据增量抽取到 Hive 的 ods 库中 对应表 table1 中。

scalaspark 抽取原始数据集至大数据集群ODS层指定分区表中

使用Spark抽取MySQL指定数据表中的增量数据到ods层的指定的分区表中

使用Scala编写spark工程代码，将MySQL的shtd_store库中表user_info、sku_info、base_province、base_region、order_info、order_detail的数据增量抽取到Hive的ods库中对应表user_info、sku_info、base_province、base_region、order_info、order_detail中。

医疗影像革命-YOLOv11实现病灶实时定位与三维重建技术解析.pdf

智慧物流实战-YOLOv11货架商品识别与库存自动化盘点技术.pdf

大家在看

SM621G1 BA 手册

SCSI-ATA-Translation-3_(SAT-3)-Rev-01a

小华HC32L19X SPI 驱片外FLASH 例程

景象匹配精确制导中匹配概率的一种估计方法

STK Scheduler使用向导

最新推荐

医疗影像革命-YOLOv11实现病灶实时定位与三维重建技术解析.pdf

智慧物流实战-YOLOv11货架商品识别与库存自动化盘点技术.pdf

自动驾驶核心-YOLOv11多传感器融合障碍物检测模型架构揭秘.pdf

基于多松弛（MRT）模型的格子玻尔兹曼方法（LBM）Matlab代码实现：模拟压力驱动流场与优化算法研究,使用多松弛（MRT）模型与格子玻尔兹曼方法（LBM）模拟压力驱动流的Matlab代码实现,使用

Matlab Simulink下的光伏、燃料电池与蓄电池单相并网控制策略：MPPT控制光伏，DC-DC变换与过充过放保护机制研究,光伏+燃料电池结合蓄电池单相并网仿真：MPPT控制及智能充电管理,ma

Spring Websocket快速实现与SSMTest实战应用

电力电子技术的智能化：数据中心的智能电源管理

通过spark sql读取关系型数据库mysql中的数据

新版微软inspect工具下载：32位与64位版本

如何运用电力电子技术实现IT设备的能耗监控

大数据大数据技能大赛离线数据处理

如何编写 Scala 工程代码，将 MySQL 库中表 table1 的数据增量抽取到 Hive 的 ods 库中对应表 table1 中。...

如何编写 Scala 工程代码，将 MySQL 库中表 table1 的数据增量抽取到 Hive 的 ods 库中对应表 table1 中

如何编写 Scala 工程代码，将 MySQL 库中表 table1 的数据增量抽取到 Hive 的 ods 库中对应表 table1 中。