使用maven对hudi进行构建（spark3.1，scala-2.12），编译完成后与spark集成，集成后使用spark-shell操作hudi，将spark-shell启动使用spark-shell运行

以下是使用maven对hudi进行构建并与spark集成的步骤： 1. 下载hudi源码可以从hudi的官方github仓库中下载源码，链接为：https://github.com/apache/hudi 2. 构建hudi 进入hudi源码目录，使用以下命令进行构建： ``` mvn clean package -DskipTests -Dspark.version=3.1.1 -Dscala-2.12 ``` 其中，-DskipTests表示跳过测试，-Dspark.version指定spark版本，-Dscala-2.12指定scala版本。构建完成后，会在hudi的target目录下生成hudi-xxx.jar包。 3. 将hudi与spark集成将hudi-xxx.jar包加入到spark的classpath中，可以通过以下命令进行添加： ``` export SPARK_DIST_CLASSPATH=$(hadoop classpath):/path/to/hudi-xxx.jar ``` 其中，/path/to/hudi-xxx.jar需要替换为hudi-xxx.jar包的实际路径。 4. 使用spark-shell操作hudi 启动spark-shell，运行以下命令，可以创建一个hudi表： ``` import org.apache.spark.sql.SaveMode import org.apache.hudi.QuickstartUtils._ val tableName = "hudi_test" val basePath = "/tmp/hudi_test" val dataGen = new DataGenerator val inserts = dataGen.generateInserts(10) val df = spark.read.json(spark.sparkContext.parallelize(inserts, 2)) df.write.format("org.apache.hudi"). options(getQuickstartWriteConfigs). option(PRECOMBINE_FIELD_OPT_KEY, "ts"). option(RECORDKEY_FIELD_OPT_KEY, "uuid"). option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath"). option(TABLE_NAME, tableName). mode(SaveMode.Append). save(basePath) ``` 运行以上命令后，会在/tmp/hudi_test目录下创建一个hudi表hudi_test。接下来，可以使用spark-shell的API对hudi表进行操作，例如： ``` import org.apache.spark.sql.functions._ val df = spark.read.format("org.apache.hudi"). load("/tmp/hudi_test/*/*/*/*") df.show() ``` 以上命令会读取hudi_test表的数据，并展示结果。至此，使用maven对hudi进行构建并与spark集成的步骤结束，可以使用spark-shell对hudi进行操作了。

使用maven对hudi进行构建（spark3.1，scala-2.12），编译完成后与spark集成，集成后使用spark-shell操作hudi，将spark-shell启动使用spark-shell运行

相关推荐

Spark-Scala-Maven-示例：Spark，Scala项目的示例Maven配置

scala-maven-plugin:scala-maven-plugin（以前是maven-scala-plugin）用于在maven中编译testingrunningdocumenting scala代码

maven-scala-plugin-2.12.jar

spark大数据分析与实战：idea使用maven构建spark项目

Cannot resolve org.apache.spark:spark-core_2.12.11:3.0.0

maven 构建编译失败：Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:

spark2.4.0 scala2.11.12 maven构建 pom.xml

hudi使用maven构建

Cannot resolve plugin org.apache.maven.plugins:maven-compiler-plugin:3.1

hudi-0.14.0 编译

如何添加 org.apache.maven.plugins:maven-compiler-plugin:3.1

spark-nlp_如何在2周内开始使用spark nlp-第一部分

搭建maven+spark+scala项目

Cannot resolve org.apache.maven.plugins:maven-compiler-plugin:3.1

scala和maven-scala-plugin对应的版本

cannot resolve plugin org.apache.maven.plugins:maven-compiler-plugin:3.1

maven构建hudi

hudi与maven的编译配置

maven编译时如何不使用--release

最新推荐

解决idea使用maven编译正常但是运行项目时却提示很多jar包找不到的问题

SpringBoot使用Maven打包异常-引入外部jar的问题及解决方案

windows10下spark2.3.0本地开发环境搭建-亲测

详解SpringBoot获得Maven-pom中版本号和编译时间戳

解决java maven项目找不到jconsole-1.8.0.jar和tools-1.8.0.jar包问题

RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz

管理建模和仿真的文件

：YOLOv1目标检测算法：实时目标检测的先驱，开启计算机视觉新篇章

info-center source defatult

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf