大数据技能大赛：离线数据处理与清洗实战

需积分: 0 16 浏览量更新于2024-06-16 2 收藏 60KB DOCX 举报

在这个大数据技能大赛的任务中，参赛者被要求使用Scala编程语言和Apache Spark框架来处理离线数据。具体任务围绕着ods库中的数据抽取和清洗展开，目标是将ods库中的customer_inf表数据清洗并迁移至Hive的dwd库中。数据清洗是数据分析的关键步骤，它涉及检查数据的准确性、完整性和一致性。参赛者需要编写代码，确保时间戳字段（timestamp类型）按照指定格式（yyyy-MM-ddHH:mm:ss）处理，如果没有提供毫秒数，则需要填充为00:00:00。如果dwd库中的某些表之前没有数据，只需正常抽取即可。挑战的核心在于合并ods.customer_inf表中前一天的分区数据与dwd.customer_inf表的最新分区数据。合并过程基于customer_id字段，通过查找dwd.customer_inf表中最新修改时间（modified_time）的记录进行更新。如果数据首次进入dwd层，dwd_insert_time和dwd_modify_time会记录当前操作时间，并进行数据类型转换。对于已经存在的数据，如果进行了合并修改，dwd_insert_time保持不变，而dwd_modify_time更新为当前时间，其他字段保留最新的值。在实现过程中，参赛者需要利用Hive的命令行工具（hivecli）来验证分区表dwd.dim_user_info的正确性，通过执行`showpartitions dwd.dim_user_info`命令来确认数据的正确加载和分区。实验表的介绍强调了这个任务的实践性，参赛者需要对Spark的SQL操作、Hive的数据模型以及数据清洗策略有深入理解，同时具备良好的编程习惯和数据处理能力，以便准确、高效地完成任务。这个比赛题目要求参赛者掌握如何运用大数据技术（如Spark和Hive）进行数据抽取、清洗，以及如何进行数据的合并和维护，这是一次对数据处理能力和编程技能的综合考验。

.config("spark.sql.sources.partitionOverwriteMode", "dynamic") //分区重写

.getOrCreate()

spark.read

.format("jdbc")

.option("driver", "com.mysql.cj.jdbc.Driver")

.option("url", "jdbc:mysql://master:3306/ds_db01?serverTimezone=GMT")

.option("user", "root")

.option("password", "123456")

.option("dbtable", "customer_inf")

.load()

.createTempView("data")

// spark.sql("select * from data").show()

println("---------------连接 hive mysql 数据库--------------------")

//全量抽取，抽取昨天以前数据

spark.sql(

"""

|insert overwrite table ods.customer_inf partition (etl_date='2022-08-01')

|select *

|from data where modified_time<to_timestamp('2023-1-1');

|""".stripMargin)

println("------------抽取数据（全量、增量）显示---------------------------------")

spark.sql("select * from ods.customer_inf").show()

// 增量抽取抽取昨天数据

spark.sql(

"""

|insert into table ods.customer_inf partition (etl_date='2023-08-01')

|select *

|from data where modified_time>to_timestamp('2023-1-1');

|""".stripMargin)

spark.sql("select * from ods.customer_inf").show()

spark.stop()

}}

查看抽取结果

hive>select customer_id,customer_name,etl_date from ods.customer_inf

hive>show partitions ods.customer1_inf

二、清洗

清洗要做的工作

（1）将 ods 库全部数据抽取到 hive 的 dwd 库中

剩余17页未读，继续阅读

taoyundao_1

粉丝: 140
资源: 2

大数据技能大赛：离线数据处理与清洗实战

2022年全国职业院校技能大赛高职组"大数据技术与应用"模块B离线数据处理、模块C数据挖掘、模块D数据采集与实时计算代码答案

离线数据处理 任务一：数据抽取

2019年江苏省高等职业院校技能大赛大数据技术与应用赛项竞赛规程.pdf

Spark项目之电商用户行为分析大数据平台之（四）离线数据采集

高职院校 大数据应用开发 技能大赛 可视化

大数据省赛离线数据处理基础环境配置在idea的pom文件怎么正确导入

详细说说大数据离线数据抽取的步骤

大数据职业技能竞赛中docker容器

大数据离线分析pdf

大数据学习一：大数据（离线分析）-spark写入hbase、mysql过程

最新资源

离线数据处理任务一：数据抽取

高职院校大数据应用开发技能大赛可视化