全国职业技能大赛：工业数据处理实战训练与大数据技术应用

需积分: 0 84 浏览量更新于2024-06-26 1 收藏 46KB DOCX 举报

《工业数据处理训练任务》是一项针对全国职业技能大赛大数据技术比赛的重要环节，它着重考察参赛者在实际工业数据环境下，如何应用大数据技术进行高效、精确的数据处理和分析。该任务的核心目标是提升参赛者的数据获取、预处理、特征提取和模型构建能力，以及他们根据业务需求解决问题的能力。在这个任务中，选手需要具备以下关键技能和知识点： 1. 数据采集与抽取：使用Spark编程语言（如Scala），选手需要从MySQL的shtd_industry数据库中抽取出EnvironmentData、ChangeRecord、BaseMachine和MachineData、ProduceRecord等表的所有数据，迁移至自建的Hive仓库（ods库）。这涉及SQL查询和Spark DataFrame API的使用，以确保数据完整性和一致性。 2. 数据清洗与预处理：在数据抽取过程中，选手需要保持原始数据的字段排序和类型不变，同时执行必要的数据清洗工作，比如去除重复值、填充缺失值等，以确保后续分析的准确性。 3. 分区设计：选手需要在迁移至Hive的过程中，为每个表添加静态分区，分区字段是当前日期前一天的字符串格式（yyyyMMdd），这样可以优化查询性能并便于数据组织和管理。 4. Hive操作：选手需熟悉Hive CLI命令行工具，用于执行showpartitionsods.<表名>命令检查分区结构，并将结果截图作为报告的一部分提交，这体现了选手对Hive元数据管理和查询优化的理解。 5. 特征工程：虽然具体内容没有提及，但理解如何根据业务需求和机器学习模型的需求，从原始数据中创建或转换有用的特征是关键，可能涉及数值编码、文本处理、时间序列分析等。 6. 数据分析与模型训练：尽管未明确提及模型训练，但选手应具备使用Hadoop生态（如Spark MLlib或其他机器学习库）进行模型选择、训练和评估的能力，以处理数据并得出有价值的分析结果。 7. 实践经验和工具应用：参赛者需要掌握并灵活运用开源大数据处理框架，如Apache Spark、Flink等，以及数据分析和机器学习的算法库，例如Scikit-Learn、TensorFlow等。《工业数据处理训练任务》不仅测试选手的基础技术能力，还考验他们在实际工作场景中整合和应用这些技术解决实际问题的能力。通过这个任务，选手能提升他们的大数据处理技能，适应工业数据领域的职业发展。

进行数据类型转换。并在 hive cli 中按照 machine_id 降序排序，查询前 1

条数据，将结果内容截图粘贴至对应报告中。

任务三：指标计算

1、编写 Scala 代码，使用 Spark 根据 dwd 层 fact_change_record

表统计每个月（change_start_time 的月份）、每个设备、每种状态的时长，

若某状态当前未结束（即 change_end_time 值为空）则该状态不参与计算。

计算结果存入 MySQL 数据库 shtd_industry 的 machine_state_time 表（表

结构如下）中，然后在 Linux 的 MySQL 命令行中根据设备 id、状态持续时长

均为逆序排序，查询出前 10 条，将 SQL 语句与执行结果截图粘贴至对应报

告中;

字段

类型

中文含义

备注

machine_id

int

设备 id

change_record_state

varchar

状态

duration_time

varchar

持续时长（秒）

当月该状态的时长和

year

int

年

状态产生的年

month

int

月

状态产生的月

剩余17页未读，继续阅读

约定Da于配置

粉丝: 1955
资源: 2

全国职业技能大赛：工业数据处理实战训练与大数据技术应用

数据处理类试题.docx

工业大数据分析-数据行处理教学讲义.docx

企业一套表数据处理软件工业.doc

Yolo训练数据标注工具.docx

数据挖掘算法综述.docx

数据挖掘期末参考.docx

基于胶囊网络的工业互联网入侵检测方法.docx

新一代人工智能产业创新重点任务.doc.docx

AI图像视觉处理技术简介.docx

工业大数据分析-聚类评估.docx

最新资源