"kettle实验:多路合并数据与字段选择"
需积分: 0 16 浏览量
更新于2024-01-20
收藏 5.63MB DOCX 举报
ETL实验5-多路合并
本次实验的目的是掌握常用kettle的数据合并常用组件,具体内容包括多个文件输入、记录排序、记录集连接、多路合并、公式、字段选择和单变量统计。
实验步骤如下:
1. 创建语文成绩excel和数学成绩excel,分别包含序号、学号、语文(数学)等信息。另外创建英语成绩excel,包含序号、学号、英语等信息。需要注意的是,有些同学可能没有某些科目的记录。
2. 创建数学成绩输入。数学成绩输入的配置类似于英语和语文成绩输入,不再累述。
3. 记录排序。针对每个输入进行排序,排序的字段是学号。三个输入的排序配置类似,不再累述。
4. 多路合并。对多个输入进行多路合并,并预览数据。在预览数据时要注意空值部分的替换,并生成新的学号。编写公式时,如果需要使用字段,需要在字段名前后加上[]。配置完成后,预览数据。
5. 字段选择和变量统计。对合并后的数据进行字段选择和单变量统计。在预览数据时可以查看选择后的结果。
6. 准备三个表:省、市、区。利用记录集合并,根据区显示完整信息。创建三个excel输入,并进行记录排序。市和省的操作类似,不再累述。
7. 先左连接合并区和市的信息,根据省份ID获取完整信息。排序记录并预览结果。
总结:
通过本次实验,我们学习了多路合并的操作方法。首先创建了多个输入,包括语文、数学和英语成绩。然后对每个输入进行记录排序,按照学号进行排序。接下来进行了多路合并操作,将三个输入合并为一个数据集,并预览了结果。注意在合并时要处理空值部分的替换,并生成新的学号。接着进行了字段选择和变量统计,对合并后的数据进行了进一步操作。最后,通过记录集合并的操作,根据区的信息显示了完整的省、市、区信息,并进行了排序。
通过本次实验,我们掌握了常用kettle的数据合并常用组件,为以后的实际应用提供了基础知识和技能。同时,实验中还涉及了记录排序、字段选择和统计等操作,进一步加深了我们对数据处理和分析的理解和掌握。
2023-04-07 上传
2023-04-07 上传
2023-04-07 上传
2023-06-08 上传
2023-05-19 上传
2023-06-09 上传
2023-06-13 上传
2023-03-14 上传
2023-03-31 上传
ℳ₯㎕♡₯㎕ζั͡✾
- 粉丝: 0
- 资源: 7
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载