"kettle实验:多路合并数据与字段选择"

需积分: 0 0 下载量 16 浏览量 更新于2024-01-20 收藏 5.63MB DOCX 举报
ETL实验5-多路合并 本次实验的目的是掌握常用kettle的数据合并常用组件,具体内容包括多个文件输入、记录排序、记录集连接、多路合并、公式、字段选择和单变量统计。 实验步骤如下: 1. 创建语文成绩excel和数学成绩excel,分别包含序号、学号、语文(数学)等信息。另外创建英语成绩excel,包含序号、学号、英语等信息。需要注意的是,有些同学可能没有某些科目的记录。 2. 创建数学成绩输入。数学成绩输入的配置类似于英语和语文成绩输入,不再累述。 3. 记录排序。针对每个输入进行排序,排序的字段是学号。三个输入的排序配置类似,不再累述。 4. 多路合并。对多个输入进行多路合并,并预览数据。在预览数据时要注意空值部分的替换,并生成新的学号。编写公式时,如果需要使用字段,需要在字段名前后加上[]。配置完成后,预览数据。 5. 字段选择和变量统计。对合并后的数据进行字段选择和单变量统计。在预览数据时可以查看选择后的结果。 6. 准备三个表:省、市、区。利用记录集合并,根据区显示完整信息。创建三个excel输入,并进行记录排序。市和省的操作类似,不再累述。 7. 先左连接合并区和市的信息,根据省份ID获取完整信息。排序记录并预览结果。 总结: 通过本次实验,我们学习了多路合并的操作方法。首先创建了多个输入,包括语文、数学和英语成绩。然后对每个输入进行记录排序,按照学号进行排序。接下来进行了多路合并操作,将三个输入合并为一个数据集,并预览了结果。注意在合并时要处理空值部分的替换,并生成新的学号。接着进行了字段选择和变量统计,对合并后的数据进行了进一步操作。最后,通过记录集合并的操作,根据区的信息显示了完整的省、市、区信息,并进行了排序。 通过本次实验,我们掌握了常用kettle的数据合并常用组件,为以后的实际应用提供了基础知识和技能。同时,实验中还涉及了记录排序、字段选择和统计等操作,进一步加深了我们对数据处理和分析的理解和掌握。