Kettle数据抽取流程详解:从输入到更新
需积分: 50 69 浏览量
更新于2024-07-09
收藏 1.09MB DOCX 举报
"kettle数据抽取流程总结"
Kettle,又称Pentaho Data Integration (PDI),是一款强大的ETL(Extract, Transform, Load)工具,主要用于数据抽取、转换和加载。本文将详细解析kettle的一般转换流程以及作业流程,并探讨一种特殊的数据处理场景。
一、一般转换流程
1. **表输入**:在kettle中,首先需要建立数据库连接,提供必要的连接信息,如连接名称、类型、方式和数据库配置。完成并测试连接后,可以从数据库中选择数据视图或表作为数据源。
2. **字段选择**:这一步骤允许用户从表输入中选择需要的字段,调整字段属性,如字段名、类型、长度和格式。用户可以根据需求进行必要的字段筛选和重命名。
3. **字符串操作**:kettle提供了丰富的字符串处理功能,比如在此步骤中去除字段两端的空格。可以进行更复杂的字符串转换,例如替换、截取、查找等。
4. **插入/更新**:最后,数据会被插入或更新到目标数据库的指定表中。需新建数据库连接,确定目标表,并设置主键和更新字段。主键用于匹配现有记录,更新字段则是要修改的数据列。
二、作业流程
1. **START**:作业的起点,标志着整个作业流程的开始。
2. **SQL**:在这一步,可以编写SQL语句来监控作业执行过程,记录执行时间,甚至动态调整数据处理行为。
3. **转换**:转换是kettle的核心,可以包含一系列步骤,如上面提到的表输入、字段选择等。将多个转换组合在一个作业中可以实现复杂的数据处理逻辑。
4. **成功**:作业的终点,表示整个流程顺利完成。
三、特殊转换流程实例
以检查住院号是否被删除的场景为例:
1. **表输入(查询MySQL数据)**:建立MySQL数据库连接,根据条件(如入院时间在当前时间三天内)查询basy_cryxx表的zy_id(住院号)。
2. **字段选择**:处理查询结果,准备进行下一步验证。
3. **Java代码**:通过Java代码在HIS数据库中验证住院号是否存在。如果HIS中存在,数据不输出;不存在,则继续。
4. **字段选择**:再次处理数据,可能涉及过滤或格式化。
5. **SQL脚本(删除)**:在MySQL数据库中,编写删除SQL,删除HIS中不存在相应住院号的数据。记得设置执行行和变量替换。
6. **检查医嘱是否被删除**:这是一个类似的流程,检查医嘱是否与HIS中的数据同步,以确保数据一致性。
通过这样的流程,kettle能够灵活地处理各种数据抽取和清洗任务,确保数据在不同系统间的准确性和一致性。在实际应用中,可以根据业务需求设计和调整这些步骤,实现高效的数据集成。
2020-08-20 上传
2021-04-01 上传
188 浏览量
2021-09-23 上传
2023-03-06 上传
2019-10-17 上传
2024-04-26 上传
社会小刚刚
- 粉丝: 15
- 资源: 10
最新资源
- 应用数据科学峰会第5周
- xml2ddl:隐秘xml到ddl文件
- Dipterv_KNX:他正在康复
- 企业手机微网站模板
- 电信设备-基于相似度的多模态信息分类贡献差异性计算方法.zip
- piero:节点事件管理包
- SALIENT-EDGE-S-and-REGION-S-EXTRACTIONFOR-RGBD-IMAGES
- c是最好的编程语言之C语言实现的数独游戏.zip
- 神经网络算法:神经网络算法(包括BP,SOM,RBF)
- naive-bayes-author-email:电子邮件作者的机器学习
- Mochila_De_Mollein_M_Florencia:Cursada de“Introduccióna laInformática”(认证技术开发人员)
- rf:Go的重构工具
- onkormanyzati-adatbazis-parser:töosz.huönkormányzatiadatbázisadatoksajátadatbázisbamentéséreszántkód
- 焊缝检测PLC程序.rar
- shark_tooth_data_collector:使用OpenCV进行鲨鱼牙齿的圆形测量
- 易语言-新浪微博登录发微博