没有合适的资源?快使用搜索试试~ 我知道了~
首页Etl---Kettle(入门教程)超详细
Etl---Kettle(入门教程)超详细
5星 · 超过95%的资源 需积分: 43 41 下载量 103 浏览量
更新于2023-03-16
评论
收藏 1.08MB PDF 举报
最近,了解了一下关于ETL的工具,这也是我从不懂到慢慢入门一步步整理的,以下是我亲自制作的ppt,给导成pdf了,但...,有水印!额.......大家将就着看吧! 如果小伙伴们有需要PPT可以私聊我,如果有什么问题的也可以跟我进行交流,毕竟是相互进步嘛。
资源详情
资源评论
资源推荐
KETTLE
ETL
• ETL,用来描述将数据从来源端经过抽取(extract)、转换(transform )、
加载(load)至目的端的过程。
• 通俗的说就是从数据源抽取数据出来,进行清洗加工转换,然后加载到定义
好的数据仓库模型中去。
• 目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决
策提供分析依据。
为什么要使用ETL工具
• 当数据来自不同的物理主机,这时候如使用SQL语句去处理的话,就显得比较吃力且开
销也更大
• 数据来源可以是各种不同的数据库或者文件,这时候需要先把他们整理成统一的格式后
才可以进行数据的处理,这一过程用代码实现显然有些麻烦。
• 在数据库中我们当然可以使用存储过程去处理数据,但是处理海量数据的时候存储过程
显然比较吃力,而且会占用较多数据库的资源,这可能会导致数据资源不足,进而影响
数据库的性能。
几个ETL工具之间的比较
• 操作
• 都是属于比较简单易用,主要是开发人员对于工具的熟练程度。
• 部署
• Kettle只需要JVM环境,Informatica需要服务器和客户端安装,而Datastage的部署比
较耗费时间,有一点难度。
• 数据处理的速度
• 大数据量下Informatica 与Datastage的处理速度是比较快的,比较稳定。则Kettle的
处理速度相比之下稍慢。
• 扩展
• Kettle的扩展性无疑是最好,因为是开源代码,可以自己开发拓展它的功能,而
Informatica和Datastage由于是商业软件,基本上没有
• 在项目中,很多时候我们都需要同步生产库的表到数据仓库中。一百多张表同步、
重复的操作,对开发人员来说是细心和耐心的考验。在这种情况下,开发人员最喜
欢的工具无疑是kettle,多个表的同步都可以用同一个程序运行,不必每一张表的
同步都建一个程序,而informatica虽然有提供工具去批量设计,但还是需要生成多
个程序进行一一配置,而datastage在这方面就显得比较笨拙。
剩余25页未读,继续阅读
白夕lla
- 粉丝: 4
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论1