没有合适的资源?快使用搜索试试~ 我知道了~
首页实现过程–ETL开发.ppt
实现过程–ETL开发.ppt
需积分: 50 600 浏览量
更新于2023-05-27
评论
收藏 2.68MB PPT 举报
主要讲解了ETL的原理,以及相关的开发技术,工具的使用等,适合初学者看,如果您是ETL高手,请飘过……
资源详情
资源评论
资源推荐

基于 DRS 实现的 ETL 处理过
程
—案例分析
Leavay Soware

利而不害,为而不争
ETL 主流实现方式
自主脚本实现工具软件实现
现有的 ETL 工具软件有:
DataStage , Informatica 等。
提供了一种组件化的 ETL 处理实现方式,将
ETL 处理的各个环节抽象成组件。如数据源组
件, Transformer 组件 ,Sort 组件, Merge
组件, Join 组件等一系列组件。
组件之间按照一定的关系进行 ETL 处理。
ETL 处理的开发、维护、管理有一套规范化的
软件进行支撑。
技术人员自主开发整个 ETL 处理流程的程序:
比如用 C 、 Java 、 TCL 、 Shell 、存储过程
等开发一系列脚本实现数据抽取、数据清洗、
转换过程。
按照关系调度脚本,以实现 ETL 处理过程。
脚本的开发、维护、管理全部由人工进行控制。

利而不害,为而不争
存在问题
•
预先 ETL 处理过程中的各种操作定义成组件,灵活性较差,
在遇到组件不能满足 ETL 处理需求时,很难快速调整组件
以实现需求;
•
图形化的组件虽然降低了软件的使用难度,但是在系统发
生故障时,难以定位和处理;
•
基于工具的实现在处理性能上较差,难以调优。
•
程序代码只能体现其技术实现内容,很难做到代码的自描
述,规范化程度低,对于维护工作来讲有较高的难度;
•
元数据需要手工维护,技术实现与描述文档经常会出现不
一致。
工具软件实现
自主脚本实现

利而不害,为而不争
问题分析
自主脚本实现
团队服务
① 规范性不足
② 透明度不足
③ 质量受编程人员水平影响大
工具式实现
① 灵活性不足
② 不能快速解决复杂的业务
问题
③ 在复杂的业务场景下性能
无法保证
采用将 ETL 过程各个步骤封装成数据对象的方法。数据对象可随时进行
调整和优化,同时通过数据对象可规范 ETL 处理过程,实现 ETL 处理过
程的自我描述,提升系统的运行质量、维护效率的同时让系统变得可管
可控、可持续扩展。

利而不害,为而不争
基于 DRS 的 ETL 处理过程实现
数据对象的功能包括:业务数据对象设计、技术数据对象开发和数据对象流调度。
业务数据对象
设计
技术数据对象
开发
数据对象流
调度
元模型
设计
元数据
填充
元数据
血缘分析图
数据质量
规则设计
数据质量
规则制定
数据质量
监控、告警、处理
ETL 处理
逻辑框架设计
ETL 处理
业务逻辑实现
ETL 处理
调度
数据质量:
质量规则预先设定,落实到系
统的具体处理过程;
灵活的数据质量规则设置,具
有独立性,不影响已有数据的
运行;
中断式告警模式,规则出错可
中断数据流,防止错误数据扩
散。
元数据:
业务元数据,增强业务人员、技
术人员对后台实现的理解;
技术元数据,落实到具体的数据
处理过程,实现机读与人读的一
致性;
业务、技术元数据统一管理,更
好地保障两者的一致性。
数据处理:
用户自定义的、统一的处理框架,
可灵活添加技术规范或管理规范;
基于 ETL 处理框架的开发模式,开
发只需要按模板填充业务相关的信息,
技术细节由 DRS 统一保障;
更容易定位问题、解决问题、消除
问题所造成的影响,实现 ETL 处理重
跑最小代价。
剩余22页未读,继续阅读

















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0