没有合适的资源?快使用搜索试试~ 我知道了~
首页DataStage(ETL)技术总结
DataStage(ETL)技术总结
需积分: 9 25 浏览量
更新于2023-05-20
评论
收藏 42KB DOC 举报
数据整合的核心内容是从数据源中抽取数据,然后对这些数据进行转化,最终加载的目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform, Load)。
资源详情
资源评论
资源推荐

DataStage(ETL)技术总结
数据整合的核心内容是从数据源中抽取数据,然后对这些数据进行转化,最终加载的目标数据库或者数据
仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform, Load)。
IBM WebSphere DataStage(下面简称为 DataStage)为整个 ETL 过程提供了一个图形化的开发环境,
它是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集或数
据仓库的集成工具。
通常数据抽取工作分抽取、清洗、转换、装载几个步骤:
抽取主要是针对各个业务系统及不同网点的分散数据,充分理解数据定义后,规划需要的数据源及数据
定义,制定可操作的数据源,制定增量抽取的定义。
清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题,允许通
过试抽取,将有问题的纪录先剔除出来,根据实际情况调整相应的清洗操作。
转换主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型到分析模型,通过内
建的库函数、自定义脚本或其他的扩展方式,实现了各种复杂的转换,并且支持调试环境,清楚的监控数
据转换的状态。
装载主要是将经过转换的数据装载到数据仓库里面,可以通过数据文件直接装载或直连数据库的方式来
进行数据装载,可以充分体现高效性。在应用的时候可以随时调整数据抽取工作的运行方式,可以灵活的
集成到其他管理系统中。
一.数据源连接能力:
数据整合工具的数据源连接能力是非常重要的,这将直接决定它能够应用的范围。DataStage 能够直接连
接非常多的数据源,包括:
1、 文本文件
2、 XML 文件
3、 企业应用程序,比如 SAP、PeopleSoft、Siebel、Oracle Application
4、 几乎所有的数据库系统,比如 DB2、Oracle、SQL Server、Sybase ASE/IQ、Teradata、Informix 等
以及可通过 ODBC 连接的数据库
5、 Web Services
6、 SAS、WebSphere MQ
二.多国语言支持(NLS):
DataStage 能够支持几乎所有编码,以及多种扩展编码(IBM、NEC、富士通、日立等),可以添加编码
的支持,DataStage 内部为 UTF8 编码。
三.并行运行能力:
ETL Job 的控件大多数都支持并行运行,此外 DataStage 企业版还可以在多台装有 DataStage Server 的
机器上并行执行,这也是传统的手工编码方式难以做到的。这样, DataStage 就可以充分利用硬件资源。
而且,当你的硬件资源升级的时候也不用修改已经开发好的 ETL Job,只需要修改一个描述硬件资源的文
件即可。并行执行能力是 DataStage 所能处理数据的速度可以得到趋近于线性的扩展,轻松处理大量数据。
四.便捷的开发环境:
DataStage 的开发环境是基于 C/S 模式的,通过 DataStage Client 连接到 DataStage Server 上进行开发
这里有一点需要注意,DataStage Client 只能安装在 Windows 平台上面(在 Win2000/XP 上运行过)。而
DataStage Server 则支持多种平台,比如 Windows、Solaris、Redhat Linux、AIX、HP-UNIX。(在
WinXP/Solaris8 上运行过)
DataStage Client 有 四 种 客 户 端 工 具 。 分 别 是 DataStage Administrator 、 DataStage












安全验证
文档复制为VIP权益,开通VIP直接复制

评论0