DataStage开发经验:数据流向与注释规范
需积分: 41 160 浏览量
更新于2024-08-16
收藏 991KB PPT 举报
本文主要介绍了DataStage的数据流向和开发经验,包括开发流程、规范和一些实用技巧。在DataStage环境中,输入数据文件通常位于作业的左侧,数据流经不同阶段,如CIF、LDF和LOD层,每个阶段都有其特定的命名规则和处理方法。
开发流程涵盖从开发环境到生产环境的整个过程,包括DSExport.dsx文件的使用,以及提交、备份和反馈等关键步骤。开发规范强调了JOB属性的设定,例如sequentialfile格式的命名规则,其中存量JOB以"N"开头,增量JOB以"I"开头。CIF层的文件名以"Cv"和源文件名结尾,LDF层以"Tr"和目标文件名结尾,而LOD层则以"Ld"和目标表名结尾。所有目标文件名和目标表名的首字母应大写。
在命名规则方面,CIF层的落地文件名称是源文件名去掉"Exp_"并加上".ds"扩展名,LDF层则是首字母大写的目标表名加".ds"扩展名。连线的命名遵循"LKXX"格式,并确保图标不重叠。此外,表定义的必要性和一致性被强调,字段名应避免歧义,例如保单号应使用统一的名称。对于NULL和NOT NULL的处理,以及输入输出文件的定义应保持一致,以减少警告信息。
在数据处理上,EXF文件格式中的分隔符需要定义清楚,列通常从Tabledefine导入。CIF层的处理策略包括数字型和日期型可以直接映射,不需要的列可以忽略,CHAR型因长度不一通常转换为VARCHAR型,如果第一列为VARCHAR,则使用col[1,len(col)-1],其他字符串列使用col[2,len(col)-2]。关于回车和换行的处理,需要考虑不同操作系统下的差异,如Unix系统的"\n"和Windows系统的"\n\r"。
DataStage的数据处理和开发涉及到多个层面,包括文件格式、命名规范、数据类型转换和操作系统兼容性等问题,这些都需要开发者严格遵循并理解,以确保数据流动的准确性和效率。
点击了解资源详情
点击了解资源详情
点击了解资源详情
2018-09-11 上传
2012-09-26 上传
2019-04-19 上传
鲁严波
- 粉丝: 25
- 资源: 2万+
最新资源
- JavaScript实现的高效pomodoro时钟教程
- CMake 3.25.3版本发布:程序员必备构建工具
- 直流无刷电机控制技术项目源码集合
- Ak Kamal电子安全客户端加载器-CRX插件介绍
- 揭露流氓软件:月息背后的秘密
- 京东自动抢购茅台脚本指南:如何设置eid与fp参数
- 动态格式化Matlab轴刻度标签 - ticklabelformat实用教程
- DSTUHack2021后端接口与Go语言实现解析
- CMake 3.25.2版本Linux软件包发布
- Node.js网络数据抓取技术深入解析
- QRSorteios-crx扩展:优化税务文件扫描流程
- 掌握JavaScript中的算法技巧
- Rails+React打造MF员工租房解决方案
- Utsanjan:自学成才的UI/UX设计师与技术博客作者
- CMake 3.25.2版本发布,支持Windows x86_64架构
- AR_RENTAL平台:HTML技术在增强现实领域的应用