DataStage开发经验:数据流向与注释规范

需积分: 41 3 下载量 160 浏览量 更新于2024-08-16 收藏 991KB PPT 举报
本文主要介绍了DataStage的数据流向和开发经验,包括开发流程、规范和一些实用技巧。在DataStage环境中,输入数据文件通常位于作业的左侧,数据流经不同阶段,如CIF、LDF和LOD层,每个阶段都有其特定的命名规则和处理方法。 开发流程涵盖从开发环境到生产环境的整个过程,包括DSExport.dsx文件的使用,以及提交、备份和反馈等关键步骤。开发规范强调了JOB属性的设定,例如sequentialfile格式的命名规则,其中存量JOB以"N"开头,增量JOB以"I"开头。CIF层的文件名以"Cv"和源文件名结尾,LDF层以"Tr"和目标文件名结尾,而LOD层则以"Ld"和目标表名结尾。所有目标文件名和目标表名的首字母应大写。 在命名规则方面,CIF层的落地文件名称是源文件名去掉"Exp_"并加上".ds"扩展名,LDF层则是首字母大写的目标表名加".ds"扩展名。连线的命名遵循"LKXX"格式,并确保图标不重叠。此外,表定义的必要性和一致性被强调,字段名应避免歧义,例如保单号应使用统一的名称。对于NULL和NOT NULL的处理,以及输入输出文件的定义应保持一致,以减少警告信息。 在数据处理上,EXF文件格式中的分隔符需要定义清楚,列通常从Tabledefine导入。CIF层的处理策略包括数字型和日期型可以直接映射,不需要的列可以忽略,CHAR型因长度不一通常转换为VARCHAR型,如果第一列为VARCHAR,则使用col[1,len(col)-1],其他字符串列使用col[2,len(col)-2]。关于回车和换行的处理,需要考虑不同操作系统下的差异,如Unix系统的"\n"和Windows系统的"\n\r"。 DataStage的数据处理和开发涉及到多个层面,包括文件格式、命名规范、数据类型转换和操作系统兼容性等问题,这些都需要开发者严格遵循并理解,以确保数据流动的准确性和效率。