DataStage多进程处理与开发规范总结

需积分: 50 3 下载量 4 浏览量 更新于2024-08-16 收藏 991KB PPT 举报
"该资料是关于DataStage的学习与实践经验总结,重点关注多进程处理以及DataStage中的开发流程、规范和技巧。" 在DataStage中,多进程处理是一个关键概念,特别是对于Parallel Job而言。允许Multiple Instance的设置能提高作业的并行处理能力,使多个实例可以同时运行,从而提升数据处理效率。在描述中提到,为了实现这一功能,我们需要在Job的参数设置中勾选"Allow Multiple Instance"选项,这将使得Job能够根据系统资源的情况动态创建多个实例,分别处理数据,以达到并行化处理的目的。 开发流程方面,资料涵盖了从开发环境到测试环境再到生产环境的整个过程,强调了DSExport.dsx文件的使用,以及提交和反馈的机制。开发规范包括了命名规则,例如JOB名称应以特定的字母开头(存量以N开头,增量以I开头),而CIF、LDF和LOD层的文件命名也有相应的规则,如CIF层以源文件名结尾,LDF层以目标文件名为基础,LOD层则以目标表名为基础,并且要求目标文件名和目标表名的首字母大写。 开发经验部分,提到了字段定义的必要性,如统一字段名称以避免歧义,确保null与notnull的一致性以减少警告信息。对于EXF文件格式,建议列从Tabledefine导入,并且在CIF层处理时,数字型和日期型可以直接映射,不需要的列可以不作处理。对于CHAR型数据,考虑到长度差异,可以使用VARCHAR替代,并针对回车和换行的不同系统处理方式做出相应调整,如在Unix、Windows和Mac系统中处理回车换行符的差异。 此外,资料还提到了连线的命名规则,连线应以LKXX的形式,并避免图标重叠。 Reject文件的扩展名通常为.rej。这些细节都体现了在实际开发中规范化和标准化的重要性,有助于提高工作效率和代码可读性。 这份资料是DataStage开发人员的一份宝贵指南,提供了从项目规划、编码规范到具体技术处理的全面建议,对于理解和优化DataStage的工作流程有极大的帮助。