DataStage多进程处理与开发规范总结

需积分: 50 4 浏览量更新于2024-08-16 收藏 991KB PPT 举报

"该资料是关于DataStage的学习与实践经验总结，重点关注多进程处理以及DataStage中的开发流程、规范和技巧。" 在DataStage中，多进程处理是一个关键概念，特别是对于Parallel Job而言。允许Multiple Instance的设置能提高作业的并行处理能力，使多个实例可以同时运行，从而提升数据处理效率。在描述中提到，为了实现这一功能，我们需要在Job的参数设置中勾选"Allow Multiple Instance"选项，这将使得Job能够根据系统资源的情况动态创建多个实例，分别处理数据，以达到并行化处理的目的。开发流程方面，资料涵盖了从开发环境到测试环境再到生产环境的整个过程，强调了DSExport.dsx文件的使用，以及提交和反馈的机制。开发规范包括了命名规则，例如JOB名称应以特定的字母开头（存量以N开头，增量以I开头），而CIF、LDF和LOD层的文件命名也有相应的规则，如CIF层以源文件名结尾，LDF层以目标文件名为基础，LOD层则以目标表名为基础，并且要求目标文件名和目标表名的首字母大写。开发经验部分，提到了字段定义的必要性，如统一字段名称以避免歧义，确保null与notnull的一致性以减少警告信息。对于EXF文件格式，建议列从Tabledefine导入，并且在CIF层处理时，数字型和日期型可以直接映射，不需要的列可以不作处理。对于CHAR型数据，考虑到长度差异，可以使用VARCHAR替代，并针对回车和换行的不同系统处理方式做出相应调整，如在Unix、Windows和Mac系统中处理回车换行符的差异。此外，资料还提到了连线的命名规则，连线应以LKXX的形式，并避免图标重叠。 Reject文件的扩展名通常为.rej。这些细节都体现了在实际开发中规范化和标准化的重要性，有助于提高工作效率和代码可读性。这份资料是DataStage开发人员的一份宝贵指南，提供了从项目规划、编码规范到具体技术处理的全面建议，对于理解和优化DataStage的工作流程有极大的帮助。

永不放弃yes

粉丝: 675
资源: 2万+

DataStage多进程处理与开发规范总结

DataStage学习资料--DS的经验总结

Datastage学习资料集合（分卷1）

datastage学习教程，教程是英文文档

DataStage 学习资料

datastage学习

经验总结_DataStage

datastage的经验总结

Datastage学习资料集合（分卷2）

datastage学习笔记

DataStage学习记录

最新资源