"该资料是关于DataStage的学习资料,涵盖了命名规则、开发流程、开发规范以及开发经验。其中,命名规则主要包括CIF层和LDF层的文件命名,以及控件和连线的命名方式。此外,还涉及了数据处理方法,如EXF文件格式的处理和CIF层的数据转换策略。"
在DataStage中,良好的命名规则对于项目的可维护性和团队协作至关重要。根据提供的信息,以下是一些关键知识点:
1. **命名规则**:
- **CIF层**:源文件名称去掉前缀'Exp_',并以'.ds'作为扩展名。例如,`Exp_InsureVehc_TOther.EXF`将转换为`InsureVehc_TOther.ds`。
- **LDF层**:使用目标表名的首字母大写形式,并以'.ds'为扩展名。拒绝文件的扩展名为'.rej',如`Agreement_request.ds`和`Agreement_request_001.rej`。
2. **开发流程**:资料中提到的开发流程可能包括开发环境、测试环境和生产环境的使用,以及使用DSExport.dsx进行操作,并涉及提交和反馈过程。
3. **开发规范**:包括JOB属性的详细说明,如存量作业以"N"开头,增量作业以"I"开头。此外,命名规则中还提到CIF层作业使用"Cv"后接源文件名,LDF层使用"Tr"后接目标文件名,LOD层使用"Ld"后接目标表名,且目标文件和表名首字母大写。
4. **连线命名**:连线应命名为"LKXX"的形式,确保图标的不重叠,以便于清晰的流程可视化。
5. **数据处理**:
- **EXF文件格式**:处理涉及列的分隔符定义和从Tabledefine导入列。
- **CIF层处理**:
- 数字型和日期型字段可以直接映射到目标。
- 不需要的列可以不作映射。
- CHAR型在CIF层通常被转换为VARCHAR型,因为导入数据中的CHAR长度可能不一致。
- VARCHAR型的第一列使用`col[1,len(col)-1]`,其他字符串列使用`col[2,len(col)-2]`。
- 针对回车和换行的处理,由于不同操作系统中的差异,需要确保正确处理行结束符。
6. **开发经验**:强调了字段命名的一致性以避免歧义,以及null与notnull的定义一致性,以减少警告信息。同时,提醒在处理EXF文件时注意列的定义,以确保输入和输出文件之间的一致性。
这些知识点对于理解和实践DataStage项目开发非常重要,遵循这些规则和最佳实践,可以提高代码质量,降低维护成本,并促进团队间的有效沟通。