大数据接入规范:CSV/Excel/JDBC数据源标准化要求

需积分: 50 26 下载量 45 浏览量 更新于2024-09-01 收藏 78KB DOCX 举报
本文档主要介绍了大数据接入规范中的三种常见格式:CSV、Excel和JDBC数据源。针对每一类数据格式,文档提供了详细的使用和格式化要求。 首先,对于Excel文件(*.xlsx),规范强调了以下几个关键点: 1. 文件命名应包含日期和数据类型,如"ods_pn_ccommittee_20220101.xlsx",方便管理和识别。 2. 每张表对应一个单独的Excel工作簿,且每个工作簿只允许有一个sheet页,确保数据结构清晰。 3. 数据内容应避免合并单元格,列名与字段描述应准确无误,如"人数"应明确标注数据类型为[number_of_people]。 4. 表头必须是单行,且数据格式统一,如日期和数值应转换为文本格式,特殊字符如"-", "#N/A"应替换为无或空值。 5. 函数和日期格式必须转换成文本格式以减少解析错误。 接下来是SQL类数据源,这里强调字段内容的一致性: - 同一字段下的内容必须格式统一,避免多余空格和字符,以简化数据处理和查询。 - 单位字段如"TARGETUNIT",需要确保数据清晰,便于后续分析。 对于CSV文件(*.csv): 1. 文件格式采用标准的逗号分隔值,方便数据导入和导出。 2. 文件命名遵循"数据含义+日期"的模式,如"company_dormitory_20200713.csv",便于查找和版本管理。 3. 存放路径规定在特定目录下,便于存储和组织。 4. CSV文件同样需要关注数据格式一致性,特殊字符的处理方式与Excel文件相同,保证数据的准确性。 本文档详细界定了大数据接入过程中CSV、Excel和JDBC数据源的使用规范,包括文件命名、内容格式、数据结构和特殊字符处理等方面,旨在确保数据的准确性和一致性,从而提高大数据处理的效率和质量。对于任何从事大数据接入或处理工作的人员来说,理解和遵守这些规范至关重要。
2023-06-10 上传