数据规范处理 数据口径统一 Boolean字段,在数据中有使用1/0/-1标识的,也有使用true/false表示的,统一为Y/N/U 字符串类型字段,在数据中有空串 ,有null值 ,统一为null值 日期格式统一, 2020/9/2 2020-9-2 2020-09-02 20200902 都统一成 yyyy-MM-dd 小数类型,统一成decimal 字符串,统一成string 时间戳,统一成bigint。。。理解 ,,,,简化
时间: 2023-07-15 10:12:51 浏览: 148
电影票房数据分析-hive代码
5星 · 资源好评率100%
这是一个数据规范化的过程,目的是为了让不同来源的数据可以在同一个系统中进行统一处理和管理。具体的处理方法如下:
1. Boolean字段统一为Y/N/U字符串类型,其中Y表示true,N表示false,U表示未知或未设置。
2. 数据中使用1/0/-1标识的Boolean字段,需要转换为字符串类型。1表示Y,0表示N,-1表示U。
3. 空串和null值都统一为null值,方便数据的处理和比较。
4. 日期格式统一为yyyy-MM-dd,方便日期的比较和计算。如果数据中有其他格式的日期,需要进行转换。
5. 小数类型统一为decimal,这样可以避免精度问题。
6. 字符串类型统一为string,方便数据的处理和管理。
7. 时间戳统一为bigint,这样可以避免精度问题,并方便时间的比较和排序。
以上是数据规范化的一些常见处理方法,可以根据具体情况进行适当的调整。
阅读全文