传统数据治理包括三大件,分别是数据标准,元数据管理和数据质量。数据治理的一般流程是从制定数据标准开始的,简称定
标。然后通过元数据管理的采集、注册、扫描以及发布完成数据标准和数据模型之间的连接,这个过程称为落标。最后通过数据
标准关联的数据质量稽核规则,对数据模型进行稽查,发现质量问题形成质量报告,推动相应的业务部门进行整改,提升数据质
量。
对于传统数据治理来说,其更加强调对业务系统存量数据的治理,此外,对于数据长效治理体制的建设也不够重视,所以传统数
据治理在企业数据管理实践中也遇到了一些新的问题。
第四章 传统数据治理面临的挑战
4.1 开发与治理脱节
传统数据治理面临的第一个挑战便是开发与治理的脱节。由于传统数据治理更加关注存量数据的治理,而忽视了新增数据的长效
治理,导致企业需要通过不断的数据治理项目维持数据治理的效果。但是,对于企业来说,相比于存量数据其增量数据价值更
高、也更为重要。此外,传统的数据治理是一个反向治理的过程,并不会融入到数据生产的整个过程当中,与数据开发、建模、
运维、安全等环节都存在脱节现象,对于企业来说进行传统的数据治理就需要对其现有的系统和流程进行改造,因此必然面对高
昂的成本。基于上述情况,我们需要将数据治理的活动前置,从数据的生产环节加入数据治理的活动。
数据质量与数据开发脱节
如何确保数据开发的结果符合业务逻辑并能被业务方所使用,就需要通过质量稽核规则对开发结果进行监控。但是,我们发现在
实际开发过程中质量稽核规则的覆盖率只有10%。其次,由于不同的开发人员对数据的了解程度以及业务的熟悉程度不同,对
于相同数据项的质量稽核规则设置也不尽相同,在早期的网易内部有70%的相同数据项,其稽核规则存在不一致,阈值设置也
不一致。这就导致了数据开发的结果大多不符合业务方的预期,长此以往,业务方不再相信数据。究其原因,首先是质量稽核规
则缺少统一的标准,其次开发人员对于数据质量的重视程度不够,导致数据质量和数据开发严重脱节。
数据标准与数据建模脱节
数据标准一般会包括标准规划、标准制定、标准发布、标准执行、标准检查等流程。一个企业会根据自身的情况结合国家标准、
行业标准制定自身企业的数据标准。但是标准制定之后如何让开发人员贯彻执行却是大多数企业面临的问题。标准和数据建模的
脱节,就会导致开发出来的表的命名无法统一、缺少规范,相同字段的名称也会因为开发人员开发习惯的不同而出现不同的命名
方式,从而导致数据的理解成本和管理成本上升。
元数据与数据开发脱节
在数据开发过程中,任务之间往往存在依赖关系,下游任务运行依赖于上游任务的实例产出,因此,需要将有关联的上下游任务
进行依赖关系配置。在现网环境中,客户的任务数量往往能够成百上千甚至达到万级,要在如此多的任务当中完成依赖关系的配
置,就非常考验开发人员对任务的熟悉程度,而且这种通过手工配置的方式极易出错,一旦依赖关系的漏配就会造成任务的空
跑,导致下游产出数据的异常。因此,在任务依赖配置中,能够自动推荐上游依赖任务就显得尤为重要,而要实现自动推荐上游
依赖任务的关键便是元数据,通过元数据获取任务间的血缘关系,根据血缘关系推荐上游依赖任务。元数据和数据开发的脱节导
致在开发过程中,任务间的依赖配置更多的是通过手动维护,这就大大增加了出错的概率。
08
网易数据治理白皮
评论1