数据质量监控:DQC 模块详解与 RV1109 Datasheet

需积分: 50 106 下载量 137 浏览量 更新于2024-08-06 收藏 1.07MB PDF 举报
"数据质量是数据管理的重要环节,旨在确保数据的准确、完整、及时、一致和唯一。本文档详细介绍了华为数据湖治理中的数据质量模块,包括数据质量的概述、准备工作、规则管理和运维管理。数据质量监控DQC用于检测数据库中的数据质量问题,通过完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行分析,支持数据清洗和标准化。此外,还提供了规则配置和运维管理功能,用于周期性监控和处理数据问题。在准备工作部分,强调了需要先创建数据连接并准备样本数据。" 数据质量是大数据分析和决策制定的基础,它涵盖了多个关键方面: 1. 完整性:检查数据集是否缺失必要的字段或值,确保所有预期的数据元素都已存在。 2. 有效性:验证数据是否符合预定义的业务规则,例如日期格式、数值范围等。 3. 及时性:评估数据的时效性,确保数据在需要时可用且是最新的。 4. 一致性:确保同一数据在不同源之间的一致性,避免冲突或矛盾的信息。 5. 准确性:检查数据的精确度,确认数据反映真实世界的准确程度。 6. 唯一性:确保数据集中无重复记录,保持每个实体的唯一标识。 数据质量模块的规则管理允许用户自定义和配置这些检查规则,分为模板规则和自助规则两种。模板规则基于常见业务需求预设,而自助规则允许用户根据特定场景定制。运维管理则提供规则执行状态的查看和问题处理,便于用户跟踪和解决数据质量问题。 在使用数据质量功能前,用户需要完成一些准备工作,如创建数据连接,导入样本数据。数据连接是将外部数据源接入平台的基础,通过创建数据连接,用户可以将离线数据集引入系统进行质量监控。一旦数据发生变化,DQC会进行校验,防止问题数据影响到生产环境。同时,系统保存历史校验结果,便于数据分析和问题定位。 华为数据湖治理服务提供了全面的数据管理工具,包括数据地图、元数据管理、业务指标监控等,帮助用户更好地管理和优化其数据资源。数据地图提供了数据资产的总览、搜索、分类和术语管理;元数据管理涉及数据连接创建、采集任务管理和监控;业务指标监控则关注关键业务指标的定义、管理及规则设置。 在使用过程中,用户需遵循华为提供的用户指南,如注册华为云账号、实名认证、授权并登录控制台。通过这些步骤,用户可以访问并利用数据湖治理的各项功能,确保数据质量,从而提升数据分析的有效性和可靠性。