Vol.13, No.11
©2002 Journal of Software 软 件 学 报
1000-9825/2002/13(11)2076-07
数据质量和数据清洗研究综述
郭志懋
,
周傲英
(复旦大学 计算机科学与工程系,上海 200433);
(复旦大学 智能信息处理开放实验室,上海 200433)
E-mail: zmguo@fudan.edu.cn
http://www.fudan.edu.cn
摘要: 对数据质量,尤其是数据清洗的研究进行了综述.首先说明数据质量的重要性和衡量指标,定义了数据清
洗问题.然后对数据清洗问题进行分类,并分析了解决这些问题的途径.最后说明数据清洗研究与其他技术的结
合情况,分析了几种数据清洗框架.最后对将来数据清洗领域的研究问题作了展望.
关 键 词: 数据质量;数据清洗;数据集成;相似重复记录;数据清洗框架
中图法分类号: TP311 文献标识码: A
在当今时代,企业信息化的要求越来越迫切,其中一个很重要的方面就是企业数据的管理.根据“进去的是
垃圾,出来的也是垃圾(garbage in, garbage out)”这条原理,为了支持正确决策,就要求所管理的数据可靠,没有错
误,准确地反映企业的实际情况.因此,企业数据质量的管理正在获得越来越多的关注.数据质量管理牵涉到的
方面很多,本文主要从数据集成和数据清洗的角度加以探讨.
最初,研究人员提出用元数据来表示数据质量以方便数据质量管理.在研究数据集成的过程中,很多工作的
重点放在如何解决模式冲突上.其实,在数据实例层次上同样有很多数据质量问题发生.数据清洗过程的目的就
是要解决这些“脏数据(dirty data)”的问题.数据质量问题的一种情况是一个现实实体可能由多个不完全相同的
记录来表示,这样的记录称为相似重复记录(duplicate record).为了检测并合并这些相似重复记录,研究人员提出
了很多记录匹配算法.近年来,研究人员在数据清洗系统的框架、模型和语言以及如何利用专家知识、如何结
合数据清洗过程和数据挖掘方法等方面做了很多工作.本文对与数据质量相关的将来可能的研究主题进行了
展望.
1 研究背景
当建立一个信息系统的时候,即使进行了良好的设计和规划,也不能保证在所有情况下,所存放数据的质量
都能满足用户的要求.用户录入错误、企业合并以及企业环境随着时间的推移而改变,这些都会影响所存放数
据的质量.因此,有必要用元数据来表示数据质量
[1,2]
. 文献[1] 以形式化的方法定义了数据的一致性
(consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality),而数据质量被定义为这 4 个指
标在信息系统中得到满足的程度.文献[2]提出了数据工程中数据质量的需求分析和模型,认为存在很多候选的
数据质量衡量指标,用户应根据应用的需求选择其中一部分.指标分为两类:数据质量指示器和数据质量参数.
前者是客观的信息,比如数据的收集时间,来源等,而后者是主观性的,比如数据来源的可信度(credibility)、数据
收稿日期: 2002-03-12; 修改日期: 2002-07-02
基金项目: 国家自然科学基金资助项目(60003016);霍英东教育基金青年教师基金资助项目;教育部跨世纪优秀人才培养计划
资助项目
作者简介: 郭志懋(1978-),男,湖南宁乡人,博士生,主要研究领域为数据清洗,XML 数据发布;周傲英(1965-),男,安徽宣城人,
博士,教授,博士生导师,主要研究领域为数据挖掘,数据清洗,XML 数据管理,P2P 对等计算.