XML相似重复数据清理：方法与效率提升

数据清理

相似重复数据

5星 · 超过95%的资源需积分: 10 80 浏览量更新于2024-09-15 收藏 362KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

本文主要探讨了XML（可扩展标记语言）在数据清理中的关键作用，特别是在处理半结构化数据时。随着大数据时代的来临，XML由于其广泛应用于配置文件、Web服务和其他数据交换格式，重复数据的识别和清理变得尤为重要。文章的焦点是提出了一种针对XML相似重复数据清理的有效方法，这种方法具有显著的通用性，即无论使用何种XML相似检测算法，都能在其框架内运行，这极大地提高了清理策略的灵活性。核心部分，作者提出了一个创新的思路，即基于树编辑距离的相似检测算法。树编辑距离是一种衡量两个树形结构之间差异的度量，通过计算两个XML文档之间的树编辑距离，可以准确地判断它们的相似程度。作者开发的这个算法能够有效地检测出XML文档中的重复数据，通过比较它们的结构差异来确定哪些数据是冗余的。然而，为了进一步提升效率，作者还对基于树编辑距离的算法进行了优化。他们引入了上下限的概念，通过对树编辑距离的计算范围进行控制，避免了不必要的距离计算，从而减少了计算复杂度，提高了整体的清理速度。这种优化策略对于处理大规模XML数据集来说，无疑具有实际应用价值，因为减少计算负担对于大数据处理任务至关重要。此外，文中提及的关键词“规则库”和“算法库”，可能是指利用先前编写的规则或预定义的算法集合，以便在清理过程中快速、准确地识别重复数据，而无需从头开始设计复杂的比较逻辑。这些库可能包含针对不同XML结构特性的规则，使得清理过程更加智能化和高效。这篇文章的研究为XML相似重复数据清理提供了一个实用且高效的解决方案，不仅提升了数据清理的精确度，还考虑到了性能优化，这对于处理大量XML数据的场景具有重要的实际意义。通过结合规则库和优化算法，该研究为今后的数据清洗技术发展奠定了坚实的基础。

资源详情

资源推荐

摇

2004 年 9 月

第30 卷第9 期

北京航空航天大学学报

Journal of Beijing University of Aeronautics and Astronautics

September摇 2004

Vol. 30摇 No郾 9

摇收稿日期: 2003鄄06鄄02

摇作者简介: 陈摇伟 (1976-),男,山东单县人,博士生, chenweich@ tom. com.

一种 XML 相似重复数据的清理方法研究

陈摇伟摇摇丁秋林

(南京航空航天大学计算机应用研究所, 南京 210016)

摇摇摘摇摇摇要: 针对半结构化数据 XML 在数据清理中的重要性,研究了如何清理

XML 相似重复数据,主要工作有:提出一种有效的 XML 相似重复数据清理方法,该

方法具有较强的适应性,任何 XML 相似检测算法都适用于此;给出一种基于树编辑

距离的相似检测算法,该算法能有效地检测 XML 相似重复数据;采用树编辑距离的

上下限优化基于树编辑距离的相似检测算法,避免了不必要的树编辑距离计算,降低

了相似检测计算的复杂度,提高了运算效率. 此工作为研究 XML 相似重复数据清理

打下基础.

关摇键摇词: 规则库; 算法库; 数据清理; 可扩展标记语言; 相似重复数据

中图分类号: TP 311郾 52

文献标识码: A摇摇摇摇文章编号: 1001鄄5965(2004)09鄄0835鄄04

Study on an XML approximately duplicated data cleaning method

Chen Wei摇 Ding Qiulin

(Computer Application Institute, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China)

Abstract: Aiming at the importance of semi鄄structured data XML in data cleaning, how to clean XML ap鄄

proximately duplicated data was studied. An efficient XML approximately duplicated data cleaning method was

proposed. This method is adaptive, because any other approximately detecting algorithm can be used in it. An

efficient approximately detecting algorithm based on tree edit distance was presented. This algorithm can detect

approximately duplicated data efficiently. The lower and upper bounds of tree edit distance were used to opti鄄

mize the approximately duplicated data detecting algorithm. The improved algorithm can avoid computing the

tree edit distance that is not needed between a pair of XML data, and reduce the approximate computation

complexity. So, foundations are built for researching XML approximately duplicated data cleaning.

Key words: rules library; algorithms library; data cleaning; extensible markup language( XML); ap鄄

proximately duplicated data

1摇问题的提出

由于各种原因,如数据输入错误、不同来源数

据引起的记录表示方法的不同、数据间的不一致

等,导致数据源中存在这样或那样的脏数据,主要

表现为:不正确的属性值、重复的数据记录、拼写

问题、不合法值、空值、不一致值、缩写词的不同,

不遵循引用完整性等

[1,2]

. 为防止“ 垃圾进,垃圾

出冶,数据清理是一项重要的工作. 简单地讲,数

据清理就是从数据源中清除错误数值和重复记

录,即利用有关技术如数理统计、数据挖掘或预定

义的清理规则等,从数据源中检测和消除错误数

据、不一致数据和重复数据,从而提高数据的质

量. 在数据清理中,相似重复记录的检测与消除是

一个热门课题,以前被作为记录连接、合并 / 清理、

域匹配等问题来研究,曾经是医疗、商业、税务中

的一个研究重点,在流行病的研究、欺骗检测等方

面都起到重要作用

[3]

目前,对数据清理的研究主要集中在结构化

数据上. 由于半结构化数据 XML ( Extensible

Markup Language) 的快速增长以及广泛应用,其

在数据清理中变的越来越重要

[1]

. 在 XML 数据

中,字符串类型的数据是很普遍的,因此,传统的

下载后可阅读完整内容，剩余3页未读，立即下载

zmj641225

粉丝: 3
资源: 3

XML相似重复数据清理：方法与效率提升

一种XML相似重复数据的清理方法研究 (2004年)

谈数据仓库与数据挖掘教学研究.pdf

idea插件如何解析xml数据

tcp接收xml文档数据

接口返回xml格式的数据

JS解析xml格式数据

xml单条数据导入navicat

Qt解析xml几种方法

c++封装xml几种方法

使用jquery实现将xml数据转为json数据

简述 xmltodict 如何处理 xml 数据。

untiy 解析xml数据

python抓取数据，数据清洗

使用python将将xml文件中的重复的数据进行统计

前端如何展示xml数据

c++解析xml几种方法

示波器读取xml文件的数据并转为jpg

xml是一种扩展性标识语言

xml和json数据格式区别

mfc实现修改xml文件数据

最新资源