优化XML相似重复数据清理的树编辑距离算法

需积分: 9 120 浏览量更新于2024-08-12 收藏 259KB PDF 举报

"一种XML相似重复数据的清理方法研究 (2004年)，作者陈伟、丁秋林，发表于《南京航空航天大学计算机应用研究所》" 这篇2004年的研究论文聚焦于XML（可扩展标记语言）在数据清理过程中的重要性，特别是针对XML中的相似重复数据的清理。XML作为一种半结构化数据格式，广泛应用于数据交换和存储，其数据质量直接影响到数据分析的准确性和系统的性能。论文作者提出了一种高效的方法来清理XML文档中的相似重复数据。首先，研究中提出了一种通用的XML相似重复数据清理方法。这个方法具有高度的适应性，能够接纳并利用各种XML相似性检测算法。这种方法的优势在于，不论采用何种具体的相似性检测策略，都能够有效地整合到清理流程中，增加了方法的灵活性和实用性。其次，论文详细介绍了一种基于树编辑距离的相似性检测算法。树编辑距离是一种衡量两个XML结构相似度的标准，通过计算将一个XML结构转换成另一个所需的最小操作次数。这种算法能有效地识别出看似不同但实际上内容相似的XML数据，从而帮助定位和删除重复数据。进一步，为了优化树编辑距离的计算过程，作者采用了上下限策略。这可以减少不必要的计算步骤，降低算法的复杂度，从而提高相似性检测的效率。通过预计算和利用树编辑距离的边界条件，可以在一定程度上避免对所有可能的编辑路径进行全量计算，节省了大量计算资源，使得大规模XML数据的处理成为可能。论文的研究成果为XML相似重复数据的清理奠定了理论基础，对于提升数据质量、减少存储空间需求以及提高系统性能具有重要意义。关键词包括规则库、算法库、数据清理、可扩展标记语言和相似重复数据，表明该研究不仅关注技术实现，也涵盖了数据管理的多个层面。总结起来，这篇论文为XML数据清理提供了一个创新且实用的方法，通过结合树编辑距离和计算优化，有效地解决了半结构化数据中重复数据的问题，对于从事XML数据处理和分析的IT专业人士具有很高的参考价值。

 收稿日期 

 作者简介 陈  伟    男 山东单县人 博士生 ｃｈｅｎｗｅｉｃｈ ｔｏｍ ｃｏｍ 

一种ＸＭＬ相似重复数据的清理方法研究

陈  伟   丁秋林

南京航空航天大学计算机应用研究所 南京 

  摘    要 针对半结构化数据ＸＭＬ在数据清理中的重要性 研究了如何清理

ＸＭＬ相似重复数据 主要工作有 提出一种有效的ＸＭＬ相似重复数据清理方法 该方

法具有较强的适应性 任何ＸＭＬ相似检测算法都适用于此 给出一种基于树编辑距

离的相似检测算法 该算法能有效地检测ＸＭＬ相似重复数据 采用树编辑距离的上

下限优化基于树编辑距离的相似检测算法 避免了不必要的树编辑距离计算 降低了

相似检测计算的复杂度 提高了运算效率 此工作为研究ＸＭＬ相似重复数据清理打

下基础 

关  键  词 规则库 算法库 数据清理 可扩展标记语言 相似重复数据

中图分类号 ＴＰ 

文献标识码 Ａ     文章编号 

ＳｔｕｄｙｏｎａｎＸＭＬａｐｐｒｏｘｉｍａｔｅｌｙｄｕｐｌｉｃａｔｅｄｄａｔａｃｌｅａｎｉｎｇｍｅｔｈｏｄ

ＣｈｅｎＷｅｉ  ＤｉｎｇＱｉｕｌｉｎ

ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎＩｎｓｔｉｔｕｔｅ ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＡｅｒｏｎａｕｔｉｃｓａｎｄＡｓｔｒｏｎａｕｔｉｃｓ Ｎａｎｊｉｎｇ  Ｃｈｉｎａ

Ａｂｓｔｒａｃｔ ＡｉｍｉｎｇａｔｔｈｅｉｍｐｏｒｔａｎｃｅｏｆｓｅｍｉｓｔｒｕｃｔｕｒｅｄｄａｔａＸＭＬｉｎｄａｔａｃｌｅａｎｉｎｇ ｈｏｗｔｏｃｌｅａｎＸＭＬａｐｐｒｏｘｉ

ｍａｔｅｌｙｄｕｐｌｉｃａｔｅｄｄａｔａｗａｓｓｔｕｄｉｅｄ ＡｎｅｆｆｉｃｉｅｎｔＸＭＬａｐｐｒｏｘｉｍａｔｅｌｙｄｕｐｌｉｃａｔｅｄｄａｔａｃｌｅａｎｉｎｇｍｅｔｈｏｄｗａｓｐｒｏｐｏｓｅｄ 

Ｔｈｉｓｍｅｔｈｏｄｉｓａｄａｐｔｉｖｅ ｂｅｃａｕｓｅａｎｙｏｔｈｅｒａｐｐｒｏｘｉｍａｔｅｌｙｄｅｔｅｃｔｉｎｇａｌｇｏｒｉｔｈｍｃａｎｂｅｕｓｅｄｉｎｉｔ Ａｎｅｆｆｉｃｉｅｎｔａｐ

ｐｒｏｘｉｍａｔｅｌｙｄｅｔｅｃｔｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｔｒｅｅｅｄｉｔｄｉｓｔａｎｃｅｗａｓｐｒｅｓｅｎｔｅｄ Ｔｈｉｓａｌｇｏｒｉｔｈｍｃａｎｄｅｔｅｃｔａｐｐｒｏｘｉｍａｔｅｌｙ

ｄｕｐｌｉｃａｔｅｄｄａｔａｅｆｆｉｃｉｅｎｔｌｙ Ｔｈｅｌｏｗｅｒａｎｄｕｐｐｅｒｂｏｕｎｄｓｏｆｔｒｅｅｅｄｉｔｄｉｓｔａｎｃｅｗｅｒｅｕｓｅｄｔｏｏｐｔｉｍｉｚｅｔｈｅａｐｐｒｏｘｉｍａｔｅｌｙ

ｄｕｐｌｉｃａｔｅｄｄａｔａｄｅｔｅｃｔｉｎｇａｌｇｏｒｉｔｈｍ Ｔｈｅｉｍｐｒｏｖｅｄａｌｇｏｒｉｔｈｍｃａｎａｖｏｉｄｃｏｍｐｕｔｉｎｇｔｈｅｔｒｅｅｅｄｉｔｄｉｓｔａｎｃｅｔｈａｔｉｓｎｏｔ

ｎｅｅｄｅｄｂｅｔｗｅｅｎａｐａｉｒｏｆＸＭＬｄａｔａ ａｎｄｒｅｄｕｃｅｔｈｅａｐｐｒｏｘｉｍａｔｅｃｏｍｐｕｔａｔｉｏｎｃｏｍｐｌｅｘｉｔｙ Ｓｏ ｆｏｕｎｄａｔｉｏｎｓａｒｅｂｕｉｌｔ

ｆｏｒｒｅｓｅａｒｃｈｉｎｇＸＭＬａｐｐｒｏｘｉｍａｔｅｌｙｄｕｐｌｉｃａｔｅｄｄａｔａｃｌｅａｎｉｎｇ 

Ｋｅｙｗｏｒｄｓ ｒｕｌｅｓｌｉｂｒａｒｙ ａｌｇｏｒｉｔｈｍｓｌｉｂｒａｒｙ ｄａｔａｃｌｅａｎｉｎｇ ｅｘｔｅｎｓｉｂｌｅｍａｒｋｕｐｌａｎｇｕａｇｅ ＸＭＬ ａｐｐｒｏｘｉ

ｍａｔｅｌｙｄｕｐｌｉｃａｔｅｄｄａｔａ

１  问题的提出

由于各种原因 如数据输入错误 不同来源数

据引起的记录表示方法的不同 数据间的不一致

等 导致数据源中存在这样或那样的脏数据 主要

表现为 不正确的属性值 重复的数据记录 拼写

问题 不合法值 空值 不一致值 缩写词的不同 

不遵循引用完整性等

 

为防止垃圾进 垃圾

出 数据清理是一项重要的工作 简单地讲 数据

清理就是从数据源中清除错误数值和重复记录 

即利用有关技术如数理统计 数据挖掘或预定义

的清理规则等 从数据源中检测和消除错误数据 

不一致数据和重复数据 从而提高数据的质量 在

数据清理中 相似重复记录的检测与消除是一个

热门课题 以前被作为记录连接 合并󲖚清理 域匹

配等问题来研究 曾经是医疗 商业 税务中的一

个研究重点 在流行病的研究 欺骗检测等方面都

起到重要作用





目前 对数据清理的研究主要集中在结构化

数据上 由于半结构化数据ＸＭＬＥｘｔｅｎｓｉｂｌｅＭａｒｋ

ｕｐＬａｎｇｕａｇｅ的快速增长以及广泛应用 其在数据

清理中变的越来越重要



在ＸＭＬ数据中 字符



 年  月

第卷第期

北京航空航天大学学报

ＪｏｕｒｎａｌｏｆＢｅｉｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＡｅｒｏｎａｕｔｉｃｓａｎｄＡｓｔｒｏｎａｕｔｉｃｓ

Ｓｅｐｔｅｍｂｅｒ  

Ｖｏｌ   Ｎｏ

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38732307

粉丝: 13
资源: 928

优化XML相似重复数据清理的树编辑距离算法

一种XML相似重复数据的清理方法研究

idea插件如何解析xml数据

tcp接收xml文档数据

JS解析xml格式数据

Qt解析xml几种方法

接口返回xml格式的数据

Activit配置文件activiti.cfg.xml怎么调用方法清理缓存

xml单条数据导入navicat

c++封装xml几种方法

使用jquery实现将xml数据转为json数据

最新资源