XML文档结构相似度计算：WLCS方法

需积分: 9 155 浏览量更新于2024-09-09 收藏 255KB PDF 举报

"该资源是一篇学术论文，探讨了一种新的XML文档结构相似度计算方法——Weighted Longest Common Subsequence (WLCS)。作者田伟和吴鹏来自大连理工大学软件学院，他们针对XML文档数据挖掘中的结构表示和相似度计算问题，提出了一种结合路径频率和位置权重的算法。该方法在实际数据集上的实验结果显示，WLCS在召回率和准确率上优于现有的基于路径的相似度计算方法，特别适用于比较不同DTD（Document Type Definition）生成的XML文档的相似性。" 在XML文档挖掘领域，结构相似度的计算是一项基础且关键的任务。XML作为一种可扩展标记语言，其结构特性对于理解文档内容和进行数据挖掘至关重要。传统的树的“编辑距离”方法虽然能度量相似性，但计算复杂度高，不适合处理大规模文档。论文参考了前人的工作，尤其是基于树路径模型的方法，这些方法虽降低了复杂度，但在路径匹配上采用了严格的完全匹配策略。田伟和吴鹏的创新之处在于扩展了路径模型，引入了路径频率信息，并在匹配过程中考虑了节点的位置权重，从而提出了WLCS方法。这种方法利用最长公共子序列算法，不仅能捕捉到XML文档结构的共性，还能通过赋予位置信息不同的权重来更精确地反映结构的相似性。这种方法在处理不同DTD生成的XML文档时更具优势，因为不同DTD可能会导致结构差异，而WLCS能够更好地识别这些差异中的相似部分。此外，文中还对比了其他文献中采用的路径完全匹配策略，如文献[4]、[5]和[6]，指出这些方法的局限性。尽管文献[6]提出了一些改进，但WLCS方法在实验结果上表现更优，证明了其在效率和准确性上的优势。该论文为XML文档结构相似度计算提供了一个新的有效工具，有助于提升XML数据挖掘的效果，特别是在处理结构各异的XML文档时。这种方法的实施和应用对于XML文档分析、信息检索和数据融合等领域具有重要意义。

weixin_39840650

粉丝: 411
资源: 1万+

XML文档结构相似度计算：WLCS方法

最新资源