XML文档结构相似度计算:WLCS方法

需积分: 9 0 下载量 155 浏览量 更新于2024-09-09 收藏 255KB PDF 举报
"该资源是一篇学术论文,探讨了一种新的XML文档结构相似度计算方法——Weighted Longest Common Subsequence (WLCS)。作者田伟和吴鹏来自大连理工大学软件学院,他们针对XML文档数据挖掘中的结构表示和相似度计算问题,提出了一种结合路径频率和位置权重的算法。该方法在实际数据集上的实验结果显示,WLCS在召回率和准确率上优于现有的基于路径的相似度计算方法,特别适用于比较不同DTD(Document Type Definition)生成的XML文档的相似性。" 在XML文档挖掘领域,结构相似度的计算是一项基础且关键的任务。XML作为一种可扩展标记语言,其结构特性对于理解文档内容和进行数据挖掘至关重要。传统的树的“编辑距离”方法虽然能度量相似性,但计算复杂度高,不适合处理大规模文档。论文参考了前人的工作,尤其是基于树路径模型的方法,这些方法虽降低了复杂度,但在路径匹配上采用了严格的完全匹配策略。 田伟和吴鹏的创新之处在于扩展了路径模型,引入了路径频率信息,并在匹配过程中考虑了节点的位置权重,从而提出了WLCS方法。这种方法利用最长公共子序列算法,不仅能捕捉到XML文档结构的共性,还能通过赋予位置信息不同的权重来更精确地反映结构的相似性。这种方法在处理不同DTD生成的XML文档时更具优势,因为不同DTD可能会导致结构差异,而WLCS能够更好地识别这些差异中的相似部分。 此外,文中还对比了其他文献中采用的路径完全匹配策略,如文献[4]、[5]和[6],指出这些方法的局限性。尽管文献[6]提出了一些改进,但WLCS方法在实验结果上表现更优,证明了其在效率和准确性上的优势。 该论文为XML文档结构相似度计算提供了一个新的有效工具,有助于提升XML数据挖掘的效果,特别是在处理结构各异的XML文档时。这种方法的实施和应用对于XML文档分析、信息检索和数据融合等领域具有重要意义。