提升XML查询效率:扩展杜威标签方案的树模式索引与匹配算法

0 下载量 174 浏览量 更新于2024-07-15 收藏 1.92MB PDF 举报
本文主要探讨了在XML数据库索引和查询过程中,如何利用扩展的Dewey标记方案来提升效率。Dewey标记方案是一种常见的XML文档标记策略,其目的是通过在元素路径上记录信息,简化XML查询处理过程。然而,传统的Dewey标记可能无法充分利用元素的类型和标识符信息,从而导致查询效率的限制。 作者们提出了扩展Dewey标记方案,该方案旨在扩展现有标记体系,将元素的类型和标识符信息融合到标签中,以此减少在处理内部查询节点时的扫描次数,显著降低了I/O成本。这种改进对于那些频繁涉及树模式匹配的XML查询尤为重要,因为减少了不必要的I/O操作,能够提高查询的执行速度。 文章中首先介绍了名为TJFast的算法,它专用于快速响应XML树枝模式查询,通过高效利用标签信息和非输出节点进行优化。接下来,为了处理更一般的XML树模式,作者们提出了GTJFast,这是一种进一步利用非输出节点来优化性能的方法。 为了进一步降低I/O开销,作者们还引入了标签+级别数据分区策略,即TJFastTL和GTJFastTL,这使得在查询过程中可以进行级别修剪,进一步减少访问磁盘的数据量。 实验部分是本文的关键部分,全面展示了作者提出的XML树模式匹配算法集合在扫描元素数量、中间结果大小以及查询性能方面的优势,对比了它们与现有方法的效能。实验结果证实,扩展的Dewey标记方案和相应的匹配算法在实际应用中具有显著的性能提升,这对于大规模XML数据管理和查询优化具有重要的实践意义。 总结来说,这篇论文在XML查询处理领域做出了重要贡献,不仅提升了树模式匹配的效率,还提供了一种新的数据组织和索引策略,有助于优化XML数据库的查询性能,为处理海量XML数据提供了有力的技术支持。