结构偏好XML查询的树模式匹配算法

0 下载量 145 浏览量 更新于2024-07-15 收藏 4.93MB PDF 举报
"这篇论文探讨了在XML查询中如何处理具有结构偏好的查询问题,以提高查询的灵活性和实用性。作者提出了一种基于TreeMatch算法的改进策略,该策略利用天际线运算符来逐步筛选出满足用户优先约束的最佳部分解。文章指出,精确查询在处理半结构化文档或复杂模型时可能存在局限性,而偏好查询则能够适应这些情况,通过在评估过程中适时放宽条件来扩大搜索空间,并过滤掉非最优结果。" 在XML查询中,结构偏好查询是一种更为灵活的方法,它允许用户在不完全了解文档模型的情况下进行查询。当面对半结构化或复杂模型的XML文档时,传统的精确查询可能会导致要么得不到结果(查询太具体),要么结果过多(查询太模糊)。这是因为用户通常根据他们的预期文档模型来构建查询,这可能与实际文档结构不符。论文中提出的树模式匹配算法解决了这个问题,它受到Yao等人开发的TreeMatch算法的影响。 论文中提到的新算法利用了天际线运算符的概念,这是一种在关系数据库中用于找出无支配解集的方法。在XML查询的上下文中,这个概念被改编以逐步筛选出那些在文档树中满足最多结构偏好约束的部分解决方案。通过这种方法,算法能够在不牺牲太多精度的情况下,扩大搜索范围以找到更合适的匹配结果。同时,算法还能过滤掉那些不符合用户优先级的低质量答案,从而确保返回的是最符合用户需求的解答。 文章强调,提出的算法适用于非自包含的XML文档,这意味着文档中的元素不能完全嵌套,这为处理复杂文档结构提供了更大的灵活性。此外,这种偏好查询方法对那些没有显式文档模型(如DTD或Schema)或用户对模型了解不足的情况特别有用,因为它能够适应不确定性和歧义。 这项研究为XML查询提供了一个新的、更具适应性的方法,使得用户能够更有效地从半结构化文档中检索所需信息,无论这些文档的结构如何复杂。通过引入结构偏好和天际线运算,查询过程变得更加灵活,能够更好地满足用户的查询需求,同时降低了空结果或过大结果集的风险。