数据库查询松弛:基于语义相似度的自适应方法

2 下载量 59 浏览量 更新于2024-08-29 收藏 804KB PDF 举报
"该文提出了一种基于语义相似度的数据库自适应查询松弛方法,旨在解决查询数据库时出现空结果的问题。文章首先介绍了如何通过分析初始查询条件和数据分布来评估用户对不同属性的重视程度,从而确定属性权重。接着,文章详细阐述了两种属性值之间的语义相似度评估方法,一种针对分类属性值,另一种针对数值型属性值。这些评估方法考虑了属性值的特征信息。在此基础上,作者提出了一个自适应查询松弛重写算法,该算法依据松弛阈值、属性权重和属性值的语义相似度来调整查询条件。最后,对于满足松弛查询的近似结果,按照其对原始查询的匹配程度进行排序。实验结果显示,所提方法的属性权重评估和语义相似度评估表现稳定,评估结果合理,查询松弛方法具有较高的查全率,能有效满足用户的实际需求和偏好。该研究得到了国家自然科学基金等项目的资助,涉及的主要研究方向包括Web数据库、查询松弛、属性权重、语义相似度和查询结果排序。" 在数据库查询过程中,经常会遇到由于用户输入的查询条件过于严格而导致的空查询结果。传统的查询系统通常无法处理这种情况,而本文提出的自适应查询松弛方法通过引入语义相似度的概念,能够在不改变用户查询意图的前提下,放宽查询条件以找到更丰富的结果。属性权重评估是这个方法的关键步骤,它通过分析查询条件和数据分布来判断哪些属性对用户更重要,哪些属性可以适度放宽。分类属性值的语义相似度评估考虑了类别之间的关联性,而数值型属性值的相似度评估则可能涉及到区间、比例或单位的比较。 查询松弛重写算法则是根据设定的松弛阈值、属性权重和属性值的语义相似度动态调整查询条件,生成新的、更宽松的查询语句。这种方法的优点在于,它可以返回一组近似但仍然相关的查询结果,并且这些结果按照对原始查询的匹配程度进行了排序,用户可以根据排序选择最符合自己需求的结果,从而提高查询的满意度。 实验部分验证了这种方法的有效性,表明了提出的属性权重评估和语义相似度评估方法的稳定性和合理性。查全率的提高意味着更多的潜在相关结果被检索出来,这对于用户来说意味着更大的信息获取可能性,尤其在信息丰富的Web数据库环境中,这种自适应查询松弛方法能够显著提升用户体验。