XML片段检索:JUFE在INEX 2011年的方法与表现

0 下载量 137 浏览量 更新于2024-08-29 收藏 216KB PDF 举报
"JUFE at INEX 2011 Snippet Retrieval Track" 这篇摘要主要介绍了江西财经大学(JUFE)在2011年INEX( Initiative for the Evaluation of XML Retrieval)的片段检索(Snippet Retrieval Track)评测中的表现。INEX是一个国际性的学术论坛,专注于XML信息检索的评估,它由德国杜伊斯堡大学和英国伦敦大学共同发起,并已发展成为XML检索领域的重要评测机构之一。在2011年的评测中,有44个单位参与片段检索赛道,最终提交结果的系统有50个,其中就包括来自中国江西财经大学的8个参赛系统。 JUFE在此次评测中采用了基于平均主题泛化(Average Topic Generalization, ATG)模型的XML片段检索方法。ATG模型的核心思想是认为XML文档中的不同元素具有不同的角色和重要性。该模型会根据元素的标签或路径自动为每个元素分配权重。接着,JUFE提出了一种基于ATG的BM25EW模型,用于在XML文档集合中检索和排序相关元素。这个模型对最相关元素的所有窗口进行评分,从而确定它们的排名。 BM25EW模型是对经典的信息检索模型BM25的一种扩展,考虑了XML文档结构的特性。BM25模型通常考虑文档中关键词的频率和逆文档频率来计算相关性,而BM25EW则可能进一步结合ATG模型中元素的权重,以更准确地评估XML文档片段的相关性。 这篇摘要揭示了JUFE在XML检索技术上的研究和应用,特别是在将结构化信息的语义理解与检索方法结合方面所做的贡献。通过使用ATG和BM25EW模型,JUFE的系统能够在大量XML文档中高效地定位和排序相关片段,这在信息检索和数字图书馆领域具有重要的理论和实践价值。
2021-02-09 上传