SRCSAC框架下的跨语言查询扩展算法:效果与优势

0 下载量 132 浏览量 更新于2024-08-29 收藏 589KB PDF 举报
"基于SRCSAC评价框架挖掘的跨语言查询译后扩展"是一项研究工作,主要关注在多语言信息检索场景中如何改进查询的精准性和覆盖率。SRCSAC(support-relevancy-chi-square analysis-confidence)是一个综合评价框架,它将支持度(support)、相关性(relevancy)和卡方分析(chi-square analysis)以及置信度(confidence)等多个维度融合在一起,用于评估候选扩展词的质量。研究者黄名选和朱丽娜提出了一个新颖的算法,旨在挖掘跨语言查询中的潜在翻译后扩展词汇。 算法的核心步骤包括:首先,通过支持度-关联度框架和剪枝策略来识别频繁项集,这些频繁项集与查询主题密切相关;接着,利用卡方分析-置信度框架对这些频繁项集进行加权,以确定每个候选扩展词的权重,这有助于减少查询主题漂移和词不匹配问题;最后,根据构建的扩展模型,从加权关联规则中挑选出最优质的扩展词,从而增强查询的表达能力,提高跨语言检索的准确度。 实验结果显示,该算法在多项性能指标上表现优异。例如,与传统的基准检索方法相比,前件扩展、后件扩展和混合扩展的平均地图(Mean Average Precision, MAP)分别提升了86.85%、86.04%和86.00%,显示出显著的优势。在与对比方法的对比中,对于长查询检索,算法的MAP平均增幅更高,达到12.23%、9.06%和12.6%,这显示了算法在处理复杂查询时的优越性。此外,相较于后件扩展算法,前件扩展和混合扩展的MAP可以有高达5.5%的提升,证明了置信度和关联度在不同类型的扩展策略中各有其重要作用。 这项研究为跨语言信息检索领域的查询扩展提供了一种创新且有效的解决方案,特别是在处理长查询和减少主题漂移方面,具有实际应用价值。通过结合多种评价指标和优化策略,研究人员能够挖掘出高质量的译后扩展词,提升跨语言查询的检索性能。