基于主题-标签-文档词三层模型的查询扩展方法

需积分: 5 0 下载量 88 浏览量 更新于2024-08-11 收藏 332KB PDF 举报
"一种用于查询扩展词选取的主题模型 (2013年):通过将社会化标注融入经典的LDA(Latent Dirichlet Allocation)模型,构建了一个三层主题模型,用于在搜索引擎结果集中构建贴近用户意图的主题层,并建立文档词与主题之间的映射。这种方法在伪相关反馈查询扩展词的选择中表现出色,能够描述标签的语义,并在多数情况下提高结果列表的NDCG(Normalized Discounted Cumulative Gain)值,优于基础伪相关反馈和结果集聚类方法。" 这篇论文是自然科学领域的研究,发表于2013年的《东北大学学报(自然科学版)》第34卷第3期,由张博、张斌和高克宁三位作者共同完成,其中张博和张斌是东北大学的博士研究生和教授,高克宁也是东北大学的教授。该研究得到了辽宁省自然科学基金的支持。 研究的核心在于改进传统的LDA模型,通过引入社会化标注,创建了一个包含主题、标签和文档词三层结构的主题模型。在搜索引擎优化中,查询扩展是提高搜索结果相关性的重要手段。传统的LDA模型主要处理文档和主题的关系,而在此研究中,作者通过添加标签层,使模型能够捕捉到用户的社会化标注信息,从而更好地理解用户的查询意图。 在实验部分,该模型被应用于伪相关反馈查询扩展词的选择。伪相关反馈是一种常用的技术,通过分析用户最初查询后的相关文档来选择可能的扩展词,以改进查询效果。实验结果显示,该主题模型提取的扩展词不仅能够反映标签的语义,而且在应用到伪相关反馈后,能够更全面地覆盖原始查询条件,从而提升检索结果的质量。在大多数情况下,使用该模型的NDCG值(衡量检索系统性能的指标)超过了仅使用基本伪相关反馈和结果集聚类方法的NDCG值。 关键词包括主题模型、伪相关反馈、查询扩展、扩展词选取以及社会化标注,表明了研究的主要关注点。这篇论文对于理解如何利用社会化数据改进信息检索系统,尤其是提升搜索引擎的性能,提供了重要的理论和技术支持。