融合Wikipedia类图与主题特征的短文本检索提升

0 下载量 14 浏览量 更新于2024-08-27 收藏 2.12MB PDF 举报
本文主要探讨了一种创新的短文本检索方法,结合了Wikipedia类图(Wikipedia Category Graph, WCG)和主题特征。在社交网络快速发展的背景下,短文本数据的生成量急剧增加,这些文本由于其特性——长度短、信息量有限、特征稀疏以及语法不规则,使得传统文本检索方法面临挑战。WCG作为维基百科中的结构化信息载体,蕴含着丰富的类目关系和概念链接,可以提供语义上的上下文线索。 作者针对短文本的特性,提出了一种语义特征选择策略,旨在利用WCG中的类别结构来增强文本的语义表达。他们通过分析WCG中的主题特征,设计了一种计算用户查询与目标短文本之间语义关联度的方法。这种方法不仅考虑了关键词匹配,还考虑了文本间的概念联系,提高了检索的精确性和有效性。 实验部分在Twitter子集上进行了对比测试,结果显示,融合WCG和主题特征的短文本检索方法在常用的评估指标,如Mean Average Precision (MAP),Precision at k (P@k)和Recall-Precision (R-Precision)上,相较于现有检索方法有显著的优势。这表明该方法能够更准确地识别和组织短文本信息,满足用户在信息获取方面的高效率需求。 关键词包括Wikipedia类图、主题特征、短文本和信息检索,强调了这种新型方法对于处理现代社交媒体中海量短文本数据的重要价值。此外,文章引用了T.P.391类别代码和文献标志码A,表明该研究属于信息检索领域的前沿探索,对提高文本检索的精度和效率具有理论和实践意义。这篇文章为解决短文本检索问题提供了一个新的视角和技术手段,具有很高的学术价值和实际应用潜力。