维吾尔文网络查询的扩展词构建提升算法

0 下载量 126 浏览量 更新于2024-08-29 收藏 321KB PDF 举报
维吾尔文网络查询扩展词的构建研究是针对维吾尔文网络内容检索性能提升的一项重要工作。该研究旨在通过结合维吾尔语的同义词、近义词和反义词资源,以及利用互联网作为大规模语料库,来优化查询效果。首先,研究人员构建了一个基础候选词库,包括利用维吾尔语同义词词典、近义词词典和反义词词典中的词汇。这些词典被视作提供词意丰富性和多样性的重要资源。 接着,研究者运用改进的点互信息算法对基本扩展词进行相似度评估,这是一种计算词语之间关联性的统计方法,通过比较它们在大规模互联网语料中的共现频率来确定其相关性。通过这种方法,选出与关键词最相关的前N个词,形成候选扩展词库1,从而扩大了原始查询的范围。 针对包含关键词的互联网文本,研究人员还进行了局部共现分析和点互信息分析,进一步挖掘潜在的相关词汇,形成了候选扩展词库2。这两种候选词库经过加权求和,考虑了不同来源和策略的相对重要性,最终选取部分词作为扩展词,以增强查询的精确性和召回率。 通过实际的搜索引擎查询验证,该算法显示出显著的优势,相比于传统的查询方式和仅依赖同义词查询扩展算法,能够大大提高维吾尔文网络查询的准确性和效率。这一研究不仅有助于提升维吾尔文用户的搜索体验,也为其他多语言查询系统提供了有价值的方法论参考。 本研究得到了国家自然科学基金、新疆师范大学网络信息安全与舆情分析实验室公开招标课题基金以及新疆师范大学研究生科技创新基金的支持。研究成果以年梅和张兰芳两位作者署名发表在《计算机工程》杂志上,为维吾尔文语言处理和网络信息检索领域的学术交流提供了新的视角和技术手段。