基于义原向量的词语相似度计算及其在问答系统中的应用

版权申诉
0 下载量 135 浏览量 更新于2024-07-02 收藏 1.37MB PDF 举报
“云计算-词语相似度计算及其在问答系统中的应用研究”探讨了如何利用云计算技术解决词语相似度计算问题,并将其应用于问答系统,以提升系统的性能。 在大数据时代,互联网产生的文本信息量剧增,词语作为文本处理的基本单元,其语义理解至关重要。词语相似度计算是衡量两个词语之间语义关联强度的技术,对于自然语言处理(NLP)领域的多个应用场景,如问答系统、信息检索、词义消歧和机器翻译,都具有深远影响。本文聚焦于这一问题,提出了一种创新的解决方案。 首先,文章介绍了一种名为SIC_PageRank的义原向量生成模型。义原,源自HowNet词典,是语义的基本构成单元。在HowNet提供的义原的上下位关系结构图中,通过计算义原及其子孙义原的深度信息得到每个义原的信息容量(SIC)。结合这些信息和结构图中的连接关系,利用PageRank算法来迭代生成每个义原的向量表示,这有助于捕捉义原的语义特性。 接着,文章提出了一种基于义原向量的词语相似度计算方法。利用SIC_PageRank模型生成的义原向量,通过计算它们之间的余弦相似度来确定义原的相似性。进一步,通过义原相似度推导出概念相似度,最终计算出词语之间的相似度。在“现代汉语语义词典”的名词语义类别自动识别任务中,这种方法表现出色,与人工校对结果的一致性达到了71.9%,超过了基于最短路径距离的传统方法。 此外,文章还探讨了词语相似度计算在知识库问答系统中的应用。在问答系统中,通过计算问句谓词与候选答案谓词的相似度,结合编辑距离、词共现和分类等特征,利用RankingSVM进行候选答案的排序。在NLP&CC2016知识库问答系统评测任务的数据集上进行实验,结果显示,使用基于义原向量的词语相似度计算方法,答案识别的精确率、召回率和平均F1值分别达到了73.88%、82.29%和75.88%,均优于传统的word2vec词向量方法。 该研究通过云计算技术,特别是在词语相似度计算方面的创新,为提高问答系统的性能提供了新的思路和方法。这些成果不仅有助于改进现有问答系统,也为未来自然语言处理技术的发展开辟了新的研究方向。