汉语词义消歧的新方法：语义知识融合

需积分: 0 94 浏览量更新于2024-08-05 收藏 456KB PDF 举报

本文主要探讨了结合语义知识的汉语词义消歧问题，这是一个关键的自然语言处理任务，旨在解决文本中歧义词汇在具体上下文中的确切含义识别。词义消歧的准确度对于诸多信息技术领域的应用至关重要，包括机器翻译、信息检索、文本分析和自动文摘等。这些应用场景中，机器理解文本的精确性直接影响了最终的服务质量。研究者们在不断寻求提高词义消歧方法的有效性和效率。例如，杨陟卓引入了传统的网络模型，并利用词语距离信息构建网络图，提出了基于词语距离的词义消歧策略，这强调了词汇在句子结构中的位置关系对确定其意义的重要性[1]。范冬梅则利用贝叶斯假设，设计了一种基于信息增益的特征选择方法，通过挖掘上下文词语的位置信息来优化词义分类的性能[2]。鲁松进一步发展了向量空间模型，提出一种监督学习方法，通过计算上下文向量与候选义项向量的距离，实现精准的消歧决策[3]。这种向量化方法考虑了词汇语义的相似性，有助于减少不确定性。Huang等人利用半监督统计学习技术，通过设置多种阈值扩展训练数据，提升算法的泛化能力，从而改进词义消歧效果[4]。 Niu的工作关注于混合数据的自动划分，通过改进扩展标记传播算法，优化分类结果，从而提高了词义消歧的质量[5]。这表明在处理大量数据和复杂语境时，结合有效的数据处理和算法优化是提高词义消歧准确性的关键。文章的作者张春祥、邓龙、高雪瑶和卢志茂来自哈尔滨理工大学的几个学院，他们的研究聚焦于如何结合语义知识来提升汉语词义消歧的性能。具体来说，他们可能采用了诸如词向量表示、语义网络、知识图谱等方法，将领域内的专业知识融入到词义消歧模型中，以增强模型对多义词的辨别能力。摘要部分提到了他们的研究发表在《计算机工程与应用》杂志2016年的一期上，篇名为“结合语义知识的汉语词义消歧”。结合语义知识的汉语词义消歧是当前自然语言处理领域的一个热点问题，它不仅涉及深度学习方法、统计学原理，还融合了领域知识，以期在实际应用中实现更精准的词汇理解和信息处理。

2016，52（3）

1 引言

词义消歧的目的是确定歧义词汇在特定上下文环

境中的意义。词义消歧的准确率在机器翻译、信息检

索、文本分析和自动文摘等相关应用中都有着很大的影

响。杨陟卓在传统的网络模型中引入了词语距离信息，

提出了基于词语距离的网络图词义消歧方法

[1]

。范冬梅

根据贝叶斯假设给出了一种基于信息增益的特征选择

方法，通过挖掘上下文词语的位置信息来改善词义分类

效果

[2]

。鲁松提出了一种基于向量空间模型的有监督学

习方法，通过计算上下文向量与义项向量之间的距离来

进行消歧

[3]

。Huang 结合半监督统计学习技术给出了一

种新的词义消歧算法，通过设定多种阈值来扩展训练数

据

[4]

。Niu 提出了一种混合数据自动划分方法，通过改善

扩展标记传播算法的分类结果来提高词义消歧质量

[5]

。

结合语义知识的汉语词义消歧

张春祥

1，2

，邓龙

，高雪瑶

，卢志茂

ZHANG Chunxiang

1，2

, DENG Long

, GA O Xueyao

, LU Zhimao

1.哈尔滨理工大学软件学院，哈尔滨 150080

2.哈尔滨工程大学信息与通信工程学院，哈尔滨 150001

3.哈尔滨理工大学计算机科学与技术学院，哈尔滨 150080

1.School of Softwa re, Harbin Univer sity of Science and Technology, H arbin 150080, China

2.College of Information and Communication Engineering, Harbin Engineering Univers ity, Harbin 150001, Ch ina

3.School of Computer Science and Technology, Harb in Un iversity of Sc ience and Tec hnology, Harb in 150080, China

ZHANG Chunxiang, DENG Long, GAO Xueyao, et al. Chinese word sense disambig uation with semantic knowl-

edge. Computer Engineering and Applicatio ns, 2016, 52（3）：119-122.

Abstract：Word sense disambiguation is an important proble m in nat ural language pro cessing. In order to improve the

precision of word sense disambiguation, semantic knowledge of left and right word units is mined starting from the target

polysemous word. Based on the Bayesian model, a new method of word sense disambigu ation is proposed with seman tic

information of left a nd right word units. SemEval-2007：Task#5 is used as training corpus and test corpus. The classifier

of word sense disambiguati on is optimized. Then the optimized cl assifier is tested. Experimental results show that the pre-

cision of word sen se dis ambiguation is improved.

Key words：word sense d isambiguation; polyse mous word; Bayesia n model; semantic inform ation

摘要：词义消歧一直是自然语言处理领域中的关键性问题。为了提高词义消歧的准确率，从目标歧义词汇出发，

挖掘左右词单元的语义知识。以贝叶斯模型为基础，结合左右词单元的语义信息，提出了一种新的词义消歧方法。

以 SemEval-2007：Task#5 作为训练语料和测试语料，对词义消歧分类器进行优化，并对优化后的分类器进行测试。

实验结果表明：词义消歧的准确率有所提高。

关键词：词义消歧；歧义词汇；贝叶斯模型；语义信息

文献标志码：A 中图分类号：TP391.2 doi：10.3778/j.issn. 1002-833 1.1402-0041

基金项目：国家自然科学基金（No.60903082）；教育部春晖计划（No.S2009-1-15002）；中国博士后科学基金项目（No.2014M560249）；

黑龙江省自然科学基金（No.F2015041）。

作者简介：张春祥（1974—），男，博士，教授，硕士生导师，研究领域为自然语言处理，E-mail：z6c6x6@aliyun.com；邓龙（1989—），

男，硕士研究生，研究领域为自然语言处理；高雪瑶（1979—），女，博士，副教授，硕士生导师，研究领域为自然语言处理

和图形学；卢志茂（1972—），男，博士，教授，博士生导师，研究领域为自然语言处理。

收稿日期：2014-02-10 修回日期：2014-07-17 文章编号：1002-8331（2016）03-0119-04

CNKI 网络优先出版：2014-08-29, http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1402-00 41.html

C omputer En gineering and Applications 计算机工程与应用

119

下载后可阅读完整内容，剩余3页未读，立即下载

战神哥

粉丝: 1008
资源: 325

汉语词义消歧的新方法：语义知识融合

古汉语词义消歧：向量空间模型的应用与成效

句法信息增强的汉语词义消歧方法与实验

Python自然语言处理项目：汉语词义消歧系统

论文研究-基于语义的词义消歧算法初探.pdf

融合词义消歧的汉语句法分析方法研究 (2015年)

汉语句法分析与词义消歧集成方法研究

基于神经网络的语义选择限制知识自动获取.pdf

思维导图1

统计词义消歧的核选择研究进展与挑战

Python实现汉语自动消歧系统完整教程

最新资源