词向量技术在中文词汇蕴涵识别中的应用

需积分: 0 142 浏览量更新于2024-08-05 收藏 414KB PDF 举报

"基于词向量的中文词汇蕴涵关系识别" 在自然语言处理领域，中文词汇蕴涵关系的识别是一项重要的任务，它涉及到理解和解析语言中的词汇如何相互关联，特别是其中一个词可能隐含或推断出另一个词的意义。这篇由张志昌等人发表的文章主要探讨了如何利用词向量技术来识别中文词汇之间的蕴涵关系。词向量是深度学习在自然语言处理中的一个关键应用，它可以将词语转化为多维空间中的向量，使得语义相近的词在空间中距离较近，从而便于计算词语之间的相似性和关系。在本文中，作者首先回顾了词汇蕴涵关系识别的几种传统方法，包括基于规则的方法、基于词典的方法和基于统计的方法。这些方法通常依赖于手动构建的规则、大规模的语料库或者词典资源来判断词汇之间的关系。接着，作者提出了利用词向量进行中文词汇蕴涵关系识别的新方法。他们通过训练词向量模型（如Word2Vec、GloVe等）在中文维基百科这样的大规模语料库上，将每个词转化为高维向量表示。这些词向量不仅捕捉了词汇的共现信息，还蕴含了词汇的语义特性。然后，作者设计了一系列基于词向量的分类特征，比如两个词向量的余弦相似度、欧氏距离等，以及词向量的相对位置信息，用于构造支持向量机(SVM)分类模型。SVM是一种有效的分类算法，能处理高维特征空间，并在许多文本分类任务中表现出色。实验结果显示，相比于传统的余弦相似度方法，该方法以及基于词向量的分类特征在识别词汇蕴涵关系时表现出了显著的优势。这表明，利用词向量技术可以更准确地捕捉到中文词汇间的语义关系，为自然语言理解、信息检索、机器翻译等应用提供了更为精准的基础。关键词：文本蕴涵、词汇蕴涵、词向量、蕴涵特征、支持向量机这篇研究的工作不仅丰富了中文词汇关系识别的理论框架，也为实际应用提供了新的工具和技术，对于进一步提升自然语言处理系统的性能有着积极的影响。通过词向量的使用，研究者能够更深入地理解中文语言的内在结构和含义，推动了自然语言处理领域的发展。

第

卷第

期

Vol． 42 No． 2

计算机工程

Computer Engineering

2016

年

月

February 2016

人工智能及识别技术

文章编号

： 1000-3428（ 2016） 02-0169-06

文献标识码

： A

中图分类号

： TP391

基金项目

：

国家自然科学基金资助项目

（ 61163039，61163036，61363058）；

西北师范大学青年教师科研能力提升计划基金资助项目

（ NWNU-

LKQN-10-2

，NWNU-LKQN-12-23）。

作者简介

：

张志昌

（ 1976 －），

男

，

副教授

、

博士

，

主研方向为自然语义处理

、Web

挖掘

；

周慧霞

、

姚东任

，

硕士研究生

；

鲁小勇

，

工程师

。

收稿日期

： 2015-08-17

修回日期

： 2015-09-16 E-mail： zzc@ nwnu． edu． cn

基于词向量的中文词汇蕴涵关系识别

张志昌

，

周慧霞

，

姚东任

，

鲁小勇

（

西北师范大学计算机科学与工程学院

，

兰州

730070）

摘要

：

英文词汇蕴涵关系识别已有较多研究

，

并提出许多识别模型

，

但针对中文的词汇蕴涵关系获取则鲜有研

究

。

为此

，

提出一种中文词汇蕴涵关系识别方法

。

利用词向量技术

，

在中文维基百科语料上进行训练

，

将词汇表示

为词向量

，

设计各种基于词向量的分类特征

，

训练得到可用于名词词汇蕴涵关系分类的支持向量机分类模型

。

实

验结果表明

，

与传统的余弦相似度方法相比

，

该方法以及设计的各种分类特征在词汇蕴涵关系识别方面具有明显

优势

。

关键词

：

文本蕴涵

；

词汇蕴涵

；

词向量

；

蕴涵特征

；

支持向量机

中文引用格式

：

张志昌

，

周慧霞

，

姚东任

，

等

．

基于词向量的中文词汇蕴涵关系识别

［J］．

计算机工程

，2016，42（ 2）：

169-174．

英文引用格式

： Zhang Zhichang，Zhou Huixia，Yao Dongren，et al．Ｒecognition of Chinese Lexical Entailment Ｒelation

Based on Word Vector［J］． Computer Engineering，2016，42（ 2）： 169-174．

Ｒecognition of Chinese Lexical Entailment Ｒelation Based on Word Vector

ZHANG Zhichang，ZHOU Huixia，YAO Dongren，LU Xiaoyong

（ School of Computer Science and Engineering，Northwest Normal University，Lanzhou 730070，China）

【Abstract】A utomatic recognit ion of English lexical entailment relation has many researches，and many recogni tion

models are presented． But study on Chines lexical entailment is not sufficient while there have many studies on English

lexical entailment from different poi nts of view ． This paper proposes a recognition method of Chinese lexical entailment

relation based on word vector，it uses word vector technology on Chinese Wikipedia corpora，and word is represented as

word vector． Word vector based classification features are designed，and Support Vector Machine （ SVM ） model for

Chinese noun lexical entailment classification is trained on manually created Chinese lexical entailment data set．

Experimental results show that the method and designed classification features have good performance on lexical

entailment relation recognition compared with tradit ional cosine similarity method．

【Key words】textual entailment； lexical entailment； word vector； entailment feature； Support Vector Machine（ SVM ）

DOI： 10． 3969 /j． issn． 1000-3428． 2016． 02． 031

概述

文本蕴涵识别

（Ｒecognition Texutal Entailment，

ＲTE）

是自然语言处理领域的重要研究内容之一

［1］

，

任务是在给定

个句子或者段落

（

称其中一个为文

本

T，

另一个为假设

H）

的条件下

，

判断

是否蕴涵

H，

或者

的含义是否能从

中推导出来

。

文本蕴

涵识别在信息检索

、

问答系统

、

机器翻译等方面都有

重要应用

。

已有研究表明

，

词汇蕴涵知识越丰富

，

对文本蕴

涵识别的帮助会越大

［1-3］

。

因此

，

借助大规模文本语

料库

，

从中抽取大量的词汇蕴涵规则

，

则是提高文本

蕴涵识别性能的关键

。

而在抽取词汇蕴涵规则时

，

经常需要判断给定的

个词之间是否存在蕴涵

关系

。

本文针对判断中文词汇是否存在蕴涵关系的问

题

，

首先利用词向量技术在中文维基百科语料进行

训练

，

将词汇表示成词向量

，

然后基于词向量构造各

种有效的分类特征

，

通过训练

SVM

分类器对候选名

词词汇蕴涵关系对进行分类判断

。

下载后可阅读完整内容，剩余5页未读，立即下载

陈后主

粉丝: 39

词向量技术在中文词汇蕴涵识别中的应用

基于语义链的文本蕴涵关系识别特征方法

基于知识主题模型的文本蕴涵识别

语义蕴涵关系识别中的特征提取方法 (2013年)

基于知识话题模型的文本蕴涵识别与面向中文专利文献的有标记并列结构的统计分析.pdf

基于分变量模糊蕴涵关系的无规则模糊逻辑系统的自适应控制应用

论文研究-基于分变量模糊蕴涵关系的无规则模糊逻辑系统的自适应控制应用.pdf

深度学习用于文本蕴涵识别

基于连续三角范数的蕴涵分布方程（I）

7-模糊蕴涵关系的计算方法1

使用概率推理识别文本蕴涵

最新资源