基于语义链的文本蕴涵关系识别特征方法

需积分: 9 40 浏览量更新于2024-08-11 收藏 810KB PDF 举报

"这篇论文是2013年由杜永萍、张江涛和刘江利发表在北京工业大学学报上的，属于工程技术领域的研究成果，主要探讨了在语义蕴涵关系识别中的特征提取方法。" 文章重点研究了如何利用特征提取来提升文本片段之间语义蕴涵关系的判断能力。语义蕴涵关系识别是一项关键任务，它涉及到从一个文本（假设为T）推断出另一个文本（假设为H）的逻辑结论。作者指出，选择恰当的特征对于构建有效的分类器至关重要。在传统的词汇特征基础上，该研究引入了句法特征和语义特征。句法特征通常包括词性标注、短语结构等，这些信息有助于理解句子的结构和成分关系。而语义特征的引入则更进一步，通过构建语义链来挖掘T和H之间的深层语义联系。语义链是一种将词汇与它们在语义网络中的概念连接起来的方法，它可以揭示词语之间的概念关系，从而帮助识别潜在的蕴涵关系。为了验证这些特征的有效性，研究人员在公开的RTE（Recognizing Textual Entailment）数据集RTE-3到RTE-5上测试了他们的系统。RTE数据集是评估语义蕴涵识别算法的标准资源。他们使用了AdaBoost和SVM（支持向量机）两种分类器，实验结果显示，这两种分类器的准确率分别达到了61.0%和61.8%。通过t检验，作者证明了基于语义链的语义特征对系统性能的显著提升，这意味着这些新特征能有效提高系统的推理准确性和效率。关键词包括：文本蕴涵、语义链和自然语言处理，这表明该研究专注于自然语言处理中的推理问题，尤其是通过语义链来增强模型对文本语义关系的理解。文章的发表类别为“工程技术论文”，意味着它可能具有实际应用价值，如在信息检索、问答系统、机器翻译等领域。这篇论文贡献了一种新的方法来提升语义蕴涵识别的性能，特别是通过引入和利用语义链来提取更有代表性的特征，这对于提升自然语言处理系统在理解和推断文本含义方面的表现具有重要意义。

第 39 卷第 7 期

2013 年 7 月

北京工业大学学报

JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGY

Vol. 39 No. 7

Jul. 2013

语义蕴涵关系识别中的特征提取方法

杜永萍, 张江涛, 刘江利

(北京工业大学计算机学院, 北京摇 100124)

摘摇要: 为了捕捉不同文本片段之间的语义推理结果,实现文本片段之间的推导,采用基于分类器的方法进行蕴涵

关系的判断. 特征的选取是影响分类器性能的关键因素,在采用基本的词汇特征的基础上,引入了句法特征以及语

义特征. 通过构建语义链的方法挖掘 T 和 H 之间的语义关联,并应用于不同的分类器检验语义特征的有效性. 在

公开评测的数据集 RTE-3 ~ RTE-5 上评价系统的性能,AdaBoost 与 SVM 分类器取得的准确率分别为 61郾 0% 和

61郾 8% . t 检验的结果表明:基于语义链的语义特征使得系统性能得到了显著的提高.

关键词: 文本蕴涵; 语义链; 自然语言处理

中图分类号: TP 391 文献标志码: A 文章编号: 0254 - 0037(2013)07 - 1046 - 07

Method of Feature Extraction in Recognizing Textual Entailment

DU Yong鄄ping, ZHANG Jiang鄄tao, LIU Jiang鄄li

(College of Computer Science, Beijing University of Technology, Beijing 100124, China)

Abstract: To capture the semantic inference result between different text fragments and resolve the

reasoning problem of the text fragments, the classifier method was adopted to implement the entailment

decision and the feature selection was the important factor influencing the classifier performance. The

lexical features were applied in the system as the baseline and then the syntactic feature and the semantic

feature were joined. The construction of lexical chains could mine the semantic relation between T and H

and it had been used on the classifier to verify its effectiveness. The system performance had been

evaluated on the data set of RTE-3 ~ RTE -5. The classifier of AdaBoost and SVM achieved the higher

precision of 61郾 0% and 61郾 8% , respectively. The t鄄test results indicate that the semantic feature based

on the lexical chain makes the system performance improve significantly.

Key words: textual entailment; lexical chain; natural language processing

收稿日期: 2011鄄12鄄02.

基金项目: 国家自然科学基金资助项目(60803086); 北京市自然科学基金资助项目(4123091); 北京市属高等学校人才强教

深化计划“中青年骨干人才培养计划冶资助项目(PHR20110815).

作者简介: 杜永萍(1977—), 女, 副教授, 主要从事信息检索、自然语言处理方面的研究, E鄄mail:ypdu@ bjut. edu. cn.

摇摇自然语言的表达是丰富多样的,相同的语义信

息可以由不同的文本片段描述. 自然语言理解应用

中一项基本的任务就是识别语义等价的文本片段.

文本蕴涵识别( recognizing textual entailment, RTE)

任务提出了独立于应用的语义匹配任务,对于给定

的 2 个文本片段 T(text) 和 H(hypothesis),判断 H

是否能由 T 推导而来.

文本分析会议(text analysis conference,TAC)是

由美国国家标准技术局 ( national institute of

standards and technology,NIST)组织召开的国际评测

会议. 该会议为不同的自然语言处理任务提供了一

个通用的评测平台,其中,一个比较重要的任务是语

义蕴涵关系识别. 在 TAC 会议评测中,根据 T -H 对

之间不同的蕴涵关系结果,将 RTE 任务划分为 2

类:3way 和 2way. TAC 评测吸引了许多来自世界各

国的研究机构和单位参加,包括许多著名的大学和

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38635996

粉丝: 3
资源: 851

基于语义链的文本蕴涵关系识别特征方法

句法结构变换与词汇语义融合提升中文文本蕴涵识别效果

基于句法语义特征的中文实体关系抽取方法研究

词向量技术在中文词汇蕴涵识别中的应用

基于语义的恶意代码行为特征提取及检测方法

一种基于眼动轨迹的语义提取方法研究 (2013年)

基于词向量的中文词汇蕴涵关系识别_张志昌1

基于语义的三维CAD模型可重用区域自动提取 (2013年)

caffe-master.zip_Local Image Fitting_图像局部拟合_图像语义_语义 理解_语义特征提取

一种基于同义词的中文关键词提取方法 (2013年)

基于模糊聚类的自然语言语义特征 (2013年)

最新资源

caffe-master.zip_Local Image Fitting_图像局部拟合_图像语义_语义理解_语义特征提取