融合语言特征提升中文摘要语义相关性的模型

语言特征

需积分: 14 120 浏览量更新于2024-08-13 1 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"融合语言特征的抽象式中文摘要模型" 在自然语言处理领域，摘要生成是一项重要的任务，旨在从长篇文章中提取出关键信息，形成简短的概括。传统的抽象式摘要模型虽然能生成摘要，但在保留原文语义信息方面存在不足。针对这一问题，一种融合语言特征的抽象式中文摘要模型被提出，该模型通过整合多种语言特征，提高了生成摘要的语义相关性和准确性。首先，模型创新性地引入了拼接层，它将词性、命名实体、词汇位置以及TF-IDF（Term Frequency-Inverse Document Frequency）等特征与词向量相拼接。词性信息有助于识别句子结构和语法规则，命名实体则能够捕获文章中的关键实体和专有名词，词汇位置信息可以反映词语在文本中的上下文关系，而TF-IDF则能突出那些在整个文档中重要但不普遍的词汇。这些多维度的语义信息被加入到词向量中，使得模型能够更准确地识别和理解文本的关键内容。模型还结合了指针机制，这是一种借鉴自序列到序列模型的技术，允许模型在生成摘要时直接复制原文中的某些词，以保持原文的精确性。这种机制使得摘要不仅包含了模型根据上下文推断出的信息，还能够选择性地包含原文中的关键信息，增强了摘要的忠实度和语义相关性。实验部分，该模型在LCSTS（Linghu Chinese Sentence Summary）新闻数据集上进行了验证，这是一个广泛使用的中文新闻摘要数据集。与基线模型相比，该模型的ROUGE（Recall-Oriented Understudy for Gisting Evaluation）得分更高，ROUGE是一种评价摘要质量的常用指标，它通过比较生成摘要与参考摘要的重叠度来评估摘要的质量。实验结果表明，融合了语言特征的摘要模型能够生成语义相关度更高的中文摘要，从而在信息提取和压缩方面表现优越。此外，这篇研究还得到了多项基金项目的支持，包括国家自然科学基金和上海市教委科研创新重点资助项目，这反映了该研究在学术界的重要性和影响力。作者胡德敏和王荣荣分别在计算机网络、分布式计算、云计算以及自然语言处理和深度学习方面有深入的研究背景，他们的专业背景为该模型的开发提供了坚实的基础。总结来说，融合语言特征的抽象式中文摘要模型是针对传统摘要模型的改进，它通过综合多种语言学信息并结合指针机制，提升了摘要的语义相关性和准确性。该模型的成果对中文自然语言处理领域有着积极的推动作用，为未来文本摘要的研究提供了一个新的思路和方法。

资源详情

资源推荐

收稿日期：２０１８０７２８；修回日期：２０１８０９１２　　基金项目：国家自然科学基金资助项目（６１１７０２２７，６１４７２２５６）；上海市教委科研创新重

点资助项目（１２ｚｚ１７）；上海市一流学科建设项目（Ｓ１２０１ＹＬＸＫ）

作者简介：胡德敏（１９６３），男，上海人，副教授，博士，主要研究方向为计算机网络、分布式计算、云计算（ｄｅｍｉｎｈｕ＠ｕｓｓｔ．ｅｄｕ．ｃｎ）；

王荣荣（１９９４），女，硕士，主要研究方向为自然语言处理、深度学习．

融合语言特征的抽象式中文摘要模型



胡德敏，王荣荣

（上海理工大学光电信息与计算机工程学院，上海２０００９３）

摘　要：为了解决传统抽象式摘要模型生成的中文摘要难以保存原文本语义信息的问题，提出了一种融合语言

特征的抽象式中文摘要模型。模型中添加了拼接层，将词性、命名实体、词汇位置、ＴＦＩＤＦ等特征拼接到词向量

上，使输入模型的词向量包含更多的维度的语义信息来确定关键实体。结合指针机制有选择地复制原文中的关

键词到摘要中，从而提高生成的摘要的语义相关性。使用ＬＣＳＴＳ新闻数据集进行实验，取得了高于基线模型的

ＲＯＵＧＥ得分。分析表明本模型能够生成语义相关度较高的中文摘要。

关键词：抽象式摘要模型；语言特征；关键实体；词向量

中图分类号：ＴＰ３９１．１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０２０）０２００７０３５１０４

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１８．０７．０５３１

ＡｂｓｔｒａｃｔｉｖｅＣｈｉｎｅｓｅｓｕｍｍａｒｉｚａｔｉｏｎｍｏｄｅｌｗｉｔｈｌｉｎｇｕｉｓｔｉｃｆｅａｔｕｒｅｓ

ＨｕＤｅｍｉｎ，ＷａｎｇＲｏｎｇｒｏｎｇ

（ＳｃｈｏｏｌｏｆＯｐｔｉｃａｌＥｌｅｃｔｒｉｃａｌ＆ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇ，ＵｎｉｖｅｒｓｉｔｙｏｆＳｈａｎｇｈａｉｆｏｒＳｃｉｅｎｃｅ＆Ｔｅｃｈｎｏｌｏｇｙ，Ｓｈａｎｇｈａｉ２０００９３，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＩｎｏｒｄｅｒｔｏｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｔｈａｔｔｈｅＣｈｉｎｅｓｅｓｕｍｍａｒｉｚａｔｉｏｎｇｅｎｅｒａｔｅｄｂｙｔｒａｄｉｔｉｏｎａｌａｂｓｔｒａｃｔｉｖｅｍｏｄｅｌｓｃａｎｈａｒｄｌｙ

ｐｒｅｓｅｒｖｅｔｈｅｓｅｍａｎｔｉｃｉｎｆｏｒｍａｔｉｏｎｏｆｔｈｅｏｒｉｇｉｎａｌｔｅｘｔ

，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｎａｂｓｔｒａｃｔｉｖｅＣｈｉｎｅｓｅｓｕｍｍａｒｉｚａｔｉｏｎｍｏｄｅｌｗｉｔｈｌｉｎ

ｇｕｉｓｔｉｃｆｅａｔｕｒｅｓ．Ｔｈｉｓｍｏｄｅｌａｄｄｅｄａｃｏｎｎｅｃｔｉｏｎｌａｙｅｒ，ａｎｄｓｐｌｉｃｅｄｆｅａｔｕｒｅｓｓｕｃｈａｓｐａｒｔｏｆｓｐｅｅｃｈ，ｎａｍｅｄｅｎｔｉｔｙ，ｗｏｒｄｐｏｓｉｔｉｏｎ，

ａｎｄＴＦＩＤＦｉｎｔｏｔｈｅｗｏｒｄｖｅｃｔｏｒ，ｓｏｔｈａｔｔｈｅｗｏｒｄｖｅｃｔｏｒｏｆｔｈｅｉｎｐｕｔｍｏｄｅｌｃｏｎｔａｉｎｅｄｍｏｒｅｓｅｍａｎｔｉｃｉｎｆｏｒｍａｔｉｏｎｔｏｄｅｔｅｒｍｉｎｅ

ｔｈｅｋｅｙｅｎｔｉｔｙ．Ｔｈｅｐｏｉｎｔｅｒｍｅｃｈａｎｉｓｍａｌｌｏｗｅｄｍｏｄｅｌｓｅｌｅｃｔｉｖｅｌｙｃｏｐｉｅｄｔｈｅｋｅｙｗｏｒｄｓｉｎｓｏｕｒｃｅｔｅｘｔｉｎｔｏｔｈｅｓｕｍｍａｒｉｚａｔｉｏｎｔｏ

ｉｍｐｒｏｖｅｔｈｅｓｅｍａｎｔｉｃｒｅｌｅｖａｎｃｅｂｅｔｗｅｅｎｓｏｕｒｃｅｔｅｘｔａｎｄｓｕｍｍａｒｉｚａｔｉｏｎ．ＴｈｉｓｐａｐｅｒｅｖａｌｕａｔｅｄｔｈｉｓｍｏｄｅｌｏｎＬＣＳＴＳｄａｔａｓｅｔ

，ａｎｄ

ｏｂｔａｉｎｅｄａｈｉｇｈｅｒＲＯＵＧＥｓｃｏｒｅｔｈａｎｔｈｅｂａｓｅｌｉｎｅｍｏｄｅｌ．ＴｈｅａｎａｌｙｓｉｓｒｅｓｕｌｔｓｈｏｗｓｔｈａｔｔｈｅｍｏｄｅｌｃａｎｇｅｎｅｒａｔｅＣｈｉｎｅｓｅｓｕｍ

ｍａｒｉｚａｔｉｏｎｗｉｔｈｈｉｇｈｅｒｓｅｍａｎｔｉｃｒｅｌｅｖａｎｃｅ．

Ｋｅｙｗｏｒｄｓ：ａｂｓｔｒａｃｔｉｖｅｓｕｍｍａｒｉｚａｔｉｏｎｍｏｄｅｌ；ｌｉｎｇｕｉｓｔｉｃｆｅａｔｕｒｅｓ；ｋｅｙｅｎｔｉｔｉｅｓ；ｗｏｒｄｖｅｃｔｏｒ

　　生成简洁凝练、语义连贯、保留关键信息的总结是自动文

本摘要的最终目标。根据对信息的抽取方式的不同，可将文本

自动摘要技术分为两大类：抽取式文本摘要生成方式和抽象式

文本摘要生成方式

［１］

。目前的中文摘要研究大多使用抽取式

方法，根据语言特征计算句子权重，复制比较重要的句子组成

摘要，但这种方法没有考虑句子间的连贯性，不能完整地表达

文章的含义；抽象式文本摘要生成方法应用神经网络模型，通

过对大量的数据进行训练，生成深入理解原文的新句子。与抽

取式方法提取原文的句子作为摘要不同的是，抽象式摘要方法

不是简单地从原文中提取的一些现有的段落或句子，而是对文

档的主要内容进行了压缩解释，重新措辞，使用原文档中未现

的词汇来生成摘要。抽象式方法生成的摘要更接近于人工生

成的摘要。

Ｓｕｔｓｋｅｖｅｒ等人

［２］

提出的ｓｅｑｕｅｎｃｅｔｏｓｅｑｕｅｎｃｅ模型

（简称ｓｅｑ２ｓｅｑ）和Ｂａｈｄａｎａｕ等人

［３］

提出的ａｔｔｅｎｔｉｏｎ机制，推动

了抽象式自动摘要的发展。但抽象式摘要方法仍处于早期阶

段，存在一定的局限性，比如，依赖大规模、高质量的训练集来

训练模型；适用于短文本摘要生成，在长文本上的摘要效果较

差；生成的摘要语义相关性较低，往往存在语法和语义错误。

为了提高抽象式摘要与原文本的相关度，本文提出了一种

融合语言特征的抽象式摘要模型（简称ＬＦ＿ｍｏｄｅｌ）。本文认为

抓住原文中的关键实体可以使摘要更加贴近文章的主题，考虑

了输入模型的词汇的语言特征对摘要质量的影响，将原文本的

词性标注、命名实体、词汇位置、

ＴＦＩＤＦ等特征向量化后与原

始词向量拼接在一起构建输入模型的词向量，使输入模型的向

量有更多维度的含义来抓取原文中的关键实体。考虑到未登

录词大多是原文本中的命名实体，解决

ＯＯＶ（ｏｕｔｏｆｖｏｃａｂｕｌａｒｙ）

问题有助于模型输出原文中的关键实体，本模型结合Ｇｕｌｃｅｈｒｅ

等人

［４］

提出的ｐｏｉｎｔｅｒ机制选择性地复制原文的词汇到摘要

中，从而生成与原文本语义相关度高的摘要，使用ＬＣＳＴＳ新闻

数据集来训练模型，并将生成的摘要的评价得分同基线模型进

行了对比，取得了比基线模型表现更好的实验结果。

１　相关工作

当前采用抽取式方法生成摘要的技术相对比较成熟，中文

摘要的研究大多采用抽取式的方法，根据句子的各种文本特

征，如句子长度、句子位置、句子与文章标题的相似度、语言规

则等来计算句子权重，根据句子的总权重给句子排序，选取权

重高的句子作为摘要句。

Ｒｕｓｈ等人

［５］

第一次使用ｓｅｑ２ｓｅｑ＋ａｔｔｅｎｔｉｏｎ模型进行句子

摘要任务，其中ｓｅｑ２ｓｅｑ模型也称为ｅｎｃｏｄｅｒｄｅｃｏｄｅｒ模型，使用

一个循环神经网络作为编码器读取输入的句子，将整个句子的

信息压缩到一个连续的中间语义向量中，再使用另一个循环神

经网络作为解码器读取这个中间语义向量，将其解压为目标语

言的一个句子

［３］

。Ａｔｔｅｎｔｉｏｎ机制使模型在输出端的某个节点

将注意力集中在输入部分的某一个特定部分，而不是如以往的

工作将输入部分作为一个整体均等地送入每一个输出端

［３］

，

第３７卷第２期

２０２０年２月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ３７Ｎｏ２

Ｆｅｂ．２０２０

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38592643

粉丝: 2
资源: 908

融合语言特征提升中文摘要语义相关性的模型

files2rouge：计算两个文件之间的ROUGE得分（逐行）

基于python的GPT2中文摘要生成模型代码实现

模型浅层特征和深层特征融合

如果数据特征比较抽象，那训练模型时的学习率需要增大还是减小

vgg和resnet特征融合

抽象特征和原始特征的区别

什么是物理模型抽象成逻辑模型

软件体系结构抽象模型

matlab中堆叠自编码将特征融合后怎么样得到融合后的特征

Spark Streaming对数据模型、计算模型的抽象

产生式认知模型的局限性

代码表征预训练语言模型

java语言类的抽象

为什么要进行多尺度特征融合？

yolov5多特征融合

判断，3.概念模型是对现实世界的第二层抽象。

9. 简述Structured Streaming对数据模型、计算模型的抽象

使用堆叠自编码进行特征融合

最新资源