自动摘录算法：指代消解与篇章结构分析结合

下载需积分: 0 | PDF格式 | 289KB | 更新于2024-08-05 | 199 浏览量 | 举报

"基于指代消解和篇章结构分析的自动摘录算法1" 本文主要探讨了一种新的自动摘录算法，该算法结合了指代消解和篇章结构分析，旨在解决传统自动文摘方法在处理指代关系和文章结构上的不足。传统的自动文摘技术往往会导致生成的摘要中指代关系模糊，同时忽视了文章结构与主题思想之间的关联。针对这些问题，研究者郑诚、刘福君和李清提出了一个创新的解决方案。首先，文章介绍了采用有限知识的思路来执行指代消解。指代消解是自然语言处理中的一个重要任务，它涉及到识别文本中代词或其他表达所指的具体实体。在自动摘录过程中，正确解析指代关系对于保持摘录内容的语义连贯性至关重要。通过有效地解决指代消解问题，可以提高句子权重计算的准确性，从而选择出更符合原文主题的句子作为摘要内容。其次，算法在进行主题划分时，考虑了篇章结构的识别。篇章结构分析是理解文章内容和组织结构的关键，尤其是对于那些有明显段落结构的文章。通过对段落标题信息的分析，算法能够识别出文章的主题部分，有助于更精确地提取反映文章核心内容的句子。在实验部分，该算法在受限的金融领域文本上进行了测试，结果显示，该算法在准确率和召回率上表现出色。这表明，结合指代消解和篇章结构分析的自动摘录方法对于理解和提炼特定领域文本的摘要具有显著优势，尤其对于那些结构清晰、主题明确的文档。这篇研究论文提出的自动摘录算法为自然语言处理和信息检索领域提供了一个有价值的工具，它改进了传统方法的不足，提高了自动文摘的质量和可读性。关键词包括自然语言处理、自动摘录、向量空间模型、主题划分、篇章结构和指代消解，这些都反映了算法的核心技术和应用领域。

————————————

基金项目

基金项目基金项目

基金项目：

：：

：安徽省自然科学基金资助项目(11040606M133)

作者简介

作者简介作者简介

作者简介：

：：

：郑诚(1966－)，男，副教授、博士，主研方向：语义信息检索，数据挖掘；刘福君、李清，硕士研究生

收稿日期

收稿日期收稿日期

收稿日期：

：：

：2011-10-20 修回日期

修回日期修回日期

修回日期：

：：

：2011-12-05 E-mail：

：：

：liufujun860324@163.com

基于指代消解和篇章结构分析的自动摘录算法

基于指代消解和篇章结构分析的自动摘录算法基于指代消解和篇章结构分析的自动摘录算法

基于指代消解和篇章结构分析的自动摘录算法

郑

郑郑

郑

诚

诚诚

诚，

，，

，刘福君

刘福君刘福君

刘福君，

，，

，李

李李

李

清

清清

清

(安徽大学计算机科学与技术学院，合肥 230039)

摘

摘摘

摘要

要要

要：

：：

：传统自动文摘方法生成的文摘结果指代关系模糊，且对于某些段落结构有规律的文章，没有分析文章结构与主题思想之间的关系。

为此，提出一种基于指代消解和篇章结构分析的自动摘录算法。采用有限知识的思路完成指代消解，利用指代消解解决文摘语义不连贯问

题，以提高句子权重计算的准确性，对文章做主题划分时进行篇章结构识别，按照段落标题信息划分段落结构。实验结果表明，该算法在

受限金融领域文本自动摘录中，具有较高的准确率和召回率。

关键词

关键词关键词

关键词：

：：

：自然语言处理；自动摘录；向量空间模型；主题划分；篇章结构；指代消解

Automatic Extraction Algorithm Based on Anaphora Resolution

and Text Structure Analysis

ZHENG Cheng, LIU Fu-jun, LI Qing

(School of Computer Science and Technology, Anhui University, Hefei 230039, China)

【

【【

【Abstract】

】】

】There are some problems should be considered in automatic extraction of traditional methods: Conference relations in the result of

automatic extraction are not clear, some relationships between obvious structures of paragraphs and the theme of the text are not paid enough

attention. For which, this paper presents a method based on anaphora resolution and text structure analysis, which combines the traditional statistics

with regulars on automatic abstract. This method applies limited knowledge to pronoun resolution, which is to solve the problem of semantic

incoherence, also to improve the precision when computing sentences’ weight. Based on sequential paragraphic similarity, this method can recognize

obvious topics to partition text. Experimental results show that this method improves precision and recall when it is applied for limited-financial

field.

【

【【

【Key words】

】】

】Natural Language Processing(NLP); automatic extraction; Vector Space Model(VSM); topic segmentation; text structure; anaphora

resolution

DOI: 10.3969/j.issn.1000-3428.2012.16.044

计算机工程

Computer Engineering

第 38 卷第 16 期

Vol.38 No.16

2012 年 8 月

August 2012

··

·人工智能及识别技术

人工智能及识别技术人工智能及识别技术

人工智能及识别技术·

··

文章编号

文章编号文章编号

文章编号：

：：

：1000—

——

—3428(2012)16—

——

—0170—

——

—04

文献标识码

文献标识码文献标识码

文献标识码：

：：

：A

中图分类号

中图分类号中图分类号

中图分类号：

：：

：TP301.6

概述

概述概述

概述

随着自然语言处理

(Natural Language Processing, NLP)

技术的发展，分词与词性标注技术已发展到相当成熟的地

步，目前大部分词性标注工具对文本的标注正确率都达到

了

%以上，解决了汉语句子分析中的层次问题，将含有

一定意义的句子划分成具有最基本语义的元素，有利于将

句法分析的复杂度各个击破，从而促进了自然语言处理的

发展，如基于组块的研究、指代消解的研究方法。

文献

[1]

将现有各种自动文摘技术方向归结为自动摘

录、基于理解的自动文摘、信息抽取和基于结构的文摘。

基于上述观点，结合中文文本特点，中文自动文摘研究方

法分类如下：

(1)

基于语料库方法，是一种改进的具有一定

语义信息处理的字频统计方法。

(2)

用概念模型进行信息

抽取的方法，主要采用

Ontology

描述应用领域的元素，

并形成领域概念树来描述领域元素之间的关系。

(3)

基于

Ontology

的智能信息提取方法。

(4)

利用知识库提取文本

信息的方法。

(5)

结合文本语义的形式化模型，即建立语境

框架。

(6)

分析篇章多级依存结构提取中心成分，采用该方

法已研发出

HIT-863

Ⅱ系统。

自动摘录的方法综合利用词频、标题、位置、句法结

构、线索词和指示性短语等特征

[2]

的有机结合，考虑到文

本形式的规律，能够适用于非受限域。但是由于各种文章

的特征不一定符合同样的规律，因此该方法生成的摘要存

在着反映主题不全面、主题冗余，以及语义不连贯的问题。

本文提出一种基于指代消解和篇章结构分析的自动

摘录算法。针对金融领域，采用基于统计和规则的自动摘

录方法，通过基本的指代消解方法，解决自动摘录方法面

临的问题

[3]

。

指代消解处理

指代消解处理指代消解处理

指代消解处理

由于文摘候选句是根据句子权重将句子从文中的不

下载后可阅读完整内容，剩余4页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

kdbshi

粉丝: 801

自动摘录算法：指代消解与篇章结构分析结合

基于决策树的指代消解算法

基于决策树的中文名词短语指代消解

基于单文本指代消解的人物家庭网络构建研究

基于混合策略的藏文人称代词指代消解研究

基于神经网络的端到端的事件指代消解研究.pdf

基于深度学习的维吾尔语人称代词指代消解.pdf

基于深度学习的维吾尔语名词短语指代消解.pdf

基于SpanBert中文指代消解的pytorch实现源码（高分课程设计）.zip

优化中文指代消解：训练样本比例的影响与改进遗传算法

决策树驱动的中文指代消解算法：大四学生秦兵的毕业论文探讨

最新资源