姚建仁、王枞:基于统计的中文自动文摘系统研究

需积分: 10 1 下载量 129 浏览量 更新于2024-09-06 收藏 319KB PDF 举报
本文主要探讨了一种基于统计的自动文摘系统,由姚建仁和王枞两位作者在北京邮电大学计算机学院提出。自动文摘是自然语言处理领域的一个关键任务,旨在从大量文本中自动生成简洁而准确的摘要,以反映原文的主要内容。本文创新地采用了连续段落相似度的主题划分算法,这种方法旨在增强生成文摘的全面性和结构平衡性,确保摘要不仅包含核心信息,而且组织有序。 在方法上,该系统首先通过统计关键词在文本中的频率,计算每个关键词的权重,这包括考虑关键词在单篇文档中的出现次数、在整个文档集中的文档数量以及关键词在所有文档中的总出现次数。然后,通过对句子和段落的权重计算,选择关键句子作为摘要的基础。特别地,段落的首尾句由于通常承载着文章的主旨,被赋予更高的权重。 然而,传统的概率统计方法存在一些局限性。首先,关键词的重要性仅依赖于频率,可能导致非关键但频繁出现的词被误判。其次,该方法没有充分考虑文章的结构,可能割裂了上下文的连贯性。最后,它忽视了关键词间的语义关联,这意味着生成的摘要可能缺乏深度和连贯性。 为了改进这些问题,本文的系统结合了一些规则对初步生成的文摘进行可读性加工,这可能涉及到语法调整、句子重构或者加入上下文信息,以提高最终摘要的易读性和连贯性。在系统测试中,结果显示不论在何种压缩率下,该方法生成的摘要的评估值表现出较好的稳定性,这表明其在实际应用中具有一定的实用价值。 本文的研究工作针对自动文摘领域的挑战,提出了一种新颖且实用的方法,通过结合概率统计和语义分析,旨在生成既全面又结构均衡,同时具有良好可读性的自动文摘,为自然语言处理领域的文本摘要技术做出了贡献。关键词如自动文摘、向量空间模型、主题划分和评价,都反映出本文的核心关注点和研究重点。