图独立集的文本文件摘要方法

78 浏览量更新于2023-12-09 收藏 936KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志21（2020）145基于图独立集的Taner Uçkana，AliKarckanbaVan Yüzüncü Yıl大学，计算机程序设计系，65000 Van，土耳其b土耳其伊诺努大学计算机工程系，44000 Malatya阿提奇莱因福奥文章历史记录：收到2019年2019年12月6日修订2019年12月22日接受2020年1月3日在线提供保留字：图独立集基于图的文档摘要通用文档摘要抽取式文本摘要多文档文本摘要A B S T R A C T我们提出了一种新的方法，提取，通用摘要的文本文件。在本研究的背景下使用了之前未在任何总结研究中使用的最大独立集。此外，本文还提出了一个文本处理工具KUSH，用于在介绍性文本的表示阶段保持句子之间的语义衔接。我们的预期是，与独立集合中的节点相对应的句子集合应该被排除在摘要之外。基于这种预期，在图上形成独立集的节点被识别并从图中移除。因此，在量化节点对全局图的影响之前，对要汇总的文档应用限制。这一限制防止了要包括在摘要中的词组的重复。使用ROUGE评估指标计算了所提出的方法在文档理解会议（DUC-2002和DUC-2004）数据集上的性能所开发的模型实现了0.38072 ROUGE perfor-mance值为100字的摘要，0.51954为200字的摘要，和0.59208为400字的摘要。在整个研究的实验过程中报告的值揭示了这种创新方法的贡献。©2019由Elsevier B.V.代表开罗大学计算机与人工智能学院制作和主办。这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍随着互联网技术的飞速发展，互联网上的电子文档数量以惊人的速度增长。在当今数据快速增长的时代，人们可以从各种来源即时获取和共享信息。互联网已经提供了对数十亿文档的访问。随着每秒的增加，在很短的时间内可以看到数据的指数级增长。搜索引擎能够通过利用几个用户输入来列出最相关的文档或网页。然而，即使是最发达的搜索引擎也缺乏综合信息的能力，*通讯作者。电子邮件地址：taneruckan@yyu.edu.tr（T.Uçkan），ali.karci@ inonu.edu.tr（A.Karckirk）。开罗大学计算机和信息系负责同行审查。制作和主办：Elsevier找回因此，信息的这种疯狂增长提出了信息管理的问题，需要能够处理数据的工具作为应对这些问题的手段[1]。尽管在文档摘要方面取得了最新进展，但这个问题尚未完全解决。自动文档摘要旨在找到检测文本中最重要信息的方法，并随后将其压缩以便于读者使用[2]。此外，为了缩短访问信息所花费的时间，有必要通过处理数据来获得某些特征[3]。这些问题增加了自动文本摘要系统领域的兴趣[1]。这种丰富的数据可用性无疑提高了人类的生活，但同时也使快速获取准确信息变得越来越困难。因此，研究人员越来越多地研究自动化文本摘要技术，以便通过增强或新方法实现更高的效率[5]。然而，尽管在文档摘要领域进行了所有的研究，但改进和创新的需求并没有减少[2]。自动文档摘要是自然语言处理（NLP）的一个重要子主题，其目标是以压缩和可理解的形式呈现长文本文档[6]。文档摘要https://doi.org/10.1016/j.eij.2019.12.0021110-8665/©2019制作和主办由Elsevier B. V.代表开罗大学计算机和人工智能学院这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com146T. Uçkan，A.Karcket/ Egyptian Informatics Journal 21（2020）145技术通常可以分为两类：提取和抽象。抽取式文档摘要包括三个阶段：文本表示、句子评分和句子选择。摘要是通过自然语言生成方法解释文档的主要内容，然后重新表达以形成摘要[7，8]。根据要汇总的文件数量，它们也可以分为单文件和多文件最初的研究是以单文档摘要的形式进行的已经开始进行多文档摘要研究，并且已经开发了应用于多个文本文档的方法[6，9，10]。摘要也可以分为通用的或以查询为中心的[11]。绝大多数研究者进行的研究都是基于类属总结。在这种类型的摘要中，对形成摘要的目的做出了一些有限的假设，并且在试图覆盖尽可能多的信息的同时保持了一般内容另一方面，以查询为中心的摘要旨在根据用户确定的查询进行摘要，并返回与文本中主题相关的信息[12在所提出的框架中，用于自动文档摘要的图独立集[15]在使用密集图论技术的独特方法中使用作为所提出的摘要系统的一个阶段，使用称为KUSH（以其开发者Karckan、Uçkan、Seyyarer和Hark命名）的处理工具来确保以最准确的方式将句子之间的连接和关系转移到表示图。这种创新的软件工具在句子和相应的图形之间传递语义上可区分和更准确可测量的关系方面对性能值产生了非常积极的影响。在目前的研究中，所提出的文档摘要方法的性能进行了测试，使用两个公开可用的数据集; DUC-2002和DUC-2004。的性能结果，并与现有的各种方法进行比较。所提出的方法的创新贡献可以总结如下：使用KUSH文本处理工具，通过消除单词及其含义的不确定性来获得图形，从而实现最大的图形表示。结合两个重要的概念来建模抽取文本摘要器：文本图和最大独立集。最大独立集是在文本开发处理工具后获得的文本图上确定的在下一阶段中，形成独立集的节点从代表图中移除。这样，就有可能确定应列入所要总结的文件摘要的主要思想和概念。以前的文档摘要研究都没有使用最大独立集。然而，目前的研究发现，它提供了一个相当强大和简单的框架，作为总结的基础上的数学方法的文本研究的其余部分组织如下：在第3节中，提供了关于所提出的求和方法、文本图、所提出的文本预处理工具和图独立集的一般阶段的信息。在第4节中，给出了所使用的数据集和评估指标的信息，给出了所提出的用于总结文本的方法的实验结果，并将所提出的模型与最先进的方法进行了比较。最后，在第5节中，对实验结果进行了讨论和解释。2. 相关工作对短语或句子进行评分并获得摘要是自动提取摘要中最常用的方法。句子评分在今天应用的大多数方法中被采用。评分方法分为单词评分、句子评分和图形评分[16]。在单词评分方法中，考虑包含文本中单词频率的句子的重要性进行评分[17在文本评分方法中，考虑了单词的形式属性（加粗，斜体，下划线）[21]。此外，文中以“简要地”、“最后”和“作为结果”等短语开头的句子类似地，评价是基于要总结的文本的标题。包含标题中的单词的句子被认为是添加到摘要中，其重要性级别相应增加[22]。句子评分方法还考虑到句子的尺寸，对尺寸较大的句子给予更大的重视[21，23]。通过确定句子的位置以及它是否涉及数值来为句子分配分数[18，20，24]。参考文献[25]的作者描述了提取摘要方法的设计和评估，作为帮助学习者阅读困难的一种方式。基于图的表示经常用于文本分析方法，因为它们提供了非常有效的解决方案。在参考文献[9]中，作者提出了TextRank，它包含基于图形的表示，用于使用文本内容的交叉进行摘要。同样，LexRank在Ref中引入[13]利用基于特征向量中心的算法，节点中心方法之一TexRank和LexRank算法都受到PageRank算法的启发[26]，PageRank算法是一种文档摘要框架，用于使用术语和句子集之间的互信息获取文档中的中心句子[27]。见参考文件[28]，采用了文档、句子和单词的多层表示作者Ref。[29]在他们的研究中通过利用链接生成自动文档摘要来描述具有图形的他们通过揭示文档中的文本关系来定义结构，并通过与人工创建的摘要进行比较来评估摘要。见参考文件[30]，提出了一种基于图的方法，以提供语义连续性，节点对应于文档的术语，边反映这些节点之间的基本上，对图中的所有节点执行图直径计算，并且最短和最长路径被描述为最弱和最强键。虽然图结构和文档在参考文献中定义。[31]，节点和边是基于局部相似性创建的随机漫步被用来获得主要文件的摘要。见参考文件[32]提出了一个生物医学领域的文摘系统使用一个名为统一医学语言的系统，通过基于半字典的应用程序获得基于概念和关系的图，然后应用PageRank算法见参考文件[12]作者提出了一种新的基于强化随机游走的图虽然大多数研究者都集中在抽取式文本摘要上，但也有一些研究者在抽象式摘要上取得了很好的效果。在参考文献[33]中，使用RNN结构执行抽象的多句摘要。同样，Refs。[34，35]也是抽象概括领域的作品在目前的研究中，我们介绍了一个创新的和非常简单的文本摘要系统，●●●●●T. Uçkan，A.Karcket/ Egyptian Informatics Journal 21（2020）145147自动文档摘要研究更进一步。表1中列出了上述文献中的例子，作为该研究领域的历史视图。从文献中可以看出，已经有一些基于图形的研究。拟议研究的差异主要始于预处理阶段。使用为本研究开发的预处理工具，对段落进行预处理，以确定句子之间的关系到最高水平。另一个也是最重要的区别是所提出的方法的一个重要特征是通过分析图中的节点来寻找独立的聚类。在确定最大独立集簇时，考虑图中节点的独立程度。摘要抽取研究中，在确定摘要中包含的句子时，期望被选择的句子具有最大的覆盖值。换句话说，预计要选择的句子的主要思想的携带率将很高。这要求该句子与其他句子相比具有更多的单词，即，不独立的句子。通过使用最大独立集，找到独立节点并选择远离段落的主要思想的句子，从而增加句子被选择用于摘要的可能性。目前，求最大独立集的问题仍然是一个NP难问题。寻找最大独立集的过程尚未达到最佳结果，在目前的研究中可以被视为一个弱点。将认真寻求解决这一问题的新方法3. 建议的汇总方法一个为文本摘要提出的文档摘要框架的阶段框图如图所示。1.一、本文提出了一种基于图的通用、抽取式多文档摘要方法，用于从给定的文本中抽取所提出的文档摘要方法包括三个主要阶段。在第一阶段，非歧视性停用词（例如，代词、介词、连词）从数据集中删除一些preprocesses执行的开发KUSH文本预处理工具。当形成在拼写上彼此不同但在语义上彼此相同的近义词的图形时，从一个共同的词根派生，防止它们被当作不同的词来处理。在第二阶段中，短语之间的单词共同点被数学地和图形地表示。此外，该阶段包括确定形成最大独立集的节点以及从主图中移除与这些节点相对应的句子。最后一个阶段是使用特征向量节点中心性方法对组成文档的句子进行加权，并选择重要句子。在所提出的方法的这个阶段，前N个短语被组合，并且分别创建200和400字的摘要。然后，使用许多不同的ROUGE per-technology指标详细测试了该框架的成功。3.1. 文本预处理和KUSH大多数密集数据集都没有配置，很少有相关数据集是结构化格式的。结构化数据集是那些可以用表的行和列表示或使用许多标记的数据集。在目前的研究中，可以通过忽略复杂和耗时的过程来为正在研究的数据提供某种结构。对于不具有特定完整性但需要结构化的数据集，需要进行一定程度的预处理。据预测，将用作系统输入的文本转换为可工作的格式，并将其与不必要的非歧视性数据隔离开来，将提高系统的性能，因为密集的聚类是在自然语言中形成的[3]。在文本摘要过程中，要研究的数据需要一定程度的预处理。停用词（例如，代词、介词、连词）是没有区别特征的表达，并且在尝试概括之前应当从数据集中移除出于这个原因，句子中的非代表性单词被从原始数据集中删除，以便通过将数据转换为所需格式来执行文本摘要，以便可以对其进行研究。因此，处理负荷被减少，并且继续处理具有分类意义的单词在当前研究范围内使用的DUC-2002和DUC-2004数据集中，要用图形表示的文本存储在扩展名为.txt在这项研究中，规范化步骤，这是指丢弃停止字，空格和不需要的字符，使用Python语言库和标签进行表1文本总结了文献中的研究。作者，出版年份汇总类型单/多模型[17]卢恩，1958年采掘单个统计方法[29]Salton等人，1997采掘多超文本链接生成算法[13]Erkan等人，2004采掘多基于图的特征向量中心性方法[36]Mihalcea等人，2005提取通用单个基于图的PageRank[30]第30话关键词提取单个基于图的词法链方法[37]Fattah等人，2009采掘多Ga，Mr，Ffnn，Pnn，Gmm[38]Shardan等人，2010采掘单个语义网，模糊逻辑进化规划[31]Chen等人，2011关键术语提取单个基于图的随机游走方法[32]Plaza等人，2012采掘多基于图的方法UML[23]Abuobieda等人，2012采掘单个特征选择遗传学概念[34]Moawad等人，2012抽象单个语义图约简[39]Gupta，2013采掘多机器学习[28]Canhasi等人，2014以查询为中心多基于图的矩阵分解方法[35]Linqing Liu et al.，2014抽象多强化学习[20]Student等人，2015采掘单个句子抽取，遗传神经网络[27]Parveen等人，2015采掘单个基于图的ILP[33]Nallapati等人，2016抽象多递归神经网络[12]熊骥，2016以查询为中心多基于超图的排名[19]Nasr Azadani等人，2018采掘单个图聚类频繁项集148T. Uçkan，A.Karcket/ Egyptian Informatics Journal 21（2020）145原始输入文本查找和删除最大独立集建议阶段传统舞台561摘要文件（200和400字）预处理停用词删除第一个文本图独立节点新文本图2479库什3文本处理与文本图的建立Sentence Encoder常用词句子是节点常用词为边缘节点中心性8概要生成提出了基于Alg.1的词转换方法特征向量中心性句子排名选句Fig. 1. 建议的文档摘要模型的示意图。这些标准化步骤构成了数据预处理和准备阶段的第一部分。此外，当形成在拼写方面彼此不同但在语义上源自共同词根的相近含义的单词的图时，它们被处理为好像它们是不同的单词，这使得难以识别句子之间的连接和关系。据预测，这个问题将显着影响摘要的性能，因此，文本处理工具的框架内提出的模型。这个软件工具，我们命名为KUSH，是在.NET平台上使用C#开发的。算法1中给出了所提出的KUSH预处理工具的步骤，算法2中给出了最佳备选搜索函数的伪代码。算法1. KUSH算法输入：{text} -日常语言输出：{kush_text}-KUSH算法处理的文本1‘‘text2sentences =[]，words =[]，alternative =[];3best_alternative = 0，kush_text ={}4sentences [] = text.Split（.）;5for c to len（sentences）do6sentences [c] = clear（c）;7端8[] = sentences.Split（.）;9for k to boyut（单词）do10alternative [k] = alternative_search（words [k]，words）;11为你选择做12best_alternative = best_alternative_search（k，alternative）;13端14[k] = best_alternative;15端16对于k到单词做17kush_text+= k+18端19return kush_text;算法2.最佳选择搜索算法的伪代码1. 输入：从原始文本2. 输出：升级的词向量与最佳替代品3. n：控制要比较的两个单词的前几个字符必须相等4. fori：0 to length（WordVector）第1步：5.forj：0 to length（WordVector）步骤1：6.如果第i个字包含第j个向量#检查索引j中的单词是否在索引i中的单词的任何子部分中7.如果第i个subn charter =第j个n字符（默认n= 2）//要比较的两个单词的开头字符中至少有n个必须相同。//因此，它是che;cked是否这些词来自同一个起源。//否则，一个单词可能会出现在另一个单词的中间或末尾，并且应用了不正确的更改。8.将第i个值替换为第j个值9.end if10.end if11.结束j3.2. 文本图已经提出了许多不同的方法来表示信息[40，41]。在这项研究中，加权和无方向图用于信息表示。在创建图表之前，数据要经过预处理和准备阶段。在数据预处理和准备之后，所提出的文档摘要模型创建与文本相对应的图形，以便以文本格式对数据进行摘要。在这一部分中执行的操作对应于如图1所示的图2中显示了一个简单的文本示例，以及为该文本创建的相应图形。当执行转换时，得到句子-词图，其中节点由句子表示，边由公共词编号表示。句子对之间的关系水平由T. Uçkan，A.Karcket/ Egyptian Informatics Journal 21（2020）145149\\.Σð Þ8¼ ðÞnn-m个图二. DUC-2002数据集中文档d 061在使用KUSH工具转换后的文本图。计算每个句子与所有其他句子的词交集的数目。通过这种方式，我们可以以图形化的方式表达句子以及它们之间的关系，具有高水平的代表性。为文本中的每个句子添加一个节点到代表图对于节点间的边，考虑文本中短语的相交字数，增加边的权重。KUSH算法调节句子之间关系的语义准确性，基于有意义的关系互连节点。因此，所有句子都根据其涵盖所有组合的共同内容彼此关联，确保句子之间的关系可以准确地转移到图中。算法3中给出了文本图的步骤算法3.文本图算法1. 输入：从预处理阶段获取的文本2. 结果：A是邻接矩阵3. S_V = []#将输入的段落进行分离，得到句子向量（S_V）。4. A = [length（S_V），Length（S_V）] #邻接矩阵是句子向量维的方阵。5. 对于i：0到长度（V），步骤1做：6.wordvector i []; #i的word vector。第二句是利用词与词之间的空格字符得到的7.对于j：1到长度（V），步骤1做：8.wordvectorj [];#第j个句子的词向量通过使用词之间的空格字符获得9.if count（wordvectori_i wordvectori_j > 0）#如果句子i和j.th之间的公共单词的数量大于零，则将该值分配给邻接矩阵作为边权重。10.A[i，j]= count（wordvectori_i wordvectori_j）11.否则：A[i，j]= 0 #否则，邻接矩阵被分配零值。12.endifG图上S集中顶点值之间的直接联系。同样，G图上的最大独立集也不是另一个独立集的合适子集.换句话说，独立集合S中的每个顶点至少有一个不在S中的端点，并且每个不在S中的顶点至少与S中的一个顶点相邻[42]。Erdös和Moser首先提出了确定最大独立集值的最大数目、n个顶点以及这些顶点的图的问题[43]。这个问题提出后，提出了各种办法。在他们的研究中，Chan和Har-Peled提出了近似算法来找到最大加权最大独立集[44]。描述：一个图G V;E是一组顶点（V）和一组边（E）。认为这个G图G <$V ; E的补E<$f<$i;j<$RE;i;j2V;i-jg图符合条件。独立集是图中节点的集合。这个集合中的节点之间没有直接的邻域。若S∈V子集是一个独立集，则i，j_2S和它们的边节点应满足i;jRE的条件。最大程度的独立-Dent集是一个独立的最大基数集。找到一个最大独立集等价于找到一个最大顶点覆盖或最小顶点覆盖，这三个问题被归类为NP-难问题[45]。尽管极大独立集（MIS）在图论的许多领域都有应用，但NP难问题仍然是一个亟待解决的问题。独立集是图中的一组节点，使得集合中没有两个顶点由边连接。也就是说，无向图中的每条边最多有一个端点。在一个图中可以有一个以上的极大集。将另一个节点添加到最大-最小集群会破坏独立集的属性，因为它需要该集包含边。确定了图中的所有极大独立集，并确定了在指定的极大独立集中节点数最多的极大集为极大独立集。例如，在Fig. 三、{n2，n3}和{n2，n3，n5}是极大独立集，而{n2，n3，n5，n8}是图的最大独立集，4是图的独立数。目前的研究旨在删除不需要总结的句子，并减少句子选择之前需要处理的句子数量利用图独立集对不必要要为其创建摘要的文档首先被转换成图，然后确定该图的独立集合。从主文档中删除独立集中的节点，并使用以节点为中心的值总结剩余的句子图4解释了该过程的每个步骤。如可见于图 4，将小文档转换为图之后是找到独立集合，然后将它们从文档中移除。假设文档中的句子数量和创建的第一个图中的节点数量为n。从主图中得到的独立集合节点数为m;而主句中第k个节点出现在摘要中的概率没有任何评分是Pk1/4。1，它是Pk。在移除独立nt集之后，13.结束j14. 使用邻接矩阵A创建图形从主句。因此，在计算节点中心性之前，句子出现的概率，被认为是在段落中语义强，在摘要中是增加到一定程度。这样，当本征中心性3.3. 图独立集图论中的许多问题都是基于对应于某些约束的子图的存在性。图的最大独立集问题是图的最大独立集问题之一。在一个G图中，所需的独立顶点集由S表示，S包含V（G）的顶点值没有从初始图中获得值，通过考虑更多的句子来执行该过程，这增加了要从摘要中排除的句子的存在概率通过从主文档中去除独立集中的句子，确定具有高特征向量中心度值但应从摘要中排除的句子，从而产生更准确的摘要。150T. Uçkan，A.Karcket/ Egyptian Informatics Journal 21（2020）145222从主文档中移除独立集后的最后文本图图独立集第一个文本图541查找并删除主文档125678341256783412567834（a）极大独立集（b）极大独立集（c）极大独立集图三.最大独立集（Maximum Independent Set）和最大独立集（见图4。从一个简单图中找出并去掉独立集。所提出的方法可以简要描述如下。G图是从给定的文本（T）文件中获得的一个图是在本研究中提出的方法中包括了这个图的最大独立集SV是这个集合;由于最大独立集算法的伪代码可以概括为：算法5. 极大独立集函数算法最大独立集是S，一个图被定义为G21/4V2;E2）。最大独立集（G）T？ GE2-E和S- V。E2 = {（u，v）|u2 V-S和v2 V-S}和V2 = V-S。G2？L矩阵（L是G2的Laplacian矩阵）。我？特征向量与特征值特征向量和特征值？总结。寻找最大独立集是一个需要可靠方法的问题，但尚未开发出一种明确有效的方法算法4用于本研究中，以找到最大独立集。算法4.最大独立集算法输入：文本图（G）（第3.2）输出：最大独立集（S）1. V：顶点2. E：边缘3. G←（V，E）4. S：G的独立集，初始值S =E5. 如果6v和度（v）= 0，则结果S = V。6. 其他案件;7.u V选择节点。8.n1 = Maximum_Independent_Set（（G-{u}））（参见Alg.5.）9.n2 = Maximum_Independent_Set（（G-{u}-{neighbors（u）}）10. S =最大值（n1，n2）11. 返回S1. 从图的顶点集V和MIS的空集S开始2. 当V3.1.求一个顶点的最小度数v V3.2.将其添加到S3.3.从V中移除它和它的邻居4. End While5. 返回S3.4. T.GISEC方法：提出的文档摘要算法该方法从文本中获取图形。从图中求出独立集，去掉独立集后求出特征值，并用特征值中心性进行求和。在所提出的摘要方法中，基于应该从摘要中排除的句子将被表示为独立集合的假设，确定所提到的节点并从代表图中移除。因此，在导致总结的实验过程中，在任何文献中，都有摘要研究。为了找到有效节点，首先识别无效节点。如算法6所示，去除无效节点后的剩余节点，特征向量节点中心度用[5]度量加权。对于获得的前N个节点评分，获得了200和400字的总结。T. Uçkan，A.Karcket/ Egyptian Informatics Journal 21（2020）145151我←ROUGE-2fgn2N¼ðÞMnPP算法6. 建议的文档摘要算法输入：来自Kush预处理步骤的已处理文本（参见第3.1）输出：摘要1V：顶点2E：边缘3 G←（V，E）4I←求G图的所有独立集5对于每个Ii，I中的6从源文档中删除第i个句子（参见算法2）7端8计算新顶点和新边9创建新的文本图Gnew（Vnew，Enew）（见3.2节）10计算节点中心性11按降序对Gnew的所有节点中心性值12创建摘要（100、200和400字），从最高的特征中心值13的退货汇总4. 实验结果表2数据集的特征。描述DUC-2002 DUC-2004集群数目每个集群中的文件数量~10 10文件数量摘要长度200和400字665字节基于n元语法、单词序列进行评估。它是基于由汇总系统创建的汇总与由人手创建的理想汇总之间的交集的度量。为了评估所提出的框架的性能，ROUGE评估工具包，这是基于n-gram统计和高度相关的人的评价。生成的分数ROUGE度量范围从0到 1.分数越高，模型摘要提供的共享内容越多;对于所提出的方法，自动摘要被认为更好，信息量更大。在参考文献中。[47，48]，Lin揭示了ROUGE分数与个人给出的分数之间的高度相关性。在目前的研究中，我们使用ROUGE-N（N-1，N-2）、ROUGEL、ROUGE-W-1.2和ROUGE-SU指标来评估所提出的文档摘要方法的性能。ROUGE-N评估提议摘要和模型摘要共有的n-gram的数量。4.1. 数据集描述PC参考摘要图SP计数匹配字符串n在这项研究中，两个文件理解会议数据集（DUC-2002和DUC-2004）被用来测试所提出的方法的准确性。DUC-2002数据集包含用于抽象和提取总结的文档;但是，提取总结文件是基于当前研究中提出的总结方法使用的。NIST制作了60个参考文献集，每个参考文献集包含文件、单文件摘要和多文件摘要/摘录，并定义了事件集和传记集等标准。对于DUC-2002数据集，定义了三个任务。任务1，对单个主题的多个新闻通讯/报纸文档（文章）进行全自动摘要，提供60组，每组约10个文档作为系统输入。任务2，自动摘要多个新闻/报纸文件（文章）在一个单一的主题。任务3，一个或两个试点C2f参考摘要ggramn2S计数gramn其中n等于gramnn-gram的长度，并且Countmatch gramn是在潜在摘要和参考摘要中相交的n-gram从Eq中可以清楚地看到（1）、Rouge-N是与回忆相关的测量。这是因为等式的分母是参考摘要中的n元语法的数量之和。例如，（N-1）度量两个摘要之间共享的uni-gram的数量。类似地，（N-2）关注在提议的概要和模型概要之间共享的二元语法的数量。类似地，它计算ROUGE-L值中X和Y是两个给定的单词序列。序列的ROUGE-L值的计算在Eqs.（2）外部评估项目对于DUC-2004数据集，定义了五个任务。任务1，为500份新闻/报纸文档（文章）创建最多75个字符的简短摘要;这些摘要可以被解释为标题，尽管允许参与者使用任何格式（包括关键字列表）。任务2，支持摘要，最大长度为665个字符，Rlcs¼LCSX;YPlcs¼LCSX;Y. 1b2RlcsPlcs2ð2Þð3Þ每组10份文件;这些摘要是一般性的，不集中于文件的任何特定方面任务3，模拟-公司简介Rlcs 布雷布山口LCSð4Þ类似于任务1，不同之处在于文档集由24个集群组成，每个集群10个文档任务4，与任务3相同的文档集，除了24个聚类中每个聚类的一般多文档摘要。任务5，类似于任务2，包含10份文件的50组摘要。在本研究中，我们选择任务2进行665字节汇总[46]。两个数据集的特征见表2。4.2. 评估指标面向召回的替代评价（ROUGE）性能指标是摘要系统中最常用的评价指标。ROUGE是一种性能指标，其中摘要会自动评估。这些度量ROUGE-W-1.2计算建议摘要和模型摘要之间的最长连续匹配。ROUGE-SU 4测量两个摘要共有的跳过二元组的数量。4.3. 实验性作品所有实验过程均使用具有Intel Core i7-7700 CPU 3.60 GHz和16Gb存储器的计算机进行，使用.NET和Python。在DUC-2002数据集中，文本存储在文件中。txt扩展名。规范化步骤，即删除非歧视性单词、表达式、空格和不需要的字符（称为停止词），使用Python1Þ152T. Uçkan，A.Karcket/ Egyptian Informatics Journal 21（2020）145语言库和标签。因此，减少了处理工作量，并使用具有分类意义的词进行了文件摘要处理。在预处理阶段之后，开发的软件工具KUSH被用来提供单词短语和文本图之间的关系的最准确的传输由于其简单而有效的算法，该软件指定的替代品，从文本中选择要总结的，改变的话。结果，获得了具有高水平代表性的图。本研究使用了之前未在任何总结研究中使用的最大独立集。基于独立集合中的节点对应的句子应该从总和中排除的假设，确定图上形成独立集合的节点并从图中移除。因此，在量化节点对全局图的影响之前，对摘要应用了限制。这一限制防止了摘要中包含的词组的重复，从而导致生成更全面的摘要。此外，实验过程影响了去除独立集的方法，该方法已首次用于总结研究，作为一个令人鼓舞的步骤，包括在正文中相互交叉的最少单词的句子。在整个研究的实验过程中报告的值清楚地表明了这种创新方法的贡献。在最后阶段，通过节点中心度计算来计算所获得的节点的中心度值。特征向量中心性被用来加权形成研究中的图的节点。为了彻底评估所提出的摘要系统的性能，实验过程分别进行了200和400字的摘要。使用ROUGE性能指标评估了拟定文档摘要框架的性能，如表3所示。使用的度量是Rouge-1、Rouge-2、Rouge-3、Rouge-4、Rouge-L、Rouge-W-1-2、Rouge-S * 和Rouge-SU *。此外，每个指标类型都单独报告，重点是召回率，精度和F分数。对于200字和400字的摘要，数值单独列出。表3的第一列显示了总结性能指标类型，而其他列显示了性能评估分数，平均值由推荐的200字和400字总结框架报告。4.4. 与最先进方法的与以前发表的研究相比，建议的文件摘要框架的摘要性能结果。如表4-6所示200和400字的摘要与七种不同的竞争方法进行了比较，以显示与传统摘要方法的一致性。Luhn[17]使用从词频和分布中获得的统计信息，通过机器学习技术计算句子的重要性，根据获得的最高句子分数Landauer等人[49，50]提出了一种新方法，该方法仅使用一般的数学方法，而不使用任何预先接受的知识。通过将文本的连接结构转换为图形，Mihalcea实现了一个迭代的，提取的和无监督的应用程序，称为TextRank[51，52]，该应用程序根据文本单元的重要性对单元进行TextRank系统的一个重要特征是，它是基于Google的PageRank[26]的迭代研究在参考文献[13]中，Erkan et al. 提出了一种称为LexRank的随机和基于图形的方法来计算NLP中文本单元的重要性。在他们的方法中，他们基于特征向量中心性（基于节点中心性）度量来计算代表图上句子的重要性。在他们的实验工作中，作者表明LexRank在大多数情况下比基于度的方法和基于质心的方法表现更好。SumBasic[53]是文献中经常使用的一种基本方法，它使用有效的概率函数选择要包含在摘要中的前N个句子。在参考文献[54]中，作者使用指定的概率模型，以贪婪的方式为多文档摘要添加句子。选择上述方法的原因是，它们使用数学、统计或图表理论，因此类似于本研究报告中提出的摘要方法。此外，所选的方法都是无监督的文档摘要方法，这也与所提出的框架相同。表4列出了 Random 、Luhn 、LSA 、TextRank 、 LexRank 、SumBasic、KL-Sum报告的200字摘要的ROUGE性能指标值，以及DUC-2002数据集上当前研究中提出的文档摘要表中每一行的最高值都以粗体突出显示所提出的方法被证明是优于所有的竞争力的方法，无一例外。表4清楚地表明，在200字的摘要方面，与竞争性方法相比，所提出的方法产生了优异的结果图 5显示ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-W-1.2，和ROUGE-SU 4的平均分数为所有八种方法，包括所提出的方法。图中的所有比较都是根据召回率、精确率和F分数值分别总结的200字摘要。基于Rouge-1和F-Score评估的所提出的方法报告了比Random高25%的值，比Luhn高8%，比LSA高33%，比TextRank高8%，比LexRank高5%，比LexRank高9%，比LexRank高9%。表3ROUGE度量分数为建议的文件摘要方法。ROUGE评价方法200字总结400字召回精度F-score召回精度F-scoreRouge-10.519540.477420.497260.592080.569830.58060胭脂-20.247040.227140.236510.324710.312070.31819胭脂-30.186770.172100.179000.261910.251370.25647胭脂-40.171450.157940.164300.240830.230960.23574胭脂红0.483060.443760.462270.563610.542250.55258Rouge-W-1.20.174270.252330.206050.178560.270670.21510Rouge-S*0.231140.195770.211430.320320.296710.30775Rouge-SU*0.233880.198230.214030.321630.297980.30905T. Uçkan，A.Karcket/ Egyptian Informatics Journal 21（2020）145153表4与最先进的拟议文件摘要方法进行比较（200字摘要）。ROUGE评价方法200字总结（平均）（DUC-2002）方法Rouge-1 Rouge-2Rouge-W-1.2图五、建议方法与最先进方法的图形比较（200字摘要）。SumBasic，比KL-Summ摘要方法多34%。所有其他ROUGE性能测量方法的评价率相似，如以下相关表格和图所示。这证实了所提出的文档摘要方法可以被认为是一个相当有效和高效的摘要系统。为了强调所提出的方法的适用性，实验过程中重复400字的摘要，再次，通过详细检查所有的竞争性方法相比，在当前研究中提出的文件摘要方法的性能。的结果比较结果见表5，每行中的最高值该方法基于Rouge-1和F-Score评估，报告的值比Random 高12% ，比Luhn高0.5%，比LSA高24% ，比TextRank 高 5% ，比 LexRank 高 7% ，比SumBasic 高 12% ，比KL-Summ摘要方法高很明显，因此，许多竞争性的方法已经落后于基于400字摘要的拟议方法。图图6示出了包括所提出的方法在内的所有八种方法的ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-W- 1.2和ROUGE-SU 4平均得分。中的所有比较召回随机LexRank

下载后可阅读完整内容，剩余1页未读，立即下载