没有合适的资源?快使用搜索试试~ 我知道了~
制作和主办:Elsevier沙特国王大学学报科技论文自动文摘综述Nouf Ibrahim AltmamiAl-Abraham,Mohamed El Bachir Menai沙特国王大学计算机与信息科学学院计算机科学系地址:Box 51178,Riyadh 11543,Saudi Arabia阿提奇莱因福奥文章历史记录:收到2019年2020年4月11日修订2020年4月21日接受2020年5月5日网上发售保留字:自动文本摘要科学文章单文档多文档A B S T R A C T科学研究过程通常从审查最新技术开始,这可能涉及大量的出版物。科学论文的自动摘要将有助于研究人员通过加快研究过程来进行调查。科技论文的自动文摘科学文章中的大多数有价值的信息都是以表格、图形和算法伪代码的形式呈现的。然而,这些要素通常不会出现在一般性案文中。因此,考虑到科学文章结构的特殊性,提出了几种方法来提高生成的摘要的质量,从而产生特设的自动摘要器。本文对该领域的研究现状进行了综述,并讨论了未来的研究方向。它特别介绍了在过去十年中开发的方法,使用的语料库,以及他们的评估方法的审查。本文还讨论了它们的局限性,并指出了一些有待解决的问题。本研究的结论强调了使用统计、自然语言处理和机器学习技术相结合的提取技术在单语种文章自动摘要中的普遍性。缺乏科学文章的基准语料库和金标准摘要仍然是这项任务的主要问题©2020作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。内容1.导言. 10122.背景10132.1.定义10132.2.科学文章的结构2.3.科学论文摘要10142.4.自动科学文章摘要任务10142.4.1.单件与多文章摘要10142.4.2.相关工作总结10143.简要评价10143.1.评估方法10153.2.语料库10164.自动科学文章摘要的方法10164.1.基于自动摘要生成的摘要10164.2.基于引用的自动摘要10184.2.1.直接基于引用的摘要1018*通讯作者。电子邮件地址:naltmami@su.edu.sa(N. Ibrahim Altmami),menai@ksu.edu.sa(M. El Bachir Menai)。沙特国王大学负责同行审查https://doi.org/10.1016/j.jksuci.2020.04.0201319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com1012N. Ibrahim Altmami,M.El Bachir Menai/ Journal of King Saud University4.2.2.基于跨度的自动引用文本摘要10194.2.3.基于引文的混合自动摘要方法10214.3.其他方法10225.讨论10246.结论1026竞争利益声明参考文献10261. 介绍互联网的出现产生了大量的信息流,这使得检索更具挑战性。大多数科学信息都是在科学文章中找到的,随着研究领域的扩展,学者们很难找到与他们感兴趣的相关文献。即使是对某些特定字段的基于查询的搜索,也会返回大量的相关文章,远远超出人类的处理能力。这些文章的自动摘要将有助于减少全面审查它们并获得其中包含的信息要点所需摘要主要有两种生成方式:单文档摘要,其任务是从单一来源生成摘要;多文档摘要,其不同但相关的文档仅包括文档中的基本材料或主要思想,空间较小。一般文本的多文档自动文摘与科技论文的多文档自动文摘有很大的不同。这是由于Agarwal等人(2011)所述的几个方面。首先,对多篇科学文章进行归纳需要对共同主题进行推导,并对文献集进行整体理解。即使多篇文章采取相同的研究方向,每篇文章都提出了自己的研究,并提出了不同的论点。相比之下,新闻文章的任务需要从可能包含冗余信息的各种报道中总结关于同一故事的不同细节。其次,每篇文章都从作者的角度介绍了最近的趋势和更新,每位作者都表达了自己独特的观点和问题。对同一文献的不同观点需要加以考虑和综合,以形成对这一文献的准确总结。Teufel和Moens(2002)已经确定了三个方面,使自动科学文章摘要不同于一般文本。首先,科学文章有一个特定的主要结构,不像一般的文本。这种结构通常以引言开始,陈述主要问题,然后是相关的工作,方法,实验和发现,最后以结果和影响结束。其次,科学文章通常比一般文章长得多。最后,总结本身的目标并不是唯一的,因为研究人员需要寻找新的贡献,发现和建议的解决方案。此外,Bhatia和Mitra(2012)介绍了研究文章摘要的另一个原因。科学文章中的大多数有价值的信息都是在文档元素中呈现的,“一个与文档的运行文本分离的实体,它要么增加要么总结了运行文本中包含的信息。科学文章中最常见的文档元素类型是图、表和算法的伪代码;它们包含最重要的实验结果和想法。这些元素通常不会出现在通用文本中。Gastel和Day(2016)提出了另一个原因,即在科学文章中使用一种特殊的总结器-书面语言。英语是科学的正式语言,但这并不意味着每一篇科学文章都应该用英语写最好是发表关于当地或国家感兴趣的主题,如农业和社会科学,在那些谁将使用的内容的语言。此外,大多数科学文章包括一些特定领域的关键字或本体,表明他们的主题,因此,在系统中使用这些关键字可以提高其性能。最后,与一般文本不同,科学文章包含更复杂的概念和技术术语(Yasunaga等人, 2019年)。所有上述的变化激发了摘要类型之间的区别。自动提取摘要生成摘要,其中从输入文章中选择句子并按原样生成,而自动抽象摘要生成由表示源文章的相同思想/概念的改写句子组成的摘要指示性摘要用于生成文本的思想,而不携带特定内容。内容丰富的摘要提供了文本的浓缩版本自动总结科学文章通常需要以信息摘要的形式进行一定程度的抽象(Saggion,2011)。可能出现的主要问题是,为什么文章摘要不够,因为它是科学文章的摘要?生成文章摘要的原因有很多,即使作者已经写了摘要。首先,摘要信息通常不包括全文的相关内容。其次,它以一种有偏见和不完整的方式描述了作者关于独特性的观点(杨等人,2016年)。第三,不存在满足所有用户需求的单一摘要(Reeve等人,2007年)。此外,摘要并没有反映论文的所有影响和贡献(Elkiss等人,2008),而是这篇文章的作者想强调的。因此,由这样的系统生成的摘要被期望是足够信息丰富的,覆盖输入文章的所有主要部分,并且呈现读者正在寻找的最重要的信息。最后,Yasunaga et al.(2019)指出了一篇科学文章对研究界的影响因子。由于论文的重要性可能会随着时间的推移而变化,因此摘要系统应该适应其他研究人员的观点(即,引文)以及文章作者在摘要中强调的主要方面。据我们所知,没有调查研究领域的自动科学文章摘要已公布的日期。有各种研究解决了通用文本的总结问题,例如(Gambhir和Gupta,2017;Gupta和Gupta,2019)。Gambhir和Gupta(2017)的一项综合研究展示了在一个额外的摘要领域中进行的不同工作。他们确定了用于提取摘要的各种方法的优点和局限性。此外,他们还介绍了一些抽象和多语言文本摘要方法。此外,他们还讨论了总结评估的内在和外在方法以及文本N. Ibrahim Altmami,M.El Bachir Menai/ Journal of King Saud University1013总结评估会议和研讨会。最后,给出了抽取式摘要方法在共享DUC数据集上的评价结果. Gupta和Gupta(2019)对最近的文本摘要抽象方法进行了全面的综述。根据所使用的抽象技术的类型对所调查的文献进行分类。作者还强调了用于抽象摘要的各种方法的优点和缺点,以及研究人员用于抽象摘要的各种工具。本文还讨论了文摘的评价技术。相比之下,本文提供了一个更有针对性的科学文章摘要任务的研究,并回顾了技术在这一领域的潜力的基础上检查的文献。它涵盖了这些研究的不同方面:提出的解决方案,结果,使用的corpora和评估指标。最后提出了未来的研究方向。本调查所涵盖的知识将有助于感兴趣的研究人员完全了解该领域的主要主题,方向和结果。调查研究中观察到的一些局限性将有助于更好地理解任务的认知基础,从而选择未来的方向。本文的其余部分组织如下。 第2描述了科技文章的结构、科技文章摘要的类型和自动科技文章摘要任务。第3通过介绍调查文献中使用的方法和语料库来解决摘要评价任务第4节检查了科学文章摘要领域的先前研究第5节讨论了这一领域出现的主要问题和挑战,以及对未来研究的建议。最后,第6节对本文进行了总结。2. 背景一篇研究文章报告了原始的经验和理论工作。它可以是社会科学或自然科学,也可以是学术领域。此外,研究文章可能是以下几种类型之一:它可能呈现原创研究,描述其他科学家的研究,或评论感兴趣领域的当前挑战和趋势。本节介绍了本调查所需的一些定义、科学文章的主要结构、摘要的类型以及不同的自动摘要任务。2.1. 定义本节简要介绍与科技论文综述相关的定义。定义1(条款)。为广泛的听众而写的一篇文章,通常发表在报纸、杂志、期刊等上。文章的主题可能是作者感兴趣的,也可能与当前的一些问题有关。它以适当的形式组织,以吸引读者的注意力。文章的基本大纲是标题;导言,应进一步解决所关注的主题;主体(通常2定义2(科学文章)。报告作者进行的原始科学研究的方法和结果的文章。研究的类型可能会有所不同(它可以是实验,调查,访谈或任何其他类型的研究),但在所有情况下,原始数据已被作者收集和分析,并得出结论-根据分析结果得出结论。第2.2节介绍了一篇科学文章的结构。定义3(引用句)。包含明确引用其他研究文章的句子。下面是引用句子的例子,其中引用了三个不同示例:评估被认为是耗时的(伊玛目例如,2013)、昂贵(Lin,2004)和不稳定(Lin和Hovy,2002)。定义4(引用作者)。在自己的作品中讨论或提及另一项研究的作者。例如:Qazvinian和Radev是(Teufel和Moens,2002)的引用作者,因为他们在文章中提到了Teufel和Moens定义5(引用文件)。包含对另一项研究的直接引用的研究文章。例如:(Qazvinian和Radev,2008年)的论文。定义6(引用文件)。在另一篇文章中引用的研究文章。例如:Teufel和Moens定义7(引用文本跨度)。引文中引文句所指的引文部分示例:以下是来自(Elkiss et al.,2008年):其中,2497篇论文被PubMed Central中至少一篇其他论文引用。此外,我们检索了PubMed Central中引用开放获取子集的所有论文,并提取了引用句子。该文本部分被来自(Qazvinian和Radev,2008)的另一部分文本引用,如下所示:‘‘They2.2. 科学文章没有一个单一的结构是完全同意的科学文章,但一个通用的结构可能是部分,如果不是完全发现在科学文章。这种结构对于促进科学家之间就其结果和/或发现进行交流至关重要。这种格式也使论文易于在不同层次上阅读这样可以帮助读者快速找到他们需要的东西。在下面的段落中,我们的讨论集中在Pardede(2012)的主要文章部分及其特征摘要是科学文章的第一部分它通常在150到250个单词之间或更少,它包含论文主要方面的信息摘要,没有引用。它应该回答三个主要问题:为什么要进行这项研究它是如何进行的?得出了什么结论它涵盖了文章的目的,使用的材料和方法,结果和结论。此外,在摘要之后列出了一组三至五个关键词,以供索引之用。大多数科学文章都有一个介绍,为读者提供必要的背景信息,以了解论文的这些信息可以是科学的、历史的、文化的,甚至是个人的。本节的字数通常为它可以采取连续的文章或一组段落的形式,涵盖所考虑的问题,其背景,其重要性,论文的目标,以及所用术语的操作定义。相关工作部分通常是对以前文献的总结,并且通常以几个段落呈现本节的目的是使读者了解本主题的最新情况,并了解正在研究的研究问题此外,必须说明过去的有关发展情况,1014N. Ibrahim Altmami,M.El Bachir Menai/ Journal of King Saud University在现有文献的背景下研究和分析目前的工作。它包含引用句子(包含对其他研究文章的明确引用的句子),以及非引用句子,以建议如何满足进一步研究的基本需求。方法部分详细描述了研究人员采用的确切程序。这一部分对其他研究人员非常重要,因为它使他们能够重新实现作者的工作并复制他/她的结果。它通常包括使用的主题,样品制备技术及其起源,数据收集程序和使用的计算机程序实验结果部分介绍了研究的主要成果。它是科学文章的核心,涵盖了以三种形式之一使用的数据:文本,插图或表格。它还报告了统计检验和描述性统计的结果。它通常是由一个讨论,这是有时合并到结果部分。讨论解释和评估报告的结果,并探讨其对未来研究的影响。在一些科学文章中,讨论的最后一段作为结论,而一些论文有一个单独的结论部分。本节总结了本文中提出的研究,其一般含义和发现,以及对未来研究方向的一些建议。每篇文章的最后一部分是参考文献,其中提供了文本中所有引用的完整参考书目。有不同的引用风格,被引用的作品可能是按顺序排列的,也可能是按文本中出现的顺序2.3. 科学文章摘要科学文章摘要主要有两种类型:(1)提供文章概述的摘要和(2)基于引用句子的摘要。第一种类型不是准确的科学摘要,因为它以一种不太集中的方式使用一般形式陈述了贡献。它也以一种偏颇和不完整的方式描述了作者的观点(杨例如, 2016年)。上述问题促使了基于引用的摘要的产生第二种类型的求和。基于引用的摘要采用引用文章的一组引用来创建该引用文章的摘要(Qazvinian和Radev,2008; Qazvinian等人,2013年)的报告。这组引文表明了文章的主要贡献和发现,它包含了比摘要更多的信息和重点贡献(Elkiss et al.,2008年)。然而,这些引文可能偏向于引用作者的观点,并且可能无法准确描述参考文献的内容此外,大多数引文以不完整的形式描述科学文章的贡献或发现,因为它们没有提到用于获得这些结果的假设和数据。2.4. 自动科学文章摘要任务2.4.1. 单件与多篇文摘基于输入文章的数量,可以区分两种类型的自动科学文章摘要:单篇文章摘要(例如,Saggion和Lapalme,2000年; Teufel和Moens,2002年; Qazvinian和Radev,2008年; Qazvinian等人, 2010; Lloret等人,2011年; Slamet等人,2018)和多篇文章总结(例如Mohammad等人,2009; Khodra等人,2012; Chen和Zhuge,2014; Erera等人,2019年)。前一个任务要求生成一篇文章的摘要,而后者要求汇总与同一主题相关的一组文章并生成一个摘要。多篇文章摘要比一篇文章摘要更具挑战性。除了与多文档摘要相关的主要问题(如可读性和一致性)之外,在多篇文章中总结引用语句仍然是一项艰巨的任务。2.4.2. 相关工作总结科学文章的相关工作部分通常用于显示当前工作与以前研究工作相比的区别和兴趣点。自动生成相关的工作部分是一个具有挑战性的任务。它可以被认为是一个多文档的主题偏向的摘要问题。任务是通过总结一组相关参考文献自动生成目标论文的相关工作部分(例如Hoang和Kan,2010; Hu和Wan,2014; Chen和Zhuge,2016)。生成的摘要应简要描述每篇参考文献,显示其贡献、结果、局限性,并显示目标文献与这些参考文献之间的关系。这比一般文本的多文档摘要更具挑战性,因为每篇科学论文都有自己的特点、贡献、方法和具体内容。因此,我们的任务不仅是对相似的内容进行综合,去除冗余信息,而且还要找到每篇参考文献的特殊贡献,并将它们组织成一个或几个段落。3. 简要评价自动摘要任务的许多主观方面使得摘要的评价成为一个关键问题。评价什么仍不清楚。评价技术主要分为两类:内在评价和外在评价。前者根据句子完整性、可读性、相关性、连贯性和准确性等具体标准来评价摘要的质量摘要通常由用户评估或与黄金标准进行比较。这种技术的问题在于没有单一的“理想”(El-Haj等人,2011),因为可以为同一文档生成不同的摘要;此外,可以使用不同的短语创建同一摘要的多个版本。此外,根据总结任务本身,可以针对不同的目标创建独特但有效的总结(Lloret和Palomar,2012)。外部评估根据特定任务评估摘要,例如完成时间、成功率和决策准确性。因此,同一评估可能因制度而异。此外,评价过程本身是这方面的另一个问题评估被认为是耗时的(Imam等人,2013)、昂贵(Lin,2004)和不稳定(Lin和Hovy,2002)。因此,这里已经提出了以下小节介绍了调查文献使用的评估方法以及评估中使用的语料库表1表1摘要自动生成方法中使用的评价类型和语料库。参考方法语料库人工评测自动评测Saggion和Lapalme(2000年)提取作者自 己 的 语 料 库 p 召 回 , 精 度 和 F - 测量 = 0 . 2 2 L l o r e t e t e t al. 2011 年,作者自己的语料库摘录和摘要p ROUGE-1 = 40.20Saggion(2011)基于转换的学习作者Yang等人(2016)ExtractiveAAN,Microsoft数据集ROUGE-1,ROUGE-2 Slamet et et al. (2018)ExtractiveAuthors' own corpus pManualN. Ibrahim Altmami,M.El Bachir Menai/ Journal of King Saud University1015表2基于引文的自动文摘方法中使用的方法、评价类型和语料库。参考方法语料库人工评价自动评估05.梅和翟(2008)Qazvinian和Radev(2008)采掘聚类与图方法作者语料库AAN红色金字塔= 0.75Qazvinian等人Abu-J ba ra和Radev(2011)提取和机器学习AANpROUGE-L =0.539Agarwal等人(2011)聚类和提取作者自己的语料库ROUGE-1 =0.51 23 ,ROU GE- 2 =0.3303Chen和Zhuge(2014)聚类和提取AANROUGE-1,ROUGE-2Jaidka等人(2014)ExtractiveAuthors ' own corpusbased on AAN胭脂Cohan和Goharian(2015)提取和机器学习TAC 2014 ROUGE-L = 0.43,ROUGE-1 = 0.45,ROUGE-2 = 0.15Galgani等人(2015)提取作者自己的语料库基于ROUGE- 1 = 0.631的建议方法Ronzano和Saggion(2016)提取TAC 2014 ROUGE-2 = 0.317Cohan和Goharian(2017)提取TAC 2014召回率、精度、F-测量值= 27和ROUGE-1 = 53Lauscher等人(2017)提取和机器学习ACLP,R,F =15.0 Wang et al. ( 2017)聚类和提取作者自己的语料库p-Abura 'ed等人( 2017)提取和机器学习CL-SciSumm 2016。ROUGE-2 = 0.2985ROUGE-SU4 =0.2066Cohan和Goharian(2018)提取和机器学习TAC 2014CL-SciSumm数据集召回率,精度,F-测量= 27,ROUGE-2 =h 30.7和ROUGE-2 =3 =h 24.4Al Saied etal. (2018)提取AQUAINT SciSumm数据集ROUGE-2 = 0.22ROUGE-S =0.18Abura 'ed等人( 2018)机器学习CL-SciSumm 2018ROUGE = 0.29Agrawal等( 2019)提取,机器学习,和基于图的方法作者* 所有这些方法都可以应用于通用文章的摘要,除非目标文章没有引文。表3其他方法中使用的方法、评价类型和语料库。参考方法语料库人工评价自动评估03 The Dog(2002)机器学习作者准确度= 0.73,kappa = 0.45,宏-F = 0.5Filho和Pardo(2007)提取cmp-lgp ROUGE-1 = 0.28408穆罕默德等人2 0 0 9 年:《Extractive,Clustering,andGraph》基础的方法AAN金块金字塔,ROUGEBhatia和Mitra(2012)机器学习作者Khodra等人机器学习ACL-ARC准确率= 94.46%He等人(2016)提取ACLROUGE-1 = 0.42,ROUGE-2 =0.08,ROUGE-L = 0.38,ROUGE-SU4 = 0.16,精密度= 0.75Parveen等人(2016)基于图形的方法PLOSDUC 2002pROUGE-SU 4、ROUGE-2Yeh等(2017)机器学习CL-SciSumm 2016召回率,精度,F-测量= 0.1443Yasunaga等人(2019)机器学习作者自己的语料库CL-SciSumm 2016pROUGESU4-F = 18.56SU4-F = 24.36Hoang and Kan(2010)Extractive AuthorHu and Wan(2014)机器学习作者ROUGE-1 = 0.4794002 The Dog(2014)机器学习作者召回率,精度,F-测量= 0.86陈和诸葛(2016)提取和基于图的方法作者Erera等人(2019年)采掘作者* 除(Bhatia和Mitra,2012)中介绍的方法外,所有这些方法均可用于通用文章的总结。方法(手动或自动),基本方法和语料库使用的调查文献。3.1. 评价方法评价是从质量和内容等方面对摘要进行评价,以比较不同的摘要系统。为实现这一目标,需要适当的评价指标。在这方面有三种不同的方法(Saggion和Poibeau,2013年):自动方法,如回忆导向的替代评估(ROUGE)(Lin,2004年),其中评估过程是完全自动化的;手动评估,其中人是评估者;以及半自动方法(即,混合方法),如PYRAMID(Nenkova和Passonneau,2004年)。本节简要介绍所调查的文献中使用ROUGE是一个软件包,包含一组流行的指标,广泛用于评估自动摘要(Lin,2004)。这些指标通过计算参考摘要和候选摘要之间的重叠数量,将人工生成的参考或参考摘要与自动生成的摘要进行比较。它已被用于大多数调查文献中,例如(Abu-Jbara和Radev,2011; Agarwal等人,1016N. Ibrahim Altmami,M.El Bachir Menai/ Journal of King Saud University2011; Cohan和Goharian,2015; Lloret等人,2011年)。然而,存在若干ROUGE度量,包括ROUGE-N(n-gram共现统计)、ROUGE-L(最长公共子序列)、ROUGE-W(加权最长公共子序列)和ROUGE-S(跳过二元组共现统计)。虽然计算这些指标很容易,但它们都有自己的缺点。首先,将候选摘要与没有单一“理想”的参考摘要进行比较因此,一个好的总结可能会因为包括参考摘要中没有的相关句子而第二,本研究没有测量总结句与参考总结句之间的相似度。因此,有些摘要即使包含与参考摘要句子类似的部分,也会受到处罚。还采用了其他自动方法(例如,Qazvinian和Radev,2008年),包括PYRAMID(Nenkova和Passonneau,2004年),一种半自动评估方法。提出了解决在编写摘要时由不同用户生成不同内容的问题。金字塔方法通过使用多个人工摘要来创建黄金标准,并利用人工摘要中信息的频率来为各种事实分配重要性,从而解决了这一问题。该方法产生的汇总分数等于汇总事实权重的总和除以理想汇总权重的总和。该值在0和1之间变化,具有更重权重的事实的摘要获得更高的分数。金字塔分数的使用使研究人员能够发现缺失的信息,并进一步改进他们的摘要。3.2. 语料库摘要在摘要任务中,需要语料库来评估摘要系统并与其他方法进行比较。 文本分析会议(TAC)1举办了几个研讨会,提供了许多涉及自然语言处理(NLP)不同领域的主题。摘要轨道是2008年至2011年和2014年的一个此类轨道。TAC 2014基准测试2包括20个主题,每个主题包含一个参考文本和其中包含的各种文章。这些文章由Elsevier3在生物医学领域发表。每个主题有四个科学摘要,由该领域的四位专家撰写,摘要长度不超过250字。然而,科汉使用的数据集和Goharian(2015年,2017年,2018年)也包含话语方面和注释引用文本。CL-SciSumm4数据集总共包括30个主题和三个子集-训练,开发和测试数据-每个主题都有一篇参考论文和一组引用文章。所有的论文都是可扩展标记语言(XML)格式,句子有明确的边界,就像TAC一样这个数据集的一个显著特点是主题只由一个注释者注释ACL AnthologyNetwork(AAN)5由Bird等人发起。(2008),是一个有兴趣解决NLP相关问题的人的社区。它由“计算语言学领域的引文、合作和总结的综合性人工管理网络数据库”组成(Radev等人,2013)以及ACL发表的论文。它已被大多数调查文献所使用,如Abu-Jbara和Radev(2011年),Qazvinian和Radev(2008),Chen和Zhuge(2014),以及Yang等人(2016年)。1https://tac.nist.gov/。2https://tac.nist.gov/2014/BiomedSumm/。Fig. 1.科技论文摘要方法的分类。Microsoft dataset6是Microsoft Academic Search的集合。它包含了文章摘要中的句子、引用句子、作者、出版地点和引用句子的附页等信息。该数据集由Yang et al. ( 2016年)。Filho等人(2007年)也使用了cmp-lg语料库7。它由183个XML格式的文档组成,用作摘要、提取和信息检索的资源。这些文件是ACL的科学论文。它们涵盖了每篇论文的关键信息(如标题,作者和日期),除了主要的结构元素,如摘要,主体,章节和列表。PLOS8医学语料库是一组50篇科学文章,每篇文章都有一个与之相关的黄金标准摘要。这个摘要比文章摘要有更广泛的视角,由本月编辑撰写。以前在调查研究中使用的数据集不是专门用于自动科学文章摘要任务的,或者是有限的大小(30-50篇文章)。由于这些限制,大多数现有系统都是无监督的或针对小数据进行调整的(Yasunaga等人,2019年)。因此,Yasunaga等人(2019)激发了创建大型数据集(由AAN的1000篇引用最多的论文组成(Radev等人,2013))。对于每篇目标论文,他们平均清理并保留15个引用句子。他们还为每份目标论文创建了一个平均长度为151个单词的黄金标准摘要。Fisas et al.(2016)开发了一个多层注释的计算机图形学领域科学论文语料库。在这个语料库中,每个句子都根据其作用(挑战,背景,方法,结果和未来的工作)进行了注释。此外,对于每个引用,都指定了其目的(批评、比较、使用、基础、证实或中立)。文件中的所有句子都根据其与摘要的相关性进行分级,并确定其特征,如优点,缺点和局限性。4. 科技论文自动文摘方法以下三个小节根据图1中提出的分类,回顾了科学文章摘要的最新方法。科技论文摘要的生成方法主要有两类:基于生成的摘要生成方法和基于引用的摘要生成方法。也有其他的方法来总结科学文章,重点是具体的问题,如总结的表格,图,和相关的工作部分。4.1. 基于自动摘要生成的文摘各种文本摘要应用程序的一个有趣的关注点是自动生成的研究文章摘要。这是一个总结的主要议题和调查结果提出的核心-3一家荷兰出版和分析公司,专门从事科学、技术和医疗内容。4https://github.com/WING-NUS/scisumm-corpus网站。5http://clair.eecs.umich.edu/aan/index.php。6http://academic.research.microsoft.com。7http://www-nlpir.nist.gov/related_projects/tipster_summac/cmp_lg.html网站。8http://www.ncbi.nlm.nih.gov/pubmed。N. Ibrahim Altmami,M.El Bachir Menai/ Journal of King Saud University1017图二.一个基于摘要生成的概念框架。回应文章,由其作者撰写。它必须包含在期刊、会议或其他背景下发表的任何文章中。研究人员可以利用摘要对文章作一个全面的了解.它还可以帮助其他自动系统在索引,搜索和检索信息,而无需访问整个文档。虽然它可以使用文本摘要技术自动生成,但这个过程非常具有挑战性。图2概述了基于抽象生成的方法的主要步骤。首先确定输入文章的主要部分(见第2.2节),然后确定输入文章中涉及的主要主题和发现句子根据其重要性进行评分,然后根据其相关性进行排名选择排名靠前的句子来形成输入文章的摘要表1总结了评估方法(手动或自动)、基本方法和基于摘要生成的方法所使用的语料库。Saggion和Lapalme(2000)提出了一种自动生成科技文章的指示性和信息性摘要的方法,称为选择性分析,这是一种由两个阶段组成的提取系统。在第一阶段,系统生成摘要的指示性部分,其识别文档的主题。随后,系统从源文本中呈现关于读者兴趣的附加信息。从源文章及其摘要的语料库中,作者发现72%的摘要信息在文章标题、第一节和最后一节以及图和表的副标题和标题中呈现。此外,他们确定了55个概念和39个关系,这些概念和关系构成了对阐述技术摘要主要内容的不同类型信息进行分类的基础。这些概念按作者、研究活动、目的和认知活动等类别进行分类。另一方面,关系是作者在研究和写作过程中的一般活动,包括调查、报道、动机、思考和认同。最后,基于系统生成的摘要,Saggion和Lapalme将这些内容组织成指示性或信息性模板,以生成文章摘要。他们首先从目标文章中选择信息类型,然后是模板。在重新生成决定目标文章主题的文本后,他们用主题阐述扩展了指示性文本。他们通过测量指示性--指示源文件基本内容的能力--来评估他们提出的方法然后将他们提出的系统与另外两个求和器进行比较:他们自己实现的基于词分布的求和器,该求和器建立在计算文本中名词分布的基础上,以及商业上可获得的Microsoft Office可接受性评价表明,使用某些模板类型生成的句子质量关于指示性,他们发现选择性分析平均优于其他方法,但在大多数情况下并非如此。Lloret等人(2011)提出了两种生成研究论文摘要的方法。第一种是纯粹的提取性总结(纲要E),第二种是基于提取和抽象技术(纲要E-A)。概要E是一个提炼性的总结工具,它依赖于四个主要阶段:1)预处理(即,标记化、句子分割、停用词消除和词性标记); 2)使用文本蕴涵(TE)工具去除冗余(Ferrández等人,2007); 3)句子相关性识别,其基于两个特征为每个句子分配反映其重要性的分数-代码数量原则(CQP)(Blake,1992)和词频(TF)(Luhn,1958)-然后根据它们的得分对它们进行排名;以及4)摘要生成,选择排名最高的句子以按照句子在原始文档中出现的顺序生成最终摘要。因此,生成的摘要是提取摘要。相比之下,纲要E-A是基于提取和抽象的技术。该方法以E纲要为基础,在第三步和第四步之间集成一个信息压缩和融合阶段新句子是通过结合两个句子的信息或将长句缩短为较小的句子来创建的。作者根据从网络上他们的评价基于三个标准:(i)基于ROUGE分数的摘要信息(Lin,2004),(ii)通过将生成摘要中的关键词之和除以文章关键词来确定主题,以及(iii)通过定性评估确定用户满意度。根据结果,他们得出结论,该纲要对于自动生成研究文章摘要很有用。此外,抽象摘要更受欢迎,即使它们与摘录摘要相似。Saggion(2011)是第一个研究基于转换的学习(TBL)方法来解决问题的研究者,和可接受性,衡量的是自动生成的句子与人工生成的句子相比。他们9http://www.microsoft.com/education/autosummarize.aspx。1018N. Ibrahim Altmami,M.El Bachir Menai/ Journal of King Saud University抽象的一代他的工作是基于通过使用从示例语料库中学习的几个规则转换初始文本摘要来生成摘要 他在实验中使用了一组219个摘要和一组工具,例如文本工程通用架构(GATE)系统(Maynard et al.,2002)和Weka机器学习工具包(Geller,2002)环境。对于语料库中的每一个摘要,一个基线系统首先被诱导来表示默认的摘要结构。然后,一个决策树被应用于归纳出几个模板,这些模板随后与标注的训练语料库一起使用,以使用TBL方法来学习话语校正规则。这些规则最终用于编辑初始文本摘要以获得最终摘要。实验结果与Saggion(2009)关于基于分类的谓词插入的工作一样好。Yang等人(2016)提出了一个扩展摘要系统,该系统使用数据加权重建方法描述科学文章的最重要方面。这包括两个阶段:权重学习和突出句子选择。在第一阶段,引用句子和社会结构的语义信息被认为是。作者使用包含主要方面的目标文章摘要和引用目标文章的句子集来提供补充方面作为系统的输入。首先,他们建立了一个异构的书目网络。然后,他们确定了社会关系,如paper-coauthor-paper和paper-cite-paper,以及句子之间的相似语义关系此外,他们提出了一个基于学习句子的权重和加权重建误差的数据加权目标函数因此,从数据重构的角度来看,它们可以检测显著的句子。通过这种方法,被认为是重要的句子的重建过程进行。他们使用两个数据集来评估他们提出的方法:AAN 10(Radev等人,2013年,微软?[11]他们进行了几次实验,并将他们提出的方法与类似的方法进行了比较,以及与六个求和基线的性能进行了比较。他们应用ROUGE(Lin,2004)和关键短语的回忆来评估他们的系统性能。此外,使用三个例子,他们进行了一个用户和一个案例研究,以评估生成的抽象与原始的质量。结果表明,在大多数情况下,他们提出的方法优于其他方法。因此,对句子的权重进行加权Slamet et等人(2018)提出了一个简单的系统,可以自动...cally生成印度尼西亚语的文章摘要。在他们的系统中使用了四个主要步骤首先,预处理步骤(包括句子提取、格折叠、标记化、过滤和词干提取)用于为下一步准备输入文本。接下来,为预处理文本中的每个术语计算术语频率-逆文档频率(TF-IDF)(Hetami,2015)。使用余弦相似度和向量空间建模(VSM)(Hetami,2015),计算文本与TF-IDF输出的20个关键词之间的相似度,并基于其相似度得分对句子进行排名最后,从前十个句子中汇编出最终该系统的有效性进行了比较的手动摘要与系统的输出这一比较表明,系统生成的摘要由三个或三个以上的句子与手动摘要。这是因为作者抽象(即,手册摘要)包含文章正文中没有的单词第10http://clair.eecs.umich.edu/aan/in
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功