没有合适的资源?快使用搜索试试~ 我知道了~
制作和主办:Elsevier沙特国王大学学报文本自动摘要技术综述Adhika Pramita Widyassaria,b,Supriadi Rustada,Guruh Fajar Shidika,Sunday,Edi Noersasongkoa,Abdul Syukura,Affandy Affandya,De Rosal Ignatius Moses Setiadiaa印度尼西亚三宝垄Dian Nuswantoro大学计算机科学系b印度尼西亚Blora Ronggolawe Cepu STT电气工程系阿提奇莱因福奥文章历史记录:收到2020年2020年5月13日修订2020年5月14日接受2020年5月20日网上发售保留字:系统综述趋势特征问题方法A B S T R A C T文本摘要自动生成包含重要句子的摘要,并包含原始文档中的所有相关重要信息。从总结结果来看,主要方法之一是提取和抽象的。摘要提取正在走向成熟,现在的研究已经转向抽象总结和实时摘要。尽管在数据集、方法和技术的获取方面取得了如此多的成就,但没有太多的论文可以提供这一领域研究现状的全貌。本文对2008年至2019年发表的文本摘要领域的研究进行了广泛而系统的综述。有85种期刊和会议出版物是提取选定研究的结果,用于识别和分析,以描述研究主题/趋势,数据集,预处理,特征,技术,方法,评估和该研究领域的问题分析的结果提供了对主题/趋势的深入解释,这些主题/趋势是他们在文本摘要领域的研究重点;提供了对公共数据集、预处理和已使用的特征的参考;描述了研究人员经常使用的技术和方法,作为比较和开发方法的手段。文章最后对文本摘要研究面临的机遇和挑战提出了©2020作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。内容1.导言. 10302.方法10312.1.审查方法10312.2.研究问题(RQ)10322.3.搜索策略10322.4.研究选择10322.5.数据提取10333.结果10333.1.论文研究出版物10333.2.数据集10333.3.主题或趋势研究10353.4.预处理1036*通讯作者。电子邮件地址:adhika@mhs.dinus.ac.id(A.P. Widyassari),srustad@dsn.dinus.ac.id(S. Rustad),guruh. dsn.dinus.ac.id(G.F. Shidik),edi-nur@dsn.dinus.ac.id(E.Noersasongko),dsn.dinus.ac.id(A. Syukur),affandy@dsn.dinus.ac.id(A. Affandy),moses@dsn.dinus.ac.id(De Rosal Ignatius Moses Setiadi).沙特国王大学负责同行审查https://doi.org/10.1016/j.jksuci.2020.05.0061319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com1030A.P. Widyassari等人/沙特国王大学学报3.5.特点10373.. 6.接近技术10373.7.文本摘要中的问题3.8.方法10413.9.文本摘要中的评估4.结论1043确认1044参考文献10441. 介绍随着互联网和大数据的发展,人们被互联网上的大量信息和文档所淹没。这引发了许多研究人员开发一种可以自动总结文本的技术方法的愿望。自动文本摘要生成包含重要句子的摘要,并包括来自原始文档的所有重要相关信息(Allahyari等人,2017年; Gambhir和Gupta,2017年)。因此,信息很快到达,并没有失去文件的原始意图(Murad和Martin,2007)。自20世纪中期以来,文本摘要研究领域一直在进行研究,Lun(1958)首次公开讨论了词频图统计技术。迄今为止,已经创建了许多不同的方法。根据文档的数量,文摘分为单文档文摘和多文档文摘.同时,在总结结果的基础上,进行了抽取和抽象。单个文档产生源自一个源文档的摘要(Radev等人,2001年)和内容描述是围绕同一主题。虽然多文档摘要取自讨论相同主题的各种源或文档(Qiang等人,2016; Ansamma等人,2017;Widjanarko等人,2018年)。(Christian等人,2016)使用TF-IDF在单个文档中进行文本汇总,并(Sarkar,2013)使用主要概念在单个文档中设计自动文本汇总。(Qiang等人,2016)在2004年DUC数据集上通过基于模式的摘要(Patsum)方法总结了多个文档,并表明结果不仅优于基于术语的方法,而且优于基于本体的方法。Ansamma等人(2017)使用潜在语义分析(LSA)和非负矩阵分解(NMF)总结了多个文档,结果在精确度和召回率方面优于最新技术水平。Qaroush et al.(2019)提出了对阿拉伯语单个文档的总结,该文档结合了机器学习和基于分数的方法,产生了一个相当丰富的提取摘要,该方法基于语义和统计的组合来评估每个句子。结果在精度指标、内存和F分数方面都很优越,缺点是 它 没 有 优 化 特 征 的 权 重 。 Vermaand Om ( 2019 ) 通 过 SharkOptimization(SSO)方法最大限度地减少了多文档汇总中的冗余,性能结果远优于先前的汇总方法。摘要摘要是一种摘要,完全是提取的内容,因此摘要句子的结果是从原始文本中获得的句子或单词(Khan和Salim,2014)。摘要摘要研究最初提出的常见问题是确 定 句 子 的 位 置 ( Khan 和 Salim , 2014 ) 和 文 本 中 单 词 的 频 率(Eschendale,1958)。下一个实验提出了被称为信息提取(IE)技术的提取问题,以产生具有更具体结果的摘要并提高准确性。采用IE技术开发的自动汇总系统的一个例子是RIPTIDES,其功能是基于用户选择的场景总结新闻(White等人,2001年)。Naik和Gaonkar(2017)使用规则库进行的研究为基于规则的摘要器产生了最佳的平均精度,f-度量和召回值,但尚未在更广泛的数据上进行尝试。此外,存在使用神经网络的提取总结研究,其近年来比传 统方法更 受欢迎,这 些研究中 的一些是(Mohsen等人,2020;Anand和Wagh,2019; Xu和Durrett,2019; Chen等人,2018a,b; Alami等人,2019年)。Anand和Wagh(2019)进行的研究使用了一种深度学习技术,即前馈神经网络(FFNN)来总结法律文档中的单个文档,该技术具有生成提取摘要的优势,而无需创建特征或领域知识,并且通过Rouge评分衡量表现良好,并生成一个连贯的总结,将但在简化复杂和长句子方面薄弱。与抽取式摘要相比,由抽象摘要生成的句子是新句子或通常称为释义,其使用文本中没有的词来生成摘要。摘要非常复杂,比提取摘要相对更困难,因为生成摘要需要大量的自然语言处理(Gambhir和Gupta,2017)。摘要提要中的处理方法一般分为语言法和语义法。使用语言方法的方法的示例,例如基于信息的方法(Genest和Lapalme,2012)和基于树的方法(Barzilay等人,1999; Tanaka等 人 , 2009 年 ) 。 虽 然 使 用 诸 如 基 于 模 板 的 方 法 ( Genest 和Lapalme,2011)和基于本体的方法(Chang-Shing等人, 2005年)。最近关于抽象概括的研究受到编码器-解码器框架的启发,如Xuet al. ( 2020 ); Lee et al. ( 2020 ) ; Yao et al. ( 2018 a ) ;Iwasaki et al. (2019年)。除了被认为该模型更平滑之外,编码器-解码器框架还便于自动调整参数(Xu等人, 2020年)。在2000年代,文本求和领域出现了新的趋势marizing研究。摘要不仅生成一次,而且还能够实时总结事件或在新信息出现时更新摘要,称为实时摘要(Ekstrand-abueg等人,2016; Lou和Man,2012; H,A.S.S.,K,M。医学博士,2016; Maio等人,2015; Rodríguez-Vidal等人,2019;Kacprzyk等人,2008; Fu等人,2015年; Wu等人, 2015 a,b; Wang等人,2014年)。已经在实时摘要中使用的方法技术是基于模糊的和机器学习的。使用基于模糊的方法的方法的示例是具有语言量化命题的经典Zadeh演算的模糊逻辑(Kacprzyk等人,2008),其解决了趋势提取和实时问题,其中结果在t-范数评估中是优越的,但是在语义问题中是弱的,因为其他t-范数的语义结果不清楚并且不清楚可以被理解。模糊形式概念分析(FuzzyFormal Concept Analysis,简称FCA)(Maio等人, 2015年),它解决了语义和实时问题A.P. Widyassari等人/沙特国王大学学报1031其中结果在具有最佳召回率和相当精确度的F测量中的评估中表现出色使用机器学习方法的方法的示例是Liu等人的增量短文本求和(IncreSTS)。(2015a,b)具有更好的离群值处理,高效率和目标问题的可扩展性。Rodríguez-Vidal et al.(2019)的秩偏精度汇总(RBP-SUM),通过使用Rouge进行评估,在克服冗余方面具有优势,但该方法只能生成提取汇总。文本摘要是自然语言处理(NLP)领域的一项艰巨挑战(Rane和Govilkar,2019;Shabbir Moiyadi等人, 2016),因为它需要精确的文本分析,如语义分析和词法分析,以产生一个很好的摘要。此外,一个好的摘要必须包含重要信息,必须简洁,但也必须考虑非冗余、相关性、覆盖范围、连贯性和可读性等方面(Verma等人,2019年)。在哪里得到所有这些方面的总结是一个很大的挑战。关于文本摘要的论文综述很重要,因为摘要提取技术已经成为一个非常广泛的研究课题,并且正在走向成熟(Gupta和Gupta,2019)。现在,研究已经转向抽象总结(Gupta和Gupta,2019)和实时总结。这是因为抽象摘要比提取摘要更复杂。因此,提取性总结比抽象性总结更容易给出预期和更好的结果(Elrefaiy等人,2018; Allahyari等人,2017; Mishra andGayen,2018)。然而,由于在过去两年中仍然存在明显的提取研究,因此提取总结也仍然有很大的需求(Ren等人,2018;Sanchez-gomez等人, 2018年; Yao等人,2018 b; Khan等人,2019; Qaroush等人,2019; Anand和Wagh,2019; Lierde和Chow,2019)。这显示可能仍有改善的机会或漏洞为了推进文本摘要领域的研究,文献研究通常包含在综述或调查论文中,进行分析和Gupta和Gupta(2019)的综述论文专门讨论了抽象概括的流行组件,例如抽象概括领域的研究趋势,现有抽象概括技术的一般描述,工具和评估。Abualigah等人(2020)对文本摘要技术进行了简要调查,特别是阿拉伯语。Nazari和Mahdavi(2018)进行的一项调查讨论了文本摘要,重点是文本摘要中Nazari和Mahdavi(2018)将统计方法、机器学习方法、基于语义的方法和群体智能方法进行了分组。Elrefaiy等人进行了另一项调查。(2018)总结了专注于无人值守技术的提取文本,在比较表中列出了优势和劣势,暗示了一些关于评估和未来趋势的信息。其他一些 综述文章仅涵 盖较小的部分 ,例如仅关于 方法技术( Allahyari 等 人 , 2017;Nazari 和 Mahdavi , 2018 ) , 所 用 方 法(Rajasekaran等人, 2018),评估技术(Saziyabegum和Sajja,2017),或讨论提取或抽象文本摘要的主题(Abualigah等人,2020年)。所以这将使研究人员,特别是那些新研究这个领域的人,需要努力工作,可能很难做一个彻底的审查。因此,本研究的目的如下:a)识别和分析文本摘要领域的研究主题/趋势,并对其进行分类; b)概述文本摘要的各种方法(其中也强调了常用方法的优点和局限性); c)简要解释该领域已经存在的方法,讨论了文本摘要领域中存在的问题,以及已经解决或尚未解决的问题;简要讨论了现有的文本摘要评估技术,以及已经使用的数据集;g)对文本摘要研究的未来发展提出了建议为了在这一领域的研究中探索更多的机会,本研究使用系统性文献综述(SLR)技术,以获得更系统、可衡量的探索结果,并且主题的多样性使综述更加多样化和广泛(Wahono,2015)。SLR相对于传统审查技术的优势在于使用科学方法及其系统的工作流程(Okoli和Schabram,2010)。使偏差最小化,结果清晰,可解释。由于其明确的操作方法,SLR可以自信地为政策制定者提供输入将2008年至2019年底的各种研究归类为研究问题(RQ)组。所进行的活动如下:在审查文件中的研究方法在第2节中解释,结果和第2节中提出的问题的答案在第3节中解释,结论和未来的工作在第4节。2. 方法2.1. 复习方法本文采用系统文献综述法对文本摘要进行了综述研究。SLR是一种识别、评估和解释与主题领域或研究问题相关的整体研究结果的方法,旨在为研究问题提供答案(Okoli和Schabram,n. d),即对文本摘要的研究。一般来说,有三个部分(Wahono,2015)在SLR中进行,即:第一部分是计划阶段,第二部分是实施阶段,第三部分是报告阶段,更多细节见图。1 .一、图1.一、 系统性文献综述(Okoli和Schabram,n.d.)1032A.P. Widyassari等人/沙特国王大学学报表1PICOC标准。人口文本摘要干预文本摘要中的方法比较自动文本摘要性能在计算机实验室中使用小型和大型数据集进行上下文表2研究问题和动机。ID研究问题动机图二、复习文本总结的思维导图RQ1哪些期刊/会议论文是关于文本摘要的?RQ2在文本摘要中使用什么数据集?确定文本摘要中最重要的期刊/会议论文确定文本摘要表3入选和排除标准。RQ3哪些期刊/会议论文是关于文本摘要的?RQ4在文本摘要中使用了哪些预处理方法?RQ5在文本摘要中使用了哪些功能?RQ6在文本摘要中使用了哪些方法?RQ7当前文档摘要中存在什么问题?RQ8在文本总结?确定文本摘要识别用于文本摘要研究的确定文本摘要确定文本摘要找出问题是在文本摘要确定文本摘要中使用的方法包容标准排斥标准表4数据提取。总结文本的研究包括主题,问题,数据集,技术和使用的这项研究包括会议的期刊和论文,专门讨论了文本的总结,所采用的出版物是2008年至2019没有实验结果而使用数据集的研究是不清楚的研究报告讨论的主题超出了总结文本的范围RQ9在文本摘要中使用了哪些评估技术?2.2. 研究问题(RQ)确定在文本摘要中进行了哪些评价房地产研究问题出版物RQ1文本摘要数据集RQ 2研究主题或趋势RQ3文本摘要预处理RQ4文本摘要功能RQ 5文本摘要技术RQ6RQ准备促进审查过程更加集中和一致。一般而言,研究问题是使用PICOC 有 意 义 的 标 准 ( 人 群 、 干 预 、 可 比 性 、 结 果 和 背 景 )(Kitchenham和Charters,2007)准备的,如下表1所示。表2解释了本文献综述中的研究问题和动机。RQ2和RQ4至RQ9是主要的研究问题,而RQ1和RQ3用于帮助评估主要研究的背景。RQ2显示数据集和RQ4到RQ9,即预处理,使用的特征,方法技术,问题,方法和评估。RQ 1和RQ 3提供了在总结文本时某些研究领域的概要。为了更容易地理解关于文本摘要摘要的研究问题,如图1中的思维导图所示。 二、2.3. 搜索策略本文综述中使用的数据源是sciencedirect.com网站上的论文,ieeexplore.ieee.org和dl.acm. org。该网页是一个领先的论文期刊和授予网站适合审查这篇文章摘要研究。要获得适合主题的论文,请输入以下关键字或从正在进行的研究主题确定的关键字的同义词。以下是用于论文搜索过程的搜索字符串:(文本摘要或抽象摘要或提取摘要或实时文本摘要)和(方法或技术或方法)。对检索字符串进行调整,以显著减少不相关研究的列表为了满足每一项具体要求-文本摘要问题RQ7文本摘要方法RQ8文本摘要评估RQ9从每个网站的数据库中删除,搜索调整是必要的。数据库检索的具体要求基于标题、摘要和关键词。有限的搜索出版年份:2008出版物包括期刊论文和会议或论文集,初步确定80%的期刊和20%的会议或论文集。本审查文件部分提供了会议文件或会议记录,因为这并不排除会议或继续发表论文提出好主意的可能性所收录的论文仅限于英文论文。2.4. 资料选择当进行论文搜索阶段时,它将在进行搜索调整过程时过滤出非常多符合标准的文章。根据表3所述的入选和排除过程确定了主研究中纳入的论文标准。此外,为了制作适合研究主题的有限论文供以后审查,我们需要一种图中描述的方法。3 .第三章。通过自动过滤标题、摘要和关键词进行初始检索时获得的初始论文为1338项研究。然后选择与整个文本的完整内容相匹配的主要论文文章,以便有85篇论文。85篇论文的最终结果将是总结-A.P. Widyassari等人/沙特国王大学学报1033图三. 搜索和选择。检查并审查以供以后分析。Mendeley2.5. 数据提取数据提取阶段是一个从主要研究中收集数据以回答研究问题的过程。表4以下是使用的数据提取表3. 结果3.1. 论文研究出版物从过滤过程的结果来看,讨论过文本摘要研究的论文,85篇论文讨论了2008年至2019年的文本摘要。图4显示了十年来每年纸质出版物数量的发展图,从图中可以看出,文本摘要的研究仍然是相关的。关于文本摘要的研究最多的是2018年,有18篇出版物。该研究的研究在2015年显著增加,在85项选定的替代研究中有15项发表。从图表中可以看出,从2008年到2012年对这项研究的研究兴趣不大,即只有1或2篇出版物。这项研究从2013年开始,到现在为止,2019年有15篇出版物。出版物基于文献研究的期刊论文或重要会议如图5所示。正如背景中所解释的那样,在这篇综述论文中,研究人员占据了80%的期刊论文和20%的会议。从文献综述研究领域发表论文的期刊源和会议分析,《专家系统与应用》期刊是发表论文最多的期刊源总结文本。3.2. 数据集在研究中,需要一个数据集来测试所提出的方法的性能。在文本摘要研究中,使用了各种数据集,分为两组数据集,私人和公共。要查看过去十年中使用的私人和公共数据集的比较,可以在图中看到。 六、公共数据集比私有数据集使用得更广泛。在85项关于文本摘要研究的研究中,55项研究使用了公共数据集,30项研究使用了私人数据集。在这项研究中,最受欢迎的公共数据集是70%的DUC。然后是推特11%,新闻9%,多语言5%,TAC 2011 5%。在过去的十年中,有几种类型的DUC数据集DUC 2002有21项研究,DUC 2003只有1项研究,DUC 2004有11项研究,DUC 2005和2006只有1项研究,DUC 2007有3项研究使用了该数据集。DUC数据集是由美国商务部下属机构国家标准与技术研究院(NIST)发布的公共数据集。迄今为止,NIST发布的DUC数据集有八种类型,即DUC2000至DUC 2007。DUC数据集被广泛用于信息检索研究,尤其是文本摘要.基于过去十年的文献,在该领域中经常使用的DUC数据集是DUC2002和DUC 2004。DUC 2002和2004数据集非常适合用于或开发。见图4。 过去十年选定研究的分布情况。1034A.P. Widyassari等人/沙特国王大学学报图五、期刊和会议/Prosiding出版物和选定研究的分布为几个研究趋势/主题如提取物(Song等人,2011; Yao等人,2018b; Yadav和Meena,2016; Fang例如,2016; Ansamma等人,2017年; Chen等人,2018 a,b;Al-sabahi等人,2018),抽象(Fuad et al.,2019; Sahoo等人,2018; Bhargava等人,2016;Khan等人,2015 a; S等人,2017),单文档(Cagliero等人,2019; Goyal等人,2013; Patel和Chhinkaniwala,2018)或多文档 ( Padmapriya 和 Duraiswamy , 2014; Patel 等 人 , 2019;Malallah和Ali,2017;Fuad等人,2019年; Khan等人,2015 a; S等人, 2017年)。因为DUC 2002和2004包含多个包含美国新闻的文档。每一份新闻文件都被切割成句子。因此,它可以帮助研究人员在文档中创建句子分割然而,DUC 2002和DUC 2004不适合于图六、数据集文本摘要的分布实时摘要的主题,因为新闻数据不是连续的,不连续。如果使用DUC公共数据集,积极的一面是它可以将所提出的方法的性能与以前开发的许多不同方法进行比较。多语言数据集用于包含多种语言的文档。使用的多语言数据集是multiling11和multiling13。已经使用的新闻数据集是关于球的新闻和具有除英语之外的文本的新闻,即普通话和泰语。而tweet数据集是热门话题、电影评论和特定产品评论。广泛使用的私有数据是新颖的数据集和具有除英语之外的语言域的数据集,所述语言域诸如马来亚语、西藏语、土耳其语、孟加拉语、印度尼西亚语、普通话、泰语和阿拉伯语。 其他私有数据集是微博、语音、评估和生物医学。私有数据集的积极方面是经常使用的新数据集和除英语之外的语言域数据集。通过使用英语以外的语言数据集,使用匹配良好结果的预处理是一需要特殊方法/算法来处理此问题的预处理阶段因为词干处理的是词缀问题,而英语词缀与其他语言不同 为了查看过去10年中每年使用的数据集的分布,请参见图。7.第一次会议。图7中的图表显示了每年使用的数据集数量的分布,包括公共和私人数据集。从这个数字可以得出结论,2015年公共数据集出现了显著增长。这与正在增加A.P. Widyassari等人/沙特国王大学学报1035见图7。 分发私有和公共数据集。见图8。主题或趋势研究的分布。在2015年和2018年显著增加(从图4中可以看出)。公共数据集的数量在2017年略有下降,直到2019年再次增加。3.3. 主题或趋势研究文本摘要研究由各种研究主题或趋势组成。近10年来,关于文本摘要的研究有8个主题或趋势,即抽取、摘要、单文档、多文档、优化、领域和实时摘要。在文本摘要中的趋势或研究主题的分布可以在图中看到。8.第八条。在过去10年中,最受欢迎的研究主题或趋势是多文档,占23%。在多个文档中总结主题文本是最流行的,因为与一个文档相比,这个主题更具挑战性。毕竟,它需要很大的搜索空间,并且每个文档中有不同的内容(Puspaningrum等人,2019年)。此外,多文档摘要提供了来自各种在线媒体的信息(Hendy Evan和Sigit Purnomo,2014),并且与此时在线媒体或互联网上可用的信息数据量成比例。多文档之后的下一个最受欢迎的研究主题是额外的文本摘要,因为它更客观,没有呈现观点(Vázquez等人,2018年)。提取文本表5在文本摘要中详细研究主题或趋势。主题/趋势研究提取Lierde和Chow(2019),Song et al. Jaafar and Bouzoubaa(2011)(2018),Sanchez-gomez et al.(2018),Yao et al.(2018 b),Wu等人,(2017),Yadav和Meena(2016),Fang et al.(2016),Ansamma et al.(2017),Krishnaprasad et al. 2016年,Naik和Gaonkar(2017),Babar和Patil Shah andJivani(2015)(2018),Khan et al.(2019),Chen et al.(2015),Chen et al.(2018a,b),Zhang et al.(2010),Liu等人(2015 a,b),Al-sabahi等人(2018),Rastkar等人(2014),Ren等人,n. d.)AbstractiveBarros等人(2019),Azmi和Altmami(2018),Fuad等人(2019),Sahoo等人(2018),Bhargava等人(2016),Jaafar和Bouzoubaa(2018),Mori等人 (2018)、Khan等人(2015 a)、Wei等人(2019)、Khan等人(2015 b)、Chi等人(2018)、Chen等人(2018 a,b)、S等人(2017)、Guo等人(2019)、Dilawari和Khan(2019)、Zhang等人(2019)。(二零一三年)无监督学习Song等人(2011),Yousefi-azar and Hamey(2017),Tayal et al. (2016),Alami et al. (2019),Wu et al. (2015a,b),Khan等人(2019),Sun and Zhuge(2018),Zhou et al. ( 2016年)Li et al. (2016),Patel et al. (2019),Sharifi et al. (2013),Goyal et al. (2013),Wang et al. (2015),Cagliero et al. (2019年)多文件Malallah和Ali(2017),Patel等人。(2019),Lee et al. (2013),Padmapriya and Duraiswamy(2014),Fuad et al. (2019),Khan et al.(2015a),Khanetal.(2015 b),S et al. (2017),Sanchez-gomez et al. (2018),Verma and Om(2019),Qiang et al. (2016),Ansamma et al. (2017),Widjanarko et al. (2018)、Azhari等人(2018)、Sharifi等人(2013)、Alzuhair和Al-dhelaan(2019)、Liu等人(2012)、Bian等人(2013)、Yulianti等人(2017)、Qiang等人(2017)。(2019),Ketui et al. (2015),Yan and Wan(2015),Baralis et al. (2015年)OptimizationSong et al. ( 2011),Abbasi-ghalehtaki et al. ( 2016),Binwahlan et al. ( 2009 a),Khosravi et al. ( 2008),Sanchez-gomez et al. ( 2018年)实时Maio等人(2015)、Rodríguez-Vidal等人(2019)、Chua和Asur(2009)、Kacprzyk等人(2008)、Kacprzyk等人(2008)、Fu等人(2015)、Chellal等人(2015)(2016),H和K,2016,C.Liu等人,2015,Wang et al. (2014),Wu et al. (2015年a、b)域域土耳其Güran和Uysal(2017),域Bangla Sarkar和Hossen(2018),域生物医学Moradi(2018),域评估Goularte et al.(2019),域MalayamKrishnaprasad et al.(2016),域Tibetan Li et al.(2016),域印度尼西亚Widjanarko et al.(2018),域印度尼西亚Sabuna和Setyohadi(2017),域小说Gupta和Kaur(2015),域土耳其Kutlu et al.(2010),域评论电影Liuet al.(2010)。(2012),问答(QA)Yulianti et al. (2017),domainmultilateral Cagliero et al. (2019)和Baralis et al. (2015年)1036A.P. Widyassari等人/沙特国王大学学报图9.第九条。文本摘要中预处理的分布摘要只选择最重要的单词、句子和段落来生成摘要。摘要式文摘在句与句之间的连贯性方面存在不足。如果与抽象摘要相比,提取摘要相对容易,而抽象摘要非常复杂,因为它需要大量的自然语言处理(Gambhir和Gupta,2017)。虽然摘录摘要比非常复杂的抽象摘要相对容易,但仍然有许多事情挑战着研究人员。例如,在确定与数据集对应的预处理阶段、选择正确的特征以及如何最大化特征以获得更好的摘要时,确定正确的方法以及如何将一种方法与另一种方法协作以更好地提高摘要性能。最具挑战性的主题或趋势研究是实时求和。这是因为除了概要必须产生相关概要并包括所有信息而没有任何冗余之外,还必须在出现新信息时尽快添加/更新概要(Chellal等人,2016年)。实时摘要与其他文本摘要主题的区别在于信息的定时或更新。表5详细介绍了研究者们在文本摘要方面的8个主题或趋势。3.4. 预处理预处理是准备数据的初始过程。根据求和的需要,将非结构化数据转换为结构化数据。基于过去十年的研究,文本摘要的预处理可以在图中看到。9.第九条。基于图9,可以得出结论,在文本摘要中经常进行的预处理是停止词去除。停止词移除是在处理中被忽略的词。这些被忽略的单词存储在停止单词列表中。确定停用词的主要特征是通常具有高出现频率的词在确定要使用的停用词时没有明确的规则,停用词的确定可以根据所解决的情况和所使用的语言进行调整,例如,印地语停用词列表(Rani和Lobiyal,2020)将与英语或其他语言非常不同。第二个经常使用的预处理是Stemming。词干提取法用于将带有词缀的词转换成基本形式或去除附着在基本词上的词缀。例如,每种语言中的词干处理是不同的。例如,与英语中的词缀相比,印度尼西亚语中的词缀更复杂因为印度语中的词缀由前缀、中缀、后缀、重复形式和缀(前缀和后缀的组合)组成接下来经常使用的预处理是标记化。标记化用于将句子、段落或文档划分为特定的标记/部分。下面句子中的标记化示例:通常,标记之间的空格是空格和标点符号。使用的其他预处理包括章节分割、段落分割、句子分割、单词分割、词重、词频、逐词矩阵、句子选择、规范化、后标记、专有名词集和词袋。章节分割是一个预处理阶段,它将文本文档分离/切割成章节。一旦分离或切割成章节下一个是段落分割,这是分离/切割成段落的章节。接下来是从句子切分到单词切分。词形化是一个预处理阶段,其目标与词干提取几乎相同,即规范化单词或将具有影响力的单词不同之处在于,词干提取只粗略地删除一个单词的添加,而不考虑上下文知识或形态分析。然而,词干挖掘通常更容易应用,运行速度更快,对于某些应用程序来说,准确性降低可能不是问题而规范化是一个由词干提取或词形化组成的阶段。术语权重是一个词或词的判断的权重词频与术语权重密切相关,术语权重是指单词出现的频率,以便确定单词值词性标记是一种对词类(如名词、动词、形容词等)进行分类的方法。词袋是一种向量空间模型,其中每个句子都被描述为一个标记,并且无论词序如何都对单词的出现进行计数。专有名词集是名词或语料库名词的集合。句子选择是一个预处理阶段,它选择要用作摘要的句子。A.P. Widyassari等人/沙特国王大学学报1037N简体中文SPi¼1-i-1ð2Þ图10个。用于文本摘要的特征分布3.5. 特征图10解释了2008年至2019年文本摘要研究中使用的特征。摘要中的特征是提取摘要的特征或指标。十个特征是近十年来文本摘要研究中常用的特征。最受欢迎的特征是句子长度和句子位置。在句子长度特征中,长句包含更多重要或相关的信息。这意味着短句不包含任何相关信息,因此短句被认为不重要或被忽略。为了计算句子长度(SL)(Patel等人,2019年,可以在下面的等式中看到。其中,SL变量是句子的长度,出现在S中的单词的数量是表示句子中单词数量的变量,出现在最长句子中的单词的数量是表示最长句子中单词数量的变量。SLNo:在S1中出现的单词的否:最长句子句子位置是提取文本摘要中研究最多的特征(Wu等人,2017;Yadav 和 Meena , 2016; Naik 和 Gaonkar , 2017; Babar 和 Patil ,2015)。已经使用了各种方法来表征句子位置,其中之一是用反向句子顺序加权。它的使用例如与文本在20个句子中,第一句比最后一句重要20倍。所以如果一个段落有n个句子,则计算每个句子的得分。为了计算句子位置分数(Patel等人,2019年,可以在Eq中看到。其中SP是示出句子的位置的变量,N是示出文档中的整个句子的变量,并且i是示出句子的变量。其他特征包括标题词、关键词、主题词、专有名词、数字数据、句子肯定、语义术语和频繁语义。标题词特征是用来衡量词与标题的相似度的特征,词与标题的相似度越大意味着该词被包括在摘要中的可能性越大。关键词是一个词,有一个大的判断或主要的词,经常出现在一个句子和词,是一个句子中的重要词。有许多研究集中在确定或找到关键字。示例是使用机器学习方法,诸如SVM(Gupta和Kaur,2015)、LSA(Liu等人,2012)和文本排名(Wu等人,2015 a,b),使用TF-IDF等统计方法(Malallah和Ali,2017; Patel等人,2019; Güran和Uysal,2017; Mori等人,2018; Sabuna和Setyohadi,2017; Wu等人,2015 a,b; Fu等人, 2015)和其他方法,例如N-Gram(Liu etal.,2015年a、b)。 专有名词是一组名词。语义词和语义词频是衡量句子或词语之间语义关系的语义特征的一部分。使用相当完整特征的最近研究是(Patel等人, 2019)通过使用以下特征:词特征(标题词、专有名词词、主题词、使用TF-IDF的关键词、数字数据)、句子特征(句子长度和句子位置)和使用模糊逻辑系统的评分特征。将统计方法与基于模糊的方法,即TF-IDF方法和模糊逻辑相结合,在多文档文本输入的情况下,产生抽取摘要的多文档摘要(MDS)。所采取的方法的优点是使用句子评估在一个更好的调整过程中。缺点是在总结中对句子进行排序的问题。句子排序是一项非常困难的任务,但在总结文档时非常重要。未来可以做的一种方式是改进MDS形式(Patel等人,2019)通过添加语义和语言特征来生成更连贯的摘要。3.. 6.进场技术从近十年来的文献来看,文本摘要化主要有六种方法或技术,即基于模糊的、机器学习的、统计学的、图形学的、主题建模的和基于规则的。为了找出在过去的十年中,文本摘要的方法,它可以在图中看到。 十一岁在文本摘要中最常用的方法技术是机器学习,有46项研究。机器学习方法是最受欢迎的技术,因为这种方法是一种现代技术。机器学习性能是自动的,并且在没有明确编程的情况下从经验中学习改进。在过去十年中,用于文本摘要的机器学习方法中使用
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功