自动提取阿拉伯语摘要的统计和语义特征的组合方法及其有效性

94 浏览量更新于2024-01-14 收藏 3.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报结合统计和语义特征Aziz QaroushRai，Ibrahim Abu Farha，Wasel Ghanem，Mahdi Washaha，Eman Maalia巴勒斯坦比尔宰特大学电子和计算机工程系阿提奇莱因福奥文章历史记录：2018年10月3日收到2019年3月5日修订2019年3月16日接受在线预订2019年保留字：阿拉伯语单文档摘要机器学习基于分数的统计语义NLPA B S T R A C T在线文本数据的指数级增长引发了对有效且功能强大的工具的迫切需求，该工具可以以摘要形式自动提供所需内容，同时保留核心信息。在本文中，我们提出了一个自动的，通用的，和提取的阿拉伯语单文档摘要的方法，旨在产生一个足够的信息摘要。建议的提取方法评估每个句子的统计和语义特征的组合的基础上，其中一个新的公式是使用考虑到句子的重要性，覆盖率和多样性。此外，采用了两种汇总技术（包括基于分数的机器学习和监督机器学习）来生成摘要，然后帮助利用设计的功能。我们通过在EASC语料库上使用ROUGE度量的一组实验证明了该方法的有效性。实验结果表明，该方法在查准率、查全率和F-score等性能指标上都有较好的性能。©2019作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍一个自动机制，以总结一个文本，现在是响应于急剧增加的在线文本信息通过不同的资源，包括社会网站，新闻机构等，目前，新闻机构正在发布大量的在线新闻每天。承认现在的人们生活忙碌，他们觉得读多余的文章很麻烦。自然，人类倾向于节省他们的时间和精力来访问文档中最重要/相关和显著的信息。例如，Modaresi等人（2017）的作者调查了摘要系统在处理新闻文章中的（商业）好处。他们的研究结果表明，即使是简单的汇总系统（例如基于查询的提取方法）也可以大大节省员工的处理时间，而不会显着降低他们的工作质量。*通讯作者。电子邮件地址：aqaroush@birzeit.edu（A. Qaroush），iabufarha@birzeit.edu（ I.Abu Farha ）， ghanem@birzeit.edu （ W.Ghanem ）， mahdi. gmail.com（M.Washaha），emaali@birzeit.edu（E. Maali）。沙特国王大学负责同行审查由于这些原因，2001年开始的自动文本摘要已经迅速发展成为自然语言处理（NLP）领域的一个主要研究领域，如文本分析会议（TAC）和文档理解会议（DUC）系列的兴趣所示。文本摘要被证明在不同的领域是有益的，例如医学、法律诉讼、新闻流通和网页（Hua等人，2017年）。Hu和Liu提出了一个系统来总结亚马逊客户的评论（Hu和Liu，2004）。与此同时，胡亚涵等人提出了一种自动进行酒店评论的摘要系统（Hua等人，2017年）。Tseng等人采用了产生专利摘要的单文本摘要系统（Tseng等人，2007年）。此外，Kallimani提供了一种基于分数的统计方法来总结新闻文章（Kallimani et al.， 2012年）。摘要可以被定义为“从一个或多个文本中产生并传达原始文本中的核心信息的文本;通常，它不长于原始文本的一半，并且通常小于原始文本的一半（Radev等人，2002年）。通常有几个相关的参数，功能和属性，确定不同类型或类别的文本摘要。用于对文本摘要进行分类的主要参数是源或输入文档的数量（跨度）、文档中的语言数量、摘要的细节（摘要长度）、目标受众和摘要形成（Hovy和Lin，1998; Radev等人，2011; Al-Saleh和Menail，2016; Lagrini等人， 2017年）。https://doi.org/10.1016/j.jksuci.2019.03.0101319-1578/©2019作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com678A. Qaroush等人 /沙特国王大学学报-计算机与信息科学33（2021）677- 692例如，span参数区分单文档摘要和多文档摘要，其中单文档摘要仅从一个文档生成，而多文档摘要从一组相关文档生成此外，基于语言的数量，如果概括系统仅概括以一种语言书写的文档，则概括系统可以是单语言的，或者如果概括系统可以概括使用至少两种不同语言书写的文档，则概括系统可以是多语言的关于摘要参数的细节，当文档的最重要的思想以帮助用户获得文本的主要思想的方式被保存时，摘要可以是基于受众参数，它可以是所有信息/主题同等重要的通用摘要，或者它可以是基于查询（基于主题）的摘要，其中它依赖于最初提交的用户查询来总结可用的相关文档。最后，摘要形成机制产生提取或抽象摘要。为了说明，本质上是提取的摘要基于一些提取的特征（统计的或/和语言的）组合来自文本的重要片段（重要句子），而不对所选择的文本进行任何修改。很明显，提取方法更容易构建，但其摘要可读性较低，覆盖范围和连贯性较低，而且冗余发生的概率较高。另一方面，抽象摘要过程致力于使用语言学特征或方法基于从文档或语料库提取的信息来解释和释义文本，以便生成新颖的连贯且语法正确的句子。尽管使用语言方法生成的摘要看起来更像人类并且产生更浓缩的摘要，但与提取技术相比，这些技术更难实现;因此，研究人员有动力关注提取摘要方法。与英语或其他语言的研究相比，阿拉伯语文本摘要的形成研究还不够充分。这是由于一些问题和挑战减缓了阿拉伯语自然语言处理的进展。这些挑战来自于阿拉伯语的复杂性和缺乏自动化的阿拉伯语NLP工具。这些并发症可以在Al-Saleh和Menail（2016）中简要介绍：(i) 阿拉伯语是一种高度派生和曲折的语言，这使得诸如词形化和词干化的形态分析成为非常复杂的任务，（ii）阿拉伯语缺乏大写，导致命名实体识别（NER）系统的过程中的巨大挑战，（iii）在阿拉伯语文本中不可或缺的称为“Tashkeel”的变音符号的缺乏增加了推断“s”含义的复杂性，（iv）与其他语言相比，阿拉伯语被认为是高度模糊的，（v）除了基本的自动化阿拉伯语NLP工具（如词典，语义角色标签和命名实体识别）之外，缺乏阿拉伯语语料库使过程更加复杂。在最近的研究文献中，提出了几种方法用于阿拉伯语单文档抽取式文本摘要。然而，这些方法集中在一个或一些文本摘要目标，包括内容覆盖率，句子之间的多样性，可读性和压缩比。此外，以往的研究没有提供足够的分析和公式方面的特点，此外，阿拉伯语的单文档摘要的研究低于预期的性能水平相比，其他语言。在本文中，我们提出了一个通用的，提取，单文档摘要方法，旨在最大限度地提高内容覆盖率和摘要中句子之间的多样性。所提出的方法评估每个句子的基础上组合，国家的最翔实的统计和语义特征，使用一种新的制定，以实现两个矛盾的语义目标，即覆盖率和多样性。此外，两个求和技术，包括基于分数和监督机器学习被用来测试这些功能的强度所提出的方法的有效性可以通过在Essex Arabic Summaries Corpus（EASC）上进行的密集实验来证明（EL-Haj等人， 2010年）。因此，本文的主要贡献第二：它提出了一个新的公式，最翔实的统计和语义特征，以产生一个信息丰富的摘要。第三，研究了使用两种求和技术，即基于分数和机器学习技术的特征组合的性能最后：实验结果表明，该方法在查准率、查全率和F-测度等方面都有较好的效果。第二部分介绍了阿拉伯语文本摘要技术和相关系统。第三节提出了问题的定义及其制定。第四节描述了所提出的方法的设计。第五部分描述了数据集、评估措施、工具、实验装置和一系列最后，第六部分通过提供前景来总结工作。2. 相关作品文献中提出了几种技术用于单文档文本摘要。这些技术被分类在一组方法之下，包括基于语义的、基于统计的、基于机器学习的、基于聚类的、基于图形的、基于话语的摘要，以及考虑到这些技术之间的大重叠的基于优化的方法（El-Haj，2012; Lagrini等人，2017;Al-Saleh和Menai，2018; Qassem等人， 2017年）。2.1. 基于语义的摘要语义分析主要关注单词的含义以及单词、短语和句子之间的联系/关系，以构建文本的预期概念。几种语义分析技术可以应用于总结文本，包括词汇链和自然语言处理方法，如潜在分析（Barzilay和Elhadad，2015;Ozsoy等人， 2011年）。I. Imam等人已经利用用户期望的查询关键字或主题来生成原始文本的摘要（Imam等人，2013年）。除了统计技术之外，该方法还应用语言分析，例如词性标记。要求用户输入查询，该查询确定用户感兴趣的期望字段。此查询使用阿拉伯语WordNet展开。然后，要求用户通过删除不相关的术语来完成扩展的表单。句子的评分取决于原始查询和扩展查询中的现有单词。具有最高分数的句子被提取以形成摘要。 AL-Khawaldeh和Samawi将词汇衔接和基于文本蕴涵的分段作为评分措施，以防止在摘要中生成冗余和不太重要的句子（ AL-Khawaldeh和Samawi，2015）。词汇衔接负责评估某些句子对摘要的贡献的重要性;因此，通过将文本划分为标记并使用具有语义关系的标记之间的词汇链，可以删除然后，可能多余的重要句子被折叠成A. Qaroush等人 /沙特国王大学学报-计算机与信息科学33（2021）677-692679一个在文本蕴涵阶段使用方向余弦相似性和指定阈值。 T.Shishtawy 等人还实现了统计和语言分析的组合方法（ El-Shishtawy和El-Ghannam，2012）。由于关键短语代表了文本中最重要的概念，所以他们把关键短语作为属性来评价句子在文本中的重要性他们在现有的阿拉伯语关键短语提取器（AKE）上进行了一些修改，例如添加新的语法规则集。指示性关键短语是从输入/处理后的文本中在词元级别上提取的;词元是指具有相同含义的所有单词形式的集合然后，在一个、两个或三个连续单词的水平上进行提取然后，根据句法规则对这些短语进行过滤在此基础上，提取了一些统计特征根据提取的关键短语确定文本中每个句子的分数输出摘要实际上是通过在指定的总和长度或百分比内提取排名靠前的句子来形成的。这些方法在自动文摘中的应用，产生了更连贯、更少冗余和更丰富的摘要，从而大大提高了摘要的质量。然而，这是一个具有挑战性的任务，因为它很难使用高质量的语义分析工具和语言资源（WordNet，词汇链等）。因为它们需要存储器来保存语义信息，如WordNet和处理器容量，因为额外的语言和语义知识以及复杂的语言处理（Khan，2014）。2.2. 基于统计的摘要统计方法广泛应用于总结文本。相关度的概念依赖于特征集的提取，是反映重要性的决定性因素一个句子，不管它的意思。在Al-Hashemi（2010）中，句子选择取决于关键短语提取。提取的关键词是基于一些特征，如词频（TF），逆文档频率（IDF），字体类型和它们在文档标题中的存在。然后评估提取的关键短语以反映句子重要性的能力。 Gholamerezazadeh ， Fattah 等人，Abuobieda 等人，C.Nobata等人，Rajesh等人，Gupta等人，和Rafael等人已经使用其他特征来对句子进行评分，包括指示短语、大写单词、句子长度、与标题的相似性以及句子在文档中的位置（Gholamrezazadeh等人，2009;Fattah 和 Ren ， 2009; Abuobieda 等人， 2012; Nobata 等人，2009;Prasad和Kulkarni，2010; Gupta和Pendluri，2011; Ferreira等人， 2012; Abdelkrime 等人， 2015; Litvak 等人， 2016 年）。在Abdelkrime et al.（2015）和Litvak et al.（2016）中，统计特征的加权线性组合用于句子排名。此外，他们使用遗传算法（GA）获得了最佳权重。单独使用统计特征可能不会提供好的结果，因为它们没有考虑单词的含义和它们之间的关系以及句子本身之间的关系。此外，另一个预期的问题是所选句子中的冗余。考虑到这一点，如果将这一办法与其他办法结合起来，可能会产生更好的结果。例如T. El-Shishtawy等人建立了一个基于关键短语的阿拉伯语摘要器。该系统使用语义特征和一些统计特征的组合来识别关键短语（El-Shishtawy和El-Ghannam，2012;El-Shishtawy 等人， 2012 年）。这些特征是短语相对频率（PRF）、词相对频率（WRF）、句子位置、短语位置、句子长度和短语长度。此外，许多不同的系统使用统计特征来增强其结果。Schlesinger等人采用统计特征来增强句子的选择或排除，对于概括过程（Schlesinger等人，2008年）。基于统计的方法易于实现，可用于增强重要句子的选择或消除冗余。然而，它无法理解案文，因为它有时只依赖于统计措施。2.3. 基于机器学习的摘要在基于监督机器学习的方法中，抽取文本摘要过程被建模为二进制分类问题。它依赖于一组统计特征来在一组训练文档及其人工提取摘要上训练二进制分类器。文档中的每个句子都表示为从不同级别提取的特征向量;令牌，句子，段落和文档。这些级别之间的共同特征高度依赖于术语频率，句子在段落或文档中的位置，与标题的相似性，句子长度等。在这种方法中，句子属于摘要类的概率由句子本身的分数来描述。Fattah和Ren使用了10个特征来训练各种机器学习方法，包括支持向量机（SVM），神经网络和高斯混合模型，在手动创建的50个英语文档和100个阿拉伯语文档的语料库上（Fattah和Ren，2009）。然后，使用训练好的分类器模型根据句子的得分（句子在摘要类中的概率）对句子进行排名，以生成最终摘要。在这方面，Boudabous等人已经在手动创建的500篇关于不同主题的阿拉伯语报纸文章的语料库上使用15个特征训练了二元SVM分类器（Boudabous和Belguith，2010）。Belkebir和Guessoum提出了一种基于提取机器学习的摘要器，该摘要器基于两个阶段，使用从每个句子中提取的一组统计特征（Belkebir，2015）。第一阶段包括训练两个分类器AdaBoost和SVM。然后，在第二阶段，AdaBoost增强SVM分类器来预测句子是否是摘要句。作者收集了他们自己的语料库，该语料库由20篇阿拉伯语新闻文章以及他们手动生成的摘要组成。机器学习方法在单文档和多文档摘要中已经被证明是非常有效的。然而，他们需要一组训练文档（标记数据）来训练分类器。此外，它们的性能受到所选择的分类器，特征和特征表示的影响，这些特征表示在这种方法的性能中起着重要作用2.4. 基于索引的摘要聚类过程旨在根据相似性将对象分组为类。在对文本进行概括时，对象是句子，类是句子所属的聚类。在该方法中，通过基于与聚类质心的接近度从每个聚类中选择一个或多个句子来执行摘要的形成（Froud等人，2013; El-Gedawy，2014; Fejer和Omar，2014）。虽然聚类技术通过对相似数据进行分类来减少数据冗余，但是其生成的摘要可能不够有意义，因为所选择的句子主要根据与聚类质心的接近程度进行排名;这些句子通过距离测量来计算，而不关注句子或质心中文本的含义2.5. 基于图的摘要在这种方法中，文档以类似于模型的图形进行说明在该模型中，图的节点表示句子，而连接的节点1/4 f···g12我680A. Qaroush等人 /沙特国王大学学报-计算机与信息科学33（2021）677- 692表示句子之间的相似关系。因此，如果一个句子与许多其他句子有很强的联系，那么它就被认为是重要的（Al-Taani 等人，2014;Erkan and Dragomir，2004）. LexRank（Erkan和Radev，2004;Thomas等人， 2015）和TextRank（Mihalcea和Tarau，2004）是在该方法中使用的两个众所周知的基于图的排名系统。基于图的方法的使用在多文档研究社区中具有积极的贡献，因为它能够从不连接的子图中捕获不同的主题。然而，子图的构造依赖于统计相似性测量而不关注文本的含义，存在产生信息量较少的摘要的风险（Lagrini等人，2017年）。2.6. 基于语篇的摘要语篇结构是决定语篇内容或信息的重要因素。在这一结构中，语篇不再被看作是词语和句子的连续体，而是以语篇单元之间相互关联的方式来表现或组织，以确保语篇的连贯和衔接。构建成功的话语结构主要取决于可靠的话语解析器的可用性，其依赖于四个因素，包括话语理论的类型、用于表示结构的数据结构（树或图）、关系的性质和层次结构（语义、意图或词汇基础）以及语言（Lagrini等人，2017年）。有几种现有的话语理论用于表示或生成文本的话语结构，包括修辞结构理论（Rectorical Structure Theory，简称RSE）（Elghazaly和Ibrahim，2012; Azmi和Al-Thanyyan，2012）和分段话语表示理论（Segmented Discourse Representation Theory，简称SDRT）（Keskes，2015）。在语篇中，语篇的组织方式使语篇单位相互关联，从而达到连贯和衔接的目的。然而，构建自动解析器话语信息已经被证明是一项艰巨的任务，多样性阿拉伯语单文档抽取文本摘要的研究集中在这些目标中的一个或多个。然而，他们没有提供足够的分析和公式的特点所使用的摘要方法，以提供丰富的信息摘要。与这些研究不同，我们的工作重点是深入分析和制定这些功能，同时考虑到阿拉伯语文本的属性。此外，我们提供了一个统计和语义特征相结合，以确定最相关的句子，以实现两个矛盾的语义目标，即覆盖率和多样性。3. 问题定义和表述该问题被定义和公式化如下：给定输入的阿拉伯语单个文档D，表示为基于它们在D中的位置排序的句子D的集合，其中S1;S2;···;Sng，其中Si对应于文档中的第i个句子，并且n是包括它的句子的总数。此外，每个句子S i在D在表示作为设置的令牌(e.g.字）S i^ft1;t2;·· ·;t mg，其中t k是句子S i中的第k个标记，m是句子Si中标记的总数。因此，自动提取文本摘要系统是单个输入文本文档Din到输出文档Dout 的还原/选择变换，输出文档Dout由单个或多个目标状态DoutS1;S2;Sk组成。这个转换过程试图实现三个主要目标：（i）目标语句（选定语句）必须包含原始文档中存在的信息的重要部分主要信息，(ii) 最小化文本冗余，同时最大化摘要中的多样性和一致性，以及（iii）输出文档D_out具有不长于输入文档的一半的大小，即语句的数量（Radev等人，2002年）。为了实现这些目标，一组最重要的统计和语义特征 ;f;. ; f g来评估每个句子Si国家昂贵。此外，话语结构对于内容选择的用处仅与使用词汇相似性构建的更简单的文本结构一样（Louis等人， 2010年）。2.7. 基于优化的摘要许多研究人员认为文本摘要是一个单/多目标优化问题，其中一组目标被认为可以产生高质量的摘要，包括覆盖率、冗余度（多样性）、一致性和平衡性。覆盖性是指摘要应包含文档中出现的所有重要方面另一方面，连贯的目的是生成连贯的语篇流。此外，平衡意味着摘要应具有相同的相对重要性的不同方面的原始文件。然而，寻找这些目标的最佳摘要是一个NP难题。因此，已经使用了几种方法来近似解，包括基于群体的方法（Alguliev等人，2013; John等人，2017），群体智能（Alguliev和Aliguliev，2013; Alguliev等人，2011）、人工蜂群（Sanchez-Gomez等人，2017）、蚁群（Mosa等人，2017）和布谷鸟搜索（Rautray和Balabantaray，2018）。基于优化的方法产生有希望的结果，但是，它需要更多的公式除了是耗时的。综上所述，文献中提出了几种阿拉伯语文本摘要方法其中基于聚类、基于图、基于优化等方法更适合于多文档摘要。此外，它们在主要目标方面彼此不同，例如识别相关句子，减少冗余或最大化覆盖范围，以体现其重要性。最后，通过下式生成摘要Si：在考虑文本连贯性的同时，基于所述预定义的概要比率来组合所述最高得分的句子。4. 拟议工作本文提出的抽取式文本摘要方法包括三个主要阶段：文本预处理、特征提取、句子评价和选择阶段。在预处理阶段，文档以结构化/统一的方式进行准备和表示，以方便后续阶段的工作。在第二阶段，为每个句子计算一组统计和语义特征，以反映其重要性，并用于句子评估和选择阶段，其中使用两种不同的方法来评估所选特征及其公式，包括基于分数和监督的机器学习。4.1. 文本预处理这个阶段是几乎所有归纳法的初始阶段其主要目的是准备输入文本文档，以便在其他阶段进行处理。它主要是将输入文档转换为统一的表示。所提出的文本摘要系统包括以下预处理顺序操作：分词、字母规范化、停用词去除和词干提取，如图1所示（Abdelkrime等人，2015;Litvak等人，2016; Thomas等人， 2015年）。令牌化文本预处理从标记化过程开始，该过程将输入文档分成具有不同级别的单元，A. Qaroush等人 /沙特国王大学学报-计算机与信息科学33（2021）677-692681便于访问输入文档的所有部分这些单位是段落，句子，标记，数字或任何其他适当的单位（Attia，2007）。为了说明，所提出的标记化是基于标点符号的形态学分解，其从查找文档所包含的段落开始，其中换行符（\n）是段落的结尾。在此之后，paragraphs被分割成一组基于句号（.）的句子问号（？），和感叹号（！）作为分隔符。最后，根据空格、逗号、引号等分隔符将这些句子划分为标记。我们采用了AraNLP工具，几乎没有修改来处理上述操作序列（Althobaiti等人， 2014年）。正常化在阿拉伯语中，一些阿拉伯字母可能以不同的形式出现，而其他字符则因为它们的形状相似而被使用。此外，作家在他们的文本中使用变音符号。这些为同一术语创建了一组变体;因此影响了某些特征（如术语频率（TF））的计算。因此，需要一个规范化过程来统一同一个字母的不同形式，以避免这种变化。所提出的归一化步骤采用AraNLP工具来完成以下任务（Althobaiti等人，（2014年）：㈠删除非阿拉伯字母，如特殊符号和标点符号，㈡删除变音符号，㈢改为，与，与（Ayedh等人，2016年）。以及（iv）去除纹理（拉伸特征）。停用词去除停用词（即代词、介词、连词等）是经常出现在文档中以形成句子的无意义的词（Kanan等人，2004年）。由于这些词不提供信息（不添加信息），因此可以从句子中删除，而事实上，这一步是至关重要的，因为一些计算是基于单词因此，通过删除停用词，这些计算变得更加相关和准确。有几种停止列表方法用于从文本中删除停止词，包括通用停止列表，基于语料库的停止列表和组合停止列表。所提出的方法依赖于使用AraNLP工具的一般停止列表，其表现优于其他两种方法（El-Khair，2006;Althobaiti等人， 2014年）。产生阿拉伯语是一种高度曲折和派生的语言，这意味着阿拉伯语单词可以有许多不同的形式，但具有相同的抽象动作含义这显然影响了词袋模型的建立和文本相似度计算等自然语言处理方法。因此，词干是去除部分或全部词缀的过程（例如，前缀、中缀、后缀和后缀）。换句话说，词干提取将单词的不同形式/派生词转换为单个统一形式（例如，词根或词干），所有派生词都从该单个统一形式生成。在阿拉伯语中，有两种常见的词干提取方法;基于词根的形态词干提取和轻词干提取（Mustafa等人，2017年）。在Alami et al.（2016）使用两种著名的阿拉伯语词干分析器（包括Khoja词根分析器1）对这些方法进行了比较。他们的实验表明，在阿拉伯语文本摘要中，根词干比轻词干更受欢迎基于这些发现，我们采用了Khoja根茎处理器来处理1http://zeus.cs.pacificu.edu/shereen/research.htm和Larkeys light stemmer（Larkey等人， 2007Fig. 1. 预处理步骤的顺序。词干操作作为预处理任务的建议的工作。图2显示了所提出的预处理方法对样本输入文本的输出。4.2. 特征提取和公式化基于抽取的文本摘要涉及选择高相关性或重要性的句子，它基于采用一组功能，用于生成陈述给定文档主要思想的连贯摘要。因此，选择和设计这些特征将极大地影响生成的摘要的质量。各种研究人员提出了大量用于自动提取文本摘要的特征（Ferreira等人，2012; Meena和Gopalani，2014; Prasad和Kulkarni，2010;Kiyoumarsi，2014; Neto等人， 2002;Al-Saleh 和 Menail ， 2016;Mendozaab 等人， 2014;Prasad等人，2012年）。这些特征被分为四个层次，包括基于词的层次，基于句子的层次，基于段落的层次，和基于图形的特征。由于所生成的提取摘要的质量受到所选特征及其设计的高度影响，因此本文的目标是重新设计最重要或最突出的特征，这些特征除了最大化摘要中句子之间的内容覆盖率和多样性之外，还识别最重要的句子。单独使用统计特征可能无法提供丰富的信息摘要，因为它们没有考虑意义，并且可能导致生成的摘要中存在一些冗余。另一方面，仅仅依靠语义特征将无法捕获像TF-ISF这样非常重要的统计数据因此，为了处理这些缺点，El-Shishtawy和El-Ghannam（2012）以及El-Shishtawy等人（2012）使用了这些类型的组合。表1总结了所选特征及其水平、类别以及在句子重要性、覆盖范围和多样性方面对生成的总结质量的贡献。选择和公式化基于一些假设、我们的观察/分析、一组实验和一些先前的研究（ Ferreira 等人， 2012; Meena 和 Gopalani ， 2014; Meena 和Gopalani，2016; Meena等人，2015年）。解释这些特征及其设计的重要性源于这样一个事实，即用于评估所选特征性能的两种总结方法的表述存在一些差异。关键词特征关键词短语是一个简短的重要和主题关键词列表，提供了文档中主要主题的浓缩摘要（Turney，2000）。它们可能是一个单词，也可能是一个复合词多个单词。信息检索中的许多应用，包括文本摘要，采用关键短语提取（Hasan和Ng，2014; Najadat等人，2016;7（2）. ）.的可能性在句子中有一个核心思想的条件是包含一个关键短语。事实上，这将增加其相对于其他句子的重要性（ El-Shishtaw 和 El-Ghannam，2012年;Sarkar，2014年）。关键短语特征的得分取决于许多因素，包括候选短语的频率、每个短语中的单词数量、候选短语中最重复出现的单个单词的频率、短语在文档内的位置、候选短语在其句子内的位置、相对于其包含句子的短语长度以及短语句子动词内容的评估（El-shishtawy等人，2012年）。在这项工作中，我们使用Kp-Miner（El-Beltagy和Rafea，2009）工具来#KPdﬃﬃﬃﬃﬃﬃﬃﬃ682A. Qaroush等人 /沙特国王大学学报-计算机与信息科学33（2021）677- 692图二. 文本预处理方法的样本输出按顺序进行。表1所选特征及其级别、类别和贡献的描述特征名称简要说明水平类别贡献关键短语句子位置重要术语的简短列表，提供文档主要主题的简明摘要。与句子相对于段落和文件的位置有关的。词级段落级统计，语义统计覆盖面和多样性句子相关性与标题给定句子与文档词级统计句子相关性句子中心性标题.一个句子与其他句子图级统计覆盖面和多样性句子长度在文件中。计算句子中的单词数量（可用于分类句子级统计句子相关性线索词句子太短或太长）。句子中的词，如词级语义和覆盖面句子相关性积极关键词重要内容的指标。用来强调或集中于特殊意思的词，如词级语义和覆盖面句子相关性句子包括支持和支持句子中存在数字数据句子级统计句子相关性数值数据非必要事件作为解释的词，例如词级语义句子相关性信息提取关键短语，同时基于三个最重要或突出的因素来计算关键短语特征的分数，所述因素可以定义如下：关键短语频率：它表示关键短语在句子中出现的次数，并通过KPF/4#SKPi计算，其中KPF 是关键短语频率，#SKPi是包含关键短语的句子的数量（KPi），#KPd是文档中关键短语的总数。关键词长度：关键词的字数。关键短语的长度影响其重要性，从而影响句子的重要性。我们发现长的关键短语比短的关键短语更重要（El-shishtawy等人，2012年）。该特征的值被计算为pKPL，其中KPL表示KPi的长度。的目的使用平方根是为了平滑地增加分数，如果长度不止一个术语。专有名词：如果是专有名词，则关键短语的重要性会增加，专有名词是与特定术语相对应的名词使用词性（POS）标记器（Adhvaryu和Balani，2015）。2因此，如果关键短语是一个专有名称，则此特征的值设置为2。否则，将其设置为1。使用上述因素，关键短语特征得分计算如下：关键短语得分<$XKPFiωpKPLωPNV1KP2Si我其中KPFi是KPi的关键短语频率;KPL是KPi的长度，PNV是KPi的专有名称值。如果关键短语的长度大于1或如果它是专有名词，则上述等式将给出更高的分数，并且如果找到这两个因素，则将给出更高的分数。对于机器学习方法，关键短语概念被表示为三个特征，定义为：（i）以与基于分数的方法相同的方式计算的关键短语频率，（ii）表示为二进制值的关键短语长度，其指示句子是否包含由多个词组成的关键短语，以及儿子、地点或事物（Fattah和Ren，2009年; Nobata等人， 2009年）。为了检查关键短语是否有正确的名称，Stanford2https://stanfordnlp.github.io/CoreNLP/index.html。●●●8>j2 2 jpS2Pin公司简介余弦相似性：Si;T2;T4A. Qaroush等人 /沙特国王大学学报-计算机与信息科学33（2021）677-692683值，作为句子是否包含专有名称类型的关键短语的指示符。句位特征该特征首先由Eschendle（Eschendale，1958）提出，用于句子评估，其中句子的重要性取决于其在段落/文档中的位置，而不管文档域/主题如何（Lin和Hovy，1997; Gupta和Pendluri，2011）。在提取文本摘要中，提出了关于句子位置的几个公式（Abuobieda等人， 2012 年 ; Gupta 和 Pendluri ， 2011 年 ; Mendale ， 1958 年 ;Radev等人，2004; Barrera和Verma，2012; Bossard等人，2008年; Prasad和Kulkarni，2010年）。这些公式是基于一个或多个（一）第一段和第二段的内容;Si和T之间的短语。使用平方根的目的是在多个交集中实现时平滑地增加分数。最后，Sim_Title;Si_Title是通过余弦相似性度量计算的Si与文档标题之间的相似度，这是一种众所周知的文本相似性方法（Gomaa和Fahmy，2013; Qazvinian等人，2008年; Shareghi和Hassanabadi，2008年）。为了计算相似度，使用词袋模型来表示句子和标题。在这个模型中，每个句子SI是表示作为一个n维向量Si^fwi1;wi2;···;wik;···;wing，其中wik是句子Si中存在的项tk的权重，n是目标文档中所有可能的唯一单词的数量。因此，基于该表示，余弦相似度可以计算如下：最后一段很重要，因为它们提供了一个摘要Xtfw;S ωtf w;T isfw（2）在每一段中，第一句和最后一句都是非常重要的，并且具有很强的说服力。W STsXtfSSωisfS2sXtfTω isfT2s（三）对当事人的陈述不符合法定程序的;第一段是最重要的一句话，我Si2S我我我Ti2T在处理被视为基线摘要的新闻数据时，大多数情况下会考虑这种假设（Saggion和Poibeau，2013年;EL-Haj等人，2010年），和（iv）句子远离文件的开头是不太重要的。因此，基于这些观察，我们使用以下规则制定句子位置分数：其中tfw;Si是词w在句子S中的频率，其被定义为tfw;Si 是逆句子频率，其是逆文档频率（IDF）的特殊版本，其测量术语提供多少信息。因此，如果该术语在给定句子中密集并且在整个文档中罕见，则该术语被认为是重要的（Doko等人， 2013年）。逆传感器频率被定义为isfw/log1SNw S，其中N是句子位置得分第一段，3最后一段为2任何段落中的第一句话为12S：2ijS i是文档中出现单词w的句子的数量（Patil等人，2011年）。对于机器学习方法，标题特征根据两个特征来公式化：第一个特征使用余弦计算1年代>>：p1在为的第一个=最后除了第一个和最后一个段落之外的ð2Þ相似性度量，如等式中所定义。而第二个表示为二进制值，指示句子是否与标题共享关键短语的可能性句子中心性特征其中Si n是段落Pi中句子Si的索引，并且P在是文档中段落Pi的索引这些值是根据其他使用的特征及其配方的重要性来选择的。对于机器学习方法，我们使用五个特征对句子位置进行建模，其中每个特征表示如下：（i）第一段中的第一句、最后一段中的第一句以及除第一段和最后一段之外的任何段落中的第一句将被表示为指示条件是否有效的二进制值，及（ii）除首段及末段外的任何段落中的任何句子，而首段或末段中的任何句子将使用方程式（1）计算。（二）、与标题特征该特征首先由Edmundson（Edmundson，1969）提出，并被定义为给定句子与文档标题之间的相似性或重叠（Fattah和Ren，2009;Abuobieda等人，2012; Nobata等人，2009年）。这一特征的重要性来自于这样一种观点，即如果一个句子由出现在标题中的词组成，那么它可能是一个重要的句子。此外，如果一个句子与标题共享一个关键短语，这将显着增加其得分。因此，使用以下等式计算句子的标题相似性分数：该特征被定义为一个句子与文档中其他句子之间的相似性或重叠性。因此，一个句子可能是文档中的中心，并且许多句子可能解释它。因此，当一个句子的单词在文档中出现在更多的其他句子中时，该句子会得到高分。采用中心性特征将消除句子冗余的问题，从而增加多样性（ Abuobieda 等人， 2012;Qazvinian 等人， 2008; Shareghi 和Hassanabadi，2008; Prasad和Kulkarni，2010; Mendozaab等人，2014年）。在计算中心性分数中所采用的方法通过使用类似于等式（1）的余弦相似性度量来（4）其中矩阵中的每个项目表示相应句子对之间的相似性（Al-Gaphari等人，2013年; Erkan和Radev，2004年;ChoSe和Kim，2015年）。由于我们对显著相似性感兴趣，因此可以通过定义阈值（即0.1）来消除相似性矩阵中的一些低相似性值在消除低相似性之后，计算中心性分数特征并使用等

下载后可阅读完整内容，剩余1页未读，立即下载