没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报AUSS:一个基于阿拉伯语查询的更新摘要系统Muneera Alhoshana, Najwa Altwajryb沙特阿拉伯利雅得阿卜杜勒阿齐兹国王科技城b部沙特阿拉伯利雅得沙特国王大学计算机和信息科学学院计算机科学阿提奇莱因福奥文章历史记录:收到2020年2020年10月18日修订2020年11月16日接受2020年12月1日网上发售保留字:自动文摘阿拉伯语更新文摘图排序模型阿拉伯语WordNetA B S T R A C T更新摘要是一个相对较新的摘要任务,它涉及从新闻文章中创建一个简短的摘要,假设用户已经阅读了许多以前的文章。它对于想要了解有关特定主题的最新信息的用户非常有用。提供更新摘要的系统的可用性节省了用户的时间和精力。不幸的是,阿拉伯语缺乏这种资源。本文旨在提供一个更新摘要系统,该系统生成包含用户从多个文档中请求的最新信息的更新摘要。提出了一个基于阿拉伯语查询的更新摘要系统AUSS。我们使用一个基于图的排名模型来表示的相似性,通过词汇和词汇之间的语义关系的组合。我们的实验表明,AUSS取得了令人满意的结果,实现了最佳的F-Measure为0.5405。为了测试AUSS,我们专门为阿拉伯语更新摘要创建了一个新的语料库,我们称之为(AUS-DB)。AUS-DB包含183篇文章及其相应的参考文献摘要。©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍随着互联网用户和Web内容的快速增长,出现了信息过载的问题,用户在吸收信息时面临困难。这些困难导致用户无法阅读重要文档,从而需要能够以简洁的形式向用户提供新信息的自动化过程。自动文本摘要旨在自动找到文本文档(或文档)中信息量最大的部分 , 然 后 创 建 原 始 文 本 的 代 表 性 摘 要 , 同 时 保 留 其 主 要 内 容(Steinberger和JezZeroek,201 2)。自动文摘系统的分类取决于多个方面,一个文摘系统可能同时分为几类。例如,自动摘要系统可以根据摘要来源、目的、语言和摘要输出形式进行分类(Hassel,2007;Gambhir和Gupta,2016)。就目的而言,有以查询为中心的,通用的,*通讯作者。电子邮件地址:malhawshan@kacst.edu.sa(M.Alhoshan),ntwaijry@ksu.edu.sa(N. Altwaijry)。沙特国王大学负责同行审查更新概要,其中基于查询的概要包括与查询有关的信息,一般概要包含更一般意义的信息,而更新概要具有关于特定主题的最近信息。最近,这一领域的研究取得了很大进展,尤其是在英语方面(Gambhir和Gupta,2016; Lloret和Palomar,2012)。不幸的是,阿拉伯语文本摘要的研究仍处于早期阶段,大多数已发表的工作都属于通用摘要的范畴(Al-Saleh和Menai,2016; AlQassem等人,2017),与更新摘要相比,更新摘要总结了基于用户提供的发布日期选择的动态文档组,其中在该日期之前的文档被认为是“已读”并且为用户所知,而在该日期之后的文档是未知的。未知的文档应该被总结,但是总结不应该包含任何包含在“已读”文档中的信息不同的技术和方法已经开发了阿拉伯语文本摘要,主要包括统计,机器学习和基于话语的技术。基于图形的技术已被用于生成通用摘要,证明在各种研究中是有效的(Elbarougy等人,2019;El-Kassas等人,2020年)。针对其他语言的自然语言处理(NLP)工具在与阿拉伯语一起使用时无效,因为阿拉伯语固有的结构和形态复杂性需要特殊处理(Habash,2010)。在阿拉伯文的最新摘要方面缺乏我们解决https://doi.org/10.1016/j.jksuci.2020.11.0271319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comM. Alhoshan和N. 阿尔特韦伊里沙特国王大学学报3733这是一个阿拉伯语更新摘要系统(AUSS)。AUSS的使用场景如下:用户阅读了关于新病毒传播的新闻文章。在某种程度上,他们希望了解有关这种病毒的新进展。用户访问AUSS,它允许用户输入搜索词以及一个日期,表示他们希望了解事态发展的日期。从与用户查询相关的多个Web文档中检索新闻文章,其中包含关于用户请求的主题的旧信息和新信息。AUSS然后生成包含新信息的摘要,即,在选定日期之前未出现的文章中包含的信息。AUSS认为用户具有该主题的先前知识,并且希望知道更新,因此它不重复信息。这项工作是第一次尝试这样一个系统的阿拉伯语。在我们的工作中,我们使用类似于在(Abdi et al., 2015年)。此外,我们还提供了一个基准语料库(AUS-DB),其中包含文档及其相应的黄金标准摘要,用于AUSS依赖于相似性计算来生成摘要,使用基于图的排名模型来表示文档。此外,使用阿拉伯语WordNet词典基于词汇和语义特征的组合来计算相似性(Black等人, 2006年)。这项工作提出了以下贡献的文献:(1)构建了一个新的阿拉伯语更新摘要语料库,并在线提供(AUS-DB第3.5.1节)。(2)AUSS,我们的系统,为阿拉伯语的更新摘要。(3)一种新的冗余删除算法(第3.4.2节)。(4)句子摘要生成算法(第3.4.3节)。本文的其余部分组织如下:第2节提供了可用的更新摘要系统的概述。第3节解释了系统方法学。第四部分是对该系统的评价。最后,第5节总结了本文,并讨论了未来的工作。2. 相关作品更新摘要是2007年第一次文献综述会议(DUC)提出的.采用了几种方法来生成英文版的更新摘要。更新摘要总是与时间相关,因此一些方法专注于获取最新的事实。从历史上看,这些方法中的一些在文档中搜索时间表达(Mani和Wilson,2000),而另一些从带时间标签的语料库中检测主题并将它们表示在时间轴中(Swan和Allan,2000)。 这些方法并不总是准确的,因为最近的信息不一定是新的,可能是重复的信息(Boudin等人,2008年)。在本节中,我们将回顾一些最广泛使用的方法。2.1. 基于图的方法许多其他方法依赖于使用图模型的句子排名。 文杰等, 2008应用 了 基 于 图 的句 子 排 名 算 法 ( PNR 2 ) , 其 是 TextRank 算 法(Mihalcea和Tarau,2004)的扩展。PNR 2执行负增强和正增强。正强化语决定句子的重要性,而负强化语则避免句子冗余。Boudin 等 人 , 2008 和 Li 等 人 , 2011 年使 用 最 大 边 缘 相 关 性(MMR)算法对句子进行排名。SMMR是一种可扩展的最大边缘相关算法http://www-nlpir.nist.gov/projects/duc/duc2007/tasks.html(Boudin等人, 2008),其基于与查询的相关性以及它们与基于TF-IDF的旧句子的相异性来选择摘要句子。Li等人,2011使用基于图的边际排名模型来避免增强方法的问题,而Du等人, 2010年使用流形排序与汇点(MRSP),以解决非冗余,主题相关,重要的句子。PNR2和MRSP可能会受到由强化传播引起的句子显著性分布的影响为了克服这个问题,Li等人, 2013年提出了一种基于图的排序方法,将更新摘要转化为二次约束二次规划问题(QCQPSum)。所有上述研究都将更新摘要任务视为冗余删除问题。卡尔沃等人, 2018年提出了一种基于TextRank的算法,用于在多个文档中查找文档内和文档间冗余。在他们的方法中,他们提供了九种策略来决定多个文档中信息的相关性。文献中的其他基于图的排名模型已被证明是成功的,例如来自Nie等人的方法, 2012,其估计图像与文本查询的相关性概率,以便在web搜索中对图像进行重新排名。事实上,聂等人, 2012年提出了一个网络,该网络集成了三种关系:语义,跨模态和视觉,并基于它们的相关性得分,生成了一个新的排名列表。 Elbarougy等人, 2019年提出了一种改进的PageRank算法,使用每个句子中的名词数量作为初始排名。另一方面,EdgeSumm(El-Kassas等人,2020)结合了多个统计因素来对构建图中的句子进行排名。这种模式将有利于总结。2.2. 基于主题建模的方法解决更新摘要问题的另一种方法是将其形式化为主题建模。 Li和Shindo,2015年提出了一种基于潜在狄利克雷分配模型(LDA)的生成层次树模型(HTM)(Blei等人,2003),一个将更新摘要任务视为主题检测问题的事件级概率主题模型。Zhang等人,2015年提出了一种针对突发事件的分层顺序更新摘要系统,由两个层次组成:一个层次涉及使用LDA技术找到最合适的主题及其最具代表性的关键词,另一个层次涉及使用三种方法进行句子评分:关键词多样性,句子长度和句子位置(KLP)方法,短句子与较大关键词多样性(SKD)方法和关键词射击(KS)方法。KLP根据句子的位置和长度给句子SKD倾向于句子长度短、主题词种类多的句子,而KS只关注句子这两种方法都检测新的Nóbrega和Pardo,2018年提出了一种葡萄牙语的更新摘要方法。他们应用了一种子主题丰富的方法,该方 法 结 合 了 最 初 由 Haghighi 和 Vanderwende 提 供 的 KLSum 和TextTiling 算 法 ( Haghighi 和 Vanderwende , 2009; Hearst ,1997)。2.3. 线性规划方法最近,Mnasri等人,2017年提供了一种基于线性规划(ILP)的方法。在他们的方法中,遵循了两个主要步骤:首先,使用词嵌入作为特征,对文档的句子进行语义聚类。其次,使用ILP模型,考虑语义相似度和文档结构,选择句子用于摘要。他们表示,他们的方法的质量可能会受到单词嵌入方法的影响,因此,将不同单词的合法匹配分数和余弦相似性分数M. Alhoshan和N. 阿尔特韦伊里沙特国王大学学报3734嵌入方法可以改善结果,如(Sen等人,2019年)。2.4. 深度学习方法深度模型已经用于生成阿拉伯语的通用摘要(Alami等人,2018)和英语(Zhong等人,2015;Yousefi-Azar和Hamey,2017; Liu等人,2012),但这样的模型仍然是一个开放的研究领域,没有这样的工作做更新摘要,尽我们所知,防止有意义的比较与这样的模型。据我们 所知,这是 第一个解决 阿拉伯语更 新摘要问题 的工作(AlQassem 等人 ,2017 ), 尽管之前 存在关于 通用总 结的研究(Alami et al.,2017; Alami等人,2015年),AUSS仅创建更新摘要。因此,本文的主要贡献是提供了一个系统与两个新的算法,和基准语料库AUS-DB更新摘要阿拉伯语。3. 方法要使用AUSS,用户首先输入搜索词和日期,然后从Web检索相关文档。检索到的文档通过以下过程进行分析并以图形表示:首先,对HTML页面进行预处理以移除HTML标签,将其转换为简单的文本文件。如第3.2节所述,执行进一步的预处理,将文档分割成句子,然后将句子作为节点添加到图结构中(见第3.3节),并计算句子相似度最后,基于以下标准生成摘要:摘要应该与用户查询相关,来自最新文档,同时不重复旧文档所覆盖的信息,并且不应该包含冗余句子。AUSS采用了一种混合图形词汇和语义为基础的方法来创建一个提取,基于查询的更新文本汇总系统的阿拉伯语。AUSS由四个部分组成:1. 文件检索。2. 文档预处理。3. 基于图形的排名模型创建。4. 摘要生成。AUSS体系结构的总体视图见图。1.一、3.1. 文献检索AUSS使用用户查询以及用户选择的日期作为输入。该日期指示用户在该日期之后请求关于查询主题的新信息。然后,AUSS检索与用户感兴趣的特定事件或情况有关的相关文档。AUSS检索旧文档和新文档,即在选定日期之前和之后的文档。我们需要旧文档来了解用户已经知道哪些信息,以便不将其包含在更新摘要中。所采用的检索引擎是Google Custom Search API(Google Inc.,2006年)。每份文件将按下文所述进一步处理。3.2. 文档预处理由于阿拉伯语语法规则的复杂性,分析阿拉伯语文本是一个非常具有挑战性的过程(Habash,2010)。前-Fig. 1. AUSS架构。处理步骤在任何文本挖掘任务中都是必不可少的,因为它有助于提高运行时效率并提高任务的准确性使用以下几种技术对文本文档进行预处理1. 标记化,将文本拆分为更小的单元,如句子和单词。AUSS在此阶段使用各种字符(如逗号、句号和空格字符)将文本字符串2. 然后,数字和非阿拉伯语单词以及标点符号和符号从单词列表3. 停用词是没有特定含义的词,然后从单词列表中删除。由于阿拉伯语没有标准的停用词清单,AUSS使用了(Khoja和Garside,1999年)中的停用词清单。3.3. 基于图的排名模型创建基于图的摘要方法依赖于将一组文档或句子表示为图。多项研究使用基于图的方法进行更新摘要(Li等人,2011年; Li等人,2013;Schinas等人,2015年)。AUSS使用与在(Abdi et al., 2015年),这是一个基于查询的摘要系统。AUSS模型实现了对(Abdi等人,2015):一种新的冗余检查算法,不同的相似性度量(见第3.3.1节),以消除冗余,最后,AUSS生成更新摘要,而不是仅基于查询的摘要。预处理后的文档由一个图表示,图的顶点(节点)表示各种文档语句和用户查询。边缘表示句子相似性。每个顶点通过多个加权边(表示相似性)连接到其他顶点。此外,每个顶点都有一个表示文档日期的时间戳。请注意,AUSS构造了一个全连通无向图。图2示出了图模型,其中数字表示句子(节点)。3.3.1. 度量相似性相似性度量是许多文本挖掘任务的重要组成部分存在许多测量文本相似性的方法。Gomaa等人, 2013年将这些措施分为三种类型的基础上使用的方法,即基于字符串,基于语料库,和基于知识的相似性。M. Alhoshan和N. 阿尔特韦伊里沙特国王大学学报3735SSSF0j 0 2 0 2SSS1. 如果单词w出现在句子Si中,即 fw <$w ijw i2 S ig,则S S将Vi中的w的得分设置为1。2. 否则,w不出现在Si中,并且必须来自句子S j,即 fw¼ w jjw j2 S jg. w和每个的相似性图二.基于图的排名模型。通常使用基于字符串和基于知识的方法的组合来实现最佳性能。Abdi等人,2017; Abdi等人,2020年实现了语义和词序方法,而Van和Chow,2019年测量了句子之间的余弦相似度。Wali等人, 2014年测量了词汇表上的句子相似度,在Si中的字使用等式(Eq.)2,并且将Vi中的w的得分设置为最大相似性得分。为了计算w与每个单词w的相似度, 步骤2的2Si上面,除了w的同义词集之外,AUSS还从AWN字典中找到Si中每个单词的同义词集。AWN浏览器2提供了能够进行同义词集搜索过程的数据和库,可以使用阿拉伯语脚本或Buck-walter音译3来执行该过程。同义词集搜索可以是一个词,一个词根,或一个词元形式。AUSS使用Khoja词干提取器提取单词的词干,对于单词一旦构造了w和w Si的两组同义词,则计算每对词w和wSi之间的相似性得分。wi 2Si使用Jaccard系数计算:simw;wSiMC=MwMwSi -MC2其中:MC:两个同义词集合之间的常用词数量。Mw:w的同义词集中的单词总数MW :wi在语义层次上使用词汇标记框架-SiS注意fw<$wjwj 2Sjg 不与单词w0进行比较工作(LMF)字典(Khemakhem等人,2012年)。我们用类似的S SI j但是,我们使用WordNet字典。在这个阶段,预处理的句子进一步准备用于通过使用Khoja词干提取器(Khoja和Garside,1999)的词干提取来进行相似度计算,该词干提取器使用基于词根的方法并且具有良好的准确性(Al-Kabi等人, 2015年)。 Khoja词干提取器提供了具有总结的良好结果(Alami等人, 2016)与Alkhalil形态学系统(Boudlal等人,2011年)。此外,使用阿拉伯语WordNet(AWN)(Abouenour et al.,2013;Black等人,2006年)。我们通过计算句子之间的词汇和语义相似度来计算句子相似度。词汇相似度使用Jaccard系数计算,而语义相似度使用余弦相似度度量计算。使用词汇和语义相似性的加权和来计算总体相似性。我们提出下面是详细的描述词汇相似性(LS):我们使用Jaccard系数测量LS,Jaccard系数使用以下等式基于句子Si和SjLSS i;S jM C=Mi Mj-MC其中:MC:句子Si和Sj之间的公共词的数量。MSi:句子iMSj:句子j中的单词总数语义相似性(SS):我们基于AWN词典(Abouenour et al.,2013;Black等人, 2006年)。给你,森-时态Si和Sj由语义向量表示:Vi和Vj。语义向量包含出现在句子Si和Sj两者中的不同词Wi;j,以及它们的计算的相似性得分。Vi中的每个单词w2Wi;j的相似性得分计算如下:w wV;wS}。范例:S1:(翻译:孩子喝了牛奶。学生2:(翻译:男孩啜了一口牛奶).为来自S1和S2的不同词创建两个语义向量V1和V2。在V1中,单词的相似性得分被设置为1在S1中。接下来,Eq. 2适用于来自S2的单词。w='' sipped”和w S 1='' milk”之间的相似度执行相同的过程来计算V2,参见表1。如上所述生成的语义向量用于计算每对语义向量的总体语义相似度(SS)。使用余弦相似性的语义向量Vi和Vi(Tan等人,(2007年):SSSi;SjVi:Vj=kVikω kVjk3其中:Vi:句子Si的语义向量。Vj:句子Sj的语义向量。继续我们的运行示例,我们创建语义vec-分别用于句子S1和S2的变量V1和V22http://globalwordnet.org/resources/arabic-wordnet/awn-browser/3http://www.qamus.org/transliteration.htm第http://www.nongnu.org/aramorph/M. Alhoshan和N. 阿尔特韦伊里沙特国王大学学报37361BCBCK千分之四千分之一k<$0 1 01表1示例相似性分数。十点五零点三十二分1121请注意,如果来自最新文档的所有句子与旧文档的句子具有高度相似性为了遍历图并选择句子Snom,我们为句子定义了三种可能的状态最初,所有句子都是无标记的。我们不希望包含在摘要中的句子被标记为我们使用算法1进行初始句子选择,其产生仅包含提供先前未见过的信息的新句子的提名句子列表Snom,如在上述两个规则图G现在包含两种句子:无标记的,即Snom,和算法1句子选择输入:图G,所有句子S2G无标记输出:Snom:所有(Sold)和(Snew类似于Sold)标记为不要保持V 1/4B0:5C;V 公司简介对于所有Si2G如果Si2S旧且Si未标记B@0:32CAB@1CA将Si标记为对于所有的Sj2G和Sj是未标记的如果OSSSi;SjPk和V1V22分 086秒因此,在本发明中,SSS1;S23分64秒= 4分 351秒 836秒。对于我们的玩具例子,两个句子具有相同的含义,我们期望得到高分。最后,词汇和语义句子相似度值(分别为LS和SS)被组合以计算总体句子相似度(OSS),如下所示:OSSSi;Sja ωLSSi;S jb ωSSSi;Sj 4其中a;b是加权参数,应该为1。<由于我们关心的是查找语义相似性,b的值应该大于a。在这一点上,AUSS已经计算了检索到的文档中所有句子的查询到句子和句子到句子的相似性每个边的OSS是该边的权重。3.4. 概要生成3.4.1. 选句选择一个句子包括在摘要中需要考虑两个方面。首先,AUSS应遵守更新汇总基于时间的特性,因此必须仅从最新文档中选择句子。第二,与旧句子相似的新句子不能被接受,因为它们提供了以前遇到的信息。我们通过考虑句子的日期及其相似性得分OSS来实现这一点。例如,假设句子S_old都是旧句子,即,从用户设置的日期之前的文档获取的句子,S_new都是新句子,并且S_nom是被指定为在更新摘要中的句子。Sold中的句子不应该出现在摘要中。这保证了第一个更新摘要特性。Snew中与Sold中的句子非常相似(通过阈值测量)的句子也应该被排除在外。这保证了第二次更新总和-玛丽的特点我们对任何句子Si和Sj以及相似度阈值k应用以下两个规则:1. 如果Si2S旧)SiRSnom2. 如果Si2Sold;Sj2Snew且OSSSi;SjPk;)SjRSnom将Sj标记为如果结束,则结束如果结束,则结束3.4.2. 冗余校验当对多个文档进行摘要时,在生成最终摘要之前必须删除冗余句子。AUSS删除非常相似的句子,因为这些句子为最终更新摘要提供了相似的信息冗余检查的输入是具有旧句子Sold和与Sold类似的新句子Snew的图G,其被标记为剩下的句子都是新的,有标记的作为未标记的,作为算法1的输出。 这些句子应该提供新的信息,其中一些可能是多余的。我们只需要考虑类似的句子来删除,即OSSSi;SjPk的句子。这些句子含有冗余信息。我们注意到句子状态的组合,我们选择保留哪些句子,丢弃哪些句子,如表2所示。接下来,我们讨论前三种情况:1. Si和Sj都是无标记的:如果两个句子都是无标记的,那么两者都是新句子:Si;Sj2Snew,并且共享高相似度。我们放弃句子Si,因为一个句子就足够了。2. Si是这是显而易见的,因为如果Si是一个旧句子,那么算法1会将其与Sj进行比较,并将Sj标记为因此,Si是一个新的句子,它被发现与前一次迭代中的另一个句子相似。Sj将提供类似的信息,并且被丢弃。3. Si是keep,Sj是unmarked:句子相似,保留一个句子就足够了。有趣的是,这些情况也足以处理同一个句子出现在多个文档中的特殊情况,例如,来自各种Web资源的新闻文档改编自新闻机构。11M. Alhoshan和N. 阿尔特韦伊里沙特国王大学学报3737表2句子状态组合。Si Sj蕴涵动作在标记化过程中,AUSS保留检索到的文档的顺序和每个文档中句子的顺序SACC语句根据它们在无标记无标记都是新的句子相似的将Si标记为Sjaskeep相应的文件。如果Sacc出现在不同的文档中,则来自特定文档的每组句子将被不保持无标记我不能老第5句,它必须是一个不提供新信息的新句子标记Sj为句子Sk2Sold类似于Si放在一个段落里。这些段落的顺序基于检索到的文档的顺序。摘要的最大长度被设置为所有文档的平均长度的30%,这是在参考摘要中使用的平均长度(El-Fishawy等人,2014),参见算法3。不作标记Si2S全新带新信息和Sj2s新与类似的信息将Sj标记为算法3摘要生成Input:Snom:提名句子图不保持don’tSi;Sj已处理-输出:更新摘要根据源文档及其位置对Snom进行保持Si;Sj已处理-文档中保持keep keepSi;Sj处理后将Si标记为如果Snom2、一份文件AUSS实现算法2以从图中移除冗余句子,这导致最终提名句子Snom列表。5算法2冗余删除输入:带有句子的图形G½S;S]2G对于{Si2SnomjOSSSi;QueryPc},添加到Sacc:接受的句子列表端如果S=从Sacc生成句子,直到指定的最大值长度其他从Snom生成句子,直到指定的最大值我j长度输出:Snom:指定句子对于f½Si;Sj]端否则,如果Snom2多个文档,则遵循相同的过程,并设置最大长度为我否则,如果Si每个文件两句话end ifS.J否则,如果Si保持,Sj未标记,则S.J否则,如果Si保持,Sj保持,则S我其他继续结束结束3.4.3. 句子排序和摘要生成在这个阶段,我们使用一些特征来对句子进行排名。第一,每个句子和查询之间的相似性得分,第二,每个句子在其源文档中的位置。由算法1和算法2生成的指定句子图Snom现在被输入到最后一个阶段,其中AUSS使用sen.tences和查询来生成最终的更新摘要。首先,AUSS仅选择句子Si2Snom,其中OSSSi;QueryPc是接受的句子Sacc。Sacc中的每个句子仅属于一个文档,一些句子可能属于一个文档,而其他句子可能属于相同或不同的文档。我们将c定义为查询和句子之间的最小相似度阈值。 这确保了最低水平的相似性,低于该水平的句子将被拒绝。然而,这一程序有时可能导致从摘要中排除所有提名的句子。如果是这种情况,AUSS会从不管他们的OSS相似性得分。5如果Si2Sold,并且OSSSi;SjPk,则Sj将已经被标记为3.5. 系统评价3.5.1. AUS-DB:一个参考语料库大多数可用的阿拉伯语摘要参考文献都致力于通用类型(El-Haj和Koulali,2013;El-Haj等人,2010;El-Haj等人,2011 a;El-Haj等人,2011 年 b ) 。 MultiLing 数 据 集 ( Giannakopoulos 等 人 , 2011年;Giannakopoulos,2013年)以包括阿拉伯语在内的七种语言提供。创建该数据集的任务旨在总结新闻主题以表示事件序列,而不是关于这些主题的最新信息。因此,更新摘要缺乏金标准参考摘要。出于这个原因,我们创建了一个名为AUS-DB的小型参考语料库,由三位人类专家创建的22个参考摘要组成。每个摘要都是由大约10个文档创建的,每组文档都涉及一个特定的主题。我们的语料库AUS-DB(Alhoshan和Altwaijry,2018)包含两个主要部分:(1)文章和(2)它们的对应参考摘要。参考摘要的构建使用183篇阿拉伯文文章,涉及不同领域:政治、体育、科学、经济、文化和技术。这些文章是使用谷歌自定义搜索API(谷歌公司, 2006年),从各种媒体,如:新闻机构,报纸,和新闻搜索引擎。这些文章 是 从 各 个 网 站 收 集 的 : spa 。 gov.sa 、 emaratalyoum.com 、masress.com、aljazeera.com和alhayat.com。例如,表3中的任务4是使用询问:(翻译:叙利亚难民)在欧洲),和任务1是创建使用查询:(法语:French elections)M. Alhoshan和N. 阿尔特韦伊里沙特国王大学学报3738¼¼ ¼¼XX不能让你XXFGðÞ¼ðÞ接下来,对文章进行预处理,以删除HTML标记并保持文本的原始形式。每篇文章都保存在一个单独的文本文件中,并按出版日期标记相关文章被分组到由用于检索它们的查询命名的文件夹中。用于构建更新摘要的日期是每组最新文章的日期。AUS-DB包含22篇参考文献摘要,其中两篇涉及相同的查询(任务4,见表3)。每个摘要都是在三位人类专家的帮助下使用大约十篇文章创建的,他们的母语是阿拉伯语,拥有阿拉伯语研究生学位每个摘要由不同的专家根据以下标准创建摘要必须仅包含有关该主题的最新信息。摘要不应包含任何多余的句子。用于指定信息的“新性”的日期表3列出了所收集文件的详细信息,例如使用的查询、针对每个查询总结的相应文献数量以及涵盖的时间跨度请注意,任务4有两3.5.2. ROUGE-NAUSS 生成的自动更新摘要的质量使用面向召回的替代评估(ROUGE)指标进行评估。ROUGE-N(Lin,2004)测量系统摘要和参考摘要之间的N元语法的重叠XXcountMatchng4. 实验结果为了评估AUSS的经验,我们通常会com-chamber它与其他阿拉伯语更新摘要系统。不幸的是,在撰写本文时还没有这样的系统,将其与其他语言的系统进行比较是不准确的。相反,我们进行了一些烧蚀实验与两种情况。第一种情况使用等式中定义的相似性度量。四、第二个场景仅使用语义相似性。所有实验均使用配备英特尔酷睿i5 2.50 GHz处理器的笔记本电脑,8 GB内存,并运行Windows 7企业版。4.1. 参数设置整体句子相似性参数在等式(1)中加权a和b3已设定如下:● 场景1:a 1/4 0:2和b 1/4 0:8,如(Wali et al., 2014年)。● 场景2:a¼0: 0和b¼1: 0。查询和其他句子之间的相似性阈值(c),以及一个句子和另一个句子之间的相似性阈值(k)基于下面概述的实验选择。4.1.1. 相似性阈值(c):AUSS假设Google API检索到的所有结果都与查询在不同程度上相关。为了找到文档中最相关的信息,AUSS使用查询到句子的相似度阈值c0: 2。 该参数是在进行以下实验后设置的:我们随机选择了10个文档,并为每个文档生成三个摘要,0:7;c0:5,C0比2。然后,一位专家阅读了每个文档及其相应的摘要,发现0: 2是两种情况下最合适的查询与句子相似度阈值红色-N召回/S2RSng2SS2RS ng2ScountMatchS2RS ng 2Sð5Þ4.1.2. 相似性阈值(k):为了设置最小句子相似度阈值k,我们进行了一些实验。首先,一位人类专家对由句子对列表组成的数据集进行分类:S1;S2ROUGE-N 系列精密抛光机其中:RS:参考摘要。ES:浸提液总结。ng:n-gram。N:n-gram长度。XS2ESnXg2Scount根据它们的相似性,分为两类;不同的。该列表包含246个不同的对。之后,我们设置不同的句子与句子相似度阈值k值,并且我们计算每对句子的句子相似度OSSS1;S2,如第3.3.1节中所概述的。为了评估AUSS使用这些不同k值的结果,我们将手动分类基准的结果与AUSS表4和表5显示了countMatch ng:在两个文本参考摘要和AUSS摘要。count_n-gram:参考摘要中的n-gram的数量2×ROUGE-N×ROUGE-N两种情况下的阈值不同对于第一种情况,在k0: 7时实现了最佳性能,之后,随着k的增加,性能保持稳定。另一方面,第二种情况的最佳性能是在k1/40: 6时实现的我们红色-NF-测量值红色-N回忆录产品名称:ROUGE-N精密度精密度ð7Þ发现将k值设置为这些值可以使错误分类率最小化。请注意,此评估中使用的查询与摘要评估过程中使用的查询相同系统预测的性能使用F-测量度量进行2×查准率×查全率4.2. AUSS评估我们使用ROUGE 2.0工具包6评估AUSS;一种语言F-测量 ¼其中:查准率查全率ROUGE的独立实现,它对Unicode字符进行操作。这适用于测试Unicode阿拉伯字符。precision:被分类器标记为相似的句子实际上相似的百分比。召回率:分类器标记为相似6https://github.com/kavgan/ROUGE-2.0●●●M. Alhoshan和N. 阿尔特韦伊里沙特国王大学学报3739表3AUS-DB语料库。测试了ROUGE的三个度量:ROUGE-1、ROUGE-2和ROUGE-SU4。用于ROUGE的参数设置如下:rouge.type:normal,ngram:(1,2和SU4),beta:1,其余参数设置为相应的默认值。表6和表9分别报告了场景1和场景2的ROUGE-1结果表7和表10分别报告了场景1和场景2的表8和表11分别报告了情景1和情景2的ROUGE-SU 4结果请注意,在前面提到的所有表中,span列显示检索到的文章跨越的天数。表12通过报告两种情况下ROUGE的平均召回率、精确度和F-测量分数总结了所有先前结果。获得的最佳结果以粗体标记。在这两种情况下,获得最佳结果的度量是ROUGE-1度量。在图3中,我们看到场景2的表现略好-比场景1。这使我们得出结论,使用语义相似性是足够的,从而减少了设置参数a和b的开销,并降低了整个系统的复杂性。4.3. 显著性检验为了研究结果的显著性,我们对情景结果进行了双侧Wilcoxon符号秩检验。在0: 95显著性水平下对ROUGE-1、ROUGE-2和ROUGE-SU 4进行检验。ROUGE-1的p值为0:62, ROUGE-2和ROUGE-SU4的p值为0:29,表明两种情况下的AUSS性能没有显著差异。然而,为了最佳性能而调整参数a和b是具有挑战性的过程,此外,所提出的算法中涉及的所有其他相似性阈值。M. Alhoshan和N. 阿尔特韦伊里沙特国王大学学报3740-表4场景1:相似度阈值(k)设置。表8场景1:根据总结的AUSS ROUGE-SU 4评价结果K精度召回F-score精度任务跨度召回精度F-score0.40.9770.7630.8570.76811610.813160.679120.740120.50.9360.9200.9280.870219910.970930.59220.735680.60.9280.9820.9540.91536960.5740710.729410.70.9210.9960.9570.919410460.425270.672340.5210.80.91410.9550.915553490.026610.038160.03135615900.914710.505690.65131771020.322030.33140.32665868070.44830.466860.45739表594960.035060.051430.0417场景2:相似度阈值(k)设置。101340.831110.351170.49373K精度召回F-score精度113190.408890.460.432941211390.030.021340.024940.40.9770.7650.8580.770138290.930.4650.620.50.9410.9200.9310.87514110.153910.33150.210220.60.9080.9960.9500.9051591000.569340.336210.422760.70.9080.9960.9500.9051622140.829730.328340.47050.80.90110.9480.901174620.57420.395720.468541814340.838890.408110.549091930780.207320.944440.34表6场景1:AUSS ROUGE-根据总结得出1个评价结果。任务跨度召回精度F-score11610.851850.718750.77966219910.994250.609150.7554636960.5689710.72527410460.463890.7350.56879553490.112610.162340.13298615900.985710.5520.70769771020.446930.459770.45326868070.581920.605880.5936694960.128210.186920.15209101340.583330.428570.49412113190.532850.598360.563711211390.131870.094120.10984138290.99020.50.6644714110.216670.456140.293791591000.712230.423080.530831622140.960530.386240.55094174620.668250.460780.545451814340.921050.4
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功