乌尔都语文本摘要研究与实验：监督学习方法和语料库开发

43 浏览量更新于2023-12-10 收藏 1.82MB PDF 举报

监督学习

文本摘要

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用16（2022）200129语料库：使用监督学习的乌尔都语提取摘要和实验的Muhammad Humayoun*，a，Naheed Akhtar ba阿拉伯联合酋长国阿布扎比高等技术学院计算机信息科学系b巴基斯坦拉合尔教育大学计算机科学系A R T I C L EI N FO保留字：自然语言处理自动文本摘要单文档摘要基于EX traction的摘要EXtracts乌尔都语摘要语料库监督学习乌尔都语资源贫乏的语言A B S T R A C T文本摘要是缩短文本的过程，以便它传达关键点。有几种文本摘要方法和基准语料库可用于英语等语言。开发和评估现有或新的文本摘要方法的一个重要障碍是标准化基准语料库的不可用，特别是对于南亚语言。除其他外，参考语料库使研究人员能够比较现有的最先进的方法。我们的研究通过为广泛使用但资源不足的乌尔都语开发一个基准语料库来解决这一差距。报告的语料库包含161个文件与手工编写的新闻领域提取摘要。我们还进行了几个实验的语料库，以展示它如何可以用来开发，评估和比较文本摘要系统使用监督学习方法的乌尔都语。我们的研究结果表明，最先进的分类器是很好的候选人乌尔都语文本摘要时，监督学习技术。此外，激进的分词技术，如固定长度的分割优于所有其他设置（衰老匹配F1= 57%，ROUGE-2 F1= 64。4%）。关于乌尔都语文本的基本预处理，我们观察到，在乌尔都语的适当分词工具足够成熟之前，对空间上的单词进行标记化是一种可靠的方法。在监督学习所需的单词相似性特征上，观察到诸如长度为1和2的Ultra stemming之类的激进词干挖掘比乌尔都语的现有词干挖掘和词形化工具更好。最后，与原始数据相比，人工生成的数据集并没有显着改善结果。1. 介绍随着互联网的快速发展，如今有大量的阅读资源可供用户消费，导致信息过载。自动文本摘要有可能在我们这个时代发挥重要作用。自动文本摘要是将文本缩短为摘要以传达文本的关键点的过程。文本可能是从单个文档或多个文档中收集的，这些文档都是关于同一主题的。通常，生成的摘要明显少于源文本，但从不超过源文本的一半（Radev，Hovy，&McKeown，2002）。区分文本中信息量较大的部分和信息量较小的部分是自动文本摘要的主要挑战（ Das &Martins ，2007;Steinberger &J eEscherzek，2012）。自动文本摘要中使用的两种主要方法是抽象基于和提取基于. 抽象为基础的方法从句子中收集重要信息，并通过删除无关紧要的细节，从原始内容中构建连贯的摘要。这样的摘要也可能包含实际文档中不存在的新句子（Ye，Chua，Kan，Qiu，2007&）。这需要解决具有挑战性的问题，例如语义表示、推断、自然语言生成等（Radev et al.，2002年）。抽象摘要仍然是一个开放的研究问题，“仍然是研究人员的梦想”（Radev等人， 2002年）。相比之下，基于提取的技术依赖于从源文本中识别和排名最“信息量“的即使某些部分不包含最重要的信息，这些选定的句子也会作为一个单元保持完整。在过去的几十年中，已经使用了吸引人的方法，并且通常提供强大的摘要，如果不是总是更好的话。文献提出了几种监督和无监督的方法来产生提取摘要（也称为摘录）。在监督机器学习中，实例被标记。这意味* 通讯作者。电子邮件地址：mhumayoun@hct.ac.ae（M. Humayoun），naheedswl@ue.edu.pk（N.Akhtar）。https://doi.org/10.1016/j.iswa.2022.200129接收日期：2021年8月25日;接收日期：2022年7月18日;接受日期：2022年2022年9月28日网上发售2667-3053/© 2022作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsM. Humayoun和N. 阿赫塔尔智能系统与应用16（2022）2001292相应的正确输出（即，正确的答案）与每个实例一起给出。相反，标签（即，正确答案）在无监督的方法中不提供一些无监督的方法是基于统计的。例如，词频的使用（Luhn，1958）和句子位置的使用（Edmundson，1969）都是经典的例子。一些流行的无监督学习方法是潜在语义分析（LSA）（Murray，Renals，Carletta，2005; Steinberger Jezek，2004;&&SteinbergerJeJazek，2009），最大边缘相关性（MMR）和可扩展编程（Gillick Favre，2009&）。基于图的非监督方法也引起了人们的关注（Erkan Radev，2004;&Fang，Mu，Deng，Wu，2016; Mihalcea Tarau，2004&&）。在文本摘要的背景下，监督学习的相关工作在第2.1中给出。缺乏基准语料库是开发和评估自动文本摘要计算方法的主要瓶颈。大多数用于自动文本摘要的基准语料库-化主要与英语有关。从第一次文件理解会议（DUC）提供的共同任务中可以明显看出，1 文本分析会议（TAC）2 –主要集中在英语在语言资源开发方面(in一般）和自动文本摘要（特别是），南亚语言大多被忽视（贝克尔里亚兹，2002&年）。鉴于南亚是语言多样性最高的地区之一，超过18亿人，我们认为迫切需要开发南亚语言的语言资源，促进对这些语言的研究。这一观点得到了（Baker McEnery，1999;&McEnery，Baker，Burnard，2000&）的支持。然而，最近，NLP社区似乎对南亚语言（最著名的是乌尔都语，印地语，孟加拉语和旁遮普语）表现出更大的兴趣，语言资源是先决条件。对于乌尔都语，这些相关研究在第2.1中讨论。全世界有超过1亿人，包括巴基斯坦和印度，讲乌尔都语（Grimes，2021）。它是一种印度-雅利安语言，有一个修改的波斯-阿拉伯字母表（Humayoun，Hammarstro？m，&Ranta，2007 b）。乌尔都语是以纳斯塔利克书写风格书写的- 乌尔都语的高级词汇来自波斯语和阿拉伯语，日常使用词汇来自南亚的母语（Virk ，Humayoun ，Ranta ，2010&）。乌尔都语没有大写字母。它使得识别专有名词、标题、首字母缩略词和缩写成为一项困难的任务。与阿拉伯语和波斯语类似，变音符号（元音）是可选的，几乎不存在于书面文本中。因此，单词通常是在上下文的帮助下猜测的。乌尔都语是一种自由语序（主语、宾语、动词）的语言，Humayoun，Hammarst ro？m，&Ranta（2007 a）.1.1. 贡献我们提出了三个关键的贡献，乌尔都语文本摘要研究的进步。首先，我们报告了一个摘要采用多数表决制。我们已经公开发布了5个语料库，这恰好是第一个乌尔都语提取摘要语料库。此外，开发指南可以遵循，以产生一个更大的语料库在未来。其次，我们产生了一个通用的框架来生成乌尔都语文本的文本摘要（摘录）。提取可以通过许多监督学习方法（分类器）生成。第三，我们在CORPURES上进行了几个基准测试实验，例如：1. 乌尔都语提取摘要任务被认为是一个二进制分类问题，和六个X分类器，看看他们如何执行的任务。2. 使用文献中报道的常见特征，并且使用下面给出的各种预处理设置的三种属性选择算法来3. 空间不是乌尔都语中单词的可靠指示器。因此，空间分割和正确分割的文件在CORPURES的效果进行评估的任务与各种预处理设置如下。4. 针对提取摘要任务，详细评估了以下预处理设置的效果(a) 停用词删除(b) 添加词汇信息等作为各种词形化&堵塞技术(c) 使用Levenshtein距离和词嵌入作为相似性度量（而不是字符串相等）添加语义信息。5. 在CORPURES上采用了定长分词等激进技术，并对其效果进行了评价。6. 两个合成数据集从CORPURES，合成数据的任务的有效性进行了评估。值得一提的是，在这项研究工作之前，所述方法从未在乌尔都语新闻文本摘要任务中进行过经验评估。2. 相关工作2.1. 文本摘要和监督学习在过去的二十年里，监督学习在一般的自然语言处理，特别是文本摘要方面表现出了出色的效果。摘要是一种将原文中的重要句子标记出来的方法。然后，这些重要的句子被放在一起作为总结，保持句子不变。吸引人的摘要可能存在缺乏连贯性等问题，但通常情况下，它们非常强大，并且更容易实现。这就是为什么大多数现有的求和系统是基于提取的。继承自URduEX tractiveS ummaries（CORPURES）基准CORP用户Edmundson（1969）在（Kupiec，Pedersen，Chen，1995&）中报道，CORPURES包含161个文档，其中包含来自新闻专线域的手动编写的摘要（来自BBC乌尔都语的新闻文章）。乌尔都语专家撰写了参考摘要。我们使用了一个更简单的众包版本，在短时间内开发出高质量的参考摘要。每份文件有四个摘要，其中三个由撰稿人编写，而第四个第1http://duc.nist.gov/2http://www.nist.gov/tac/2011/Summarization/[3]例如，《民族语言》列出了印度和巴基斯坦分别有447+74=4 世界银行统计数据：https://data.worldbank.org/indicator/SP.POP.TOTL?使用朴素贝叶斯分类器生成文本摘要，该分类器在科学/技术领域的21个出版物中的188个文档的数据集上进行训练。Aone，Okurowski，Gorlinsky&（1998）报道了类似的研究。该研究描述了一个名为DimSum的文本摘要系统，使用朴素贝叶斯分类器，但具有更多功能。另一项研究（Neto，Freitas，Kaestner，2002&）提出了一种使用统计和语言特征的可训练摘要器。两个分类器，C4.5决策树和朴素贝叶斯，利用200个文件的数据集。结果表明，朴素贝叶斯分类器对所有选定的压缩比都表现良好。ChuangYang（2000&）提出了一种基于句段抽取的自动摘要方法.locations = 8S; last visited：No. 2021年5 语料下载链接：https://github.com/humsha/CORPURESM. Humayoun和N. 阿赫塔尔智能系统与应用16（2022）2001293==-本文运用修辞结构理论，在特定的标记上对文档的句子进行切分。除了标准特征外，还增加了修辞结构理论的特殊特征，如对立、对比、原因和原因。三个分类器（C4.5，朴素贝叶斯，和基于模式间距离的构造性神经网络此外，委员会认为，数据集中的参考摘要是由三个人协商一致手动生成的。Kaikhah，2004年的工作是利用神经网络对新闻文章进行摘要。源文档的每个句子被表示为七个特征的向量。引入特征融合阶段，消除不常见的特征，推广特征的作用.该工作（Kianmehr等人，2009）比较了两种文本摘要分类器的性能：支持向量机（SVM）和神经网络。实验表明，当使用三种特征时，识别率可达65%。当特征从三个增加到六个时，该准确性增加到77%。研究还发现，对于较大的数据集，神经网络比SVM慢。我们的工作类似于上面提到的研究，因为我们也使用传统的机器学习分类器。最近的研究集中在通过深度学习进行摘要任务。这两项研究（Nallapati，Zhai，Zhou，2016 a; Nallapati，&Zhou，Ma，2016 b&）提出了新的基于递归神经网络（RNN）的架构，用于提取文档摘要。证明的的研究（Nallapati et 例如， 2016年b）优于两个不同语料库（CNN/每日邮报语料库（Hermann等人，2015）6和DUC 2002单文档摘要dataset）。的研究（纳拉扬，帕帕萨兰托普洛斯，Lapata，Cohen，2017&）提出在单文档提取摘要的背景下利用边信息。侧面信息可以是标题和图片说明，这些通常可用于新闻专线文章。在CNN/Daily Mail语料库上评估摘要模型（Hermann等人，2015年）。此外，它表明，它始终优于在信息量和流畅性方面。Collins，Augenstein，Riedel（2017）&发布了一个包含10k个文档的数据集，用于总结计算机科学出版物，并声称可用于抽象和提取总结。它利用了ScienceDirect网站上的学术出版物包含突出显示的声明（即，作者提供的摘要）。该研究对几种神经和传统的摘要方法进行了基准测试。结果表明，他们的最佳性能模型在提取求和任务上优于几种成熟的基线方法。使用深度学习技术的一个瓶颈是足够大的语料库的可用性。不幸的是，缺乏这样的乌尔都语语料库限制了我们目前使用深度学习技术。一些使用监督学习的英语以外的语言研究Kutlu，Kazir，&Cicekli（2010）提出了一个土耳其语文本摘要器。它使用了诸如词频、关键短语（KP）、中心性、标题相似性和句子位置等表层特征。数据集准备了120篇新闻文章，以及由人类专家生成的摘要。本研究还使用了第二个数据集，包括100篇土耳其期刊文章及其摘要。Naji-bullah（2015）提出了一个印度尼西亚语文本摘要系统。一本文提出了一种对于基于关键短语的提取摘要的阿拉伯语文本（El-Shishtawy El-Ghannam ， 2012& ），以及最近关于阿拉伯语文本摘要的工作（Qaroush，Abu Farha，Ghanem，Washha，Maali，&2019），其利用了统计和语义特征的组合。基于SweSum的FarsiSum原型是波斯语的摘要器（Hassel Mazdak，2004&）。最后，下面的研究与我们的工作Verma，Bennett，&OM（2019）报告了对印地语和英语文本[6]Nallapati et al.（2016 a）仅使用CNN/Daily Mail语料库总结。这项研究依赖于现有的印地语和英语数据集。分析使用13种不同的总结技术印地语和英语新闻专线数据集。评估是执行，形成使用的指标，如精度，召回，F1，凝聚力，非冗余，可读性和重要性。虽然乌尔都语和印地语两种语言在文字7、词汇8和正式写作方面存在显著差异。因此，对印地语进行的分析可能不适用于乌尔都语。Humayoun Yu（2016）&报告了乌尔都语文本摘要的比较分析。所报告的基准实验分析了预处理的效果，例如停用词去除、词形还原和使用最先进的基于图的算法进行提取求和的词干化。算法是LexRank和TextRank 。该研究依赖于现有的乌尔都语摘要基准数据集（Humayoun，Nawab，Uzair，Aslam，Farzand，2016&）。乌尔都语面临着分词问题，因为空格并不总是一个可靠的词尾标记。语料库（Humayoun等人，2016）提供了同一文档集合的两个版本：正确分段和空间分段。Humayoun Yu&（2016）分析了预处理设置对两个版本的影响。然而，据报道，由于现有的词干提取、形态分析和POS标记工具的低覆盖率和/或高错误率，对单词进行适当的分割并没有为提取文本摘要增加任何显著的性能。结果被报告为四个评估措施的平均值ROUGE-N（n1、 2、 3）和ROUGE-L和F1评分。最好的F1分数报告时，词干是执行和停用词一起删除.正确分割数据集的最高评分为0.497（基于导联的基线：0.492）和0.4925（基于导联的基线：0.487）空间分割数据集。可以看出，结果是使用严格的测量方法报告的，因此即使分数的微小变化也很重要。在我们的工作中，我们试图将这项研究的结果。然而，本研究评估了预处理设置对基于图的算法的影响，而我们应用了监督学习分类器。Burney，Sami，Mahmood，Abbas，&Rizwan（2012）的工作是开创性的努力之一。提出了一种基于句子权重的无监督自动文摘算法.结果是一个附加的“乌尔都语自动摘要器“的Microsoft Word。这项工作缺乏对所生成摘要质量的适当评价。对20份文件（新闻和文章）进行了5名评价员的人工评价。然而，仅报告了一个摘要的评分。生成的摘要和参考摘要之间的句子匹配的相似性得分为64%。类似于工作（ Burney et al. ， 2012 ）， Muhammad ， Jazeb ，Martinez-Enriquez，&Sikander（2018）也使用句子权重算法生成摘要，但结果在Urdu Sumary语料库上得到验证（Humayoun等人，2016年）。当去除停用词时，使用ROUGE-N（n1）测量的平均 F1得分为0.5941，使用ROUGE-N（n2）测量的平均F1得分为0.4075。另一项类似的研究是（Bhatti&Aslam，2019），尽管其贡献尚不清楚。与我们的工作相比，这三项研究的范围有限最近的一项研究（Farooq，Batool，&Noreen，2021）报告了基于八种无监督提取摘要算法的分析。 2016年（仅14文章用于评价）。使用F1ROUGE-2评分进行评价。预处理输入的最高得分为0.71。在预处理阶段，去除停用词，7 乌尔都语使用波斯-阿拉伯文字，但印地语使用梵文字母。[8] 乌尔都语词汇深受波斯语的影响，也多少受到阿拉伯语的影响（Humayoun，Hammarst ro？m，&Ranta，2007 b）。相比之下，印地语词汇受梵语的影响很大。9 这些摘要者为：减少总结者，卢恩总结者，Kullback-Lieber 求和算法、 Sum Basics Summarizer 、 Edmundson Summa-rizer、TextRank、LSA和LexRank。M. Humayoun和N. 阿赫塔尔智能系统与应用16（2022）2001294=（）下一页（）下一页（）下一页（）下一页应用。然而，诸如停止词列表的来源和词干分析器等细节没有报告。Nawaz等人（2020年）使用两种基本方法（即句子权重方法）生成乌尔都语提取物（Burney等人，2012）和加权词频方法（Rakesh，Sahoo，Sahoo，&Swain，2012）。使用三种算法作为基线，即事实上的向量空间模型（Mohd，Jan，Shah，2020&），TextRank（MihalceaTarau，&2004）和基于单词嵌入的技术（Noor，Bakhtyar，&Baber，2019）。这项研究还依赖于Humayoun等人提供的乌尔都语摘要。（2016）。然而，除了摘要之外，本研究还为乌尔都语摘要语料库生成了相应的摘录摘要。摘要的范围从33%到40%的文章。三位专家为一篇文章创建了三个摘要候选项。所有这些句子都被认为是至少有两名专家同意的摘要。未报告关于创建参比浸提液的更多详细信息。此外，也未报告参考浸提液之间的评价者间一致性。本研究开发的参考乌尔都语摘要语料库（USC）摘录可应要求提供。报告了摘要和浸提液的结果。用ROUGE-2对乌尔都语摘要和摘要的句子加权法的F1然而，在乌尔都语摘要和摘录中，ROUGE-2加权词频法的F1得分为0.26分别为0.65与研究（Farooq等人，2021; Humayoun&Yu，2016; Nawaz等人，2020; Verma等人，2019年），我们从零开始开发了一个由151篇新闻文章组成的乌尔都语摘录基准数据集。我们提取物的压缩率严格为40%。本文详细介绍了参考文献摘要的生成和摘要间的协调。此外，我们还评估了详细的预处理设置对摘要任务的影响，我们工作中预处理设置的范围和深度超过了Humayoun Yu（2016）&，Nawaz et al.（2020）和Farooqet al.（2021）的研究。此外，相关的研究主要是评估非监督的方法，而我们使用的是监督学习分类器.此外，我们还详细分析了每个特征在特征向量中的作用。准备这样的特征向量是训练监督学习算法的预备步骤。我们还评估了固定长度的标记分割为单词。详见第1.1节。在结果方面，我们在实验设置E.48（长度为6的固定长度分词）的Logistic回归中获得了最高的 F1 分数（句子匹配 F1 ： 0.5702 ， ROUGE-2F1 ：0.644）。当单词在空间上被分割时，我们对于逻辑回归算法的实验设置E.04（没有停用词去除，但是应用了L1的超词干提取）实现了最高的F1得分（句子匹配F1：0.5612，和ROUGE-2F1：0.6364）。2.2. 文本摘要语言资源建设是一项艰巨而又必不可少的工作。语言资源在推动自然语言处理及其应用的发展中起着重要的作用。例如，由于过去几十年来的巨大努力，英语NLP已经得到了显着改善。这些重要资源的非详尽列表是：英语Penn Treebank（Marcus，Marcinkiewicz，Santorini，1993&），WordNet（Miller，1995），PropBank（Palmer，Gildea，Kingsbury，2005&）和FrameNet（Fill-more，1982）。在自动文本摘要的背景下，文档理解会议（DUC，从2001年到2006年）是发布数据集的主要论坛。该论坛允许研究人员比较标准测试集的方法和结果。多年来，我们完成了许多总结任务。手动生成的摘录已在DUC 2001和DUC2002中介绍2.2.1. DUC（文档理解会议）数据集的德2001覆盖两单个和多文档新闻专线体裁的摘要，并提供了60个文档集的数据集，每组10个文档（Harman Over，2004&）。要求为每份文件自动生成100字的摘要，以便进行内部评价。此外，还需要整个集合的四个通用摘要，固定目标长度约为50、100、200和400字。为了创建参考摘要，每个贡献者选择了六个文档集。他们为每个文档制作了一个100字的手动摘要，用于单个文档摘要任务。然后，他们为多文档任务的50、100、200和400个单词长度的整个文档集制作了手动摘要。DUC 2002跟随DUC 2001的脚步，提供了：i单个文档和文档集的摘要，固定长度为10，50，100和200个单词，ii文档集的EXtracts，固定目标长度为200和400个单词。语料库大小为60个文档集，每个文档集中大约有10个文档DUC 2003的任务做了一点改变，它提供了：i具有非常短（10个字）摘要的单个文档摘要，和ii由TDT（主题检测和跟踪技术）聚焦的多文档摘要事件主题，观点，固定目标长度为100个字的问题主题。单文档摘要的语料库大小为60个文档集，每个集合中有10个文档，多文档摘要跟踪的语料库大小为30个文档集，每个集合中有25个文档。2004年DUC提供：（i）具有非常短（10个字）摘要的单个文件摘要，以及（ii）多文件摘要，由事件和语料库大小为100个文档集，每个文档集中有10个文档DUC 2005-2006提供了一个复杂的多文档摘要任务，以生成以问题为中心的抽象摘要。DUC 2005的语料库大小为50个文档集，每个文档集有32个文档，DUC 2006的语料库大小为50个文档集，每个文档集有25个文档。研究（ Chopra ， Auli ， Rush ， 2016; Grusky ， Naaman ，&&Artzi，2018; Nallapati，Zhai，Zhou，2017&）认为DUC数据集很小，不能用于训练具有大量参数的模型，因此应与其他数据集结合使用。2.2.2. TAC（文本分析会议）数据集在2008年，DUC成为文本分析会议（TAC）的一部分，在摘要轨道下，这已经发生了五次（2008年，2009年，2010年，2011年和2014年）。TAC 2008（Dang Owczarzak，2009&年）通过提供两个任务涵盖了多文档摘要：第一个任务是写一个简短的（100字）的初步摘要（称为摘要A）的一组10新闻专线文章关于一个特定的主题。第二项任务是为同一主题的后续10篇新闻通讯文章撰写更新摘要（称为摘要B）。假设用户已经阅读了前十篇文章，因此应该在生成的摘要中提供新的信息。共收集到907K篇英文新闻报道，由8位NIST评审员开发了48个主题。还为每个专题挑选了一套20份文件。这些文件按时间顺序排列，并分为两组，每组10个文件，因此B组按时间顺序排在A组TAC 2009涵盖了与TAC 2008相同的第一项任务。第二个任务是评估（自动评估同行摘要TAC 2010引入了任务是从一个预定义的类别中为一个给定的主题写一个100字的10篇新闻通讯文章的摘要。已经提供了每个类别的方面列表，摘要必须包括其类别的所有方面。第二项任务与TAC 2009相同，即，AESOP。2011年的任务有三个。前两个任务与TAC2010相同，而第三个任务是乘法M. Humayoun和N. 阿赫塔尔智能系统与应用16（2022）2001295飞行员这是一个多文档摘要任务，生成250个单词的摘要。这项任务的一个重要方面是，原始语料库被翻译成六种语言10，以提供多语言测试集。预计产出摘要应与其源文件使用相同的语文。该数据集有100个文档，分配给10个参考集，其中一个集讨论相同的主题。最后，TAC 2014介绍了生物医学总结轨道。2.2.3. 一些大型数据集纽约时报注释语料库（NYTAC）（Sandhaus，2008）是一个广泛收集的报纸文章。不适用x1.8 650，000篇文章由图书馆科学家总结（单文档摘要）。大规模中文短文本摘要数据集（LCSTS）（Hu，Chen，Zhu，2015&）包含超过200万个短文本，每个文本的作者都有简短的摘要（摘要）。它是由中国微博网站SinaWeibo构建的。DeepMind研究人员最近的一项工作（Hermann et al.，2015）发布了阅读理解和问答任务的大型语料库。它是基于这样一个事实，即在两个报纸CNN和每日邮报的新闻文章，包含重要的点作为子弹在同一篇文章。因此，原始文章可以用作文档，同一文档中的要点可以用作参考摘要（摘录）。发布了两个包含大量文档的大型数据集（每个90k和197k）。本文报告了对这些阅读理解任务数据集的彻底检查（Chen，Bolton，Manning，2016&）。不幸的是，我们没有看到任何乌尔都语报纸遵循这种格式。Newsroom（Grusky et al.，2018），摘要数据集包括1.3 38家主要新闻出版物编辑部的作者和编辑撰写的文章和摘要达100万篇。新闻编辑室的编辑和记者撰写了这些摘录摘要，以显示在社交媒体分发和搜索结果中。如果一篇文章有多个摘要可用，则使用第一个可用的摘要。排除了没有摘要文本的文章。他们还删除了具有大量精确重叠文本的文章摘要对，以删除完全从文章复制的基于规则的摘要（例如，第一段）。在乌尔都语语料库开发的背景下，以下研究是相关的：对于词义消歧（WSD ）的任务，我们发现了两个研究。这项研究（Saeed，Nawab，Stevenson，Rayson，2018&）提供了一个包含50个目标词（30个名词，11个形容词和9个动词）的小型语料库。这项工作（Saeed，Nawab，Stevenson，Rayson，&2019）提供了一个包含5000个乌尔都语运行文本的语料库，其中所有歧义词（856个实例）都是用感官手动标记的。COUNTER（Sharjeel，Nawab，Rayson，2016&）是乌尔都语新闻文本重用的语料库，包含1200个文档。每个文档都是手动注释的，具有三个重用级别：完全派生、部分派生和非派生。该语料库可用于剽窃检测。CLE Urdu Digest Corpus（Urooj，Hussain，Adeeba，Jabeen，&Perveen，2012）是一个大型的乌尔都语语料库，收集自2003年至2011年出版的乌尔都语杂志Urdu Digest。最后，与这项工作有关的语料库将在下面单独的小节中讨论2.2.4. 乌尔都语摘要语料库（USC）乌尔都语摘要语料库（USC）（Humayoun等人，2016）是乌尔都语摘要（摘要）的基准语料库。它提供了50篇乌尔都语文章及其摘要。这些文章收集自各种在线来源，主要是新闻网站和博客。与语料库一起，还提供了一个软件包，包括：脚本规范化工具，POS标记器，基于表查找的形态分析器lematizer和词干分析器。&该语料库已被用于一项广泛的研究（Humayoun Yu，2016&），详细分析了基本10 阿拉伯语、印地语、法语、捷克语、希腊语和希伯来语表1乌尔都语摘要语料库统计。压缩总结>=60 250至59.9 740至49.9 1930至39.9 2020至29.9使用基于图形的方法为乌尔都语预处理设置。该语料库也用于以下研究：（Bhatti &Aslam，2019; Farooq等人，2021; Muhammad等人，2018; Nawaz等人，2020年）。总而言之，对于资源贫乏的乌尔都语来说，这是一个很好的资源。值得注意的是，乌尔都语摘要语料库中参考摘要的压缩率长短不一（详见表1）。作者要求作者制作好的摘要，“摘要的大小是大、中还是小“都不重要（Humayoun et al.，2016年）。这可能是因为总结作者倾向于在总结的适当长度上存在差异，尤其是摘要（Jing，Barzilay，McKeown，Elhadad，2000&）。乌尔都语摘要语料库（USC）的定性分析如图所示。1.一、我们没有使用USC是因为以下原因。首先，资源的大小很小，可能不足以有效地训练监督学习分类器。其次，监督学习算法期望标签（正确答案）。在提取的情况下，标签在数据集中很容易获得。然而，在摘要的情况下，需要额外的工作来定义标签，因为摘要句可能不完全存在于文件中。第三，我们想为乌尔都语NLP贡献另一个资源。在我们的摘要语料库开发的时候，没有提取摘要语料库存在。它激励我们承担这项任务。3. 乌尔都语摘要的基准语料库许多资源和自然语言处理工具可用于不同的英语，法语和德语。许多语言都缺乏资源，乌尔都语就是其中之一。我们已经创建了一个资源乌尔都语单文档摘要及其参考摘要（CORPURES）。乌尔都语专家制作参考摘要。专家手工制作语言资源是一种普遍的做法，质量高，但制作成本高。近年来，众包已经成为一种替代方案，需要更低的成本和合理的资源质量（El-Haj，Kruschwitz，FOX，2015&）。为了在不影响质量的情况下减少繁重的工作，我们尝试使用一种更简单的众包版本，即工人坐在同一个教室里。这些工作人员是：1）志愿者学生11 乌尔都语文学亲-2）大学教师12为上述学生讲授乌尔都语文学。该任务分两次进行（每次1.5小时），每次约有50名志愿者。还与教职员工（约7人）进行了一小时的另一次会议。它导致了1007名贡献者进行了四个小时的众包工作3.1. 文档集合乌尔都语新闻摘要语料库包含161条乌尔都语新闻11我们没有任何资金用于这个项目。作者传达了这项工作的重要性和可能的影响。那些被说服的人免费参加了这项工作。尽管作者在这些会议上分发了简单的参考资料。12 乌尔都文学各部门，大学的巴基斯坦拉合尔。http://ue.edu.pkM. Humayoun和N. 阿赫塔尔智能系统与应用16（2022）2001296Fig. 1. 乌尔都语摘要语料库（USC）的定性分析。水平条表示每篇文章的字数，黑色实线表示摘录的字数，黑线表示摘要与给定文章的比例，范围从21.3到64.2，平均为42.2压缩率百分比。表2统计机构。文件161句子2649话72,537每份文件的04（03由捐助者，01由多数表决）图二. 摘自CORPURES的一篇文章。文章及其手动创建的摘要。这些摘要是基于提取的这些新闻文章主要来自BBC乌尔都语网站。新闻报道涵盖了来自不同领域的广泛主题，如时事，娱乐，健康，政治，体育，科技，并由乌尔都语为母语的人撰写。&一般统计数据见表2。3.2. 参考摘要要求撰稿人阅读课文并为摘要选择句子。作者到教室分发了图三. 图2中的文章的标记摘要的快照，下划线的句子形成摘录。在学生中发表文章在每次会议开始时，作者通过多媒体展示的例子解释了Kry-Reverski，McCann，Xiong，Socher（2020）&提到的良好参考摘要的四个维度（连贯性，一致性，流畅性和相关性）很快就得到了解释。作者强调选择那些通过这些准则的句子（特别是连贯性和相关性，因为这两个似乎更适合摘录）。每份文件都注明了摘要所需的句子数量。对于该语料库，40%的压缩率被决定为摘要大小。我们选择这个压缩率是因为：（1）其他人也提出了这个建议，例如（Chuang &Yang，2000; Kupiec et al.，1995），（2）利用贡献者的投票，可以将压缩率改变为30%、20%或10%等其它值。然而，如果出现平局，这将需要一个额外的贡献者（否决贡献者）来做出最终决定一个样本文件的快照，其摘要和英文翻译显示在图。 2比4对于给定的文档，我们不能有单一的参考摘要由于人类判断的不可避免的变化（Harman Over，&2004; Rath，Resnick，Savage，1961&）。为了减少M. Humayoun和N. 阿赫塔尔智能系统与应用16（2022）2001297见图4。图中文章的英文翻译。二、表3图中文章的摘要选择表的快照。3.第三章。CurrentAfr 01，选择句子=05表5每份文件三个摘要之间的一致性。撰稿人判刑百分比一位投稿者选了一句话31.86%两个投稿人选了一句话百分之二十八点零一a. 没有一个贡献者选择了一句话百分之二十八点三九B. 所有的贡献者（三个）选择了一个11.74%句话完全同意（a+b）40.13%三个总结之间的方法一致性，评定者间Fleiss Kappa评分百分比文件60.07%0.17（轻微）表4数据集的详细信息。类别文档句子单词摘要句子(40%）贡献者。如果在选择句子时存在领带或歧义，则作者作为第四贡献者，在阅读文章后仔细做出最终决定（ Jing 等人， 2000;Parthasarathy&Hasan，2015）。请注意，我们还将每个文档的三个摘要（除了最终参考摘要）保存在我们的数据集中，以便在需要时使用。文档集合中的句子数量介于7到10个之间。70，文档的平均长度是39。的句子量在参考文献摘要中的句子在3到28个之间，平均每个文件16个句子。政治19 241 7198 98科学技术19 393 8915 157&体育22 406 12，319 161健康071664593 67总161264972，587 1060摘要中的个体偏差，每个文档的参考摘要必须多于一个，每个由不同的人类贡献者创建（El-Haj等人，2015年）。因此，我们制作了三个不同版本的摘要。通过这种方式，给定文档的每个摘要由三个不同的贡献者生成。有161份文件的483份摘要（每份文件3份参考摘要）。数据集的详细信息见表4。从每个文件的三个参考摘要中，我们通过多数表决产生最终的参考摘要。如果人类贡献者选择将三个摘要中的每个句子（对于每个文档）包括在最终参考摘要中，则给予“1“的分数，否则为“0“。通过将每个句子的得分相加，计算“权重”。句子权重有助于为最终参考摘要选择候选句子。表3显示了摘要选择的快照。在最终的参考文献摘要中，仅考虑由两个或两个以上的人选择的3.3. 评核人间协议评价了每篇文章的三个总结之间的一致性，并在表5中显示。每份文件的三个总结之间的评定者间一致性为60.07%，而Fleiss请注意，计算两个参考摘要中有多少句子是共同的是对提取摘要的严格测量。因此，对于参考摘录，两个贡献者可能会选择两个不同的句子，这两个句子在含义上

下载后可阅读完整内容，剩余1页未读，立即下载