完形填空式阅读理解的性能提升方法:Clozer

124 浏览量更新于2023-11-30 收藏 769KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文1Clozer：完形填空式阅读理解的适应性数据扩充HolyLov eniazuo，BryanWiliezuo，WillyChunggzuo，MinZengzuo，Samuel Cahyawijaya， Su Dan， PascaleFung香港科技大学（hlovenia，bwilie，whcchung，min.zeng）@connect.ust.hk摘要任务自适应预训练（TAPT）弥补了标记数据的不足，并通过调整未标记数据以适应下游任务来提供性能提升。不幸的是，现有的适应主要涉及确定性规则，不能很好地推广。本文提出了一种基于序列标记的完形填空答案抽取方法Clozer，该方法可用于TAPT中的完形填空题，并可扩展到任何完形填空题的阅读理解（MRC）下游任务。我们在多项选择完形填空式MRC任务上进行了实验，结果表明，Clozer在提升模型效率方面明显优于Oracle和最先进的TAPT算法，并证明Clozer能够独立地识别出黄金答案。1介绍赋予机器从非结构化文本信息中阅读、理解和推理的能力是自然语言处理中的一个持续的愿望这一目标引发了一个值得注意的研究热点：机器阅读理解（MRC）。MRC算法的目标是通过理解相关的上下文段落来获得重要的线索，从而推断出正确的答案。MRC任务的结构各不相同，取决于其问题结构（例如，完形填空式）和答案类型（例如，多项选择）（Zeng et al. ，2020）。在MRC任务中已经提出了使用大型预训练语言模型（LM）的各种方法。近年来，诸如任务自适应预训练（TAPT）的自适应方法已被广泛用于MRC任务（Xie et al. ，2021; Wanget al. ，2021; Glass等人，2020）。TAPT使用下游任务的域内未标记数据来生成合成预训练数据集，该合成预训练数据集根据使用中的下游任务，通过某些数据增强方法来对于多项选择完形填空式MRC，作者对这项工作做出了同样的贡献。图1：Clozer提取TAPT数据扩充通常涉及两个步骤：1）答案提取或选择，以及2）伪答案生成（图1）。这两个步骤都已在几项研究中采用不同的实施方式（ Welbl et al. ， 2017; Onishi et al. ， 2016;Yang et al. ，2020）。一项值得注意的工作提出了 TA-MAMC （ Gururangan et al. ， 2020年），它通过采用TAPT框架实现了最先进的性能。然而，这种方法严重依赖于下游任务在本文中，我们采取了一个广义的合成预训练数据集的建设，使用TAPT解决多项选择完形填空式MRC。我们提出了Clozer，一个基于序列标记的完形填空答案抽取方法，该方法独立于预定义规则，提高了TAPT方法在完形填空式MRC任务中的通用性Clozer学习下游任务数据集的内在模式，并充当未标记数据的答案提取器（图1）。为了适应下游的任务，提取与其他几个选项组成一个三元组{上下文通道，完形填空题，多项选择选项}，遵循标准的多项选择完形填空式MRC任务格式，作为第二个预训练阶段的合成样本。我们在两个下游任务上进行实验我们的实验结果表明，在TAPT中使用Clozer提供了大量的性能提升，同时arXiv：2203.16027v1 [cs.CL] 2022年3月+v：mala2277获取更多论文2i=1--P图2：基于Clozer的TAPT一般适用于我们实验的两个多项选择本文的主要贡献如下：1）首次提出了一种可推广的完形填空答案自动抽取方法，以支持多项选择完形填空题MRC任务的推广TAPT方法;2）在两个多项选择完形填空题MRC任务上，我们证明了Clozer在不依赖任何特定任务推理的情况下，显著优于所有其他基准3)我们提出进一步的分析来解释我们的Clozer的有效性和效率，并提供关于如何提高其普遍性的见解。2相关工作任务自适应预训练Howard和Ruder（2018）提出了通用语言模型微调（ULMFiT），它在大型通用领域语料库上预训练LM，并在目标任务上对其进行微调。第二阶段预训练已被用于提高LM在某些下游任务（如文本分类）中的性能（Sun et al. ，2019）。关于TAPT的研究（ Gururanganet al. ， 2020; Pruksachatkun etal. ，2020年）证明，它获得的性能提升可以与领域自适应预训练相提并论，其好处是使用更小但相关的语料库。TAPT已被证明在许多下游任务中是有效的，例如抽象摘要（Yu etal. ， 2021 ）和对话系统（ Zhang et al. ，2021a）。Answer extractionTan et al.（2018）开发了一个提取然后合成的框架，从提取结果中合成答案。具体地说，首先采用答案抽取模型从段落中预测出最重要的子段，然后答案合成模型将子段作为附加特征与问题和段落一起进一步细化最终答案。Xionget al. （2016）介绍了用于问答任务的动态涂层网络（DCN），该网络学习问题和段落的相互依赖表示。 Seo等人（2016）介绍了双向注意力流（BIDAF）网络来匹配问题和段落。它使用BIDAF机制来获得查询感知的上下文表示，而无需提前摘要。序列标记序列标记用于为每个标记分配标签（即，字）中的一个序列。虽然它通常应用于命名实体识别（NER），词性（POS）标记和文本组块等任务，但Yaoet al. （ 2013）; Wilie et al.（2020）证明了利用这种方法从一个完整的句子中提取答案跨度来构造完形填空题是可行的。 Yao等人（2013）将答案提取作为答案序列标记任务，利用具有树编辑距离（TED）和传统上下文特征的线性链连续随机场（CRF）3方法我们的方法遵循图2中描述的流水线。我们遵循TAPT利用Clozer，我们根据下游任务调整了一个大型未标记的预训练数据集，该任务可以是任何多项选择完形填空式MRC任务。我们定义预训练数据集P=（dPi，sPi）n以dPi作为文档，sPi作为与段落相关的摘要或单个句子dPi.可以是文档和句子对的任意未标记数据标题--新闻内容，标题--文章正文，摘要--故事叙述通过任务调整，我们将P重构为一个合成的完形填空式MRC任务，其中+v：mala2277获取更多论文3i=1i=1--P由此产生的任务适应的预训练数据集是这项工作的范围，其中多项选择不由T={（cTi，qiT，oTi，liT）}m表示。它跟随-如果完形填空任务要求，则跳过POG。给出了下游任务数据集D={（cDi，qiD ，oDi，liD）}m的结构，其中cDi是一个完形填空题，qiD是一个完形填空题，oDi∈o1，. 。。，ok是一组多项选择选项，liD是黄金答案我们将任务自适应分为1）黄金答案提取和2）伪选项生成，分别在§3.1和§3.2因此，我们使用任务适应数据集T来采用TAPT，其细节在§3.3中提供。3.1黄金答案抽取黄金答案提取（GAE）通过提取黄金答案将预训练数据集的摘要表示为完形填空题，这取决于下游任务对正确答案的概念。我们通过利用Clozer从下游任务中学习并通过序列标记来识别合适的黄金答案来解决这个问题首先，我们将下游任务中的完形填空题和黄金我们使用标签B-ANS作为黄金答案，并使用标签O作为完形填空题中的其他单词之后，我们在这个公认的数据集上微调Clozer，以便它可以学习和近似下游任务值得一提的是，由于其独立于任何启发式规则，我们的Clozer方法不限于一个单一的具体它可以适用于提取任何类型的完形填空答案（例如，抽象含义），这取决于下游任务数据集。接下来，我们使用Clozer来预测预训练数据集我们用[MASK]标记替换总结中的黄金答案，形成完形填空题，并将问题传递到下一步。我们扔下坎迪-0个或多个黄金答案的日期3.2伪期权生成伪答案生成（POG）采用预先训练的掩码LM来预测[MASK]令牌。对于每道完形填空题，我们得到模型我们丢弃剩余预测少于k的数据样本。遵循下游任务数据集结构，我们将黄金答案和伪选项重新转换为o1，o2，.， O k以随机顺序。黄金答案在案件超越3.3任务适应性预训练我们将任务适应数据集馈送到TAPT的预训练多项选择分类模型。最后一步是在下游任务上微调模型并对其进行评估为了了解Clozer如何与其他可用的方法进行比较，我们提出了三个基线的结果，其中我们采用了直接微调的模型TA-MAMC，并在GAE步骤中用Oracle代替Clozer。基线将在§4中进一步解释。4实验数据集如第3节所述，该方法需要使用预训练数据集，下游任务。在实验中，我们分别在两个下游任务上应用Clozer进行TAPT方法。这两个任务都是多项选择完形填空式的MRC任务，都是从ReCAM的子任务1和子任务2中获得的（Zheng et al. ，2021年）。给定一段上下文和多项选择题，必须推导出适当的黄金答案来完成完形填空题。第一个任务将其黄金答案定义为不可感知的概念，而第二个任务将其定义为上位词。对于预训练数据集，我们使用XSUM（Narayan et al. ，2018），一个抽象的新闻摘要数据集。基线为了了解基于Clozer的TAPT如何与其他方法进行比较，我们采用了三个基线进行实验：1）直接微调，其中预先训练的多项选择模型不应用TAPT，并立即在下游任务上进行微调;2）TA-MAMC，通过模拟下游任务3）oracle，其答案选择建立在特定于每个下游任务的启发式规则上。在第一个任务中，神谕者利用心理语言学的抽象词汇数据库（Colheart，1981）来选择不可感知的概念作为黄金答案对于第二个任务，它使用WordNet（Changizi，2008）中的上位词选择这两种方法是因为它们用于选择原始金（即，正确）的答案。训练和评估在GAE中，我们的Clozer是使用预先训练的 ELECTRA 基础实现的（ Clark etal. ，2020年），而对于+v：mala2277获取更多论文4接近ReCAM 1 ReCAM 2表1：下游任务测试集的性能比较粗体表示最佳结果。[2]我们在Zhang et al.的基础上重现了这种方法。（2021b年版）。POG和TAPT，我们使用预训练的BERT基础模型初始化模型（Devlin et al. ，2019）。由于只有两个下游任务的训练集和开发集被标记，因此我们以80：20的比例分割我们使用该定义集作为测试集。准确度和F1分数用于评估方法5结果和分析5.1总体结果我们在表1中给出了我们的实验结果。在没有额外的TAPT的情况下，直接微调方法产生最低的结果。相比之下，TA-MAMC，它依赖于POS标记分布，性能稍好，和oracle，利用下游任务然而，我们提出的Clozer方法在两个下游任务中都超过了所有基线，任务1超过了2%，任务2超过了9%。虽然Clozer提供了实质性的改进，但由于任务的定义方式，两种性能之间存在相当大的差异。我们将在第5.3节中进一步讨论Clozer5.2答案质量抽取方法如表2所示，在GAE步骤之后，oracle具有最少的数据（200k中的94k），因为它所构建的启发式规则是确定性的，没有给随机性留下任何空间TA-MAMC不可感知的概念和上位词）。然而， TA-MAMC 的好处是排除的例子比oracle少我们的Clozer找到了一个中间地带，与两个基线相比，它更具有普遍性，同时产生了更好的答案提取质量（表表2：GAE后剩余的数据样本数和POG用于不同的任务适配器方法。①的人。Clozer在任务2中仅增加了5k个数据样本，而在任务1中减少了12k个数据样本，显示出优异的结果。这表明，虽然数据量有助于性能提升，但在合成任务适应数据集中提取的答案的质量是不可或缺的。5.3Clozer虽然TAPT将任务1的模型性能提高了2%我们认为这主要是由于应用任务自适应后剩余的合成数据量，如表2所示，任务1中剩余35k样本，任务2中剩余2.这表明，ReCAM为任务1中的黄金答案选择的抽象性定义比任务2中使用的定义更复杂，这导致任务1中的答案更难被所有方法（包括我们的 Clozer ）掌握。这是一致的，因为ReCAM使用基于模型的方法在任务1中定义了不可感知的概念，这反过来又引入了对定义的固有偏见。这导致在任务1中识别答案在概念上比在任务2中更复杂，在任务2中，答案仅仅是从上位词层次结构导出的名词和动词。这也与Zheng等人（2021）的观点一致，他们表明，在任务2上训练的模型在任务1上进行预测时，跨任务性能下降得更明显，而不是相反。这种复杂性差异的示例见附录A。6结论我们提出了一种自动概括的完形填空答案抽取方法Clozer，以帮助在多项选择完形填空式MRC任务中建立综合的TAPT数据使用我们基于 ELECTRA的 Clozer提取的黄金答案执行TAPT，在有效性方面产生比基线更强的模型性能）和ACCF1ACCF1直接FT64.16%64.15%64.75%64.65%TA-MAMC†百分之六十四点九九百分之六十四点九九67.69%67.68%Oracle65.83%65.80%68.60%百分之六十八点五ReCAM 1任务适配器ReCAM 2GAE后POG后GAE后POG后TA-MAMC1550174769915585848358Oracle94954290737592023520克洛泽1200733507318147653368+v：mala2277获取更多论文5效率（即，TAPT中使用的数据量此外，我们还表明，Clozer的提取答案的质量引用Mark A.昌吉吉2008年wordnet与牛津英语词典中的经济组织结构。Cognitive Systems Research，9（3）：214Kevin Clark，Minh-Thang Luong，Quoc V. Le，andChristopher D.曼宁2020. Electra：预训练文本编码器作为判别器而不是生成器.在国际学术代表上。麦克斯·柯尔特1981. mrc心理语言学数据库。TheQuarterly Journal of Experimental PsychologySection A，33（4）：497Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. Bert：深度双向转换器的语言理解预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页。MichaelGlass，AlfioGliozzo，RishavChakravarti，An- thony Ferritto，Lin Pan，G PShrivatsa Bhargav ， Di- nesh Garg ， and AviSil.2020. 问题回答的广度选择预训练。在计算语言学协会第58届年会的会议记录中，第2773-2782页，在线。计算语言学协会。苏钦Gururang an ，AnaMaraso vic' ，SwabhaSwayamdipta ， Kyle Lo ， Iz Beltagy ，Doug Downey，and Noah A.史密斯2020. Don’tstop pretraining:在计算语言学协会第58届年会的会议记录中，第8342-8360页，在线。计算语言学协会。杰里米·霍华德和塞巴斯蒂安·鲁德2018.用于文本分类的通用语言模型微调 arXiv 预印本 arXiv ：1801.06146。Shashi Narayan，Shay B.科恩和米雷拉·拉帕塔。2018. 不要给我细节，只是总结！主题感知卷积神经网络，用于极端摘要。在2018年自然语言处理经验方法会议论文集，第1797-1807页，布鲁塞尔，比利时。计算语言学协会。Takashi Onishi，Hai Wang，Mohit Bansal，KevinGimpel，and David McAllester. 2016. 谁做了什么：一个大规模的以人为中心的完形填空数据集。在2016年自然语言处理经验方法会议上，第2230- 2235页。Yada Pruksachatkun，Jason Phang，Haokun Liu，Phu Mon Htut，Xiaoyi Zhang，Richard YuanzhePang，Clara Vania，Katharina Kann，and SamuelBowman. 2020.使用预训练语言模型的中间任务迁移学习：何时以及为什么有效？计算语言学协会第58届年会论文集，第5231Minjoon Seo，Aniruddha Kembhavi，Ali Farhadi，and Hannaneh Hajishirzi. 2016.机器理解的双向注意流。arXiv预印本arXiv：1611.01603。Chi Sun，Xipeng Qiu，Yige Xu，Xuanjing Huang.2019. 如何微调BERT用于文本分类？ CoRR，绝对值/1905.05583。Chuanqi Tan，Furu Wei，Nan Yang，Bowen Du，Weifeng Lv，and Ming Zhou. 2018. S-net：从答案提取到机器阅读理解的答案合成。在AAAI人工智能会议论文集，第32卷。Ye Wang ， Yanmeng Wang ， Haijun Zhu ， BoZeng，Zhenghong Hao，Shaojun Wang，and JingXiao. 2021. PINGAN omini-sinitic 在 SemEval-2021任务4：抽象意义的阅读理解。在第15届语义评估国际研讨会（SemEval-2021）的会议记录中，第820- 826页计算语言学协会JohannesWelbl ， NelsonFLiu ， andMattGardner.2017年。众包多项选择题。在第三届嘈杂的用户生成的文本研讨会论文集，第94Bryan Wilie ， Karissa Wagenentio ， Genta IndraWinata，Samuel Cahyawijaya，Xiaohong Li，ZhiYuan Lim，Sidik Soleman，Rahmad Mahendra，PascaleFung ， SyafriBahar ， andAyuPurwarianti.2020年。IndoNLU：评估印度尼西亚自然语言理解。在 Proceedings of the 1stConference of the Asia-Pacific Chapter of theAssociation for Computational Linguistics and the10th International Joint Conference on NaturalLanguage Processing，pages 843-857，Suzhou，China.计算语言学协会。Xin Xie ， Xiangnan Chen ， Xiang Chen ， YongWang ， Ningyu Zhang ， Shumin Deng ， andHuajun Chen. 2021. SemEval-2021 任务 4 中的ZJUKLAB：使用语言模型进行负增强，用于阅读抽象含义的解释。第15届语义评估国际研讨会论文集（SemEval-2021），第810-819页，在线。计算语言学协会.Caiming Xiong，Victor Zhong，and Richard Socher.2016.用于问答的动态共注意网络。arXiv预印本arXiv：1611.01604。YibenYang，ChaitanyaMalaviya，JaredFernandez ， Swabha Swayamdipta ， Ronan LeBras，Ji-Ping+v：mala2277获取更多论文6Wang，Chandra Bhagavatula，Yejin Choi，andDoug Downey. 2020.用于常识推理的生成式数据扩充。在计算语言学协会的调查结果：EMNLP2020，第1008姚旭晨，本杰明·范·杜尔梅，克里斯·卡利森-伯奇，彼得·克拉克. 2013.基于树编辑距离的序列标注在计算语言学协会北美分会2013年会议的论文集，第858余铁正，刘子涵，冯培思。2021. Adaptsum：面向抽象摘要的低资源域适配。arXiv预印本arXiv：2103.11332。曾昌昌，李少波，李勤，胡杰，胡建军.2020年。机器阅读理解任务、评价指标和基准数据集综述应用科学，10（21）：7640。张伯良、吕英、丁宁、沈天豪、贾朝阳、韩坤、凯文·奈特。2021年a.具有领域和任务自适应预训练的混合任务导向对话系统。 arXiv 预印本arXiv：2102.04506。张静，庄一梦，苏银培。2021b的最后一页。TA-MAMC在SemEval-2021任务4：任务适应性预训练和多头注意力的抽象含义阅读理解。第15届语义评估国际研讨会论文集（SemEval-2021），第51-58页，在线。计算语言学协会。郑博远，杨晓宇，阮玉平，凌振华，刘泉，司伟，朱晓丹。2021. SemEval-2021任务4：抽象意义的阅读理解。第15届语义评估国际研讨会论文集（SemEval-2021），第37-50页，在线。计算语言学协会。+v：mala2277获取更多论文7用Clozer大卫·贝克汉姆表达了他对帮助伦敦赢得2012年奥运会申办权的自豪感，尽管他没有被选入英国足球队。一名22岁的男子因涉嫌谋杀而被捕，他已被保释。一头在阿伯丁港下水的牛在救援工作未能将其哄上岸后被射杀。一项慈善机构的调查显示，威尔士的街道被丢弃的烟头所破坏，86%的道路上散落着与这是一个正式的再生区和堤坝房子在哈特尔普尔新建的智能房屋，但他们是少数。威尔士飞人丹·比格说，他正在学习如何应对穿着著名的10号球衣的压力。表A1：从Clozer的两个下游任务中提取的总结中的黄金选择示例中强调在每个例子中，黄色是根据抽象性、不可感知性的第一个定义选择的金色答案，蓝色是根据非特异性对于任务1（ReCAM 1），抽象性遵循不可感知性的定义，即根据心理语言学数据库（Colheart，1981）在物理世界中不能直接感知的任何概念任务2（ReCAM 2）将抽象性定义为非特异性，表示上位词层次中相对较高的名词和动词（Changizi，2008）。表A1中举例说明了两者之间的差异。正如第5.3节所讨论的，与ReCAM 2的概念相比，ReCAM 1选择的抽象概念直观上更难定义，甚至对人类来说也是如此（骄傲，怀疑vs挑选，跟随）。然而，这也表明，在没有任何规则的情况下，我们的Clozer仍然能够掌握最初选择在两个任务中提取抽象单词的基本机制。我们指的是原来的工作（郑等。，2021）构建ReCAM数据集，以了解选择这两个抽象定义的原因。

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

完形填空式阅读理解的性能提升方法: Clozer

最新资源

完形填空式阅读理解的性能提升方法: Clozer

考博英语完形填空、阅读理解、翻译与写作

初中英语完形填空和阅读理解30篇.pdf

使用transformer做完形填空

公务员考试行测分为几个部分

2024考研英语全年规划

2023年6月四级预测

六级词汇书excel版

2000考研英语真题精讲pdf

Mask Transformer

请写一个python代码的完型填空的语言模型。

大学英语四级万能模板pdf

十年英语二真题.rar

chatgpt3.5和4.0有什么区别

excel 单元格文字过长

写一个脚本实现Windows系统自动关机

zemax如何保证无渐晕

zemax如何确定操作数让系统不再有渐晕

使用python写一个KNN算法

Arm Cortex-X3

C++库的thread提示std::invoke未找到匹配的重载函数怎么办

最新资源