没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文利用变形词Mariano Felice、Shiva Taslimipoor和Paula Buttery英国剑桥大学ALTA研究所计算机实验室{mf501,st797,pjb48}@cam.ac.uk摘要本文提出了第一个多目标Transformer模型,用于构建开放式完形填空测试,利用生成和鉴别能力,以提高性能。我们的模型通过调整其损失函数和应用后处理重新排序算法来进一步增强,从而改善整体测试结构。使用自动和人工评估的实验表明,我们的方法可以达到高达82%的准确率,根据experts,优于以前的工作和基线。我们还发布了一系列高质量的开放式完形填空测试,以及示例系统输出和人工注释,可以作为未来的基准。1介绍开放式完形填空(泰勒,1953)是一种常见的练习类型,其中单词从一篇文章中删除,然后必须由学生填写,没有任何选项可供选择。它们通常用于语言学习环境中,作为测试词汇 , 语 法 和 阅 读 理 解 的 快 速 有 效 方 法(Tremblay,2011;Trace,2020)。然而,设计用于语言学习的高质量完形填空是一个费力的过程,涉及到基于功能,距离,答案数量等方 面 找 到 最 佳 的 空 缺 分 布 ( ALTE ,2005;2011)。在本文中,我们提出了一个策略来构建开放式 完 形 填 空 练 习 使 用 Transformer 模 型( Vaswani et al. , 2017 年 ) 。 我 们 的 基 于transformer的架构采用两个目标来预测文本段落中应该空白的单词。我们的主要目标是标准代币分类,我们的目标是最大限度地减少将代币分类为缺口或非缺口的错误。第二个和辅助-ELECTRA(Clark et al. ,2020)模型,该模型在多任务场景中对所描述的两个目标进行了微调。我们的输出旨在模仿第一英语证书(FCE)考试1中的开放式完形填空测试的风格,该考试针对的是欧洲共同语言参考框架(CEFR)中B2水平的英语学习者(欧洲委员会,2001年)。与其他测试不同的是,FCE开放式完形填空任务旨在同时测试学生在这个级别应该知道的语法和词汇的多由于测试是从文本段落创建的,因此必须巧妙地设计它们,以确保遵循指导方针的间隙的最佳图1中显示了一个缩短的示例。我们的系统在两种设置下进行评估:1)自动评估,将生成的差距与测试专家提出的黄金标准差距进行比较,2)人工评估,由测试专家判断生成的差距的质量。我 们 的 主 要 贡 献 如 下 : 1 ) 首 次 将Transformer模型应用于开放式完形填空的生成;2)与以往的研究不同,我们在段落层面上进行了研究,这是一个更具挑战性的任务; 3)我们提出了一种多任务学习方法,它有两个目标:一是将标记分为空白/非空白,另一个目标是最小化重新生成空白词的错误; 4)我们报告了最先进的结果,优于以往的工作和一个强有力的基线,5)我们提出了额外的组件来控制最终完形填空的结构,就像人类专家所做的那样,6)我们执行自动和人工评估,7)我们将我们的测试数据,系统输出和人工注释提供给研究社区2。iary objective是一个基于语言模型的objec,因此,我们试图在预测每个间隙的正确答案时最小化我们的解决方案基于预先训练的1现在称为B2 First:https://www.cambridgeenglish.org/exams-and-tests/first/2数据集见https://github.com/CambridgeALTA/fce-cep-oc。arXiv:2204.07237v1 [cs.CL] 2022年4月+v:mala2277获取更多论文摩托车特技车手我是一名摩托车特技骑手--也就是说,我在表演中骑着摩托车表演特技法国勒芒赛道是(2)我第一次看到一些家伙做摩托车特技。我图1:FCE开放式完形填空测试样本(缩短)。2相关工作虽 然 完 形 填 空 自 动 生 成 的 研 究 是 巨 大 的( Mostow et al. , 2017; Kurdi et al. , 2020;Yang et al. ,2021年),开放式完形填空测试的 语 言 学 习 的 工 作 是 稀 缺 的 。 Pino 等 人(2008)根据四个语言标准:(语法)复杂性、定义明确的上下文(搭配)、语法性和长度,使用学习词典中的例句生成开放式完形填空题他们的系统的后期版本增加了空缺词的提示 ( Pino 和 Eskenazi , 2009 ) 。 Exer-ciseMaker(Malafeev,2014)是一个基于规则的开源系统,它试图根据最常测试的单词来模拟剑桥英语考试中的练习。 它提出的大多数差距被发现是有用的,自动练习很难与真实的测试区分开来。Chinkina等人 (2017)通过从新闻文章中提取句子并生成一对问题和答案来生成短语动词的开放式完形填空练习,其中所识别的粒子动词是空白的。同样,Soonklang等人(2017)根据词性在句子中插入单词,以练习冠词、介词等。最后,Marrese-Taylor等人(2018)使用LSTM构建序列标签和分类模型,决定在单个句子中插入单个缺口的位置。通过对金标准缺口的自动评估,验证了该方法的有效性.其他的工作集中在通过控制建议的空白的各个方面来创建自动化完形填空测试,以便它们与目标水平相关联Lee et al.(2019),例如,操纵C测试的难度(带提示的开放式完形填空测试,Grotjahn et al. (2002)),通过改变间隙的位置和字长来实现。 Settles等人(2020)和 McCarthy等人 提出了类 似的概念。 (2021),尽管使用与CEFR水平相关的机器学习模型预测难度。在这些情况下,测试在测试期间动态地适应考生从不同的角度来看,Felice和Buttery(2019)表明,控制间隙熵对设计不同CEFR水平的开放式完形填空题有一定的参考价值。然而,我们在本文中提出的工作,旨在模拟更复杂的任务,预测一套完整的差距,在段落级别,符合设计和测试的原则,是,据我们所知,第一次采用和适应基于变压器的模型,这项任务。系统评估也具有挑战性,因为文本中通常有一个以上的潜在单词可以构成一个良好的空白。虽然以前的工作经常在自动之间做出选择(Marrese-Taylor et al. ,2018年)或人类评估(Malafeev,2014年; Das和Majumder,2017年)进行实验,我们执行两种评估:自动评估以在开发过程中识别最佳模型,人工评估以衡量最终输出中的测试质量。3模型我们将开放式完形填空定义为预测一组应该在文本中出现空白的标记的任务与以前在句子级别工作的方法不同,我们的模型在段落级别工作(即将全文作为输入),因为我们相信只有当文本作为一个整体而不是逐句处理时,才能最佳地捕获间隙之间的相互作用。给定一个文本段落,我们的目标是预测应该空缺的单词,以创建一个完形填空测试,将可靠地评估学生的能力。该任务被建模为一个有监督的序列标记问题,其中每个标记被分类为一 个 良 好 的 潜 在 差 距 或 没 有 。 我 们 采 用ELECTRA(Clarket al. ,2020),最先进的预训练的基于transformer的语言表示模型之一(Wolf et al. ,2020)。ELECTRA是BERT的扩展(Devlin et al. ,2019),其具有不同的预训练任务,该预训练任务是掩码(而不是生成器)并且旨在检测替换的令牌(而不是生成用于掩码的单词)。我们认为,这种区分目标使其更适合我们的令牌分类任务。此外,我们还利用ELECTRA+v:mala2277获取更多论文| −|能力作为语言模型,用于估计作为辅助任务的建议差距的答案。因此,为了充分利用这个预先训练的模型,我们使用两个训练目标对其进行微调,如图2所示:一个令牌分类目标,旨在最大限度地减少将每个令牌分类为潜在差距或不分类的错误一种语言建模目标,旨在最小化重新生成已中断单词的负对数似然。第一个目标是典型的任何标准到肯分类模型,并构成我们的关键任务。特别是,我们使用ELECTRA我们训练数据中的所有差距都被第一个预期的目标答案替换并标记为阳性,而其余的标记为阴性(A)。第二个也是辅助目标试图用有限数量的答案来模拟我们对空白的偏好,同时也确保可以从上下文中猜出原始单词。这是为了避免产生过于“开放”的空缺,因此是无效的具体来说,我们掩盖了图2:我们基于ELECTRA的多目标系统的架构。该模型同时在两个目标上进行训练:1)标记分类和2)空白词的LM预测。靠近缺口的地方假设g是序列中间隙的位置,则对于在g附近的位置i中的每个标记,即g iD,位置i中的标记的损失函数liJ被定义为:单词的位置被预测为空白的,并使用ELECTRAliJ=liW∗|g −i|(一)head在空格(B).虽然输入层是共享的,但系统的两个分支导致两个目标在多任务设置中并行微调。4扩展我们的基于神经变换器的序列标记模型可以非常有效地提出潜在的好间隙,但是当我们期望输出满足额外的要求时,任务变得更加困难,例如没有重复,没有间隙相互依赖性,间隙之间的最小距离和不同的词汇语法项目选择我们使用两种互补的策略来解决这些问题:损失函数的操作和后处理模块。4.1损失操纵为了在整个文本中均匀分布间隙,我们通过对标记施加更高的惩罚来修改标记模型的标记级损失函数其中W代表惩罚,D是惩罚的最大距离范围。因此,等式1给予更接近间隙的令牌更多的权重,这导致每当它们被错误分类时它们的成本函数的更高惩罚。4.2后处理我们还采用了后处理策略,用更好的选项替换文本中重复的空白。我们通过考虑它们之间的距离以及具有不同词性(PoS)标签的间隙的分布我们的后处理步骤可以被看作是一个重新排名的功能。最初基于模型的置信度分数排名如果选择的n个最佳间隙包括重复,则我们的后处理算法每次随机选择其中一个,并尝试将其替换为[3]我们根据经验将常数D和W的值设为3和3。0分别。12+v:mala2277获取更多论文一个更好的选择 另一个缺口被认为是火车Dev测试如果1)它的答案不是另一个答案的重复,任务35658 36gapped word,2)它与其他选定间隙的距离令牌79,863一万二千七百九十七六千六百二十一满足最小要求距离或更高差距4,565787 360比原始选择的间隙的成对距离更大,以及3)它 改 善 了 间 隙 词 的 PoS 分 布 利 用 Kullback-Leibler(KL)散度将每个新的空位选择的PoS分布假设产生较低KL发散的间隙的组合是更好的解决方案。这些对基本模型的扩展使我们最终的完形填空测试更接近人类专家通过自动控制变量创建的测试,否则需要手动调整。这使得我们的解决方案成为一个完全自动化的系统,可以从输入的文本段落中生成随时可用的完形填空测试。5数据据我们所知,没有公开的全文完形填空测试数据集可用于我们的任务。CLOTH数据集(Xieet al. ,2018),例如,包含为语言学习者设计的空白段落,但它主要关注推理和阅读理解,并使用多项选择题,其中干扰因素起主要作用,使其与我们旨在建模的任务有很大出于这个原因,我们使用了一组由剑桥大学出版社评估(CUP A)提供的B2 CEFR水平的开放式完形填空测试。每个任务由不超过300个标记的文本段落(8到16之间)和以下有效答案列表每个间隙(1到7之间)。在设计过程中,这些任务要经过广泛的质量控制和预测试,所以他们的差距保证是非常有效的评估学生的能力。对于训练,我们通过将每个间隙替换为其第一个答案来重建文本,并将整个集合分为train,dev和test。我们的数据集的详细信息如表1所示。由于缺乏公开可用的数据,我们将我们的测试集与本文一起提供,以便为任务提供一个共同的基准,表1:数据的每个部分中的任务、令牌和差距的数量。6实验6.1设置我们使用预训练的ELECTRA基础判别模型5,具有12个注意力头和12个隐藏层。除了序列中的所有标记,我们还向系统输入依赖解析信息 。 更 具 体 地 说 , 我 们 将 每 个 标 记 的ELECTRA表示与依赖图中其头部的表示连接起来。6在编码层的顶部,我们有两个分支同时学习(图2)。第一个分支是一个简单的线性层,旨在将每个令牌分类为间隙或非间隙。对于第二个分支,我们添加了ELECTRA我们只对预测空白的答案感兴趣。因此,我们通过在训练的每个步骤中屏蔽第一分支预测为间隙的单词来将输入更改为第二分支。我们在每个分支上采用交叉熵损失,并忽略在第二个分支中未被屏蔽的令牌的损失值。整个架构基于两个损失的总和进行更新。微调参数见附录B。6.2基线我们将我们的多目标ELECTRA模型与其他系统进行比较,即:随机基线根据训练数据中有缺口PoS的平均概率分布为每个任务生成一组随机Exercise Maker使用规则和预编译的各种剑桥英语主要套件考试中常见的空白单词列表生成空白(Malafeev,2014)。设置为FCE模式进行实验。以鼓励在这一领域的进一步研究。 所有的使用spaCy v2.3对文本进行标记化和解析4.4https://spacy.io/5https://github.com/huggingface/trans前辈。6.如果记号是头,则重复其表示+v:mala2277获取更多论文类标签描述好好差距是适当的,即。预计在测试期间有效坏太靠近其他间隙这个间隙与另一个间隙非常接近。坏太多可能的答案这个间隙允许太多的答案(通常超过5个)。坏此类间隙太多在语篇中,同一词性或同一测试重点的空白点较多坏答案可以改变意义这个空白可以通过改变文本含义的答案来填补,例如。‘and’ or坏答案可以有不同的PoS这个空白可以用具有不同语法功能的答案来填补,例如。‘which’ or坏差距取决于另一个在这一空白和文本中的另一个空白之间存在某种依赖性坏重复间隙在文本中已经有另一个空白测试同一个词。坏幻象间隙这个差距并不需要一个答案,文本是有意义的。坏不可接受的离群值由于多种原因(例如:不适当的困难)。坏其他(请具体说明)认为该间隙不合适的任何其他原因。表2:人类注释中使用的标签。BERT 使 用 BERT 预 测 潜 在 的 良 好 间 隙( Devlin et al. , 2019 年 ) 用 于 令 牌 分类。我们使用预先训练的基本模型与标准参数和微调的权重,整个架构。标准ELECTRA与BERT类似,它使用标准的预训练ELECTRA基础模型预测潜在的良好间隙。这是一个单目标模型,仅在令牌分类上进行微调随机和练习器都试图按照黄金标准中的定义为每个任务生成相同数量的间隙,尽管这并不总是可能的,因为所需的条件(例如特定单词或PoS)并不总是得到满足。6.3评价我们报告精确度(P),召回率(R)和F1分数的基础上,我们的模型预测的差距和黄金标准之间的严格匹配。虽然这种评估策略看起来很严格,但它具有全自动的优点,从而避免了人为评估所需的主观性和时间,因此我们在开发过程中采用了它除了让模型决定最佳的差距数量,我们还评估系统性能时,我们固定的预测差距的数量为每个任务的差距,他们在黄金标准的数量基于它们的置信度得分来选择n个最佳预测间隙在这在这种情况下,P、R和F1变得相同。我们还报告了来自CUP A的三位测试专家自愿参加这项任务的人体评估。专家们被要求在我们的测试集(总共360个差距)的每个任务中将每个建议的差距标记为好或坏,并为他们的选择提供理由和可选的评论表2显示了注释器可用的标签列表。型号P R F1随机基线15.29 14.87 15.08健身器材23.33 25.79 24.50BERT 51.16 47.65 49.34标准ELECTRA 55.61 46.00 50.35多目标ELECTRA表3:模型7结果和讨论7.1自动评估我们通过在我们的开发集上计算P、R和F1来进行自动评估表3报告了我们的多目标ELECTRA模型(增强了依赖性信息)以及随机基线、Exercise Maker 、 BERT 和 标 准 单 任 务ELECTRA的结果这是我们的基本模型,不包括任何损失操纵或后处理。在该设置中,预测间隙的数量由每个模型基于置信度分数(>0.5为正类)。总的来说,我们观察到性能随着更复杂的模型而增加。运动制造商重新躺在以前看到的差距,所以优于随机基线的大幅度.但是,它只能为预定义的FCE单词列表中的139个单词创建间隙,并丢失不在该列表中的间隙基于神经变换器的模型是最好的,在我们的开发集上,它比Exercise Maker至少有25个F1的尽管我们的多目标ELECTRA模型相对于BERT的改进似乎并不显著,但仅基于P、R和F1,仔细观察结果发现BERT产生了更多的重复间隙(25个,而多目标ELECTRA为9个),以及更多的间隙靠近的情况,如图3所示。+v:mala2277获取更多论文预测间隙数P R F13020100 1 2 3距离图3:间隙对的频率与距离表4:当我们计算预测间隙的数量时,多目标ELECTRA的结果。从0到3。距离是用数字来衡量的在两个有间隙的单词之间。两个间隙之间的最小可接受字数为4。我们还在表3中进行了消融研究,其中我们将我们的多目标ELECTRA模型与不包括我们的辅助语言模型目标的标准模型进行了比较。结果表明,前者在所有指标上都优于后者,证实了LM目标的增加显然是有益的。表4显示了我们的多目标ELECTRA模型的性能,因为我们根据其置信度得分增加了n-最佳间隙列表第一行表示当系统被迫预测与黄金标准中完全相同这使得P和R是相同的。正如我们所料,结果表明,黄金数据中的缺口数实际上是实现最佳F1成绩的最优数。虽然我们的多目标模型在自动评估的基础上表现出了良好的性能,但仔细观察输出结果可以发现,完形填空的结构远非理想,因为它们经常包含彼此过于接近的重复和空白表5显示,当我们添加第4节中提出的扩展时,系统性能有效地提高了,这表明我们的初始模型没有正确地捕获任务的全局方面,需要进一步的操作。为了使我们的输出结构尽可能与目标任务相似,我们将每个任务的预测间隙数量固定为黄金标准中的间隙数量。请注意,P和R在此设置中是相同的,因此我们只报告F1.该决定的影响见表6。我们可以看到,在我们的模型中添加损失操纵将相邻间隙的数量从40减少到23,但增加了重复间隙的数量。[7]每次传代的间隙数可能不同(见附录A)。P R F1多目标ELECTRA+损失操纵47.87 59.8553.19+后处理表5:损失操纵和后处理对我们的多目标ELECTRA模型的影响。从18岁到33岁的空白单词。基于自动评估的限制性F1的下降是不利的,但我们以实现更好的结构化最终测试为代价做出了这种牺牲。在为重复间隙添加后处理之后,我们观察到,尽管整体F1性能略有下降,但重复间隙单词的数量从33个有利地减少到9个(表6)。它还创造了更好的差距传播,如产出的平均PoS分布与黄金标准的平均PoS分布之间的KL发散较小(0. 55后处理,而不是0。59没有它。后处理还删除了开发集中的两种情况,其中间隙不满足最小4字距离值得回顾的是,当我们不限制预测间隙的数量时,这些扩展是非常有效的。表5显示,它们显著提高了R,从而提高了总体F1.作为这些实验的结果,我们在剩下的实验中坚持使用我们的后处理方法,并使用它来生成提交给人类注释的输出。7.2人工评价根据我们的直觉,测试专家可以在我们的系统中找到比最初显示的更多的价值 通过我们的自动评估,我们要求一个由三位测试专家组成的小组来判断由我们的扩展模型在测试集上产生的间隙的质量。注释者之间对间隙分类(好/坏)的一致性被认为是中等的(一致性百分比为75。93%,Randolph的自由边际Kappa值为0。52(Randolph,2005))。伯特多目标ELECTRA纯金54.2654.261056.72 42.801551.49 56.93 54.072044.83 66.073035.63 78.78 49.07+v:mala2277获取更多论文−限制F1重复差距相邻差距多目标ELECTRA54.261840+ 损失操纵51.593323+后处理51.33923表6:添加扩展后的模型分析:损失操纵和后处理。汽车安。1 Ann. 2 Ann. 353.89 82.50 75.83表7:基于测试集的自动和人工评估的扩展多目标ELECTRA模型与自动评估不同,我们只报告人类实验的准确性。使用自动和人工评估的系统性能在表7中进行了比较(针对每个注释器单独报告)。这些结果表明,当输出由人类专家判断时,性能会急剧增加,证实了我们的怀疑,即自动评估低估了性能,并且文本中有许多其他单词可以构成与黄金标准中的单词同样有用的对于人类判断,系统的准确率在75%到82%之间,我们可以得出结论,我们的系统提出的10个差距中至少有7个被我们的专家认为是好的。我们观察到,注释者的判断与金本位之间的差异• 金本位中的非缺口不一定是坏缺口,• 黄金标准的差距来自于试点测试而注释者的差距来自于他们的• 注释者先前的判断可以影响新间隙的判断(例如,选择两个接近间隙中最好的)等。注释器相对于黄金标准的准确度范围在50%-60%之间。根据表2中的分类,我们分析-分析了注释者认为某些空白不好的原因。图4显示了注释者给出的拒绝我们系统提出的间隙的不同原因的平均频率示例见附录C。最常见的原因是违反了两个间隙之间的最小所需距离(42. 43%)。虽然我们的损失操纵法图4:注释者给出的拒绝gap的平均频率。虽然proach成功地减少了这些情况,但我们并没有试图完全消除它们,因为在选择比距离更合适的间隙时,有许多因素在起作用在许多情况下,接近度的差距测试同一短语中的不同单词(例如,参加,除了,等等)。所以我们倾向于保留这些案例,并鼓励注释者评论他们的偏好。相反,代表权的处理要好得多,仅占0。87%的差距。第二个最常见的原因是32. 47%),这通常解释了差距的难度被认为不适合目标熟练程度(在这种情况下为B2)的情况。这是一个有趣的现象,因为文本作为一个整体与给定的CEFR级别相关的事实并不能保证所创建的间隙总是适合该级别。其余的原因比前两个要少得多,而且大多与我们模型中没有明确控制的方面有关,除了第三个最重要的这些结果表明,我们的系统能够捕捉到许多方面的任务,没有明确建模。最后,我们比较了根据注释者黄金标准。发现 所 有 注 释 器 之 间 的 平 均 相 关 性 非 常 弱(Pearson 's r = 0. 0558,斯皮尔曼的ρ = 0。1474)。这表明,自动评分并不是人类感知的良好代表,专家对我们模型的输出更为7.3根据空缺词频预测我们发现,我们的模型不会过度拟合训练数据中最频繁出现空白的单词,空白单词频率之间存在相关性。太靠近其他间隙42岁百分之四十三不可接受的离群值32岁百分之四十七此类间隙太多第六章百分之九十二其他四、百分之七十七差距取决于另一个四、百分之三十二幻象间隙3. 百分之九+v:mala2277获取更多论文园艺这是初夏,一个丰收的季节,我的花园里长得最茂盛。花开了,草长得很快,剪了半个小时后,我似乎又回到了起点。今年我第一次尝试自己种蔬菜,到目前为止,这种尝试被证明是非常成功的。我的蔬菜作物产量丰富,实际上远远超过了我自己的消费能力。我种下种子,然后收获你所种植的东西,给人一种深深的满足感。我相信世界各地的许多医生和心理健康组织现在都认识到园艺对参与这项活动的人的福祉的价值。图5:我们扩展的ELECTRA模型的示例输出。红色阴影越深表示插入间隙的置信度越高。预测差距以黑色框表示,而黄金标准差距以黄色字体表示。POS比例试验PRF1ADP20.59%50.0043.2446.38Adv百分之十四点一七57.6958.8258.25DET百分之十三点八九56.4144.0049.44SCONJ百分之十三点八九59.0978.0067.24AUX百分之十点八三45.8328.2134.92PRON9.44%47.9267.6556.10ADJ4.44%60.0075.0066.67名词3.33%77.7858.3366.67NUM2.78%61.5480.0069.57CCONJ2.50%55.5655.5655.56动词2.22%50.0050.0050.00部分1.67%0.000.000.00INTJ0.28%50.00100.0066.67表8:基于自动评估的测试集PoS性能。并且测试集中的F1分数可以忽略不计(Pear-son 的 r = 0. 0108 , 斯 皮 尔 曼 的 ρ = 0 。0915)。有趣的是,虽然我们的模型无法预测,虽 然 在 训 练 数 据 中 没 有 看 到 dict 间 隙(turned,amount,pushed和started),但它确实预测了单词less的(以前没有看到的)间隙,这不符合黄金标准,但我们的注释器一致认为是好的。7.4PoS预测我们还根据PoS标签8对预测进行了分类,并在表8中报告了性能。在我们的数据集中,这是意料之中的,因为我们的开放式完形填空测试主要侧重于测试语法而不是词汇。然而,最好的预测类是NUM、SCONJ、NOUN、ADJ和INTJ,经过仔细检查,8使用通用扩展标记集:universaldependencies.org/u/pos/非常有限的类:NUM只包括单词one,INTJ只包括单词like,SCONJ只包括一些从属连词,而NOUN和ADJ尽管是开放类,但仅限于常见结构中使用的单词,如order(为了)或same(相同)。表现最差的两个类是PART(助词to和not)和AUX(助动词),我们再一次推测,这些词在语言中非常常见,并且在无间隙的位置,模型无法在大多数时候正确处理它们其余的PoS类在性能上有所不同,但我们发现测试集中的PoS缺口频率与F1分数之间仅存在非常弱的相关性(Pearson 's r = 0. 1932年,斯皮尔曼的ρ = 0。1350)。然而,当我们在测试集上查看人类注释时,PoS的性能始终更高,并且更均匀。如果我们要求间隙被至少两个注释者评为在这些 条件下,表现 最好的类是NOUN(100%),INTJ(100%)和ADJ(95%),它们与自动评估一致其中,只有NOUN在所有注释器中达到了完美的准确性。表现最差的类是PRON(77%)、NUM(77%)和VERB(75%)与之前的AUX和PART对比(现在分别为79%和83%当我们要求所有注释者都同意时,最差的整体类是CCONJ,只有44%。7.5定性分析图5显示了我们的模型对一个示例文本段落的输出,其中较深的红色表示插入间隙的置信度较高最终的模型+v:mala2277获取更多论文−预测有一个黑色的框架(at,in,so,after等)而黄金标准间隙是黄色字体(at、in、so等)。在该示例中,11个间隙中有8个匹配间隙,得到72个。准确率73%。如图所示,我们的模型能够识别适当的差距候选者,即使它们不符合黄金标准。事实上,注释者认为这个例子中所有的unmatchedgap(after、for和take)都是好的,而第二个matched gap(in)是不合适的。同样有趣的是,该模型如何优先考虑功能词和内容词,这些词在上下文中受到高度限制(例如take或part),巧妙地避免了可能接受多个答案的一般差距,并且对于测试目的来说效率较低。8结论和今后的工作我们描述了第一个基于transformer的开放式完形填空生成方法。我们基于ELECTRA的模型基于两个目标进行训练:标记分类(缺口/非缺口)和语言建模(用于预测预期答案)。通过对损失函数的处理和对结果的后处理,进一步改进了模型使用自动评估的系统准确度为53。89%,而人类的评估范围在75%-82%之间,这表明专家认为预测的10个差距中至少有7个是有用的。对结果进行了详细的分析,近距离的差距和不适当的困难等问题,我们计划在今后的工作中加以解决我们的测试数据和人工注释与本文一起发布。确认作者非常感谢来自CUP A的Louise Gilbert,Sally Moore和Clare Williams的注释。本文报道了由剑桥大学出版社评估,剑桥大学支持的研究。引用Maria Chinkina,Simon Ruiz,and Detmar Meurers.2017. 自动生成问题以支持获得粒子动词:通过众包进行。在变化的气候中打电话:适应动荡的全球条件-来自EUROCALL 2017的Kevin Clark,Minh-Thang Luong,Quoc V. Le,andChristopher D.曼宁2020. ELECTRA:将文本编码器作为判别器进行预训练比发电机。在国际学习代表上。欧洲委员会。2001. 欧洲语言共同参考框架:学习,教学,评估.剑桥大学出版社,剑桥.Bidyut Das和Mukta Majumder。2017.用于评估学习者知识的事实性开放式完形填空题生成国际高等教育教育技术杂志,14:1Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2019. BERT:语言理解的深度双向转换器的预训练。 在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),第4171-4186页,明尼阿波利斯,明尼苏达州。计算语言学协会。马里亚诺·菲利斯和宝拉·巴特里2019. 开放式完形填空中信息熵对空白复杂度的表征。在自然语言处理最新进展国际会议(RANLP 2019)上,第323-327页INCOMA Ltd.Rüdiger Grotjahn , Christine Klein-Braley , andUlrich Raatz. 2002. C测试:概述。摘自James ACole- man , Rüdiger Grotjahn , and UlrichRaatz,editors,University language learning andthe C-Test , pages 93AKS-Verlag , Bochum ,Germany.Ghader Kurdi、Jared Leo、Bijan Parsia、Uli Sattler和Salam Al-Emari。2020年。教育用系统综述.I. J. Artificial Intelligence in Education , 30(1):121- 204.Ji-Ung Lee,Erik Schwan,and Christian M.迈耶。2019. 操纵C测试的难度。在计算语言学协会第57届年会上,第360-370页,意大利佛罗伦萨。计算语言学协会。阿列克谢·马拉费耶夫2014. 语言练习生成:模拟剑桥开放式完形填空。Int. J.概念。结构智能应用,2(2):20Edison Marrese-Taylor , Ai Nakajima , YutakaMatsuo,and Ono Yuichi. 2018. 学习自动生成填空题。第五届自然语言处理技术教育应用研讨会论文集,第152-156页,澳大利亚墨尔本。计算语言学协会。艾莉亚·D作者:Kevin P.作者:Geoff T.LaFlair,Jesse Egbert , Manqian Liao , and Burr Settles.2021. 自适应语言测试的启动项目参数。在2021年自然语言处理经验方法上,+v:mala2277获取更多论文第883-899页,在线和蓬塔卡纳,多米尼加共和国。计算语言学协会。Jack Mostow,Yi-Ting Huang,Hyeju Jang,AndersWe-instein , Joe Valeri , and Donna Gates.2017.开发、评估和改进一个诊断性多项选择完形填空 题 的 自 动 生 成 器 , 以 评 估 儿 童 NaturalLanguage Engineering,23(2):245欧洲语言测试者协会(ALTE)。2005. 供供试品编写者。技术报告,欧洲语言测试者协会欧洲语言测试者协会(ALTE)。2011. 语言测试开发和测试手册。技术报告,欧洲语言测试者协会。胡安·皮诺和玛克辛·埃斯肯纳齐2009. 开放式完形填空中提示水平的测量。在第二十二届国际佛罗里达人工智能研究学会会议(FLAIRS),Sanibel Island,佛罗里达州,美国。Press.胡安·皮诺迈克尔·海尔曼和玛克辛·埃斯肯纳齐2008.提高完形填空题质量的选择策略。智能辅导系统的定义不明确的领域:评估和反馈不明确的领域,第22页。贾斯特斯·J·伦道夫2005.自由边缘多评价者kappa(multirater k [free]):fleiss固定边缘多评价者kappa的替代方案。在线提交。放大图片作者:Geoffrey T.拉弗莱尔和原正人。2020. 机器《计算语言学协会汇刊》,8:247Tasanawan Soonklang 、 Sunee Pongpinigpinyo 、Weenawadee Muangon 和 Sirak Kaewjamnong 。2017. 自动问题一代为中学生提供英语练习系统。在第25届国际计算机教育会议(ICCE2017)上,第890-895页,新西兰。亚太计算机教育学会。威尔逊·泰勒。1953. “cloze procedure”: A new toolJournalism quarterly,30(4):415-433.乔纳森·崔思。2020. 填补空白:完形填空题有多远?LanguageTesting,37(2):235- 253.安妮·特朗布莱。2011.第二语言习得研究中的水平评估标准:“封闭”的差距。Studies in SecondLanguage Acquisition,33(3):339Ashish Vaswani , Noam Shazeer , Niki Parmar ,Jakob Uszkoreit,Llion Jones,Aidan N Gomez,Jakukasz Kaiser,and Illia Polosukhin. 2017. 注意力就是你所需要的。在重症居永V. Luxburg,S.本吉奥,H. 瓦拉赫河Fergus,S.Vishwanathan和R.Garnett编辑,神经信息处理系统进展(NIPS)30,第5998-6008页。Cur-ran Associates,Inc.Thomas Wolf , Lysandre Debut , Victor Sanh ,Julien Chaumond , Clement Delangue , AnthonyMoi,Pier- ric Ciudad,Tim Rault,Remi Louf,MorganFuntow-icz , JoeDavison , SamShleifer,Patrick von Platen,Clara Ma,YacineJernite , Julien Plu , Canwen Xu , Teven LeScao , Sylvain Gugger , Mariama Drame ,Quentin Lhoest , and Alexander Rush. 2020.transans-formers:最先进的自然语言处理。在2020年自然语言处理中的Em-pesticide方法会议论文集:系统演示,第38-45页,在线。计算语言学协会。谢启哲,赖国坤,戴梓航,爱德华·霍维。2018. 教师制作的大规模完形填空测试数据集。2018年自然语言处理经验方法集,第2344-2356页,比利时布鲁塞尔。计算语言学协会。艾伯特C. M.作者:Yang ,Irene Y. L.陈,布兰登·弗拉纳根,绪方宏明. 2021. 自动生成完形填空 题 以 提 高 阅 读 理 解 能 力 。 EducationalTechnology Society,24(3):147+v:mala2277获取更多论文A数据集组成缺口数量火车Dev测试84009392910712
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功