构建自然语言理解基准：众包多项选择阅读理解问题的研究和发现

108 浏览量更新于2023-12-01 收藏 1.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文是什么让阅读理解问题变得困难？Sugawara Saku，1Nikita Nangia，2Alex Warstadt，2Samuel R.鲍曼21纽约大学国家信息学研究所2saku@nii.ac.jp，{nikitanangia，warstadt，bowman}@nyu.edu摘要对于在研究中有用的自然语言理解基准，它必须包含足够多样和困难的示例，以区分当前和不久的将来的最先进的系统。然而，我们还不知道如何最好地选择文本源来收集各种各样的示例。在这项研究中，我们众包多项选择阅读理解问题的段落，从七个质量不同的来源，分析是什么文章的属性有助于困难和问题类型的收集的例子。令我们惊讶的是，我们发现通道的来源，长度和可读性的措施并没有显着影响问题的难度。通过对七种推理类型的人工标注，我们观察到了篇章来源与推理类型之间的几种趋势，在为技术文章而写的问题中，逻辑推理往往是需要的。这些结果表明，当创建一个新的基准数据集时，选择一组不同的段落可以帮助确保不同的问题类型，但段落难度不需要优先考虑。1介绍最先进的系统已经在许多最近的自然语言理解（NLU）数据集上显示出与人类相当的性能（Devlinet al. ，2019; Sun et al. ，2021年），这表明这些基准将不再能够衡量未来的进展。为了超越这一点，我们需要找到更好的方法来构建困难的数据集，理想情况下不牺牲多样性或覆盖率（Bowman和Dahl，2021）。为了大规模地获得这样的人类书写的示例，存在关于工人处理和反馈的协议的众包研究的活跃线路（Nangia et al. ，2021）和收集任务的设计（宁等。，2020; Rogers et al. ，2020）。然而，我们没有明确的ReClor：撇开人道主义考虑不谈，纯粹的经济学要求X国应该像Y国那样，建立一个全国性的空中和地面运输系统，将严重受伤的人运送到专门的创伤中心。及时获得只有专业中心才能提供的医疗服务可以挽救许多人的生命。【......】问：什么是经济论据支持的想法，一个运输系统，整个国家的X？建设交通系统为当地人创造了CQInc.放宽了进入专业医疗中心的条件，降低劳动人口死亡Q交通票价直接贡献政府收入Y国成功地尝试了潜在的拯救生命，因此X国也应该尝试一下托尼生日那天从学校走回家。他惊讶地看到他家门前有很多汽车。当他打开门进入房子时，他听到很多人大喊：“惊喜！”这是为他的生日举行的一个惊喜聚会。他的父母打电话给他所有朋友【......】问：谁被邀请参加聚会？谁邀请的？托尼的父母只邀请了他的托尼邀请了他的朋友和他们的父母托尼的父母邀请了托尼的父母邀请了他的朋友和他们的图1：简单叙述（MCTest）和技术论证（ReClor）段落的示例问题。关于文本来源的哪些方面影响示例的难度和多样性的信息。阅读障碍中的众包数据集使用从各种来源获取的段落，例如新闻文章，考试和博客，关于这些问题的写作（Lai et al. ，2017; Trischler etal. ，2017; Rogers et al. ，2020）。图1中的第一个示例来自MCTest（Richard-son et al. ，2013年），其中的段落是用小学水平的英语写的。第二个例子来自 ReClor （ Yu et al. ，2020），其中包括为研究生和法学院入学考试撰写的段落和问题。我们假设困难的段落，如第二个例子中的段落，更适合众包挑战问题。从语言学角度来说arXiv：2203.06342v1 [cs.CL] 2022年3月+v：mala2277获取更多论文复杂的和密集的信息可以帮助促进问题的写作，这些问题需要理解广泛的语言和世界知识，遵循复杂的事件，并遵循逻辑论点。相比之下，简单的段落，如儿童在这项工作中，我们众包多项选择阅读理解问题，分析问题的难度和类型是如何影响的选择源通道。使用从七个不同来源中提取的段落我们计算人类和机器准确度之间的差异，将其作为问题难度的衡量标准，以调查问题难度与文章的语言方面（如来源、长度和可读性）之间是否存在相关性除了我们直接接受众工提交的标准设置之外，我们还使用了一个对抗性设置，在这个设置中，他们必须编写欺骗强大阅读理解模型的问题（Bartoloet al. ，2020; Kiela et al. ，2021年）。先前的工作发现，需要数值推理的问题经常出现在维基百科文章的提取QA任务的对抗性数据收集中（Kaushik et al. ，2021年），但我们的目的是看看我们是否观察到类似的趋势，在多项选择题写不同的通行证来源，或者如果对抗设置是有用的收集特别多样化的问题。出乎意料的是，我们发现收集题的难度并不取决于篇章在语言方面的差异，如篇章来源、篇章长度、 Flesch-Kincaid 等级（ Kincaid etal. ，1975），句法和词汇的惊喜，回答所用的时间，以及文章中的我们主要的积极发现来自我们对每个问题所针对的推理类型的手动注释，我们观察到需要数字推理和逻辑推理的问题相对困难。此外，我们发现了几个趋势之间的通道来源和推理类型。例如，逻辑推理在为技术性段落写的问题中更常见，而对给定段落的完形和作者对它的态度的理解而不是短暂的旅行。这些结果表明，当创建新的基准数据集或选择一个用于评估NLU系统时，选择不同的通道集可以帮助确保不同的问题类型，但通道难度不一定是优先级。我们收集的数据集可以用于训练阅读理解模型，并进一步分析在回答具有挑战性的多项选择题时所需的知识和理解类型。12相关工作众包NLU数据集众包已被广泛用于大规模收集人类书写的示例（Rajpurkar et al. ，2016;Trischleret al. ，2017年）。众包工作者通常被要求写关于给定文本的问题，有时施加限制以获得需要特定推理技能的问题，例如多跳推理（Yang et al. ，2018）或理解时间顺序、共指或因果关系（Rogers et al. ，2020）。在本研究中，为了分析自然书写的例子，我们不考虑对问题或答案选项的具体限制。目前通过众包构建的基准数据集可能质量不够来精确评估人类水平的NLU。例如，Ribeiro等人（2020）揭示了传统NLP基准中的最先进模型无法通过语言能力的简单行为测试（检查表）。 Chen和Durrett（2019）和Min等人（2019）表明，多跳推理数据集中的问题，如Yang等人的HotpotQA。（2018）不一定需要跨多个段落的多跳推理。为了研究如何通过众包收集高质量的挑战性问题，Nangia等人（2021）比较了不同的采购协议，发现培训工人并提供关于他们提交的反馈可以提高他们阅读理解问题的难度和质量。为了鼓励工作人员编写困难的示例，Bartolo等人（2020）建议使用模型在环设置收集问题。虽然这种对抗性的方法使我们能够有效地收集挑战性问题，加德纳等人。（2020）指出，收集的例子可能是双-1我们的数据集，注释说明和结果，以及众包脚本可在https：//github上获得。com/nii-cl/qa-text-source-comparison.+v：mala2277获取更多论文针对对手模型的怪癖。 Bowman 和 Dahl（2021）扩展了这一论点，并指出对抗性方法可以系统地消除对某些现象的覆盖。这也得到了Kaushik等人的支持。（2021），但他们的发现仅限于维基百科文章的提取QA。我们的动机是看看这个论点是否适用于具有广泛段落来源的多项选择，我们期望众工编写语言多样的问题和答案选项。NLU数据集的来源阅读识别数据集通常由有限数量的通道源构成。Rajpurkar等人（2016）从维基百科PageRank的前10，000篇文章中抽取了大约 500 篇文章。同样， Dua 等人（2019）从维基百科文章中挑选了包含数值的段落，以收集数学和符号推理的问题。Khashabi等人（2018）构建了一个数据集，其中为各种段落来源（如新闻文章，科学教科书和叙述）编写了问题。然而，我们不能使用他们的问题来分析自然书写问题的变化，因为他们被设计成通过过滤掉仅用单句回答的问题来要求局部多句推理（如共指消解和释义）与我们的工作类似， Sugawara et al.（2017）发现可读性指标和问题难度在阅读理解数据集中不相关我们的研究在以下两点上有所不同，这可能会导致不同的发现：首先，他们对现有数据集的观察研究具有基本的混杂因素，因为他们检查的问题是使用不同的来源方法构建的（例如，自动生成、专家写作和众包），这可能会对问题难度产生影响。我们的目标是调查均匀众包的例子在七个不同的来源，以获得见解，为未来的数据建设研究使用众包。其次，他们仅使用人类注释来定义问题难度，但这并不一定反映当前最先进模型的难度。在这项研究中，我们使用八个最近的强模型将问题难度定义为Fisch等人（2019年）提出一项共同任务，包括-不同的域内和域外数据集。然而，它们以不同的任务格式和来源方法组合数据集，这使我们无法单独比较不同段落来源的问题。相比之下，我们的重点是比较众包收集的相同任务格式的问题，以分析当前最先进的模型的问题难度我们采用多项选择的格式，因为正如黄等人所讨论的那样. （2019），它使我们能够轻松评估人类和机器的性能。3众包任务本研究旨在分析什么样的短文会使众包阅读理解试题变得困难。我们使用 AmazonMechanical Turk。为了收集高难度和高质量的示例，我们要求众包工作者在接受我们的问题编写和验证任务之前进行资格测试。3.1工人资格资格考试有两个部分，我们在不同的任务中运行：问答和写作。要参加资格测试，工人必须满足以下最低资格：总部设在美国，加拿大或英国，批准率至少为98%，并且至少有1,000个批准的任务。问题回答任务用于识别认真回答阅读理解问题的单个问题回答任务具有从ReClor的验证集中随机抽样的五个问题，其中大多数问题取自实际考试。那些正确回答了五个问题中至少四个的人将进入下一个资格认证阶段。问题写作任务用于熟悉阅读理解多项选择题的写作，并选择能够认真写例子的人我们要求工人写两个问题，给出两个不同的段落，从RACE的验证集中随机抽样（Lai et al. ，2017年）。该数据集由为各种科目的初中和高中考试编写的自包含的段落组成，我们希望工作人员能够轻松地编写问题。根据Nangia et al.（2021年），然后我们审查工人的提交，并使用具有四个标准的规则对它们进行评分：问题（1）可以回答而没有歧义（是或否）;（2）要求+v：mala2277获取更多论文阅读全文（5分制）;（3）具有创造性和非显而易见性（5分制）;(4)有干扰答案，可能看起来正确的人谁没有仔细阅读文章（不止一个，一个，或没有）。我们使用这个规则对工人进行排名，并允许大约前50%的工人继续进行主要的写作任务。我们确保这些工人写两个明确的和可回答的问题。3.2写作任务在主要的写作任务中，一个工人被要求写一个关于以下内容的问题它与四个答案选项。我们提供的说明中，我们描述了问题必须具有挑战性，但仍然可以回答，并且对人类来说是不可侵犯的，我们包括好的和坏的例子来说明我们旨在收集什么样的问题。例如，好的例子要求阅读整篇文章，并询问人物的动机或所描述事件的后果，而坏的例子只问一个简单的事实或无需阅读文章即可每个通过资格审查的工人被随机分配到标准或adversar- ial数据收集。在标准集合中，我们接受工人在对抗收集中，书面问题立即发送到阅读理解模型如果模型不能正确回答这个问题，我们接受它。我们允许工人提交问题（即，获得报酬），即使他们一直未能欺骗模型。我们使用UnifiedQA 3B v2（Khashabi etal. ，2020），其在各种各样的问题回答数据集上进行训练，例如MCTest、RACE、Narrativ eQA （ K o cKazakhstanetal. ， 2018 ）和SQuAD。虽然我们在模型中使用的训练数据的来源将不可避免地影响我们的发现，但专注于具有非常多样化的预训练和微调的模型将最大限度地减少这种影响。文章来源我们使用以下七个来源的文章：（1）MCTest儿童我们使用培训MCTest 、 RACE 和 ReClor 的集合对于Gutenberg、Slate和Wikipedia，我们将可用的书籍和文章分成段落。详情见附录A。在写作任务中，从段落池中随机抽取段落，其中从每个来源提取的段落数量相同。3.3验证任务我们收集五名工人对每个收集到的问题的投票通过资格认证环节问答任务的员工可以接受验证任务。为了激励工人，我们使用预先存在的黄金标记的例子（来自Nangia等人，，2021年）作为捕捉试验，代表约10%的任务，并支付0.50美元的奖金，如果工人可以正确回答这些问题至少80%的时间。如果一个工人在至少60%的时间内没有回答这些问题，我们将取消该工人在未来几轮数据收集中的资格。对于写作任务，基本工资是每个问题2.00美元，我们估计大约是每小时15.00美元，这是基于我们的试点运行的测量如果一个工人在对抗性数据收集中欺骗了模型，他们将获得1.00美元的额外奖金。对于验证，由五个问题组成的单个任务支付2美元，我们估计也是4众包结果4.1数据集构建我们总共收集了4，340个问题，七个来源中每个来源有620个，进一步分为标准和对抗方法各310个每段文章只配一个问题。我们从五个验证投票中随机抽取两个来验证收集到的示例，并使用剩余的三个投票来衡量人类的表现。在验证中，如果两个投票中至少有一个与作者的黄金答案相同，则我们认为问题有效。如果两个投票都与黄金答案相同，则该问题被视为高一致性示例。我们发现，90.3%的收集问题是有效的（92.0%的标准收集和88.7%的对抗收集）。此外，65.7%的收集问题被归类为高一致性（标准和对抗收集分别为68.7%和62.7%我们在附录B和C中展示了数据集和工人统计数据。+v：mala2277获取更多论文所有有效示例源法人类UNIQADeBERTaM-平均值∆人类UNIQADeBERTaM-平均值∆MCTest Dir.89.168.384.578.111.095.071.588.281.513.5Adv.93.626.575.366.627.196.527.978.668.228.3总91.447.479.972.319.095.849.383.374.721.1古腾堡 Dir.85.270.784.579.95.392.875.088.583.49.4Adv.83.026.480.169.713.387.528.382.672.914.6总84.148.882.374.89.390.353.185.778.411.9石板路84.972.488.984.10.890.774.691.787.03.8Adv.82.626.071.769.413.292.927.976.073.819.1总83.849.880.577.06.891.852.684.380.811.0RACE Dir.91.270.485.080.810.395.474.890.484.610.8ReClor Dir.94.172.688.580.613.596.979.691.184.412.5Adv.83.929.271.566.317.688.832.474.571.317.5总89.251.780.473.715.593.258.183.578.514.8Wiki. Sci. Dir.90.675.990.683.27.395.879.094.987.38.5Wiki.艺术总监88.376.288.784.24.191.577.092.588.13.4Adv.83.325.573.869.413.991.425.875.871.719.7总85.851.281.376.98.991.552.384.580.211.2所有来源Dir。89.072.487.281.67.594.075.991.085.28.8Adv.85.727.173.867.418.392.029.076.970.521.5总87.450.280.774.612.893.153.684.378.214.9表1：人类和模型的准确度以及人类准确度与八种不同模型的平均零射击性能（M-avg.）之间的差异所有有效问题和高一致性部分。最高和最低差距以粗体和下划线突出显示。这些问题是众包的（Adv. ）和（不）。对抗性反馈。UniQA是UnifiedQA 3B模型在对抗性数据收集中的零射击性能。DeBERTa是在RACE上微调的xlarge模型的性能。4.2人类表现表1显示了人体和模型性能。我们使用在上面的验证步骤中使用五分之二的人类投票进行验证的问题，并采取剩余三票的多数票来衡量人类在这些问题上的表现我们观察到在有效和高一致性问题中，标准和对抗收集之间的差距分别为3.3%和2.0%4.3机器性能为了建立不偏向单个模型的模型性能，我们计算平均精度（M-avg. ）的八个不同的模型从以下两个类：RoBERTa大（四个模型与不同的随机种子;刘等. ，2019）和DeBERTa large和xlarge （ v2; He et al. ， 2021）或微调 MNLI（威廉姆斯等人。2018年，第一次或第一次。RoBERTA和DeBERTA车型都在RACE上进行在这些模型中，DeBERTa xlarge（MNLI微调）在RACE上表现最好准确率达到86.8%。由于UnifiedQA 3B（在RACE上为72.3%）用于对抗性数据收集，因此它在对抗性问题上的准确性较低（不包括在平均值中这两个模型的性能在表1中示出以供比较。除非另有说明，否则我们不会在任何收集的问题上训练模型。对于每个数据集，我们以留一的方式评估在目标数据集以外的数据集上训练的DeBERTa大型性能我们的动机是看看准确度值是否通过训练显著提高（即，人类模型的如果有很大的增益，这意味着数据集在模型可以利用的示例中具有简单的模式结果显示，在对抗数据集中没有显著的增益，但标准数据集显示了一些小的增益（附录D）。部分输入性能正如Kaushik和Lipton（2018）指出的那样，阅读理解数据集可能具有注释工件，Adv.89.428.969.465.024.494.331.073.867.327.0总90.350.077.373.117.394.953.382.276.118.8Adv.84.327.475.265.618.892.829.477.268.324.5总87.552.183.074.612.994.456.386.878.615.8+v：mala2277获取更多论文±≥≤0.0060.0040.0020.080.060.040.021.51.00.50.0000100200300400500600 700段落长度（字数）0.000 20 40 60Flesch-Kincaid grade level0.01 2 3 4 5 6惊喜0.01000.00750.00500.00250.00150.00100.00050.00040.00030.00020.00010.00000 100200300400500600回答问题所用时间0.00000 1000 2000 30004000撰写问题所用时间0.00000 200040006000800010000平均词频图二：文章长度，Flesch-Kincaid等级，句法和词汇的语法，问答和写作所用的时间，以及简单和困难例子中文章的平均词频。模型回答问题没有段落或疑问句。为了研究我们收集的示例中的这些伪影，我们评估了两个DeBERTa 模型（在 MNLI 上微调的 xlarge 和large）的性能，这两个模型比其他模型更强，问题（P+A），段落（Q+A）以及问题和段落（仅A）的消融。我们看到DeBERTa xlarge的零次发射率大幅下降。此外，我们没有观察到一个显着的性能改善的监督性能的DeBERTa大（MNLI微调）。这些结果表明，所收集的问题和答案选项对于任何段落来源都没有严重的注释伪影（附录E）。4.4Human–Model Performance根据Nangia et al. （2021）中，我们计算人类和平均模型准确度之间的人类-模型性能差距（ human-model performance gap ，简称PEG），以估计模型的问题难度。我们观察到在高一致性问题中不同通道来源的间隙有很小的变化（ε = 14）。九点三。（六）。我们发现，在高一致性部分中，MCTest问题的人类表现最高，Gutenberg的表现最低令人惊讶的是，来自MCTest的问题，由简单的叙述段落组成，在所有来源的高一致性问题中显示出最大的差距虽然ReClor由研究生水平考试的段落组成，但它产生的间隙比RACE小，RACE由初中和高中英语考试的段落组成。古腾堡的段落是为成年人写的，但为成年人写的例子这些传代没有显示出比MCTest传代更大的间隙。我们发现人类表现的一个趋势：容易阅读的来源的问题（例如，MCTest和RACE）显示出更高的准确性，而那些难以读取的源（例如，Gutenberg和Slate）显示较低，但在机器性能或人机性能差距中均未观察到这种趋势这些观察结果与我们在导言中的最初预期不一致。5语言分析我们分析了收集的例子的语言方面如何与实验中计算的人类模型性能差距相关。为了更好地估计人类的表现，我们使用高一致性的例子（Nie et al. ，2020）。为了便于比较，我们将这些示例分为两个子集：容易（> 20%）和硬（约40%）。这些子集分别有1，970和547个例子。附录F提供了在文章来源和收集方法中容易和困难的例子的频率5.1可读性测量我们计算人类模型性能差距与所有有效示例的可读性度量之间的相关性（Pearson的r和p值）以及关于度量的容易子集和困难子集的分布之间的独立性（Welch t检验中的图2显示了容易和困难子集的密度分布，而附录G至L提供了所有有效示例的图段落长度我们使用字数（标点符号除外）作为段落长度（顶部容易硬容易硬语法简单语法难词汇易词汇困难的容易硬容易硬密度容易硬密度密度密度密度密度+v：mala2277获取更多论文−−−（图2）。在所有示例中，我们观察到r= 0。01（p= 0. （全文见附录G）。t检验显示p=0。51.文章长度与问题难度之间没有明显关系。我们还在附录H中分析了问题和选项长度。Flesch-Kincaid Grade Level 我们使用 Flesch-Kincaid Grade Level （ Kincaid et al. ， 1975年）作为文本可读性的基本度量标准（（a）简单问题（b）难题图2）。该指标基于近似的美国等级水平定义可读性，没有上限（越高越难阅读）。它是用一个句子中出现的平均单词数和一个单词中的平均音节数来计算的（附录I）。成绩与人模成绩差距的相关性为r = 0。08（p<0. 05）。001），t检验显示p <0. 001. 这个结果表明，段落可读性对问题难度有一个小的负面影响，也许指向一个干扰效应，即我们的预先合格的人类注释者更容易在更复杂的段落上犯错误。语法和词汇的惊喜Flesch-Kincaid 为了更好地估计人类文本处理的心理语言学建模方面的段落难度，我们使用了句法和词汇的语义测量（Roark et al. ，2009）。这些措施计算使用递增的心理分析，并证明是有用的预测人类阅读时间。我们观察到r= 0。000（p= 0. 99）对于句法上的不确定性和r= 0。007（p= 0. 66）在所有示例中进行词汇学习。我们没有观察到容易和困难子集之间的任何统计学显著差异（同义词p= 0. 52和词汇p= 0。t检验中为57;见图2右上角）。附录J描述了计算的细节。受文本复杂性的心理语言学研究（Gibson，1998;Lapata，2006）的启发，我们测量了在验证任务中人群工作者回答问题所花费的平均时间（见图2左下角）。这测量了阅读给定段落和思考其问题所花费的时间，该时间被用作阅读时间的近似值（作为文本可读性的代理）。相关系数（r= 0. 06、p<0 001）和t检验（p=0. 88）显示只有一个小的负向-图3：（a）简单和（b）困难示例中的疑问词及其后面的两个词。问题的难度。我们还测量了书写问题所用的时间作为参考（图2和附录K中的底部中心），观察到没有强相关性（r = 0. 02，p= 0。27）。根据Chen和Meur-ers（2016），我们分析了词频对文本可读性的影响。使用SUBTLEXus中每一百万个单词的词频（Brysbaert和New，2009），我们计算出单词在段落中出现的平均频率，作为衡量段落词汇难度的指标（平均频率越低，难度越大通过t检验p = 0，我们未观察到任何统计学显著差异。14（图2中右下角）或Pearson 's r = 0。02，p= 0。27（附录L）。我们观察到类似的趋势，甚至当使用人类的表现作为难度测量（Ap-penetrationN）。5.2问题类型我们在这一节中分析了文章来源和收集方法对问题类型的影响。问题词我们自动提取每个有效问题中出现的第一个wh-词;如果没有提取wh图3绘制了简单和困难问题中的问题词及其后面的两个词（除冠词外）从这一点上，我们观察到，困难的问题是通用的，而不是特定于给定的段落（例如，下列哪一项是正确的？）比简单的问题更频繁。这可能是由于标准和对抗性数据收集之间的差异造成的。对抗性集合中的工作者有更简单的为什么和如何的问题）。我们也注意到被约翰+v：mala2277获取更多论文4035302520151050真实性非事实仿真陈述完形/态度数字空间/时间逻辑详细结果见附录M。图4显示了不同问题难度的理解类型的频率（676个简单，172个困难）和收集方法。我们发现868个问题有一个标签，110个有两个标签，两个有三个标签。我们可以看到，在两种收集方法中，数字、空间/时间和逻辑问题更经常出现在困难子集第二章观察整个宇宙的频率理解类型图4：每种收集方法的简单和困难示例中理解类型的频率。真实性仿真陈述非拟事实完形/态度数字空间/时间逻辑MCTest-DirMCTest-AdvMCTest-All Guten.-你好晚安所有Slate-DirSlate-AdvSlate-AllRACE-DirRACE-AdvRACE-AllReClor-DirReClor-AdvReClor-AllW.科学DirW.科学W.科学所有W。艺术总监W.艺术-高级W.艺术-所有-所有方向所有高级所有高级0 20 40 60 80 100 120频率（%）图5：不同段落来源和收集方法的理解类型的频率。因为一个问题可以有多个标签，所以频率之和可能超过100%。困难子集有多少个问题。这可能是由于这样一个事实，即它很容易为一个- notators了解，数字问题往往愚弄对手的模型。这些观察结果表明，对抗性数据收集倾向于将问题的分布集中在少数特定的问题类型上（例如，通用和数字）。这与Kaushik等人的观察结果一致。（2021年）。详见附录M。理解类型遵循 Bartolo 等人。（ 2020 ）和Williams et al. （2020），我们分析了回答收集的问题需要什么样的理解。我们总共抽取了980个高一致性问题，每个段落来源和收集方法中有70个，然后用一个或多个七种表达类型的标签手动注释它们这些类型的定义，示例，在图5中的段落源中，我们发现源和隐藏类型之间存在如下的一些趋势：• 技术文档，例如研究生水平阅读理解考试中使用的文档，往往会产生逻辑推理问题（例如，ReClor和Slate）。• 儿童水平的文本往往会在标准设置中产生数字推理问题（例如， MCTest 和RACE）。在对抗性环境中，包含许多数值的段落往往会产生这样的问题（例如，MCTest和Wikipedia arts）。• 收集完形问题或考虑作者在给定段落中的态度的问题Gutenberg、Slate和ReClor）是合适的。相比之下，像维基百科文章这样的简短段落就不是了。• 叙述和相关文本（例如， MCTest 、Gutenberg和RACE的一部分）涉及带有字符的事件，这些事件往往会产生空间/时间推理问题。尽管我们对理解类型的定义很粗略，而且这些趋势并不能确保特定类型的文章总是产生目标理解类型，但考虑文章来源可能是收集预期理解类型问题的有效策略。为此目的的对抗性数据收集可能没有用，因为它可能会鼓励工作人员专注于只写几种特定类型的问题（例如，数字）。6结论为了使NLU基准有用，它必须包含语言多样的示例，[2]相反，当我们使用人类的平均表现作为问题难度的衡量标准时，没有哪种理解类型比其他类型更难（附录N）。Dir-easyDir-hardAdv-easyAdv-hard28.618.644.38.612.9 2.940.018.622.97.114.32.934.318.633.64.311.47.920.021.432.924.37.1 2.940.012.917.118.6 12.910.08.630.017.125.021.47.18.65.721.424.330.025.75.735.718.615.727.17.14.328.621.422.926.43.6 5.021.417.144.314.37.18.6 4.341.412.922.921.410.07.1 4.331.415.033.617.98.67.9 4.315.7 14.344.322.912.937.15.721.420.07.14.317.126.410.032.921.44.3 15.028.624.340.04.3 4.340.015.717.114.312.95.77.134.320.028.69.38.63.64.320.028.644.37.1 2.934.320.04.3十二点九17.114.35.727.124.324.310.010.07.9第3.6节22.221.240.014.33.7 4.7 4.538.414.917.317.311.66.36.730.318.128.715.87.75.5 5.6频率（%）来源-方法+v：mala2277获取更多论文很难区分出最先进的型号我们众包了七个不同来源的文章样本的多项选择阅读理解问题，并分析了文章来源对问题难度和多样性的影响尽管我们预计段落的难度会影响关于该段落的问题的难度，但收集的问题并未显示人机理解差距与段落来源、长度或阅读能力测量之间存在任何强相关性我们对计算类型的手动注释表明，需要数值或逻辑推理的问题相对困难。我们还发现了几个趋势之间的篇章来源和理解类型。这些结果表明，当创建一个新的基准数据集时，我们需要仔细选择通道源，以便得到的数据集包含需要理解我们感兴趣的语言现象的问题。这在对抗性设置中尤其重要，因为它可以将问题的分布集中到几个特定的问题类型。道德声明我们的目标是加速在强大的一般问题回答方面的科学进展，这可以在下游转化为有用的工具。我们没有考虑社会偏见的可能来源，尽管这应该与那些考虑将来源用作应用系统的训练数据的人高度相关（Li et al. ，2020; Parrish etal. ，2022）。我们正在使用亚马逊土耳其机器人，尽管它有时会不公平地对待工人（Kummerfeld，2021），特别是在追索不公平拒绝的情况下。我们确保我们自己的薪酬和拒绝政策与亲自雇佣相当，但承认我们的研究可能会鼓励其他人使用Mechanical Turk，他们可能不会那么小心。这项工作通过了审查或免于提交人所在机构内部审查委员会的监督致谢我们感谢Saranya Venkateland和Ethan Perez对本文初稿的反馈对于他对这个项目的早期贡献，我们感谢Harsh Trivedi。SS得到了JSTPRESTO资助号JPMJPR20C4的支持该项目得益于Eric对SB的财政支持，Wendy Schmidt （由 Schmidt Futures 项目推荐）、三星研究院（在项目Improving DeepLearning using La- tent Structure下）和苹果公司。本材料基于国家科学基金会资助的工作1922658和2046556。本材料中表达的任何观点、发现、结论或建议均为作者的观点，不一定反映国家科学基金会的观点。引用苏珊·巴特利特，格热戈兹·康德拉克，科林·切里。2009. 论音位的音节化。在人类语言技术的促进：2009年计算语言学协会北美分会年会，第308-316页，科罗拉多州博尔德。计算语言学协会。马克斯·巴托洛、阿拉斯泰尔·罗伯茨、约翰内斯·韦尔布尔、塞瓦斯蒂安·里德尔和本图斯·斯特内托普。 2020. Beat theAI ： Investigating adversarialhumanannotationforreadingcomprehension.Transactions of the Association for ComputationalLinguistics，8：662史蒂文·伯德，伊万·克莱因，爱德华·洛珀。2009.自然语言处理与Python：分析-ING文本与自然语言工具包。O’Reilly Media,Samuel R.鲍曼和乔治·达尔。2021年在自然语言理解中修复基准测试需要什么？在2021年计算语言学协会北美分会会议录：人类语言技术，第4843-4855页，在线。计算语言学协会.Marc Brysbaert和Boris New 2009. 超越库克拉和弗朗西斯：当前词频规范的批判性评估和美国英语新的改进词频测量。 Behavior ResearchMethods，41（4）：977Jifan Chen和Greg Durrett。2019. 了解多跳推理的数据集设计选择。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4026-4032页，明尼阿波利斯，明尼苏达州。计算语言学协会。Xiaobin Chen和Detmar Meurers。2016. 用词频分析文本难度。在第11届NLP创新应用于构建教育应用的研讨会上，第84-94页，加利福尼亚州圣地亚哥。计算语言学协会。+v：mala2277获取更多论文Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。Dheeru Dua ， Yizhong Wang ， Pradeep Dasigi ，Gabriel Stanovsky ， Sameer Singh ， and MattGardner. 2019. DROP：一个阅读理解基准测试，要求对段落进行离散推理。在计算语言学协会北美分会2019年会议的进行中：人类语言技术，第1卷（长论文和短论文），第2368-2378页，明尼阿波利斯，明尼苏达州。计算语言学协会。Adam Fisch ， Alon Talmor ， Robin Jia ， MinjoonSeo ， Eu-nsol Choi ， and Danqi Chen.2019.MRQA 2019 共享任务：评估阅读理解。在Proceedings of the 2nd Work-shop on MachineReading for Question Questioning，第1-13页，中国香港

下载后可阅读完整内容，剩余1页未读，立即下载