轻量级判别性阅读理解模型设计与评估

25 浏览量更新于2023-11-30 收藏 897KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文区分性阅读理解的Lite统一模型赵依琳1，2，赵海1，2，赵玉，佘丽斌3，赵应功31上海交通大学2上海交通大学上海市教育委员会智能交互与认知工程重点实验室3上海乐研科技zhaoyilin@sjtu.edu.cn，zhaohai@cs.sjtu.edu.cnlibin@leyantech.com，ygzhao@leyantech.com摘要判别式机器阅读理解是机器阅读理解中的一个重要范畴，其一般目标是从给定的材料中预测答案。然而，各种区分性MRC任务的焦点可能是足够多样化的：多选择MRC要求模型全局地突出和整合所有潜在的关键证据;而提取性MRC则关注答案提取的更高局部边界精度。在以往的工作中，缺乏一个统一的设计与针对性的整体判别MRC任务。为了填补这一空白，我们提出了一种轻量级的POS-EnhancedIterative Co-AttentionNet（POI-Net），作为统一建模的首次尝试，以同步处理不同的区分性MRC任务。几乎没有引入更多的参数，我们的精简统一设计带来了模型的显着改善与编码器和解码器组件。四个判别MRC基准点的评估结果一致表明了我们模型的一般有效性和适用性，代码可在https：//github上获得。com/Yilin1111/poi-net.1介绍机器阅读理解（MRC）作为自然语言理解的一个挑战性分支，主要有两大类：生成型MRC ，侧重于答案的生成（ K ockriskovskyetal. ，2018），和discriminat iv eMRC ，其专注于给定上下文的答案预测（Baradaran et al. ，2020）。其中，判别式MRC因其丰富的应用场景而受到研究者的极大关注，如抽取式MRC和多选择式MRC两大子类。给定一个问题和相应的段落，提取MRC 要求在段落中提取精确的答案跨度（Joshi et al. 、*通讯作者。本文是国家自然科学基金重点项目U1836222和61733011的部分资助。多选MRC示例... 此外，林恩的开拓性努力还提供了通过绿色场景举办的教育论坛--一......这是什么？问：我们可以从绿色场景中学到什么？A. 这是一部三小时长的电影中的一个场景。B. 这是一系列关注绿色生活的活动。（金色）C. 这是一部以印第安纳州中部为背景的电影。D. 这是一个关注绿色生活方式的论坛。提取MRC示例... 早期的版本在1851年投入使用，但最成功的满度指示器是由查尔斯·理查德为高速发动机的发明者和制造商查尔斯·波特研制的，并于1862年在伦敦展览会上展出。......这是什么？问：查尔斯·波特蒸汽机指示器哪里显示？黄金答案：伦敦展览答案一：1862年伦敦展览会不精确的答案2：在伦敦展览会上展出表1：多项选择MRC任务（RACE）和提取MRC任务（SQuAD 2.0）的不同焦点。粗体文本是关键信息或易错部分。2017; Trischler 等人， 2017; Yang et al. ，2018），而多项选择MRC需要在给定的候选人中选择合适的答案（Huang et al. ，2019;Khashabi et al. ，2018）。除了不同的判别式MRC所共有的唯一共同目标之外，由于预测答案的风格的多样性，提取式和多选择式MRC的侧重点在很大程度上是不同的：多选择式MRC通常需要突出和整合整个通道中所有潜在的关键信息;而提取式MRC更注重局部水平上的精确跨度边界提取，因为可以相对容易地定位答案跨度的粗略范围，如表1所示。在MRC领域，先前的几个工作在编码方面以可考虑的计算成本执行通用语言建模（Devlinet al. ，2019; Clark等人，2020; Zhanget al. ，2020 c），或在不同的MRC任务之间拼接文本以简单地扩展训练数据集（Khashabiet al. ，2020年），没有精细和专门的设计arXiv：2203.14103v1 [cs.CL] 2022年3月+v：mala2277获取更多论文×−−输出一体化相互作用编码图1：POI网络概述。s、c、MP分别提供归一化注意力分数、相似性计算、标量乘法和最大池化操作。颜色的深浅代表了相应嵌入对运算问题的贡献。歧视性MRC中的类别。其他人在解码方面对一个特殊的MRC子类别进行了过于详细的设计（ Sun et al. ， 2019b; Zhang et al. ，2020a），缺乏普遍性的整体歧视MRC。为了填补上述对不同区分度MRC统一建模的空白，本文基于抽取式MRC和多选择式MRC的核心编码设计增强了局部层次上的标记语言表示，这对于抽取式MRC特别有效。人类对词的词性属性的显式拥有导致精确的答案提取。在来自表1的提取样本中，人类提取黄金答案跨度正是因为因此，我们以嵌入的形式显式地注入单词的POS属性解码设计模拟了人类在全局水平上的考虑和整合能力，特别是对多选择MRC的效果在处理注意力有限的复合问题时，人类会依次突出关键信息，并迭代地更新识别和注意力分配。在上述反思策略的启发下，我们设计了一种不带附加参数的迭代协同注意机制，在全局范围内轮流处理篇章与问题-选项（QO）对之间的相互作用在来自表1的多项选择示例中，在第一次交互期间，模型可能仅关注与Q O对的粗略印象相关的文本，例如但是有了足够的迭代交互，模型最终可以收集所有详细的证据（表1中的粗体）。此外，我们还探索了一系列的注意整合策略，用于在交互轮次之间捕获证据。我们结合上述两种方法，提出了一种新的模型称为 POI-Net （ POS-EnhancedIterative Co-AttentionNet work），以缩小机器和人类在区分MRC上的差距。我们在两个多选择MRC基准上评估我们的模型，RACE（Lai et al. ，2017）和DREAM（Sun et al. ，2019 a）;和两个提取MRC基准，SQuAD 1.1（Rajpurkar etal. ，2016）和SQuAD 2.0（Rajpurkar et al. ，2018年），获得一致和显著的改进，几乎没有额外的参数。2我们的模型我们的目标是为区分性MRC的各个子类别设计一个轻量级、通用和有效的模型架构，我们的模型概述如图1所示，它由四个主要过程组成：编码（ §2.1 ）、交互（ §2.2 ）、集成（§2.3）和输出（§2.4）。输出层EP0EP0不EP1EP1不E不PNEPNEQN E不QNEQ1E不Q1EQ0E不Q0···EP0EP1EPN···EQ0EQ1XXXEQNSSSSSS注意力整合层CCCCCCEP1···EPNMP MPEP0EP0EP0EP1不EP1不 EPNEPN不 EQ0不 EEQ1 EQN不EQN不E Q0Q1T x迭代交互层EP0t-1t-1EP1EPNt-1EQNt-1EQ1t-1EQ0t-1EP0 EP01EP1 EP11EPN EPN1EQN EQN1E1Q1EQ1EQ0EQ01EP0EP0EP11EP1 EPN1EPN1 EQ0EQ0EQ11EQ1 EQN1EQN1初始交互层XXXSSSSSS···EP0EP1EPN···EQ0EQ1CCCCCCEQNPOS增强嵌入层···EPNMP MPEP0EP1EQNEQ1EQ0P0 P1 PNQ0 Q1 QN···EP0EP1EPNEQNEQ1EQ0···························+v：mala2277获取更多论文[CLS]·The·一个群岛[CLS]......这是什么？默兹河与瓦尔河形成了一个群岛状的河口ESPE−−PQ−PNQQNPPi1齐PiQQ0·QN均p0Q0Pi我#使用形成#喜欢河口与WA #al.输入子字E[CLS]·嵌入POS+·嵌入·++EDTENNPEEDTEJJENNE在ENNPESYM图2：POI-Net的输入表示流程。词性嵌入的下标是输入词的词性标记。2.1POS增强型编码器基于预先训练的情境化编码器AL-BERT（Lanet al. ，2020），我们用附加的POS嵌入层对输入令牌进行编码，如图2所示。由于输入序列将在上下文化编码器中被标记为子字，因此我们使用nltk标记器在字级标记序列（Bird etal. ，2009），并且实现POS增强编码器，其中完整字中的每个子字将共享相同的POS标签。详细地，输入序列被馈送到nltkPOS标记器中以获得每个单词的POS标记，例如“JJ”。根据Penn Treebank的风格，我们采用的POS标签有36种POS标签类型。考虑在区别性MRC中的特定场景2.2.1初步互动POI-Net将所有N个输入标记嵌入分解为通道域（P）和问题（或Q O对）域（Q），开始P-Q交互过程。为了像人类一样生成给定通行证或问题的整体印象，POI网络通过最大池化将对应域中的所有嵌入集中到一个集中嵌入中CE1=最大池化（E P0，.， E PN）∈ RH，CE1=MaxPooling（E Q0，.，E QN）∈RH，其中H是隐藏大小，PN/QN是令牌P/Q域的数量。然后POI-Net计算EP/EQ和CE1/CE1中每个标记之间的相似度，以生成每个标记的注意力得分s。Q P我们为特殊令牌添加附加SPE标签（即，[CLS]、[SEP]），PAD标记用于填充令牌，ERR标记用于潜在的未识别令牌。图A显示POS标签的详细描述。对P-Q对有贡献的令牌详细地说，我们使用余弦类似的计算：一，s1=余弦（[E P0，...， E PN]，CE1），我们模型中的输入嵌入是子词嵌入和POSEm的归一化和一， S1=余弦（[EQ0、...、EQN]，CE1）。寝具遵循BERT风格模型嵌入层的基本设计，在子词级保留了标记嵌入Et、分段嵌入Es和位置嵌入 Ep ，构成子词嵌入。对于 POSEmbeddingEPOS，我们实现了另一个具有与子字Embedding相同嵌入大小的嵌入层，确保所有上述指示符嵌入在同一向量空间中。公式上，输入嵌入E可以表示为：E=Norm（Et+Es+Ep+EPOS），其中Norm（）是层归一化函数（Ba et al. ，2016）。2.2迭代协同注意机制POI-Net采用轻量级的迭代协同注意力模块来模拟人类的内部侦察，我们通过最小-最大缩放将这些分数归一化为[0，1]，然后使用相应的输入嵌入执行点积1=s1·EPi，EQi=s1·EQi，其中，sPi是第i个通道标记嵌入的归一化注意力得分，E1是第i个通道标记在初步交互（第1轮交互）后的注意力增强嵌入.2.2.2第t圈互动为了模拟人类在段落和问题之间的反复思考能力，我们添加了具有共同注意机制的可迭代模块，作为图1中的迭代交互层。第t轮交互中的详细过程类似于初步交互：侧边处理，没有附加参数。CEt =MaxPooling（E t−1，...，E t−1）∈RH，E我 E我正+ +SSEE#使用E形成俄安 E群岛E#- E#喜欢东河口E与E娃 E#alE.+v：mala2277获取更多论文QNPQPP PPQQ QQQΣPΣ均p0PNQ均p0PN不PQt=1Pt=1QPQ不 βtsβt不 βtsβtPPQQβt电子邮件因为可学习的参数不能带来毛皮-Q0不αts =PPP，1ΣαsαsP P不CEt =MaxPooling（E t−1，...，E t−1）∈RH，β-硫代巴比妥=Max（s t−1，...，s t−1），st，.，St=余弦（[E P0，.，E PN]，CEt），tβP0PNQβt=βP+1，βt=Q，t，...，St=余弦（[EQ0、...、EQN]，CEt），P2Q2t t t t其中s0=s0=1。0。设计动机-EPi=sPi·EPi，EQi=sQi·EQ i.皮琦不对于βP，βt的定义是直观的：当浓度-请注意，在所有迭代轮次中，我们计算嵌入式CEt/CEt（以下列日期计算─Q P注意力分数与原始输入嵌入E而不是注意力增强嵌入Et−1从第（t-1）圈开始，由于：第t轮的注意力得分）具有更高的置信度（由于最大池计算，表现为ST-1/ST-1中更Q P1) 没有进一步的重大表现系统应更加重视输入em-将E替换为E t−1（<0. 百分之二层理Et/Et在第t个转弯处2.P Q在基础尺寸模型上），与所采用的方法进行比较2) 使用相同的嵌入E，§2.3中的注意力积分可以优化为注意力分数积分，这在计算上是高效的，无需额外的嵌入存储1。2.3注意力整合• 遗忘策略：由于人类会部分忘记前一轮的知识并专注于当前回合的发现，我们迭代地执行前两轮注意力分数的归一化操作：Human建议整合多个回合的所有关键信息，以得出明确的结论，而不是丢弃先前考虑的所有发现。根据上述sT+βtsTR=1+βTsT+βtsT· EP+1+βT·EQ，”““POI-Net返回注意力增强的em。每圈的垫层Et=st·E（我们只存储TsT−1+βts<$T−11+βT−1的优化方法），并将它们与特定的策略相结合。根据每轮的贡献比例设计了四种整合策略，最终采用遗忘策略• 平均策略：注意力网络平等对待每一轮的归一化注意力分数st，并产生具有st平均值的最终表示向量R：不R=st·E∈RN×H，PsT−1+βts<$T−1sT =QQ Q。Q1 + βT −1在迭代归一化过程中，前几轮注意分数的最终比例会逐渐被稀释，这模拟了遗忘策略3的效果。• 直觉策略：在某些情况下，人类可以用直觉解决简单的问题，而不需要过多的考虑，因此我们引入了两个衰减系数αt，αt，来自t=1其中T是迭代圈的总数量。第t圈，减少随着迭代次数的增加，• 加权策略：注意力网络用两个归一化的加权系数来处理问题，cientsβt，βt，用于衡量TT TR=t=1Pαt· EP+TT Tt=1Q αt· EQ，第t圈的计算：t tαt= Yβ i，α t= Yβ i。R=t=1 ·E+t=1Q Q·E，t=1Qi=1i=1βt= Max（st−1，...，st−1），由于每个人的贡献比例，转折随输入样本的具体情况而变化SPQPβt2设置βt/βtt=1PPQQP+v：mala2277获取更多论文PQ0QN1每轮迭代平均节省约15.3%的训练时间3LSTM 中的激活函数方法（ Hochreiter 和Schmidhuber，1997）可能会在一次计算中完全过滤掉信息，这在我们的实验中无法带来一致的改进。+v：mala2277获取更多论文∈−2.4适用于歧视性MRC2.4.1多选MRC多选MRC的输入序列为[CLS]P[SEP]Q+Oi[SEP]，其中+de-注释连接，Oi表示第i个答案选项。在输出层中，表示向量RRN×H被馈送到最大池化操作中以生成一般表示：R= MaxPooling（R）∈ RH.然后采用线性softmax层计算期权的概率，并采用标准交叉熵损失作为总损失。具有最大概率的选项被确定为预测答案。2.4.2提取MRC提取 MRC 的输入序列可以表示为[CLS]P[SEP]Q[SEP] ，并且我们使用线性softmax层来计算输出层中的开始和结束令牌概率。训练对象是开始和结束令牌概率的交叉熵损失之和：L=ys·log（s）+ye·log（e），s，e=softmax（Linear（R））∈RN，其中s/e是所有目标的开始/结束概率，ys/ye是开始/结束目标。对于答案预测，由于一些基准测试有无法回答的问题，我们首先对从第i个令牌到第j个令牌的跨度进行评分，如下所示：scoreij=si+ej，0≤i≤j≤N，则具有最大得分的跨度是预测的答案。空答案的得分为：scoreno=s0+e0，其中第0个标记为[CLS]。最终得分计算为scorehas scoreno，并且设置阈值δ以确定问题是否可回答，该阈值在线性时间内精确如果最终得分高于阈值，则POI-Net预测具有最大得分的跨度，否则为空答案。3实验3.1设置数据集实验在8个NVIDIA Tesla P40 GPU上运行，POI网络的实现基于ALBERT的Pytorch实现（Paszke et al. ，2019）。我们将迭代共同注意力中的最大迭代次数设置为3。表2显示了实现报告结果的POI网络的超参数作为补充，所有任务的预热HyperparamLRMSLBSTESS梦想1e-5512244400种族1e-55123224000SQuAD 1.11e-55122422000Squad 2.01e-55122424000表2 ：POI 网络的微调超参数。LR ：学习率，MSL：最大序列长度，BS：批量大小，TE：训练时期，SS：保存步骤。我们在两个多选择MRC基准上评估POI-Net：RACE（Lai et al. ，2017），DREAM（Sun et al. ，2019a）和两个提取MRC基准：SQuAD 1.1 （ Rajpurkar et al. ， 2016 ）和SQuAD 2.0（Rajpurkar et al. ，2018）。详细介绍如下：RACE是一个大规模的多项选择MRC任务，从英语考试中收集，包含近10万个问题。文章以文章形式出现，大多数问题需要语境推理，文章的领域是多样化的。DREAM是一个基于对话的多项选择MRC数据集，包含超过10K个问题。数据集的挑战在于，超过80%的问题是非提取的，需要从多轮对话中进行推理。SQuAD 1.1是一个广泛使用的大规模提取式MRC基准测试，具有超过107K的问题对，这些问题对来自维基百科。模型被要求从维基百科文章中提取精确的词跨度作为给定文章的答案。SQuAD 2.0保留了SQuAD 1.1中的问题，其中有超过53K个不可回答的问题，这些问题与可回答的问题类似。对于SQuAD 2.0，模型不仅要尽可能地回答问题，而且要避免回答段落无法回答的问题3.2结果我们以准确性作为多选择基准的评价标准，而精确匹配（EM）和4由于SQuAD 1.1和SQuAD 2.0的测试集没有开放不同随机种子的自由评估，我们报告了开发集的结果。+v：mala2277获取更多论文−模型梦想Dev测试种族偏差（M/H）试验（M/H）SQuAD 1.1EM F1Squad 2.0EM F1BERT碱（Devlin et al. ，2019）ALBERT base（Lan etal. ，2020）BERT大型（Devlinet al. ，2019）SG-Net（Zhanget al. ，2020c）RoBERTa大（Liu et al. ，2019年）RoBERTa large +MMM（Jin etal. ，2020年）ALBERT xxlarge（Lan et al. ，2020）ALBERT xxlarge+ DUMA（Zhuet al. ，2020年）63.4 63.264.5 64.466.0 66.8–85.4 85.088.0 88.989.2 88.589.9 90.464.6（64.0（72.7（76.7/71.0）72.0（76.6 /70.1）– (–– (–– (–– (–88.1（80.8 88.582.3 89.385.5 92.2–––88.3 94.1–77.6 80.477.1 80.082.2 85.085.6 88.386.5 89.4–85.1 88.1–艾伯特碱基于ALBERT的POI网络65.7 65.668.6 68.567.9（72.1 /65.2）72.4（76.3/70.0）71.0（75.7 /69.0）82.7 89.984.5 91.377.9 81.079.5 82.7ALBERTxxlarge（小号）POI-Net on ALBERTxxlarge88.7 88.390.090.386.6（89.4/85.2）86.5（89.2 /85.4）88.1（91.2/86.3）88.3（91.5 /86.8）88.2 93.989.5 95.085.4 88.587.7 90.6表3：BERT风格模型在DREAM、RACE、SQuAD 1.1和SQuAD 2.0上的结果。第一个领域的结果来自排行榜和相应的论文4。一个更软的指标F1分数为提取基准。三个随机种子的平均结果如表3所示，其中我们只显示了几个具有可比参数的BERT风格模型。附录B报告了与其他公共工程在每个基准上的完整比较结果。结果表明，对于多选择基准点，我们的模型优于大多数基线和比较工作，并通过了显著性检验（Zhang et al. ，2021），p值为<0。01在梦想（2.0%的平均改善）和种族（1.7%的平均改善）。对于提取基准测试，尽管基线ALBERT的性能很强，但我们的模型仍然显著提高了它（SQuAD 1.1和SQuAD 2.0的EM平均提高了1.3%和2.3%）。此外，我们在§4.4中报告了参数规模和训练/推理时间成本。4消融研究在本节中，我们在ALBERT基础上实现了POI-Net 以进行进一步的讨论，这种设置与ALBERTxxlarge上的POI-Net具有类似的定量趋势。4.1消融模型种族ACCSQuAD 1.1EM F1基线（ALBERT基础）67.8882.6689.91基于ALBERT的POI网络72.4484.4891.28- POS嵌入71.7483.5190.64- 迭代共同注意力69.0283.6590.77基线（BERT基础）64.7381.2188.84基于BERT的POI-Net68.0283.4390.47表4：RACE和SQuAD 1.1的消融研究。为了评估POI-Net中每个组件的贡献，我们对RACE和SQuAD 1.1开发集进行了消融研究，并在表4中报告了三个随机种子的平均结果。研究结果表明，POS嵌入和迭代协同注意机制对POI网络都有一定的贡献，但对MRC子范畴的贡献不同。对于多项选择MRC（如RACE），迭代共同注意机制的贡献远远超过POS嵌入（3.86%vs.1.14%），因为多项选择题要求全面突出和整合文章中的关键信息。因此，关键证据的潜在遗漏可能对迭代协同注意机制所保证的答案预测是致命的，而精确的证据跨越边界和POS属性并不像前者那么重要。相反，简单的POS嵌入甚至比精心设计的迭代共同注意力带来更多的改进（ 0.99%vs.0.85%（EM））。在这些任务中，模型侧重于精确边界的答案广度提取，并要求丢弃与问题不完全匹配的干扰词，如冗余动词、介词和不定式（通过每个单词的POS属性，POI-Net精确定位答案跨度的边界。由于提取MRC不需要像多个5请注意，POI-Net对EM分数的改善始终高于F1分数，作为佐证。+v：mala2277获取更多论文基线POS嵌入差异选择MRC时，迭代协同注意机制的改进效果不太显著。此外，我们还在BERT等其他上下文编码器上实现了POI-Net，并取得了显著的改进，如表4所示。POI-Net在不同基线上的一致性和显著性改进验证了POI-Net的普遍有效性。4.2POS嵌入POS类型黄金答案POI-Net基线NN111921125411504CD351137233816NNS287528122743JJ165416711774在396308242VBN348321299RB339315284VBG331328293表5：黄金答案、POI-Net预测答案和基线ALBERT基中边界词的POS类型统计。我们只显示出现次数高于300的POS类型。900800700600500400300200100还有两个进一步的发现：1) POI-Net 中错误词性分类的纠正比例（8.09%）远高于整体错误预测的纠正比例（1.82%），这表明词性分类的纠正主要得益于词性嵌入对词词性属性的感知，而不是整体准确率的提高。2) 虽然SQuAD 1.1中的答案倾向于在几个特定的POS类型（“NN”，“CD”，“NNS”和“JJ”）中贡献4.3词性嵌入的鲁棒性研究当应用任务中存在大量粗糙数据或资源时，鲁棒性是衡量模型性能为了测试POS嵌入的抗干扰性，我们随机将部分POS标签从nltkPOS标签器修改为错误标签，并将结果在SQuAD上进行1.1开发集如表6所示。0NNNNSJJINCDRBVBN VBGPOS类型图3：POI-Net和基线的错误POS分类案例统计。为了解释，第一方形柱（高度：866）意味着，存在866个案例，其在黄金答案中的边界词的POS类型是为了研究POS嵌入如何增强令牌表示，我们对SQuAD 1.1开发集进行了一系列统计：1）来自预测跨度的边界词的POS类型，如表5所示; 2）POI-Net及其基线ALBERT 基础的错误POS分类，如图3所示。统计结果表明，在POS嵌入的情况下，POI-Net预测的答案边界词的POS类型总体分布与其基线相比更接近黄金答案，并且POI-Net的错误POS分类案例数量也显著减少。表6：SQuAD 1.1开发集上 POS嵌入的鲁棒性研究结果结果表明，POI-Net具有较好的POS嵌入鲁棒性，POS嵌入带来的改善效果不会因微小的扰动（5%）而受到太大影响。我们认为，POI网络的鲁棒性可能受益于与其他上下文化嵌入的集成，例如对当前词或子词的上下文含义进行编码的令牌嵌入 ET 虽然更剧烈的干扰（20%）可能会进一步损害令牌表示，但现有的marture POS标记器达到97%以上的准确率，这可以防止上述情况的发生。4.4迭代共同注意机制探讨了迭代协同中最合适的集成策略和最大迭代次数错误POS案例模型EMF1基线（ALBERT基础）82.6689.91基于ALBERT的POI网络84.4891.285%错误POS标签84.3591.2110%错误POS标签84.0691.0520%错误POS标签83.8790.80- POS嵌入83.5190.64+v：mala2277获取更多论文注意力机制，我们实现了我们提出的策略，具有不同的最大迭代轮数，以及由广泛使用的多头共同注意力机制（ Devlin et al. ， 2019;Zhang et al. ，2020 a，2021），用于图4中的比较。考虑到注意机制对多项选择MRC的显著影响，我们选择RACE作为评价72.57271.57170.570模型参数ALBERT碱（Lan et al. ，2020年）12M艾伯特碱11.14M多头共同关注17.94M阿尔伯特碱基于ALBERT的POI网络11.15MALBERT xxlarge（Lan et al. ，2020年）235MALBERTxxlarge（小号）212.29M多头共同关注404.50MALBERTxxlargePOI-Net on ALBERTxxlarge212.30M表7：POI网络和基线中的训练参数nism和基于它的模型（如表3中的DUMA）引入了更多的参数，性能略低。我们还记录了时间成本，69.569在ALBERT基地进行一次训练，它-68.56867.5旋转0旋转1旋转2旋转3旋转4迭代旋转图4：迭代共同注意机制的对比实验.当迭代次数为0时，模型等价于带POS嵌入的基线。如图所示，遗忘策略导致最佳性能，比加权策略略有改善这两种策略都符合人类反思过程中的逻辑证据整合从四种策略在多次迭代中的趋势来看，我们得出结论，迭代共同注意的2或3次迭代回合会产生适当的结果，原因是：1) 较少的迭代轮数可能导致段落和问题之间的交互不足，模型可能侧重于粗略的认知而不是详尽的关键信息;2) 过多的迭代次数会导致信息的过度整合，降低真正关键证据的贡献.与典型的多头协同注意机制相比，本文提出的迭代协同注意机制在迭代次数较多的情况下获得了更高的性能，表明它具有更强的迭代再考虑能力。此外，迭代协同注意力在参数大小和训练时间开销上都优于多头协同注意力如表7中的参数比较所示，除了用于POS Embedding的线性嵌入层之外，POI-Net基本上没有带来额外的参数。多头共注机械-从0圈迭代到4圈迭代，交互式共同注意花费54、62、72、83、96分钟，而多头共同注意花费54、65、76、89、109分钟，其中8。平均增长3%4.5可视化我们对表1中的判别MRC示例执行可视化显示，如图5所示。对于提取的例子，受益于POS嵌入，POI网络预测精确的答案跨度，基于疑问限定词而对于多项选择题，如果没有提出迭代协同注意机制，则注意力的总体分布更加分散。基线只能注意到第0轮的特殊标记，如[CLS]随着迭代共同关注的执行，POI-Net在第一轮中更加关注离散的关键词，如在综合上述关键证据后，POI-Net最终预测出黄金期权5相关研究5.1语义和语言嵌入为了应对具有挑战性的MRC任务，已经提出了许多强大的预训练语言模型（ PLM ）（ Devlin et al. ， 2019; Lewis et al. ， 2020;Raffel et al. ，2020）。虽然先进的PLM在上下文表示方面表现出强大的能力，平均策略加权策略遗忘策略直觉策略多头协同注意基线发育集准确率（%）+v：mala2277获取更多论文····制造商查尔斯·波特饰CharlesRichard和展出伦敦展览会1862年.····制造商查尔斯·波特饰CharlesRichard和展出伦敦展览会.P问：查尔斯·波特蒸汽机的指示器在哪里显示？基线POI网络Softmaxed起始LogitsSoftmaxed结束Logits0.00600.0020下一篇：我们可以从绿色场景中学到什么？这是一系列关注绿色生活的活动。转弯01号弯2号弯3号弯1.00.0图5：POI网络及其基线在表1中的提取示例（上）和多选择示例（下）上的可视化。抽取样本的指标是softmaxed logit，多项选择样本的指标是归一化注意力得分slogit。缺乏明确的语义和语言线索导致了以往作品的瓶颈受益于语义角色标签的发展（Li et al. ，2018年）和依存句法分析（周和赵，2019年），一些研究者专注于增强语义表示。Zhang et al.（2020 b）通过融合语义角色标签来加强令牌表示，而Zhang et al.（2020 c）和Bai et al.（2021）实现了额外的自我注意层来编码句法依赖。此外， Mihaylov 和 Frank（2019）在叙事文本的MRC中采用了多种话语感知代替语义信息，我们关注更易访问的词性（POS）信息，其已被广泛用于非MRC领域，例如开放域QA（Chen et al. ，2017），具有低得多的预处理计算消耗但更高的准确性（ Bohnet et al. ， 2018; Strubell 等人， 2018;Zhou et al. ，2020）。然而，以前的POS属性的应用大多停留在原始和粗糙的嵌入方法（Huanget al. ，2018年），导致比拟议的POI网络的改进要小得多。5.2注意机制在区分性MRC领域，各种注意力机制（Raffel和Ellis，2015; Seo et al. ，2017; Wang et al. ，2017; Vaswani et al. 2017年，他扮演着越来越重要的角色。最初，注意机制主要采用在提取MRC 上（ Yu et al. ， 2018; Cui et al. ，2021），诸如答案跨度的多重抛光（Xiong etal. （2017年）和多粒度表示生成（Zheng et al. ，2020; Chen等人，2020）。最近，研究者注意到它在多项选择MRC中的特殊作用 Zhang等人（2020 a）模型域双向与双co-matching网络，Jin等人。（2020）使用多步注意作为分类器，Zhu等人（2020）设计了用于协作交互的多头共同注意。因此，我们提出了一种通用的迭代协同注意机制，它迭代地执行成对输入域之间的交互，以希望完全增强区分性MRC。不同于其他通过复杂注意网络引入大量参数的研究（Zhanget al. ，2020 a），我们的POI网络更有效和高效，几乎没有引入额外的参数。6结论在这项工作中，我们提出了POS增强迭代协同注意力网络（POI-Net），作为一个轻量级的统一建模的多个子类别的区分MRC。POI-Net利用POS嵌入技术对POS属性进行编码，以保证答案边界的精确性;在解码方面，采用迭代共注意机制和整合策略，突出和整合关键信息，几乎不需要额外的参数。作为第一个针对不同类型判别MRC的有效统一模型，在4个抽取式和多选择式MRC基准上的评价结果一致表明了该模型的普遍有效性和适用性。····[CLS]···绿色场景--一系列的三小时事件、每个聚焦就具体专题教学何#osi#ershow引领绿色#Logits评分+v：mala2277获取更多论文引用Jimmy Lei Ba，Jamie Ryan Kiros 和Geoffrey E.欣顿。2016. 层归一化。Seohyun Back 、 Sai Chetan Chinthakindi 、 AkhilKedia 、 Haejun Lee 和 Jaegul Choo 。 2020.Neurquri：用于可回答性预测的神经问题需求检查器。在ICLR。白建刚，王玉静，陈依人，杨亚明，白静，俞静，佟云海。2021. B-BERT：用syn-tax树。在计算语言学协会欧洲分会第16次会议的会议记录：主要卷，第3011- 3020页，在线。计算语言学协会。Razieh Baradaran ， Razieh Ghiasi ， and HosseinAmirkhani.2020. 机器阅读理解系统综述。arXiv预印本arXiv：2001.01582。史蒂文·伯德，伊万·克莱因，爱德华·洛珀。2009.自然语言处理与Python：分析- ING文本与自然语言工具包。““.BerndBohnet 、 RyanMcDonald 、 GonçaloSimbiles 、 Daniel Andor 、 Emily Pitler 和 JoshuaMaynez。2018. 基于上下文敏感标记编码的MetaBiLSTM模型的形态句法标记。在计算语言学协会第56届年会的会议记录（2001年：长文），第2642计算语言学协会。Danqi Chen ， Adam Fisch ， Jason Weston ， andAntoine Bordes. 2017. 阅读维基百科来回答开放领域的问题。在Proceedings of the 55th AnnualMeeting of the Association for ComputationalLinguistics （ Volume 1 ： Long Papers ）， pages1870计算语言学协会陈诺，刘凤林，尤晨宇，周培林，邹跃贤。2020.自适应双向注意：探索机器阅读理解。Kevin Clark，Minh-Thang Luong，Quoc V. Le，andChristopher D.曼宁2020. ELECTRA：预先训练文本编码器作为鉴别器而不是生成器.在第八届学习代表国际会议，ICLR 2020，亚的斯亚贝巴，埃塞俄比亚， 2020 年 4 月 26 日至 30 日。OpenReview.net.Yiming Cui ， Wei-Nan Zhang ， Wanxiang Che ，Ting Liu，and Zhigang Chen.2021. 机器阅读理解的注意力理解。Jacob Devlin ， Ming-Wei Chang ， Wendon Lee ，and Kristina Toutanova.2019年。BERT：预培训深层双向转换器，帮助语言理解。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明

下载后可阅读完整内容，剩余1页未读，立即下载