Transformer模型的优越性：合成任务中的突破性表现

109 浏览量更新于2023-11-30 收藏 696KB PDF 举报

自然语言

深度学习

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文让变压器解决合成任务Santiago Ontano'n，Jo Ainslie，Vacla v Cvicek，Zachary FisherGoogle Research{santiontanon，jainslie，vcvicek，zachfisher} @ google.com摘要几项研究报告了Transformer模型无法进行组合概括，这是许多NLP任务（如语义解析）中的一种关键类型的概括。在本文中，我们探讨了trans-former模型的设计空间，表明由几个设计决策赋予模型通过这种探索，我们确定了Transformer配置，其在不同的合成任务集合中的合成上显著优于文献中先前报道的，并且在语义解析合成概括基准（COGS）和字符串编辑操作合成基准（PCFG）中实现了最先进的结果。1介绍尽管现代神经网络架构在许多挑战性的自然语言任务中达到了最先进的性能，但它们似乎表现出少量的学习一组基本原语并以比训练期间看到的更复杂的方式组合它们的能力（Hupkes et al. ，2020）。例如，假设一个系统已经学习了“跳”的含义，并且“跳两次”意味着动作“跳”必须重复两次。在学习了动作“跳”的含义复合泛化是自然语言和我们可能希望机器学习模型学习的许多其他任务有趣的是，人类和经典的人工智能技术（如语法或基于搜索的系统）都可以在没有太多错误的情况下处理组合任务，而现代深度学习技术似乎不具备这种能力（见第2节）。因此，一个关键问题是：我们能否构建能够解决组合任务的深度学习架构在这论文中，我们专注于 Transformer 模型（Vaswaniet al. ，2017），其在文献中已多次显示出表现出差的组成一般化（参见第 2节）。通过实证研究，我们的结果表明，这是不一定正确的。为了创建在大范围任务中进行组合泛化的通用模型，本文探索了Transformer模型的设计空间，表明几个设计决策，如位置编码，解码器类型，权重共享，模型超参数和目标任务的制定会导致不同的归纳偏差，对组合泛化有显著影响。为了评估不同的设计决策，我们使用了12个设计用于测量组合泛化的数据集。除了文献中常用的六个标准数据集（如SCAN（Lake和Baroni，2018）、PCFG（Hupkes et al. ，2020），CFQ（Keysers etal. ， 2019 ）和 COGS （ Kim 和 Linzen ，2020）），我们还使用了一组基本的算法任务（例如加法、复制或集合交叉），这些任务虽然不直接涉及自然语言，但对于了解不同的Transformer模型可以和不可以学习什么是有用的本文的主要贡献是：（1）对Transformer架构设计空间的研究，显示了哪些设计选择导致归纳学习偏差，从而导致跨各种任务的组合泛化。（2 ）在所使用的一些数据集中，如COGS，我们报告了使用基于序列标记的中间表示的分类准确度为0.784（相比之下，最好的预先报告模型为 0.35 （ Kim 和 Linzen ，2020）），以及PCFG的生产力和系统性分裂（Hupkes等人，2019年）。，2020）。本文的其余部分组织如下。第2节提供了一些关于compo- sitional泛化和Transformers的背景。在第二节中，arXiv：2108.04378v1 [cs.AI] 2021年8月+v：mala2277获取更多论文第三，我们提出了我们的实证评估中使用的数据集，这在第四节中提出。本文最后讨论了我们的研究结果的影响，以及未来的工作方向。2背景本节简要介绍组合泛化和Transformer模型的背景。2.1合成泛化作文泛化有不同的表现形式。Hupkes等人（2020）确定了五种不同的类型，如系统性（已知部分和规则的重组）和生产力（比训练期间看到的序列更长生产力的一个例子是，如果一个模型已经学会了加、减、乘，以及如何使用括号来关联简单表达式中的参数，并且我们期望它将这些知识推广到更大的表达式。关键的基本思想是，可以在组成上分解的任务可能看起来很难，但可以通过识别原始操作的集合以及它们是如何组成的来解决，这将允许模型推广到训练集中所见之外的示例。此外，注意组合泛化与分布外泛化的一般问题有关。因此，我们也可以将其视为模型如何发现域中的对称性（例如原始操作或其他操作的存在）的问题，这将比捷径更好地推广到分布外的样本（Geirhoset al. ，2020年），这将只适用于在培训期间看到的相同分布的例子。这项工作背后的一个主要假设是，不同的架构选择在变换器给模型不同的归纳偏见，这使得他们或多或少可能发现这样的对称性。早期的工作集中在展示不同的深度学习模型如何在组合上不泛化（Lis Replika et al. ，2018）。例如，Lis Replikaet al. （2018）表明，虽然像LSTM这样的模型能够在组成上进行泛化，但梯度下降收敛的权重不太可能导致组成行为（在50000次训练中，只有约2%的训练运行在组成任务中实现了高于80%的泛化准确度，而它们在训练期间几乎具有完美的性能）。数据集，如SCAN（Lake和Baroni，2018），PCFG（Hupkes et al. ，2020 ）、算术语言（ Veldhoen et al. ，2016），或CFQ（Keysers et al. ，2019年）被提出来显示这些效果。本文的一个关键贡献是挑战了一个常见的假设，即trans-formers不概括组成，表明特定的设计决策导致归纳偏差，导致更好的组成概括（主要是在生产力）。改进成分生成的工作包括句法注意力（Russin et al. ，2019），增加预训练（Furreret al. ， 2020 ）、数据扩充（ Andreas ，2019）、中间表示（Herzig et al. ，2021），或差分神经计算机（Graves et al. ，2016）。也存在在特定合成泛化任务中实现良好性能的专门架构例如，Liu et al. （2020）提出了一个由“作曲家”和“求解器”组成的模型，在SCAN上实现了完美的性能。尽管这方面的工作越来越多，但这个问题在很大程度上仍然没有得到解决。2.2Transformer型号基于变压器的模型（Vaswani et al. ，2017），例如 BERT （ Devlin et al. ， 2018 ）或变体（Yang et al. ，2019; Lan et al. ，2019; Raffeletal. ，2019）在许多NLP任务中产生了最先进的结果，例如语言建模（Child et al. ，2019;Sukhbaatar et al. ，2019; Rae et al. ，2019; Ki-taev et al. ， 2020 ），问题回答（ Ainslie etal. ，2020; Lan等人，2019; Zaheer et al. ，2020;Belt-agy et al. ，2020）和总结（Zhang et al. ，2019）。然而，现有的研究表明，他们没有很好的成分概括。在本文的上下文中，我们将考虑原始的Transformer体系结构（参见图2的中心），并对其进行扩展。标准的Transformer模型由两个主要组件组成（参见图2的中心）：编码器和解码器，每个组件都由一系列层组成。每一层都包含一个关注子层，然后是一个前馈子层（解码器有两个关注子层，分别用于解码器到解码器和解码器到编码器的关注）。Transformer的输入是令牌嵌入的序列，并且输出是通过基于由解码器生成的输出分布进行预测而一次一个地为了提供标记“顺序”的概念+v：mala2277获取更多论文SCAN-length /SCAN-add-jump：输入：左看右看两次[END]输出：I_TURN_RIGHT I_LOOK I_TURN_RIGHT I_LOOKI_TURN_RIGHT I_LOOK I_TURN_RIGHT I_LEFT I_WALKI_TURN_LEFT I_WALK[END]PCFG-生产率/PCFG-系统性输入：swap_first_last copy remove_second E18E15 Q6，P15 L18 X10 I15 Y14[END]输出：Q6 E15 E18[END]COGS输入：一朵玫瑰花得到了一只狗的帮助。[结束]输出：rose（x _ 1）AND help . theme（x _ 3，x _ 1）和help . agent（x _ 3，x _ 6）与狗（x _ 6）[结束]CFQ输入：一个人嫁给了电影摄影师，影响了M1，影响了M2吗？输出：SELECT count（*）WHERE {？x0 a ns：people.人。？x0 ns：influence.influence_node.influenced M1。？x0 ns：influence.influence_node.influenced M2。？x0 ns：人.人.配偶？x1。？x1 a ns：film.cinematographer .电影摄影师。FILTER（？x0！=？[结束]图1：我们实验中使用的不同数据集的示例。每个输入令牌指示序列顺序。我们将使用l表示编码器/解码器层的数量，d表示令牌嵌入的维度，f表示前馈子层使用的中间维度，h表示注意力子层中的注意力头的原始的Transformer模型使用l=6、d=512、f=2048和h=8作为其基本配置。在本文中，我们使用的参数要小得多，因为我们正在评估相对较小的数据集上的架构决策3评价数据集我们使用了12个数据集的集合，需要不同类型的合成概括。其中六个数据集由“算法”任务组成并且其中六个是通常用于评估合成概括的标准数据集（大多数涉及自然语言输入或输出）。我们注意到，我们的al-taximic任务大多需要生产力风格的合成概括，而其他数据集也需要系统性或synonimity（Hupkeset al. ，2020）。具体而言，我们使用了以下数据集（参见附录E中的表7和图1）：加法（Add）：一个合成加法任务，输入包含两个整数的数字训练集包含最多8位数字的数字，测试集包含9位数字被填充以达到12的长度AdditionNegatives（AddNeg）：与前一个相同，但25%的数字是负数（前面有 -符号）。Reversing（Reverse）：其中输出预期是以相反顺序的输入序列。训练包含最多16位的序列，测试集包含17到24之间的长度。重复（Duplication，Dup）：输入是一个数字序列，输出应该是相同的序列，重复两次。训练包含最多16位的序列，测试从17到24。Cartesian（Cart）：输入包含两个符号序列，输出应为它们的Cartesian乘积。训练包含多达6个符号的序列（测试时为7或8个）。Intersection（Interers）：给定两个符号序列，输出它们是否有非空的交集。训练包含大小为1到16的集合，测试包含大小为17到24的集合。SCAN-length（SCAN-l）：SCAN数据集的长度分割（Lake和Baroni，2018）。SCAN-add-jump（SCAN-aj）：SCAN数据集的 add 原语跳转分割（ Lake 和 Barroni ，2018）。PCFG生产率（PCFG-p）：PCFG数据集的生产率分割（Hupkes et al. PCFG-系统性（PCFG-s：PCFG数据集的系统性分割（Hupkes et al. ，2020）。COGS：COGS语义解析数据集的泛化分割（Kim和Linzen，2020）。CFQ-mcd 1（CFQ）：CFQ数据集的MCD 1分割（Keysers et al. ，2019）。反向：输入：1 3 3 7 2[END]输出：2 7 3 3 1[END]添加剂阴性：输入：# # - 3 6 7[9月] # # 1 4 9 1[结束]输出：# # 1 1 2 4[结束]交叉点：输入：a4 b1 f6[SEP] f7 a4 c3[END]输出：true[END]笛卡尔：输入：1 2 3 [SEP] a b [END]输出：1 a[SEP] 2 a[SEP] 3 a[SEP]1 b[SEP] 2 b[SEP] 3 b[END]重复：输入：1 3 5 7 2[END]输出：1 3 5 7 2 1 3 5 7 2[结束]添加：输入：# 3 6 7[SEP] # # 1 4 9 1[END]输出：# # 1 8 5 8[结束]+v：mala2277获取更多论文复制解码器输出概率（使用复制解码器）25p+2✕W✕1-wp输出概率1（无复制解码器）前馈D线性+Softma线性4添加规范前馈F线性+ReLu3编码器D添加规范前馈添加标准xl12月2日注意事项多头注意✕XH添加规范添加规范SoftmaxEnc2Enc注意事项XL12月212月注意事偏置+掩模绝对位置编码++解码器相对位置编码规模✕输入嵌入输出嵌入嵌入+V KQ输入输出1独热乙状线性+复制解码器注意Softmax从中间表示到最终输出QC图二：一个Transformer的例子，扩展了探索我们在本文中实验的不同维度所需的额外组件：（1）位置编码，（2）复制解码器，（3）模型大小（l，d，f，h），（4）权重共享，以及（5）中间表示。请注意，如果训练集和测试集来自相同的数据集，则这些数据集中的大多数都是微不足道的，并且大多数Transformer模型可以达到接近100%的准确率（除了一些硬任务，如笛卡尔积或集合交集）。因此，以需要组合泛化的方式分割训练和测试数据是关键（例如，具有在测试集中比在训练集中具有更大序列我们希望确保模型不只是学习捷径（Geirhos et al. ，2020年），其在分布内数据中工作良好，但不推广到分布外数据。4实证结果在本节中，我们提出了一个评估的组合泛化能力的变压器与不同的架构配置。具体而言，我们评估了：（1）位置编码的类型，（2）复制解码器的使用，（3）模型大小，（4）权重共享，以及（5）预测的中间表示的使用（见图2）。对于这个系统性的实验，我们使用了小型的Transformer模型，没有预先训练（所有模型都是从头开始训练的，因为大多数数据集都是合成的）。即使先前的工作已经报告了在一些合成任务中预训练的益处（例如，在CFQ（Furrer et al. ，2020年）），我们的目标是解开每个架构决策本身的影响，在寻找组成归纳偏见。我们的研究结果表明，虽然这些决定不会影响某些类型的合成概括任务，但我们在其他任务中看到了显着的收益。我们报告至少3次训练运行的平均值我们使用序列级别的准确性作为评估指标：即使只有一个错误的标记的输出序列也被认为是错误的。4.1位置编码虽然原始的Transformer模型（Vaswaniet al. ，2017）和BERT（Devlin et al. ，2018）使用绝对位置编码，后来的模型，如T5（Raffel etal. ，2019）或ETC（Ainslie et al. ，2020）使用相对位置编码（Shaw et al. ，2018）。相对位置编码为输入中的每对标记分配一个标签（通常表示它们在输入中的相对距离，直到最大半径）。因此，有一个标签用于标记参加一个标记我们比较以下位置编码：+v：mala2277获取更多论文--添加AddNeg ReverseDupCartIntersPCFG-p PCFG-s COGSCFQabsrel-erel-brel-ebrel2-erel2-eb0.0040.0020.0030.0180.0050.0110.4860.004 0.5010.3620.0540.5010。444 0.000 0.5000.0170.000 0.5040.0910.010Avg.零点一三七0.2240.1500.2330.3540.194 0.3740.978 0.7790.7370.138 0.3190.1170.0410.080 0.0020.056 0.253 0.000 0.5040.140 0.7080.1590.3530.2590.3220.0070.0320.010 0.000 0.5010.988 0.8300.7870.257 0.4520.249 0.2900.1020.0420.0070.0110.0490.0890.170 0.3220.126 0.2762019年12月31日0.4220.2770.4860.177 0.3040.174 0.4340.000 0.0030.042 0.000 0.000 0.000 0.5000.005表1：不同位置编码方法的序列级准确度粗体结果表示该表中每个数据集的最佳abs ：正弦绝对位置编码（如原始Transformer中所用）1.rel-e：相对位置编码，其中相对位置标签定义了在注意过程中添加到键我们使用的最大局部注意力半径为16，这意味着我们有以下相对位置标签l-16，l-15，.，l−1，l0，l1，.，l15，l16。距离超过16个位置的标记得到l-16或l16标签。Rel-B：相对位置定义了可学习的偏差，该偏差被添加到每个注意力对的注意力权重。这是T5使用的注意力机制（尽管他们使用对数方案来表示相对位置）。rel-eb：使用可学习的嵌入向量和可学习的偏置标量的相对位置。虽然相对位置对于编码器到编码器和解码器到解码器的注意是直接的，但是不清楚对于解码器到编码器的相对位置应该是什么因此，我们测试了三个备选方案（结果表中的rel 2-e、rel 2-b和rel 2-ebrel-*方法不使用解码器到编码器注意中的相对位置标签，并且rel 2-* do（其中，解码器中的令牌yi涉及编码器中的令牌x j，将具有标签lj-i。表 1 显示了小型变压器（ l=2 ， d=64 ，f=256，h=4）的序列级分类准确性。最右边的一列显示了所有数据集的平均精度，我们可以看到位置编码在模型的性能中起着非常重要的作用。Going from对于具有使用嵌入（但没有偏置项）的相对位置编码以及用于解码器到编码器注意的相对位置的模型，具有绝对位置编码的模型的0.137精度一般来说，几乎任何类型的相对位置编码都有帮助，但是使用嵌入式编码，1我们没有对可学习的绝对位置编码进行实验，因为我们数据集中的测试示例比训练过程中看到的任何东西都长，因此可能包含未经训练的嵌入。dings比使用偏见术语更有帮助此外，位置编码在算法任务中发挥着更大的作用。例如，在Add和AddNeg任务中，模型的精度从0.005和0.042到几乎完美的精度（rel 2-e模型的精度为0.988和0.830）。此外，像SCAN或CFQ这样的任务似乎不受位置编码的影响，并且使用仅带有偏置项的相对位置编码会对PCFG造成伤害。我们的假设是，相对位置编码允许模型学习位置不变的模式，更好地推广（特别是在算法任务）的分布外的例子。使用上面讨论的对称性的类比，相对位置允许模型发现和利用使用绝对位置编码不可能（或非常难以）找到的域中的4.2解码器类型许多任务（例如我们实验中使用的复制或PCFG我们实验中的复制解码器相当简单，工作原理如下（图2，左上角）。它假设输入和输出词汇表相同（我们在实验中使用输入和输出词汇表的并集对于输出中的给定标记xi（具有最终嵌入yi），除了词汇表中标记上的输出概率分布p1之外，复制解码器产生第二分布p2，然后通过权重w将其与p1混合。通过关注最后一个编码器层的输出来获得P2（使用来自Y1的可学习权重矩阵来计算关注查询，最后一个编码器层的嵌入被用作键，并且值是输入标记的独热表示）。结果是+v：mala2277获取更多论文添加AddNeg Reverse Dup Cart IntersSCAN-I SCAN-aj PCFG-pCOGS CFQAvg.ABSREL-EBrel2-eb0.0050.0030.042 0.000 0.000 0.000 0.5000.0110.486 0.444 0.0000.5000.000 0.0030.1740. 4340.1770.3040.1370.0890.0910.0110.0100.2570。4520.2490.2900.2330.9780.779七三七0.0170.5040.1940.3740.1590.3110.346abs-crel-eb-crel2-eb-c0.0060.0040.021 0.000 0.000 0.0000.5010.007 0.2710。460 0000。4130.000 0.003 0.2300.3900.5200.3010.026 0.0090.3420.5 410.4 740.3110.043 0.0100.3360.5 270.5 110.2950.1640.2380.9770.7910.5400.2830.0000.5280.403表2：具有和不具有复制解码的序列级准确度。粗体数字是该表中每个数据集的最佳结果。通过softmax层，得到p2。表2示出了具有和不具有复制解码器的模型的在最后一列中可以看到（平均），拥有复制解码器始终有助于性能，所有型号都使用复制解码器（abs-c，rel-eb- C和Rel 2-EB-C）优于它们的没有复制解码器的对应物。此外，我们看到复制解码器在PCFG和COGS中帮助最大，而在其他一些任务中似乎没有帮助最后，请注意，某些模型在Inters中的精度小于0.5，这（原则上）二进制分类任务。4.3模型大小接下来，我们比较改变层数（l）以及它们的大小（d，f，h）的效果。具体来说，我们测试了层数l等于2、4和6的模型，以及两种大小的层：小（d=64，f=256，h=4）和大（d=128，f=512，h=8）。我们将这些模型表示为小-2、小-4、小-6、大-2、大-4和大-6。鉴于我们之前的最佳配置是rel 2-eb-c，本节中的所有模型都是rel 2-eb-c的变体（有关我们模型的参数计数，请参见附录C）。表3显示了序列水平分类的准确性，显示了一些有趣的事实。首先，在大多数算法任务中，大小没有帮助。我们的假设是，学习这些任务所需的逻辑不需要太多参数，大型模型可能过拟合（例如，就像在复制中一样）。然而，有些数据集确实受益于大小。例如，大多数大型模型在PCFG的两种变体中都优于各自的小型模型。这些结果并不意外，因为大多数compo- sitional泛化数据集包含理想化的示例，通常通过某种形式的语法生成，并且具有非常小的词汇表（见表7）。因此，模型可能不会像复杂的自然语言任务那样从大小中受益我们看到的过度拟合可能会得到缓解，使用预训练（Furrer et al. ，2020）。4.4权重共享在本节中，我们将评估跨Transformer层共享权重的效果。当权重共享被激活时，来自编码器中所有层的所有可学习权重跨层共享，并且跨解码器的层也是如此。表4显示了模型的最终性能（与表3进行比较）。令人惊讶的是，权重共享显著提高了组合泛化精度，几乎所有模型在所有数据集上的平均精度都高于表3中的等效模型。特别是，AdditionNegatives 等数据集看到了显着的提升，其中几个模型实现了高于0.9的准确度（对于大6 s为0.982）。PCFG也显著受益于重量共享，大6s模型在生产力和系统性版本中分别达到0.634和0.828这高于文献中先前报道的结果（使用原始Transformer，这是一个更大的模型）： 0.50 和 0.72 （ Hupkes 等人，，2020）。此外，在PCFG（或SCAN）中实现良好的结果对于专用模型是微不足道的，但重要的成就是在通用模型中实现我们的假设是，在各层之间共享权重的模型可能具有更适合的归纳偏差，以学习重复应用于Transformer输入的原始操作（复制、反转、复制等）。4.5中间表示中间表示的关键思想是定义目标输出的不同表示，该表示更容易由模型生成，但可以很容易地映射到所需的输出。 Herzig et al.（Herzig et al. ，2021）最近在几项任务中使用这种技术显示出非常有希望的结果。为给定的数据集定义有用的中间表示并不简单，因此我们+v：mala2277获取更多论文COGS输入：一朵玫瑰得到了一个狗. [结束]CFQ输入：一个人嫁给了一个电影摄影师，影响了M1，影响了M2吗？中间输出：家长：-3--职位：- -类别：- 动词- -- 帮助------ 三个--主题-hocun名词限定词：- INEF-代理人--hocun--INDEF-动词名称：----------中间输出：public void run（*）{？x0 a ns：people.人。？x0ns：influence.influence_node.influenced {M1，M2}.？x1 a ns：film.cinematographer .电影摄影最终输出最终输出玫瑰（x _ 1）和帮助。 theme （ x_3 ， x_1 ）和help.agent（x_3，x_6）AND dog（x _6）[END]...？x0 ns：influence.influence_node.influencedM1。？x0 ns：influence.influence_node.influencedM2。添加AddNeg Reverse Dup Cart IntersSCAN-I SCAN-aj PCFG-s COGS CFQAvg.小-2小-4小-60.9770.7910.5400.283 0000.5280.0430.0100.3360.5 270.5110.2950。4030.9860.8350.676 0.5720.0000.5000.170 0.0000.4990.71 10.501 0.3010.4790.3750.9920.8350.225 0.000 0.0000.2030.1640.0020.5480.7410.4 76 0.312大-2大-4大-60.9830.8110.605 0.503 0.000 0.5000.6840.5 230.000 四百0。423 0.288 0.0000.1840.0010.5 35 0.758 0.498 0.2690.164 0.0040.5 130.7700. 462 0.3100.144 0.0000.5 300.7500. 451 0.2880。4710。4640.3980.9570.9780.7860.673表3：不同大小模型的序列级准确度所有模型均为表2中rel 2-eb-c模型的变体（small-2等效于rel 2-eb-c）。粗体结果表示该表中每个数据集的最佳结果添加AddNeg Reverse Dup Cart IntersSCAN-I SCAN-aj PCFG-s COGS CFQAvg.小2Ssmall-4ssmall-6s0.9920.9910.9930.8090.9550.9330.7800.7080.5050.7500.000 0.6990.580 0.000 0.500000 000 0.5000.022 0.0030.313 0.5010.1720.0170.5 34 0.7230.186 0.0000.5 62 零七八零0。450 0.3030。445 0.2920。454 0.2950.4680.4930。434大-2s大-4s大-6s0.9970.9910.9850.8940.9150.9820.8310.7710.2410.8480.000 0.5840.882万四百000 000 0.5000.0330.0020.5 11 0.6380.0020.5 89 七九一0。465 0.2920.4750.3270。454 0.3030.5080.5270。4270.1860.196万0.634零八二八表4：表3中所有模型的序列级准确度，但在层间共享权重图3：COG和CFQ的中间表示示例。对于COG，我们将任务定义为序列标记，并使模型为每个标记预测5个标记;对于CFQ，我们压缩了笛卡尔积。我们只在两个数据集上进行了实验：COGS和CFQ（图3）。4.5.1COGS的中间表示我们的COG中间表示将任务从seq2seq转换为序列标记任务。我们要求模型为每个输入标记生成5个标记：父标记、标记与其父标记之间的关系的角色（如果适用）、类别、名词限定词（对于名词）和动词名称（对于动词）。有了这五个标记，就可以确定性地构造原始这种表示的主要优点之一是，即使对于较长的输入，模型也会自然地产生具有正确长度的输出（改进对较长序列的泛化），这在seq2seq模型设置上更难。对于序列标记公式，我们仅使用了Transformer的编码器部分，并添加了五个预测头，以预测每个标记。对于角色、类别、名词限定词和动词名称，我们简单地使用了一个带有Sigmoid激活函数的密集层。对于父标签，我们尝试了3种不同的头部类型：Absolute使用了密集层使用Sigmoid激活来预测输入序列中父节点的绝对索引（-1表示没有父节点）。Relative预测父标记相对于当前标记的相对偏移量最后，Attention使用来自具有1个头部的新注意力层的注意力权重来预测父节点。表5显示了将这种新的标记方法与seq2seq方法进行比较的实验结果对于这两种方法，我们列出了Transformer在基本配置和有助于推广的配置中的性能（其他配置请参见附录D结构概括任务中的示例通常比训练集中的示例长，并且需要生产力。在原始COGS论文（Kim和Linzen，2020）中测试的所有模型（以及我们上面所有的seq2seq方法）在这一类别中的准确率均为0，而词汇任务的性能则参差不齐。小6sseq2seq模型将整体性能从0.278提高到0.475，但奇怪的是，在动词论元结构交替任务上的性能接近0，比基本的absseq2seq模型差。基于标记的中间表示+v：mala2277获取更多论文4040.0.8190.069 0.0030.0.196 0.0010.604seq2seq标记模型大小父编码ABS rel2-eb-c小-2小-6ABS REL-EBsmall-2 small-2s绝对注意力词汇泛化：基元与语法角色主语→宾语（普通名词）主语→宾语（专有名词）宾语→主语（普通名词）宾语→主语（专有名词）Prim noun→ Subject（commonnoun）0.3090.0980.7900.2070.2400.8990。4290.9360.9510.9130.9110.6300.9820.9930.9930.9690.8260.9780.9950.988基本名词→主语（专有名词）基本名词→宾语（普通名词）基本名词→宾语（专有名词）基本动词→不定式论元0.0190.7720.017零点九零二0.0000.5130.0000.7660.9740.9500.6510.9960.9530.700表6：原始CFQ和具有中间CFQ的CFQ词汇泛化：动词论元结构交替表示（CFQ-im）。排名前5的车型都是小型的主动→被动被动→主动省略宾语的及物动词→不及物动词→及物动词双宾语与格→PP与格PP与格→双宾语与格词汇泛化：动词类施事NP→非作格主语NP→宾语省略transj主语NP→非作格主语2750.0000.0030.0000.0040.6970.5350.5270.5280.5900.7710.948零八九七0.926零七八七0.9580.850具有2层的模型，并且最后四个模型是rel 2-eb-c的变体（在表3和4中使用）。学习. 因此，我们遵循了Herzig等人（2021）的相同思想，并定义了一个中间表示，消除了学习笛卡尔结构泛化：短语和语法角色目标模式PP→子模式PP000 0000.0000.299结构泛化：更深层次的递归深度概化：PP修改器0.003 0.000深度概括：句子复合000 000整体2780。4750.2330.7840.6370.0.6810.1380.000表5：对于seq2seq和序列标记模型，COGS中不同一般化子集PP代表介词短语。使用ging效果更好。基本的abs标记模型在一个结构化概括任务上获得了非零的性能，这表明强制执行正确的输出长度会有所帮助。最后，当直接从注意力权重预测父母时，结构概括任务的得分为0.2-0.7，明显好于我们之前接近0的得分（参见附录D中关于常见错误类型的讨论）。总的来说，序列标记中间表示实现了更高的准确性（底行），其中一个模型达到0.784（与0.475为我们以前的最佳模型），这是高于任何以前报道的性能在COGS的文献中，据我们所知。这表明编码器有能力正确地解析输入，但可能是解码器无法在完整的Transformer中从编码器生成正确的输出序列。4.5.2CFQ的中间表示CFQ数据集的难点之一是模型需要学习执行笛卡尔prod，UCT（例如，对于像在M1和M2中起作用？"，该模型需要扩展为“有向M1”、“有向M2”、“在M1中起作用”和“在M2中起作用”）。然而，正如我们上面的实验所示，这是一项非常艰巨的任务，产品通过允许形式的三元组（实体列表）- （关系列表）-（实体列表）。表6显示了基于CFQ和具有中间表示的版本（CFQ-im）的模型的序列级分类准确度。虽然Transformer模型上的不同变化对性能几乎没有影响，但是使用中间表示显著地提高了性能，从大多数Transformer模型的大约0.3精度提高到超过0.5，并且高达0.555对于rel-eb模型。这与Herzig等人报道的结果一致（2021年）。5讨论可以观察到的总体趋势是，算法任务似乎受到我们探索的不同架构设计决策的在所有数据集中，除了笛卡尔积，在我们的实验中至少有一个组合实现了高性能（接近 0.8 精度或更高）。这表明，我们可以给变形金刚不同的归纳偏差，足以学习这些任务。笛卡尔积仍然是未来工作的一个开放性挑战，其中一个最大的障碍是学习产生比训练期间更长的输出（输出是输入大小的二次函数）。有一些数据集，如SCAN-aj，我们没有看到性能的大幅提高主要的障碍是学习处理一个符号（我们试验的各种变化也不足以处理这种组合。据报道，一些尺寸-0.7710.784一千七九一0.7010.694零九六0.3990.9510.6880.9650.000 0.0010.930CFQCFQ-imABS0.3040.541雷尔-埃布0.2900.555rel2-eb0.3110.541rel-eb-c0.3110.541rel2-eb-c0.2950.519大-40.3100.541大-4s0.3270.474+v：mala2277获取更多论文在过去的折痕性能不包括在我们的研究。例如，Furrer等人（Furrer 等人，2020）报告了使用基于T5的大型（Raffel et al. ，2019）使用CFQ数据集中的预训练的模型。如果在其他数据集中也能观察到这样的收益，那将是很有趣的，这是我们未来工作的一部分。总之，不同的设计决策似乎会产生归纳偏差，使模型能够轻松地概括数据中的某些对称性（例如，原始操作的存在或对顺序或位置的不变性），这显著地改进了某些类型的合成概括。并不是所有类型的组合概括都可以用我们探索的维度来解决，但我们的结果表明，如果给予变形金刚正确的归纳偏差，它们可以比以前报道的更好地组合概括我们相信这是一个重要的结果，补充了可以解决其中一些数据集的专用架构的设计，但可能不会推广到其他数据集。最后，请注意，在我们所有的实验中，我们都使用了相对较小的模型。这样做是有目的的，因为我们的目标不是实现最先进的结果，而是探索不同设计决策的影响

下载后可阅读完整内容，剩余1页未读，立即下载