Transformer模型：组合任务中的新突破与先进成果

59 浏览量更新于2024-06-19 收藏 696KB PDF 举报

"这篇论文探讨了Transformer模型在合成任务中的表现，揭示了模型设计空间的潜力，通过调整多个设计决策，使Transformer在合成任务中展现出更强的概括能力。实验结果显示，优化后的Transformer配置在COGS和PCFG等合成任务基准上达到最先进的性能，证明了深度学习架构解决组合任务的可能性。" 在自然语言处理（NLP）领域，Transformer模型因其在序列到序列任务中的优异性能而备受关注。然而，之前的研究指出Transformer在组合概括方面存在局限性，即模型难以学习并组合基本概念来处理未见过的复杂表达。这对于理解自然语言至关重要，因为人类语言经常涉及组合新概念。本论文作者深入研究了Transformer的设计空间，包括位置编码、解码器类型、权重共享、模型超参数以及目标任务的设定，发现这些因素对模型的归纳偏差有显著影响，进而影响其在合成任务中的表现。他们通过实证研究，使用12个专门设计的数据集（包括SCAN、PCFG、CFQ等）来衡量组合泛化的能力，验证了Transformer模型可以经过优化实现更好的组合概括。具体来说，作者提出了一些关键改进策略： 1. 位置编码：不同位置编码方法可能影响模型对序列顺序的理解，从而影响组合任务的处理。 2. 解码器类型：选择合适的解码器结构可以提高模型对输入序列结构的敏感性，有助于组合任务的解决。 3. 权重共享：适当的权重共享策略可以降低过拟合风险，增强模型泛化能力。 4. 模型超参数：调整模型的大小、层数、注意力头数量等超参数，可以平衡模型的复杂性和泛化性能。 5. 目标任务的制定：任务定义的清晰度和复杂性对模型学习组合规则的能力有很大影响。实验结果显示，优化后的Transformer配置在合成任务集合中取得了显著优于先前报告的结果，特别是在COGS（用于语义解析合成概括）和PCFG（用于字符串编辑操作合成）基准上达到了最先进的性能。这表明，深度学习架构有能力处理组合任务，打破了之前认为Transformer在此方面不足的观点。这一研究对于深化理解深度学习模型的归纳偏差以及如何提升其在复杂语言任务上的性能具有重要意义。通过调整模型设计，未来有可能开发出更强大的NLP模型，进一步逼近人类语言理解和生成的能力。

+v：mala2277获取更多论

文

SCAN-length /SCAN-add-jump：

输入：左看右看两次[END]

输出：I_TURN_RIGHT I_LOOK I_TURN_RIGHT I_LOOK

I_TURN_RIGHT I_LOOK I_TURN_RIGHT I_LEFT I_WALK

I_TURN_LEFT I_WALK[END]

PCFG-生产率/PCFG-系统性

输入： swap_first_last copy remove_second E18

E15 Q6，P15 L18 X10 I15 Y14[END]

输出：Q6 E15 E18[END]

COGS

输入：一朵玫瑰花得到了一只狗的帮助。[结束]

输出：rose（x _ 1）AND help . theme（x _ 3，x _ 1）和

help . agent（x _ 3，x _ 6）

与狗（x _ 6）[结束]

CFQ

输入：一个人嫁给了电影摄影师，影响了M1，影响了M2吗？

输出：SELECT count（*）WHERE {

？x0 a ns：people.人。

？x0 ns：influence.influence_node.influenced M1。

？x0 ns：influence.influence_node.influenced M2。

？x0 ns：人.人.配偶？x1。

？x1 a ns：film.cinematographer .电

影摄影师。FILTER（？x0！=？[结束]

图1：我们实验中使用的不同数据集的示例。

每个输入令牌指示序列顺序。

我们将使用l表示编码器/解码器层的数量，

表示令牌嵌入的维度，

表示前馈子层使用

的中间维度，h表示注意力子层中的

注意力头

的

原始的

Transformer

模型使用

、

512

、

2048和h

8作为其

基本

配置。在本文中，我

们使用的参数要小得多，因为我们正在评估相

对较小的数据集上的架构决策

评价数据集

我们使用了12个数据集的集合，需要不同类型

的合成概括。其中六个数据集由

“

算法

”

任务组

成并且其中六个是通常用于评估合成概括的标

准数据集（大多数涉及自然语言输入或输

出）。我们注意到，我们的al-taximic任务大

多需要

生产力

风格的合成概括，而其他数据集

也需要

系统性

或 synonimity （ Hupkeset al. ，

2020

）。具体而言，我们使用了以下数据集

（参见附录

中的表

和图

）：

加法（Add）：一个合成加法任务，输入包

含两个整数的数字训练集包含最多8位数字的

数字，测试集包含9位数字被填充以达到12的

长度

AdditionNegatives

（

AddNeg

）：与前一个

相同，但 25% 的数字是负数（前面有 - 符

号）。

Reversing（Reverse）：其中输出预期是以

相反顺序的输入序列。训练包含最多

位的序

列，测试集包含

到

之间的长度。

重复（Duplication，Dup）：输入是一个数

字序列，输出应该是相同的序列，重复两次。

训练包含最多

位的序列，测试从

到

。

Cartesian

（

Cart

）：输入包含两个符号序

列，输出应为它们的Cartesian乘积。训练包含

多达6个符号的序列（测试时为7或8个）。

Intersection

（

Interers

）：给定两个符号序

列，输出它们是否有非空的交集。训练包含

大小为1到16的集合，测试包含大小为17到24

的集合。

SCAN-length

（

SCAN-l

）：

SCAN

数据集的

长度分割

（

Lake

和

Baroni

，

2018

）。

SCAN-add-jump

（

SCAN-aj

）：

SCAN

数据

集的 add

原语跳转分割

（ Lake 和 Barroni ，

2018）。

PCFG生产率（PCFG-p）：PCFG数据集的

生产率分割（

Hupkes et al. PCFG-

系统性

（

PCFG-s

：

PCFG

数据集的系统性分割

（

Hupkes et al.

，

2020

）。

COGS

：

COGS

语义

解析数据集的泛化分割（Kim和Linzen，

2020

）。

CFQ-mcd 1

（

CFQ

）：

CFQ

数据集的

MCD 1

分割（Keysers et al. ，2019）。

反向：

输入： 1 3 3 7 2[END]

输出：2 7 3 3 1[END]

添加剂阴性：

输入： # # - 3 6 7[9月] # # 1 4 9 1[结束]

输出：# # 1 1 2 4[结束]

交叉点：

输入： a4 b1 f6[SEP] f7 a4 c3[END]

输出：true[END]

笛卡尔：

输入： 1 2 3 [SEP] a b [END]

输出：1 a[SEP] 2 a[SEP] 3 a[SEP]

1 b[SEP] 2 b[SEP] 3 b[END]

重复：

输入： 1 3 5 7 2[END]

输出：1 3 5 7 2 1 3 5 7 2[结束]

添加：

输入： # 3 6 7[SEP] # # 1 4 9 1[END]

输出：# # 1 8 5 8[结束]

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

Transformer模型：组合任务中的新突破与先进成果

python的基于transformer模型实现机器翻译任务源码+文档说明.zip

Transformer模型深度解析：构建先进聊天机器人

Transformer模型效率优化：一项综合调查

Transformer模型深度解析：智能问答背后的机制

Transformer模型深度解析：文本分类与情感分析实践

Transformer模型变体研究：FPGA时序约束与性能分析

Transformer模型深度解析：从NLP到CV的革命

Transformer模型深度解析：全注意力机制与并行计算

Transformer模型全览：从BERT到ChatGPT背后的预训练技术

Transformer模型评估指南：衡量模型表现的权威指标，让你的模型脱颖而出

最新资源