Transformer解析：自注意力与NLP应用

需积分: 47 130 浏览量更新于2024-09-03 1 收藏 917KB PDF 举报

"Transformer解读.pdf，该资源是作者阅读Peter Bloem关于Transformer深入解析博客后的笔记，主要探讨了Transformer的核心组成部分——注意力机制，特别是自注意力(self-attention)的原理及其在自然语言处理(NLP)中的应用。" Transformer模型是深度学习领域中一种革命性的架构，由Google在2017年的论文《Attention is All You Need》中提出，主要用于序列数据的建模，尤其是在自然语言处理任务中。它的核心创新在于完全依赖于注意力机制，而不是传统的RNN（循环神经网络）或CNN（卷积神经网络）。注意力机制在Transformer中扮演着至关重要的角色。它允许模型在处理序列时，不仅关注当前位置，还能考虑到序列中的其他位置。在传统的注意力机制中，每个位置的查询(query)可以与所有位置的键(key)进行匹配，匹配程度由得分函数（通常是点积）决定，并通过softmax归一化，形成权重，然后加权求和得到注意力分布。自注意力机制进一步扩展了这一概念，它不再需要额外的上下文信息，而是让序列中的每个元素都作为查询、键和值。这意味着每个位置的向量都能根据序列中所有其他位置的向量来计算其权重，从而捕捉到全局依赖关系。由于自注意力机制忽略了输入的顺序，这使得Transformer能够并行处理序列，大大提高了计算效率。在NLP任务中，Transformer首先将输入的词汇转换为词嵌入(Embedding)，这通常通过一个预训练的词嵌入层（Embedding Layer）完成。每个词被赋予一个固定长度的向量表示，这些向量就是模型需要学习的参数。接下来，自注意力层会对这些词嵌入进行处理，计算每个位置的向量与序列中所有其他位置的向量的点积，然后通过softmax函数将这些点积转换为概率分布，用于加权求和。自注意力层的输出向量反映了输入序列中各位置之间的关系。对于那些在语义上不重要的词，比如冠词“the”，由于其与其它词的点积较低，其在注意力分布中的权重也会相对较小，从而在最终的输出中对其它重要信息的影响减小。 Transformer通过自注意力机制实现了对序列数据的高效建模，它在翻译、问答、文本生成等NLP任务中表现出色，已经成为现代NLP系统的基础组件。Transformer的这种设计思路也启发了后续许多模型的改进，例如BERT、GPT系列等预训练模型，它们进一步推动了NLP领域的进步。



经Embedding Layer：

经Self-Attention Layer：



y的计算方法即如本文开篇所述的方法。

因为我们正在学习的值，则如何联系两个词，完全取决于任务。

对于不太重要的单词(the)，则其与其他词的点积会很低或为负。

对于在句子中占有重要作用的词(cat walk)，则它们之间可能拥有更高的为正的点积。



这是注意力机制对于注意力的最直接的表现；

具体的学习任务定义“相关(related)”的概念，点积(dot product)表示输入句子中两个向量的相关性。



Seq2Seq中并不常见，但值得注意的性质：

1. 实际上，并没有参数。

自注意力机制实际做什么完全取决于创建输入序列的机制；

上游操作(Embedding Layer)，通过学习具有特定点积的表示来驱动自注意力。

2. (无序性)：self-attention将其输入看作集合(Set)，而非序列；因为即便改变输入的序列，输出的序

列除了置换了输出的序列之外，实际上对于每个输出来说，还是相同的。

因此，self-attention实际上忽略了输入的有序性。



PyTorch实现basic self-attention:

What I cannot create, I do not understand, as Feynman said.

两次矩阵乘积以及一次softmax构成了self-attention.



Tricks:

1. Queries, keys and values

剩余11页未读，继续阅读

RaySunWHUT

粉丝: 74
资源: 6

Transformer解析：自注意力与NLP应用

3.Transformer模型原理详解.pdf

PCB技术中的PCB基板材质的选择

Transformer介绍讲义pdf

DeformableDERT的公式解读.pdf

ChatGPT技术原理解读.pdf

基于 CNN-Transformer 的深度学习模型探究.pdf

台湾硬件工程师15年layout资料.pdf.pdf

Transformer-Design-and-Design-Parameters.pdf

计算机行业周报：计算机视角解读ChatGPT投资机会.pdf.zip

运维角度解读电压互感器.pdf

最新资源