Transformer自注意力机制图
时间: 2023-11-14 13:05:52 浏览: 81
Self-Attention与Transformer
5星 · 资源好评率100%
在Transformer中,自注意力机制是最重要的模块之一。它由三个输入组成:查询(Q)、键(K)和值(V)。自注意力机制能够通过计算查询和键之间的相似度来为每个查询选择相关的值。然后,通过对这些值进行加权求和,我们就能得到自注意力机制的输出。
下面是Transformer自注意力机制的图示:
```
Q
|
↓
Softmax
|
↓
K^T
|
↓
Attention Weights
|
↓
V
|
↓
Weighted Sum
|
↓
Output
```
在这个图示中,我们首先计算查询与键之间的相似度,然后通过Softmax函数将相似度转化为注意力权重,接着将权重应用于值上,最后对加权后的值进行求和得到输出。
阅读全文