首页vision transformer里的selfattention

vision transformer里的selfattention

时间: 2023-09-30 17:11:18 浏览: 111

Self-Attention与Transformer

5星 · 资源好评率100%

1.由来在Transformer之前，做翻译的时候，一般用基于RNN的Encoder-Decoder模型。从X翻译到Y。但是这种方式是基于RNN模型，存在两个问题。一是RNN存在梯度消失的问题。（LSTM/GRU只是缓解这个问题）二是RNN 有时间上的方向性，不能用于并行操作。Transformer 摆脱了RNN这种问题。 2.Transformer 的整体框架输入的x1,x2x_{1},x_{2}x1,x2，共同经过Self-attention机制后，在Self-attention中实现了信息的交互，分别得到了z1,z2z_{1},z_{2}z1,z2，将z1,z2

Vision Transformer (ViT) 是一种基于自注意力机制的视觉模型。其中的 self-attention 是一种计算方式，用于将输入特征图中的每个位置与其他位置之间建立联系。它可以通过计算输入特征图中每个位置的相似度来确定哪些位置应该被关注，哪些位置应该被忽略。在 ViT 中，self-attention 用于捕捉输入特征图中的全局上下文信息，而不是像传统的卷积神经网络一样只关注局部区域。这种全局上下文信息可以帮助模型更好地理解图像，并提高其在不同任务上的性能。

阅读全文