深度学习注意力机制有哪些
时间: 2023-11-30 08:18:49 浏览: 73
CBAM注意力机制(MatLab代码实现)
深度学习中常用的注意力机制包括以下几种:
1. Scaled Dot-Product Attention:将查询向量和键向量进行点积,再除以一个缩放常数,最后通过 Softmax 函数进行归一化得到权重,再将权重乘上值向量得到注意力向量。
2. Multi-Head Attention:将输入的查询、键和值分别经过多个注意力头,得到多个注意力向量,再将这些向量进行拼接。
3. Self-Attention:输入的查询、键和值都来自同一个序列,即自己和自己进行注意力计算。
4. Sparse Attention:在计算注意力时,只考虑与查询向量相似度最高的若干个键向量。
5. Local Attention:只计算与查询向量相邻的一段键向量的注意力。
6. Relative Attention:针对序列的相对位置信息,计算相对位置向量和查询向量之间的相似度,作为注意力权重。
7. Masked Attention:在计算注意力时,屏蔽某些键向量,使得注意力只能关注未来的信息(解决自回归模型中的信息泄漏问题)。
阅读全文