cross attention和self attention在实现上的区别
时间: 2024-05-14 12:10:02 浏览: 142
第二节:Attention && Transformer
cross attention和self attention是在Transformer模型中常用的注意力机制。
Self attention是指在一个序列中,每个位置都可以与其他位置进行交互计算注意力权重。具体实现上,通过将输入序列进行线性变换得到查询(Q)、键(K)和值(V)三个向量,然后计算注意力权重,最后将注意力权重与值向量进行加权求和得到输出。
Cross attention是指在两个不同的序列之间进行交互计算注意力权重。具体实现上,通过将输入序列进行线性变换得到查询(Q)、键(K)和值(V)三个向量,其中一个序列作为查询序列,另一个序列作为键值序列,然后计算注意力权重,最后将注意力权重与值向量进行加权求和得到输出。
总结起来,self attention是在一个序列内部进行交互计算注意力权重,而cross attention是在两个不同的序列之间进行交互计算注意力权重。
阅读全文