Transformer的mask原理
时间: 2023-05-13 18:06:10 浏览: 203
深度学习-transformer解读
Transformer的mask原理是在self-attention计算中,为了避免当前位置的词语与后面的词语产生关联,需要在计算时将后面的词语的权重设为0,这样就可以避免后面的词语对当前位置的影响。这个过程就是通过mask实现的。在Transformer中,有两种mask:padding mask和sequence mask。padding mask用于将填充的位置的权重设为0,sequence mask用于将当前位置之后的位置的权重设为0。
阅读全文