transformer padding mask
时间: 2023-11-14 14:10:52 浏览: 233
transformer灵魂21问
Transformer中的padding mask是用来处理输入序列中的padding部分的。在输入序列中,有些位置是被padding填充的,这些位置的值是0,但是在计算attention时,这些位置也会被考虑进去,这会影响模型的性能。因此,我们需要使用padding mask来将这些位置的权重设置为0,从而使得模型不会在这些位置上计算attention。
具体来说,padding mask是一个与输入序列相同形状的矩阵,其中padding部分对应的位置为1,非padding部分对应的位置为0。在计算attention时,我们将padding mask与注意力矩阵相乘,从而将padding部分的权重设置为0。
阅读全文