transformer mask
时间: 2023-07-30 13:10:03 浏览: 142
transformer
Transformer中的mask是指在自注意力机制中,对于当前位置的输入,通过屏蔽掉一些位置的信息,使得模型无法看到这些被屏蔽的位置。Transformer模型中常用的mask有两种:padding mask和sequence mask。
1. Padding mask(填充屏蔽):在输入序列中,由于不同句子长度不一致,需要进行填充操作使得所有句子长度相同。填充的部分通常用特殊的填充符号来表示。在进行自注意力计算时,需要将填充部分的信息屏蔽掉,以避免模型利用填充符号进行计算。Padding mask就是将填充符号位置对应的权重设为负无穷大,使得在softmax计算时填充部分的权重趋近于零。
2. Sequence mask(序列屏蔽):在解码阶段,为了避免当前位置的预测受到后续位置的干扰,需要将后续位置的信息屏蔽掉。Sequence mask是通过将当前位置之后的位置权重设置为负无穷大来实现的。
这些mask操作可以确保Transformer模型在计算自注意力时只关注有效的位置信息,避免填充部分或未来位置的干扰。
阅读全文