transformer未来掩码
时间: 2024-06-27 08:00:50 浏览: 263
transformer详解.docx
Transformer架构中的未来掩码(Future Mask)是一种用于训练自注意力模块的技术,特别是在序列到序列(Seq2Seq)模型中,如Transformer模型。未来掩码的目的是在生成式任务中防止模型看到未来的输入信息,从而保证模型只能依赖于已经观察到的信息进行预测,避免了预测时对未出现的数据的“窥视”。
具体来说,在Transformer的自注意力层计算注意力权重时,未来掩码会将对应时间步的输入设置为负无穷或零,使得模型在计算当前时间步的上下文关联时,不会考虑后续时间步的值。这样,当模型在解码阶段生成下一个词时,它只能基于已经生成的内容,而不能依赖未生成的部分。
阅读全文