transformer masked
时间: 2023-09-28 20:03:39 浏览: 256
Transformer最新综述
引用中提到,在Transformer的Decoder中,使用了Masked Multi-Head Attention。这意味着在Decoder的Self-Attention过程中,每个位置只能注意到它之前的位置,而不能注意到它之后的位置。这是通过在输入中引入一个下三角的掩码矩阵来实现的,矩阵中的无效位置被置为0,有效位置被置为1。这样可以确保Decoder在生成每个位置的输出时只能依赖于之前的位置的信息。
引用中提到,在计算输入的Self-Attention时,也需要进行掩码处理以忽略填充的位置。这是通过计算输入向量之间的相似性来实现的,然后根据相似度得到掩码矩阵。具体做法是将一个向量乘以它的转置,然后取反,得到的矩阵中值为0的位置表示无效的位置。这样可以确保在计算输入的Self-Attention时,只考虑有效的位置之间的关系。
综上所述,Transformer中的Masked Multi-Head Attention用于在Decoder中限制每个位置只注意到之前的位置,而忽略之后的位置。同时,在计算输入的Self-Attention时,也需要进行掩码处理以忽略填充的位置,确保只考虑有效位置之间的关系。<span class="em">1</span><span class="em">2</span><span class="em">3</span><span class="em">4</span>
阅读全文