首页transformer masked

transformer masked

时间: 2023-09-28 20:03:39 浏览: 256

Transformer最新综述

Transformer 在自然语言处理、计算机视觉、音频处理等许多人工智能领域都取得了巨大的成功，也吸引了学术界和行业研究人员的大量兴趣。到目前为止，已经有各种各样的 Transformer 变体（又名 X-former）被提出，但是，关于这些 Transformer 变体的系统而全面的文献综述仍然缺失。这篇综述对各种 X-former 进行了全面介绍。

引用中提到，在Transformer的Decoder中，使用了Masked Multi-Head Attention。这意味着在Decoder的Self-Attention过程中，每个位置只能注意到它之前的位置，而不能注意到它之后的位置。这是通过在输入中引入一个下三角的掩码矩阵来实现的，矩阵中的无效位置被置为0，有效位置被置为1。这样可以确保Decoder在生成每个位置的输出时只能依赖于之前的位置的信息。引用中提到，在计算输入的Self-Attention时，也需要进行掩码处理以忽略填充的位置。这是通过计算输入向量之间的相似性来实现的，然后根据相似度得到掩码矩阵。具体做法是将一个向量乘以它的转置，然后取反，得到的矩阵中值为0的位置表示无效的位置。这样可以确保在计算输入的Self-Attention时，只考虑有效的位置之间的关系。综上所述，Transformer中的Masked Multi-Head Attention用于在Decoder中限制每个位置只注意到之前的位置，而忽略之后的位置。同时，在计算输入的Self-Attention时，也需要进行掩码处理以忽略填充的位置，确保只考虑有效位置之间的关系。1234

阅读全文