TASK04-注意力机制注意力机制-机器翻译机器翻译-Transformer
将注意力机制放到这里,以后会用到。将注意力机制放到这里,以后会用到。
练习题放在最前面:
关于Transformer描述正确的是:
在训练和预测过程中,解码器部分均只需进行一次前向传播。
Transformer 内部的注意力模块均为自注意力模块。
解码器部分在预测过程中需要使用 Attention Mask。
自注意力模块理论上可以捕捉任意距离的依赖关系。
答案解释
选项1:训练过程1次,预测过程要进行句子长度次
选项2:Decoder 部分的第二个注意力层不是自注意力,key-value来自编码器而query来自解码器
选项3:不需要
选项4:正确,因为自注意力会计算句子内任意两个位置的注意力权重
2.
在Transformer模型中,注意力头数为h,嵌入向量和隐藏状态维度均为d,那么一个多头注意力层所含的参数量是:
4hd24hd^24hd2
(3h+1)d2(3h + 1)d^2(3h+1)d2
4d24d^24d2
3hd23hd^23hd2
答案解释
参考MultiHeadAttention模块的定义。
hhh个注意力头中,每个的参数量为3d23d^23d2,最后的输出层形状为hd×dhd imes dhd×d,所以参数量共为
4hd24hd^24hd2。
3.
下列对于层归一化叙述错误的是:
层归一化有利于加快收敛,减少训练时间成本
层归一化对一个中间层的所有神经元进行归一化
层归一化对每个神经元的输入数据以mini-batch为单位进行汇总
层归一化的效果不会受到batch大小的影响
答案解释
批归一化(Batch Normalization)才是对每个神经元的输入数据以mini-batch为单位进行汇总
选择题
1.
以下对于注意力机制叙述错误的是:
注意力机制借鉴了人类的注意力思维方式,以获得需要重点关注的目标区域。
在计算注意力权重时,key 和 query 对应的向量维度需相等。
点积注意力层不引入新的模型参数。