transformer使用LayerNorm
时间: 2023-11-11 09:58:11 浏览: 235
LayerNorm是Transformer的最优解吗?.rar
Transformer网络中的LayerNorm是一种归一化技术,用于规范每个特征的统计分布,使其具有相同的均值和方差。在Transformer中,对于每个子层(自注意力层或前馈神经网络层),都会在输入之后应用一个LayerNorm层,然后再将结果传递给下一个子层。
LayerNorm的公式如下:
$$
\mathrm{LayerNorm}(x)=\gamma \odot \frac{x-\mu}{\sqrt{\sigma^{2}+\epsilon}}+\beta
$$
其中,$x$是输入向量,$\mu$和$\sigma$分别是其均值和标准差,$\gamma$和$\beta$是可学习的缩放因子和平移因子,$\epsilon$是为了数值稳定性而添加的小常数。
与其他归一化技术不同,LayerNorm不是对每个样本进行归一化,而是对每个特征进行归一化。这种方法可以提高模型的鲁棒性,并且适用于小批量训练。
阅读全文