transformer为什么使用层归一化
时间: 2023-09-30 17:08:24 浏览: 255
再思考Transformer中的Batch Normalization.pdf
Transformer使用层归一化是为了解决深度神经网络中梯度消失和梯度爆炸的问题。在深度神经网络中,每一层的输入都需要经过一次线性变换和非线性变换,这个过程可能会导致输入数据的范围发生变化,使得后续层的输入数据范围差异较大,从而影响模型的训练效果。层归一化通过对每一层的输入数据进行标准化,使得每一层的输入数据的分布相对一致,有利于模型的训练和收敛。此外,层归一化还可以减少模型对超参数的依赖,提高了模型的泛化能力。
阅读全文