transformer层归一化
时间: 2023-10-20 17:07:08 浏览: 100
再思考Transformer中的Batch Normalization.pdf
Transformer中的归一化主要是通过Layer Normalization和Batch Normalization来实现的。Layer Normalization是对每个样本的每个特征维度进行归一化,而Batch Normalization是对每个特征维度在一个batch内进行归一化。相比之下,Layer Normalization更适合在RNN等序列模型中使用,而Batch Normalization更适合在CNN等卷积模型中使用。
阅读全文