transformer层归一化
时间: 2023-10-20 12:07:08 浏览: 96
层归一化:Transformer模型的稳定器
Transformer中的归一化主要是通过Layer Normalization和Batch Normalization来实现的。Layer Normalization是对每个样本的每个特征维度进行归一化,而Batch Normalization是对每个特征维度在一个batch内进行归一化。相比之下,Layer Normalization更适合在RNN等序列模型中使用,而Batch Normalization更适合在CNN等卷积模型中使用。
阅读全文