3.BERT为什么用LayerNorm不用BatchNorm
时间: 2024-06-18 09:02:17 浏览: 339
百度云提取.bert-large-uncased-pytorch_model.bin
BERT(Bidirectional Encoder Representations from Transformers)在模型训练过程中使用了Layer Normalization,而没有使用Batch Normalization。这是因为Batch Normalization是针对CNN等结构的优化,而不适合RNN、LSTM和Transformers等序列模型。而Layer Normalization适用于序列模型,因为它是在每个样本的同一特征上进行标准化,而不是在每个batch上进行标准化。这种方法对于较短的序列更加稳定,并且更易于并行化,因此在BERT中选择了Layer Normalization。
阅读全文