首页3.BERT为什么用LayerNorm不用BatchNorm

3.BERT为什么用LayerNorm不用BatchNorm

时间: 2024-06-18 09:02:17 浏览: 339

百度云提取.bert-large-uncased-pytorch_model.bin

bert-large-uncased-pytorch_model.bin 这是1024位的，资源过大，超过一个g，我放百度云上了 768位的看我的博客免费获取

BERT（Bidirectional Encoder Representations from Transformers）在模型训练过程中使用了Layer Normalization，而没有使用Batch Normalization。这是因为Batch Normalization是针对CNN等结构的优化，而不适合RNN、LSTM和Transformers等序列模型。而Layer Normalization适用于序列模型，因为它是在每个样本的同一特征上进行标准化，而不是在每个batch上进行标准化。这种方法对于较短的序列更加稳定，并且更易于并行化，因此在BERT中选择了Layer Normalization。

阅读全文