transformer中的LN
时间: 2023-09-24 13:13:45 浏览: 219
Layer Normalization (LN) 是一种在 Transformer 模型中使用的归一化方法。与 Batch Normalization (BN) 不同,LN 的归一化维度是互相垂直的,也就是沿着特征维度进行归一化。 LN 的作用是通过对每个样本的特征进行归一化,将其转化为均值为0、方差为1的分布,以便更好地应对动态网络和小批量情况下的训练。这样可以提高模型的稳定性和泛化能力。 在 Transformer 模型中,LN 在训练时是并行的,而在验证时是串行的。 通过 LN 的应用,可以更好地优化 Transformer 模型的训练效果和性能。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* [关于Transformer中常遇到的问题解答](https://blog.csdn.net/weixin_40920183/article/details/121173573)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
- *3* [Layer Normalization(LN) 层标准化 (为什么Transformer用LN)(手写手动实现LN)](https://blog.csdn.net/hxxjxw/article/details/120134012)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
阅读全文