首页transformer中的LN

transformer中的LN

时间: 2023-09-24 13:13:45 浏览: 219

Layer Normalization (LN) 是一种在 Transformer 模型中使用的归一化方法。与 Batch Normalization (BN) 不同，LN 的归一化维度是互相垂直的，也就是沿着特征维度进行归一化。 LN 的作用是通过对每个样本的特征进行归一化，将其转化为均值为0、方差为1的分布，以便更好地应对动态网络和小批量情况下的训练。这样可以提高模型的稳定性和泛化能力。在 Transformer 模型中，LN 在训练时是并行的，而在验证时是串行的。通过 LN 的应用，可以更好地优化 Transformer 模型的训练效果和性能。123 #### 引用[.reference_title] - *1* *2* [关于Transformer中常遇到的问题解答](https://blog.csdn.net/weixin_40920183/article/details/121173573)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [Layer Normalization(LN) 层标准化 (为什么Transformer用LN)(手写手动实现LN)](https://blog.csdn.net/hxxjxw/article/details/120134012)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

阅读全文