自注意力机制公式详解
时间: 2023-08-19 21:09:57 浏览: 84
自注意力机制是一种注意力机制,它可以更多地关注输入中的关键信息。它可以看作是multi-head attention的一种特殊情况,其中输入数据是相同的。自注意力机制的基本原理是通过计算输入序列中每个元素与整个序列的注意力权重,从而实现动态的全连接层。\[1\]
具体来说,自注意力机制可以分为多个one head attention的并行组合。每个one head attention由scale dot-product attention和三个相应的权值矩阵组成。scale dot-product attention是通过计算查询、键和值之间的点积,然后进行缩放和softmax操作来计算注意力权重。这些权重用于加权求和值,从而得到最终的输出。\[3\]
总结起来,自注意力机制通过计算输入序列中每个元素与整个序列的注意力权重,从而更好地捕捉关键信息。它是许多神经网络模型中的重要组成部分,特别是在transformer模型中应用广泛。\[1\]\[3\]
#### 引用[.reference_title]
- *1* *3* [自注意力(Self-Attention)与Multi-Head Attention机制详解](https://blog.csdn.net/weixin_60737527/article/details/127141542)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v4^insert_chatgpt"}} ] [.reference_item]
- *2* [机器学习中的自注意力(Self Attention)机制详解](https://blog.csdn.net/qq_39438086/article/details/103107545)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v4^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]