多头注意力和自注意力
时间: 2023-09-13 22:08:48 浏览: 105
多头注意力和自注意力是用于处理序列数据的注意力机制。
自注意力是指在一个序列中的每个元素都与该序列中的其他元素进行注意力计算,以学习序列内部的词依赖关系,捕捉序列的内部结构。在自注意力中,每个元素的查询(Q)、键(K)和值(V)都是该序列中的所有元素。通过计算Q和K的相似度得到注意力权重,再将权重与V相乘得到最终的输出。这种机制可以帮助编码器在对每个单词编码时关注输入序列的其他单词。
而多头注意力是在自注意力的基础上进行了扩展。它将自注意力计算进行了多次,每次使用不同的线性变换参数,得到多个注意力头。每个头都可以学习到不同的信息表示,并将多个头的注意力结果进行拼接。这样做的好处是允许模型在不同的表示子空间中学习到相关的信息,提高了模型的表达能力。多头注意力在Transformer模型中被广泛使用,用于处理各种序列任务,如机器翻译、语言模型等。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* [自注意力(self-attention)和多头注意力(multi-head attention)](https://blog.csdn.net/weixin_44378835/article/details/125110663)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
- *2* *3* [【注意力机制】多头注意力、自注意力、层归一化、位置嵌入](https://blog.csdn.net/qq_39763246/article/details/124216620)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
阅读全文