多头注意力机制的微观表示
时间: 2023-10-21 20:05:30 浏览: 36
多头注意力机制的微观表示是通过学习得到多组不同的线性投影来变换查询、键和值。然后,这些变换后的查询、键和值将并行地进行注意力池化。最后,将这些注意力池化的输出拼接在一起,并通过另一个可以学习的线性投影进行变换,以产生最终输出。这种设计被称为多头注意力,其中每个注意力池化输出被称为一个头。\[2\] 多头注意力机制通过并行处理不同的注意力表示,可以捕捉到不同层次和角度的信息,从而提高模型的表达能力和性能。\[1\]
#### 引用[.reference_title]
- *1* *3* [超越卷积、自注意力机制:强大的神经网络新算子involution](https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/115290937)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
- *2* [动手学深度学习(五十)——多头注意力机制](https://blog.csdn.net/jerry_liufeng/article/details/123054063)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]