multi head transformer
时间: 2023-11-20 09:05:31 浏览: 69
多头变压器(multi-head transformer)是一种基于注意力机制和自注意力机制的序列到序列模型。它由多个头(head)组成,每个头都有自己的注意力权重矩阵和参数矩阵。在编码器(encoder)部分,多头变压器的一层结构包括多头注意力、全连接层和稠密层。可以堆叠多个这样的层来增加模型的深度。在解码器(decoder)部分,底层是一个多头注意力层,然后将编码器和解码器合并成一个多头注意力层,最后通过稠密层和全连接层输出结果。整个模型的输入和输出大小是相等的。多头变压器不同于循环神经网络(RNN),它没有循环结构,而是基于注意力和自注意力机制。在机器翻译等任务中,多头变压器已经取代了RNN成为主流模型。\[1\]\[2\]\[3\]
#### 引用[.reference_title]
- *1* [注意力机制----Multi-Head Attention 和 transformer](https://blog.csdn.net/weiwei935707936/article/details/109564082)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item]
- *2* *3* [图解Transformer模型(Multi-Head Attention)](https://blog.csdn.net/black_shuang/article/details/95384597)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]
阅读全文