transformer八股
时间: 2023-08-28 08:08:21 浏览: 153
Transformer是一种使用注意力机制的深度学习模型,可以并行训练以避免递归,从而加快训练速度。 在自然语言处理(NLP)中,Transformer使用了前馈神经网络(feed forward),而在计算机视觉(CV)中,这部分被替换为多层感知机(MLP),其本质上也是一种前馈神经网络。前馈神经网络的作用是添加非线性,增强模型的表达能力。
另外,Transformer还使用了残差连接,其目的是通过将输入和输出相加,使得模型能够更容易地学习到残差信息。这种连接方式有助于避免梯度消失和梯度爆炸问题,同时也提高了模型的训练效果。
与之相对的是,在计算机视觉中,常用的是多尺度的卷积核进行卷积操作,然后将卷积后的特征图进行拼接,以使每个通道具有不同的感受野。这样可以在不增加计算量的情况下,提高网络的宽度(每层的通道数)和深度。这种结构被称为Inverted Residual或Linear Bottleneck Inverted Residual。
综上所述,Transformer模型在深度学习中起到了重要的作用,它采用了注意力机制和前馈神经网络来处理输入数据,并使用残差连接来提高模型性能。同时,在计算机视觉中也可以应用多尺度卷积和特殊的连接方式来增强网络的表达能力。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* [transformer八股文知识点整理](https://blog.csdn.net/weixin_41994778/article/details/129271275)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"]
- *2* *3* [深度学习CV八股文](https://blog.csdn.net/weixin_39994739/article/details/122864848)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
阅读全文