Transformer模型解析:从注意力机制到Transformer

需积分: 13 10 下载量 201 浏览量 更新于2024-07-14 收藏 5.86MB PPTX 举报
"该资源是名为'From Attention to Transformer.pptx'的演示文稿,由Risheng Wang在2021年4月11日制作。内容涵盖了注意力机制、自注意力以及Transformer模型,同时提及了软注意力、硬注意力、挤压与兴奋网络(SENet)、自下而上与自上而下的注意力模型以及卷积块注意力模块(CBAM)等概念。" 在深度学习领域,尤其是自然语言处理和计算机视觉中,注意力机制(Attention)是一个关键的创新点,它允许模型根据任务需求动态地关注输入序列中的不同部分。注意力机制起源于机器翻译,后来逐渐发展出多种变体,如自注意力(Self-attention)。 1. 自注意力(Self-attention):这是Transformer模型的核心,首次在Transformer架构中被广泛采用。在自注意力中,每个输入元素都可以对其他所有元素进行加权求和,形成一个上下文向量,这样模型就能捕捉到序列内的长期依赖关系。自注意力分为查询(Query)、键(Key)和值(Value),通过计算查询和键之间的相似度来生成注意力权重,然后加权求和值以得到最终的表示。 2. Transformer模型:由Vaswani等人在2017年的论文中提出,完全基于自注意力和前馈神经网络,抛弃了传统的循环结构,大大提升了并行计算效率。Transformer在机器翻译、文本生成等任务上表现优秀,并成为现代NLP模型的基础,例如BERT、GPT系列。 3. 注意力的类型: - 软注意力(Soft attention):通过概率分布对输入进行加权,可以连续地聚焦于多个区域或通道,通常通过反向传播进行学习。 - 硬注意力(Hard attention):是一种非微分操作,通过概率直接选择某些区域,通常涉及强化学习方法来优化。 4. 挤压与兴奋网络(SENet):引入了通道注意力机制,通过全局池化和两层全连接网络来学习每个通道的重要性,从而对特征图的通道维度进行动态重塑。 5. 自下而上与自上而下的注意力模型:在图像理解和语义理解任务中,这种模型结合了自下而上的特征提取(从局部细节到全局理解)和自上而下的信息传递(从全局线索到局部细节),如在图像标题生成和视觉问答任务中的应用。 6. 卷积块注意力模块(CBAM):CBAM在卷积神经网络中添加了注意力机制,它分别在通道和空间两个维度上进行注意力推理,以提高模型的性能。通道注意力关注“什么”(哪些特征更重要),空间注意力关注“哪里”(哪些位置更重要),两者结合后对输入特征图进行适应性精细化。 这些内容展示了注意力机制如何从最初的简单形式发展到复杂和多维度的模型,以及它们如何在不同的任务中发挥作用,增强模型的理解和表达能力。