transformer总体架构图
时间: 2024-09-28 10:01:34 浏览: 34
Transformer是一种基于自注意力机制的深度学习模型,它由维克托·奥尔什维茨(Vaswani)等人于2017年在论文《Attention is All You Need》中提出,主要用于处理序列数据,比如自然语言处理任务。Transformer的主要架构包括以下几个关键部分:
1. **输入嵌入**(Input Embedding):每个输入元素(如词、字符等)通过查找表(Embedding Look-up Table)映射成密集向量。
2. **位置编码**(Positional Encoding):为了保持对序列中元素相对顺序的敏感性,即使在网络中没有循环结构,也会添加位置信息到输入向量上。
3. **多层自注意力模块**(Multi-head Self-Attention):这是Transformer的核心部分,包含多个并行的注意力头,可以同时关注输入的不同方面。每层通常由自我注意力块(Self-Attention Block)、前馈神经网络(Feedforward Network)和残差连接(Residual Connections)组成。
4. **层间归一化**(Layer Normalization):在每一层的开始和结束,会对整个层的输出进行标准化,有助于稳定训练过程。
5. **点积注意力**(Scaled Dot Product Attention):用于计算每个位置元素与其他位置的相关性,然后将加权后的值作为查询结果。
6. **残差连接**(Residual Connections):允许信息直接从一层传递到下一层,增强网络的表达能力。
7. **堆叠多层**(Stacking Multiple Layers):通过堆叠多层Transformer,形成深度模型,提高模型的表示能力。
阅读全文