transformer的结构组成
时间: 2023-06-30 18:19:12 浏览: 88
变频器的构成
Transformer是由多个Transformer Block组成的,每个Transformer Block又包含多个子层。一个标准的Transformer Block中包含两个子层,即多头自注意力机制(Multi-Head Self-Attention)和全连接前馈网络(Feed-Forward Network),同时还有一个残差连接和层归一化(Layer Normalization)。
具体来说,每个Transformer Block的结构如下:
1. 第一层:多头自注意力机制(Multi-Head Self-Attention):
- 输入:序列的嵌入表示
- 输出:序列的上下文表示
2. 第二层:全连接前馈网络(Feed-Forward Network):
- 输入:序列的上下文表示
- 输出:序列的新的嵌入表示
3. 残差连接和层归一化(Residual Connection and Layer Normalization):
- 输入:第一层和第二层的输出
- 输出:本层的最终表示
阅读全文