transformer的结构
时间: 2023-10-01 15:11:16 浏览: 89
Transformer 析构
Transformer 是一种基于 self-attention 机制的神经网络结构,主要用于自然语言处理任务,如机器翻译、文本生成和问答等。
Transformer 的整体结构包括编码器(Encoder)和解码器(Decoder),每个部分都由多个相同的层(Layers)组成。Encoder 和 Decoder 的结构非常相似,但是在 Decoder 中还包括多头注意力机制(Multi-Head Attention)和 Masked Self-Attention。
每个层中包括两个子层,分别是 Multi-Head Attention 和 Feed-Forward Neural Network,这两个子层之间还有一个残差连接(Residual Connection)和一个层归一化(Layer Normalization)。其中 Multi-Head Attention 子层可以并行计算多个相对位置的注意力,而 Feed-Forward Neural Network 则是一个全连接的前馈神经网络。
整个结构的输入和输出都是词向量序列,其中 Encoder 的输出可以用于下游任务的特征提取,而 Decoder 的输出则可以用于生成文本或者回答问题等任务。
阅读全文