Transformer解码器端从注意力出来后呢
时间: 2023-07-15 12:14:21 浏览: 110
nlp中的Attention注意力机制+Transformer详解
在Transformer解码器端,当注意力计算完成后,会进行以下步骤:
1. 输入嵌入层:将上一个时间步的输出向量经过一个线性变换,再加上位置编码,得到当前时间步的输入嵌入向量。
2. 掩码多头自注意力:与编码器端类似,使用掩码多头自注意力模型,对当前时间步的输入嵌入向量进行加权求和,得到当前时间步的注意力向量。
3. 编码器-解码器多头注意力:使用编码器端的输出向量和当前时间步的注意力向量,运用编码器-解码器多头注意力模型,对其进行加权求和,得到当前时间步的上下文向量。
4. 多层前馈神经网络:对当前时间步的上下文向量进行线性变换和激活函数处理,得到当前时间步的输出向量。
5. 输出层:将当前时间步的输出向量经过一个线性变换,得到当前时间步的预测输出。
这些步骤会一直重复,直到输出的序列达到预定长度或者模型预测出结束标记。
阅读全文