首页吴恩达多头注意力机制

吴恩达多头注意力机制

时间: 2023-09-21 19:04:23 浏览: 120

注意力机制

5星 · 资源好评率100%

注意力机制在“编码器—解码器（seq2seq）”⼀节⾥，解码器在各个时间步依赖相同的背景变量（context vector）来获取输⼊序列信息。当编码器为循环神经⽹络时，背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码，然后将其传递给解码器以生成目标序列。然而这种结构存在着问题，尤其是RNN机制实际中存在长程梯度消失的问题，对于较长的句子，我们很难寄希望于将输入的序列转化为定长的向量而保存所有的有效信息，所以随着所需翻译句子的长度的增加，这种结构的效果会显著下降。与此同时，解码的目标词语可能只与原输入的部分词语有关，而并不是与所有的输入有关。例如，当把“Hello w

吴恩达在他的研究中提出了一种称为多头注意力机制（Multi-Head Attention）的方法。多头注意力机制是一种改进的自注意力机制，用于在自然语言处理和机器翻译等任务中提取输入序列中的相关信息。在传统的自注意力机制中，只有一个注意力头来计算注意力权重。而多头注意力机制引入了多个注意力头，通过并行计算多个不同的注意力权重，从而能够更好地捕获序列中的不同语义信息。具体来说，多头注意力机制包括三个主要步骤： 1. 线性映射：将输入序列通过不同的线性映射转换为不同的查询、键和值向量。 2. 注意力计算：对每个头，通过计算查询和键的相似度得到注意力权重，并将权重与值向量相乘得到每个头的注意力表示。 3. 多头拼接：将多个头的注意力表示拼接在一起，并经过线性变换得到最终的输出。多头注意力机制的优势在于能够同时关注输入序列中不同位置和语义信息，从而提高了模型的表达能力和表示效果。这种机制被广泛应用于各种自然语言处理任务中，如语言建模、机器翻译和文本生成等。

阅读全文