从Feature到Queries 到Linear Mk到softmax到Linear Mv到output 帮我从这个角度解释external attention
时间: 2024-02-22 17:01:38 浏览: 115
人工智能 从小白到大神(案例·视频)-手工搭建神经网络
从"Feature到Queries到Linear Mk到softmax到Linear Mv到output"的角度来解释External Attention,可以将其分为以下几个步骤:
1. Feature:首先,输入序列经过一层线性变换,得到一组特征向量,表示输入序列中每个位置的信息。
2. Queries:然后,对于待处理的当前位置,将其特征向量通过另一层线性变换,得到一个查询向量(query),表示该位置的特征。
3. Linear Mk:接下来,将所有位置的特征向量再通过一层线性变换,得到一组键向量(keys),表示每个位置的特征对应的键(key)。
4. Softmax:然后,通过将当前位置的查询向量与所有位置的键向量做点积,得到一组相似度得分(similarity scores),表示当前位置与每个位置之间的相似程度。接着,通过对相似度得分进行softmax操作,将它们归一化为一个概率分布,得到每个位置的权重(weights)。
5. Linear Mv:接着,将所有位置的特征向量再通过一层线性变换,得到一组值向量(values),表示每个位置的特征对应的值(value)。
6. Output:最后,将每个位置的值向量乘以对应的权重,再将它们加权求和,得到当前位置的表示(output)。
综上所述,External Attention通过从输入序列中寻找与当前位置相关的信息,并对这些信息进行加权求和,实现了模型对输入序列中重要信息的捕捉和处理。
阅读全文