attention scalar
时间: 2023-08-02 12:11:15 浏览: 41
根据引用\[3\]中的描述,attention scalar是指在注意力机制中对注意力权重进行缩放的操作。在计算注意力权重时,首先通过对输入向量进行一系列的变换得到一个表示重要程度的值s,然后对s进行缩放操作,即乘以一个值,这个值可以是任意的常数。接着,对缩放后的s进行softmax操作,将其转化为一个概率分布,得到注意力权重p。注意力权重p表示了每个序列在注意力机制中的重要程度。所以,attention scalar是用来对注意力权重进行缩放的操作。
#### 引用[.reference_title]
- *1* *2* [基本的Attention原理](https://blog.csdn.net/qq_30366667/article/details/88648726)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item]
- *3* [2.一脚踹进ViT——Attention机制原理及实现](https://blog.csdn.net/qq_45807235/article/details/127707823)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]