multi-head self attention
时间: 2023-05-03 20:00:55 浏览: 96
Transformer.ppt
多头自注意力(multi-head self attention)是一种在自然语言处理中常用的技术,通常用于获取输入序列中不同位置之间的关联关系。其基本思想是将输入中的每个位置转换为多个向量,然后使用注意力机制来计算这些向量之间的相似度,得到一个权重向量,将其与原始的输入向量相乘并相加,得到编码后的向量表示。这种方法可以在一定程度上提高模型的表示能力,并且还具有一定的解释性,能够帮助我们理解输入数据之间的关系。
阅读全文