transformer如何表现并行性
时间: 2023-11-12 11:59:13 浏览: 117
Transformer
Transformer 通过自注意力机制(self-attention mechanism)实现了并行计算。在自注意力机制中,每个词向量都可以同时与所有其他词向量进行计算,因此可以并行计算。此外,Transformer 还使用了多头注意力机制(multi-head attention mechanism),将输入向量分成多个子空间,每个子空间都进行自注意力计算,然后将结果拼接起来,从而进一步提高了并行性。
阅读全文