超复数transformer
时间: 2023-09-27 18:05:27 浏览: 232
超级转换
超复数transformer是指在transformer模型中引入了超复数运算的变种。超复数是一种拓展了复数的数学概念,它包括了实部和虚部之外的两个额外维度。超复数的引入可以增加模型的表示能力,提高对复杂数据的建模能力。
在超复数transformer中,除了使用传统的加法和点乘操作,还引入了超复数乘法和超复数的共轭操作。超复数乘法可以将不同维度的信息进行交互,而超复数的共轭操作可以对信息进行复制和共享。
超复数运算在计算attention时具有一定的优势。传统的加法注意力机制将不同维度的信息进行加权求和,而点乘注意力机制则是将不同维度的信息进行逐元素相乘。相比之下,超复数运算能够更加灵活地处理不同维度之间的关系,同时具有更高的计算效率。
通过引入超复数变换,超复数transformer可以更好地捕捉输入数据中的复杂关系,提高模型的性能和泛化能力。
引用: 2、x.reshape(a,b) 列数先乘以b倍,再行数乘以a倍。即对x先横向复制b倍,再纵向复制a倍 。
引用: 3.Transformer计算attention的时候为何选择点乘而不是加法?两者计算复杂度和效果上有什么区别?
引用: 答:Transformer的并行化主要体现在self-attention模块,在Encoder端Transformer可以并行处理整个序列,并得到整个输入序列经过Encoder端的输出,但是rnn只能从前到后的执行。
阅读全文