6910Paramixer:在稀疏因子中参数化混合链接比点积自注意力更好0Tong Yu * Ruslan Khalitov � Lei Cheng Zhirong Yang †0挪威科技大学0摘要0自注意力是神经建模中广泛使用的构建模块,用于混合长程数据元素。大多数自注意力神经网络使用成对的点积来指定注意力系数。然而,这些方法对于序列长度N而言的计算成本为O(N^2)。尽管已经引入了一些近似方法来减轻二次成本,但点积方法的性能仍受到注意力矩阵因子化中低秩约束的限制。在本文中,我们提出了一种新颖的可扩展且有效的混合构建模块Paramixer。我们的方法将交互矩阵分解为几个稀疏矩阵,其中我们通过MLP将非零条目参数化为数据元素的输入。新构建模块的整体计算成本低至O(N logN)。此外,Paramixer中的所有分解矩阵都是满秩的,因此它不会受到低秩瓶颈的影响。我们在合成数据和各种真实世界的长序列数据集上对新方法进行了测试,并将其与几种最先进的注意力网络进行了比较。实验结果表明,Paramixer在大多数学习任务中具有更好的性能。01. 引言0Transformer模型已广泛应用于许多任务,如文本分类[28]、文本摘要、启动子区域预测[33]和图像分类[10]。Transformer中的主要引擎是自注意力机制,它可以并行地混合长序列中的长程标记。这一基本创新消除了循环神经网络中的顺序依赖性,并被用作许多强大模型(如Bert [9]、GPT[6]和Ernie[25])的构建模块。然而,原始的自注意力机制不可扩展,因为它需要计算和存储所有成对的点积,这对于序列长度N而言的计算成本为O(N^2)。0* 平等贡献。†通讯作者。zhirong.yang@ntnu.no0可扩展性问题严重限制了基于自注意力的神经模型的应用。0已经提出了各种方法来缓解完全注意力的二次成本。其中一些方法试图缩短序列长度[2,29],尽管会丢失很多信息。其他方法尝试通过某种核因子分解来打破softmax。另一类方法则通过预定义的注意力来稀疏化注意力矩阵[3, 4, 7, 27,33]。然而,大多数Transformer变体仍然坚持使用点积自注意力,其表达能力受到低秩瓶颈的限制[5],因为点积空间的维度远小于序列长度。因此,如果注意力本质上是高秩的,它们无法准确地对转换进行建模。0本文提出了一种可扩展且有效的注意力构建模块Paramixer,它不使用点积和softmax。我们的方法直接对几个稀疏因子中的混合链接进行参数化,形成一个注意力矩阵,其中所有分解矩阵都是满秩的。因此,Paramixer不会受到低秩瓶颈的影响。我们提出了两种方法来指定每个稀疏因子中的非零位置。两种方法都导致对完整注意力矩阵的经济近似,计算成本低至O(N logN)。因此,我们的方法可以轻松地对非常长的序列数据进行建模。0我们在各种序列数据集上测试了Paramixer,并将其与基于点积的许多流行自注意力神经网络进行了比较。实验结果表明,Paramixer在非常长的序列任务上表现最佳,包括合成数据推理、基因组分类和字符级长文档分类。Paramixer还在公共的Long RangeArena基准任务上实现了最先进的准确性。0我们将论文的剩余部分组织如下。第2节研究了点积自注意力及其相关工作。第3节介绍了Paramixer的发展线索和模型架构。第4节介绍了实验设置和结果,第5节总结了本文。�(2)3. Paramixer�69202. 相关工作0自注意力(SA)是神经网络中的一个构建模块,它使得序列中的元素之间能够进行长距离交互。最常用的SA架构称为Transformer[28],其中自注意力矩阵是使用缩放的点积后跟Softmax构造的。给定一个编码为 X ∈ R N × d的输入序列,自注意力构建模块计算特征表示 V ∈ R N × d的加权平均值,其中权重是 Q ∈ R N × D 和 K ∈ R N × D的缩放点积的结果:Q = XWq,K = XWk,V =XWv。然后Transformer中的自注意力是0自注意力(Q,K,V)= AV,(1)0其中0A = softmax(QKT)0并且Softmax在缩放点积的基础上逐行应用。方程2中的注意力矩阵不可扩展,因为它需要计算和存储N^2个注意力值,这对于大N来说是不可行的。当应用自注意力于长序列时,二次成本成为一个重要的瓶颈。许多研究团队提出了Transformer的变体来缓解这个问题。方法的第一个分支试图减少N。Linformer近似[30]使用随机投影将K和V的行数从N减少到r,其中r < N。然而,由于r ∝ϵ^(-2),其中ϵ是近似误差界限,Linformer必须使用较大的r才能达到令人满意的近似质量。另一种方法称为Enformer[2]通过卷积网络池化缩短序列长度。方法的第二个分支试图通过某种核分解来打破Softmax,使得A ≈ ϕ(Q)ϕ(K)T,其中ϕQ和ϕK ∈ R N × r',其中r'