稀疏变压器注意力模型的效能分析及未来基准比较

72 浏览量更新于2023-12-01 收藏 2.72MB PDF 举报

模型训练

效率分析

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文变压器注意稀疏度预测Marcos Treviso1，2António Góis5Patrick Fernandes1，2，3Erick Fonseca6André F.T. Martins马丁斯1，2，41Instituto de Musicomunicaçes，Lisboa，葡萄牙2Instituto Superior Técnico LUMLIS（Lisbon ELLIS Unit），里斯本，葡萄牙3Language Technologies Institute，Carnegie Mellon University，Pittsburgh，PA4 Unbabel，里斯本，葡萄牙5Mila，蒙特利尔大学，加拿大6德国科隆Kaufland电子商务摘要Transformersentmax transformers 使用的另一种路径包括具有内置的精确稀疏注意力;但是这种方法仍然需要二次计算。在本文中，我们提出了Sparsefinder，一个简单的模型训练，以识别entmax注意的稀疏模式，然后计算它。我们实验了我们的方法的三个变体，基于距离，量化和聚类，在两个任务：机器翻译（注意在解码器）和掩蔽语言建模（编码器）。通过对预测注意图的稀疏性和召回率之间的权衡进行广泛的分析，我们的工作为研究模型的效率提供了一个新的角度这允许沿着它们的帕累托曲线在不同模型之间进行详细的比较，这对于指导稀疏注意模型的未来基准很重要1介绍基于转换器的架构在许多NLP任务中取得了显著的成果（ Vaswani et al. ， 2017; Devlin etal. ，2019; Brown et al. ，2020）。然而，它们也带来了重要的计算和环境问题，这是由它们相对于序列长度的二次时间和存储器计算要求引起的这是由于它们的过度参数化和大量的注意力头造成的有大量的工作开发的方法来“稀疏化”的计算在变压器，无论是通过强加本地或固定的注意力模式（儿童等。，2019; Tay et al. ，2020;Zaheer et al. ，2020），通过将低秩核近似应用于softmax（Wang et al. ，2020; Choroman-在InstitutodeInstituto.致marcos.tecnico.ulisboa.pt图1：（a）从预先训练的α-entmax Transformer中提取稀疏注意力图;（b）将查询和关键向量投影到更小且适当的空间，使得相似的点可能落在相同的附近;(c)此外，我们可以将窗口和全局模式（绿色块）与学习的模式（黄色块）相结合，以提高从顶部的稀疏图（星号块）恢复地面实况边缘的召回率斯基等，2021），或者通过学习哪些查询和键应该被分组在一起（Kitaev et al. ，2019; Daraset al. ，2020; Roy等人，2021; Wanget al. ，2021年）。大多数现有的工作试图通过忽略分布的（预测）尾部来近似基于softmax的注意力，这可能导致性能下降。一个例外是具有基于entmax的稀疏注意力的变压器（Correia etal. ，2019年），一种基于内容的方法，它本身是稀疏的-这种方法能够让每个注意力头部从数据中学习它应该有多稀疏，从而消除了对解析或近似的需要。这种方法的缺点是，它仍然需要二次计算来确定稀疏模式，未能利用注意力稀疏的计算优势。在本文中，我们提出了Sparsefinder，它填补了上述空白，使entmax关注a）提取α-entmax图b）项目和小组qi和kjc）添加局部+全局模式arXiv：2109.12188v2 [cs.CL] 2022年4月+v：mala2277获取更多论文更有效率（§4）。也就是说，我们研究了三种方法来预测entmax的稀疏模式，而不必计算它：一种基于度量学习，它仍然是二次的，但有一个更好的常数（§4.3），一种基于量化（§4.4），另一种基于聚类（§4.5）。在所有情况下，预测器都是在来自 entmaxTransformer的地面真实稀疏注意力图上离线训练的，在其预测边缘中寻求高召回率，而不影响稀疏性的总量图1说明了我们的方法。更确切地说，为了评估我们的方法在不同场景中的有效性，我们对两个NLP任务进行了实验，包括仅编码器和仅解码器的配置：机器翻译（MT，§5）和掩码语言建模（MLM，§6），对稀疏性和召回率之间的权衡进行了广泛的分析（即，注意力图近似的性能）、稀疏性和准确性（下游任务的性能）。我们比较我们的方法与四个替代解决方案的基础上有效的变换器： Longformer （ Beltagy et al. ，2020 ）、 Bigbird （ Za-heeret al. ， 2020 ）、Reformer （ Kitaev et al. ， 2020 ）和路由Transformer（Roy et al. ，2021），沿着它们的整个帕累托曲线。我们补充这些实验，定性分析什么是选择的不同的注意力头在几个层，并表示在不同的集群/桶。总的来说，我们的贡献是：1• 我们提出了一种简单的方法，利用可学习的稀疏模式来有效地计算多头注意力（§4）。• 我们对MT（§5）和MLM（§6）中稀疏性和召回率以及稀疏性和准确性之间的权衡进行了广泛的分析，表明高效转换器的设计有明显的改进空间• 我们定性地分析了在不同层的不同注意力头所选择的内容，并在不同的集群/桶中表示。2相关工作解读多头关注。一些作品分析了不同注意力头学习的功能，例如位置和局部上下文模式（Raganato和Tiedemann，1https://github.com/deep-spin/稀疏探测器2018; Voita et al. ，2019）。建立在稀疏注意力机制（彼得斯等人）之前的工作。，2019年），Correia等人（2019年）限制注意力头部，以单独为每个头部诱导稀疏选择，从而在没有事后操作的情况下实现可解释性。相关方法包括显式稀疏Transformer（Zhao et al. ，2019）和纠正线性注意力（Zhang et al. ，2021），这丢弃了归一化约束。Raganato等人（2020）表示，在提高翻译质量的同时，基于先前已知的行为（例如，关注先前的标记）来固定注意力模式。然而，利用可学习的稀疏模式来加速多头注意力的过程仍然缺失。低秩softmax近似。基于softmax的低秩近似的方法，如线性注意力（Katharopoulos et al. ，2020）、Linformer（Wang et al. ，2020）和Per- former（Choromanski et al. ，2021）将注意力机制的速度和存储器复杂度从二次降低到线性，但是由于没有显式地计算分数而使得可解释性更具挑战性另一方面，专注于诱导稀疏模式的方法提供了可解释的对齐，并且在速度和存储器方面也具有固定的注意力模式。在固定模式方法中，稀疏Transformer （ Childet al. ， 2019 ）和LongFormer（Beltagy et al. ，2020）通过使用跨步/扩张的滑动翼来注意固定位置 BigBird使用随机和两个固定模式（全局和窗口）来构建块稀疏矩阵表示（Zaheer et al. ，2020），利用块矩阵运算来加速GPU计算。相比之下，我们用一个学习的模式来代替随机模式，该模式模仿预先训练的α-entmax稀疏注意图。可学习的注意力模式。可学习模式方法通常必须处理多头注意机制中的注意力分散（Vyas etal. ，2020）将查询令牌分组到簇中，并且仅计算具有质心的点积。重整器（ Ki-taevetal. ，2020）和SMYRF（Daras et al. ，2020）使用位置敏感散列来有效地将令牌分组在桶中。更类似于我们的工作，路由Transformer（罗伊等人。，2021）和簇形成器（Wang etal. ，2021）使用在线k均值和计算点积来聚类查询和键+v：mala2277获取更多论文∈∈+1/α−1.Σ→→Ohhh在顶部-k个聚类点上。由于这种过滤，一些查询和键被丢弃，这影响了方法的整体召回率（如§5 和 §6 ）。 Sun 等人分析了 RoutingTransformer 从上下文信息中获益的能力。（2021年）。相比之下，Sparsefinder根据α-entmax生成的注意力图的稀疏模式学习聚类3背景3.1变压器变压器的主要组成部分是多头注意力机制（Vaswani et al. ，2017年）。给定包含n个查询的d维表示的矩阵QRn×d作为输入，以及矩阵K，VRm×d，m个键和值，按以下方式计算单个头部处的缩放点积注意力这个矩阵的块，有各种不同的几何学。通过这样做，结果将是等式中softmax注意力的近似值1.一、这是因为原始的基于softmax的注意力是密集的，即，它将一些概率质量放在所有标记上-不仅是计算上的缺点，而且使解释更困难，因为已经观察到只有一小部分注意力头部捕获相关信息（Voita et al. ，2019）。softmax的替代方案是α-entmax变换（Peterset al. ，2019; Correia et al. ，2019年），这直接导致稀疏模式，没有任何近似：α-entmax （ z ） =[ （ α−1 ） z−τ （ z ）1]1/α−1，其中，[·]+是非线性部分（ReLU）函数，并且τ：RnR是归一化函数，满足j[（α − 1）zj− τ（z）]+对于任何z，= 1。的≤att（Q，K，V）=πQKT布吕德`Z∈R<$n<$×mxV∈R n×d.（一）is，得分为zj的条目τ（z）/α−1精确地得到零概率在极限α1，α-entmax恢复softmax函数，而对于α >1的任何值，该变换可以返回稀疏概率向量（随着α值的增加，π变换将行映射到分布，其中softmax是最常见的选择，π（Z）ij=softmax（zi）j。多头注意力计算唤起方程。每个头h并联1个：头h（Q，K，V）=att（QWQ，KWK，VWV），诱导概率分布变得更稀疏）。当 α=2 时，我们恢复 sparsemax（Martins和Astudillo，2016）。在本文中，我们使用α=1。5，它在实践中运行良好，并有一个专门的快速算法（彼得斯等人。，2019）。尽管与密集替代物相比，稀疏注意改善了可解释性和头部多样性（ Correia et al. ，2019），学习稀疏性其中WQ，WK，WV学习线性变换，模式不能被琐碎地利用来减少h h hmations。通过这种方式，头部能够学习特定的现象。根据输入的性质，变压器具有三种类型的多头注意机制：编码器自注意（源到源）、解码器自注意（目标到目标）和解码器交叉注意（目标到源）。虽然对于在编码器中可以关注哪些元素没有限制，但是在解码器自关注中的位置j> i中的元素在时间步长i被掩蔽（3.2Extmax变换器和学习稀疏性变压器中的主要计算瓶颈是等式中的矩阵乘法QKT1、成本（NMD）时间，并且当N和M较大时可能是不切实际的。许多方法，在§2中讨论，近似方程。1通过忽略远离主对角线的条目或仅计算一些自注意力的二次负担，因为我们仍然需要在应用α-entmax变换之前计算所有查询和键之间的点积（QKT）。在下一节（§4）中，我们提出了一种简单的方法，可以事先学习识别这些稀疏模式，避免完全的乘法运算。4Sparsefinder我们现在提出我们的方法来提取稀疏注意图，并通过利用α-entmax的一个特殊性质：稀疏一致性（§4.1）来学习在哪里参加为此，我们设计了三种Sparsefinder变体，分别基于度量学习（§4.3）、量化（§4.4）和聚类（§4.5）。4.1注意图与稀疏一致性对于每个注意力头h，我们将其注意力图定义为Gh={（qi，kj）|pi，j>0}，一个二分的+v：mala2277获取更多论文∈|G||G|GGOO|G|→JG GGGGH我 JQ我KJG G醒r图连接查询和密钥对 qi ， kjRd ，其中 α-entmax概率pi，j非零。注意力图的一个例子如图1所示。我们用h表示注意图的总大小，即，其边缘数。其中 α=1 。我们通常有hnm。相比之下，softmax attention总是导致一个完整的图形，|Gh|= nm。问题陈述。我们的目标是建立一个模型– which we callh而不必执行查询和键之间的所有成对这使得评估Eq.1人减少，（nmd）到（nmdd），有效地利用α-entmax的稀疏为了学习这样的模型，我们首先提取稀疏注意力的数据集本文不是提出一种实用的计算有效方法，而是集中于表明这样的方法确实存在，并且它们可以被设计为优于固定和学习的模式方法，同时在与地面实况图相比时保持大量的我们的战略。我们教学生模型通过从重整器模型（Kitaev et al. ，2020）和布线Transformer（Roy et al. ，2021年）。形式上，我们定义一组B个桶，B={1，. . .，B}，并且学习函数fq，fk：Rd2B，其中将查询或键分配给一个或多个桶。我们将在后面讨论函数fq，fk的不同设计策略。给定这些函数，预测图为：图{Gh}从一个预训练的entmax为基础的trans-based，G={（q，k）|f（q）<$f（k）/=k}，（6）根据这些信息学习注意力的位置这个过程的动机是α-entmax的以下稀疏一致性命题1（稀疏一致性属性）。设b是一个二元向量，若 p>0，则bj = 1，否则bj=0. F或由b“支配”的任何二进制掩码向量m（即， m b= b），我们有α-entmax（z）= α-entmax（z|m），（3）当r ezj|如果mj=1，则m = z j;如果mj=0，则m = −∞。证据参见补充材料中的§ A。这个性质确保了，如果h使得hh，那么我们得到与原始entmax attention完全相同的结果。所以我们对高回忆感兴趣，也就是说，如果Qi和Kj在某个桶中，则预测Qi和Kj之间的边我们提出了三种策略，基于距离的配对（§4.3），量化（§4.4）和聚类（§4.5）。作为第一步，所有策略都需要学习一个度量，该度量将图（投影查询和键）嵌入到具有r d的低维空间Rr中，使得正查询-键对彼此靠近，负对彼此远离。4.2学习预测根据α-entmax的稀疏一致性，为了得到h的一个好的近似，我们希望fq和fk产生一个图h，最大化召回率，在等式中定义。四、然而，在这种情况下，最大化回忆是困难的召回（Gh;Gh）=|Gˆh Gh|、（四）因为我们没有地面实况桶分配。相反，我们诉诸于对比学习|Gh|这意味着我们的方法几乎是精确的，并且具有高稀疏性，稀疏y（G）=1−|戈赫|、（五）这表明可以使计算有效。2虽然高稀疏性可能表明许多计算可以忽略，但将此理论结果转换为有效计算并非微不足道，并且可能依赖于硬件。在前者，作为一名教师。然后，学生+v：mala2277获取更多论文∈→通过负采样学习预测的方法，这比约束聚类方法更简单，更具可扩展性（Wagstaff etal. ，2001; de Amorim，2012）。对于每个头，我们首先将原始查询和关键字q，k∈Rd向量投影到低维向量qJ，kJRr使得rD.在实践中，我们对所有查询和键gθ使用简单的头向线性投影：RdRr。为了学习投影层的参数，我们针对每个头部h最小化具有裕度ω的铰链损失：2对于解码器自注意，等式中的分母5由于“因果”掩蔽，变为n（n+ 1）/2jJ2J J2Σ+v：mala2277获取更多论文∈G22∈GG−ǁ −ǁO（BL）Ob=1∈G[||G|ΣG−ǁ −ǁ其中（qJ，kJP）∈ Gh是正对，（qJ，kJN）/h是随机均匀采样的负对.换句话说，我们希望查询向量到负对之间的距离比到正对的距离大一个裕量ω。这种方法也可以被看作是一个弱监督学习问题，其目标是将不同的点推开，同时保持相似的点彼此接近（Xing et al. ，2002;Weinberger andSaul ， 2009; Bellet et al. ，2015）。4.3距离配对为了利用嵌入空间上数据点的邻近性，我们首先提出了一种简单的方法来连接查询和密钥对，其欧氏距离小于阈值t，即。戈赫 ={（qi，kj）|<$qJi−kJ<$2≤t}。虽然这种方法也需要O（n2）的计算，它比普通的Transformer更有效，因为它通过使用学习的投影将计算减少了d/r该方法也这对于探测投影所学习的嵌入空间的质量是有用的，因为我们其他方法的召回将取决于它。4.4通过量化的我们的第二个策略量化每个维度1，。. . ..这样，每个qi和kj将被放置在r个桶中（每个维度一个）。如果qi和kj在某个bucket，Sparsefinder预测（qi，kj）h。注意，对于该量化策略，不需要学习，仅需要选择超参数β和分箱策略。我们提出了一种固定大小的分箱策略：将每个维度划分为β个箱，使得所有箱都恰好有n/β个元素。在实践中，我们将填充符号附加到输入以确保bin平衡。4.5通过集群的聚类策略使用低维投影并运行聚类算法以将qi和kj分配给一个或多个聚类。在这种情况下，每个簇对应于一个桶。在我们的论文中，我们采用k-均值学习B质心，指向前k个最近的质心，而不是将最近的前k个最近的点分配给每个质心，从而确保将所有查询分配给一个聚类。3在测试时，我们使用学习的质心将查询和键分组为k个集群：fq（qi）=arg top-k qicb2，（8）1≤b≤Bfk（kj）=arg top-kkjcb2，（9）1≤b≤B其中argtop-k操作符返回第k个最大元素的索引就像量子化一样基于方法，查询和键将彼此关注，即，Sparsefinder预测（qi，kj），如果它们在k个最接近的聚类中共享至少一个聚类，则为一个。较小的k值将导致高稀疏性图，而较大的k可能会产生更密集的图，但具有更高的召回率。4.6计算成本设L为桶中元素的最大数量。通过量化或聚类计算的分桶注意的时间和内存成本为2。对于平衡桶，我们得到的复杂度（n1. 5）通过设置B=n。阿尔-尽管该成本是次二次的，但是在实践中利用ARCHH的稀疏结构是具有挑战性的，因为它可能需要专门的硬件或内核。一般来说，我们有h =Bnbmbnm，其中nb和mb是查询的数量和每个桶中的密钥，因为我们在每个桶上都有小的而不是查看二次方法仅根据其性能，我们采用了另一种观点，即在以下方面评估这些方法的权衡其近似的稀疏性和召回性。这提供了一个理论的角度来看，每个近似的潜在性能对下游的任务，帮助找到最好的近似所需的稀疏水平。4.7结合学习和固定模式正如先前的工作（Voita et al. ，2019年），几个注意力头部强烈依赖于局部模式或更喜欢注意特定位置，在初始层中更明显。因此，我们从Longformer（Beltagy{c1，. . .，cB}，其中每个cb∈Rr，在一个小部分训练集。该策略类似于路由Transformer的在线k-均值（Royet al. ，2021年），但有两个关键区别：（a）我们的聚类步骤是离线应用的;（b）我们分配3差异取决于top-k操作所应用的维度。路由选择Transformer将top-k应用于输入维，可能会留下一些未注意的查询，而Sparsefinder应用于质心维，避免了这个问题。+v：mala2277获取更多论文Bleu→→G→→×G------BaselineBigBirdLongformerReformerRoutingSf. 距离Sf. k表示Sf。定量1.0300.8200.6100.401.0400.8300.6200.4100.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9稀疏性0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9稀疏性图2：稀疏-召回（左）和稀疏-BLEU（右）权衡在所有层和头上的平均值，在IWENENDE（上）和EN FR（下）上。垂直虚线表示原始α-entmax Transformer（需要二次计算）获得的黄金稀疏度，星号标记表示其BLEU得分：34。47EN→DE和42。EN→FR时为65。等人，2020）和BigBird（Zaheer et al. ，2020年），并通过在预处理中添加连接，将学习到的稀疏模式与窗口和全局模式相结合。口述图的检索，以提高召回的所有方法，耗氧物质图1说明了在最后一步中如何组合这些模式。5实验：机器翻译Setup. 我们在Paracrawl数据集上预训练了一个 transformer 大型模型（ 6 层， 16 头）（Esplàet al. ，2019）。接下来，我们用α-entmax微调它，固定α=1。所有头5个，EN DE和 EN来自IWSLT17的FR语言对（Cettoloetal. ，2017年）。我们使用2011-2014年的数据集作为验证数据，2015年的数据集作为测试数据。我们使用字节对编码（BPE，Sen-nrich etal.2016）对每个单词进行编码，并使用32 k合并的联合分割。正如 Vaswani et al.（2017），我们使用Adam优化器和逆平方根学习率调度器微调我们的模型，初始值为510−4 ，前 4000步进行线性预热。我们使用sacreBLEU评估翻译质量（Post，2018）。训练细节、超参数和数据统计在§C中描述。学习预测。为了学习查询和键的投影（第4.2节），我们从训练集中随机选择了10 K长实例（n>20个标记），并提取了α-entmax注意图h从解码器自身注意每个头。这导致对于EN→DE和EN→FR，每层平均有8M和9M的正对（qi，kj）。很好在实践中，由于每个头部的参数数量很少（只有4，160），亚当的一个第七章学习投影的超参数和训练细节可以在§C中找到。帕累托曲线使用学习的投影，我们通过将所有Sparsefinder 变体与 Longformer ， BigBird ，Reformer和Routing Transformer进行比较来研究它们的召回率和准确率。为了进行公平的比较，我们通过改变以下超参数来分析不同稀疏水平的每种方法• 基于距离的方法：{0。五，一。0，1。五二0，2。五三0，3。五四0，4。五五0}。• 基于桶的方法：{2，4，6，8，10，12，16，20}内的桶数B。• 固定模式方法：对于BigBird，大小为1的随机块的数量在2、4、6、8、10、12、16、20内;对于Long-former，随机全局块的数量在2、4、6、8、10、12、16、20我们还添加了全局和当地模式对于所有方法，在0，1，3，5，7，9，11，15，19，23，27范围内改变窗口大小，以获得不同级别的局部性。我们进一步比较了所有的方法与一个简单的窗口基线，只引入窗口和全局模式。由于所有方法都表现出稀疏性和重复调用/准确性之间的权衡，我们绘制了通过不同方法获得的分数召回召回Bleu+v：mala2277获取更多论文G→--GG设置超参数并绘制它们各自的帕累托边界，以查看最优帕累托曲线。点位于该边界以下的方法被称为帕累托支配的，这意味着在不牺牲稀疏性的情况下不能增加它们的召回率/准确率，反之亦然。具体地，曲线上的每个点被测量为通过在测试时将其替换为G h来逼近地面真实α-entmax注意图Gh。稀疏-召回权衡。图2左侧显示了两种语言对的稀疏-召回折衷的帕累托曲线。总的来说，两种语言对在所有方法上都有相似的趋势。Sparsefinder的基于距离和聚类的方法Pareto主导其他方法，其次是Routing Transformer。有趣的是， Longformer 、 BigBird 、 RoutingTransformer 和 Sparsefinder 由于 Reformer 中的LSH注意力在散列之前共享查询和键，因此查询和键也共享结果桶，这解释了Reformer的高召回率和低稀疏性稀疏-准确性权衡。我们在图2的右边展示了稀疏性和BLEU之间的权衡。对于较低水平的稀疏性，所有方法都表现良好，接近完整的entmax变换器。但是随着稀疏性的增加，表明只需要很少的计算，我们看到SparsefinderPareto的基于距离和k均值的变体支配着其他方法，在不放弃稀疏性的情况下保持非常高的BLEU特别是，Sparsefinder总的来说，这些图表明，对于较高稀疏性水平具有高召回率的方法也往往具有较高的BLEU分数。学习模式。我们选择了一些正面，并在图3中显示了我们的k-means变体在EN FR上学习的模式示例。更多的例子可以在§E中找到。我们注意到窗口模式对于恢复本地连接很有用。我们可以看到，k-均值变体组的查询和密钥对比实际的地面实况边缘数（左图）更多。然而，由于稀疏一致性属性（右图），这些预测中的大多数通过α-entmax获得零概率，图3：通过Sparsefinderk-means（左）和随后的注意力权重（右）学习的模式。带星号的块表示地面实况边缘。导致非常精确的近似。6实验：Masked LMSetup.Beltagy et al. （2020）中，我们从预训练的RoberTa检查点初始化我们的模型。我们使用 Huggingface 的 transformers 库中的roberta基 4我们对WikiText-103进行了微调（Mer-ity et al. ，2017），用α = 1的α-entmax替换softmax。5、所有的头训练细节、模型超参数和数据统计可以在§D中找到。学习预测。正如MT实验所做的那样，我们学会了将键和查询从原始的64个维度投影到r=4个维度。为此，我们使用训练集中的1K个随机样本，每个样本的长度为512，保留一半用于验证。我们从每个头部的编码器自注意力中提取α-entmax注意力图h由于每个头部的可学习参数数量较少（256），因此使用Adam进行了一个epoch的训练。结果我们用α - entmax训练的完整Transformer获得了3分的困惑分数。5004，整体稀疏度为0。9804在WikiText-103上。正如在双水平MT实验中，我们意味着-通过在测试时改变h与h的关系，确保稀疏-召回和稀疏-困惑的折衷。此外，由于传销有较长的投入，我们增加了窗口模式的范围，31，41，51，75，101，125，151，175，201，251.我们在图4中显示了稀疏性和召回率之间的Pareto曲线（左），以及稀疏性和复杂性之间的权衡（右）。稀疏-召回权衡的曲线是相似的，4https://huggingface.co/roberta-base+v：mala2277获取更多论文Neg. 困惑BaselineBigBirdLongformerReformerRoutingSf. 距离Sf. k表示Sf。定量0.953.50.90 4.00.85 4.50.80 5.00.755.50.700.4 0.5 0.6 0.7 0.80.9稀疏性1.06.00.4 0.5 0.6 0.7 0.80.9稀疏性1.0图4：稀疏-召回和稀疏-（负）困惑权衡在WikiText103. 垂直虚线表示通过完整的α-entmax Transformer获得的gold稀疏与MT实验中发现的方法相比，基于距离的方法优于所有方法，其次是 Sparsefinder 和Routing Transformer的k在困惑方面，我们的基于距离的方法也帕累托优于其他方法，其次是我们的聚类变量和路由Transformer。在MT实验中，窗口基线产生了类似于其他方法的稀疏召回曲线，证明了局部模式的重要性。虽然基于距离的方法需要二次计算，但它将计算量减少了d/r=64/4= 16倍，如§4.3所述，并且比任何其他测试方法都获得了更好的召回率和困惑度这一发现表明，在设计有效的注意力方法方面有明显的改进空间，这些方法比现有方法在效率和准确性之间具有更好的权衡。学习模式。在图 5 中，我们显示了Sparsefinderk-means 我们可以看到，Sparsefinder所诱导的模式保持了关注共指的特性。具体地说，我们的方法实现了高召回分数（1080%）与高稀疏率（1075%）在这个注意头。聚类分析为了理解Sparsefinderk- means学习的每个聚类中代表什么，我们运行以下实验：我们使用spaCy，5获得POS标签，并计算每个标签在所有头部的聚类上的分布。我们在图6中展示了一个示例，其中Sparsefinder学习了一个使动词和名词参加的集群图5：Sparsefinderk- means学习的注意力模式，关注于共指标记。百分之八十百分之六十百分之四十百分之二十0%的百分比图6：在整个Wikitext 103验证集上分配给给定集群的POS标签的百分比。6.1高效Sparsefinder我们现在转向如何使Sparsefinder在实践中更有效的问题在我们继续之前，我们注意到，方法之间的比较通常取决于所使用的特定实现，这会影响测量，并且还可能需要专用硬件。这使得BigBird和Rout- ing Transformer成为我们在实践中可以兼容的唯一模型：Reformer包括不属于注意力机制的其他优化，Longformer基于CUDA内核，专门用于快速计算。最后，将路由Transformer中使用的策略合并到对他们自己，以及对大多数辅助动词5https://spacy.io/召回电子钥匙+v：mala2277获取更多论文Neg. 困惑≈0.0540.04680.03102 3 4 8 1622有服务的街区2 3 4 8 16 22有服务的街区图7：通过改变参与块的数量，比较Sparsefinder和BigBird在运行时间和（负）困惑方面的差异。黑色虚线表示通过完整的α-entmax Transformer获得的结果。Sparsefinder（v2），我们使用Sparsefinder为了使Sparsefinder更高效，我们采用了BigBird的关键策略：使用连续的块而不是单个令牌，在注意力矩阵中创建块更准确地说，我们学习了根据等式7在分块标记上的投影，其中，如果块内的任何标记是原始α-entmax图的正对的一部分，则（qJ，kJP）是正对，并且类似地，如果块内的所有标记都是负的，则对（qJ，kJN）是负的因此，给定块/组块大小z，密集注意力图的大小从|Gh|=nm至|= [ nm/z2|（零填充）。|(with zero-padding).实施. 为了与BigBird相媲美，我们实现了一个例程，该例程限制了Sparsefinder中参与块的最大数量，类似于BigBird中使用的随机块的数量我们提出了两种变体：（v1）计算所有分块向量投影之间的点积，然后返回前k个块，（v2）选择最接近学习中心的前k个块，并计算这些块的点积。第一种变体成本更高，但它可能导致更健壮的选择，而第二种变体类似于Routing Transformer结果我们测量的时钟时间的MLM模型评估500例，批量大小为8。我们改变了参与街区的数量，{2、3、4、8、16、22{n}，{2，4，8，16}，并计算{2，4，8，12，16，20}内的B值（聚类数）的复杂度。我们在所有实验中使用窗口大小为3的窗口来更好地捕获受控超参数图7显示了通过对具有不同块大小和簇数目的运行求平均的图。正如预期的那样，使用较少数量的参与块可以改善运行时间，所有模型在MLM任务上表现都很差。当我们增加块的数量时，我们可以看到MLM性能的提高和运行时间的增加。通过比较Sparsefinder和BigBird，我们注意到BigBird比Sparsefinder更快，但是增加BigBird中的参与（随机）块的数量相反，Sparsefinder的两个版本都可以提高MLM性能，同时仍然比常规的α-entmaxTransformer更快特别是，通过只关注2个块，Sparsefinder能够比BigBird获得更好的MLM分数，同时仍然比它更快每个区组大小的图见§F。7结论我们提出了Sparsefinder，一种识别基于entmax的transformers的稀疏模式的方法，同时避免了完整的计算得分矩阵。我们的方法学习查询和键的低维投影我们在两个任务上将这些变体与竞争方法进行了比较：机器翻译和掩蔽语言建模。我们得到了良好的稀疏召回率和稀疏准确率权衡曲线。我们的理论稀疏性提供了一个下界多少计算稀疏可以实现，并可能指导未来的研究高效变压器。最后，我们提出了一个简单的扩展Sparsefinder，类似于基于块的注意力的大鸟通过学习预测分块令牌，这表现出一个有前途的方向，在权衡可学习的稀疏性与计算时间和准确性。BigBirdSF. k均值（v1）SF. k-means（v2）时间（秒）+v：mala2277获取更多论文致谢这项工作得到了欧洲研究委员会（ERC StGDeepSPIN 758969 ）， P2020 项目 MAIA（LISBOA-01-0247-FEDER 045909），通过PTDC/CCI-INF/4703/2021（PRELUNA）合同编号UIDB/50008/2020。引用Aurélien Bellet，Amaury Habrard，and Marc Sebban.2015.度量学习。Synthesis Lectures on MonetaryIntelligence and Machine Learning，9（1）：1放大图片作者：Matthew E.彼得斯和阿曼·科汉2020.Longformer ：长文档 Transformer 。 arXiv ：2004.05150。Tom B Brown ， Benjamin Mann ， Nick Ryder ，MelanieSubbiah ， JaredKaplan ， PrafullaDhariwal，Arvind Neelakantan，Pranav Shyam，Girish Sastry，Amanda Askell，et al. 2020.语言模型是少数成功的学习者。神经信息处理系统进展（ NeurIPS ），第 33 卷，第 1877CurranAssociates，Inc.MauroCettolo 、 MarcelloFederico 、 LuisaBentivogli 、 Niehues Jan 、 Stüker Sebastian 、Sudoh Katsuitho、Yoshino Koichiro和FedermannChristian。2017. iwslt 2017评估活动概述。第14届国际口语翻译集，第2Rewon Child，Scott Gray，亚历克雷德福还有伊利亚·萨茨科弗 2019. 用稀疏变换器生成长序列。arXiv预印本arXiv：1904.10509。KrzysztofMarcinChoromanski，ValeriiLikhosherstov ， David Dohan ， Xingyou Song ，Andreea Gane，Tamas Sarlos，Peter Hawkins，Jared Quincy Davis ， Afroz Mohiuddin ， LukaszKaiser ， David Benjamin Be- langer ， Lucy JColwell，and Adrian Weller.2021. 重新思考对表演者的关注。国际学习表征会议（InternationalConference on Learn

下载后可阅读完整内容，剩余1页未读，立即下载