具有多项式复杂度的线性非局部层

6 浏览量更新于2023-10-15 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1Poly-NL：具有三阶多项式的线性复杂度非局部层Francesca Babiloni1，Ioannis Marras1，Filippos Kokkinos1，3，Jiankang Deng2，5，GrigoriosChrysos4，Stefanos Zafeiriou2，51华为、诺亚4洛桑联邦理工学院5胡阿伟多媒体技术系摘要非局部块形式的空间自注意层通过计算所有可能位置之间的成对相似性在卷积神经网络中引入长程依赖性。这样的成对函数underpin的非局部层的有效性，但也确定了一个复杂性，相对于在空间和时间的输入大小的平方缩放。这是一个严重的限制因素，实际上阻碍了非本地块的适用性，即使是中等规模的投入。以前的工作集中在通过修改底层矩阵运算来降低复杂度，然而在这项工作中，我们的目标是在保持复杂度线性的同时保留非局部层的完整表达能力。我们克服了效率限制的非局部块的框架，他们作为特殊情况下的三阶多项式函数。这一事实使我们能够制定新的快速非局部块，能够降低复杂性从二次线性性能没有损失，通过替换任何直接计算的成对相似性与元素的乘法。所提出的方法，我们称之为1. 介绍卷积神经网络（CNN）已经导致了机器学习的革命，并且具体地说，目前是计算机视觉在各种任务上无可争议的最新技术。尽管如此，CNN即使由卷积算子的深度堆栈组成，也具有有限的接收域[34]，这使得关键的长程依赖性难以捕获。最近关于空间自我注意力的工作通过一组新的神经网络模块改善了这一问题[52，47]。这些块提取所有SPA之间的非局部相互作用-输入的初始位置，并用一组可学习的参数对其进行加权。通过非局部块，每个输入位置考虑所有其他位置的贡献，通过它们与给定参考的相似性进行缩放。这些块引入了对整个空间一目了然的推理的可能性，并使非本地行为更容易被网络捕获。在神经架构中插入非局部块已被证明非常有效[2，15，51，39，40，38]，但每对点的相似性得分的计算与空间位置的数量成二次方因此，昂贵的计算和存储复杂性使得即使在中等大小的输入时也无法计算非本地块。最近的工作通过相似性矩阵[59，33，44]的有效计算来解决这种限制，但未能提供非局部块公式的理论概述。在这项工作中，我们建立在上述的研究路线，并重新审视多项式的镜头下的非局部层，将它们框定为三阶多项式的特殊情况。基于这种直觉，我们推导出一个高效的非局部神经网络Poly-NL，它考虑了长程依赖关系，而不需要显式计算任何成对相似性。Poly-NL层使用与[52]的非局部块相同的一组相互作用来执行计算，并且同时减少了计算的复杂度。总体复杂度从O（N2）急剧下降到O（N），而性能没有损失。在这项工作中，我们链接多项式和非局部层。我们的目标是有效地从输入中提取高阶相互作用，同时捕获长程空间依赖性。因此，我们的贡献可以总结如下：• 我们桥接高阶多项式和非局部注意力之间的配方特别地，我们证明了自注意（以非局部块的形式）可以被看作是一般的三阶多项式的一个特殊情况1051810519--X⊙Y W·×···×∈∈Σ Σ• 我们提出了特别是，我们提出了一种替代的非局部块，降低复杂度从二次线性相对于空间维度。• 我们展示了我们的方法在一系列任务中的效率和有效性：图像识别，实例分割和人脸检测。2. 相关工作乘法交互[22]可以在各种机器学习模型的核心找到，例如双线性层，LSTM和高阶玻尔兹曼机。在LSTM [20，26]中，元素乘积用于融合表示。在双线性层[46，6，32，55]中，不同网络的特征映射被双线性组合在一起以捕获成对的相互作用。在k阶玻尔兹曼机[36，37，42]中，使用k这些高阶相互作用捕获了输出可以依赖于输入的许多可能方式最近，Π网[13]使用多项式展开作为函数逼近器，用输入向量的多项式代替传统的激活函数，并使用张量分解[25]来减少可学习参数的数量。在自我注意的情境中，乘法交互也是至关重要的。自注意方法已经被提出作为自重新校准特征图的机制，并且已经被用作传统残差块的替换或添加[19]。作为对我们工作的补充，其中一些方法将上下文信息积累到轻量级全局描述符中，为每个空间位置[48]，通道[21，4]，通道和位置[53]或空间区域[28]外推单个标量。更接近我们的工作，这是建模空间位置之间的非局部长程依赖关系的想法。虽然这在计算机视觉中并不新鲜[3，27，14]，但在神经网络架构的背景下，它是相对较新的，以“非局部”注意力模块的形式把[52，47]。成功使用这些模块的例子可以在自然语言处理以及计算机视觉中找到，其中某种形式的自我注意力已被用于实现各种语言的最先进性能。现有的解决方案集中于提高相似性算子的效率，例如通过减少参与的位置的数量[11，58]或使用低维潜在空间 [12 ， 59 ， 9 ， 50] 。 Linear-Attention（LA）[23]和Performers [12]用特征图点积替换了变换器架构中的softmax-attention，并通过计算特征之间的成对关系而不是空间位置来线性化复杂度在非本地块的上下文中，可以在双注意网络[8]中找到类似的想法，并且最近在高效NL [44]中找到类似的想法。与我们的工作同时，Attention Free Transformers [57]提出使用元素乘法来计算变压器架构的注意力数量。相反，我们提出了一个替代的解决方案，这个问题。我们引入了一个线性替代的非本地块的框架，ING非本地的依赖关系为3阶的相互作用。我们的方法可以提取非局部依赖，而无需直接计算任何注意矩阵。3. 非定域性和高阶相互作用我们首先介绍符号和背景，然后进行形式化的概念，第三阶相互作用。我们的目标是以有原则的方式加速非本地块，而不会失去在实践中已被证明是成功的丰富的远程交互。3.1. 背景记法。我们遵循Kolda等人的符号。如[25]。向量表示为小写粗体字母（例如，X）和以大写粗体字母表示的矩阵（例如X）。矩阵X的元素（i，j）可以表示为x（i，j）。用粗体欧拉字母（例如：）的情况。张量的阶数是维度的数量，也称为方式或模式。Hadamard产品使用符号“”表示。给定两个张量，我们定义它们的双点积为张量关于第一个和前两个指标的后两个指标的收缩第二个，用“·”符号标识在张量WRI1×I2···×IN-1×IN和矩阵X RIN-1×IN的情况下，它们的双点积是N - 2阶张量，即=尺寸I的X1I2IN-2。具体地，在逐元素形式中，这样的双点积读取ININ-1y（i，…，i）=w（i，…我-我，i）x（i，i）。翻译[39]，问答[38]，分类[40，2]，分割[49，5，24]和视频处理[51]等。虽然有些作品集中在1个N-21in=1in-1=1N-2n-1nn-1n在通过捕获通道的相关性[ 1，56，16 ]或考虑图像的多个分辨率[ 35，15 ]来扩展非局部块的范围方面非本地块。用于神经网络的通用自注意块使用函数g和函数f突出显示特征图中的相关交互，函数g被设计为操纵输入，函数f负责从输入中提取相似性。在[52]中，作者引入了10520⊙聚-NL∈转转转W∈×个∈∈X）∈RN×N和在-E∈Rj=1(a)（b）第（1）款图1：Poly-NL块的两个视图。a）Poly-NL作为神经网络的非局部自注意块。符号表示Hadamard乘积。灰色框表示内核大小为1的卷积和行上的平均函数平均池化的输出在Hadamard乘法之前经历扩展b）聚-NL作为3阶神经网络的多项式模块在第一个框中，三阶相互作用的空间表示为（NC）3的线白点，包含所有可能的三联体。 W的可学习参数[3]∈RN×C×N×C×N×C×N×C每个权三元组x（c，d）x（e，f）x（g，h）的重要性为w（a，b，c，d，e，f，g，h）。这在第二个框中被描绘为一行彩色点。输出元素y（a，b）是每个三元组的加权和自注意块，用于突出显示输入中的非局部长程依赖关系。它对N个空间位置和C个通道的折叠特征图XRN×C进行操作，并输出相同维度的矩阵ZZ=Y+X=f（X）g（X）+X（1）其中f：RN ×CRN×N是计算每对空间位置的相似性的成对函数，g：RN×C RN×C具有计算输入的新表示的一元函数的形式。在计算中的一个术语，使得这个模块的复杂度等于O（N2）。神经网络的多项式。最近在[13]中，作者采用多项式作为神经网络的层。我们遵循他们的多项式函数P：RN×CRN×C的公式，使得Y=P（X），其中输出矩阵的每个元素被表示为所有输入元素x（i，j）的多项式。层的输出形成为其中g（X）是线性嵌入并且f（X）是em-Dd的情况分层点积，贡献的自我注意力输出可以写为Y=P（X）=ΣW[d]Y·X+W[0]（3）d=1j=1YNL=（XWθWX）（XWg）=XWfXXWg（2）其中Wθ，W，Wg是维数为C×C的可学习参数矩阵。为了产生输出Y，非其中D是多项式的阶，[10]这是一个W[0]是与特定阶数d相关联的的张量W[d]的阶对于较高的局部块计算相似度之间的点积矩阵（XW F[d]N×C×Qd（N×C）把（XWg）RN×C.该矩阵乘法通过聚合来自所有其他位置的信息来重新校准第n位置的特征。pairwise函数提供每个位置的贡献的相似性权重，并使用沿N维的矩阵乘法。在N维上的这种矩阵乘法是非局部处理的核心，但是引入了二次乘法。3.2. 三阶相互作用为了介绍我们的方法，我们首先描述特征映射XRHXWXC的三阶相互作用项。我们考虑它的折叠XRN ×C，其中空间维度被组合在一起N=H W.捕获X之间所有潜在的三阶依赖关系阶多项式项，即W.10521W WWΣΣ∈W（a，b，c，d，e，f，g，h）⊙∈转W（a、b）WW（a、b）N2（f，d）3（d，b）（a、d）（e、f）元素，我们认为他们的线性组合加权一组可学习的参数。换句话说，我们分离出等式（ 1 ）的 3 阶项（D=3）（3）假设[0]=0，[1]=0，[2]=0。在先知之下-假设，Eq。（3）成为Y=（W[3]·X）·X）·X）⑷其中W[3] 是8阶和维数为RN×C×N×C×N×C×N×C 的张量。我们可以找到所有可能的三阶相互作用，即.所有可能的乘法输入元素的三元组4. 方法在本节中，我们描述了与非局部依赖性相关联的三阶交互的集合，并提出了一种方法，该方法可以访问它们而无需昂贵的相似性矩阵计算。所提出的方法4.1. Poly-NL层如第3.1节所述，非局部块的主要缺点是其复杂性，其取决于空间位置的数量为O（N2）。为了解决这个N C 缺点，我们提出了Poly-NL，一种非局部空间自适应算法。y（a，b）=w3（a，b，c，d，e，f，g，h）x（c，d）x（e，f）x（g，h）（5）c，e，gd，f，h如Eq.（5），在3阶多项式中，每个el-注意模块，避免沿维度N的任何矩阵乘法。Poly-NL输入一个矩阵XRN ×C，输出一个相同维度的矩阵Z，可以计算为Z = αX + βYPoly-NL，其中α和β输出矩阵y（a、b），从欺诈中获益-是可学习的标量。矩阵YPoly-NL是该算法Poly-NL层，并且可以写成如下每个可能的三元组x（c，d）x（e，f）x（g，h）的分配，每个由其唯一重要性w3加权。以其最一般形式使用[3]将允许考虑输入中的每一种可能的模式，但是，在[3]的最一般形式中，[3]的最一般形式将允许考虑输入中的每一种可能的模式。同时，它将指数地增加参数的数量。高阶模型[42，13]中的一个众所周知的问题是所考虑的参数数量，这往往是其实现中最昂贵的部分。在方程中要确定的参数的数量。（3）取决于多项式的阶数，并且即使不考虑低于D的阶数，也取决于所需的参数。是（NC）D+1（例如，在输入上使用D=31024×196将引入几乎额外的1021个参数）。可以考虑不同的方法来减少参数的数量，例如通过考虑关于任务的先验知识或输入的性质数据[25，37]。降低复杂度的一种方法是YPoly-NL=（Φ（XW1⊙XW2）⊙X）W3，（6）其中Φ：RN×CRN×C是空间位置上的平均池化，后跟扩展函数，W1、W2、W3RC×C是可学习参数的矩阵，并且指示元素乘法模块的视觉描绘呈现在图1中。Poly-NL是与维度N（即，尺寸N）线性缩放的层。复杂度为O（N））。值得注意的是，Poly-NL提取相同的depen集合。这些块被称为非局部块，但学习不同的权重集来处理它们。为了连接这两个公式，我们描述了这两个块捕获的相互作用的集合与Poly-NL相关的空间交互作用集在其逐元素公式C N仅选择所有可能组合的有限子集第十（c、d）利用一种特殊的X（e、f）X（g，h）yPoly-NL=Σ Σ1wd，f，hex x x x x张量[3]的文件。例如，分配相同的权重对一组三胞胎将保证相同的贡献或者在三元组的一个子集上施加一些零权重将抵消它们对输出y（a，b）的影响。这些选择可以用一种形式化的方式来表达，这使得[3]张量的格式稀疏，因为某些尺寸被限制为对角线尺寸，或低秩，因为沿着一些维度使用重复值本文的中心思想是因子的相互作用-（七）在Poly-NL中，输出矩阵的每个元素yPoly-NL使用一组三元组x（a，d）x（e，f）x（e，h）的贡献来计算，使用可学习参数w1（h，d）w2（f，d）w3（d，b）进行加权。类似地，我们突出显示捕获的交互集由Eq.的非本地模块（2），通过写出其元素形式C N张量[3]在一个特定的方式，以提取只有一个小-从输入数据中提取三阶相互作用的错误子集在NL（a、b）=Σ Σw f（d，f）wg（h，b） x（a，d）x（e，f）x（e，h）.（八）换句话说，这种张量的选择允许其用较小尺寸的矩阵替换，仅使用d、f、h和e在非局部块中，输出矩阵y1（h，d）（e、h）10522预先存在的神经网络构建块。NL（a、b）使用一组三元组y10523GPU运行时间[s]XNL聚-NLWW0.160.14空间位置= 100 x 1000.0300.025通道= 10242.001.75通道= 10240.120.100.0201.501.250.080.060.040.020.0150.0100.0051.000.750.500.250.00电话：+86-510- 8888888传真：+86-510 - 8888888通道[-]（一）0.000电话：021 - 88888888传真：021 - 88888888空间位置[-](b)0.00电话：021 - 88888888传真：021 - 88888888空间位置[-](c)图2：Poly-NL和其他非本地方法在RTX 2080 GPU上执行的运行时和峰值内存消耗Poly-NL表现出比竞争方法更低的计算开销，这对于空间位置或通道数量的增加是重要的。方法AP框AP框50AP框75AP掩码AP掩码50AP掩码75MaskR-CNN37.959.241.034.656.036.9+非本地38.860.642.035.457.337.7+ TESA39.560.943.135.457.237.5+潜伏-GNN38.960.442.435.357.337.4+高效-NL38.960.342.235.457.237.7+ Poly-NL39.260.842.235.457.437.6表1：实例分段-COCO上的Poly-NL和其他非局部方法的结果x（a，d）x（e，f）x（e，h），使用可学习参数als [1，59，44]加权。我们将Poly-NL与这些方法进行比较，并wf（d，f）wg（h，b）.从比较中可以看出讨论我们的配方在COM方面的优势-Poly-NL和Non-Local块模是两个紧密相连的公式。它们都访问同一组三元组，并通过反向传播优化一组可学习的权重。然而，这两个模块在计算效率方面有明显的不同。Poly-NL不需要显式计算任何成对函数，因此可以被视为非局部块的线性复杂度替代方案。有趣的是，这两个块也是等式（1）的3阶多项式的特殊（四）、这些块的输出Y_NL和Y_Poly-NL可以使用等式（1）等效地计算。（4），其中[3]和[3]是块稀疏的，低秩的，可以通过更小的矩阵分解（即：W1、W2、W3）。Poly-NL和NL只考虑了NC3三重态，这是所有N3C3可能的三阶相互作用的一个非常小的子集。例如，对于N=8.2，利用的三联体的百分比将小于0。025%4.2. 与其他非局部块的在较小的矩阵中分解高阶张量的想法并不是新的[10，37]，但可以用来对一系列流行的自我注意模型进行新的阐述。除了非局部块和Poly-NL之外，其他流行的非局部变量可以被构造为三阶多项式的特殊情况。推定效率图表检查了五种不同方法（TESA [1]，NL[52]，L-GNN [59]，E-NL [44]和Poly-NL）的性能，并展示了所提出的解决方案如何能够处理其他配方无法管理的输入大小。图2描绘了对于输入矩阵X的不同大小的各种空间非局部块的复杂度开销。在可视化中，我们检查了空间位置的数量（图2b和2c）和通道的数量（如图2a所示）。我们报告GPU上的运行时间（图2a，2b）作为时间复杂度的度量，并报告GPU上的峰值内存使用率作为空间复杂度的指标（图2c）。为了简化方法之间的比较，我们包括作为基线的相似数量的参数（CONV）的卷积层，其中没有使用注意力机制。所有基准测试都是在相同的硬件上，在可比的实现和超参数下，考虑每种方法的单层执行的对于每种方法，图表中显示的值是20次运行的中位数。[1]的TESA块提出通过在输入张量的三个不同矩阵化上计算六个矩阵乘法来将空间相关性与通道这个过程增加了自我注意所捕捉到的模式，但它是负担的一个非常高的计算复杂度为O（N2）。的NLPoly-NLTESAL-GNNCONVE-NLNLPoly-NLTESAL-GNNCONVE-NLNLPoly-NLTESAL-GNNCONVE-NLGPU运行时间[s]最大内存使用量[GB]10524×个∈×个×个方法AP髁间盒AP框50AP框 75AP掩码AP掩码 50AP掩码 75MaskR-CNN37.959.2 41.0 34.6 56.0 36.9含Poly-NL+ 在Res338.660.141.535.256.937.4+ 在Res439.260.842.235.457.437.6+ 在Res538.760.641.935.257.237.3+ 关于Res34539.861.743.236.058.438.3表2：用于实例分割的MaskR-CNN中的Poly-NL放置的消融研究。在不同的ResNet块上添加Poly-NL会产生性能变化。与在单个区块上单独应用相比，在所有ResNet区块上应用Poly-NL可提供最佳结果。方法Top-1Top-5方法容易介质硬ResNet-5075.6292.68ResNet-5095.4994.8589.87+非本地76.0993.00+非本地95.8895.1491.94+ TESA76.4993.05+ TESA96.2295.6192.58+潜伏-GNN75.2892.33+潜伏-GNN96.0095.3192.49+高效-NL75.8693.02+高效-NL96.0695.4292.55+ Poly-NL76.3093.06+ Poly-NL96.3795.7192.76(a) Imagenet（b）人脸检测表3：ImageNet上的图像分类和WIDER FACE上的人脸检测的非局部变量的结果[59]的Latent-GNN块，给定输入矩阵XRN×C，提出使用潜在表示N d以O（Nd2）复杂度提取长程依赖关系。该块使用矩阵乘法来计算低秩矩阵d d（其捕获潜在空间相互作用）和矩阵d C（其捕获其与输入通道的关系）。该方法具有计算复杂度其相对于空间位置的数量N是线性的，但是取决于超参数d的选择和用于计算输出的矩阵点积乘法的序列。最后，“高效非局部块”[ 44 ]提出计算等式（1）（2）从右到左。该过程避免了成对空间相似性的计算，并且使得复杂度相对于N是线性的，但是它仍然需要计算两个矩阵点积乘法的序列以提取输出。如图2b和2c所示，增加空间位置的数量极大地影响效率。运行时间的TESA和NL，这两个依赖于N的平方，迅速变得不切实际，即使在输入尺寸很小的情况下。有效方法（E-NL、L-GNN、Poly-NL）随着空间位置的增加而更好地缩放。尽管如此，我们的方法在所有图中具有竞争优势，这是由于其在空间维度N上缺乏任何矩阵点积乘法。如图2a所示，通道的数量线性地影响大多数方法的运行时性能，TESA是一个明显的例外即使在这种情况下，我们提出的方法是执行显着优于竞争的方法尤其是当信道的数量变得很大时。如图所示，Poly-NL始终优于现有的竞争对手，并且具有与常规卷积层（CONV）相当的效率，因为通过设计，它避免了任何注意力矩阵的显式计算。5. 实验我们在三个不同的任务上评估所提出的方法：COCO上的对象检测和实例分割[31]，ImageNet上的图像分类[41]，以及WIDER FACE数据集上的人脸检测[54]。我们提供的经验证据表明，Poly-NL优于先前提出的非局部神经网络，同时保持效率和性能之间的最佳权衡。5.1. 基于MS COCO的我们在对象检测和实例分割上测试了我们的方法，其中网络处理图像并产生一个像素-像素掩码，用于识别每个对象的类别和实例。我们使用MS-COCO 2017数据集[31]，由118 k个图像组成作为训练集，5 k作为验证集，20 k作为测试集，以及[18]的Mask R-CNN基线。对于所有的实验，我们报告边界框和分割掩码的平均精度AP、AP50和AP75MaskR-CNN架构由ResNet-用于特征提取的FPN主干，然后是阶段10525×个↑↑↑输入图像ResNet-50+非本地+潜在-GNN+高效-NL + TESA + Poly-NL图3：不同方法的类显着性图Grad-Cam [43]评估对应于感兴趣类别的图像区域非局部块的使用有助于区分类别预测类和框偏移量。我们使用8个Tesla V-100 GPU进行训练，每个GPU 2个图像（有效批量大小为16），在训练期间使用随机水平翻转作为增强。我们使用SGD求解器，权重衰减为0.0001，动量为0.90，初始学习率为0.02。所有模型都被训练了26个时期，其中学习率步骤在时期16和22处执行，伽马为0.1。我们使用在Imagenet上预训练的ResNet-50 [19]架构作为主干。在之前的工作之后，我们通过在Res 4的最后一个残差块之前添加一个非局部层来该过程突出了自注意力的能力，以提高特征我们将我们的方法与四个不同的空间自注意层进行比较，[52]的原始非局部块，[59]的有效潜在 GNN变体，[44]的有效NL和最近提出的TESA [1]。为了公平比较，我们报告了我们的训练结果，使用公开的源代码和各自作者提供的超参数实现定量结果总结于表1中。与性能最佳的方法TESA[1]相比，Poly- NL在AP掩模中表现出相同的性能，而在AP框中的准确度略低。然而，我们注意到，我们提出的方法比TESA在给定分辨率下的计算速度快近10此外，与非局部层[52]及其有效变体Latent-GNN [59]和Efficient-Net相比，我们的方法在AP框中将性能提高了0.3%，同时保持线性计算复杂度。我们消融了在MaskR-CNN中插入所提出的层的位置，并在表2中呈现了我们的发现。我们发现，在ResNet主干的任何块上使用自注意力可以大大提高检测和分割的性能。看来Res4是这是插入Poly-NL的最佳块，因为所有度量的数值改进是一致的。同时，表2显示所有ResNet块的组合导致最佳性能（在AP框中最多1.2%，在AP掩码中最多1.5%）。尽管在Res4处具有自注意力块是优选的，但是多个块上的注意力的贡献优于单个模块上的使用。这些结果表明，如何互补的注意模式，可以在不同的网络阶段捕获。5.2. 基于WIDER FACE的人脸检测我们还将我们的模型应用于WIDER FACE数据集[54]上的人脸检测任务，该数据集由32，203张图像和393，703个人脸边界框（40%训练，10%验证和50%测试）组成，在尺度，姿势，表情，遮挡和照明方面具有高度的可变性。与COCO [31]相比，WIDER FACE[54]包含更多微小和密集的检测对象（即脸）。来自COCO [ 31 ]的51%的对象与图像的相对比例低于0。11，而对于类似的比例，WIDER FACE中55%的面孔小于0。02.此外，COCO中有1%的图像包含30个以上的对象，而WIDER FACE中有8%的图像包含30个以上的人脸，许多图像甚至包含150个以上的人脸。基于EdgeBox [61]的检测率，三个难度级别（即容易、中等和硬）通过增量地并入硬样品来定义。通过使用IoU 0的评估度量。5，我们比较了所提出的方法和其他基线的平均精度（AP）容易，中等和困难的子集，分别。我们的实验基于开源mmdetection [7]使用PyTorch实现。受RetinaNet [30]的启发，我们选择ResNet-50 [19]作为主干，特征金字塔网络（FPN）[29]作为颈部来构建特征提取器。分类和回归10526×个×个X Y Z=X+Y X Y Z=X+Y图4：Poly-NL捕获的非本地依赖关系每个空间位置的提取特征的范数在输入图像上可视化。注意力贡献Y学习与由输入X捕获的模式互补的模式。上述量的总和合并在一起的短期和长期的空间依赖性的贡献[30]和DIoU损失[60]。在[52]之后，我们在c4的最后一个残差块之前插入一个Poly-NL块。为了检测微小的面孔，我们在FPN的每个级别上平铺三个尺度的锚。纵横比设置为1。3，正采样匹配的IoU阈值为0。三十五对于在训练期间的增强，正方形块被裁剪并且从具有随机尺度的原始图像调整大小为640 - 640。然后，应用了摄影畸变和概率为0.5的随机水平翻转.我们使用SGD优化器（动量0.9，权重衰减5e-4）在8个TeslaV100 GPU上以8 8的批量大小训练模型初始学习率设置为0。001，在前3个时期线性升温，并且在第250个时期和第350个时期衰减10倍所有的模型都是用400个epoch从头开始训练的，没有任何预训练。在测试过程中，我们只使用单尺度推断，图像的短边和长边分别以1100和1650为界。如表3b所示，所有注意力模块都可以显着提高WIDER FACE上的人脸检测性能，表明上下文建模的有效性（即捕获像素之间的长程相关性）。此外，拟议的多民族解放军模块始终优于所有其他非本地层在三个级别的难度，achieving的mAP为92。76%的硬子集，同时是considerably比所有竞争的方法更快。5.3. 影像网的分类我们使用Imagenet数据集[ 41 ]在大规模图像分类任务上评估了我们的方法，计数1。1000类28M训练图像。对于所有的实验，我们通过插入自注意模块来修改ResNet-50架构[19]，然后使用8个GPU从头开始训练90个epochs，使用256的批大小和初始学习率为0.1的SGD优化器和权重衰减，如[17]中所述定量结果报告于表（3a）中，并且示出了用于测量的Top-1和Top-5准确度。评价方法。很明显，在分类任务中，目标是提供输入的摘要，关于空间依赖性的推理极大地有益Poly-NL在Top-5准确度上实现了最佳性能，并且在Top-1上，除了TESA [ 1 ]之外，其显著优于所有其他非局部神经网络，TESA [1]对计算要求非常高。除了定量结果，图。图3示出了不同非局部变体之间的定性差异。可视化是通过梯度加权类激活映射（Grad-CAM）[43]生成的，这是一种突出显示图像分类任务的高重要性区域的技术与其他非局部方法相比，我们提出的方法更准确地捕获全局上下文和显著特征。4可视化Poly-NL对输入表示的贡献。该图将不同特征的范数覆盖在输入图像的顶部。我们报告输入很明显，Poly-NL学习将具有非局部依赖性的输入的视觉线索上下文化。我们的自我注意模块可以有效地识别与输入中捕获的模式互补的模式，并使特征图意识到长期依赖关系。6. 结论在这项工作中，我们铸造最近提出的非局部块作为一个三阶多项式的形式，在网格上的空间位置之间的基于这一事实，我们提出了一种名为Poly-NL的非局部层的新颖且快速的实施例，其可以捕获具有随空间和时间两者中的输入的大小线性缩放的复杂度的长程Poly-NL在图像识别、实例分割和人脸检测方面始终优于其他非本地网络。10527引用[1] Francesca Babiloni，Ioannis Marras，Gregory Slabaugh，and Stefanos Zafeiriou. Tesa：通过矩阵化的张量元素自我注意。在IEEE/CVF计算机视觉和模式识别集，第13945二、五、七、八[2] IrwanBello ， Barret Zoph ， Ashish Vaswani ， JonathonShlens ， and Quoc V. 乐注意力增强卷积网络。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。一、二[3] Antoni Buades，Bartomeu Coll，and J-M Morel.一种非局部图像去噪算法。在2005年IEEE计算机社会计算机视觉和模式识别会议（CVPRIEEE，2005年。二个[4] 曹岳、徐佳瑞、林斯蒂芬、魏方云和韩虎。Gcnet：非局域网络满足挤压激励网络和超越。在IEEE/CVF计算机视觉研讨会国际会议论文集，第0-0页，2019年。二个[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中，第213-229页Springer，2020年。2[6] 若昂·卡雷拉，鲁伊·卡塞罗，豪尔赫·巴蒂斯塔，克里斯蒂安 · 斯敏 - 奇塞斯库。使用二阶池的语义分割在European Conference on Computer Vision，第430443. Springer，2012. 二个[7] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jiarui Xu，et al.检测：打开mmlab检测工具箱和基准。arXiv：1906.07155，2019。七个[8] Yunpeng Chen，Yannis Kalatidis，Jianshu Li，ShichengYan ，and Jianshi Feng. a？2-nets：双重注意网络。arXiv预印本arXiv：1810.11579，2018。二个[9] Yunpeng Chen，Marcus Rohrbach，Zhicheng Yan，YanShuicheng，Jiashi Feng，and Yannis Kalantidis.基于图的全局推理网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第433-442页二个[10] Eric C Chi和Tamara G Kolda。论张量、稀疏性和非负因子分解。 SIAM Journal on Matrix Analysis andApplications，33（4）：1272-1299，2012. 五个[11] Rewon Child ， Scott Gray ， Alec Radford ， and IlyaSutskever. 用稀疏变换器生成长序列。 arXiv 预印本arXiv：1904.10509，2019。二个[12] Krzysztof Marcin Choromanski，Valerii Likhosherstov，David Dohan ， Xingyou Song ， Andreea Gane ， TamasSar- los ， Peter Hawkins ， Jared Quincy Davis ， AfrozMohiuddin，Lukasz Kaiser，David Benjamin Belanger，Lucy J Colwell，and Adrian Weller.重新思考表演者的注意力。2021年，在国际学术会议上发表。二个[13] Grigorios G Chrysos ， Stylianos Moschoglou ， GiorgosBouritsas ， Jiankang Deng ， Yannis Panagakis ， andStefanos P Zafeiriou.深度多项式神经网络IEEE Trans-行动模式分析和机器智能，2021年。二、三、四[14] Kostadin Dabov、Alessandro Foi、Vladimir Katkovnik和Karen Egiazarian。稀疏三维变换域协同滤波图像去噪IEEE Transactions on image processing，16（8）：2080-2095，2007. 二个[15] Tao Dai，Jianrui Cai，Yongbing Zhang，Shu-Tao Xia，and Lei Zhang.二阶注意力网络用于单幅图像超分辨率。在IEEE/CVF计算机视觉和模式识别会议集，第11065-11074页一、二[16] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第3146- 3154页，2019年。二个[17] PriyaGo yal ， PiotrDolla´r ， RossGirshick ， PieterNoord-huis ， Lukasz Wesolowski ， Aapo Kyrola ， AndrewTulloch，Yangqing Jia，and Kaiming He.准确、大的小批量sgd：1小时内训练imagenet。arXiv预印本arXiv：1706.02677，2017。八个[18] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页六个[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。二七八[20] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。二个[21] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，第7132-7141页，2018年。二个[22] Siddhant M Jayakumar ，Wojciech M Czarnecki ，JacobMenick ， JonathanSchwarz ， JackRae ， SimonOsindero ， Yee Whye Teh ， Tim Harley ， and RazvanPascanu.多重交互以及在哪里找到它们。在2019年国际学习代表会议上。二个[23] AngelosKatharopoulos ， ApoorvVyas ， Nikolaos

下载后可阅读完整内容，剩余1页未读，立即下载