张量元素自注意力（TESA）：基于矩阵化的相互依赖性的新方法

147 浏览量更新于2023-10-23 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

13945TESA：通过矩阵化的Francesca Babiloni1，Ioannis Marras1，Gregory Slabaugh1，StefanosZafeiriou21华为诺亚摘要表示学习是现代计算机视觉的基本部分，其中数据的抽象表示被编码为优化的张量，以解决图像分割和修复等问题最近，非局部块形式的自注意然而，标准的自我注意方法只利用空间关系，在向量之间画出相似性，而忽略了通道之间的相关性。在本文中，我们介绍了一种新的方法，称为张量元素自注意力（TESA），概括了这样的工作，以捕获沿所有维度的张量使用矩阵化的相互依赖性。一个阶数为R的张量产生R个结果，每个维对应一个结果然后将结果融合以产生丰富的输出，该输出封装了张量元素之间的相似性。此外，我们从数学上分析了自我注意，为它如何调整输入特征张量的奇异值提供了新的视角有了这些新的见解，我们提出的实验结果表明，TESA可以受益于不同的问题，包括分类和实例分割。通过简单地将TESA模块添加到现有网络中，我们大大提高了竞争基线，并为CelebA上的图像修复和SID上的低光原始到RGB图像转换1. 介绍深度卷积神经网络（DCNN）代表了各种计算机视觉问题中的最先进方法，这种固有的特性使得远程依赖性，这是各种任务的一个关键方面，很难在不使用规避技术的情况下捕获。例如，使用更深的卷积层堆栈增加了神经元图1：输入三阶张量被视为其三个模式矩阵化的组合。组合它们的输出允许该方法利用通道间和通道内的相关性。蓝灰色、白色和灰色3D框表示三个矩阵化中的每一个内的类似向量。Z张量中的红色立方体表示Z中的相似元素。[20]和更高的复杂性[38]。最近，更复杂的层（例如，非局部块），其直接利用这些相互依赖性作为丰富中间CNN表示的手段[41，47，39，49，28]。这些块已被证明是有用的，在视频动作识别，分类和实例分割方面击败了竞争对手。同时13946k=1，k这些方法中的大多数试图仅估计输入张量的位置之间的时空相关性[49，41，28]或忽略其复杂拓扑[47，3]。在本文中，我们建立在上述研究的基础上，并将其范围扩展到从输入中挖掘张量元素相互作用我们的三项主要贡献可归纳如下：◦ 我们提出了一种新的自注意块（TESA），能够利用输入张量的所有可能方向的相关性来利用通道信息而不会丢失输入张量的拓扑我们建议使用张量矩阵化作为提取复杂交互的一种方式，而不是将输入的元素完全扁平化在单个向量中并面临棘手的复杂性（图1）。◦ 我们提供了一个统计解释的建议家庭的非本地块。特别是，我们demonstrate，我们的块可以被看作是一个运营商的行为-作为频谱的正则化器（即，方差）的特征张量的各种矩阵化。我们从理论和实证的角度证明了TESA如何调整奇异值的相对重要性。这是隐式地实现的，而不需要以直接的方式计算昂贵的奇异值◦ 我们展示了TESA在一系列异构计算机视觉任务中的强大功能我们的方法显示在大规模分类、检测、实例分割和解谜方面的持续改进。它还实现了国家的最先进的性能，在两个密集的图像到图像的翻译问题的inpainting和短曝光原始长曝光rgb。2. 相关工作自相似性图像部分或视频帧之间的相似性概念在许多计算机视觉应用中是关键的。因此，社区中的一个长期趋势是了解如何正确定义和利用自相似性。将特征彼此关联的想法（即，CNN的通道或经典描述符）启发了各种池化方法[23，27，12，6，25，4]，其中相关性用作图像的高阶表示并馈送到分类器。同时机器学习。在机器翻译中，自我注意力向量评估每个元素的关注程度（即，是相关的），并估计目标作为一个句子中的所有元素的总和，由他们的注意力值加权[2，40]。自注意力的变体已用于计算机视觉中，以解决各种问题，从修复[45]到零拍摄学习[44]和视觉问题回答[35，37]。值得注意的例子可以在分类中找到，它已被用于估计中间CNN特征[32]或学习给定全局通道描述符的特征的重新校准[19]。最近，非本地块已被提议作为现有架构的即插即用扩展。该块的目的是使用时空交互来丰富特征，同时考虑所有位置[41，49，39]或单个位置及其邻域[28]。这个公式启发了新的深度学习架构[48，11，7]，并已扩展到在最近的作品中，将其与特征图的输入紧凑全局描述符集成[47，3，43]。3. 方法在这一节中，我们将介绍在整个论文中使用的符号，概述自我注意的概念，并详细描述所提出的方法。首先，我们研究我们的非局部块的空间版本。接下来，我们推广到捕获更复杂的张量相互依赖的范围最后，我们将我们的方法与其他现有的非局部块。3.1. 符号在其余的文件中，我们采用的符号Kolda等。在[22]中。张量使用书法字母（例如，X）和矩阵用粗体大写字母表示（例如，X）。矩阵X的第i行是一个向量，记为us-将小写粗体字母作为xi。一个tensor的阶数N对应于它的维数，也可以称为众数。张量的n阶模纤维是通过固定X的所有指数而获得的向量，n维，可以看作是一个泛化的ma-的行和列。本文讨论了张量X ∈RI1×I2×I3的n阶模矩阵化.×In是矩阵化的一种情况，记为X（n），并将其模n纤维安排为所得矩阵的列。更正式地说，十-对元素（i1，i2，...，i N）重新排列成矩阵一系列互补的研究提出的技术将图像部分与其上下文相关，元素（inQ，j）其中j=1+Nn（ik-1）Jk 和cal方法[36，13，8]和CNN模型[9，21，17，50，24]。Jk=k−1m=1，m/=n我...自我注意力注意力机制的关键思想是将模型集中在被认为对解决给定任务有用的数据的特定部分。其最初的配方可以追溯到603.2. 自我注意给定输入矩阵X，注意力机制用注意力矩阵A对X加权以突出输入的相关部分不同的计算A的方法包含不同的注意机制变体。本文13947（c）第（1）款（个）.Σ专注于自我注意力，其中权重仅是输入X的函数。特别地，我们考虑一个成对函数f，它可以用来捕获每个xi和每个xj之间的相互依赖性。自注意块是残差块[18]的变体，其将自注意机制的输出与原始输入X相加。自注意块的输出Y表示如下：Z= X + AX = X + f（X，X）.（一）3.3. 捕获空间相关性令3阶张量X ∈RH×W×C是CNN的一个层的特征图输出令X被重新排列，使用其模c矩阵化，作为X（c）∈RWH×C，其中每个空间位置由其C特征描述。让我们假设X（c）是均值归一化的。在所提出的块的线性版本中，我们选择协方差X（c）X ∈ R W H × HW作为注意力矩阵，其表示协方差X（c）X ∈ RWH×HW。第i个位置和第j个位置之间的关系因此，使用该机制的空间自注意块的输出可以写为如下：Z =αcX（c）+βcX（c）X<$X（c）（2）需要直接和昂贵的SVD计算。只有两个可学习的参数，α和β，用于此目的。由于α和β可以是正的或负的，因此该方法执行两个函数的代数和，并且因此具有通过执行收缩或白化来正则化频谱的灵活性。3.4. 捕获张量元素的相互依赖性在前面的小节中，选择将张量展开为矩阵X（c ）∈RWH×C，这使得注意力机制的焦点只捕捉空间相似性。在下文中，我们介绍了一种利用空间和基于通道的相关性的泛化，同时保持完整的模块如图1所示，所提出的推广使用其三个模式矩阵表示特征张量X ∈RH×W×CX（c）、X（h）和X（w），每个嵌入在不同的子通过加权矩阵W间隔，随后是非线性函数σ：Y（n）=φ（X（n））=σ（X（n）W（n））n∈{C，H，W}.（六）在我们的实现中， σ 是ReLU 激活函数（c）第（1）款[33]和权重矩阵W（c）第（1）款∈RC×C，其中αc和βc是可学习的标量，调节每项的连续性。由方程式2，全局协方差项用空间相似性调制特征的表示。剩余项与两个可学习标量一起允许通过多项式函数对谱进行隐式正则化在下文中，我们在自注意块的输入和输出之间绘制矩阵X及其半正定协方差矩阵W（h）∈RH×H，W（w）∈RW×W对应于张量空间中每个相应维度上的1 × 1卷积。然后，一个自注意力块被独立地应用于每个Y（n），三个贡献被重新整形并通过求和组合以生成最终输出Z。C、H、W具有以下奇异值和本征分解：Z=<$（n）（αnY（n）+βnY（n）Y<$Y（n）），（7）X = UV，第二十章=Q <$Q.=U2个单位中国（3）n其中，n（n）是重新排列ma的整形函数，其中Q = U是特征向量矩阵，V和U是右奇异向量和左奇异向量，Λ是特征值矩阵，并且Λ是其对应的奇异值对角矩阵。作为维数为H×W×C的张量。在上面的等式中，每个嵌入的矩阵化表示一个dif。关于输入张量的不同观点：Y（c）帐户值得注意的是，Λ= Λ2。因此，β参数学习modu-对于空间相互作用，Y （单位：w）对于行第一百一十二条下列情形之一的，人民法院不予受理：XXX= U2UUV= U3V（4）从上面可以明显看出，使用所提出的自注意块将X的频谱改变为：13948αX +βXX<$X = U（α<$+β<$3）V<$（5）因此，等式（2）中描述的自注意块学习奇异值的多项式函数的系数，而不对输入的正交向量U和V进行操作以及通道激活和Y（h），用于柱和通道之间的相互作用。我们的方法在它自己的空间中处理每个Y（n），用一个自相关函数调制它的表示。注意力块，如等式中所述。二、因此，不限于仅捕获位置之间的相关性，而是还能够捕获跨通道的相关性。为了能同时被表示，这三个贡献在张量空间中被融合（即，在相同的坐标空间中重叠通过求和的融合确保i）输入和输出的相同维度，以及ii）每个项的相等贡献。如图1所示，尽管每个自我注意块的输出封装了向量对之间的相似性，但它们的总和允许13949φ方法直接将张量元素相互关联。我们称之为张量元素自注意或TESA。3.5. 与其他自我注意障碍的关系在本节中，我们将TESA与其他自我关注作品联系起来。非局部块[41]及其变体[49，39，28]探索了在神经网络中引入非局部信息，并且可以被视为研究空间相关性的自注意方法。在最接近我们的公式中，非局部块在同一输入 X 上应用三个可学习的权重矩阵（Wθ，Wφ和Wg）[41]。前两个矩阵负责提取空间长程依赖关系，一个点积相似性，而第三个嵌入输入。给定X ∈RWH×C ，原始非局部块的输出 Z 为： Z = X+softmax（XWθW<$X<$）XWg. 我们的目标是将自我注意机制推广到更复杂的相互作用而不忽略信道信息。因此，我们的块分别嵌入每个张量模式，旨在从每个嵌入中提取不同的相关性。最近的工作提出通过估计每个通道的标量全局描述[43]或张量特征图[47]来利用通道信息。在与我们在[47]中最接近的情况下，该方法将输入划分为GWH×C没有任何注意（α=1，β=0）和我们的块的两个变体：一个是α和β被固定为等于1，另一个是它们被视为可学习的标量。图2的第一行显示了我们比较的定性概述基线仅限于在本地处理输入，并且比用自我注意训练的模型表现更差第二行显示了谜题MNIST测试集奇异值的经验分布的比较给定测试集的样本，我们提取了自我注意块之前和之后的特征，为每个图像返回两个矩阵Xin和Xout。如第3节中所解释的，左奇异向量和右奇异向量不被该方法触及。因此，输入和输出之间的关系可以仅使用α和β参数来计算，并且可以通过并排绘制输入和输出的奇异值谱来捕获自注意的影响图2g和2h显示了输入X in的奇异值（蓝色）和输出X out的奇异值（白色），按降序绘制。红色条描绘了使用等式5获得的对输出的预测。比较每个图中的输入和输出显示了注意力块如何缩小输入的频谱，自动选择哪些信息（即，组件）被突出显示，并被抑制以简化子组件。分离群Xi∈R并提取一个全局代表，解码任务。此外，它还表明，（1）每一个人都有自己的责任。相反，我们解决该问题从互补的角度来看，与一个公式，专注于张量元素的成对相关性的显式计算4. 说明性实验自我注意机制的目标之一是使模型能够一眼就对整个输入表示进行推理。我们首先测试这个属性在一个受控的情况下，设计一个新的“谜MNIST”实验。我们使用了MNIST数据集和四层全卷积编码器-解码器架构。为了测试我们的自我注意力方法利用可用但分散的信息的能力，我们尝试了一个图像的重组，给出了它的混洗版本。为了获得一个输入拼图，每个图像被分成16个大小相等的图块。然后，这些图块在被缝合在一起之前被随机旋转和镜像。输入和输出样本可以分别在图2e和2a中看到。在网络的编码器和解码器部分之间，自注意模块集成关于位置或张量自相似性的信息。4.1. 捕捉空间相关性我们首先分析空间自我注意力块，如公式2所示。为了突出自我注意在潜在空间中的作用，我们比较了训练后的模型，SVD计算与理论预测非常吻合第两个图之间的比较显示了学习频谱变换的可能性（图2h）与自我注意和输入的固定贡献相比，保留了更多的表达成分（图2g）。例如，在图2h中，第一奇异值和第二奇异值之间的下降基本上小于（30%下降）在α和β固定为1（下降60%）的情况下发生。4.2. 捕获张量元素的相互依赖性相同的逻辑可以用于分析等式7的一般情况。作为第一步，我们扩展了线性空间的情况下，考虑基于通道的相互依赖性。这种情况等价于在等式7中用Xn代替Yn。这允许在相同的潜在空间中对输入（X）和输出（Z）张量进行比较在3b，3c，3d图中，分别处理了每个模式矩阵化（H，C，W），显示了每个自我注意的输入和输出之间的比较。这些图描述了自我注意如何对所有模式matricizations产生收缩效应将通道与行和列模式相关联的可能性修改了X（c）的作用。它的频谱大大减少，只有两个有意义的分量，占99%以上的整个方差。图3a显示了我们的方法的示例输出，该方法不限于空间相似性，但可以利用原始张量的多个视图。它产生了相当尖锐的输出13950(a) Groundtruth（b）无注意α = 1，β = 0(c) 平等贡献α = β = 1(d) 学术贡献α = 0.1，β =−1(e) 输入（f）奇异值α = 1，β = 0(g) 奇异值α = β = 1(h) 奇异值α = 0.1，β =−1图2：空间自我注意概述。第一行显示重建的数字。没有注意的基线优于使用空间相关性。最好的质量是通过α和β可学习标量实现的。特征的奇异值显示了自我注意力如何驱动第一主成分来解释矩阵中的大部分方差。根据经验（白色条）或使用公式5（红色条）计算输出光谱会产生非常接近的结果。蓝色图由于架构学习的不同嵌入而有所不同。(a) TESA -w/o嵌入（b）奇异值矩阵化模式C(c) 奇异值矩阵化模式H(d) 奇异值矩阵化模式W图3：张量元素自注意概述。定性比较展示了我们的方法的好处，它利用通道信息产生更明确的输出。与以前的案例相比。为了讨论等式7中描述的情况，我们必须扩展分析以考虑嵌入模式矩阵YcYhYw。在这种情况下，由于投影矩阵WcWhWw的可学习参数，输入X和Z张量位于不同的子空间中。每个模式矩阵化是单独嵌入的，但每个自注意直接对其输入进行操作，而没有任何附加的输入。功能转换因此，每个自我注意的输入/输出对仍然共享相同的正交向量，并且它们的频谱仍然可以被比较并用于突出自我注意模块对每个潜在空间的影响在下一节中，我们将报告不同问题和数据集的这种影响。在“shuffle MNIST”上5. 实验我们在一系列计算机视觉问题上评估了TESA，从密集的图像到图像的转换到检测。本节首先介绍基于编码器-解码器架构的两个密集任务的结果，其中自注意块用于丰富编码特征表示。然后，我们的分析扩展到用于分类的ResNet架构的情况，并作为实例分割的骨干。5.1. 短曝光Raw到长曝光rgb首先，我们解决的任务是重建一个高品质的长曝光RGB图像给定的噪声短曝光传感器在低光条件下捕获的原始图像在数字摄影中，图像信号处理流水线（ISP）将图像传感器收集的原始数据转换为13951(a) 输入（b）SID [5]（c）SID + NL [41]（d）SID + TESA(e) 奇异值矩阵化模式H(f) 奇异值矩阵化模式W(g) 奇异值矩阵化模式H图4：短曝光原始到长曝光rgb概览。定性比较表明，[5]可以通过使用自我注意力来改善我们的方法能够恢复更干净的模式，并生成输出，强烈的彩色伪影。第二行显示了每个模式矩阵化的输入/输出对的奇异值图。该趋势描绘了自注意对输入频谱的白化效应。电子放大后的图像更清晰可见。高质量的RGB图像。传统上，ISP依赖于经典方法，并且强烈依赖于噪声分布和相机传感器。现代深度学习方法[1，5，15]用一个卷积网络取代了传统的ISP，实现了良好的性能，特别是在低信噪比（SNR）的挑战性情况我们实验中的骨干是在学习在黑暗中看到（SID）[5]中提出的Unet架构，如原始论文1中所述进行训练和实现。为了研究注意模块对整个图像表示进行推理的能力，我们在网络的编码器和解码器部分之间插入了自注意块，其中单元受益于最大的感受野。然后，我们将其与架构的普通版本以及使用替代自我注意力块的版本[41，47]进行比较23。实验报告了SID-Sony数据集的结果[5]，该数据集由短曝光原始和长曝光rgb对高分辨率图像（4240x2832）组成这两对是在低光条件下拍摄，范围从0. 03至5勒克斯。1https://github.com/cchen156/Learning-to-See-in-the-Dark2https://github.com/facebookresearch/video-nonlocal-net网站3https://github.com/KaiyuYue/cgnl-network.pytorch索尼相机使用拜耳传感器图案来捕捉一张曝光时间短的原始照片同时，摄像机拍摄的参考rgb图像增加了100或300倍的扩展因子，被网络用作地面实况。表1b报告了通过不同方法获得的参考度量PSNR和SSIM新的国家的最先进的性能是通过供电的architec，与我们的自我关注块。与竞争对手相比，我们的方法显示了更好的细节和颜色恢复（图1）。4）.图4e、4f、4g描绘了TESA对奇异值的影响。在这种情况下，Y（h）、Y（w）和Y（c）的输入谱被白化;注意，输入（深蓝色条）奇异值快速下降（例如，指数地），而具有TESA的自我注意力重新平衡它们的强度并产生输出（白色条），其中奇异值更逐渐地下降（例如，近似线性地）。5.2. 修复CelebA图像修复需要填充输入图像中缺失的像素修复算法使丢失的图像像素产生幻觉，并以连贯的方式将它们与周围区域混合，产生真实的图像。13952(a) 输入（b）地面实况（c）PConv [29]（d）PConv + NL [41]（e）PConv + TESA图5：修复定性比较。部分卷积基线（Pconv）创建模糊和人工输出，其通过使用自我注意（例如，PConv + NL实现非本地块）。我们的方法（右）利用多个维度的相似性，并产生一致的颜色和逼真的细节。方法PSNRSSIMMS-SSIMPConv [29]*25.36 /25.100.877 /0.8720.928 /0.922[41]第四十一话25.41 /25.240.881 /0.8780.928 /0.924[47]第四十七话25.66 /25.570.888 /0.8850.931 /0.927方法PSNRSSIMSID [5]28.880.787SID [5]*28.570.884[41]第四十一话29.540.888[47]第四十七话29.620.889(a) 修复-CelebA.（随机和中心作物评估）(b) 原始到rgb - SID Sony表1：定量比较：Unet用于图像修复和Raw-to-rgb。修复和短曝光-raw到长曝光-rgb任务的重建度量。实验采用Unet架构的不同变体：为raw到rgb添加1个注意块，为inpainting添加3个注意块。通过使用我们的方法可以实现最先进的性能。星号stic输出图像。在这一领域已经取得了令人印象深刻的成果，最新的架构围绕着编码器-解码器网络，有或没有跳过连接[46，29，45]。在这些实验中，基线架构是具有部分卷积4的Unet架构，如[29]中所提出的。我们研究了自我注意块以多尺度方式工作的能力。在编码器中，输入的分辨率被多次缩小，目的是集中在不同层的图像的不同方面我们通过在第2层、第4层和第6层插入第3.4节中的自我注意块，在不同尺度上整合了自相似性信息。我们将我们的架构与一个变体进行了比较，其中我们的块被另一个版本[41，47]取代，并且与原始的Unet架构进行了比较，其中没有使用注意力机制。有关培训程序和实施细节，请参见[29]。CelebA数据集[30]由超过202K个样本组成，用于我们的实验。训练数据是通过从每个训练样本（输入图像的四分之一）中随机裁剪128x128块来生成的表1a报告了这些方法的PSNR、SSIM、MS-SSIM。TESA在所有评估的标准中取得了最佳结果，并生成了具有丰富细节和减少的伪像（例如，更明确的皱纹）。5.3. 实例分割MS COCO图像实例分割的任务需要检测和分割输入图像中的每个项目，区分实例。它输出一个每像素遮罩，标识每个对象的类别和实例。这些实验的基线模型是两阶段Mask R-CNN [16]。第一个区域建议阶段（RPN）使用一个网络，作为整个管道的“注意”：它将图像作为输入并输出一组矩形对象建议。第二阶段并行处理边界框区域的分类和回归任务。我们测试了自我注意块丰富RPN特征表示在相关工作的实现之后，我们在ResNet50特征提取器的最后一个残差块之前添加了一个自注意块，在嵌入模式矩阵的同时降低了通道为了将整体输出恢复到原始通道维度，我们使用了一个额外的卷积和一个加权全局跳过连接。我们比较了[16]的原始实现，训练的端到端及其非局部块扩展[41，49]。请参考原始文件和代码254https://github.com/NVIDIA/partialconv5 https://github.com/latentgnn/LatentGNN-V1-PyTorch13953方法Top 1 Top 5方法AP框AP框50AP框75AP掩码 AP掩码50AP掩码75ResNet50 [47]76.1592.87[49]第四十九话37.859.141.234.255.836.3+ [47]第四十七话77.6993.64[49]第四十九话39.060.742.535.557.637.6ResNet50*75.7892.76MaskR-CNN*38.159.441.234.655.936.8[41]第四十一话76.0993.00[41]第四十一话39.061.141.935.558.037.4[49]第四十九话75.2892.33[49]第四十九话39.160.742.535.557.637.6+我们的76.4993.05+我们的39.561.243.035.757.937.9(a) 分类-Imagenet（b）对象检测和实例分割-MS-COCO表2：定量比较：ResNet。 Imagenet数据集分类任务的性能指标[34] 以及COCO上的对象检测和实例分割[26]。结果基于ResNet 50和Mask R-CNN使用ResNet 50-FPN主干。两者都使用一个单一的注意力块。星号Yue等人在我们的训练期间没有收敛，并且没有在表（b）中报告。(a) 奇异值矩阵化模式H(b) 奇异值矩阵化W模式(c) 奇异值矩阵化模式C图6：实例分割上的张量元素自注意力谱（MS-COCO）。在所有三个图中可以跟踪相同的收缩趋势。该块压缩输入奇异值并输出特征图，其中有意义的分量（即，总方差的80%的累积计数）被减少。有关实施细节，以及有关培训计划，请参阅[14]。表2b报告了COntext数据集中Microsoft Common Objects的结果[26]。我们使用了2017年版本的数据集，并报告了用于分割和检测任务的AP标准指标（在多个IoU阈值上平均）。结果显示了TESA如何超越其竞争对手。图6a、6 b、6c示出了每个模式矩阵化输入/输出对的奇异值。在这种情况下，自我注意块学习收缩输入的奇异值。换句话说，它隐式地选择哪个特征的信息（即，奇异向量），网络在特征提取过程中应当注意。5.4. 分类Imagenet最后，我们使用ImageNet数据集的1000个类别和120万个训练图像在大规模分类任务上评估我们的方法[34]。我们实验的主干是按照[14]中的协议训练的Resnet50架构。我们用一个TESA自我注意块或其不同变体[41，49]扩展了这个架构，如前一段所述。表2a报告评价方法的前1和前5准确度使用全局描述符实现了最佳性能，但TESA充分利用了张量元素之间的相互作用，产生了有竞争力的结果，优于仅使用空间相关性的方法。6. 结论在本文中，我们引入了一个新的家庭的非局部块，数学框架作为运营商的功能的频谱和建议TESA，推广早期的非局部空间相关张量元素的相互作用。我们证明了其在不同任务上持续改进结果的能力，这些结果超过了竞争力和最先进的基线。最后，我们展示了我们的方法的独特的特点，以挑选出感兴趣的数据组件，适应其是，或不同的应用程序。我们说明了这如何需要收缩，其中主要组件被选择以紧凑的方式汇总数据，或收缩，其中组件被平衡和去相关以简化后续任务。接下来，我们的目标是将TESA与全局描述符的正交贡献相结合。13954引用[1] Deepsp：学习端到端的图像处理管道。4326[2] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。2015. 4322[3] 曹岳、徐佳瑞、林斯蒂芬、魏方云和韩虎。Gcnet：非局域网络满足挤压激励网络和超越。arXiv预印本arXiv：1904.11492，2019。4322[4] 若昂·卡雷拉，鲁伊·卡塞罗，豪尔赫·巴蒂斯塔，克里斯蒂安 · 斯敏 - 奇塞斯库。使用二阶池的语义分割在European Conference on Computer Vision，第430443. Springer，2012. 4322[5] Chen Chen，Qifeng Chen，Jia Xu，and Vladlen Koltun.学会在黑暗中看东西在IEEE计算机视觉和模式识别会议论文集，第3291-3300页四三二六四三二七[6] Yin Cui，Feng Zhou，Jiang Wang，Xiao Liu，YuanqingLin，and Serge Belongie.卷积神经网络的核池。在IEEE计算机视觉和模式识别会议论文集，第2921-2930页，2017年。4322[7] Tao Dai，Jianrui Cai，Yongbing Zhang，Shu-Tao Xia，and Lei Zhang.二阶注意力网络用于单幅图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，第110654322[8] 阿拉姆·丹尼尔扬，弗拉基米尔·卡特科夫尼克，凯伦·埃吉亚扎里安 . Bm3d 框架与变分图像去模糊。 IEEETransactions on Image Processing，21（4）：17154322[9] 托马斯·德塞拉和维托里奥·法拉利。用于对象分类和检测的全局和高效的自相似性2010年IEEE计算机协会计算机视觉和模式识别会议，第 1633-1640 页 IEEE，2010。4322[10] Richard O Duda，Peter E Hart，and David G Stork. 模式分类John Wiley Sons，2012. 4322[11] 傅军，刘静，田海杰，李勇，鲍勇军，方志伟，卢汉青.用于场景分割的双注意网络。在IEEE计算机视觉和模式识别会议论文集，第3146- 3154页4322[12] 杨高、奥斯卡·贝博姆、张宁和特雷弗·达雷尔。紧凑的双线性池。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 317-326，2016中。4322[13] Stephen Gould，Tianshi Gao，and Daphne Koller.基于区域的分割和目标检测。神经信息处理系统的进展，第655-663页，2009年。4322[14] PriyaGo yal ， PiotrDolla´r ， RossGirshick ， PieterNoord-huis ， Lukasz Wesolowski ， Aapo Kyrola ， AndrewTulloch，Yangqing Jia，and Kaiming He.准确、大的小批量sgd：1小时内训练imagenet。arXiv预印本arXiv：1706.02677，2017。4328[15] 古书航、李亚伟、吕克·凡古尔、拉杜·提莫夫特。用于快速图像去噪的自引导网络。在IEEE计算机视觉国际会议论文集，第2511-2520页，2019年。4326[16] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE国际计算机视觉会议论文集，第2961-2969页，2017年。4327[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。IEEE Transactions on Pattern Analysis and MachineIntelligence，37（9）：1904-1916，2015。4322[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。4323[19] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，第7132-7141页，2018年。4322[20] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在International Conference on Machine Learning ，第 448-456页4321[21] Seungryong Kim ， Dongbo Min ， Bumsub Ham ，Sangryul Jeon ， Stephen Lin ， and Kwanghoon Sohn.Fcss：用于密集语义对应的完全卷积自相似性在IEEE计算机视觉和模式识别会议论文集，第6560-6569页4322[22] Tamara G Kolda和Brett W Bader。张量分解及其应用。SIAM review，51（3）：455-500，2009. 4322[23] 舒空和查尔斯·福克斯。用于细粒度分类的低秩双线性池。在IEEE计算机视觉和模式识别会议论文集，第365-374页，2017年。4322[24] Stamatios Lefkimmiatis.基于卷积神经网络的非局部彩色图像去噪。在IEEE计算机视觉和模式识别会议集，第3587-3596页，2017年。4322[25] Peihua Li，Jiangtao Xie，Qilong Wang，and WangmengZuo.二阶信息是否有助于大规模视觉识别？在IEEE计算机视觉国际会议论文集，第2070-2078页，2017年。4322[26] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740Springer，2014. 4328[27] 林宗宇，Aruni RoyChowdhury，Subhransu Maji。用于细粒度视觉识别的双线性cnn模型。在Proceedings of theIEEE international conference on computer vision，pages1449-1457，2015中。4322[28] Ding Liu ， Bihan Wen ， Yuchen Fan ， Chen ChangeLoy，and Thomas S Huang.用于图像复原的非局部递归网络。神经信息处理系统进展，第1673-1682页，2018年。四三二一四三二二四三二四[29] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.图像修复13955使用部分卷积的不规则孔。在欧洲计算机视觉会议（ECCV）的会议记录中，第85-100页，2018年。4327[30] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。在IEEE计算机视觉国际会议论文集，第3730-3738页4327[31] Wenjie Luo ， Yujia Li ， Raquel Urtasun ， and RichardZemel.理解深度卷积神经网络中的有效感受野。神经信息处理系统的进展，第4898-4906页，2016年。4321[32] Volodymyr Mnih，Nicolas Heess，Alex Graves，et al.Recur- rent models of visual attention.神经信息处理系统的进展，第2204-2212页，2014年。4322[33] Vinod Nair和Geoffrey E Hinton。修正线性单元改进受限玻尔兹曼机。第27届机器学习国际会议（ICML- 10），第807-814页，2010年。4323[34] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein ， et al. 图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211-252，2015. 4328[35] Adam Santoro 、 David Raposo 、 David G Barrett 、Mateusz Malinowski、Razvan Pascanu、Peter Battaglia和Timothy Lillicrap。一个简单的神经网络模型的关系reasoning。神经信息处理系统进展，第4967-4976页，2017年。4322[36] Eli Shechtman和Michal Irani在图像和视频中匹配局部自相似性。在CVPR，第2卷，第3页。明尼苏达州明尼阿波利斯市，2007年。4322[37] Kevin J Shih、Saurabh Singh和Derek Hoiem。在哪里看：视觉问答的焦点区域。在IEEE计算机视觉和模式识别会议的Proceedings，第4613-4621页，2016年。4322[38] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的

下载后可阅读完整内容，剩余1页未读，立即下载