没有合适的资源?快使用搜索试试~ 我知道了~
基于局部关系网络的图像识别特征提取方法
1基于局部关系网络的图像识别韩虎1张征1谢振达1,2林志颖11微软亚洲研究院2清华大学{hanhu,zhez,v-zhxia,stevelin}@ microsoft.com摘要卷积层多年来一直是计算机视觉中的主要特征然而,卷积中的空间聚合基本上是应用固定滤波器的模式匹配过程,固定滤波器在对具有变化的空间分布的视觉元素进行建模时效率低下。本文提出了一种新的图像特征提取器,称为局部关系层,自适应地确定聚合权重的基础上的组成关系的本地像素对船舶。通过这种关系方法,它可以以更有效的方式将视觉元素组合成更高级别的实体,从而有利于语义推理。研究发现,在大规模识别任务(如ImageNet分类)中,使用局部关系层构建的网络(称为局部1. 介绍人类有一种非凡的能力,通过感知有限的一组低级视觉基元,他们可以生产性地组成无限的高级视觉概念,由此可以形成对所观看场景的理解。在计算机视觉中,这种组成行为可以通过在卷积神经网络中构建分层表示来近似,其中不同的层表示不同级别的视觉元素。在较低层,提取诸如边缘的基本元素。这些在中间层组合形成对象部分,然后最终在更高层表示整个对象[35]。虽然一系列卷积层可以构建分层表示,但其用于将较低级别元素组合成较高级别实体的机制在概念推断方面可以被视为非常低效。通道#1信道#2信道#3卷积局部关系图1. 3×3卷积层和3×3局部关系层的图示。虽然卷积需要3个通道来表示鸟眼和鸟喙之间的空间变化性,但局部关系层仅需要1个通道。板,其中输入特征根据卷积滤波器权重在空间上聚合对于特征的有效当试图推断具有显著空间可变性的视觉概念时,例如从如图1所示的几何变形,该要求是有问题的,因为过滤器学习可能潜在地面临不同有效组成可能性的组合爆炸[24,34,23]。在本文中,我们提出了一个新的计算网络层,称为本地关系层,其中有意义的组成结构,可以自适应地推断在局部区域的视觉元素之间。与在空间相邻输入特征上采用固定聚合权重的卷积层相比,我们的新层基于局部像素对的可组合性来调整聚合权重。受关系模型[1]的启发,可组合性由两个像素的特征投影到学习的嵌入空间中的相似性来确定。该嵌入可以另外考虑几何先验,其已经被证明在视觉识别任务1中是有用的。通过学习如何自适应地作曲恩塞 与其说元素是有意义的-巧妙地结合在一起,卷积层充当TEM,*这项工作是谢振达在微软亚洲研究院实习时完成的。1例如,几何先验在卷积层中被固有地编码,因为其聚合权重在相对位置上被参数化。这是导致其在视觉识别中成功的重要特性。34640.50.50.50.50.50.5通道#10.50.50.50.50.50.53465像素,可以建立更有效和高效局部关系层可以用作深度网络中卷积层2的直接使用这些层,我们开发了一种称为局部关系网络(LR-Net)的网络架构,它遵循ResNet [9]中堆叠残差块的实践,以实现非常深的网络的优化。在相同的计算预算下,具有26层和瓶颈残差块的LR-Net在ImageNet图像分类任务的top-1准确度上超过常规的26层ResNet绝对3%[7]。在基本残差块和更深的网络(50和101层)上也实现了改进的精度。除了强大的图像分类性能,我们展示了一些有利的本地关系网络的属性。其中之一是与常规卷积网络相比,它们在利用大核邻域方面虽然常规的ConvNets主要使用由于在较大尺寸下的饱和,LR-Net被发现受益于7×7甚至更大的内核。我们还表明,该网络是更强大的广告-sarial攻击,可能是由于其在空间域中的合成能力。我们注意到,虽然深度神经网络都形成了自下而上的图像特征层次结构,但它们通常基于静态卷积权重来聚合特征,这可以被视为自上而下的方式。相比之下,我们的组合方法计算的权重自适应的基础上组合的本地像素对,被称为自底向上的方式。有一些最近的方法[24,10,28]也这样做,但它们要么不适用于大规模识别任务[24,10],要么只起常规卷积的补充作用,而不是作为替代[28]。此外,这些方法在整个输入特征图上进行空间聚合,并且不考虑像素之间的几何关系,而我们的网络证明了局部性和几何先验的重要性。通过这项工作,它表明,自底向上的方法来确定功能聚合权重可以是既实用又有效。2. 相关作品卷积层和扩展卷积层已经存在了几十年[8,18]。 它最近的流行始于AlexNet [17]在ImageNet [7]上对对象进行分类的令人印象深刻的性能。从那时起,卷积层几乎专门用于提取基本的视觉特征。2由于1×1卷积不涉及对相邻像素的滤波,因此我们在本文中不将其视为卷积,而是将其称为通道变换[20]。然而,在一些图/表中,为了符号方便,我们使用1×1已经提出了对常规卷积层的扩展。在一个方向上,通过限制聚合输入信道的范围来获得更好的准确性-效率折衷。代表性的工作包括群卷积[17,31]和分离卷积[5,11]。另一个方向是修改聚合的空间范围这样做是为了扩大感受野,例如通过atrous/dilated卷积[4,33],并通过活动[14]和可变形卷积[6,36]增强模拟几何变形的能力。一些作品放宽了跨位置共享聚合权重/范围的要求。一种直接的方法是采用局部连接层[25],它学习不同位置的独立聚合权重。由于正则卷积失去了平移不变性和知识从一个位置到另一个位置的转移等在沿着这个方向的其他工作中,提出了生成位置自适应聚合权重[15]或自适应聚合范围[6,36]的卷积层。我们注意到,常规卷积和上述扩展都以自上而下的方式操作,基于图像外观或感受野内的空间位置来确定它们的卷积行为。相比之下,所提出的层基于局部像素对的可组合性以自下而上的方式确定聚合权重,我们认为这在视觉世界中提供了更有效的空间组合编码。同时,所提出的层遵循并适应来自这些卷积变体的几个有利的设计原则,例如局部性、几何先验的使用以及跨位置的权重/元权重共享,这些原则已被发现在有效地提取视觉特征中至关重要。胶囊网络为了解决卷积层的一些缺点,最近的工作是基于像素对的可组合性以自底向上的方式确定聚合权重一个代表性的工作是胶囊网络[24,10],其中可组合性是通过迭代路由过程计算的。在每个路由步骤中,如果聚合前后的向量彼此接近,则放大聚合权重胶囊网络中的这种自我强化过程类似于过滤气泡的过程,过滤气泡是社交网络中的一种流行现象,其中具有相同兴趣的代理之间的连接变得更强,而当兴趣不同时,连接变得更弱虽然路由方法是鼓舞人心的,计算是不符合当前的学习基础设施,如反向传播和多层网络。与此相反,局部关系层中像素对的可组合性是通过em中像素对的相似性来计算的。3466使用学习到的嵌入参数来构建嵌入空间,这对当前的学习基础设施更友好。局部关系层还通过其聚合计算过程与胶囊网络区分开,包括其空间范围(局部与全局)和几何先验(具有与全局)。 没有)。有了这些差异,本地关系网络是显着更实际的比现有的方法的基础上自下而上的聚合。自我注意力/图形网络所提出的局部关系层也与自然语言处理中使用的自我注意力模型[26]以及应用于非网格数据的图形网络[3]有关这些工作共享一个类似于一般关系建模的基本结构[1],它自然地在网络中引入了组合性。由于其强大的成分建模能力,这些方法已成为各自领域的主导方法。然而,在计算机视觉中,很少有作品在其网络架构中涉及这种组合[12,28,32,19,29,13,30]。.在[12]中,对对象建议之间的关系进行了建模,从而提高了准确性以及第一个完全端到端的对象检测器。该工作中的关系建模适用于非网格数据。在[28]中,像素之间的关系被建模,就像我们的工作一样。然而,目标不同。[28]作为卷积层的补充,我们追求一种基本图像特征提取器,其具有比卷积层更强的空间组成表示能力。在[13]中,探索了通道式注意力,[30]进一步整合了通道式注意力和空间式注意力。从这个意义上说,我们的工作桥梁的一般哲学的组合性引入表示,这已被证明是有效的处理顺序和非网格数据,并适用于计算机视觉的基本特征提取器。 这样一个目标是不平凡的,需要调整从两边。3. 笼统措词在本节中,我们描述了基本图像特征提取器的一般公式,基于该公式,将呈现所提出的局部关系层用x∈RC×H×W和y∈RC′×H′×W′表示层的输入和输出,其中C、C′是输入/输出特征的通道,H、W、H′、W′为输入/输出空间分辨率。现有的基本图像提取层通常通过输入特征的加权聚合来产生输出特征tively; 和Ωp′ 表示分别在通道c’和位置p’处产生输出特征值时输入特征的通道和空间聚合的范围;ω(c′,c,p′,p)表示从c,p到c′,p′的聚合权重。现有的基本图像特征提取层主要有三个方面的区别:参数化方法、聚合范围和聚合权重。参数化方法定义要学习的模型权重。最常见的参数化方法是直接学习聚合权重ω[18]。还有一些方法可以在输入上学习元网络{θ}特征以生成自适应聚合权重[15]或跨空间位置的自适应聚合范围[6],或者学习关于空间聚合范围(Ω)的固定先验[14]。通常,参数化在空间位置上共享以实现平移不变性。聚合范围定义聚合计算中涉及的通道和空间位置的范围。对于通道范围,常规卷积在计算每个通道输出时包括所有输入通道。为了获得更高的效率,一些方法在产生输出特征的一个通道时仅考虑一个或一组输入通道[17,5]。最近,已经存在多个或所有输出通道共享相同聚合权重的方法[28,24]。对于空间范围,大多数方法将聚合计算限制在局部区域内。将聚集限制在局部区域不仅可以显着减少计算,而且有助于引入信息瓶颈,从而促进视觉模式的学习。尽管如此,最近的非卷积方法[28,24]大多采用全空间范围进行聚合计算。聚合权重通常作为网络参数学习或从它们计算。 几乎所有卷积的变体都以自上而下的方式获得它们的聚合权重,其中它们在位置上是固定的,或者由该位置处的输入特征上的元网络确定。还有一些非卷积方法[28,24]以自下而上的方式计算聚合权重,权重由像素对的可组合性确定。与其聚合权重严重依赖于几何先验的卷积变体相反,这种先验很少用于最近的非卷积方法。表1给出了现有的基本图像fea-Σy(c′, p′)=c∈<$c′,p∈<$p′ω(c′,c,p′,p)·x(c,p),(1)真提取器。4. 局部关系层其中c、c’和p=(h,w),p’=(h’,w’)分别索引输入和输出通道以及特征图位置。在本节中,我们将介绍本地关系层。表示在等式11的一般公式(1)其AG-3467G表1.基本的图像特征提取器概述。“参数化”列指示要学习的模型权重。符号ω、{θ}、Ω分别表示聚合权重、元网络的权重和空间采样点。“共享”指示参数化权重是否跨位置共享。在信道和空间域上给出聚合范围。“聚合权重”列涵盖三个方面:如何从参数化权重计算聚合权重(“计算”子列);包含几何先验(“geo.”子列);计算类型(“类型”子列)。方法参数化聚合范围聚合权param参数分享信道(in/out/share)空间计算geo.类型conv.定期ωC所有/一个/没有当地ωC顶向下组[17,31]ωC组/一个/没有当地ωC顶向下[5,11]ωC一个/一个/没有当地ωC顶向下膨胀[4,33]ωC所有/一个/没有atrousωC顶向下活跃[14]ω,ΩC所有/一个/没有ΩωC顶向下本地连接[25]ω✗所有/一个/没有当地ωC顶向下动态过滤器[15]θC所有/一个/没有当地fθ(xp′)C顶向下变形[6,36]ω,θC所有/一个/没有(θ)ωC顶向下非本地[28]θk,θqC一个/所有充分Φ(fθq(xp′),fθk(xp))✗底向上胶囊[24,10]θ✗一个/一组充分route(yp′,fθ(xp))✗底向上本地关系θk,θq,θgC一个/一组当地softmaxΩ(Φ(fθq(xp′),′fθk(xp))+fθg(p-p))C底向上分组权重定义为3′3×3,局部关系层产量稳步提高,增加邻域大小时的精度ω(p,p)=softmax(Φ(fθq(xp′),fθk(xp))+fθg(p-p)),(2)其中,项Φ(fθq(xp′),fθk(xp))是目标像素p′和其位置范围内的像素p之间的可组合性的度量建模[1]。术语fθ(p-p′)定义了基于几何先验的像素对(p,p′) 的几何项采用相对位置作为输入,并且是几何不变的。如表1所示,这个新层属于自下而上的方法,因为它基于两个视觉元素的属性确定可组合性。在下文中,我们将介绍其设计,并讨论其与现有自底向上方法的差异。这些差异导致在图像识别基准上的显著更高的准确性。它的性能也与最先进的自上而下卷积方法相当或超越。局部性自下而上的方法通常从整个图像中聚合输入的特征。相反,局部关系层将聚合计算限制到局部区域,例如,一个7×7的街区我们发现对局部邻域聚合范围对于视觉识别中的特征学习(见表3)。与卷积的变种,也约束聚合计算的空间邻居,胡德相比,本地关系层证明更有效地利用更大的内核。虽然卷积变体通常在邻域较大时表现出性能饱和,3由于一个输出通道在聚合计算中严格使用一个输入通道,为了便于标记,我们省略了c,c′从3×3到7×7(见表3)。这种差异可能是由于卷积层的表示能力受到固定滤波器数量的限制,因此没有从更大的内核大小中受益。相比之下,局部关系层以灵活的自下而上的方式组成局部像素对,这允许其有效地对尺寸和复杂性增加的视觉图案进行我们默认使用7×7的内核大小外观可组合性我们遵循关系建模的一般方法[1]来计算外观可组合性Φ(fθq(xp′),fθk(xp)),其中xp′和xp分别投影到查询(通过通道转换层fθq)和键(通过通道转换层fθk)嵌入空间。虽然在以前的工作中的查询和关键字是向量,在本地关系层,我们使用标量来表示它们,使计算和表示是轻量级的。我们发现标量也能很好地工作,并且与矢量相比具有更好的速度-精度权衡(见表4)。我们考虑函数Φ的以下实例化,我们后来证明它同样工作得很好(见表6):a) 平方差:2Φ(qp′,kp)=−(qp′−kp)。(三)b) 绝对差值:Φ(qp′,kp)=−|qp′−kp|、(3468四)c) 乘法:Φ(qp′,kp)=qp′·kp,(5)我们使用Eqn.(3)违约。3469实现超过3倍的实际速度比1通道,nel在我们的CUDA内核实现聚合。复杂性和实施的当地图2中总结了关系层。给定H×W输入特征图、k×k空间邻域、C个通道和m个通道,每次聚合计算的总计算量为步长为s的局部关系层的拓扑复杂度(以FLOP为单位)为S1 +S2、2个硬件C = O(m+ 1)C(C+k)s2.(六)图2.局部关系层。几何先验另一个重要的方面区分本地关系层从其他自底向上的方法是包含几何先验。几何先验由p到p′的相对位置上的小网络编码。小型网络由两个通道转换层组成,中间有一个ReLU激活。我们发现,使用一个小的网络来计算几何先验值比直接学习值更好,特别是当邻域大小很大时(见表3)。这是可能的,因为相对位置的小网络将相对位置视为度量空间中的向量,而直接方法将不同的相对位置视为独立的恒等式。注意,使用小网络的推理过程与直接学习几何先验的推理过程相同。事实上,在推理过程中,固定的学习权重θg将导致相对位置θ p的固定几何先验值fθg(θp)。我们使用这些固定的几何先验值来代替原始模型的权重θg,以便更方便地进行推断。权重归一化我们在空间范围内使用SoftMax归一化来计算最终的聚合权重。发现这种归一化在平衡外观可组合性和几何先验项的贡献中是至关重要的(参见表6)。在[24]之后,本地关系层在聚合计算中使用信道共享,其中多个信道共享相同的聚合权重。通道共享通常可以减少模型大小,并促进GPU内存调度,以实现高效的实现。我们没有观察到精度下降,最多8个通道(默认)共享相同的聚合(见表5),而在我们的实验中,使用了CUDA内核的朴素实现,这比使用相同FLOPs的常规卷积慢几倍。请注意,卷积有一个高度优化的实现与仔细的并行调度。局部关系层的内存调度优化将是我们今后工作的重点。5. 本地关系网络局部关系层可用于替换深度神经网络中的空间卷积层。在本节中,我们描述了ResNet架构[9]中的层替换,其中堆叠了具有相同拓扑的残差块。图 3显 示了 瓶颈 /基 本残 差块 中的 3×3 卷 积层 和ResNet中的第一个7×7卷积层对于剩余块,我们通过采用待替换层的扩展比(α)来保持FLOP相同对于第一个7×7卷积层,我们通过通道转换层将3×H×W输入转换为64×H×W的特征图,然后使用7×7局部关系层。7×7卷积层的替换消耗了类似的FLOP,并且在ImageNet识别上具有相当的准确性。 在实验中,我们将主要消除取代的影响,残差块中的3×3卷积层在替换ResNet中的所有卷积层后,我们发现我们称之为本地关系网络(LR-Net)。表2示出了ResNet-50和ResNet-50的比较。LR-Net-50(默认超参数为7×7内核大小,每个聚合m= 8个通道)。LR-Net-50用途类似的FLOP,但由于其在聚合中的信道共享,因此具有略小的模型大小6. 实验我们对ImageNet-1 K图像分类任务进行了消融研究。为了便于在有限的GPU资源下进行研究,我们使用LR-Net- 26进行研究,这是一个26层的局部关系网络,改编自ResNet-26。网络有8个瓶颈残差4第5节中介绍的LR-Net-26网络比Titan Xp GPU上的常规ResNet-26模型慢 3倍3470(a)入口层(b)瓶颈区块(c)基本区块图3.替换第一个7 × 7卷积层的说明(a)和ResNet架构中的瓶颈/基本残差块(b)(c)。“CT”表示信道变换层,并且“LR”表示局部关系层。“7×7(8),64”表示内核大小为7×7,通道共享为m = 8,输出通道为64。“所有层后面都是一个批处理规范化层和一个ReLU激活层。阶段输出ResNet-50LR-Net-50(7×7,m=8)res1112×112 7×7转换,64,步幅21×1,647×7LR,64,步幅23×3最大池,步幅23×3最大池,步幅2res256×561×1,643×3 conv,641×1,2561×1,1007×7 LR,1001×1,256res328×281×1,1283×3转换器,1281×1,5121×1,2007×7 LR,2001×1,512Res414×141×1,2563×3 conv,2561×1,10241×1,4007×7 LR,4001×1,1024Res57×71×1,5123×3 conv,5121×1,20481×1,8007×7 LR,8001×1,20481×1全局平均池1000-d fc,softmax全局平均池1000-d fc,softmax#参数25.5×10623.3×106FLOPs4.3×1094.3×109表2.(左)ResNet-50。(右)LR-Net-50,内核大小为7 ×7,每次聚合计算的通道数为m= 8。括号内是剩余块的形状,括号外是一个阶段中堆叠块的数量。LR-Net-50需要与ResNet-50类似的FLOP,但参数数量略少块,其中{2,2,2,2}块用于res 2,res 3,res 4,res5,re-reset。我们还报告了由基本残差块(LR-Net-18)堆叠的网络的结果,并且具有更大的深度6.1. 消融研究空间范围的影响表3显示了所提出的局部关系网络以及常规ResNet-26网络及其变体ResNet-DW-26 [21]的不同聚合空间范围的影响,其中常规卷积层被深度卷积取代。我们有以下几点意见。a) 局部性的重要性现有的自底向上方法通常在整个输入特征图上计算空间聚合[28,24]。我们首先将所提出的局部关系网络与没有此约束的等效方法(表3中的“完整图像”列)进行比较,该局部关系网络对空间聚合范围实施局部在不对任何几何先验进行编码的情况下(表中标记为“NG”),我们观察到通过将聚合计算从使用整个输入特征图改为仅使用7×7邻域(从50.771.9)。令人惊讶的是,虽然卷积的有效性-由于ImageNet网络归因于几何先验的显式建模,我们纯粹通过将局部约束应用于无几何聚合方法来获得ImageNet分类的竞争准确性(71.9 vs. 72.8),证明了局部性约束的有效性。对于编码第4节中描述的几何先验项的LR-Net-26模型,我们还观察到显著的准确性提高,从68.4提高到75.7。注意,几何先验也可以用作限制聚集范围的方法(具有较小几何先验值的位置将对最终聚集计算贡献很小),局部性约束进一步约束聚集范围。局部性约束也可能为网络提供信息瓶颈,这有助于表示学习。b) LR-Net大内核的优势常规的ResNet-26模型在3×3和5×5核的情况下具有相似的准确性,当核大小大于5×5时会失去准确性。对于ResNet-DW-26模型,当从3×3移动到9×9时,精度几乎不变。相比之下,当核大小从3×3增长到7×7时,两种LR-Net-26变体(具有/不具有几何先验项)都获得了稳定提 高 的 准 确 性 : 70.8→ 71.5 → 71.9 , LR-Net-26(NG),无几何先验项,以及73.6→ 74.9→ 75.7对于LR-Net-26,其包括外观可组合性和几何先验项。的结果证明了所提出的LR-Net在利用大内核方面的优越性。层(LR-Net-50、LR-Net-101)。LR的鲁棒性网络对抗性攻击也进行了研究。我们的实验设置和超参数主要遵循[31]。详见附录。5我们遵循[28],通过在高分辨率阶段采用下采样的关键特征图来降低“全图像”方法的计算复杂度:res2为4 ×,res3为2 ×,res4为2×。如果没有这一点,“全图像”方法的准确性+1×1CT,2567×7LR(8),641×1 CT,64+7×7LR(8),647×7LR(8),647×7LR(8),64(s=2)1×1CT,643471表3.具有不同空间聚合范围和不同几何先验项的不同架构对ImageNet分类的识别性能。报告前1和前5准确度(%)。“NG”表示没有几何先验项的局部关系网络。“G*” represents the method that directly learns the geometric prior values as described in Section为了公平比较,我们将所有架构设置为具有与常规ResNet-26模型相似的FLOP,通过调整其瓶颈比率α。对于ResNet-(DW)-26网络,由于实现困难,我们省略了网络geo.之前聚合空间范围3 × 35 × 57 × 79 × 9全图像top-1top-5top-1top-5top-1top-5top-1top-5top-1top-5ResNet-26✓72.891.073.091.172.390.771.490.3--ResNet-DW-26✓73.791.573.991.673.891.673.891.6--LR-Net-26(NG)✗70.889.871.590.171.990.470.289.350.774.7LR-Net-26(G*)✓73.291.174.191.773.691.272.390.760.382.1LR-Net-26✓73.691.674.992.375.792.675.492.468.488.0表4. 在查询/关键维度上消融(前1个acc %)。查询/键尺寸124816LR-Net-2675.775.475.174.773.7表5.通道共享消融(顶部-1 acc %)。中国共享M124816#chn.LR-Net-2675.375.575.575.775.370.9表6.外观消融可组合性术语和归一化方法(top-1 acc %)。方法应用对比等式正常化(三)(四)(五)没有一softmaxLR-Net-2675.775.575.774.875.7表7.与非局部神经网络的比较方法top-1top-5#参数FLOPsResNet-2672.891.016.0M2.6GNL-26ResNet-26-NL47.773.472.191.217.3M38.2M2.6G5.6GLR-Net-26LR-Net-26-NL75.776.092.692.814.7M37.1M2.6G5.6G表8.适用于不同的架构。 对于LR-Net-18,α平衡增加的# params和减少的FLOP。方法top-1top-5#参数FLOPsResNet-18LR-Net-1870.174.689.492.011.7M14.4M3.1G2.5GResNet-50LR-Net-5076.377.393.293.625.5M23.3M4.3G4.3GResNet-101LR-Net-10177.978.594.094.344.4M42.0M8.0G8.0G在表3的最后三行中,消除了几何先验的编码。两种几何先验嵌入方法的性能都优于该方法表9.ImageNet上不同架构对白盒对抗攻击的鲁棒性比较(top-1 acc%)。网络对抗训练普通列车清洁针对性非目标清洁ResNet-26ResNet-5044.952.037.943.014.422.572.876.3LR-Net-2652.144.226.875.7图4.学习的几何先验值的图示。没有几何先验的所有空间范围,证明其在视觉特征学习的有用性。比较两种几何先验编码方法,在相对位置上应用小网络(最后一行)比直接学习独立的几何先验值表现得更好。 它们之间的差距更大时核大小较大(在3×3时为0.4,在9×9时为3.1),这表明额外考虑相对位置是至关重要的特别是当邻居很大的时候。图4显示了在LR-Net-26的四个阶段softmax之后学习的7×7几何先验值。一般来说,对于较低的层,先验更尖锐,表明偏好以在学习外观可组合性时获得更强的约束。对于较高的层,先验更平滑,指示对更大自由度的偏好。其他设计我们还可以去除各种设计元素。a) 查询/按键尺寸3472表4消除了所提出的LR-Net- 26模型在不同键/查询维度下的准确性。 我们遵循[26]来计算键向量和查询向量之间的外观组合性。我们发现随着键/查询维度的增加,准确性降低,这表明标量优于通常使用的向量,以及更好的速度-准确性权衡。b) 渠道共享表5消除了每个聚合具有不同数量的共享信道(m)的LR-Net-26模型LR-Net-26的准确性在m为8时保持不变,同时比不共享(m= 1)快3倍。c) 可组合性术语表6在不同外观组成项下进行了消融:等式(3),Eqn.(4)和Eqn.(五)、 他们被发现工作得很好。图5示出了使用等式1的默认项学习的关键字和查询(3)表明语义视觉元素之间的可组合性是习得的(女孩和狗、网球和球拍)。d) Softmax归一化表6示出了在等式11中包括softmax归一化。(2)将精度提高了0.9,表明归一化在平衡两项中的重要性。与其他自下而上方法的比较表7将LR-Net与其他自下而上方法进行了比较,非局部神经网络[28]。通过将ResNet-26模型中的3×3卷积层直接替换为非局部模块,该模型(NL-26)达到47.7的准确度,远远低于其常规的同行。通过在每个残差块之后应用非局部模块,73.4计算量增加约2倍,比常规方法提高0.6倍。局部关系层被设计为取代卷积,层以获得更好的表示能力。它实现了2.9以类似的计算负载获得超过常规ResNet对应物的增益。我们注意到,非局部模块与局部关系网络互补,当在每个局部关系块之后应用时带来0.3的增益(参见最后一行)。在表8中,我们评估了具有不同/更深网络架构的LR-Net,包括由8个基本残差块组成的ResNet-18和使用相同类型的瓶颈残差块但具有更多层(50和101层)的ResNet-50/101。所提出的网络在这些架构上也是有效的6.2. 对抗性攻击我们测试了LR-Net抵御对手的能力-白盒多步PGD攻击图5.学习的关键字和查询的图示。方法[22,16],根据有针对性和无针对性的攻击。有针对性的攻击会随机选择一个错误的类作为目标,而无针对性的攻击只要模型产生错误的预测就会成功。我们利用来自[16]的攻击方法的超参数,并采用目标多步PGD对抗方法进行训练,除了攻击步骤的数量之外,由于GPU资源有限,设置为16。表9比较了LR-Net-26和常规ResNet-26/ResNet-50模型 对 ImageNet 上 白 盒 LR-Net-26 模 型 在 针 对 性 攻 击(+6.3)和非针对性攻击(+12.4)方面的表现明显优于 ResNet-26 模 型 。 LR-Net-26 模 型 的 性 能 也 优 于ResNet- 50模型(针对目标攻击的性能为+0.8,针对非目标攻击的性能为+4.3攻击),它使用大约2倍多的FLOP,并且在常规训练中具有更好的top-1精度(参见最后一列表9)。这些结果表明,LR-Net在对抗鲁棒性方面的优越性能不仅仅是由于更大的容量,还因为其架构本身。7. 结论和未来工作本文提出了局部关系层,一个基本的图像特征提取器,以下的一般哲学引入组合表示。由这个新层组成的深度网络在ImageNet分类上展示了强大的结果,显着扩展了自下而上方法的实用性,长期以来,人们认为自下而上方法在表示方面比卷积等自上而下方法更基本。我们注意到,对这一新层的研究仍处于早期阶段。未来的发展方向包括:1)更好的GPU内存调度,以更快的实现; 2)更好的设计,以优于先进的卷积方法,如可变形卷积[6,36]; 3)探索其他属性和其他视觉任务的适用性。3473引用[1] Peter W Battaglia,Jessica B Hamrick,Victor Bapst,Al-varo Sanchez-Gonzalez , Vinicius Zambaldi , MateuszMa- linowski,Andrea Tacchetti,David Raposo,AdamSantoro,Ryan Faulkner,et al.关系归纳偏差、深度学习和图网络。arXiv预印本arXiv:1806.01261,2018。一、三、四[2] 欧文·比德曼按组件识别:一个-人类图像理解理论。Psychological Review,94(2):115,1987. 1[3] Michael M Bronstein,Joan Bruna,Yann LeCun,ArthurSzlam,and Pierre Vandergheynst.几何深度学习:超越欧几里得数据。IEEE Signal Processing Magazine,34(4):18-42,2017。3[4] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy和Alan L Yuille。Deeplab:使用深度卷积网 络 、 atrous 卷 积 和 全 连 接 crfs 进 行 语 义 IEEETransactionsonPatternAnalysisandMachineIntelligence,40(4):834-848,2018。二、4[5] 弗朗索瓦·肖莱。Xception:使用深度可分离卷积的深度学习 在Proceedings of the IEEE conference on computervision and pattern recognition , 第 1251-1258 页 , 2017年。二、三、四[6] 戴继峰、齐浩志、熊宇文、李毅、国栋Zhang,Han Hu,and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision,第764-773页,2017年。二、三、四、八[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,还有李飞飞Imagenet:一个大规模的分层图像数据库。2009. 2[8] 福岛邦彦Neocognitron: 自组织神经 网络 模型 的模 式识 别机制 不受 移位 的位 置。Biological cybernetics,36(4):193-202,1980. 2[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition,第770-778页,2016中。二、五[10] Geoffrey E Hinton,Sara Sabour,and Nicholas Frosst.矩阵具有EM路由的胶囊。2018. 二、四[11] Andrew G Howard,Menglong Zhu,Bo Chen,DmitryKalenichenko,Weijun Wang,Tobias Weyand,MarcoAn- dreetto,and Hartwig Adam. Mobilenets:用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv:1704.04861,2017。二、四[12] Han Hu,Jiayuan Gu,Zheng Zhang,Jifeng Dai,andYishen伟.用于对象检测的关系网络。在IEEE计算机视觉和模式识别会议论文集,第3588-3597页,2018年。3[13] 杰虎,李申,孙刚。挤压-激发网络工程.在IEEE计算机视觉和模式识别会议论文集,第7132-7141页,2018年。3[14] 全允浩和金俊模。 主动卷积:学习卷积的形状用于图像分类。在IEEE计算机视觉和模式识别会议上,第4201-4209页,2017年。二、三、四[15]Xu Jia,Bert De Brabandere,Tinne Tuytelaars,and LucV好极了 动态过滤网络。 在神经网络的进展-3474形成处理系统,第667-675页,2016年。二,三,4[16] Harini Kannan 、 Alexey Kurakin 和 Ian Goodfellow 。adversariallogit 配 对 。 arXiv 预 印 本 arXiv :1803.06373,2018。8[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年。二、三、四[18] Yann LeCun ,Bernhard Boser ,John S Denker ,DonnieHenderson,Richard E Howard,Wayne Hubbard,andLawrence D Jackel.应用于手写体邮政编码识别的反向传播。神经计算,1(4):541二、三[19] 李益康,欧阳万里,周伯磊,石建平,赵Zhang,and Xiaogang Wang.可因式分解净值:一个有效的基于子图的场景图生成框架。在欧洲计算机视觉会议(ECCV)的会议记录中,第335-351页,2018年。3[20] Min Lin,Qiang Chen,and Shuicheng Yan. 网络中的网络工作CoRR,abs/1312.4400,2013。2[21] 马宁宁,张翔宇,郑海涛,孙健。Shufflenet v2:高效CNN 架 构 设 计 实 用 指 南 在 欧 洲 计 算 机 视 觉 会 议(ECCV)会议录,第116-131页,2018年。6[22] Aleksander Madry Aleksandar Makelov Ludwig Schmidt季米特里斯·齐普拉斯和阿德里安·弗拉杜。迈向抵抗对抗性攻击的深度学习模型。arXiv预印本arXiv:1706.06083,2017。8[23] 加里·马库斯 深度学习:批判性的评价。arXiv预印本arXiv:1801.00631,2018年。1[24] Sara Sabour,Nicholas Frosst,and Geoffrey E Hinton.胶囊之间的动态路由。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功