没有合适的资源?快使用搜索试试~ 我知道了~
1可变形ConvNets v2:更易变形,效果更佳朱锡洲1,2胡汉2林继峰2戴继峰21中国科学技术大学2微软亚洲研究院ezra0408@mail.ustc.edu.cn{hanhu,stevelin,jifdai}@ microsoft.com摘要可变形卷积网络的优越性能源于其适应对象几何变化的能力。通过对其自适应行为的检查,我们观察到,虽然其神经特征的空间支持比常规ConvNets更接近 为 了 解 决 这 个 问 题 , 我 们 提 出 了 一 种 可 变 形ConvNets的重新表述,通过增加建模能力和更强的训练,提高了其专注于特定图像区域的能力通过在网络中更全面地集成可变形卷积,并通过引入扩展变形建模范围的调制机制,增强了建模能力。为了有效地利用这种丰富的建模能力,我们通过提出的特征模仿方案来指导网络训练,该方案帮助网络学习反映R-CNN特征的对象焦点和分类能力的特征。有了这些贡献,这个新版本的可变形ConvNets在原始模型上产生了显着的性能增益,并在COCO基准测试中产生了领先的结果,用于对象检测和实例分割。1. 介绍由于尺度、姿态、视点和局部变形等引起的几何变化是目标识别和检测中的一个主要挑战。目前解决这个问题的最先进方法是可变形卷积网络(DCNv1)[7],它引入了两个模块来帮助CNN对这些变化进行建模。这些模块之一是可变形卷积,其中网格采样*这项工作是Xizhou Zhu在微软亚洲研究院实习时完成的每个标准卷积的位置都偏移相对于前面的特征图学习的 位 移 。 另 一 种 是 可 变 形 RoIpooling , 其 中 针 对RoIpooling中的bin位置学习偏移[15]。将这些模块合并到神经网络中使其能够使其特征表示适应对象的配置,特别是通过变形其采样和池化模式以适应对象利用这种方法,获得了对象检测精度的大的改进。为了理解可变形ConvNets,作者通过PASCAL VOC图像中偏移采样位置的排列可视化了感受野的诱导变化[10]。它被发现,样本的激活单元往往集群周围的对象,它的谎言。然而,在对象上的覆盖是不精确的,表现出超出感兴趣区域的样本的扩散。 在使用来自更具挑战性的COCO数据集[28]的图像对空间支持进行更深入的分析时,我们观察到这种行为变得更加明显。这些发现表明,学习可变形卷积存在更大的潜力在 本 文 中 , 我 们 提 出 了 一 个 新 版 本 的 可 变 形ConvNets,称为可变形ConvNets v2(DCNv2),具有增强的建模能力,用于学习可变形卷积。这种建模能力的增加有两种互补的形式。第一个是在网络中扩展使用可变形卷积层为更多的卷积层配备偏移学习能力,使DCNv2能够在更广泛的特征级别上控制采样。第二种是可变形卷积模块中的调制机制,其中每个样本不仅经历学习的偏移,而且还通过学习的特征幅度进行调制。因此,网络模块被赋予改变其样本的空间分布和相对影响的能力为了充分利用DCNv2的增加的建模能力,需要有效的训练。灵感来自于93089309在神经网络中的知识蒸馏[1,21],我们为此目的使用教师网络,其中教师在训练期间提供指导。我们特别使用R-CNN [16]作为老师。由于它是一个经过训练的网络,用于对裁剪的图像内容进行分类,因此R-CNN可以学习不受感兴趣区域之外的无关信息影响的特征为了模拟这种特性,DCNv 2在其训练中加入了一个模仿损失的特征,这有利于学习与R-CNN一致的特征。以这种方式,DCNv2被给予用于其增强的可变形采样的强训练信号。提出的变化,可变形模块仍然是轻量级的,可以很容易地纳入前网络架构。具体来说,我们将DCNv 2整合到Faster R-CNN [32]和Mask R-CNN [19]系统中,具有各种骨干网络。在COCO基准上的大量实验表明,DCNv2在对象检测和实例分割方面比DCNv1有显著的改进DCNv2的代码将被释放。2. 可变形ConvNet行为2.1. 空间支持可视化为了更好地理解可变形Con-vNets的行为,我们通过其有效感受野[30],有效采样位置和错误界显着区域来可视化网络节点的空间支持这三种模态在对节点的响应做出贡献的底层图像区域上提供不同且互补的视角有效感受野并非网络节点感受野内的所有像素对其响应的贡献相等。这些贡献的差异由有效感受野表示,其值计算为节点响应相对于每个图像像素的强度扰动的梯度[30]。我们利用有效感受野来检查单个像素对网络节点的相对影响,但注意到这种措施并不反映整个图像区域的结构化影响。在[7]中,(堆叠的)卷积层的采样位置和RoIpooling层中的采样箱被可视化,以理解可变形ConvNets的行为。然而,这些采样位置对网络节点的相对贡献相反,我们将包含此信息的有效采样位置可视化,计算为网络节点相对于采样/箱位置的梯度误差边界显著区域如果我们移除图像区域,网络节点的响应将不会改变这并不影响它,正如最近对图像显着性的研究所证明的那样[40,41,12,6]。基于此属性,我们可以确定一个节点的支持区域作为最小的图像区域,在一个小的误差范围内,给出与完整图像相同的响应。我们将其称为误差界显着区域,可以通过渐进地掩蔽图像的部分并计算结果节点响应来找到该区域,如Ap-附录中更详细地描述的。误差有界的显着性区域有助于从不同的网络的支持区域的com-campaign。2.2. 可变形ConvNets我们分析了可变形ConvNets在对象检测中的视觉支持区域。我们作为基线使用的常规ConvNet由一个更快的R-CNN + ResNet- 50 [20]对象检测器组成,具有对齐的RoIpooling1 [19]。ResNet-50中的所有卷积层都应用于整个输入图像。在conv5阶段的有效步幅从32减少到16像素,以增加特征图分辨率。RPN [32]头添加到ResNet-101的conv 4功能之上在conv 5特性之上,我们添加了Fast R-CNN head [15],它由对齐的RoIpooling和两个全连接(fc)层组成,然后是分类和边界框回归分支。我们按照[7]中的程序将物体探测器变成可变形的对应物。 3×3的三层conv5级中的卷积被可变形的卷 积 层 。 此 外 , 对 齐 的 RoIpooling 层 被 可 变 形 的RoIPooling替换。这两个网络都是在COCO基准上训练和可视化的值得一提的是,当偏移学习率设置为零时 , 可 变 形 更 快 R-CNN 检 测 器 退 化 为 具 有 对 齐RoIpooling的正则更快R-CNN。使用三种可视化模式,我们检查了图1(a)(b)中conv5阶段最后一层节点的空间支持。还显示了[7]中分析的采样位置从这些可视化中,我们做出以下观察:1. 常规ConvNets可以在一定程度上模拟几何变化,这可以通过空间支持相对于图像内容的变化来证明由于深度ConvNets的强大表示能力,网络权重被学习以适应一定程度的几何变换。2. 通过引入可变形卷积,网络建模几何变换的能力得到了显著增强,即使在具有挑战性的COCO基准测试中也是如此空间支持更适应图像内容,前景上的节点具有覆盖整个对象的支持,而背景上的节点具有覆盖整个对象的支持。1对齐的RoIpooling在[19]中被称为RoIAlign。我们在本文中使用术语9310(a) 正则卷积(b) 可变形conv@conv5级(DCNv1)(c) 调制可变形conv@conv3 - 5级(DCNv 2)高低高低3. 所呈现的三种类型的空间支持可视化比[7]中使用的采样位置信息量更大。 例如,这可以用常规的ConvNets看到,其沿着网格具有固定的采样位置,但实际上通过网络权重调整其有效的空间支持。变形ConvNets也是如此,其预测受到学习偏移和网络权重的共同影响单独检查采样位置,如[7]中所做的那样,可能会导致关于可变形对流网的误导性结论。图2(a)和(b)显示了每个RoI检测头中2fc节点的空间支持,其直接遵循分类和边界框回归。分支。有效箱位置的可视化表明对象前景上的箱通常从分类分支接收更大的梯度,并且因此对预测施加更大的影响。这种观察对于对齐的RoIpooling和可变形的RoIpooling都成立。在可变形的RoIpooling中,由于引入了可学习的bin偏移,比对齐的RoIpooling中更大比例的bin覆盖对象前景。因此,来自相关仓的更多信息可用于下游快速R-CNN头。同时,对齐RoIpooling和可变形RoIpooling中的误差界显着区域都没有完全聚焦在对象前景上,这表明RoI之外的图像内容影响预测结果。根据最近的研究[5],这种特征干扰可能对检测有害。虽然与常规ConvNets相比,可变形ConvNets明显提高了适应几何变化的能力,但也可以看出,它们的空间支持可能会超出感兴趣区域因此,我们寻求升级变形ConvNets,以便它们能够更好地专注于相关的图像内容,并提供更高的检测精度。3. 更多可变形ConvNet图1.在常规ConvNet、DCNv1和DCNv2中conv5阶段的最后一层中节点的空间支持。常规ConvNet基线是Faster R-CNN +ResNet-50。在每个子图中,从顶部到底部行示出了有效采样位置、有效感受野和误差界显着区域。由于有效取样位置与(b)中的位置相似,因此(c)中省略了有效取样位置,提供的额外信息有限。可视化的节点(绿点)位于小对象(左)、大对象(中)和背景(右)上。包含更多背景的支持然而,空间支持的范围可能是不精确的,其中前景节点的有效感受野和误差界显着区域包括与检测无关的背景区域。为了提高网络3.1. 堆叠更多可变形的Conv图层由于观察到可变形Conv- vNets可以在具有挑战性的基准上有效地模拟几何变换,我们大胆地用可变形的对应层取代了更规则的Conv层。我们期望通过叠加更多的可变形转换层,可以进一步加强整个网络的几何变换建模能力在本文中,可变形卷积被应用于所有3×3卷积层的阶段conv3、conv4和conv5。9311(a) 对齐的RoIpooling,带可变形conv@conv5级高低高低(b) 可变形RoIpooling,带可变形conv@conv5级(DCNv1)(c) 调制可变形RoIpooling,带有调制可变形conv@conv3/5级(d) R-CNN功能模拟设置(c)(DCNv 2)(e) 在常规ConvNet中模仿R-CNN特征图2.每个RoI检测头中的2fc节点的空间支持,直接跟随分类和边界框回归分支。可视化在常规ConvNet、DCNv1和DCNv2上进行。常规ConvNet基线是Faster R-CNN+ ResNet-50。在每个子图中,有效箱位置、有效感受野和误差有界显著性区域从顶部到底部示出,除了(c)(e),其中有效箱位置被省略,因为它们提供了相对于(a)(b)中的那些更少的额外理解。 输入ROI(绿色框)位于一个小对象(左)、大对象(中)和背景(右)。ResNet-50.因此,在网络中有12层可变形卷积。相比之下,在[7]中只使用了三层可变形卷积,都是在conv5阶段 。 在 [7] 中 观 察 到 , 对 于 相 对 简 单 和 小 规 模 的PASCAL VOC基准,当堆叠超过三层此外,COCO上的误导性偏移可视化可能阻碍了对更具挑战性基准的进一步探索。在实验中,我们观察到,在conv 3-conv5阶段利用可变形层实现了COCO上对象检测的准确性和效率之间的最佳权衡。详见第5.2节。3.2. 调制可变形模块为了进一步增强可变形Con-vNets在操纵空间支持区域方面的能力,引入了有了它,可变形锥-vNets模块不仅可以调整感知输入特征的偏移,而且还可以调制来自不同空间位置/仓的输入特征在极端情况下,模块可以通过将其特征幅度设置为零来决定不感知来自特定位置/仓的信号。因此,来自相应空间位置的图像内容因此,调制机构为网络模块提供另一维度的自由度以调节其空间支撑区域。给定K个采样位置的卷积核,令wk和pk分别表示第k个位置的权重和预先指定的偏移例如,K= 9且pk∈{(−1,−1),(−1,0),. . . ,(1,1)}定义了伸缩1的3 × 3卷积核。设x(p)和y(p)表示分别从输入特征图x和输出特征图y中提取位置p处的特征调制变形9312k=1k=1k=1k=1卷积可以表示为:ΣKy(p)= wk·x(p+pk+pk)·pmk,(1)k=1其中,k_p_k和k_m_k分别是第k个位置的可学习偏移量和调制标量。调制标量mk位于范围[0,1]中,而pk是具有无约束范围的实数。由于p+pk+n+ pk是分数阶的,所以在计算x(p + pk + n + pk)时,采用了[ 7 ]中的双线性插值。通过在相同的输入特征图x上应用单独的卷积层来获得Pwp k和Pwm k两者。该卷积层具有与当前卷积层相同的空间分辨率和膨胀。输出是3K通道,其中前2K通道对应于学习的偏移{k_p_k}K,并且剩余的K个通道被进一步馈送到S形层以获得调制标量{k_m_k}K。这个单独的卷积层中的内核权重被初始化为零.因此,初始值的klpk和klpmk分别为0和0.5。用于偏移和调制学习的添加的卷积层的学习速率被设置为现有层的学习速率的0.1倍。调制可变形ROIpooling的设计是相似的。给定输入RoI , RoIpooling 将 其 划 分 为 K 个 空 间 箱 ( 例 如 ,7×7)。 在每个箱中,均匀应用空间间隔(例如,2×2)。 采样值-网格上的UE被平均以计算面元输出。令k_p_k和k_m_k是第k个仓的可学习偏移和调制标量。输出分箱特征y(k)被计算为克伦克y(k)= x(pkj+npk)·nmk/nk,(2)j=1其中pkj是第k个仓中第j个网格单元的采样位置,nk表示采样网格单元的数量。应用双线性插值得到特征x(pkj+pkk). 由输入特征图上的兄弟分支产生的值的bipp k和bipm k。在此分支中,RoIpooling在RoI上生成特征,然后是具有3K输出通道的两个fc层(两个fc层之间的特征维度为1024-D)。前2K个通道是标准化的可学习偏移,其中与RoI宽度的元素相乘规则ConvNets和可变形ConvNets的RoI。因此,在ROI之外的图像内容可能会影响前向特征,并因此降低对象检测的最终结果。在[5]中,作者发现冗余上下文是Faster R-CNN检测错误的一个可能来源。连同其他动机(例如,为了在分类和边界框回归分支之间共享更少的特征由于R-CNN分类分数集中在来自输入RoI的裁剪图像内容上,因此将它们合并将有助于缓解冗余上下文问题并提高检测精度。然而,组合的系统是缓慢的,因为Faster-RCNN和R-CNN分支都需要在训练和推理两者中应用。同时,可变形的ConvNets在调整空间支持区域方面是强大的。具体地,对于可变形ConvNets v2,调制的可变形RoIpooling模块可以以排除冗余上下文的方式简单地设置仓的调制标量。然而,我们在第5.3节中的实验表明,即使使用调制的可变形模块,这种表示也不能通过标准的Faster R-CNN训练过程很好地学习。我们怀疑这是因为传统的Faster R-CNN训练损失无法有效地驱动这种表示的学习。需要更多的指导来指导培训。受最近关于特征模仿的工作的启发[1,21,26],我们在可变形的更快R-CNN的每个RoI特征上引入了特征模仿损失,以迫使它们与从裁剪图像中提取的R-CNN特征相似这个辅助训练目标旨在驱动Deformable FasterR-CNN学习更我们注意到,基于图2中的可视化空间支持区域,聚焦特征表示对于图像背景上的负ROI可能不是最佳的。对于背景区域,可能需要考虑更多的上下文信息,以便不产生假阳性检测。因此,特征模拟损失仅在与地面实况对象充分重叠的正ROI上强制。用于训练可变形更快R-CNN的网络架构如图3所示。除了更快和高度被计算以获得K.剩下的R-CNN网络,增加了一个额外的R-CNN分支,用于ingK通道由sigmoid层归一化,以支持特征模仿。 给定特征模仿的RoIb减少K. fc层权重也会初始化对应于它的图像块被裁剪和调整大小为零 增加的fc层的偏移量学习与现有层的学习相同。3.3. R CNN特征模仿如图2所示,每个RoI分类节点的误差界显着区域可以延伸到到224×224像素。 在R-CNN分支中,骨干网络对调整大小的图像块进行操作,并产生14×14空间分辨率的特征图。(调制的)可变形RoIpooling层被应用在特征图的顶部,其中输入RoI覆盖整个调整大小的图像块(左上角在(0,0)处,并且高度和宽度是22493131024-D全连接(调制)可变形RoIpooling1024-D全连接像素)。之后,应用1024-D的2个fc层,产生输入图像块的 R-CNN 特 征 表 示 , 由 fRCN N ( b ) 表 示 。 A(C+1)- waySoftmaxclassi-fier用于分类,其中C表示前景类别的数量,加上一个用于背景。在R-CNN特征表示fRCNN(b)和FasterR-CNN中的对应物fFRCNN(b)之间强制执行特征模拟损失,其也是1024-D并且由Fast R-CNN头中的2fc层产生特征模仿损失定义在fRCNN(b)和fFRCNN(b)之间的余弦相似性上,计算为Σ分类边界框回归特征模仿1024-D全连接(调制)可变形RoIpooling分类整个图像区域L模拟=b∈C[1−cos(fRCNN(b),fFRCNN(b))],(3)其中,Ω表示针对特征模拟训练采样的RoI集合。在SGD训练中,给定一个输入图像,RPN生成的32个正区域建议被随机采样到Ω中。交叉熵分类损失在R-CNN分类头上强制执行,也在R-CNN中的ROI上计算。网络训练由特征模拟损失和R-CNN分类损失以及Faster R-CNN中的原始损失项驱动。两个新引入的损失项的损失权重是原始Faster R-CNN损失项的损失权重的0.1倍。R-CNN和Faster R-CNN分支中的相应模块之间的网络参数是共享的,包括骨干网络、(调制的)可变形RoIpooling和2fc头(两个分支中的分类头是不共享的)。在推理中,只有更快的R-CNN网络应用于测试图像,而没有辅助的R-CNN分支。因此,R-CNN特征模仿在推理中不引入额外的计算。4. 相关工作变形建模是计算机视觉中一个长期存在的问题,人们在设计变形不变特征方面做了大量的工作。在深度学习时代之前,着名的作品包括尺度不变特征变换(SIFT)[29],定向FAST和旋转BRIEF(ORB)[33]以及基于可变形部分的模型(DETEMPERATURE)[11]。这样的作品受到手工制作特征的低劣表现能力和它们所处理的几何变换的约束族(例如,仿射变换)。空间Transformer网络(SVM)[24]是第一个学习深度CNN的平移不变特征的工作它学会了将全局仿射变换应用于扭曲特征图,但这种变换不足以对许多视觉任务中遇到的更复杂的几何变化进行建模。可变形ConvNets不是执行全局参数变换和特征扭曲,而是通过亲中的可学习偏移量以局部和密集的方式对224x224图3.使用R-CNN特征模仿进行网络训练。模块。可变形ConvNets是第一个在复杂视觉任务中有效建模几何变换的工作(例如,对象检测和语义分割)。我们的工作通过增强其建模能力和促进网络训练来扩展可变形ConvNets。这个新版本的可变形ConvNets比原始模型产生了显著关系网络和注意力模块首先在自然语言处理中提出[13,14,3,35],物理系统建模[2,37,22,34,9,31]。注意/关系模块影响单个元素(例如,句子中的单词)通过聚集来自一组元素的特征(例如,句子中的所有单词),其中聚集权重通常根据元素之间的特征相似性来定义它们在捕获这些任务中的长距离依赖关系和上下文信息方面非常强大。最近,[23]和[36]的并行工作将关系网络和注意力模块扩展到图像域,分别用于建模长距离对象-对象和像素-像素关系。在[18]中,提出了一种可学习的区域特征提取器,从像素-对象关系的角度统一了以前的区域特征提取模块。这种方法的一个共同问题是聚合权重和聚合操作需要以成对的方式在元素上计算,这导致了与元素数量成二次方的繁重计算(例如,图像中的所有像素我们开发的方法可以被视为一种特殊的注意机制其中只有元素的稀疏集合具有非零聚集权重(例如,所有图像中的3×3设定的可变形卷积和可变形RoIpooling像素)。参与的元素由学习指定区域建议作物&调整大小1024-D全连接RPN(已调制)可变形卷积(已调制)可变形卷积9314能够偏移,并且聚合权重由调制机制控制。计算开销与元素的数量成线性关系,与整个网络的计算开销相比可以忽略不计(见表1)。空间支持操作。 对于atrous卷积,卷积层的空间支持已经通过在卷积核中填充零来扩大[4]。填充参数是手工挑选和预定的。在与可变形ConvNets同时代的主动卷积[25]中,卷积核偏移通过反向传播来但偏移量是静态模型参数,在训练后固定,并在不同的空间位置共享。在用于对象检测的多路径网络中[39],为每个输入RoI采用多个RoIpooling层,以更好地利用多尺度和上下文信息。多个RoI池化层以输入RoI为中心,并且具有不同的空间尺度。这些方法的共同问题是空间支持由静态参数控制并且不适应图像内容。有效感受野和显著区。为了更好地解释深层网络的功能,在理解哪些图像区域对网络预测贡献最大方面取得了重大进展。最近关于有效感受野[30]和显着区域[40,41,12,6]的研究表明,理论感受野中只有一小部分像素对最终网络预测有显著贡献。有效支持区域由网络权值和采样位置的联合作用控制。在这里,我们利用开发的技术来更好地理解可变形ConvNets的网络行为由此产生的观察指导和激励我们改进原始模型。网络模拟和蒸馏是最近引入的用于模型加速和压缩的技术。给定一个大型教师模型,通过模仿教师模型输出或训练图像上的特征响应来训练紧凑的学生模型[1,21,26]。希望通过从大模型中提取知识来更好地训练紧凑模型在这里,我们采用特征模拟损失来帮助网络学习反映R-CNN特征的对象焦点和分类能力的特征。改进的精度获得和可视化的空间支持证实了这种方法。5. 实验5.1. 实验设置我们的消融实验是在COCO 2017火车集的118k图像上训练的模型上进行的。对COCO 2017验证集的5k图像进行了评估。我们还评估了20公里跑的表现COCO 2017测试开发集的图像,模型在COCO 2017训练集和验证集的联合上训练。不同框和掩码IoU下的标准平均精度分数分别用于测量对象检测和实例分割精度选择Faster R-CNN和Mask R-CNN作为基线系统。ImageNet [8]预训练的ResNet-50被用作主干。Faster R-CNN的实现与第3.3节相同。对于掩码R-CNN,我们遵循[19]中的实现,因此使用FPN [27]。为了将网络转变为可变形的对应物,最后一组3×3常规conv层(靠近输出 在自下而上的计算中)被(调制的)取代可变形的conv层。对齐的RoIpooling被(调制的)可变形RoIpooling替换。特别是对于Mask R-CNN,两个对齐的RoIpooling层(7×7和14×14箱被两个(调制)可变形具有相同bin编号的RoIpooling层在R-CNN特征模仿,特征模仿损失仅针对分类在RoI头上实施(不包括用于掩模估计的特征模仿损失对于这两个系统,超参数的选择遵循最新的Detectron [17]代码库,这里简要介绍。在训练和推理中,图像被调整大小,使得较短的边是800像素,并且使用5个尺度和3个纵横比的锚。在训练和推理时,分别以0.7的非最大抑制阈值生成2k和1k区域建议。在SGD训练中,对256个锚盒(正负比1:1)和512个区域提议(正负比1:3)进行采样,以反向传播它们的梯度。在我们的实验中,网络在8个GPU上训练,每个GPU有2个图像,持续16个epoch。学习率初始化为0.02,并在第10次和第14次时时代权重衰减和动量参数分别设置为10−4和0.9。5.2. 丰富变形建模丰富的变形建模的效果通过表1所示的消融进行检查。对于Faster R-CNN,具有常规CNN模块的基线获得了35.6%的APbbox得分,而对于Mask R-CNN,APbbox和APmask这一强基线与Detec- tron中最新实施的结果相匹 配 。 为 了 获 得 DCNv 1 基 线 , 我 们 遵 循 原 始 的Deformable ConvNets论文,将最后三个lay-out替换为在conv5阶段和对齐的RoIpooling层中的3×3卷积层通过它们的可变形对应物。这对 于 Faster R-CNN , DCNv 1 基 线 的 APbbox 得 分 为38.2%,而对于Mask R-CNN,APbbox和APmask得分分别如[7]中所观察到的,可变形通过将更多的3×3规则卷积层替换为可变形层,Faster R-9315方法设置快 R-CNNMask R-CNNAPbbox APbboxSAPbboxMAPbboxLparam翻牌APbboxAP掩模param翻牌基线常规(RoIpooling)正则(对齐RoIpooling)dconv@c5 + dpool(DCNv1)32.835.638.213.618.219.137.240.342.248.748.754.051.3M51.3M52.7M196.8G196.8G198.9G-37.840.3-33.435.0-39.5M40.9M-303.5G304.9Gdconv@c537.619.341.452.651.5M 197.7G39.934.939.8M 303.7G富集变形dconv@c3dconv@c4 dconv5dconv@c3 +dpool39.239.540.019.921.021.143.443.544.655.555.656.351.7M51.8M53.0M198.7G200.0G201.2G41.241.541.836.136.436.440.0M40.1M41.3M304.7G306.0G307.2Gmdconv@c3和c5 +mdpool40.821.345.058.565.5M 214.7G42.737.053.8M 320.3G表1.丰富变形模型的烧蚀研究。在设置栏中,“(m)dconv”和“(m)dpool”分别代表(调制的)可变形卷积和(调制的)可变形RoIpooling。此外,“dconv@c3·c5”表示例如在阶段conv3·conv5处施加可变形conv层。结果报告在COCO 2017验证集上。CNN和Mask R-CNN稳步改进,当conv 3-conv 5中的conv层被替换时,APbbox和APmask得分的增益在1.5%到2.0%之间。通过进一步替换conv2阶段中的常规conv层,没有观察到COCO基准的额外改进。通过将可变形模块升级为调制可变形模块,我们在APbbox和AP掩模分数中获得了0.6%和1.0%之间的进一步增益。总的来说,变形建模能力在Faster R-CNN上产生了40.8%的APbbox得分,比DCNv 1基线高出2.6%。在Mask R-CNN上,富集变形模型得到42.7%APbbox和37.0%APmask评分,分别比DCNv 1基线提高2.4%和2.0%。请注意,为丰富变形建模而添加的参数和FLOP相对于整个网络而言很小。如图1(b)和(c)所示,与DCNv1相比,丰富的可变形建模的空间支持对图像内容的适应性更好。5.3. R CNN特征模仿R-CNN特征模拟中设计选择的消融如表2所示。通过丰富的变形建模,R-CNN特征模拟进一步提高了APbbox和AP掩码分数,在Faster R-CNN和Mask R-CNN系统中提高了约1%至1.6%。发现模仿对象前景上的正框的特征特别有效,并且当模仿所有框或仅模仿负框时的结果低得多如图所示在图2(c)和图2(d)中,特征模仿可以帮助网络特征更好地聚焦于对象前景,对正盒有利。对于负框,网络倾向于利用更多的上下文信息(见图2),其中特征模仿将没有帮助。我们还将R-CNN特征模拟应用于没有任何可变形层的常规几乎没有观察到准确性增益。可视化的空间支持区域如图2(e)所示,即使在辅助模仿损失的情况下,这些空间支持区域也没有聚焦在对象前景上。 这可能是因为它超出了代表能力表2.R-CNN特征模仿的消融研究结果报告在COCO 2017验证集上。骨干方法快R-CNN掩模R-CNNAPbboxAPbbox AP掩模ResNet-50定期DCN v1DCN v236.038.542.438.240.644.133.435.238.0ResNet-101定期DCN v1DCN v239.141.144.040.842.645.435.236.839.3ResNext-101定期DCN v1DCN v240.041.544.641.843.346.336.337.440.1表3.DCNv2、DCNv1和常规ConvNet在COCO 2017测试开发集上的各种主干上的结果常规的ConvNets将特征集中在对象的前地上,因此这是无法学习的。5.4. 应用于更强的骨干通 过 用 ResNet-101 和 ResNext-101 代 替 ResNet-50[38],在更强主链上的结果呈现于表3中。对于DCNv1的条目,conv5阶段中的规则3×3conv层被可变形的对应层替换,并且对齐的RoIpooling被替换通过变形的RoIpooling。对于DCNv 2条目,conv 3-conv 5阶段中的所有3×3conv层都是调制的可变形卷积,并且使用调制的可变形RoIpooling来代替,并由R-CNN功能模拟损失。DCNv2被发现在所有的网络骨干上都大大优于常规的ConvNet和DCNv1。设置要模仿的区域快R-CNN掩模R-CNNAPbboxAPbbox AP掩模没有一40.842.737.0mdconv3+FG BG41.342.937.1mdpool仅BG41.142.737.1仅FG42.443.938.1定期没有一35.637.833.4仅FG35.837.933.59316引用[1] J. Ba和R.卡鲁阿纳 深网真的需要深吗?在NIPS,2014。二、五、七[2] 巴塔利亚河帕斯卡努湾Lai,D. J. Rezeland等人交互网络用于学习物体、关系和物理。在NIPS,2016年。6[3] D. Britz,A.戈尔迪,M.- T. Luong和Q.乐对神经机器翻译架构的大量探索。在EMNLP,2017年。6[4] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。DeepLab:使用深度卷积网络,atrous卷积和完全连接的crfs进行语义图像分割。TPAMI,2018年。7[5] B.郑,Y. Wei,H.什河,巴西-地Feris,J. Xiong,and T.煌重温rcnn:论快速rcnn分类能力的觉醒。在ECCV,2018。三、五[6] P. Dabkowski和Y.加黑盒分类器的实时图像显著性在NIPS,2017年。二、七[7] J. Dai,H.Qi,Y.Xiong,Y.Li,G.Zhang,H.Hu和Y.伟.可变形卷积网络。InICCV,2017. 一、二、三、四、五、七[8] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。ImageNet:一个大规模的分层图像数据库。CVPR,2009。7[9] M. Denil,S. G. Colmenarejo,S. 卡比湾 萨克斯顿,以及N. de Freitas可编程代理。arXiv预印本arXiv:1706.06383,2017。6[10] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K.威廉斯,J.Winn和A.齐瑟曼。 PASCAL Visual Object Classes(VOC)挑战. IJCV,2010年。1[11] P. F. 费尔岑斯瓦尔布河B. Girshick,D.McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。TPAMI,2010年。6[12] R. C. Fong和A.维达尔迪通过有意义的扰动对黑匣子的可解释。InICCV,2017. 二、七[13] J. Gehring,M. Auli,D. Grangier和Y. N.太子神经机器翻译的卷积编码器模型在ACL,2017年。6[14] J. Gehring,M. Auli,D. Grangier,D. Yarats和Y. N.太子 卷 积 序 列 到 序 列 学 习 。 arXiv 预 印 本 arXiv :1705.03122,2017。6[15] R.娘娘腔。快速R-CNN。在ICCV,2015年。一、二[16] R.格希克,J。多纳休,T. Darrell和J.马利克丰富的特征层次结构,用于准确的对象检测和语义分割。CVPR,2014。2[17] R. 格尔希克岛 Rados avo vic,G. Gkioxari,P. Doll a'r和K. 他 外 探 测 器 https://github.com/ facebookresearch/detectron,2018. 7[18] J.Gu,H.胡湖,加-地Wang,Y. Wei和J. Dai.用于对象检测的学习区域特征。在ECCV,2018。6[19] K. 他,G. Gkioxari,P. Doll a'r 和R. 娘娘腔。 面具r-cnn。InICCV,2017. 二、七[20] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。29317[21] G. Hinton,O.Vinyals和J.Dean. 在神经网络中提取国家统计局,2015年。二、五、七[22] Y.何申Vain:Attentional Multi-Agent PredictiveModeling。在NIPS,2017年。6[23] H. 胡,J.古,Z.张,J.Dai和Y.伟. 用于对象检测的关系在CVPR,2018年。6[24]M. Jaderberg,K.Simonyan、A. 泽瑟曼,K. Kavukcuoglu空间Transformer网络。在NIPS,2015年。6[25] Y.全和金金活动卷积:学习图像分类卷积的形状。在CVPR,2017年。7[26] Q. Li,S. Jin和J. Yan.模仿非常有效的网络进行对象检测。在CVPR,2017年。五、七[27] T.- Y. Lin,P.多尔河格希克角他,B.Hariharan和S.贝隆吉用于对象检测的特征金字塔网络。在CVPR,2017年。7[28] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Doll a'r 和 C. L. 齐 特 尼 克Microsoftcoco:上下文中的通用对象欧洲计算机视觉会议,第740-755页Springer,2014. 1[29] D. G.洛基于局部尺度不变特征的目标识别。载于ICCV,1999年。6[30] W. Luo,Y.利河,巴西-地Urtasun和R.泽梅尔理解深度卷积神经网络中的有效感受野arXiv预印本arXiv:1701.04128,2017。二、七[31] D. Raposo , A. Santoro , D. 巴 雷 特 河 Pascanu , T.Lillicrap和P.巴塔利亚从纠缠场景表示中发现对象及其关系在ICLR,2017。6[32] S. Ren,K.赫利河Girshick和J.太阳更快的R-CNN:用区域建议网络进行实时目标检测。2015年,在NIPS中。2[33] E. Rublee , V.Rabaud , K.Konolige 和 G. 布 拉 德 斯 基Orb:一
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功