区域特征提取的学习方法及其在目标检测中的应用

28 浏览量更新于2023-10-13 收藏 2.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于目标检测的学习区域特征顾嘉源1人，韩虎2人，王立伟1人， 3人，魏一晨2人，戴继峰2人1北京大学机电工程学院机器感知教育部重点实验室{gujiayuan，wanglw}@ pku.edu.cn2微软亚洲研究院{韩虎，yichenw，jifdai}@ microsoft.com3北京大学数据科学中心、北京大数据研究院摘要虽然现代目标检测方法中的大多数步骤是可学习的，但区域特征提取步骤在很大程度上仍然是手工制作的，其特征在于RoI池化方法。这项工作提出了一个通用的观点，统一现有的区域特征提取方法和一种新的方法，是端到端的学习。所提出的方法重新移动最启发式的选择，并优于其RoI池计数器。它进一步走向完全可学习的对象检测。1介绍深度学习时代的一个值得注意的特点是，许多手工制作的功能，算法组件和设计选择都被数据驱动和可学习的对应物所取代物体检测的演变就是一个很好的例子。目前，领先的基于区域的对象检测范式[7，9，6，20，3，14，4，8]由五个步骤组成，即图像特征生成、区域建议生成、区域特征提取、区域识别和重复去除。近年来，大多数步骤变得可学习，包括图像特征生成[6]，区域建议[21，5，20]和重复删除[11，12]。注意，区域识别步骤本质上是基于学习的。区域特征提取步骤仍然主要是手工制作的。当前的实践，RoI（感兴趣区域）池化[6]以及其变体[9，8]，将区域划分为规则网格箱，经由启发式规则（平均值、最大值、双线性插值[8，4]等）从位于箱附近的图像特征计算箱的特征，并且将来自所有箱的这些特征连接为区域特征。这个过程很直观，效果也很好，但更像是经验法则没有明确的证据表明它在某种合理的方式上是最优的。可变形RoI池化[4]的最近工作引入了从图像内容自适应学习的逐箱偏移。该方法优于其ROI池对应。它揭示了使区域特征提取步骤可学习的潜力。然而，其形式仍然类似于基于常规网格的池化。可学习部分仅限于bin偏移。这项工作是在Gu Jiayuan在微软亚洲研究院实习时完成的2Gu Jiayuan，Han Hu，Liwei Wang，Yichen Wei，JifengDai这项工作研究了完全可学习的区域特征提取。其目的是提高性能和增强对这一步骤的理解。它作出了以下两项贡献。首先，提出了区域特征提取的一般观点。区域的每个仓（或在一般意义上，部分）的特征被公式化为整个图像上的不同位置上的图像特征的加权和大多数（如果不是全部）以前的区域特征提取方法被证明是专门化的这个配方，通过指定的权重以不同的方式，主要是手工制作的。基于这种观点，第二个贡献是一个可学习的模块，它代表了RoI和图像特征的权重。权重受两个因素影响：RoI与图像位置之间的几何关系以及图像特征本身。第一个模型使用[22，12]所激发的注意力模型。第二种方法是通过在输入图像特征上简单地添加一个卷积层来利用，如[4]所示。所提出的方法删除了最启发式的选择，在以前的ROI池方法，并进一步走向完全可学习的对象检测。广泛的实验表明，它优于其RoI池同行。虽然一个天真的实现是计算昂贵的，提出了一个有效的稀疏采样的实现，在精度上几乎没有退化。此外，对学习后的权值进行了定性和定量分析，结果表明，从数据中学习权值的空间分布是可行和有效的而不是手动设计它们。2区域特征提取图像特征生成步骤输出空间尺寸H×W（由于下采样，通常比原始图像的空间尺寸小16倍）的特征图x的网络[20]）和Cf信道。区域提议生成步骤找到多个感兴趣区域（RoI），每个感兴趣区域是四维边界框b。通常，区域特征提取步骤从x生成特征y（b还有一个RoI by（b）= RegionFeat（x，b）。（一）通常，y（b）的维数为K×Cf。通道号保持与x中的Cf相同，K表示区域的空间部分每个部分特征yk（b）是该区域的部分观察。举例来说，K是二进制数（例如，二进制数）。，7× 7）。每个部分都是ROI的规则网格中的一个bin。每个yk（b）由图像特征生成在bin中的x中。上述概念可以被概括。零件不需要具有规则形状。零件特征yk（b）不需要来自X中的某些空间位置甚至，所有部分的联合不需要是RoI本身。一般公式是将部件特征视为支撑区域Ωb内所有位置上的图像特征x的加权总和，如下所示：用于目标检测的学习区域特征3·×- |−|yk（b）= Σp∈Ωbwk（b，p，x）<$x（p）.（二）这里，Ωb是支持区域。它可以简单地是ROI本身，或者包括更多的上下文，甚至整个图像。p列举了在Rbb内的空间位置。wk（b，p，x）是对位置x（p）处的图像特征x（p）求和的权重p. ⊙dénoteselemΣént-wisemultiplication. 不是因为我们的关系归一化，即，p∈Ωbwk（b，p，x）=1.我们表明，各种RoI池化方法[6，9，8，4]是当量（二）、在这些方法中，支撑区域Ωb和权重wk（）以不同的方式实现，主要是以手工制作的方式。常规RoI池化[6]支持区域Ωb是RoI本身。其被划分成规则网格仓（例如，、7（七）.每个零件特征yk（b）被计算为或所有图像特征x（p）的平均值，其中p在第k个区间内。以平均池化为例，Eq. (2)是.wk（b，p）=1/|Rbk|若p∈ Rbk0其他（三）这里，Rbk是网格的第k个常规池化的缺陷在于，由于网络中的空间下采样，它不能区分非常接近的ROI，即，图像特征X的空间分辨率通常较小（例如，，16×）比原来的image。如果两个R〇 I的大小都是16个像素，则R块是相同的，并且它们的特征也是相同的空间金字塔池化[9]因为它简单地将常规的RoI池化应用于不同级别的网格划分，所以它可以通过简单修改等式2来表示。（2）和（3）中所述的方法。细节不相关，此处省略对齐的RoI池化[8]它通过在每个R_bk内的分数采样位置处的双线性插值来补救上述常规RoI池化中的量化问题。为了简单起见，我们假设每个箱仅采样一个点，即，其中心（ubk，vbk）4。设位置p=（up，vp）。在Eq中的重量（2）是wk（b，p）=g（up，ubk）·g（vp，vbk），⑷其中g（a，b）=max（0，1 ab）表示1-D双线性插值权重。请注意，Eq. (4)仅对于紧邻采样点（u_bk，v_bk）的四个位置为非零。4在实际实施中[8]，多个（例如，4）在每个仓内采样点这是有益的，因为更多的图像位置特征得到反向传播的梯度。4Gu Jiayuan，Han Hu，Liwei Wang，Yichen Wei，JifengDai因为在Eq.（4）取决于面元中心（ubk，vbk），区域特征对ROI位置的甚至细微变化都敏感。因此，对齐池优于其常规池[8]。请注意，到目前为止，一切都是手工制作的。此外，图像特征X不用于等式1中的Wk（·）中。(3)（4）.可变形RoI池化[4]它通过学习每个bin的偏移量（δubk，δvbk）并将其添加到bin中心来概括对齐的RoI池化。中的权重当量(4)推广到wk（b，p，x）= g（up，ubk+ δubk）·g（vp，vbk+ δvbk）. （五）图像特征x出现在这里是因为偏移量是由应用于图像特征x的可学习子模块具体地，子模块从常规的RoI池化开始，以从图像特征中提取初始区域特征，然后将其用于通过附加的可学习的全连接（fc）层回归偏移。由于权重和偏移现在取决于图像特征，并且它们是端到端学习的，因此根据图像内容自适应地对对象形状变形进行更好地建模。结果表明，可变形RoI池化执行其对齐版本[4]。注意，当偏移学习率为零时，可变形RoI池化严格退化为对齐RoI池化。还要注意的是，支持区域R0b不再是常规和对齐池化中的RoI，而是潜在地跨越整个图像，因为原则上学习的偏移量可以任意大。2.1更多相关作品除了上面回顾的RoI池化方法之外，还有更多的区域特征提取方法可以被认为是Eq.(2)或其更一般的延伸。单阶段目标检测中的区域特征提取[17，19，15]与两阶段或基于区域的目标检测范例相反，另一范例是基于单级或密集滑动窗口的。由于窗口（区域）的数量巨大，因此每个区域特征被简单地设置为区域的中心点上的图像特征，这可以从Eq中进行具体化。（2）当K=1时，Ωb={ce nt e r（b）}。这是非常困难的，因为无法满足RoI政策的要求。这些方法类似于常规池化，但改变了等式中的Rbk(3)非网格。例如，MaskLab [1]使用三角形箱而不是矩形箱。它在编码中心近和中心远子区域中显示出更好的平衡。在可解释的R-CNN [23]中，非网格二进制是从由AND-OR图模型定义的语法生成的。用于目标检测的学习区域特征5K图1.在Eq.中所提出的区域特征提取模块的图示。(2)和（7）。MNC [2]它类似于常规的RoI池。不同之处在于，仅掩码内的分箱使用Eq.（3）计算权重。外面的仓的权重这等于放松对wk的归一化假设。基于可变形零件的RoI池化[18]与可变形RoI池化[4]类似因此，权重定义也具有偏移项，如Eq. (5)但它使用常规池而不是双-线性插值另一个主要区别是，通过最小化能量函数，而在可变形RoI池化中，偏移由通过常规RoI池化层和随后的全连接层的输入特征确定。位置敏感的RoI池[3，13]它类似于常规的RoI池。不同之处在于，每个区间仅对应于图像特征X中的通道的子集，而不是所有通道。这可以通过扩展Eq.（2）作为Σyk（b）=p∈Ωbwk（b，p，xk）⊙xk（p），（6）其中，仅在x中存在大量的chan_nel_s，这取决于是否存在该bin。3学习区域特征常规和对齐的ROI池完全是手工制作的。可变形的RoI池引入了一个可学习的组件，但它的形式仍然在很大程度上受到规则网格的限制。在这项工作中，我们试图学习等式中的权重wk（b，p，(2)用最少的手工制作直观地说，我们考虑了两个应该影响权重的因素。首先，位置p和RoI盒b之间的几何关系当然是关键的。例如，在b内的位置应该比远离它的位置贡献更大。第二，图像特征x应该被自适应地使用。这是由可变形RoI池化的有效性激发的[4]。区域特征（u0，v0，u1，v1）--框嵌入（box）加权和方程（二）点+SoftMaxim嵌入（im--app重量（eq.）…6Gu Jiayuan，Han Hu，Liwei Wang，Yichen Wei，JifengDaiKKKEEE··EKKKK因此，权重被建模为两项之和的指数wk（b，p，x）∝ exp（Gk（b，p）+Ak（x，p））.（7）等式（1）中的第一项Gk（b，p）(7)将几何关系捕获为Gk（b，p）=.（八）有三个步骤。首先，框和图像位置被嵌入到高维空间中，类似于[22，12]。通过将变化波长的正弦和余弦函数应用于标量z来执行嵌入，如z zE2i（z）=sin（10002i/CE），E2i+1（z）=cos（10002i/CE）。嵌入向量E（z）具有维度CE。上面的下标i的范围从0到CE/2− 1。图像位置p被嵌入到维度为2·CE的向量Eim（p）中，因为p具有两个坐标。类似地，每个RoI框b被嵌入到维度为4·CE的向量E框（b）中。请注意，此模块包含视频im（p）anddb〇x（b）分别由可学习的权重矩阵W_im和W_box形成。所述修改的Dimens的变换向量为Cg。不是在这个世界上b〇x（b）具有较高的复杂性，这使得b〇x（b）的尺寸4CE较大。我不想-在这种情况下，我们将Wbox分解为Wbox=WboxVbox。不是因为Vbox是共享的k k k所有的部分。它没有下标k。其输出尺寸设置为CE。以这种方式，对于项W box·Ebox（b），计算和参数的量都减少了。最后，将两个变换向量的内积作为几何关系权重。当量（8）基本上是一个注意力模型[22，12]，这是一个很好的工具，可以捕捉遥远或异构元素之间的依赖关系，例如，来自不同语言的单词[22]，具有可变位置/大小/纵横比的ROI [12]等，因此自然地在我们的问题中建立4D边界框坐标和2D图像位置之间的连接的目标大量的实验表明，感兴趣区域和图像位置之间的几何关系，以及捕捉的注意力模型。方程中的第二项Ak（x，p(7)自适应地使用图像特征。它在图像特征上应用1×其中，Wapp表示卷积核权重，其是可学习的。所提出的区域特征提取模块在图1中示出在训练期间，图像特征x和模块（W框，KW_im和W_app）被同时更新。用于目标检测的学习区域特征7K·E×BBBXy符号描述典型值符号描述典型值|Ω b|支承区数百NROI数量300H图像特征高度x数十K部件数量/箱49W图像特征宽度x数十CE嵌入式尺寸（八）512CF图像特征的通道数x256CG变换尺寸由方程式（八）256模块计算复杂性天真（|Ωb|=HW）高效（|Ωb|=200 †）(P1)变换位置嵌入在等式（八）2HWCECg0.59G0.59G(P2)变换等式中的RoI框嵌入（八）NCE（KCg+4CE）*2.1G2.1G(P3)等式中的内积（八）NK|Ωb|CG7.2G0.72G(P4)在Eq中使用外观。（九）HWKCf0.03G0.03G(P5)在等式中的加权聚合（二）NK|Ωb|CF7.2G0.72G总和17.1G4.16G表1.顶部：主要变量的描述和典型值。底部：所提出的方法的计算复杂度t使用默认最大样本数，如等式2（10）和（11）中，平均实际样本数约为200。另见表3。* 不存在两个定义的元素WboxasWbox=WboxVbox，并且所有元素都是独立的k k kcost是两个矩阵乘法Vbox·Ebox（乘法结果为denotdasEbox）和Wbox·Ebox之和。查看所有用于数据的系统3。3.1复杂性分析与一种有效的实现所提出的区域特征提取模块的计算复杂度在表1中是显著的。在Ak（x，p）和Wim处不成立im（p）被计算在图像特征X中的所有位置上并且被所有ROI共享。一个简单的实现需要枚举所有的位置。当Ωb密集地跨越整个图像特征x时，其大小为H W，通常为几千。这对于表1中的步骤3和5引起了沉重的计算开销。一种有效的实现方式是在等式中的p循环期间对Ωb中的位置进行稀疏采样。（二）、直观地说，ROI应该更密集，而外部的ROI可以更稀疏。因此，Ωb被分为两个部分，即Ωb=ΩIn∪ΩOut，其中的pitin和dide分别为这是一个很好的地方而不是在ΩOur时，存储器的电容器xt。当Ωb为RoI时，I可能为空，或者当Ω b为RoI时，I可能跨越整个镜像。复杂性是通过指定采样位置的最大数量来控制的，采样位置是用于测量和测量的，分辨率是精确的（通过测量，196个采样点）。给我一个戒指，B b以ΩIn为单位的位置在步长值strideb和strideb处采样，在x和bx yy方向。步幅值被确定为步幅b=Wb/√196且步幅b=Hb/√196，（10）8Gu Jiayuan，Han Hu，Liwei Wang，Yichen Wei，JifengDaiBB××其中W银行和H银行与R银行的联系和联系。ΩOut的振幅为是的。它由存储的值导出，由√strideut=HW/196.（十一）Ωb的稀疏采样有效降低了计算开销。特别要注意的是，许多ROI的面积小于上面指定的最大采样数因此，Ω In的实际采样位置数这些ROI等于它们的面积，因此甚至更小。实验表明，稀疏采样的精度非常接近朴素的密集采样（见表3）。4实验所有实验均在COCO检测数据集上进行[16]。我们遵循COCO 2017数据集分割：在用于训练的列车分割中的115 k图像; minival分割中的5 k个图像用于验证; test-dev分割中的20 k个图像用于测试。在大多数实验中，我们报告了minival分裂的准确性。使用最先进的Faster R-CNN [20]和FPN [14]对象检测器。ResNet-50和ResNet-101 [10]被用作主干图像特征提取器。默认情况下，在消融研究中使用具有ResNet-50的Faster R-CNN。对于更快的R-CNN，遵循[3，4]中的实践，conv 4和conv 5图像特征分别用于区域建议生成和对象检测。RPN分支与[20，3，4]中相同。对于目标检测，Conv5的有效特征步幅从32个像素减小到16个像素。具体地，在conv5块的开始处，步幅从2改变为1。conv5块中卷积滤波器的膨胀从1变为2。在conv 5特征图的顶部，添加随机初始化的11卷积层以将维度减少到256-D。所提出的模块应用于顶部以提取区域特征，其中默认使用49个箱。1024-D的两个全连接（fc）层，后面是分类和边界框回归分支，被用作检测头。图像的大小调整为600像素的短边，如果较长的一边后，小于或等于1000;否则在训练和推断中，在较长的一侧调整为1000像素[6]。对于FPN，通过利用由自顶向下和横向连接生成的多尺度特征图，在单分辨率的输入图像上构建特征金字塔。RPN和Fast R-CNN头连接到多尺度特征图，用于提出和检测不同大小的对象在这里，我们遵循[14]中的网络设计，并且仅用所提出的可学习区域特征提取模块替换RoI池。如果调整大小后的长边小于或等于1333，则将图像的短边调整为800像素;否则在训练和推断中，在较长侧调整为1333像素。SGD训练在4个GPU上执行，每个GPU 1个图像重量衰减为1 10−4，动量为0。9.可学习区域特征提取模块Wbox、Wim和Wapp被随机初始化。K K用于目标检测的学习区域特征933××方法地图 mAP50 mAP75 mAPS mAPM mAPL1×RoI规则RoI池29.852.229.910.432.647.8对齐的RoI池32.954.034.913.936.948.8我们33.4 54.535.213.937.350.42×RoI整个图像定期ROI池 *------对齐ROI池 *------我们34.3 56.036.415.438.151.9表2.三种基于不同支持区域的区域特征提取方法的比较报告了COCO检测微型套件的准确度* 不清楚如何利用整个图像进行常规和对齐的RoI池化方法。因此，相应的准确度数字被省略。高斯权重（σ = 0. 01），并且它们的学习率与现有层保持相同。在Faster R-CNN和FPN中，为了便于实验，单独的网络被训练用于区域建议生成和对象检测，而不共享它们的特征。在Faster R-CNN中，分别使用6和16个epoch来训练RPN和对象检测网络。学习前2次迭代的速率设为2× 10 −3，后1次迭代的速率迭代，用于区域建议和对象检测网络。在FPN中，12历元分别用于训练RPN和对象检测网络。对于这两个网络训练，学习率从5 10−3开始，分别在8和10.667 epoch衰减两次。IoU阈值为0.5的标准NMS用于重复删除。4.1消融研究支撑区域的影响Ω。在表2中对其进行了研究。比较了支撑区域的三种尺寸：ROI本身，ROI扩展了两倍的面积（具有相同的中心）和整个图像范围。还比较了常规和对齐的RoI池化5。有两点意见。首先，我们的方法优于其他两种池化方法。其次，我们的方法稳步提高，从使用更大的支持区域，这表明利用上下文信息是有帮助的。然而，使用更大的支撑区域，2 RoI区域，与使用5可变形RoI池化[4]被省略，因为它没有固定的支持区域。规则RoI池30.153.230.610.633.347.4对齐的RoI池32.854.635.114.237.048.5我们33.8 55.135.814.237.851.110Gu Jiayuan，Han Hu，Liwei Wang，Yichen Wei，JifengDai×BB|马x| ma xB|马x| maxB地图映射50 映射75图S 地图M图L|avg|a v gB|avg|a vgBFLOPS完整*7233.455.635.314.137.250.717373215.3G充分14234.256.236.315.038.551.317378615.7G充分21234.156.035.914.538.351.1173715816.2G充分充分34.356.036.415.438.151.9173728217.1G10014233.855.535.914.338.050.871863.84G19614234.155.636.314.538.351.1114864.16G40014234.055.736.014.438.451.0194864.72G62514234.155.736.114.538.051.3432866.42G充分14234.256.236.315.038.551.317378615.7G表3.使用样本点的差分矩阵的有效方法的检测精度和计算时间。这是一个简单的程序|ΩOut|avgand|ΩIn|avgareB b使用300个ResNet-50 RPN提案对COCOminival集进行计数大胆的一行（|ΩOut|max=196，|ΩIn|max=142）areuseddasordefaultmaximmsamplepontB bnumber. *full 表示使用所有图像位置而不进行任何采样。1 ROI区域。此外，不清楚如何以合理的方式利用整个图像进行规则和对齐的池化稀疏采样的效果。表3显示了使用不同数量的采样位置以实现高效实施的结果。通过选择适当的采样位置，算法的精度可以接近单纯稠密枚举算法。并且由于稀疏采样的实现，计算开销可以显著默认情况下，对于h Ω In和d Ω Out，最大采样率为196。 APsc或e为0。2低B b而不是密集枚举。在运行时，较大的ROI将具有较少的采样对于ΩOut和小RoI，将在Ω In的最大阈值范围内对positi进行采样。运行时平均计数采样位置如表3所示，电阻分别为114和86ΩI和ΩOut。B b相应的计算成本是4.16G FLOPS，粗略地等于2-fc头的速率（约3.9G FLOP）。对于以下所有实验，我们的方法将利用稀疏采样使用196max i mummmp i n p i n t i on为bothΩIn和dΩOut p i n t i n p i n s p i nt in。B b几何关系和外观特征项的影响。表4研究了等式2中的几何关系和外观特征项的影响（7）提出的模块。单独使用几何关系，所提出的模块比对齐的RoI池稍好，并且明显优于常规的RoI池。通过进一步结合外观特征项，mAP得分上升0.9至34.1。准确性与可变形RoI池化相当，可变形RoI池化还利用外观特征来指导区域特征提取过程。用于目标检测的学习区域特征11∗∗∗方法地图 mAP50 mAP75 mAPS mAPM mAPL规则RoI池29.852.229.910.432.647.8对齐的RoI池32.954.034.913.936.948.8变形池化34.055.336.014.738.350.4我们的（几何学）33.2 55.235.414.237.050.0我们的（几何+外观）34.1 55.636.314.538.351.1表4.方程中几何和外观项的影响（7）提出区域特征提取模块。检测精度报告COCOminival集。更强检测主干的比较。我们进一步比较了所提出的模块与规则，对齐和变形版本的RoI池在更强的检测骨干，其中FPN和ResNet-101也被利用。表5显示了COCO测试开发集的结果。使用更强的检测骨干，所提出的模块也达到了与变形的ROI池，这是明显优于对齐和规则版本的ROI池的同等精度。我们使用FPN+ResNet实现了39.9的最终mAP得分101通过所提出的完全可学习的区域特征提取模块。值得注意的是，虽然我们的公式是更一般的，它只是稍微好于或相当于可变形的ROI池，在一些额外的计算成本。它揭示了一个重要的问题：最好的方法是什么区域特征提取？以前的常规ROI分箱方法明显受到限制，因为它们过于手工制作并且没有很好地利用图像上下文。但是，可变形ROI池化是最好的吗？实际上，可能是的。理论上，不一定。所提出的方法是回答这个问题的第一步，我们相信沿着这个方向的未来工作将提供更好的答案。基于区域的对象检测不应停留在手工制作的基于分箱的特征提取，包括可变形ROI池化。5、学到了什么定性分析等式（1）中的学习权重wk（）(7)在图2（a）中可见。支持区域Ω是整个图像。最初，权重wk（）在整个图像上很大程度上是随机的。训练后，不同部分的权重被学习以关注RoI上的不同区域，并且它们主要关注实例前景。为了理解方程中几何和外观项的作用。(7)，图2（b）显示了忽略其中任一项时的权重似乎几何权重主要关注RoI，而外观权重关注所有实例前景。对于每个部分k，权重wk（）被视为支持区域Ω中所有位置上的概率分布，如下所示：12Gu Jiayuan，Han Hu，Liwei Wang，Yichen Wei，JifengDai∗骨干方法地图 mAP50 mAP75 mAPS mAPM mAPLFaster R-CNN 规则RoI池29.952.630.19.731.946.3公司简介对齐的RoI池33.154.535.113.936.047.4可变形RoI池34.255.736.714.537.448.8我们34.5 56.436.414.637.450.3Faster R-CNN 规则RoI池32.753.623.711.435.250.0+ResNet-101 对齐的RoI池35.657.138.015.339.351.0可变形RoI池36.4 58.139.315.740.252.1我们36.4 58.638.615.340.252.2FPN规则RoI池35.959.038.419.638.845.4公司简介对齐的RoI池36.759.139.420.939.546.3可变形RoI池37.760.640.921.340.747.4我们37.8 60.940.721.340.448.0FPN规则RoI池38.561.541.821.442.049.2+ResNet-101 对齐的RoI池39.161.442.321.542.550.2可变形RoI池40.0 62.743.522.443.451.3我们39.963.143.122.243.451.6表5.使用不同主干的不同算法的比较。报告了COCO测试开发Σp∈Ωwk（b，p，x）=1。KL散度被用来测量被-这样的分布。我们首先比较不同部分的权重。对于每个地面实况对象RoI，在所有对的wk1（*）和wk2（）之间计算KL散度值，k1，k2= 1，…，四十九然后对这些值进行平均，称为RoI部件之间的平均KL图3（左）显示了在训练过程中对三种大小（由COCO数据集定义）的对象进行平均的值。最初，不同部分的重量在很大程度上是不可区分的。他们的KL发散度很小。在第一次测试之后，该度量显著增长。这表明不同的部分被学习以聚焦在不同的空间位置上。请注意，对于大的物体，散度更大，这是合理的。然后，我们通过将权重与COCO中的地面实况实例前景遮罩进行比较，来研究权重如何类似于实例前景。为此，对于每个地面实况对象RoI，通过在每个位置处取最大值来将来自所有部分的权重聚合在一起，从而得到“最大池化权重图”。然后将图归一化为分布（总和为1）。地面实况对象遮罩填充为1和0。也是常态化作为一个分布。这两个分布之间的KL散度称为掩模的KL。图3（右）示出了在训练期间在三种大小的对象上平均的该测量。它很快变小，表明所有部分权重的聚合被学习为与对象遮罩相似。用于目标检测的学习区域特征13初始权重最终权重(a) 初始（左）和最终（右）权重wk（*）在等式中。（7）两个给定的ROI（红框）。中心图像示出了所有K= 49权重图的最大值周围较小的图像显示了4个单独的权重图。(b) 几何重量（顶部）、外观重量（中位数）和最终重量（底部）的示例结果图2.学习权重的定性分析。对于可视化，所有权重由所有图像位置上的最大值归一化，并且与原始图像对半遮片。14Gu Jiayuan，Han Hu，Liwei Wang，Yichen Wei，JifengDai小中大号面具的KL1251084634220 2 4 6 8 10 12 1416时代0 2 4 6 8 10 12 14 16时代图3.学习权重的定量分析这两个图分别是训练期间部分之间的平均（左）和掩模的KL（右）请注意，我们每两个epoch测试一次KL散度，因为我们的训练框架使用这样的频率保存模型权重第二个观察结果是特别有趣的，因为它表明学习等式中的权重。(7)与实例分割有关，以某种隐含的方式。这一点值得在今后的工作中进一步研究。致谢王立伟部分资助项目：国家基础研究计划（973计划）（批准号：2015CB352502）、NSFC（61573026）、BJNSF（L172037）和微软亚洲研究院的资助。引用1. Chen，L.C.，Hermans，A.帕潘德里欧，G.，Schroff，F.，王，P.，Adam，H.：MaskLab：通过语义和方向特征细化对象检测进行实例分割。CVPR（2018）2. Dai，J.，他，K.，孙杰：通过多任务网络级联的实例感知语义分割见：CVPR（2016）3. Dai，J.，李，Y.，他，K.，孙杰：R-FCN：通过基于区域的全卷积网络进行对象检测。在：NIPS（2016）4. Dai，J.，Qi，H.，Xiong，Y.，李，Y.，张，G.，Hu，H.，魏云：可变形对流网络。In：ICCV（2017）5. Erhan，D.，塞格迪角Toshev，A.安格洛夫，D.：使用设计神经网络工作的可扩展对象检测。 In：CVPR. pp. 21476. Girshick，R.：快速R-CNN。In：ICCV（2015）7. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的功能层次结构，用于准确的对象检测和语义分割。在：CVPR（2014）8. H e，K.， G.，G.，做吧，P Girshi ck，R. ：MaskR-C NN。ICCV（2017）9. 他，K.，张，X.，Ren，S.，孙杰：用于视觉识别的深度卷积网络中的空间金字塔池。In：ECCV（2014）10. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）小中大号部件之间的平均KL用于目标检测的学习区域特征1511. Hosang，J.，Benenson河Schiele，B.：学习非最大抑制。In：ICCV（2017）12. Hu，H.，顾，J.，张志，Dai，J.，魏云：用于对象检测的关系网络来源：CVPR（2018）13. Li，Z.，彭，C.，Yu，G.，张，X.，邓，Y.，孙杰：光头R-CNN：为两级物体探测器辩护。CVPR（2018）14. 林，T. 是的，做吧，P Gir shi ck，R.， He，K.， Hariharan，B.Belongie，S. ：用于对象检测的Fetur金字塔网络。在：CVPR（2017）15. 林，T. 是的，再见，P.， Gir shi ck，R.， He，K.，我会的，P。：用于检测阻塞的频率损失。ICCV（2017）16. 林，T. 是的，我是M Belongie，S.，嗨，J.， Perona，P.， Ramanan，D. ，Dolla'r，P.，Zitnick，C.L.：Microsoft COCO：上下文中的公共对象In：ECCV（2014）17. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.：SSD：单次触发多盒探测器。In：ECCV（2016）18. Mordan，T.，Thome，N. Cord，M.，Henaff，G.：基于可变形部分的全卷积网络用于目标检测。arXiv预印本arXiv：1707.06175（2017）19. Redmon，J.，Divvala，S.，格尔希克河Farhadi，A.：你只看一次：统一的实时物体检测。见：CVPR（2016）20. Ren，S.，他，K.，格尔希克河孙杰：更快的R-CNN：利用区域建议网络进行实时目标检测。In：NIPS（2015）21. 塞格迪角Reed，S.，Erhan，D.，安格洛夫，D.：可扩展的高质量对象检测。02 The Dog（2014）22. Vaswani，A.，Shazeer，N.Parmar，N.Uszkoreit，J.，琼斯湖戈麦斯，A.N.，凯泽湖Polosukhin，I.：注意力是你所需要的NIPS（2017）23. 吴，T.，Li，X.，宋，X.，孙，W.，东湖，加-地李乙：可解释的R-CNN。arXiv预印本arXiv：1711.05226（2017）

下载后可阅读完整内容，剩余1页未读，立即下载