单镜头目标检测中动态锚点特征选择

85 浏览量更新于2023-10-14 收藏 788KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1单镜头目标检测中的动态锚点特征选择李帅1，2，杨凌霄1，黄建强2，华宪生2，张磊1，21香港理工大学2阿里巴巴集团{csshuaili，cslyang}@ comp.polyu.edu.hk，jianqiang. alibaba-inc.comhuaxiansheng@gmail.comcslzhang@comp.polyu.edu.hk摘要锚点的设计对单级探测器的性能至关重要。最近，锚细化模块（ARM）已被提出来调整默认锚的初始化，提供检测器一个更好的锚参考。然而，这个模块带来了另一个问题：特征图上的所有像素都具有相同的感受野，而与每个像素相关联的锚具有不同的位置和大小。这种不一致性可能导致检测器效率较低。在本文中，我们提出了一个动态的特征选择操作，以选择新的像素在特征图中的每个细化锚从ARM接收。基于新的锚点位置和大小来选择像素，使得这些像素的接收场可以很好地适合锚点区域，这使得检测器（特别是回归部分）更容易优化。此外，为了提高所选择的特征像素的表示能力，我们设计了一个双向的特征融合模块，结合早期和深层的功能。PASCAL VOC和COCO上的大量实验证明了我们的动态锚特征选择（DAFS）操作的有效性。对于高IoU阈值的情况，我们的DAFS可以大幅提高mAP。1. 介绍物体检测是许多下游计算机视觉应用的先决条件，例如人员重新识别[2]，自动驾驶[7]和动作识别[12]。目标检测作为一项基本而重要的任务，几十年来得到了广泛的研究。由于最近卷积神经网络（CNN）的发展越来越有前途，目标检测在速度和准确性方面都有了显着的提高[14，18，33，15，3，6，35]。基于深度CNN特征，主要有两种主要的检测框架。一种是两阶段检测-* 通讯作者。本研究得到了国家自然科学基金项目（ No.61672446）及香港研资局一般拨款额（理大152135/16 E）。表1：调整后的正锚的原始IoU分布0-0.10.1-0.20.2-0.30.3-0.40.4-0.50.5-0.60.6-1.0百分之零点零二0.32%9.0%47.6%百分之二十七点九百分之十点八百分之四点四一个是一级检测器，例如Faster-RCNN [29]，另一个是一级检测器，例如SSD [24]。给定彩色图像作为输入，这两种类型的检测器都采用卷积层堆栈（通常是一些典型的骨干，如ResNet [14]或VGG [33]）来提取输入的几个特征图对于一个阶段的检测器，预测分类分数和边界框估计直接在特征图上相对于一组默认的锚使用额外的卷积层。相比之下，两阶段检测器也从锚点开始，但使用两步级联检测器，其中第一步主要旨在回归更好的初始化建议并消除大量否定。受两阶段检测器的启发，一些研究者将两步级联回归方法引入到一阶段检测器中。一个例子是Refinedet[36]。它使用锚点优化模块（ARM）来调整锚点的位置和大小，同时过滤掉容易产生负面影响的锚点。实验结果表明，准确度的提高主要来自于锚点的调整.表1显示了新阳性锚钉的原始IoU分布（IoU> 0.5）。我们可以看到，在细化之后，正锚的数量大大增加。近85%的积极锚来自消极锚。然而，Refinedet保持与每个锚点相关联的特征点不变，导致调整后的锚点与特征点的感受野之间不一致。特征图的每个位置处的不一致性彼此不同，因为经调整的锚点的形状变得不规则，使得检测器尤其是回归部分是次优的。既然锚点的位置已经调整，为什么与锚点相关的采样特征点不能调整？基于此，我们提出了一种简单而有效的特征选择操作，根据每个调整后的锚点的新位置和大小动态地选择合适的特征点所选特征点可覆盖大部分66096610图1：我们提出的方法的架构。四个绿色的特征图，计算的前向计算过程中，用于调整默认锚的初始化。四个蓝色特征图通过双向特征融合块与绿色特征融合，作为源检测层。然后将调整后的锚点发送到动态特征选择模块以进行特征适配。检测器头将源特征图和所选特征点作为输入，并输出相对于调整后的锚点的分类分数和回归位置。调整后的锚点的一部分，使这些特征点的接收场选择的特征点数目与原一级检测器的设置保持一致，因此不需要改变最终分类器和回归器的结构，从而保持较快的推理速度。我们遵循与Refinedet类似的网络结构，除了两个修改。首先，在Refinedet中，第一阶段（锚点细化模块）中的特征通过传输连接块（TCB）传输到第二阶段（对象检测模块）。我们用新设计的双向特征融合块（BFF）代替TCB。在TCB中，每个特征图只接收来自其上层的信息，而在BFF中，将较低层和较高层组合以融合当前特征图。第二，我们在第一阶段将ARM中的类不可知分类器改为类特定分类器，因为这种更强的调节有助于ARM中更具区分力的特征总之，我们的贡献是双重的。(1) 我们提出了一个简单而有效的动态锚特征选择（DAFS）操作，以解决调整后的锚形状和特征图的感受野之间的进行了大量实验，以表明该操作可以在PASCAL VOC [8]和COCO [22]上持续改善Refinedet的性能。(2) 与TCB或FPN采用自顶向下的方式将高层特征映射到低层特征映射不同，本文提出了一种双向特征融合模块，使不同层次的特征能够相互激活，从而使每个特征都能有效地融合。真地图可以捕获基本视觉线索和高级特征两者。2. 相关工作两级探测器。两阶段检测器采用两阶段的基于建议的机制。在第一阶段生成聚类建议的稀疏集，这可以通过区域建议网络[29]，边缘框[40]或选择性搜索[34]来实现。在第二阶段中，通过训练检测器头来预测每个建议的分类分数和边界框位置。一些类型-cal两阶段检测器是R-CNN [11]，Fast-RCNN [10]和Faster-RCNN [29]。RFCN [4]是另一种特殊的两阶段探测器，它用一些位置敏感的分数图代替探测器头。预测的类标签和位置偏移直接从分数图中采样，这大大减少了推理时间，但由于分数图较大，因此需要更多的内存占用。多年来，两级探测器在包括PASCAL VOC[8]和MS COCO [22]在内的多个基准测试中一直处于领先一级探测器。与两阶段检测器相比，一阶段检测器预定义了一组默认锚点在特征图的每个像素处具有各种大小和纵横比分类和回归直接应用于这些默认锚点的特征图。典型的一级检测器是YOLO [27]和SSD [24]。单级探测器的探测性能通过一系列针对不同方面的方法不断得到改善。例如，在[9，31，37，23]中增强了不同层上的语义信息以提高对不同层的语义信息的理解。6611歧视在[19，21]中提出了新的损失函数多级特征金字塔网络[38]用于检测不同级别特征图上具有不同大小的对象。Refinedet [36]将锚点细化引入SSD，以提高参考锚点的质量。单级检测器可以以较快的速度运行，但在精度上仍落后于两级检测器。CornerNet [17]是另一种类型的检测器，它将检测对象视为检测成对的关键点。虽然它取得了显着的性能，它仍然遭受从低推理速度。探测器头。通常，检测器头包括分类器和回归器。如何为探测器头准备输入是两阶段探测器和单级探测器。建议的功能可以使用RoIPooling[10]或RoIAlign [13]。作为探测器头输入的前向特征在被馈送到前向特征之前由小网络（通常是两个完全连接的层）分类器和回归器。而在一级检测器中，在特征图的每个位置上应用3×3卷积滤波器，以直接给出关于默认锚点的预测。有时，在3× 3卷积滤波器之前，将通过堆栈卷积层，这已被证明比[21]中的一些超参数更重要。在本文中，我们仅更改此3× 3检测滤波器的采样位置，以使新选择的特征与锚点更加对齐。我们从来没有分开锚fea-从特征图中提取纹理，并像两阶段检测器一样独立地处理它们，这是两阶段检测器的关键功能聚合网络。用于执行分类和回归的图像特征在现代一级检测器中已经吸引了大多数SSD [24]利用多尺度特征金字塔来检测具有不同的尺寸。这种策略被后继的现代检测器采用，并进行修改以进一步增强FPN [20]引入了一种自上而下的架构，带有横向连接，以在所有级别上构建高级语义特征图。类似的模块可以在TDM [32]，SharpMask[26]，DSSD [9]，DES [37]和DSOD [31]. Refinedet [36]使用TCB将特征从锚细化模块转移到对象检测模块。这种转移是必要的，因为在两个模块之间直接共享特征将影响两个部分的优化，这在后面的部分中通过实验证明3. 动态锚点特征选择我们在图1中展示了基于Refinedet的网络结构[36]。在检测器头之前添加特征选择操作，以针对每个分类器和回归器选择合适的特征点。我们还替换了传输连接块与我们自己的双向特征融合（BFF）块，它利用自底向上路径和自顶向下路径来组合不同的层。3.1. 锚细化模块锚细化模块是一种用于一级检测器的RPN类模块，由[36]首次提出。它在多尺度检测框架下的每个检测源层上附加两个卷积核（回归器和二元分类器）ARM的主要目的是分配背景/前景分数，并预测每个锚点的调整位置。二进制分类分数用于过滤掉容易的阴性，并将细化的锚点发送到最终目标检测模块（ODM），这与SSD中的探测器头完全相同。根据[37]中的实验结果，性能增益主要来自良好初始化的锚。为了更好地分析ARM对检测器的影响，本文首先给出了检测器头中包围盒回归和分类的定义。图2：SSD中的探测器头绿色、蓝色和黄色框是特征图上的三个锚点，以同一特征点为中心。在特征图中选择一个3×3的滑动窗口（红点）作为三个函数f的输入的共享特征，每个函数f都有自己的预测权重3.2. 边界框回归对于一级检测器，边界框回归的任务是使用回归量f（x，a）将锚点a回归到目标边界框g中。锚点a和边界框g两者都用四个坐标（x，y，w，h）来定义。通过优化函数学习回归量fΣNRloc[f]=Lloc（f（xi，ai），gi）（1）i=1其中L_loc是SSD中的平滑L1损失函数。X1是与锚点A相关联的输入。在训练期间，Lloc优化距离向量d=（dx，dy，dw，dh）以实现回归不变性。d定义为：dx=（gx−ax）/axdy=（gy−ay）/ay（2）dw= log（gw/aw）dh= log（gh/ah）（3）6612在SSD中，检测特征图中的每个像素点与几种锚点相关联，这些锚点具有不同的大小和纵横比。例如，在图2中，蓝色、黄色和绿色是附着在fea上的三种锚，真地图3× 3红色特征点为输入xi对于回归器。注意，x的实际接收场为不一定要和锚匹配。回归量f（）可以自动学习响应于框g的特定尺度，因为在回归量的每个位置中，锚坐标aw、ah是相同的，其可以被视为常数值。这意味着对于每种锚，其尺寸分布的方差为零。在Refinedet中，相同种类的锚将朝向接近地面实况框g的各种方向移位。这使得距离向量d小于SSD中的距离，这似乎使回归量更容易优化。然而，这不是事实，因为在ARM之后，每种调整的锚变得更加多样，这意味着aw和ah成为距离向量中的变量，而不再是恒定值。更重要的能够感知锚的存在特征选择函数s可以写为：p=s （ aw ， ah ， x ， y ）（5）其中aw，ah是调整后的锚a的宽度和高度。 x，y描述特征图上的位置，锚与之相关联。 p∈H×W×C，是共-检测器头的选定特征点的坐标每个通道沿H和W轴的坐标相同，因此我们可以将矩阵简化为H×W。在Re- fineDet [36]和SSD [24]中，H和W设置为3×3，p设置为以（x，y）为中心的3×3滑动窗口。在本文中，我们要利用调整后的形状和-合唱受RoIAlign [13]的启发，我们简单地将锚点a均匀地划分为Ha×Wa在每个子窗口中，我们选择中心位置c作为该子窗口的代表位置。然后我们将有Ha×Wa代表性位置。每个点的特征-位置是来自其他位置的特征的加权和，特征图，其可以被写为：ΣN调整锚的特定形状，因为W和H由ARM动态预测。fc=i=1wi×fi（6）3.3. 分类一级检测器中的分类器h（x）旨在分配类上的后验分布的M+1维估计，其中0表示背景，M是剩余的通过最小化分类损失来训练H（x）wi= max （ 1 − |xc− xi| ，0）× max （1 − |yc−yi|，0）（7）其中fi是坐标为int的特征点。xc，xi是位置c和i的x坐标。yc，yi是位置c和i的y坐标。wi是分配给fi的权重。现在我们有一个特征矩阵F∈Ha×Wa。为了适应回归器和分类器的输入大小，我们使用maxpooling作用：Rcls[h]= ΣNi=1Lcls（h（xi），yi）（4）将F的尺寸减小到H×W。有一些替代方法可以对特征位置进行采样为一个锚。RoIPooling [10]可以直接用于如果锚点的最大IoU满足以下条件，任何地面真值框都大于0.5。此指标在ARM和ODM中均使用。如果新调整锚点的IoU大于0.5，则一些默认负锚点将在ARM后变为正锚点，这是可能的，因为负锚点不会导致ARM中的回归损失。这可能导致次优分类器，因为特征点离它们相关联的锚点太远，使得它们不足以代表被分类为前置类标签。如表1所示，对于超过47%的调整后的锚，其在细化之前的IoU小于0.4。3.4. 动态特征选择从上面的分析可以看出，ARM会导致输入特征点的感受野与其关联的新细化锚点之间的不一致。这种不一致可能导致次优检测器，特别是对于回归部分。一个简单的解决方案是根据新的锚点形状以这种方式，特征点是基于调整后的锚集汇集H×W特征矩阵，但需要比较锚集内的所有点这是一个耗时的chor。DeformConv [5]还可以用于通过额外的分支预测锚点的采样位置，其输入是特征图。这不是有效的，因为存储器和计算复杂性将增加。在消融研究中进行了相关实验3.5. 双向特征融合在ARM和ODM之间直接共享功能并不是一个好的选择，因为这两个模块有不同的目标。因此，需要一个桥梁，将功能从ARM连接到ODM。在RefineDet中，提出了一种传输连接块（TCB），用于使用自顶向下的ODM路径来构建特征金字塔在本文中，我们用如图1所示的双向特征融合（BFF）块替换TCB，其中自顶向下路径和自底向上路径两者用于融合不同的层。具体来说，每一层从上层接收更多的抽象信息，同时从下层获得更多我们发现这个小小的改变6613ARMODM可以进一步提高检测性能，而计算成本的增加可以忽略不计。4. 培训设置BackboneVGG 16 [33] 和 ResNet 101 [14] 在标准ImageNet-1 k分类任务[30]上进行了预训练，用作我们的骨干网络。其他设置与RefineDet [36]保持相同。对于VGG 16，conv4 3、conv5 3、fc7和额外层conv6 2被用作多级检测层。L2归一化[25]用于缩放conv4 3和conv5 3中的特征范数。对于ResNet 101，最后三个块连同额外块res6用于多尺度检测。这四[2019 - 08 - 18][2019 - 08 - 19][2019 - 08]与每个特征图相关联的匹配器和匹配策略匹配器具有一个特定的大小（4倍于特征步幅）。对于宽高比，我们尝试从一组设置（1/2，1/3，1/1）中选择不同的组合，发现只有使用1/1才能达到相当的精度。相关结果将在消融研究中讨论。如果锚点在两个阶段中的最大IoU与地面真实值都大于0.5，则锚点被设置为正值表2：消融研究结果。纵横比锚的数量AP AP50 AP60 AP70 AP80 AP901157.0 80.675.765.446.017.30.5,1,2358.1 80.275.866.448.619.70.3,1,3358.1 80.476.066.148.219.80.3,0.5,1,2,3558.2 80.376.066.048.520.4(a) 锚号的影响。APAP50AP60AP70AP80AP90（三，三）56.780.776.065.445.715.9（三、三、六、六）57.080.675.765.446.017.3（六，六）56.580.375.365.445.416.0（6，6，9，9）56.680.675.564.945.716.2（9，9，9，9）56.781.075.964.845.616.1(b) 不同选择特征点的比较。转移模块APAP50 AP60 AP70 AP80 AP90没有一56.080.374.464.245.415.9TCB56.680.575.864.945.116.5BFF57.080.675.765.446.017.3(c) BFF块性能。损失函数我们的特征选择操作不改变损失函数的形式，除了在ARM中，我们采用类特定的分类器。对于硬负采矿，我们根据损失值选择负，以确保正负之间的比例为1：3。焦也可以使用损失[21]，但这不是重点(d) 特征点选择的备选方案。本文损失函数可以公式化为：L（I;θ）=αL （a，y，p，t）+L（a′，y′，p′，t′）（8）L臂（a，y，p，t）=Lcls（p，y）+1[y>0]莱′ ′′ ′ ′ ′ ′odm（a，y，p，t）=Lcls（p，y）+1[y >0]Lloc（a，t）（十）其中I是输入图像，{a，y，p，t}是用于错误锚的坐标、类别标签、预测置信度和预测锚坐标，并且{a′，y′，p′，t′}是用于错误锚的坐标、类别标签、预测置信度和预测锚坐标。调整锚的坐标分类损失Lcls被设置为交叉熵损失，并且定位损失Lloc被设置为平滑的Ll损失[10]。我们在所有的实验中都简单地设置α=15. 实验在本节中，我们首先对所提出的特征选择操作进行消融分析。然后，我们与竞争的方法以及国家的最先进的。我们所有的模型都是在PyTorch框架下训练的-在NVIDIA GeForce 1080Ti GPU上使用SGD求解器数据集。实验在两个主要数据集上进行：PASCAL VOC [8]和MS COCO [22]，分别有20和80个类。对于VOC2007，型号特征选择APAP50 AP60 AP70 AP80 AP90基于锚钉池（R）50.979.573.659.334.17.6可变形卷积（D）53.679.973.762.141.410.9DAFs57.080.675.765.446.017.3ARM中的分类器APAP50 AP60 AP70 AP80 AP90阶级不可知论者56.680.374.864.946.116.6类别特异57.080.675.765.446.017.36614(e) ARM中的分类器在VOC2007培训和VOC2012培训的结合上进行培训对于VOC2012，训练数据是VOC2007训练值和2007测试加上VOC2012训练值集的并集。按照传统的分割方法，我们使用包含大约 135 k 图像的2014年trainval 35 k集来训练我们的模型，并在包含大约20 k图像的2015年test-dev数据集上验证性能。实验设置。我们将所有数据集的batchsize设置为32。动量固定为0.9，权重衰减设置为0.0005，这与原始SSD设置一致在VOC数据集中，我们从100个epoch的10−3开始学习率，然后分别在另外50和30个epoch中衰减到10−4和10−5对于COCO，由于其规模较大，我们训练模型的时间更长学习率初始化为10−3，持续150个epoch，然后分别衰减到10−4和10−5，持续40和30个epoch 在训练过程中，我们通过从标准偏差为0.001的零均值高斯分布中提取权重来初始化新添加的层。所有其他图层均由6615表3：PASCAL VOC 2007检测结果。第一部分列出了两级探测器中的一些代表性基线。第二部分呈现了具有小分辨率输入图像的最先进的一级检测器的结果，并且第三部分呈现了具有高分辨率输入图像的结果。‘+’ means thatthe model is evaluated with multi-scale方法列车组骨干地图Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视更快的R-CNN [29]07+12VGG1673.276.57970.965.552.183.184.786.45281.965.784.884.677.576.738.873.673.98372.6更快的R-CNN [14]07+12ResNet10176.479.880.776.268.355.985.185.389.856.787.869.488.388.980.978.441.778.679.885.372ION [1]07+12VGG1675.679.283.177.665.654.985.485.18754.480.673.885.388.282.274.447.175.872.784.280.4R-FCN [4]07+12ResNet10180.579.987.281.57269.886.888.589.86788.174.589.890.679.981.253.781.881.585.979.9CoupleNet [39]07+12ResNet10182.785.787.084.875.573.388.889.289.669.887.576.188.989.087.286.259.183.683.487.680.7SSD300系列[24]07+12VGG1677.579.583.97669.650.58785.788.160.381.57786.187.583.979.452.377.979.587.676.8SSD321 [24]07+12ResNet10177.176.384.679.364.647.285.484.088.860.182.676.986.787.285.479.150.877.282.687.376.6DSSD321 [9]07+12ResNet10178.681.984.980.568.453.985.686.288.961.183.578.786.788.786.779.751.77880.987.279.4RON384++[16]07+12VGG1677.686.082.576.969.159.286.285.587.259.981.473.385.986.882.279.652.478.276.086.278.0DES300 [37]07+12VGG1679.783.586.078.174.853.487.987.388.664.083.877.285.988.687.580.857.380.280.488.579.5[23]第二十三话07+12VGG1680.5--------------------Refinedet320 [36]07+12VGG1680.083.985.481.475.560.286.488.189.162.783.977.085.487.186.782.655.382.778.588.179.4DAFS320（我们的）07+12VGG1680.685.486.382.473.063.987.888.989.164.985.677.785.685.187.783.453.683.180.389.079.6DAFS320（我们的）07+12ResNet10181.186.687.682.476.461.286.488.088.366.586.377.286.389.487.082.456.983.081.888.480.4DAFS 320+（我们的）07+12VGG1685.390.289.386.083.076.989.289.790.273.389.283.187.990.089.887.865.988.283.789.083.7SSD512 [24]07+12VGG1679.584.885.181.573.057.887.888.387.463.585.473.286.286.783.982.555.681.779.086.680.0SSD513 [24]07+12ResNet10180.684.387.682.671.659.088.288.189.364.485.676.288.588.987.583.053.683.982.287.281.3DSSD513 [9]07+12ResNet10181.586.686.282.674.962.58988.788.865.28778.788.28987.583.751.186.381.685.783.7DES512 [37]07+12VGG1681.787.786.785.276.360.688.789.088.067.086.978.087.287.987.484.459.286.179.288.180.5[23]第二十三话07+12VGG1682.2--------------------Refinedet512 [36]07+12VGG1681.888.787.083.276.568.088.588.789.266.587.975.086.889.287.884.756.283.278.788.182.3DAFS512（我们的）07+12VGG1682.489.688.384.277.469.888.689.689.666.287.676.486.789.687.885.057.384.680.888.980.5Refinedet320 [36]07+12+COCOVGG1684.088.988.486.281.571.788.489.489.071.087.080.188.590.288.486.761.285.283.889.185.5DAFS 32007+12+COCOVGG1684.789.389.286.980.775.789.889.888.973.888.680.088.689.188.887.262.287.584.189.085.7DAFS 320 +07+12+COCOVGG1686.190.489.488.783.979.290.190.089.776.490.082.889.489.989.688.266.088.585.088.786.6表4：PASCAL VOC 2012检测结果。方法列车组骨干地图Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视更快的R-CNN [14]07++12ResNet10173.886.581.677.258.051.078.676.693.248.680.459.092.185.384.880.748.177.366.584.765.6ION [1]07++12VGG1676.487.584.776.863.858.382.679.090.957.882.064.788.986.584.782.351.478.269.285.273.5R-FCN [4]07++12ResNet10177.686.983.481.563.862.481.681.193.158.083.860.892.786.084.684.459.080.868.686.172.9SSD300系列[24]07++12VGG1675.888.182.974.461.947.682.778.891.558.180.064.189.485.785.582.650.279.873.686.672.1SSD321 [24]07++12ResNet10175.487.982.973.761.545.381.475.692.657.478.365.090.886.885.881.550.378.175.385.272.5DSSD321 [9]07++12ResNet10176.387.383.375.464.646.882.776.592.959.578.364.391.586.686.682.153.379.675.785.273.9RON384++[16]07++12VGG1675.486.582.976.660.955.881.780.291.157.381.160.487.284.884.981.751.979.168.684.170.3DES300 [37]07++12VGG1677.188.584.476.065.050.183.179.792.161.381.465.889.685.986.283.251.281.476.088.473.3Refinedet320 [36]07++12VGG1678.190.484.179.866.856.183.182.790.761.782.463.889.486.985.985.753.384.373.187.473.9DAFS320（我们的）07++12VGG1679.189.485.978.567.760.085.383.391.963.783.364.390.187.886.286.656.383.375.087.875.2DAFS 320 +07++12VGG1683.192.488.383.873.670.687.388.293.968.987.269.792.489.589.389.963.588.376.490.480.2SSD512 [24]07++12VGG1678.590.085.377.764.358.585.184.392.661.383.465.189.988.588.285.554.482.470.787.175.6SSD513 [24]07++12ResNet10179.490.787.378.366.356.584.183.794.262.984.566.392.988.687.985.755.183.674.388.276.8DSSD513 [9]07++12ResNet10180.092.186.680.368.758.284.385.094.663.385.965.693.088.587.886.457.485.273.487.876.8DES512 [37]07++12VGG1680.391.187.781.366.558.984.885.892.364.784.367.891.689.688.786.457.785.574.489.277.6Refinedet512 [36]07++12VGG1680.190.286.881.868.065.684.985.092.262.084.464.990.688.387.287.858.086.372.588.776.6DAFS512（我们的）07++12VGG1681.091.887.582.571.265.685.486.292.864.085.964.791.689.088.787.959.287.573.588.876.8Refinedet320 [36]07++12+COCOVGG1682.793.188.283.674.465.187.187.193.767.486.169.491.590.691.489.459.687.978.191.180.0DAFS320（我们的）07++12+COCOVGG1683.992.589.784.875.471.087.087.993.968.886.869.792.491.490.290.064.488.480.091.382.4DAFS 320 +07++12+COCOVGG1686.994.791.588.479.379.189.591.695.374.189.672.593.893.392.492.470.791.781.493.184.9标准VGG16 [33]或ResNet101 [14]。5.1. 消融研究为了更快地进行消融研究，本节中的模型在VOC2007 trainval + VOC 2012 train-val上进行训练，并在VOC 2007测试上进行测试我们报告了所有模型在一组不同阈值下的性能（例如：0.5，0.6，0.7，0.8，0.9）进行比较。默认锚点的数量。为了验证锚点的数量如何影响DAFS插入的模型性能，我们设计了一些实验，通过在特征图上的每个像素处关联不同数量的锚点结果总结见表2a。在低阈值（例如0.5或0.6）的情况下，mAP几乎相同。但是增加锚点的数量可以明显地提高更高阈值下的mAP，这表明更多的锚点可以帮助训练更好的回归变量。特征采样点数。请注意，我们为每个锚点选择Ha×Wb特征点，然后将其最大池为3×3，以适应分类器和回归器的输入大小。为了验证影响-对于采样点的位置，我们设置了一组设置（3）（6）（9）（四每个设置中的数字代表Ha的值，检测层在我们的模型中，Ha等于Hb 结果如表2b所示，从中我们可以看出，添加更多的特征采样点如果没有指定，我们所有的模型都是使用（3，3，6，6）训练的。BFF块的影响。为了研究BFF的影响，我们设计了另外两个模型。对于一个模型，两个模块ARM和ODM直接共享功能，没有任何传输块。对于第二个模型，我们用TCB代替BFF，其他与第一个模型相同表2c显示了比较结果。第一个特征共享模型的性能最差，表明有必要将第一阶段的特征转移到第二阶段。采用BFF块的模型性能最好，证明BFF比TCB更能融合不同层的特征。功能选择的替代方案。我们使用两种替代方案来执行特征选择过程：RoIPooling和可变形卷积，我们称之为'R'和'D'。对于RoIPooling，我们比较一个像素内的所有特征像素。6616表5：COCO 2015测试开发的检测结果方法列车组骨干FPSAPAP50AP75APSAPMAPL更快的R-CNN[29]trainvalVGG16721.942.7----R-FCN [4]trainvalResNet101929.251.5-10.332.443.3CoupleNet [39]trainvalResNet1018.234.454.837.213.438.152.0[28]第二十八话火车35k[27]第二十七话19.821.644.019.25.022.435.5SSD300系列[24]火车35kVGG164325.143.125.86.625.941.4RON384++[16]trainvalVGG161527.449.527.1---SSD321 [9]火车35kResNet101-28.045.429.36.228.349.3DSSD321 [9]火车35kResNet1019.528.046.129.27.428.147.6DES300 [37]火车35kVGG16-28.347.329.48.529.945.2M2Det320 [38]火车35kVGG1633.433.552.435.614.437.647.6Refinedet320 [36]火车35kVGG1638.729.449.231.310.032.044.4Refinedet320 [36]火车35kResNet101-32.051.434.210.534.750.4DAFS320（我们的）火车35kVGG1646.031.250.833.410.834.047.1DAFS320（我们的）火车35kResNet101-33.252.735.710.935.152.0SSD512 [24]火车35kVGG162228.848.530.310.931.843.5SSD513 [9]火车35kResNet101-31.250.433.310.234.549.8DSSD513 [9]火车35kResNet1015.533.253.335.213.035.451.1[21]第二十一话火车35kResNet10111.134.453.136.814.738.549.1DES512 [37]火车35kVGG16-32.853.234.613.936.047.6[17]第十七话火车35k沙漏-1044.440.556.543.119.442.753.9M2Det512 [38]火车35kVGG1618.037.656.640.518.443.451.2Refinedet512 [36]火车35kVGG1622.333.054.

下载后可阅读完整内容，剩余1页未读，立即下载