重新思考目标检测中全连接头和卷积头的分类和定位任务

50 浏览量更新于2023-10-23 收藏 13MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10241024101860重新思考目标检测的分类和定位0Yue Wu 1 , Yinpeng Chen 2 , Lu Yuan 2 , Zicheng Liu 2 , Lijuan Wang 2 , Hongzhi Li 2 and Yun Fu 101 东北大学，2 微软0{ yuewu,yunfu } @ece.neu.edu, { yiche,luyuan,zliu,lijuanw,hongzhi.li } @microsoft.com0摘要0基于R-CNN的目标检测器广泛使用两种头结构（即全连接头和卷积头）进行分类和定位任务。然而，对于这两种任务，人们对这两种头结构的工作原理缺乏理解。为了解决这个问题，我们进行了彻底的分析，并发现一个有趣的事实，即这两种头结构对这两个任务有相反的偏好。具体而言，全连接头（fc-head）更适合于分类任务，而卷积头（conv-head）更适合于定位任务。此外，我们检查了两个头的输出特征图，并发现fc-head比conv-head具有更多的空间敏感性。因此，fc-head更能够区分完整对象和部分对象，但对于整个对象的回归不够稳健。基于这些发现，我们提出了一种双头方法，其中一个全连接头用于分类，一个卷积头用于边界框回归。在没有花哨的技巧下，我们的方法在MSCOCO数据集上从特征金字塔网络（FPN）基线与ResNet-50和ResNet-101骨干网络上分别获得了+3.5和+2.8的AP增益。01. 引言0大多数两阶段目标检测器[10, 11, 35, 4,26]共享一个用于分类和边界框回归的头部。广泛使用两种不同的头结构。Faster R-CNN[35]在单级特征图(conv4)上使用卷积头(conv5)，而FPN[26]在多级特征图上使用全连接头(2-fc)。然而，对于这两种任务（目标分类和定位），人们对这两种头结构之间的理解还不够。在本文中，我们对全连接头(fc-head)和卷积头(conv-head)在目标分类和定位这两个检测任务上进行了彻底的比较。我们发现这两种不同的头结构是互补的。fc-head更0RoIAlign0FPN特征图0RoI0x102400240类别框0平均卷积卷积07x7x2560(b) 单个卷积头0(a) 单个全连接头0RoIAlign07x7 x2560类别框0RoI01024 fc fc0FPN特征图0RoIAlign0RoI01024 fc fc07x7x2560(c) 双头 (我们的方法)0x102400240平均卷积卷积0类别0框0FPN特征图0类别RoIAlign0RoI01024 fc fc07x7 x2500240平均卷积卷积0类别框0类别0框0FPN特征图0(d) 扩展的双头 (我们的方法)0图1. 单头和双头的比较，(a) 单个全连接头(2-fc)，(b)单个卷积头，(c)双头，将分类和定位分别在全连接头和卷积头上进行，以及(d)扩展的双头，在训练期间从非关注任务引入监督，并在推理期间结合两个头的分类得分。0适合分类任务，因为它的分类分数与提议和其对应的真实边界框之间的交并比（IoU）更相关。与此同时，conv-head提供了更准确的边界框回归。我们认为这是因为fc-head对空间更敏感，对提议的不同部分具有不同的参数，而conv-head对所有部分共享卷积核。为了验证这一点，我们检查了两个头的输出特征图。101870并确认fc-head对空间更敏感。因此，fc-head更适合区分完整物体和物体的一部分（分类），而conv-head更适合回归整个物体（边界框回归）。基于以上发现，我们提出了一种双头方法，其中包括一个全连接头（fc-head）用于分类和一个卷积头（conv-head）用于边界框回归（见图1-(c))，以发挥两个头的优势。这种设计的性能优于单个fc-head和单个conv-head（见图1-(a),(b)），差距明显。此外，我们扩展了双头方法（图1-(d)），通过利用非关注任务（即conv-head中的分类和fc-head中的边界框回归）进一步提高准确性。我们的方法在MSCOCO2017数据集[28]上相对于FPN基线有明显的提升，使用ResNet-50和ResNet-101骨干网络分别获得了3.5和2.8的AP。02. 相关工作0一阶段目标检测器：OverFeat[37]通过在特征图上滑动窗口来检测物体。SSD [29,9]和YOLO [32, 33,34]通过直接预测物体类别和位置来提高速度。RetinaNet[27]通过引入焦点损失来解决极端的前景-背景类别不平衡问题。基于点的方法[21, 22, 47, 7,48]将物体建模为关键点（角点、中心点等），并建立在关键点估计网络上。二阶段目标检测器：RCNN[12]应用深度神经网络从选择性搜索[42]生成的提议中提取特征。SPPNet[14]通过空间金字塔池化显著加速了RCNN。Fast RCNN[10]通过可微的RoI池化改进了速度和性能。Faster RCNN[35]引入了区域建议网络（RPN）来生成提议。R-FCN[4]采用位置敏感的RoI池化来解决平移不变性问题。FPN[26]构建了一个自顶向下的架构，通过横向连接提取多层的特征。骨干网络：Fast RCNN [10]和Faster RCNN[35]从VGG-16 [38]的conv4中提取特征，而FPN[26]利用ResNet[15]的多层特征（conv2到conv5）。可变形卷积网络[5,49]提出了可变形卷积和可变形感兴趣区域（RoI）池化来增强空间采样位置。Trident Network[24]通过多分支架构生成具有尺度感知性的特征图。MobileNet [17, 36]和ShuffleNet [46,30]引入了高效的运算符（如深度卷积、分组卷积、通道洗牌等）以加速移动设备上的运算。检测头：Light-HeadRCNN[25]引入了一个具有细特征图的高效头网络。级联RCNN[3]构建了一系列检测头进行训练0随着IoU阈值的增加，检测结果得到了改善。FeatureSharing Cascade RCNN[23]利用特征共享来集成级联RCNN[3]的多阶段输出以提高结果。Mask RCNN[13]引入了一个额外的头部用于实例分割。COCODetection 18Challenge的获胜者（Megvii）[1]在卷积头中结合了边界框回归和实例分割。IoU-Net[20]引入了一个分支来预测检测到的边界框与其对应的真实边界框之间的IoU。与IoU-Net类似，Mask Scoring RCNN[18]提供了一个额外的头部来预测每个分割掩码的掩码IoU得分。He等人[16]通过额外的任务学习边界框预测的不确定性，以改善定位结果。Learning-to-Rank[39]利用额外的头部为非最大抑制（NMS）生成提议的排名值。Zhang和Wang[45]指出分类和定位任务之间存在不匹配。与现有方法不同，我们将提取区域兴趣（RoI）特征的单个头部应用于分类和边界框回归任务，我们提出将这两个任务分成不同的头部，基于我们的深入分析。03. 分析：fc-head和conv-head的比较0在本节中，我们比较了fc-head和conv-head在分类和边界框回归方面的性能。对于每个头部，我们使用FPN骨干网络[26]和ResNet-50[15]在MS COCO2017数据集[28]上训练了一个模型。fc-head包括两个全连接层。conv-head具有五个残差块。评估和分析是在包含5000张图像的MS COCO2017验证集上进行的。fc-head和conv-head的AP分别为36.8％和35.9％。03.1. 数据处理与分析0为了进行公平比较，我们对两个头部的分析都是基于预定义的提议，而不是由RPN[35]生成的提议，因为这两个检测器具有不同的提议。预定义的提议包括围绕真实框的不同大小的滑动窗口。对于每个真实目标，我们生成约14,000个提议。这些提议与真实框之间的IoU（表示为提议IoU）从零（背景）逐渐变为一（真实框）。对于每个提议，fc-head和conv-head都生成分类得分和回归边界框。这个过程适用于验证集中的所有目标。我们将预定义提议与其对应的真实框之间的IoU均匀地分成20个区间，并相应地分组这些提议。对于每个组，我们计算分类得分的均值和标准差。00.20.40.60.81Proposal IoU-0.200.20.40.60.811.2Classification Score conv-head small objects fc-head small objects00.20.40.60.81Proposal IoU00.20.40.60.811.2Regressed Box IoU conv-head small objects fc-head small objects00.20.40.60.81Proposal IoU-0.200.20.40.60.811.2Classification Score conv-head medium objects fc-head medium objects00.20.40.60.81Proposal IoU00.20.40.60.811.2Regressed Box IoU conv-head medium objects fc-head medium objects00.20.40.60.81Proposal IoU-0.200.20.40.60.811.2Classification Score conv-head large objects fc-head large objects00.20.40.60.81Proposal IoU00.20.40.60.811.2Regressed Box IoU conv-head large objects fc-head large objects00.20.40.60.81 conv-head fc-head 00.20.40.60.81 conv-head fc-head 00.10.20.30.40.50.60.70.80.91101880大目标中目标小目标0图2.fc-head和conv-head的比较。上排：分类得分的均值和标准差。下排：回归框与其对应的真实框之间的IoU的均值和标准差。fc-head中的分类得分与提议的IoU更相关，而conv-head具有更好的回归结果。0回归框的IoU。图2显示了小、中、大目标的结果。03.2. 分类任务的比较0图2的第一行显示了fc-head和conv-head的分类得分。与conv-head相比，fc-head对具有更高IoU的提议提供更高的得分。这表明fc-head的分类得分与提议和对应的真实框之间的IoU更相关，特别是对于小目标。为了验证这一点，我们计算了提议的IoU和分类得分之间的皮尔逊相关系数（PCC）。结果（如图3（左）所示）表明，fc-head的分类得分与提议的IoU更相关。我们还计算了由RPN[35]生成的提议和NMS后的最终检测框的皮尔逊相关系数。结果如图3（右）所示。与预定义的提议类似，fc-head的PCC高于conv-head。因此，由于其更高的分类得分，具有更高IoU的检测框在计算AP时排名更高。03.3. 定位任务的比较0图2的第二行显示了fc-head和conv-head的回归框与其对应的真实框之间的IoU。当提议的IoU大于0.4时，与fc-head相比，conv-head的回归框更准确。这表明conv-head比fc-head具有更好的回归能力。0提议检测框0皮尔逊相关系数0大中小0皮尔逊相关系数0预定义的提议 RPN生成的提议0图3.预测得分与IoU之间的皮尔逊相关系数（PCC）。左图：大、中、小目标的预定义提议的PCC。右图：RPN生成的提议和NMS后的检测框的PCC。0conv-head0输出特征图的空间相关性0fc-head0输出特征图的空间相关性权重参数的空间相关性0图4.左：conv-head的输出特征图的空间相关性。中间：fc-head的输出特征图的空间相关性。右：fc-head的权重参数的空间相关性。conv-head的输出特征图比fc-head具有更多的空间相关性。fc-head的输出特征图和权重参数具有类似的空间相关性模式。03.4. 讨论0为什么fc-head在分类分数和提议IoU之间显示出更多的相关性，但在定位方面表现较差？我们认为这是因为fc-head比conv-head更具空间敏感性。直观上，fc-head在输入特征图的不同位置上应用不共享的变换（全连接层）。因此，空间信息被隐式嵌入。fc-head的空间敏感性有助于区分完整对象和部分对象，但不适用于确定整个对象的偏移量。相反，conv-head在输入特征图的所有位置上使用共享的变换（卷积核），并使用平均池化进行聚合。接下来，我们检查conv-head和fc-head的空间敏感性。对于输出特征图为7×7网格的conv-head，我们使用对应的两个特征向量之间的余弦距离计算任意位置对之间的空间相关性。这导致每个单元格的7×7相关性矩阵，表示当前单元格与其他单元格之间的相关性。因此，可以通过将所有单元格的相关性矩阵平铺在7×7网格中来可视化输出特征图的空间相关性。图4（左）3×31×1256×𝐻×W256×𝐻×𝑊1024×𝐻×𝑊⊕𝑍X1×11024×𝐻×𝑊ReLU𝜃: 1×1X𝜙: 1×1𝑔: 1×1⊗⊗⊕1024×𝐻×𝑊512×𝐻×𝑊512×𝐻×𝑊𝐻𝑊×512512×𝐻𝑊𝐻𝑊×𝐻𝑊512×𝐻×𝑊𝐻𝑊×5121×1512×𝐻×𝑊1024×𝐻×𝑊ReLU𝑍X 1024×𝐻×𝑊1×13×31×1256×𝐻×𝑊256×𝐻×𝑊1024×𝐻×𝑊⊕𝑍ReLU(a)(b)(c)𝐻𝑊×512L = ωfcLfc + ωconvLconv + Lrpn,(1)Lfc = λfcLfccls + (1 − λfc)Lfcreg,(2)101890显示了conv-head在多个对象上的平均空间相关性。对于输出不是特征图而是具有1024维度的特征向量的fc-head，我们重构其输出特征图。这可以通过将全连接层的权重矩阵（256∙7∙7×1024）按空间位置进行分割来完成。7×7网格中的每个单元格都有一个256×1024的变换矩阵，用于为该单元格生成输出特征。因此，fc-head的输出特征图为7×7×1024进行重构。然后，我们可以以类似的方式计算其空间相关性，就像conv-head一样。图4（中间）显示了fc-head输出特征图上的平均空间相关性。fc-head的空间相关性明显比conv-head小。这支持我们的猜想，即fc-head比conv-head更具空间敏感性，更容易区分一个提议是否覆盖一个完整或部分的对象。另一方面，它对于回归边界框不像conv-head那样稳健。我们进一步检查fc-head中权重参数（256∙7∙7×1024）的空间相关性，通过沿空间位置进行分割。结果，7×7网格的每个单元格都有一个256×1024的矩阵，用于与其他单元格计算相关性。与输出特征图的相关性分析类似，我们计算所有单元格的相关性矩阵。图4（右）显示了fc-head的权重参数的空间相关性。它与fc-head的输出特征图的空间相关性（图4（中间）中显示）具有相似的模式。04. 我们的方法：Double-Head0基于上述分析，我们提出了一种双头方法来利用两种头结构的优势。在本节中，我们首先介绍了Double-Head的网络结构，它具有用于分类的全连接头（fc-head）和用于边界框回归的卷积头（conv-head）。然后，我们通过利用非关注任务（即fc-head中的边界框回归和conv-head中的分类）将Double-Head扩展为Double-Head-Ext。04.1. 网络结构0我们的双头方法（见图1-(c)）将分类和定位分别放在fc-head 和 conv-head中。骨干网络和头网络的详细信息如下所述：骨干网络：我们使用FPN [26]骨干网络生成区域建议并使用RoIAlign[13]从多个级别提取对象特征。每个建议都有一个大小为256×7×7的特征图，通过 fc-head 和 conv-head转换为两个特征向量（每个维度为1024），用于分类和边界框回归。全连接头（fc-head）有两个全连接层（见图1-(c)），遵循FPN [26]中的设计0图5. 三个组件的网络架构：(a)增加通道数的残差块（从256增加到1024），(b) 残差瓶颈块，(c)非局部块。0（图1-(a)）。输出维度为1024。参数大小为13.25M。卷积头（conv-head）堆叠了K个残差块[15]。第一个块将通道数从256增加到1024（如图5-(a)所示），其他块是瓶颈块[15]（如图5-(b)所示）。最后，使用平均池化生成维度为1024的特征向量。每个残差块有1.06M个参数。我们还通过在每个瓶颈块之前插入一个非局部块[43]（见图5-(c)）来增强前景对象，从而引入了卷积头的变体。每个非局部块有2M个参数。损失函数：fc-head 和 conv-head与区域建议网络（RPN）一起进行端到端的联合训练。整体损失计算如下：0其中 ω fc 和 ω conv 是 fc-head 和 conv-head 的权重。Lfc、L conv 和 L rpn 分别是 fc-head、conv-head 和 RPN的损失。04.2. 扩展：利用未专注任务0在传统的双头网络中，每个头都专注于其分配的任务（即fc-head 中的分类和 conv-head中的边界框回归）。此外，我们发现未专注的任务（即fc-head 中的边界框回归和 conv-head中的分类）在两个方面都有帮助：（a）边界框回归为fc-head提供辅助监督，（b）来自两个头的分类器是互补的。因此，我们在训练中引入了未专注任务的监督，并提出了一种互补融合方法，在推理过程中将来自两个头的分类分数进行融合（见图1-(d)）。这个扩展被称为Double-Head-Ext。未专注任务的监督：由于引入了未专注任务，fc-head的损失（Lfc）包括分类损失和边界框回归损失，如下所示：0其中 L fc cls 和 L fc reg 分别是 fc-head中的分类和边界框回归损失。λ fc 是权重Lconv = (1 − λconv)Lconvcls+ λconvLconvreg ,(3)̸̸101900其中 λ fc 控制 fc-head中两个损失之间的平衡。以类似的方式，我们定义卷积头（L conv）的损失如下：0其中 L conv cls 和 L conv reg 分别是 conv-head中的分类和边界框回归损失。与乘以分类损失 L fc cls 的 λfc 不同，平衡权重 λ conv 乘以回归损失 L convreg，因为边界框回归是 conv-head中的专注任务。请注意，当 λ fc = 1 且 λ conv = 1时，传统的双头网络是一种特殊情况。与FPN[26]类似，使用交叉熵损失进行分类，使用平滑L1损失进行边界框回归。分类器的互补融合：我们认为两个头（即fc-head 和conv-head）由于其不同的结构，捕捉到了对象分类的互补信息。因此，我们提出以下融合两个分类器的方法：0s = sfc + sconv (1 - sfc) = sconv + sfc (1 - sconv), (4)0其中sfc和sconv分别是来自fc-head和conv-head的分类分数。第一个分数（例如sfc）的增量是第二个分数和第一个分数的反向的乘积（例如sconv(1 -sfc)）。这与[3]中的平均组合所有分类器不同。请注意，此融合仅适用于λfc ≠ 0且λconv ≠ 1。05. 实验结果0我们在MS COCO 2017数据集[28]和PascalVOC07数据集[8]上评估我们的方法。MS COCO2017数据集有80个物体类别。我们在train2017（118K张图像）上进行训练，并在val2017（5K张图像）和test-dev（41K张图像）上报告结果。使用从0.5到0.95的不同IoU阈值的标准COCO式平均精度（AP）作为评估指标。PascalVOC07数据集有20个物体类别。我们在trainval上使用5K张图像进行训练，并在test上使用5K张图像进行结果报告。我们进行消融研究以分析我们方法的不同组成部分，并将我们的方法与基线和最先进方法进行比较。05.1. 实现细节0我们的实现基于Pytorch 1.0中的MaskR-CNN基准测试[31]。图像被调整大小，使得最短边为800像素。我们在测试时不使用数据增强，只在训练时使用水平翻转增强。实现细节如下：架构：我们的方法在两个FPN[26]骨干网（ResNet-50和ResNet-101[15]）上进行评估，它们在ImageNet[6]上进行了预训练。标准的RoI池化是0用RoIAlign[13]替换。两个头和RPN一起进行端到端的训练。骨干网中的所有批归一化（BN）[19]层都被冻结。conv-head中的每个卷积层后面都跟着一个BN层。边界框回归是类别特定的。超参数：所有模型都使用4个NVIDIA P100GPU进行训练，每个GPU上的小批量大小为2张图像。权重衰减为1e-4，动量为0.9。学习率调度：所有模型都进行了180k次微调迭代。学习率初始化为0.01，分别在120K和160K次迭代后降低10倍。05.2. 消融研究0我们进行了一系列消融实验，以分析在COCOval2017上使用ResNet-50骨干网的双头模型。双头变体：比较了四种双头的变体：0• 双全连接将分类和边界框回归分为两个完全连接的头部，具有相同的结构。0• 双卷积将分类和边界框回归分为两个具有相同结构的卷积头。0• 双头包括一个用于分类的全连接头（fc-head）和一个用于边界框回归的卷积头（conv-head）。0• 双头反转在两个头之间切换任务（即用于边界框回归的fc-head和用于分类的conv-head），与双头相比。0检测性能如表1所示。顶部组显示了单头检测器的性能。中间组显示了具有双头的检测器的性能。每个损失（分类和边界框回归）的权重都设置为1.0。与中间组相比，底部组使用不同的损失权重（ωfc = 2.0和ωconv =2.5），这些权重是经验设置的。双头模型的性能优于单头检测器（提高了2.0+AP）。它还至少比双全连接和双卷积提高了1.4AP。双头反转的性能最差（与双头相比下降了6.2+AP）。这验证了我们的发现，即fc-head更适合于分类，而conv-head更适合于定位。单卷积的性能优于双卷积。我们认为当共享一个卷积头时，回归任务有助于分类任务。这得到了滑动窗口分析的支持（详见第3.1节）。Single-FC1.01.0--36.8Single-Conv--1.01.035.9Double-FC1.01.0--37.3Double-Conv--1.01.033.8Double-Head-Reverse-1.01.0-32.6Double-Head1.0--1.038.8Double-FC2.02.0--38.1Double-Conv--2.52.534.3Double-Head-Reverse-2.02.5-32.0Double-Head2.0--2.539.5-0.200.20.40.60.81Single-ConvDouble-Conv00.20.40.60.81Single-ConvDouble-Conv-0.200.20.40.60.81Single-FCDouble-FC0.0.60.700.20.40.60.81Single-FCDouble-FC0.0.80.9(a)(b)(c)(d)and their corresponding ground truth than Single-FC.Depth of conv-head: We study the number of blocks forthe convolution head. The evaluations are shown in Table2. The ﬁrst group has K residual blocks (Figure 5-(a-b)),while the second group has alternating (K + 1)/2 resid-ual blocks and (K − 1)/2 non-local blocks (Figure 5-(c)).When using a single block in conv-head, the performanceis slightly behind FPN baseline (drops 0.1 AP) as it is tooshallow. However, adding another convolution block booststhe performance substantially (gains 1.9 AP from FPN base-line). As the number of blocks increases, the performanceimproves gradually with decreasing growth rate. Consid-ering the trade-off between accuracy and complexity, wechoose conv-head with 3 residual blocks and 2 non-localblocks (K = 5 in the second group) for the rest of the pa-per, which gains 3.0 AP from baseline.More training iterations: When increasing training it-erations from 180k (1× training) to 360k (2× training),Double-Head gains 0.6 AP (from 39.8 to 40.4).Balance Weights λfc and λconv: Figure 8 shows APsfor different choices of λfc and λconv.For each (λfc,λconv) pair, we train a Double-Head-Ext model. The vanillaDouble-Head model is corresponding to λfc = 1 andλconv = 1, while other models involve supervision from101910全连接头卷积头0分类回归分类回归 AP0表1. 在COCOval2017上使用不同头结构的检测器的评估结果。骨干网络为带有ResNet-50的FPN。顶部组显示了单头检测器的性能。中间组显示了双头检测器的性能。每个损失（分类和边界框回归）的权重都设置为1.0。与中间组相比，底部组在fc-head和conv-head上使用了不同的损失权重（ω fc = 2.0，ω conv =2.5）。显然，Double-Head的性能最好，明显优于其他方法。Double-Head-Reverse的性能最差。00 0.2 0.4 0.6 0.8 1 候选框IoU0分类得分00 0.2 0.4 0.6 0.8 1 候选框IoU0回归框IoU0图6.Single-Conv和Double-Conv之间的比较。左图：分类得分的均值和标准差。右图：回归框与其对应的真实框之间的IoU的均值和标准差。Single-Conv的分类得分高于Double-Conv，而回归结果可比较。0图6显示了Single-Conv和Double-Conv之间的比较。它们的回归结果可比较。但是，在与真实框具有更高IoU的候选框上，Single-Conv的分类得分高于Double-Conv。因此，在单个卷积头上共享回归和分类鼓励分类得分与候选框IoU之间的相关性。这使得Single-Conv能够更好地确定是否覆盖了完整的物体。相反，在两个全连接头（Single-FC）中共享两个任务不如将它们分开（Double-FC）好。我们认为在相同的头中添加具有相等权重的回归任务引入了冲突。滑动窗口分析支持了这一观点。图7显示Double-FC的分类得分稍高，回归框与其对应的真实框之间的IoU也更高。00 0.2 0.4 0.6 0.8 1 候选框IoU0分类得分00.6 0.7 0.8 0.9 1 候选框IoU0分类得分00 0.2 0.4 0.6 0.8 1 候选框IoU0回归框IoU00.4 0.6 0.8 1 候选框IoU0回归框IoU0图7. Single-FC和Double-FC之间的比较。 (a):分类得分的均值和标准差。 (b): 在图(a)中放大的框。 (c):回归框与其对应的真实框之间的IoU的均值和标准差。 (d):在图(c)中放大的框。Double-FC的分类得分稍高，回归结果比Single-FC更好。0.038.038.437.436.435.60.038.638.438.136.236.2038.338.738.236.736.1038.038.637.736.335.50.038.438.136.935.634.90.038.137.837.535.935.71.00.90.80.70.60.536.737.037.437.236.936.937.137.137.037.136.736.836.936.937.036.836.636.536.736.636.436.235.935.935.435.334.934.934.834.50.00.00.00.01.00.90.80.70.60.6638.739.039.539.038.438.639.639.539.339.138.838.539.539.539.739.238.938.640.039.739.739.138.838.539.839.639.339.038.738.239.839.639.539.138.838.41.00.9870.60.50.039.540.139.639.239.20.040.139.839.839.239.1040.040.339.839.539.1040.140.239.739.439.10.040.140.039.639.238.60.040.140.039.839.339.01.00.90.80.70.60.560.039.540.139.639.239.20.561.00.90.80.70.60.5666666666660-36.858.740.41019200.5 0.6 0.7 0.8 0.9 1.0 6 fc06conv00.5 0.6 0.7 0.8 0.9 1.0 6 fc00.5 0.6 0.7 0.8 0.9 1.0 6 fc00.5 0.6 0.7 0.8 0.9 1.0 6 fc0不适用0不适用0不适用0(a) cls: conv-head reg: conv-head (b) cls: fc-head reg: fc-head (c) cls: fc-head reg: conv-head (d) cls: fc-head+conv-headreg: conv-head0图8. 在平衡权重λfc和λconv上的AP。对于每个（λfc，λconv）对，我们训练了一个Double-Head-Ext模型。请注意，普通的Double-Head是λfc =1，λconv =1的特殊情况。对于每个模型，我们以四种方式评估AP：（a）仅使用conv-head，（b）仅使用fc-head，（c）使用fc-head的分类和conv-head的边界框，以及（d）使用两个头的分类融合和conv-head的边界框。请注意，当λconv =1时，在（a）和（d）中的第一行不可用，因为conv-head中的分类不可用。当λfc =1时，在（b）中的最后一列不可用，因为fc-head中的边界框回归不可用。0NL K 参数 AP AP 0.5 AP 0.7501 1.06M 36.7 (-0.1) 59.3 39.6 2 2.13M 38.7(+1.9) 59.2 41.9 3 3.19M 39.2 (+2.4) 59.4 42.54 4.25M 39.3 (+2.5) 59.2 42.9 5 5.31M 39.5(+2.7) 59.6 43.2 6 6.38M 39.5 (+2.7) 59.4 43.37 7.44M 39.7 (+2.9) 59.8 43.20� 3 4.13M 38.8 (+2.0) 59.2 42.4 � 5 7.19M 39.8 (+3.0)59.6 43.6 � 7 10.25M 40.0 (+3.2) 59.9 43.70表2. 卷积头中的块数（图5）。基准（K =0）等同于原始的FPN[26]，仅使用fc-head。第一组仅堆叠残差块，而第二组交替使用（K + 1）/ 2个残差块和（K - 1）/2个非局部块。0融合方法 AP AP 0.5 AP 0.750无融合 39.7 59.5 43.4 最大值 39.9 59.7 43.7平均值 40.1 59.8 44.1 互补融合 40.3 60.344.20表3.来自两个头的分类器融合。互补融合（公式4）优于其他方法。该模型使用权重λfc = 0.7，λconv = 0.8进行训练。0非聚焦任务。对于每个模型，我们评估仅使用conv-head（图8-(a)），仅使用fc-head（图8-(b)），使用fc-head的分类和conv-head的边界框（图8-(c)），以及使用两个头的分类融合和conv-head的边界框（图8-(d)）的AP。在所有实验中，ωfc和ωconv均设置为2.0和2.5。0方法 AP AP 0.5 AP 0.750FPN基准[26] 47.4 75.7 41.9Double-Head-Ext（我们的方法） 49.2 76.7 45.60表4.在VOC07数据集上使用ResNet-50骨干网络与FPN基准[26]进行比较。我们的Double-Head-Ext优于FPN基准。0分别进行实验。0我们总结如下的关键观察结果。首先，使用两个头（图8-(c)）相对于使用单个头（图8-(a)，(b)）在所有（λfc，λconv）对中至少提高了0.9个AP。其次，对于所有（λfc，λconv）对，分类器的融合至少提高了0.4个AP（比较图8-(c)和(d)）。最后，非聚焦任务是有帮助的，因为最佳的Double-Head-Ext模型（40.3 AP）对应于λfc = 0.7，λconv =0.8（图8-(d)中的蓝色框）。它比不使用非聚焦任务的Double-Head模型（39.8AP，图8-(c)中的绿色框）提高了0.5个AP。在本文的其余部分，我们使用λfc = 0.7和λconv =0.8来训练Double-Head-Ext模型。0分类器融合：我们研究了三种不同的方法来融合全连接头（sfc）和卷积头（sconv）的分类得分：（a）平均值，（b）最大值，以及使用公式（4）进行互补融合。评估结果如表3所示。所提出的互补融合方法优于其他融合方法（最大值和平均值），相对于仅使用fc-head的得分提高了0.6个AP。101930方法骨干网络 AP AP 0.5 AP 0.75 AP s AP m AP l0Faster R-CNN [35] ResNet-50-C4 34.8 55.8 37.0 19.

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

重新思考目标检测中全连接头和卷积头的分类和定位任务

基于卷积神经网络的目标检测算法综述.pdf

卷积神经网络与目标检测算法之间的关系

卷积神经网络目标检测

卷积神经网络与目标检测

yolov5-segment分割检测头和目标检测的检测头如何结合的

目标检测卷积神经网络

目标检测的检测头有哪些

基于卷积神经网络的遥感影像目标检测方法研究

卷积神经网络目标检测python

基于卷积神经网络的目标检测方法

基于卷积神经网络的视频目标检测 csdn

卷积神经网络的目标检测算法

卷积神经网络目标检测技术

卷积神经网络和目标检测算法的关系？

卷积神经网络在自动目标检测中干了什么

基于卷积神经网络的目标检测算法概述

目标检测和目标识别的区别

卷积神经网络在目标检测的地位

基于卷积神经网络的目标检测

最新资源