物体探测器中的任务感知空间错位算子(TSD)对分类和回归进行解纠缠的实例研究

174 浏览量更新于2023-10-20 收藏 1.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11563物体探测器宋光禄1刘宇2王晓刚21SenseTime X-Lab2香港中文大学，香港1songguanglu@sensetime.com，2{yuliu，xgwang} @ ee.cuhk.edu.hk摘要The “shared head for classification and localization”(sibling head), firstly denominated in Fast RCNN [本文观察到兄弟头中两个目标函数之间的空间错位会严重损害训练过程，但这种错位可以通过一个非常简单的称为任务感知空间错位（TSD）的算子来解决。考虑到分类和回归，TSD从空间维度上对它们进行分类，为它们生成两个解纠缠的建议，这些建议由共享建议估计。这是受到自然洞察的启发，对于一个实例，一些显著区域中的特征可能具有丰富的分类信息，而边界周围的特征可能擅长边界框回归。令人惊讶的是，这种简单的设计可以提升MS COCO和Google上的所有骨干和模型OpenImage始终保持1.3% mAP。此外，我们提出了一个渐进的约束，以扩大性能指标，在解开的和共享的提议之间，并获得101%以上的mAP。我们表明，TSD突破了当今单模型检测器的上限（ResNet-101的mAP 49.4，SENet 154的51.2），并且是我们在第一位解决方案中的核心模型。Google OpenImage Challenge 2019.1. 介绍由于开创性的R-CNN家族[10，9，30]和强大的FPN[21]实现了对象检测性能的突破，因此该任务的后续性能增强似乎受到一些隐藏瓶颈的阻碍。即使AutoML[8，38]支持的高级算法已经被研究，性能增益仍然局限于一个容易获得的改进范围。最明显的区别是*通讯作者图1.任务空间未对齐的图示。第一列是用于分类的敏感位置，第二列是用于定位的敏感位置第三列是灵敏度分布的3D可视化。通用目标分类任务，用于分类和定位的专用兄弟头成为焦点，并广泛用于大多数高级检测器，包括单级系列[25，33，12]，两级系列[ 25，33，12 ]，[5][18][19][20][21][22][23][24][25][26]考虑到这两种不同的任务具有几乎相同的参数，一些作品意识到兄弟脑中两种客体功能之间的冲突，并试图找到一种折衷的方法。IoU-Net [15]是第一个揭示这个问题的。他们发现生成良好分类得分的特征总是预测粗略的边界框。为了处理这个问题，他们首先引入一个额外的头部来预测IoU作为本地化置信度，然后将本地化置信度和分类置信度聚合在一起作为最终的分类得分。这种方法确实减少了未对准问题，但以折衷的方式-其背后的基本理念是相对提高紧密边界框的置信度得分并降低坏边界框的得分。未对准仍然存在于每个空间点中。沿着这个方向，提出了双头R-CNN[35]来将兄弟头分解为分类定位11564两个专门的分支，用于分类和定位，重新分类。尽管对每个分支进行了精心的设计，但可以认为通过添加新的分支来解开信息，实质上减少了两个任务的共享参数虽然通过这种检测头解纠缠可以获得令人满意的性能，但是由于馈送到两个分支中的特征是通过ROI池化从相同的提议产生的，因此两个任务之间的冲突仍然存在。在本文中，我们仔细地回顾了兄弟头在基于锚的对象检测器，寻求任务错位的本质。我们探索的空间敏感性的分类和本地化的输出特征图中的每一层的特征金字塔的FPN。基于常用的兄弟头（完全连接的头2-fc），我们在图中说明了空间敏感热图。1.一、第一列是用于分类的空间敏感热图，第二列是用于定位。颜色越暖越好。我们还在第三列中展示了它们的3D可视化。很这种基本任务在空间维度上的不对准极大地限制了性能增益，无论是改进主干还是增强检测头。换句话说，如果检测器尝试从相同的空间点/锚推断分类得分和回归结果，则它将总是得到不完美的权衡结果。这个重要的观察结果促使我们重新思考兄弟脑的结构。错位问题的最佳解决方案，应探索的空间解纠缠。在此基础上，我们提出了一种新的操作称为任务感知的空间解纠缠（TSD），以重新总结起来，本文的贡献如下：1) 我们深入研究了基于ROI的检测器中复杂任务背后的基本障碍，并揭示了限制检测性能上限的瓶颈。2) 我们提出了一个简单的操作称为任务感知空间解纠缠（TSD）来处理纠缠任务冲突。通过任务感知的建议估计和检测头，生成特定于任务的特征表示，消除分类和定位之间的折衷。3) 我们进一步提出了一个渐进的约束（PC），以扩大TSD和经典的兄弟头之间的性能裕度4) 我们验证了我们的方法在标准COCO基准和大规模OpenImage数据集上的有效性，并进行了彻底的消融研究。与现有的方法相比，我们提出的方法实现了使用具有ResNet-101主干的单个模型的mAP为49.4，使用重型SENet 154的mAP为51.22. 方法在本节中，我们首先描述了我们提出的任务感知空间解纠缠（TSD）的总体框架，然后详细介绍了第二节中的子模块。2.2和2.3。最后，深入探讨了兄弟头中存在的问题，并论证了TSD的优势.2.1. TSD如图所示2（a），将矩形边界框提议表示为P，将地面实况边界框表示为B，类别为y，经典的FasterRCNN [30]旨在基于共享的P最小化分类损失和定位损失：解决这个障碍。TSD的目标是在空间上分解分类和定位的梯度流。L=Lcls（H1（F1，P），y）+Lloc（H2（F1，P），B）（1）为了实现这一目标，TSD提出了两个相互分离的建议对于这两个任务，在原有经典兄弟头的基础上提出它允许两个任务自适应地寻找空间中的最佳位置，而不会相互妥协通过简单的设计，MS COCO和GoogleOpenImage上的所有骨干和模型mAP 提高了0.3%此外，我们提出了一个渐进约束（PC），以扩大性能裕度和传统的兄弟姐妹头之间的区别它引入了超参数边界，提倡更自信的分类和精确的回归。在TSD的基础上，mAP增加了1%。无论是对于不同的骨干还是不同的检测框架，集成算法都可以稳定地提高性能0.4%，甚至更高。对于轻量级MobileNetV2，为6%。在那后面-性能的提高，只有一个轻微增加的参数，需要，这对于一些重骨架是可以忽略的。其中H1（·）={f（·），C（·）}和H2（·）={f（·），R（·）}。f（·）是特征提取器，C（·）和R（·）是将特征转换为预测特定类别的函数并定位对象。 Seminal工作[35]认为用于分类和定位的共享f不是最优的，并且他们将其分别分解为用于分类和回归的fc和fr虽然适当的头部解耦带来了合理的改善，但空间维度上纠结的任务所带来的内在冲突仍然潜伏着。对于这个潜在的问题，我们的目标是通过将任务从空间维度中分离出来来缓解兄弟脑中的固有冲突。我们提出了一种新的TSD头为这一目标，如图2所示。在TSD中，Eq.1可以写成：L=LD（HD（Fl，Pc），y）+LD（HD（Fl，Pr），B）（2）cls1loc211565(b)空间（a）TSD解缠Rc（D^cP^(C)PCC骨干P^RRR1个D^cD01个D^DR0不含TSDR（N）D^rRPN兄弟头输入图像P：建议r*：解开功能更机密更精确分类定位（DD：检测结果P^：不确定的建议R（N）*D^c ：TSD评分D^r ：TSD盒W TSD(d)测试结果Pf（fCR12fc（）fr（m）图2.所提出的TSD与Faster RCNN合作的图示[30]。输入图像首先被馈送到FPN主干，然后，区域建议P由RPN生成。TSD采用P的RoI特征作为输入，并估计以下项目的已确定建议P和P分类和定位。最后，两个并行分支分别用于预测特定类别和回归精确框其中，解纠缠方案Pc=τc（P，C）和Pr=τr（P，R）是从共享P估计的。PwC是P的逐点变形，而PwR是一个命题平移。在TSD中，HD（·）={fc（·），C（·）}且HD（·）={fr（·），R（·）}。其中，Fr∈R1×1×2，每层Fr的输出为{256，256，2}。γ是预定义的标量，用于调制ΔR的大小，并且（w，h）是P的宽度和高度。用于生成Pr的派生函数τr（·）为：特别地，TSD将P的RoI特征作为输入任务，然后分别生成分类和定位的解纠缠建议Pc和Pr不同的任务可以从空间维度中解脱出来。可以通过并行分支来生成分类特定特征图Fc和定位特定特征图Fr。在第一支路中，将F_c馈送到一个用于分类的三层全连接网络。在第二分支中，对应于所描述的建议P_r的RoI特征F_r将被执行并被馈送到类似的应用中。第一个分支执行本地化任务的架构。通过对分类和定位的共享建议进行分解，TSD可以自适应地学习任务感知的特征表示。TSD适用于大多数现有的基于ROI的检测器。由于训练过程采用端到端的方式，配合设计良好的渐进约束（PC），因此它对骨干和输入分布的变化（例如，使用不同的数据集进行训练）。2.2. 任务感知空间解纠缠学习灵感来自Figure。1、引入任务感知的空间解纠缠学习来缓解错位Pr=P+R（4）当量4指示提议式平移，其中P中的每个像素的坐标将被平移到新的坐标。与相同的codeR。所提出的建议仅适用于针对定位任务，在池化函数中，我们采用与[5]相同的双线性插值，可微的。对于分类，给定共享P，在规则网格k×k上生成逐点变形以估计具有不规则形状的指定建议P_P_c。F或（x，y）-th网格中的采样点进行平移P_0 C（x，y，n），得到P_0 C的n个采样点。这程序可以表述为：δC=γFc（F;θc）·（w，h）（5）其中，Rk×k×2。Fc是一个三层全连通网络，每层输出{256，256，k×k×2}，θc是学习参数。Fr和Fc中的第一层被共享以减小参数。对于由非正则P_（？）c生成特征图F_（？）c，我们采用与可变形RoI池化[5]：是由共享的空间线索引起的如图-（p）+C（x，y，1），p+C（x，y，2））当然。2（b），定义P的RoI特征为F，我们嵌入变形学习方式转化为TSD来实现这一目标。对于本地化，设计了一个三层全连接网络Fr，以在P上生成一个建议式翻译，Fc（x，y）=p∈G（x，y）B01|G（x，y）|（六）提出一个新的提案。本程序可公式为：δR=γFr（F;θr）·（w，h）（311566）其中G（x，y）是第（x，y）个网格，|G（x，y）|是其中的采样点的数量。（px，py）是网格G（x，y）中采样点的坐标，FB（·）是双线性插值[5]，它使矩阵C可微。11567122.3. 渐进约束在训练阶段，TSD和等式中定义的兄弟检测头。1可以由Lcls和Lloc联合优化。除此之外，我们进一步设计了渐进约束（PC），以提高TSD的性能，如图所示在图中。第2段（c）分段。对于分类分支，PC被公式化为：Mcls=| H1（y|Fl，P）−HD（y|Fl，τc（P，τC））+mc|+（7）其中H（y|·）指示第y个类别的置信度得分，并且mc是预定义的裕度。|+与ReLU 功能相同。|+is same asReLU function.同样，对于本地化，有：Mloc=|IoU（B，B）−IoU（BD，B）+mr|+（8）其中B是由兄弟头预测的盒，BD由 HD（Fl，τr（P，τR））回归。如果P是一个否定的提议，则忽略Mloc根据这些设计，整个损失具有更快RCNN的TSD的函数可以定义为：L = L rpn+ L cls+ L loc+ L D+ L D +Mcls+MlocT是判断P是否为阳性样本的阈值。在这两个任务中有完全不同的属性。这两个任务在F1和特征提取器中共享的空间线索将成为阻碍学习的障碍。不同于[35，15，5，43]，其中演化的骨干或特征提取器是TSD设计了一种从空间维度进行分类和回归的方法，通过分离P_（？）和f_（？）2.4.2与其他方法IoU-Net [15]首先说明了分类和回归之间的不一致为了缓解这一问题，它直接预测IoU，通过一个额外的分支不幸的是，这种方法并不能解决复杂任务之间的内在冲突。对于同一问题，双头R-CNN [35]探索了分类和定位的最佳架构，重新定位。为了学习更有效的特征表示，提出了具有可变形RoI池的DCN [5]，以从不规则区域提取语义信息。无论是进化主干还是调整检测联系我们经典损耗clslochTSD损失（九）头部，性能可以得到改善，但增加是有限的。我们直接将损失权重设置为1，而没有仔细调整它。在L的优化下，TSD可以自适应地学习特定于任务的特征表示，分别用于分类和定位。大量实验在Sec。3表明，将复杂的任务从空间维度可以显著地提高性能。2.4. 在相关工作在本节中，我们将深入研究复杂任务中的内在冲突我们的工作在不同的方面与以前的工作有关。我们详细讨论了它们之间的联系和区别。2.4.1兄弟姐妹头与复杂任务的冲突经典Faster RCNN中的两个核心设计是预测给定提案的类别和学习回归函数。由于优化的本质不同，分类任务要求具有翻译不可知属性，而本地化任务要求具有翻译感知属性。用于分类和定位的特定翻译敏感性属性可以公式化为：C（f（F1，P））= C（f（F1，P+ε）），（十）R（f（F，P））/=R（f（F，P+ε））在本文中，我们观察到的本质问题-背后的有限的性能是在分类和局部化之间的空间维度的错位的敏感性。无论是设计更好的特征提取方法还是寻找最佳的结构都不能解决这个问题。在这种困境中，TSD提出了解耦的分类和定位的空间维和特征提取器。TSD首先通过分离的建议和特征提取器进行分类和定位的空间通过进一步设计的PC，它可以学习最佳敏感位置，分别用于分类和定位此外，TSD仍然适用于DCN [5]，尽管DCN中的可变形RoI池化用于帮助估计Fc。通过任务回避空间分解器，简单TSD可以很容易地为不同的骨干网实现出色的性能。3. 实验我们在80类MS-COCO数据集[23]（对象检测和实例分割）和500类OpenImageV 5挑战数据集[16]上使用变体骨干进行了广泛的实验。对于COCO数据集，遵循标准协议[27]，在80k个训练图像和35k个valim子集的并集上执行训练。L l年龄和测试是在剩余的5k valim评估，其中ε，IoU（P+ε，B）≥T. C是预测类别概率，R是回归函数，其输出为（x，y，w，h）。f（·）是共享特征提取器年龄（迷你）。我们还报告了20k测试开发的结果。对于OpenImage数据集，遵循官方协议[16]，该模型在1，674，979张训练图像上进行训练并进行评估11568头分类S8头定位FPNFPN头分类的16头定位FPNFPN（a）第8条（b）第16(c) DS32(d) D头表1.不同解缠方法的详细性能和#参数。图3.不同解缠方案的消融研究（a）─(d)表示分别将检测器从步距8、步距16、步距32和同级头解缠。在34,917张val图像上。美联社。第五条公开发行的股票也被披露。3.1. 实现细节我们从Ima-geNet [31]上的预训练模型初始化权重，超参数的配置遵循现有的Faster RCNN [30]。调整图像的大小，使较短的边缘为800像素。锚定尺度和纵横比设置为8和{0.5，1，2}。我们在16个GPU上训练模型（有效的小批量大小为32）13个epoch，学习率预热策略[11]从0.00125到0.04在第一个时代。我们分别在第8个和第11个时期将学习率降低10。所有实验均采用RoIAlign [13]，两个实验的合并大小均为7H和H我们使用SGD来优化训练损失，主干中的语义信息应该由不同的任务共享。正如预期的那样，任务特定的头可以显着提高性能。与D头相比，TSD w/o PC可进一步提高AP，但参数略有增加，即使对于要求苛刻的AP也是如此。75.当面对较重的主干时，稍微增加参数是微不足道的，但仍然可以显著提高性能。这也证实了SEC中的讨论。2.4.1从空间维度上对任务进行分解，可以有效缓解兄弟探测头中的内在冲突。方法APAP. 5AP. 75TSD，不带PC38.260.541.1+ 与兄弟姐妹头H的39.761.742.8表2.与兄弟姐妹H的联合训练的结果。带有FPN的ResNet-50被用作基本探测器。与兄弟姐妹的头H的联合训练。在TSD，1 2共享提议P也可以用于执行分类0.9动量和0.0001重量衰减。暂无数据使用除了标准水平翻转之外的站。同步的BatchNorm机制[29，11]用于使多GPU训练更稳定。在推理阶段，使用具有0.5 IoU阈值的NMS来去除重复框。对于OpenImage数据集中的实验，使用类感知采样。3.2. 消融研究在本节中，我们对COCOminival进行了详细的消融研究，以评估每个模块的有效性，并说明所提出的TSD的先进性和推广性在这些实验中将MC和MR任务感知解纠缠。当谈到晒黑-gled任务在兄弟检测头中发生冲突考虑将不同的任务与主干或检测头分离。为了评估这些想法，我们进行了几个实验来说明它们之间的比较。如图所示。3、设计了不同的解缠方案，包括主干解缠和头解缠。详细性能见表。1.一、将分类和定位从主干中解耦在很大程度上降低了性能。它清楚地表明，并定位在一个额外的兄弟头部。我们经验性地观察到，兄弟头的训练是互补的对TSD的训练进行了评价，结果见表1。二、这指示所请求的提议P_c和P_r与原始提议P不冲突。在推断中-第二阶段，只保留TSD头。方法TSDPCAPAP. 5AP. 75MCLSMlocResNet-50C39.761.742.8ResNet-50CC40.161.743.2ResNet-50CC40.861.743.8ResNet-50CCC41.061.744.3表3. PC上的消融研究。所有的实验都是与同胞头H的联合训练。将MC和MR设置为0.2。PC的有效性。节中2.3，我们进一步建议PC，以提高TSD的性能表. 3报告了其上的详细消融。我们发现，PC显着改善AP。1.5和AP。5、几乎不受影响。这表明PC旨在倡导更机密的分类和精确的回归准确的盒子。即使在严格的测试标准AP（IoU从0.5：0.95），头分类的32头定位FPNFPN头分类头定位FPN退纠缠#paramAPAP.5AP.75ResNet-5041.8M36.158.038.8ResNet-50+Ds881.1M22.346.316.7ResNet-50+ Ds1674.0M22.046.216.3ResNet-50+ Ds3259M20.344.713.2ResNet-50+ D头55.7M37.359.440.2TSD，不带PC58.9M38.260.541.111569∗∗1.3还可以获得AP增益。方法PCPPrAPAP. 5AP。75TSD点w-38.060.340.89TSD点w点w38.560.741.7TSD点w提案w38.260.541.1TSDC提案w提案w39.860.142.9TSDC点w点w40.761.844.4TSDC点w提案w41.061.744.3表4.不同建议学习方式对高层次发展学生的影响。衍生提案学习方式。存在不同的可编程策略来生成所述经改进的建议 P_r 和 P_c ，包括建议式 trans-proposal。方程中的公式（Prop.w）4、逐点变形（Point.w），例如可变形的RoI池化[5]或它们的巧妙组合。为了探索这些学习方式的差异，我们使用 ResNet-50 对COCOminival进行了广泛的实验。表. 4展示了一致性结果。这些比较表明，Point.w有利于分类任务，与PC协同工作，Prop.w在定位方面稍有优势。为了生成导出的建议，分类需要没有规则形状限制的最佳局部特征，并且回归需要维护全局几何形状信息。图4. PC变异模型的TSD结果。这些实验是基于ResNet-50和FPN进行的。有效的PC。PC展示了它的超级...表5.具有变体骨架的TSD + PC的结果DCN表示可变形卷积。运行时包括网络转发和后处理（例如，NMS用于对象检测）。运行时间是单个Tesla V100 GPU和CPU E5- 2680 v4上的平均值。对变异骨架的适应。基于Faster R-CNN，我们直接使用不同的主干和Table进行了几次实验。5、详细说明：COCOminival咖啡厅。 TSD可以稳定地将性能提高3%~ 5%，但需要额外增加10%左右的时间成本。请注意，具有58.9M参数的ResNet-50+TSD甚至可以优于具有76.39M参数的ResNet-152。基于ResNet系列，TSD是比增加主干以提高性能。如果未指定，则所有后续TSD均表示TSD+PC。方法TSDAP. 5（Val）AP. 5（LB）ResNet-5064.6449.79ResNet-50C68.1852.55Cascade-DCN-SENet15469.2755.979Cascade-DCN-SENet154C71.1758.34DCN-ResNeXt 101系列68.7055.05DCN-ResNeXt 101系列C71.7158.59DCN-SENet 154芯片7057.771DCN-SENet 154芯片C72.1960.5表6. OpenImage数据集上的TSD结果。* 表示我们将锚点比例扩展到{8，11，14}，锚点长宽比扩展到{0.1，0.5，1，2，4，8}。此外，除了ResNet-50之外，公共排行榜（LB）使用多尺度测试。3.4.适用于Mask R CNN优先考虑回归更精确的边界框。的超参数mc和mr在TSD训练中起着重要的作用，为了更好地了解它们对性能的影响，我们对它们进行了详细的消融研究图. 4报告的结果，并指出，这两个M洛Mcls可以进一步提高性能。3.3.适用于变体骨架由于TSD和PC已经在带有FPN的ResNet-50上展示了它们的性能，我们进一步深入研究了所提出的算法在很大程度上超越了经典的更快的R-CNN的兄弟姐妹头。它的固有属性决定了它对其他R-CNN家族的适用性，例如Mask R-CNN，例如分割。为了验证这一点，我们使用Mask R-CNN进行实验[13]。性能见表。Mask R-CNN中的训练很明显，TSD仍然能够在Mask R-CNN中检测分支。实例分割掩码AP也可以获得提升。方法我们APAP. 5AP. 75运行时ResNet-5036.158.038.8159.4毫秒ResNet-50C41.061.744.3174.9毫秒ResNet-10138.660.641.8172.4msResNet-101C42.463.146.0189.0ms公司简介40.863.244.6179.3ms公司简介C43.564.447.0200.8msResNet-15240.762.644.6191.3msResNet-152C43.964.547.7213.2msResNeXt-101 [36]40.562.644.2187.5ms11570方法我们APbbAPbb. 5APbb. 75AP掩模AP掩模. 5AP掩模. 75ResNet-50 w. FPN37.258.840.233.655.335.4ResNet-50 w. FPNC41.562.144.835.858.337.7ResNet-101 w. FPN39.561.243.035.757.938.0ResNet-101 w. FPNC43.063.646.837.259.939.5表7.使用TSD的Mask R-CNN的结果所提出的方法仅适用于Mask R-CNN中的检测分支APbb表示检测性能，APmask表示分割性能。方法骨干BWAPAP. 5AP. 75APsAPmAPl[41]第四十一话ResNet-10136.457.539.516.639.951.4[22]第二十二话ResNet-10139.159.142.321.842.750.2CornerNet [17][28]第104话40.556.543.119.442.753.9[42]第四十二话[28]第104话40.155.343.220.343.253.1FCOS [34]RPDet [39]ResNet-101公司简介C41.546.560.767.445.050.924.430.344.849.751.657.1[6]第六话沙漏-104C47.064.550.728.949.958.9TridentNet [20]公司简介C48.469.753.531.851.360.3NAS-FPN [8]AmoebaNet（7@384）C48.3-----更快的R-CNN w FPNResNet-10136.259.139.018.239.048.2[38]第三十八话ResNet-10142.5-----Regionlets [37]ResNet-10139.359.8-21.743.750.9[27]第二十七话ResNet-10141.560.944.523.344.954.1Cascade R-CNN [2]ResNet-10142.862.146.323.745.555.2[4]ResNet-10140.764.444.624.343.751.9[15]第十五话ResNet-10140.659.0----[35]第三十五话SNIPER [32]ResNet-101公司简介C41.946.162.467.045.951.623.929.645.248.955.858.1DCNV2 [43]ResNet-101C46.067.950.827.849.159.5PANet [24]ResNet-101C47.467.251.830.151.760.0GCNet [3]公司简介C48.467.652.7---TSD†ResNet-10143.163.646.724.946.857.5TSD公司简介ResNet-101公司简介C43.249.464.069.646.954.424.032.746.352.555.861.0公司简介SENet154-DCNC51.271.956.033.854.864.2表8.在COCO测试开发集上评价的不同算法的单模型结果比较。b&w表示使用花里胡哨的训练，例如多尺度训练/测试，Cascade R-CNN或DropBlock [7]。†表示COCO minival set上的结果。3.5. 大规模OpenImage的泛化除了在COCO数据集上进行评估外，我们还在大规模Open Image数据集上进一步证实了所提出的方法。作为具有大规模盒子和层次性的公共数据集，它给检测算法的通用化带来了新的挑战为了充分研究所提出的算法的有效性，我们运行了一些消融来分析TSD。表. 6说明了比较，并注意到，即使对于重骨架，TSD仍然可以给出令人满意的改进。此外，TSD是CascadeR-CNN [2]的补充，将其嵌入到这个框架中也可以通过令人满意的幅度来提高性能。3.6. 与最先进技术的在本节中，我们在COCO测试开发集上评估了我们提出的方法，并将其与其他国家的方法进行了比较。艺术方法MC和MR分别被设置为0.5和0.2。为了进行公平的比较，我们在表中报告了不同设置下的方法结果。8.为了与Grid R-CNN [27]进行比较，我们扩展了ResNet-101的训练时期以与之保持一致为了与最好的单模型TridentNet神经网络进行比较，在TSD神经网络中，我们采用了与它相同的配置，包括多尺度训练，软NMS [1]，可变形卷积和3×train-在ResNet-101上运行。最好的单一模型ResNet-101-DCN给出了49.4的AP，已经超过了具有相同主干的所有其他方法。据我们所知，对于具有ResNet-101主干的单个模型，我们的结果是最先进的最佳入口。TSD在促进精确定位和机密分类方面表现出优势，特别是在较高的IoU阈值上（AP. 75）。此外，我们还研究了具有重骨架的TSD的上界. 令人惊讶的是，它可以11571RR图5. 学习的P_∞和P_∞的可视化COCOminival set的例子。第一行表示提案P（黄色方框）和指定的P（红框）和P（粉红点，每个网格的中心点第二行是最终检测到的盒子，白盒子是地面实况。TSD在前两列中处理假阳性，在其他列中，它回归更精确的框。706058.15040302010061.753.357.349.94530.836.88.115.2标准TSDAP. 5AP. 6AP. 7AP. 8AP. 9AP小 AP小C38.440.033.735.626.728.816.217.73.65.3AP培养基AP培养基C62.967.758.462.449.754.933.640.28.715.4AP大号AP大号C69.574.865.571.656.865.043.253.214.827.9表9.在0.5至0.9的量表标准范围内，mAP为0.1。0.5 0.6 0.7 0.8 0.9IoU标准图6.跨IoU标准的mAP从0.5到0.9，间隔为0.1在COCO测试开发集上使用单型号SENet 154- DCN实现了51.2的AP本评估中未使用Soft-NMS。3.7.分析与探讨在不同IoU标准中的表现。由于TSD在回归精确定位和预测机密类别方面表现出优越的能力，我们对COCOminival进行了几次更严格的IoU标准评估。当然。图6显示了基于TSD的Faster R-CNN和基线FasterR-CNN之间的比较，其中具有相同的ResNet- 50主干，IoU阈值从0.5到0.9。显然，随着IoU阈值的提高，TSD带来的改善也在增加。在不同尺度标准下的表现。我们分析了在不同的IoU标准下TSD的有效性。为了更好地探索具体的改进，我们进一步在不同尺度的对象下测试mAP表. 9报告了性能，TSD显示了在具有不同尺度的对象中的成功，特别是对于中型和大型对象。TSD 学到了什么？由于任务感知的空间解纠缠（TSD）和渐进约束（PC），无论是变异骨架还是变异数据集，都可以轻松实现稳定的改进。除了定量的提升，我们想知道TSD与Faster R-CNN中的兄弟头相比学到了什么更好的诠释这，我们展示了我们的TSD的插图与兄弟姐妹头相比，如图所示. 五、不出所料通过TSD，可以消除大量的误报，回归到更精确的盒边界。 F或P′r，它倾向于平移到不易回归的边界。F或P=C，它倾向于专注于局部外观和对象上下文信息，就像在具有可变形RoI池化的兄弟头中一样[5]。请注意，兄弟头中的纠结任务可以有效地从空间维度中分离出来。4. 结论本文提出了一个简单的算子TSD来消除兄弟头中的内在冲突，它通过学习任务感知的空间解纠缠来克服性能限制。特别地，TSD从共享的建议中导出两个分离的建议，并分别学习用于分类和局部化的特定特征表示。此外，我们提出了一个渐进的约束，以扩大性能之间的分离和共享的建议，这提供了额外的性能增益。没有花里胡哨的东西，这种简单的设计可以轻松地提升COCO和大规模OpenImage consis上的大多数骨干和模型。这是我们OpenImage Challenge 2019第一个解决方案的核心模型地图ResNet-50ResNet-50 w. TSDCC11572引用[1] Navaneeth Bodla，Bharat Singh，Rama Chellappa，andLarry S Davis.用一行代码改进目标检测。在IEEE计算机视觉国际会议论文集，第5561-5569页，2017年。7[2] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn：深入研究高质量的目标检测。在IEEE计算机视觉和模式识别会议论文集，第6154-6162页，2018年。7[3] 曹岳、徐佳瑞、林斯蒂芬、魏方云和韩虎。Gcnet：非局域网络满足挤压激励网络和超越。arXiv预印本arXiv：1904.11492，2019。7[4] Bowen Cheng ， Yunchao Wei ， Honghui Shi ， RogerioFeris，Jinjun Xiong，and Thomas Huang.重温rcnn：论快速rcnn分类能力的觉醒。在欧洲计算机视觉会议（ECCV）上，2018年9月。7[5] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页，2017年。一、三、四、六、八[6] 段凯文，白松，谢灵犀，齐红刚，黄庆明，田奇.Centernet：用于对象检测的关键点三元组。在IEEE计算机视觉国际会议（ICCV），2019年10月。7[7] Golnaz Ghiasi ， Tsung-Yi Lin ， and Quoc V Le.Dropblock：卷积网络的正则化方法。神经信息处理系统的进展，第10727-10737页，2018年。7[8] Golnaz Ghiasi ， Tsung-Yi Lin ， and Quoc V Le. Nas-fpn：学习可扩展的特征金字塔体系结构，用于对象检测。在IEEE计算机视觉和模式识别会议论文集，第7036-7045页1、7[9] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。1[10] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。基于区域的卷积网络用于精确的对象检测和分割。IEEE Transactions on Pattern Analysis and MachineIntelligence，38（1）：142-158，2015。1[11] PriyaGo yal ， PiotrDolla´r ， RossGirshick ， PieterNoord-huis ， Lukasz Wesolowski ， Aapo Kyrola ， AndrewTulloch，Yangqing Jia，and Kaiming He.准确、大的小批量sgd：1小时内训练imagenet。arXiv预印本arXiv：1706.02677，2017。5[12] 郝泽坤，刘宇，秦宏伟，严俊杰，李秀，胡小林。尺度感知人脸检测。法律程序中IEEE计算机视觉和模式识别会议，第6186-6195页，2017年。1[13] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页五、六[14] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，第7132-7141页，2018年。7[15] 蒋博瑞，罗瑞轩，毛嘉源，肖特特，蒋云英获取用于精确对象检测的定位置信度在欧洲计算机视觉会议（ECCV）的会议记录中，第784-799页一、四、七[16] Alina Kuznetsova 、 Hassan Rom、 Neil Alldrin 、 JasperUi-jlings 、 Ivan Krasin 、 Jordi Pont-Tuset 、 ShahabKamali、Stefan Popov、Matteo Malloci、Tom Duerig和Vittorio Ferrari。开放图像数据集v4：统一的图像分类，对象检测，和视觉关系检测的规模。arXiv：1811.00982，2018。4[17] 黑律和贾登。Cornernet：将对象检测为成对的关键点。在欧洲计算机视觉会议论文集（ECCV）中，第734-750页，2018年。1、7[18] Buyu

下载后可阅读完整内容，剩余1页未读，立即下载