多任务自监督边界框标注回收目标检测

77 浏览量更新于2023-10-18 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1多任务自监督边界框标注回收目标检测Wonhee Lee Joonil Na Gunhee Kim首尔国立大学，韩国{wonhee，joonil}@vision.snu.ac.krgunhee@snu.ac.krhttp://vision.snu.ac.kr/projects/mtl-ssl-detection摘要尽管最近深度卷积网络在对象检测中取得了巨大成功，但它们需要大量的边界框注释，而获得这些注释通常是耗时且容易出错的。为了更好地利用给定的有限标签，我们提出了一种新的对象检测方法，同时利用多任务学习（MTL）和自监督学习（SSL）。我们提出了一组辅助任务，有助于提高目标检测的准确性。他们通过回收边界框标签来创建自己的标签（即。主任务的注释），并以MTL方式与对象检测模型联合训练。我们的方法是intege-grable与任何区域的建议为基础的检测模型。我们经验验证，我们的方法有效地提高了各种架构和数据集上的检测性能。我们在PASCALVOC [14]和COCO [30]的两个基准数据集上测试了两个最先进的区域提议对象检测器，包括Faster R-CNN[39]和R-FCN [10]，其中三个CNN主干为ResNet-101[22]，Inception- ResNet-v2 [45]和MobileNet [231. 介绍最近，对象检测领域取得了重大进展[39，10，21]，利用深度卷积网络可以学习输入图像的分层特征然而，训练实际的对象检测模型需要大量的边界框注释，这通常是耗时且容易出错的。为了缓解深度神经网络的标签短缺问题，已经进行了许多研究;在对象检测的背景下，多任务学习和自监督学习可能是解决该问题的两种示例性方法多任务学习（MTL）旨在联合训练多个具有较少标注的相关任务，以提高性能。每一个任务的管理[33，13，46]。其有效性已得到充分研究;例如，它通过相互提供感应偏置而导致正则化效应[5]。还证明了随着任务数量的增加，用于更好地生成的注释数据数量的上限降低[3]。MTL有助于对象检测的最成功的例子之一是Mask R-CNN[21]，它通过联合执行实例分割任务来增强对象检测的性能然而，其实际限制之一是必须提供比边界框注释更昂贵的分段掩码标签。自监督学习（SSL）旨在从自身生成的注释中训练模型，而无需额外的人工努力[9，42]。在对象检测文献中，SSL已被应用于取代ImageNet预训练[34，53，36，25]。它的动机是，像ImageNet这样的大规模数据库是高度复杂的，需要大量的人力，因此它试图从不需要人类注释数据的相关任务（如拼图[34]或着色[53]）中预训练网络。然而，大多数SSL算法的性能不如ImageNet预训练，因此它大多无法为对象检测带来实际好处。在这项工作中，我们提出了一种新的目标检测方法，同时利用多任务学习和自监督学习。我们从一个正常的监督对象检测设置开始，其中基于区域建议的检测器（例如，给出了更快的R-CNN [39]和R-FCN[10]），并且可以从数据集中获得边界框注释。我们方法的关键是提出一套与目标检测相关但不相同的辅助任务。他们通过回收边界框标签来创建自己的标签（即。主任务的注释），同时将边界框视为元数据。然后这些辅助任务与目标检测模型以MTL方式联合训练这里我们的重点是提高主要任务（目标检测）的性能，而不是所有的主要和辅助任务。49844985虽然辅助任务应该刺激主要任务以达到更好的准确性，但很难定义实际上有帮助的适当和有效的辅助任务。在许多情况下，辅助任务可能是无效的，甚至与主任务相冲突。我们实证发现了三个协同辅助任务，包括多目标，接近和前景标记任务。深入的实验结果表明，所提出的辅助任务是非常有效的准确的目标检测。这项工作的贡献概述如下。1. 据我们所知，这项工作是第一次尝试开发一个多任务的自监督学习方法的两阶段目标检测模型。我们的方法是正交的任何选择的区域亲，基于检测模型。2. 我们设计了一组三个辅助任务，帮助提高目标检测的性能，同时重新使用边界框注释，而无需任何额外的人力。据我们所知，在自监督学习文献中，还没有3. 我们证明了我们的approach在多个架构组合的准确性提高。我们在PASCAL VOC [14]和COCO [30]的两个基准数据集上测试了两个最先进的区域提议检测器，包括Faster R-CNN [39]和R-FCN [10]，以及ResNet-101 [22]，Inception- ResNet-v2 [45]和MobileNet [23]的2. 相关工作2.1. 多任务学习（MTL）MTL一起训练相关的任务，以克服注释数据的不足。它为每个任务提供归纳偏差[5]以触发彼此之间的正则化效应，并随着任务数量的增加而降低注释数据数量的上限以更好地泛化[3]。MTL已在许多计算机视觉任务中证明了其有用性，包括深度估计和场景解析[49]、合成图像生成[40，50]、属性预测[1]、即时性预测[8]、人员重新识别[43]和面部动作单元检测[2]。参数共享。MTL方法可以根据如何在不同的任务模型之间共享参数分为两类。在硬参数共享中，所有任务模型共享完全相同的特征提取器，并通过每个分支头执行自己的任务。因此，这里的主要问题是设计适当的任务和目标函数。该类别中的一些示例包括TCDCN [55] ， HyperFace [38] ， Mask R-CNN [21] ，ResNetCrowd [31]，LASSO架构[13]。在软参数共享，每个任务都有自己的模型和参数。因此，该类别中的方法集中于如何设计权重共享方法，诸如在参数之间利用什么约束和距离度量。示例包括十字绣网络[33]，DCNet [46]，交叉连接[15]，部分共享结构[4]，水闸网络[41]和NDDR-CNN [16]。2.2. 自监督学习（SSL）虽然需要大量的人力来为监督学习创建高质量的注释，但SSL [9，42]通过模型本身创建标签，而无需额外的人力。在计算机视觉研究中，不同类型的信息已被用作SSL的信号，包括着色[53，54]，修复[37]，空间补丁[12，34]或时间线索[29，44，47]，文本[6，19，26]，声音[35]，作品-[36]和跟踪[27，48]。迁移学习。SSL的主要用途之一是在迁移学习中。在目标检测领域，许多自我监督任务已被应用于取代ImageNet预训练。Noroozi等人[34]提出一个解决拼图的借口Pathak等人[36]通过视频上基于运动的分组提示来预训练网络。Jenni和Favaro [25]引入了一个借口任务来区分真实图像和包含伪影的图像，并以对抗的方式训练模型Zhang等人[53]训练一个网络用于彩色化任务，并微调它用于检测任务。已经有许多其他尝试以自监督或无监督的方式从相关任务中预训练网络，但大多数仍然没有达到ImageNet预训练的性能。我们的工作与这一系列工作的区别在于，我们没有试图取代ImageNet预训练，而是引入了一组补充的辅助任务，这些任务可以在没有额外注释的情况下进行训练，并提高了对象检测的性能。注释重用。Gong等[20] Zhanet al. [51]表明重用一个任务的标签不仅有助于创建新任务及其标签，但也能够通过预训练提高主要任务的性能。它们分别使用逐像素分割掩码作为在人类解析和语义分割的上下文中重用的注释。另一方面，我们的工作集中在回收包围盒标签的对象检测，这还没有讨论。3. 方法我们设计了一个多任务自监督学习模型的目标检测。我们假设注释只适用于主要任务（即.用于对象检测的边界框标签）。我们引入一组三个辅助任务4986区域提议网络主要任务对象检测细化框+K+1课程ROI池化层7×7×10241024特征图合并特征贴近度标记多目标标注前景标记辅助任务K+1FCNr×7×7×1024Nr×（K+1）预测类分布合并特征AvgFC提案箱类7×7×1024conv5_x7×7×20482048窗口辅助任务预测器主任务预测器框图1：我们的多任务自我监督方法的整体架构。它显示了对象检测器（即。主任务模型），如Faster R-CNN [39]，在推理时借助三个辅助任务（第3.1节）对给定的建议框（红色）进行预测辅助任务模型（如右下角所示）几乎与主任务预测器相同，除了没有框回归（3.2节）。检测预测的细化（如右图所示）也是通过主任务模型和辅助任务模型的合作共同完成的（第3.3节）。K是类别数。以多任务学习的方式与主任务联合训练。辅助任务模型可以自由地使用边界框注释，以自监督的方式构建自己的在这里，我们的目标是提高主要任务（目标检测）的性能，而不是所有主要和辅助任务的平均性能。我们将在3.1- 3.2节中详细讨论辅助所提出的辅助任务在特征提取和预测方面都是有益的。首先，这三个辅助任务通过协同特征学习来提高共享特征的质量。第二，辅助任务的输出提供上下文信息以改进目标检测预测，特别是区域建议的分类准确性。我们把这个过程称为精化，这将在3.3节中讨论。图1显示了我们模型的整体架构，其中三个辅助任务模型与基于区域提议的对象检测器（例如，更快的R-CNN）。它显示了在推理时如何处理单个RoI。我们将在3.4节中介绍整个模型的训练。3.1. 辅助任务下面我们将描述三个辅助任务，包括多对象、接近度和前景标记任务。多对象标记。用于对象检测的注释通常由两种类型的信息组成：i）包围目标对象的最小边界框的坐标，以及ii）用于单个对应类的独热编码第一个辅助任务称为多对象标记，放松这两个标记条件。它随机对图像中的边界框窗口进行采样，并将软标签而不是硬独热编码分配给它，以被解释为单个窗口中的若干类的概率。这个辅助任务的主要好处是填充许多积极的盒子，即使它们的质量可能不如GT。尽管如此，它可以缓解一般对象检测流水线的一个这与mixup[52]具有类似的意图，后者线性地组合图像对及其标签图2显示了用于多对象标记的窗口的一些示例。我们首先对Nt个窗口进行采样（例如，在我们的实验中，Nt=64）我们约束窗口应该与图像中的任何GT框然后，按照算法1，我们获得每个窗口的软标签lm。标签lm充当用于多对象标记任务的GT注释。简单地说，我们给一个窗口W，根据其面积部分与GT类。lm的长度是K+1，其中K是类的数量，并且lm[0]表示与类的数量成比例的无对象背景区W.封闭标签。图像中对象的分布不是随机的。例如，在PASCAL VOC图像中，餐桌附近可能有椅子，公共汽车附近可能有在自然语言处理的skip-gram模型中，该模型从句子中周围单词的含义中学习特定单词的含义。类似地，如果一个辅助任务强制模型学习使用fea来预测类及其周围的类4987i=1i=1′算法一：获得多目标标签输入：图像I，GT框{Bi}K ，窗口WM输出：多对象软标签llm←一个长度为（K+1）的数组对于Wlm[0]←面积（W）−面积（（Wfori←1to10Kdoi∈K{Bi}））lm[i]←面积（W{Bi}）returnlm/sum（lm）算法二：O获得紧密度标签输入：图像I，GT框{Bi}K ，A GT boxb多对象接近度软lab el s（）lab el s（）foregroundlabels（）输出：b的接近度软标签lclc←一个长度为（K+1）的零数组D←I的对角线距离如果{B}−b=0，则lc[0] ←1其他图2：如何通过GT边界框的回收来生成辅助任务的标签的示例多对象软标签指定窗口内每个类的GT框所占用的区域部分接近度标签对从GT框的中心到其他GT框的中心的距离进行评分。前景标签是前景和背景之间的二进制掩码。对于i←1到K做lc[i]←D−minb∈{Bi}退单信用证中心（b）−′中心（b）在区域建议的结构中，所学习的特征可能编码图像区域的上下文信息。这可以使得模型能够预测盒子投注器的类别。我们把这个辅助任务称为紧密标记。图2和算法2显示了接近度辅助任务如何遍历GT框以获得自己的标签。注意，接近度标签lc仅针对GT框定义，而先前的多对象标签lm针对随机采样的窗口。因此，接近度辅助任务预测盒子周围的可能对象，而多对象标记任务预测获胜区域内的可能对象dow。每个GT框b的接近度标签lc将更高的值分配给其GT框更接近b的对象。LC[0]如果附近没有GT箱，则为1。前景标记。最后一个辅助任务，称为前景标记，旨在预测整个图像中的前景和背景区域。该任务可以帮助特征学习更准确地进行区域建议的坐标回归如图2所示，为该任务生成标签lf很简单;我们简单地将1分配给GT框区域，将0分配给其他区域。3.2. 辅助任务模型如图2所示，三个辅助任务最终预测类概率标签（即，lm，lc，lf），尽管每项任务的目的各不相同。所以我们将辅助任务的模型设计为与主任务模型的头部具有相同的例如，图1的下半部分显示了使用ResNet-101 [22]的Faster R-CNN [39]的辅助任务模型主预测器和辅助预测器之间的唯一区别是存在框回归，这对于辅助任务是不必要的。这种架构共享在几个方面是有利的。首先，它使我们的多任务方法很容易与对象检测模型集成，因为辅助任务的实现很简单。其次，它可以通过简单地复制预训练检测器的权重来轻松初始化辅助模型的权重。这样的复制初始化经验导致更好的性能比从头开始训练辅助任务的头部。3.3. 检测优化辅助任务在特征提取和预测方面都是有益的。在区域建议阶段，辅助任务与主任务联合训练，以学习有助于在ROI池化之前进行对象检测的共享特征。在预测阶段，辅助任务的输出可以直接细化检测预测，特别是区域建议的在本节中，我们将讨论第二阶段中的检测细化。多对象标记模型可以预测给定提案和周围框的GT盒子Windows二进制掩模01110.40.50.10.30.40.30.70.30.60.50.50.44988JJJJJJ提案框目标检测（主）我们得到其中Wrx′= finish（x|c，m1，. . . ，mNr）（1）=Wr[x，c，m1，. . . ，m Nr]+ x，是投影矩阵。总之，我们相信-紧密度标签（Aux）Windows多对象标记（Aux）连接x，c和m1，···，mr，并将其馈送到完全-具有剩余连接的连接层所呈现的细化模型是在彻底验证后设计的;例如，我们尝试了多个FC层而不是Eq。（1），但它们不如单层版本。3.4. 培训损失函数。我们将每个辅助任务的损失定义为交叉熵损失，因为它们基本上执行类标签的预测：图3：检测细化。主检测头计算x作为建议框的分类结果使用单个FC层对两个辅助模型的预测输出c和m1，...，mr，将其更新为x′。L=−1海里。ΣyTlog softmax（a）。（二）n=1对于多对象标记Lm的损失，我们设置Nt=Nt，y=ym和a=am，其中Nt是赢的次数，j j j j接近度标记模型可以预测附近对象的可能共现，即使它们实际上不存在。我们的检测细化的关键思想是让主任务头（即.对象检测器）利用两个辅助任务的预测，因为它们是第j个窗口的GT软标签向量，并且softmax（a，m）是第3.2节中的辅助头部预测的其类别概率。对于失去贴近度的标签任务Lc，我们使用Np作为与GT盒匹配的正建议盒的数量，yc和softmax（ac）是GT可以为检测器提供有用的上下文信息，以做出更好的分类决策。也就是说，对于对象检测器需要预测的给定提议框，多目标模型提供了对损失的软标签预测以及用于周围区域的预测软标签向量，第j个盒子。最后，对于前景标记任务Lf，我们使用Nf作为前景掩模上的像素数yf和softmax（af）作为GT，并预测e地面la-J Jcal和全局上下文，而封闭性模型将预测的接近度传递到周围物体。我们在这里不使用前景标记任务的输出，因为除了两个辅助任务之外，它没有额外的图3显示了细化的过程在正常对象检测器（例如，更快的 R-CNN [39] ），检测头为给定的pro-bandbox 计算分类结果 x ∈ RK×1 ，并将其通过softmax层以生成类概率y。我们的精化使用辅助模型的输出将x更新为x′，如下所示。首先，为了利用学习的多对象标记模型的预测，我们创建了Nr个获胜者（例如，Nr=5在我们的实验）周围的建议与各种大小。我们通过将整个图像和建议框之间的空间划分为Nr−1个均匀区间。然后，我们获得Nr个窗口的多对象标签，表示为m1，···，mNr。其次，我们获得图像中所有建议的接近度标签，并将其平均为单个向量，表示为c。它被用作图像的上下文摘要，这在经验上更好而不是为每个提案框使用单独的输出最后，第j个像素的bel。总辅助损失是所有任务损失的加权和Laux= λmLm+ λcLc+ λfLf。（三）作为细化的损失，我们使用与分类主任务相同的我们还应用了停止梯度操作，这确保了细化损失不会影响每个任务的预测器和特征提取器。也就是说，由于主任务和每个辅助任务具有它们自己的损失，因此细化损失仅更新细化层的权重。最后，总损失Ltotal是基本检测器的对象检测损失L main、辅助损失Laux和细化损失Lref之和。设λm=λf=λr= 1，λc= 0。3在我们的实验中Ltotal=Lmain+Laux+ λrLref。（四）训练我们通过 ImageNet 预训练初始化骨干 CNNXX'Avg.FC层C m 1 m 2…康卡特M5M4M3M2M1XC所有提案箱…4989[11，18]。然后，我们使用主任务和辅助任务的GT同时训练整个网络4990我们在ResNet-101 [22]中冻结了conv 1和conv 2 x层，以实现快速收敛。对于 MobileNet [23] 和 Inception-ResNet-v2 [45]，我们不冻结任何层。实施. 我们调整图像的大小，使其最小的妈妈大小是600。我们使用TensorFlow对象检测API [24]进行训练。采用裁剪和调整大小[7]方法代替ROI池化操作[17]。我们使用动量优化器，速率为0.9，权重衰减为0.0001。我们只使用随机水平翻转来增强数据。4. 实验我们的方法适用于任何两阶段的目标检测模型与区域建议。为了展示我们方法的通用性，我们使用各种架构和数据集进行评估（第4.1我们对多任务学习和细化的效果进行了消融实验（第4.3节），并给出了一些定性的结果（第4.4节）。我们在补充文件中提供更多结果。4.1. 实验设置数据集。我们测试各种配置的数据集，遵循以前的文献对象检测。我们使用三种训练设置：VOC 07trainval、VOC 07 +12 trainval和COCO 17 train，以及四种测试设置：VOC 07测试、VOC 12测试、COCO17验证、COCO 17测试-开发每个表中描述了更精确的训练/测试拆分。对象检测架构。我们的模型是可集成的任何两阶段的目标检测模型。我们选择Faster R-CNN [39]作为最先进的检测器之一，R-FCN [10]作为另一个完全基于卷积区域的检测模型。骨干CNN。ResNet-101 [22]是对象检测中最受欢迎的主干MobileNet [23]是一个轻量级的高效架构，用于移动和嵌入式应用程序。Inception-ResNet-v2 [45]是另一个最先进的网络，它比ResNet-101更大，在我们的实验中获得了更好的结果。评估指标。我们报告每个数据集的标准指标：VOC的平均精度（mAP）[14]，COCO的mAP/IoU（0.5至0.95）（mAP@[.5：.95]）[30]。4.2. 检测结果表1显示了我们的方法在两个数据集上相对于基线我们使用更快的R-CNN和ResNet-101作为基线。更具体地说，我们在表2中列出了VOC 07 +12序列验证和VOC 12测试的详细性能，在表3中列出了COCO 17序列和COCO 17测试开发的详细性能。也就是说，我们在表2中给出了VOC的所有20个对象类别的详细检测准确度，以及IoU值上的多个mAP，性能数据集VOCCoco培训0707+1217 火车测试07071217val17 test-dev基线77.081.775.332.732.8+任务178.983.877.434.134.2+任务277.383.076.033.333.5+任务377.082.075.132.932.8+任务1、278.583.777.334.534.6+任务1、2、378.783.777.534.634.7表1：VOC和COCO的检测精度（mAP（%））。基线是更快的R-CNN [39]和ResNet- 101 [22]。任务1、任务2、任务3分别表示多目标、贴近度和前景标注辅助任务。根据对象大小和表3中的额外平均回忆分数的变化。所有的结果都确保了我们的辅助任务在各种数据集分割中始终提高检测性能。表1显示，VOC中的mAP值平均增加约2.0%p，COCO中的mAP值平均增加约令人鼓舞的是，我们的方法在表2中的所有20个VOC类别中导致了更好的性能，并且在COCO中无论对象大小如何，在所有精度和召回指标中也是如此。表4总结了不同骨干网络的性能差异将Faster R-CNN固定为检测架构，我们测试了MobileNet和Inception-ResNet- v2，以及表1中的ResNet-101。通过我们的方法获得的性能增益在 Mo- bileNet ， ResNet-101 和Inception-ResNet-v2的顺序中更显着考虑到它是主干的检测精度的逆序，当网络能力较差时，我们的方法的好处可能更大。重要的是，无论使用什么样的骨干CNN，我们的方法都能持续提高检测精度，并具有很大的裕度。表5报告了另一种对象检测架构R-FCN的结果，结果证明它比表1中的Faster R-CNN略差。尽管如此，我们可以看到相同的模式，我们的方法nontrivially增加了检测精度在所有实验的PASCAL VOC。我们的实验表明，我们的方法的结果的以下趋势。首先，我们的方法非常有希望持续有效，无论基础检测器，骨干CNN和数据集如何。这些结果可以充分验证我们的MTL SSL方法的通用性。第二，辅助任务对于任务1（多对象）的顺序中的对象检测单独地更有帮助，2（接近度）和3（前景）。任务1是最有用的，因为它可以根据需要生成许多窗口，而其他任务只创建固定数量的标签;每个图像的任务2的标签由GT框的数量限制，任务3的标签总是4991骨干[23]第二十三话[45]第四十五话培训0707+120707+12测试070712070712基线61.268.662.080.784.378.2+任务163.471.364.581.785.980.5+任务262.569.362.681.084.879.0+任务361.368.861.780.684.278.3+任务1、263.970.964.581.886.180.1+任务1、2、363.870.864.481.886.080.0培训0707+12测试070712基线73.478.672.1+任务174.380.174.0+任务273.578.772.2+任务373.378.471.9+任务1、275.080.474.2+任务1、2、374.780.673.9方法地图Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视基线75.386.2 83.0 78.0 62.8 59.9 78.0 81.2 90.7 56.4 79.5 56.1 88.2 83.3 83.8 84.9 53.9 81.9 66.7 83.5 68.9+任务177.488.0 84.3 79.9 63.6 60.7 79.8 82.6 93.2 58.0 84.5 59.4 91.5 86.3 86.5 86.0 56.7 84.8 67.3 84.8 71.0+任务276.086.1 84.4 77.8 63.2 58.9 78.5 81.8 91.2 57.3 81.5 57.7 89.1 84.9 84.7 85.7 54.2 81.7 67.5 83.6 70.0+任务375.186.2 82.3 76.8 61.6 59.5 78.5 81.4 90.3 56.1 79.3 57.4 88.4 83.9 83.3 85.2 54.1 80.8 65.2 82.9 68.6+任务1、277.387.7 84.3 79.6 62.9 59.9 80.1 82.5 92.8 57.6 83.5 58.5 91.3 86.8 85.9 85.4 57.8 85.1 70.1 84.9 70.2+任务1、2、377.587.6 84.4 80.4 63.4 61.2 79.1 82.6 92.6 57.7 84.3 59.3 91.4 87.1 86.0 86.0 57.9 84.1 68.7 85.7 70.3表2：VOC 2012测试的详细性能。还报告了PASCAL VOC的20个目标类别的mAP值方法平均精度平均召回IoU=.50：.95IoU=0.50IoU=0.75小介质大最大值=1最大值=10最大值=100小介质大基线32.852.734.713.336.147.129.546.348.724.153.369.3+任务134.255.236.114.137.749.729.746.649.123.953.970.6+任务233.554.135.414.036.748.029.546.348.724.253.469.2+任务332.852.634.613.235.946.829.546.348.624.153.069.3+任务1、234.655.636.614.438.150.029.746.649.224.153.970.2+任务1、2、334.755.836.614.538.150.029.946.749.224.553.970.3表3：COCO 2017测试开发的详细性能。报告多个IoU值上的mAP度量分别给出了小（面积≤32×32）、中（32×32<面积≤96×96）和大（面积>96×96）目标的计算结果。平均查全率值是在每个图像最多{1，10，100}次检测的情况下测量的表4：各种骨干网络对VOC的检测精度（mAP）基线是更快的R-CNN [39]。每个图像一个。任务3是辅助任务中最差的，因为它是最简单的，并且可以传递最少的信息。第三，当联合使用所有三个任务时，结果是最好的或最接近最好的。4.3. 细化的烧蚀实验我们进行了一项关于细化效果的烧蚀研究。在正常的MTL中，辅助任务的输出不直接细化主任务的结果。另一方面，我们的辅助任务可以提高主任务的分类，因为它们提供了有关ROI周围环境的上下文信息。表6显示了通过改进提高了多少检测精度。与仅使用MTL相比，由于细化的效果，mAP值平均增加0.7为了进一步研究单独细化的效果，我们应用停止梯度来防止辅助任务的丢失影响共享特征的学习。其结果显示在表6的行（+细化）中。的表5：VOC的检测精度（mAP）。基线是具有ResNet-101 [22]主干的R-FCN [10培训0707+12测试070712基线77.081.775.3+ MTL78.0（+1.0）83.0（+1.3）76.7（+1.4）+精细化78.3（+1.3）82.7（+1.0）76.4（+1.1）+两个78.7（+1.7）83.7（+2.0）77.5（+2.2）表6：多任务学习和VOC改进的消融结果。基线是更快的R-CNN与ResNet-101。与基线相比，mAP平均增加了1.2，尽管最好的性能是与特征学习一起实现的。这些结果保证了MTL的特征学习和推理细化都是有益的。4.4. 定性结果4992图4显示了我们的方法对VOC和COCO的检测改进的一些定性示例。在每个集合中，我们显示基线（上）和我们的ap的结果4993图4：基线（上）和我们的方法（下）之间的检测比较我们的方法提高了基线接近（较低）。我们的方法往往能够纠正一些假阴性和假阳性，如背景，相似的对象和冗余检测。5. 结论提出了一种新的多任务自监督学习的目标检测方法，其中设计了三个辅助任务来提高目标检测的性能.它们通过回收边界框标签来创建自己的标签，并与对象检测模型联合训练。我们的实验验证了我们的方法提高了检测精度与各种架构和骨干。无论数据集大小如何，我们的方法都有助于检测，因为它实现了连接。在我们的实验中，从小数据集（VOC07，25K对象）到大数据集（COCO，850K对象）的持续改进。除了这项工作之外，还有几个可能的方向。首先，我们可以设计辅助任务来帮助框回归，而这项工作只处理分类增强任务。其次，辅助任务可以扩展到回收其他标签，如分割掩码，以提高检测能力。最后，我们可以在像OpenImages [28]这样的超大数据集中验证我们的方法。鸣谢。这项工作得到三星电子三星研究基金中心的支持，项目编号为SRFC-TC 1603 -01。Gunhee Kim是通讯作者。我们基线我们基线我们基线4994引用[1] A. H. Abdulnabi、G. Wang，J.Lu，和K. 贾用于属性预测的多任务CNN模型。Multimedia，17（11）：1949-1959，2015. 2[2] T.阿尔马耶夫湾Martinez和M.瓦尔斯塔尔学习转移：转移潜在任务结构及其在人脸动作单元检测中的应用。在ICCV，2015年。2[3] J·巴克斯特一个贝叶斯/信息理论模型的学习学习通过多任务抽样。机器学习，28（1）：7-39，1997年。一、二[4] J. Cao ，Y.Li 和Z. 张某局部约束部分共享多任务在CVPR，2018年。2[5] R.卡鲁阿纳多任务学习：基于知识的归纳偏差来源。ICML，1993年。一、二[6] X. Chen和A.古普塔。卷积网络的Webly监督学习。在ICCV，2015年。2[7] X. Chen和A.古普塔。一种快速RCNN的实现及区域采样研究。arXiv：1702.02138，2017。6[8] X. 朱，W。欧阳，W.Yang和X.王. 多任务回流神经网络用于即时性预测。在ICCV，2015年。2[9] H. Dahlkamp，A. Kaehler，D. Stavens，S. Thrun和G. R.布拉德斯基沙漠地形中的自监督单目道路检测。InRSS，2006. 一、二[10] J.戴，Y. Li，K. He和J. Sun. R-FCN：通过基于区域的完全卷积网络进行对象检测。在NIPS，2016年。一、二、六、七[11] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。CVPR，2009。5[12] C. 多尔施A.Gupta和A.A. 埃夫罗斯通过上下文预测的无监督在ICCV，2015年。2[13] C. Doersch和A.齐瑟曼。多任务自我监督视觉学习。InICCV，2017. 一、二[14] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn 和 A. 齐瑟曼。 PASCAL Visual Object ClassesChallenge2012（VOC2012）http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊一、二、六[15] S.福田河义桥河川上，S。你，M。Iida和T.内村交叉连接网络用于检测和分割的arXiv：1805.05569，2018。2[16] Y.高角，加-地她，J. Ma，M。Zhao，W. Liu和A. L.尤尔。NDDR-CNN：通过神经判别性简化在多任务CNNarXiv：1801.08297，2018。2[17] R.娘娘腔。快速R-CNN。在ICCV，2015年。6[18] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。5[19] L. Gomez，Y.帕特尔，M。Rusinol，D.Karatzas和C.诉哇哈哈。通过将图像嵌入到文本主题空间中来进行视觉特征的自监督学习。在CVPR，2017年。2[20] K. 龚， X. Liang ， X. Shen 和 L. 是林书《 Look IntoPerson：Self-supervised Structure-Sensitive Learning andA New Benchmark for Human Parsing》在CVPR，2017年。2[21] K. 他，G. Gkioxari，P. Doll a'r和R. 娘娘腔。面罩R-CNN. InICCV，2017. 一、二[22] K. 他，X。Zhang，S.Ren和J.太阳用于图像识别的深度残差在CVPR，2016年。一二四六七[23] A.G.Howard ， M.Zhu ， B.Chen ，中国粘蝇D.Kalenichenko，W.小王，T. Weyand，M. Andreetto和H. Adam. MobileNets：用于移动视觉应用的高效卷积神经网络arXiv：1704.04861，2017。一、二、六、七[24] J. Huang，V. Rathod，C.孙，M。Zhu，中国茶青冈A.科拉提卡拉A. 法特希岛Fischer，Z.Wojna，Y.宋，S.Guadarrama等人，现代卷积对象检测器的速度/精度权衡在CVPR，2017年。6[25] S. Jenni和P.法瓦罗通过学习发现伪影的自监督特征学习在CVPR，2018年。一、二[26] A.茹林湖vanderMaaten，A. Jabri和N.瓦西拉凯从大型弱监督数据中学习视觉特征。在ECCV，2016年。2[27] K. Kumar Singh，F.Xiao和Y.我是Jae Lee跟踪和传输：观看视频以模拟强人类监督，用于弱监督对象检测。在CVPR，2016年。2[28] A. Kuznetsova，H.Rom，N.Alldrin，J.于伊林斯岛克拉辛J. Pont-Tuset，S. Kamali，S. Popov，M. Mallocus、T.Duerig和V.法拉利Open Images Dataset V4：统一的图像分类，对象检测和视觉关系检测。在 arXiv ：1811.00982，2018。8[29] H.- Y.李，J. - B. Huang，M. Singh和M.- H.杨基于排序序列的非监督表示学习。InICCV，2017. 2[30] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L.Zitnick.MicrosoftCOCO ：上下文中的通用对象.2014年，在ECCV。一、二、六[31] M. Marsden ， K.McGuinness ， S.Little ，和 N.E.ResnetCrowd：用于人群计数、暴力行为检测和人群密度水平分类的残差深度学习架构。在AVSS，2017年。2[32] T. Mikolov，K.Chen，G.Corrado，J。Dean. 向量空间中词表示的有效载于ICLR讲习班，2013年。3[33] I. Misra、A.什里瓦斯塔瓦A. Gupta，和M。赫伯特交叉缝合网络多任务学习。在CVPR，2016年。一、二[34] M. Noroozi和P.法瓦罗通过解决Jigsaw Puzzles的视觉表示的无监督学习在ECCV，2016年。一、二[35] A. Owens，J. Wu，J. H. 麦克德莫特W. T. 弗里曼和A.托拉尔巴环境声音为视觉学习提供监督。在ECCV，2016年。2[36] D. 帕塔克河Girshick，P. 多尔，T。Darrell和B. 哈瑞-哈4995兰。通过观察物体移动来学习特征。在CVPR，2017年。一、二4996[37] D.作者：P. Krahenbuhl，J.多纳休，T. Darr

下载后可阅读完整内容，剩余1页未读，立即下载