SOD-MTGAN：小目标超分辨率多任务生成对抗网络

57 浏览量更新于2023-10-13 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

SOD-MTGAN：基于多任务生成对抗网络的Yancheng Bai1，2，Yongqiang Zhang1，3，Mingli Ding3，and Bernard Ghanem11阿卜杜拉国王科技大学视觉计算中心baiyancheng20@gmail.com网站，b e r n a r d . kaust.edu.sa2中国科学院软件研究所。3哈尔滨工业大学电气工程及其自动化学院{zhangyongqiang，dingml}@ hit.edu.cn抽象。目标检测是计算机视觉中一个基本而重要的问题。虽然在大规模检测基准（例如，在大尺寸物体上已经实现了令人印象深刻的结果，但是在大尺寸物体上已经实现了令人印象深刻的结果。 COCO数据集），对小对象的性能远不能令人满意。原因是小物体缺乏足够详细的外观信息，这些信息可以将它们与背景或类似物体区分开来。为了解决小目标检测问题，我们提出了一个端到端的多任务生成对抗网络（MTGAN）。在MTGAN中，生成器是一个超分辨率网络，它可以将小的模糊图像上采样为细尺度图像，并恢复详细信息，以实现更准确的检测。鉴别器是多任务网络，其用真实/虚假分数、对象类别分数和边界框回归偏移来描述每个超分辨率图像块此外，为了使生成器恢复更多的细节以便于检测，在训练期间，将分类和回归损失反向传播到生成器COCO数据集上的大量实验表明，该方法在从模糊的小图像恢复清晰的超分辨率图像方面是有效的，并且表明检测性能，特别是对于小尺寸的对象，比最先进的方法有所提高关键词：小目标检测;超分辨率;多任务;生成性对抗网络1介绍目标检测是计算机视觉中一个基本而重要的问题。它通常是许多现实世界应用的关键一步，包括图像检索，智能监控，自动驾驶等。在过去的几十年里，物体检测已经得到了广泛的研究，随着深度卷积神经网络的出现，已经取得了巨大的进展。目前，存在两种用于基于CNN的对象检测的主要框架：（i）单阶段同等贡献。2Yancheng Bai，Yongqiang Zhang，Mingli Ding，Bernard Ghanem框架，例如YOLO [27]和SSD [24]，其以密集的方式应用对象分类器和回归器，而无需对象修剪;以及（ii）两阶段框架，诸如Faster-RCNN [29]、RFCN [3]和FPN [22]，其提取对象提议，然后进行每提议分类和回归。(a) 大（b）中（c）小Fig. 1. FPN检测器[22]的性能的总体误差分析超过COCO数据集[23]的大、中、小子集上的所有类别。每个子图像中的图是在[23]中定义的不同评估设置下的一系列精确度-召回率曲线。从比较中可以看出，小型和大型/中型物体的性能之间存在很大的差距。两个框架的对象检测器在大规模检测基准（例如COCO数据集[23]）中的大/中等尺寸的对象上取得了令人印象深刻的结果，然而，如图1（c）所示，对小尺寸物体（如[23]中所定义）的性能远远不能令人满意。从比较中可以看出，小型和大型/中型物体的性能之间存在很大的差距。小目标检测（SOD）的主要困难在于小目标缺乏将其与背景（或类似类别）区分开并实现更好定位所需的外观信息。为了在这些小对象上实现更好的检测性能，SSD [24]利用中间卷积特征图来表示小对象。然而，浅细粒度的卷积特征图的区分度较低，这导致许多假阳性结果。另一方面，FPN [22]使用特征金字塔来表示不同尺度的对象，其中具有强语义信息的低分辨率特征图被上采样并与具有弱语义信息的高分辨率特征图融合。然而，上采样可能生成伪像，这可能降低检测性能。为了解决 SOD问题，我们提出了一种基于经典生成对抗网络（GAN）框架的统一端到端卷积神经网络，该网络可以集成到任何现有的检测器中。根据开创性的GAN工作[9，21]的结构，我们的模型中有两个子网络：生成器网络和鉴别器网络。在生成器中，超分辨率网络（SRN）被引入到上采样一个小的对象图像到一个更大的规模。与直接使用双线性插值调整图像大小相比，SRN可以生成更高质量的图像，并且在SOD-MTGAN3大的放大因子（在我们当前的实现中为4倍）。在discrimi- nator中，我们介绍了目标检测任务的分类和回归分支。真实的和生成的超分辨率图像通过鉴别器网络，该鉴别器网络共同区分它们是真实的还是生成的高分辨率图像，确定它们属于哪个类别，并细化预测的边界框。更重要的是，分类和回归损失被进一步反向传播到生成器，这鼓励生成器产生更高质量的图像以用于更容易的分类和更好的定位。捐款.本文主要有以下三个方面的贡献。(1)提出了一种新的用于小目标检测的统一的端到端多任务生成对抗网络（MTGAN），它可以与任何现有的检测器相结合（2）在MTGAN中，生成器网络产生超分辨率图像，并引入多任务鉴别器网络来区分真实的高分辨率图像和假图像，同时预测对象类别并细化边界框。更重要的是，分类和回归损失被反向传播，以进一步引导生成器网络产生超分辨率图像，以便更容易分类和更好定位。（3）最后，我们证明了MTGAN在对象检测管道中的有效性，其中检测性能比几种最先进的基线检测器提高了很多，主要是针对小对象。2相关工作2.1通用目标检测作为一个经典的主题，在过去的十年左右的时间里，已经提出了许多对象检测系统。传统的目标检测方法是基于手工特征和可变形零件模型（DPM）。由于手工制作的特征的有限表示，传统的对象检测器记录低于标准的性能，特别是在小尺寸的对象上。近年来，随着包括CNN在内的深度神经网络的复兴，图像分类和场景识别方面的卓越性能已经实现[19，32，34]。类似地，由于更丰富的外观和空间表示，对象检测的性能得到了目前，基于CNN的对象检测器可以简单地分类为属于两个框架中的一个：两阶段框架和一阶段框架。基于区域的CNN（RCNN）[7]可以被认为是对象检测的两阶段框架的里程碑，它已经实现了最先进的检测性能。每个区域建议在RCNN [7]中单独处理，这非常耗时。之后，在Fast-RCNN [6]中引入了ROI池，它可以在建议提取和分类步骤之间共享计算，从而大大提高了效率。通过端到端学习这两个阶段，Faster RCNN [29]在检测性能和计算效率方面都有了进一步的提高。然而，这个框架的所有检测器4Yancheng Bai，Yongqiang Zhang，Mingli Ding，Bernard Ghanem在COCO基准测试中，它们在小对象上表现出不令人满意的性能，因为它们没有任何显式的策略来处理这些对象。为了更好地检测小对象，FPN [22]通过自上而下的路径和横向连接将低分辨率、语义强的特征与高分辨率、语义弱的特征相结合，其中学习到的卷积特征图预计包含小对象的强语义信息正因为如此，FPN在检测小物体的任务中表现出优于Faster RCNN的性能。然而，FPN中的低分辨率特征图被上采样以创建特征金字塔，这是倾向于将伪影引入特征中并因此降低检测性能的过程。与FPN相比，我们提出的方法采用超分辨率网络从低分辨率图像生成高分辨率图像（4倍放大），从而避免了FPN中上采样算子引起的伪影问题。在一阶段框架中，检测器直接将锚点分类到特定类别中，并以密集方式回归边界框。例如，在SSD [24]（典型的一级检测器）中，高分辨率的低级中间卷积然而，这些卷积特征通常只捕获基本的视觉模式，缺乏强语义信息，这可能导致许多假阳性结果。与SSD类检测器相比，我们的鉴别器使用深度强语义特征来更好地表示发送小对象，从而降低误报率。2.2生成对抗网络在开创性的工作[9]中，引入了生成对抗网络（GAN），以从随机噪声输入生成逼真的图像GANs在图像生成[4]，图像编辑[35]，表示学习[25]，图像超分辨率[21]和风格转移[16]方面取得了令人印象深刻的结果最近，GAN已成功应用于超分辨率（SRGAN）[21]，取得了令人印象深刻且有希望的结果。与自然图像上的超分辨率相比，例如COCO基准中的特定对象的图像充满了多样性（例如模糊、姿态和照明），从而使得对这些图像的超分辨率处理更具挑战性。事实上，SRGAN生成的超分辨率图像是模糊的，特别是对于低分辨率的小对象，这不利于训练准确的对象分类器。为了缓解这个问题，我们引入新的损失到发电机的损失函数，即。在我们提出的MTGAN中，分类和回归损失被反向传播到生成器网络，这进一步引导生成器重建更精细的超分辨率图像，以更容易分类和更好的定位。3用于小目标检测的在本节中，我们将详细介绍所提出的方法。首先，我们简要描述了经典的GAN网络，为描述我们提出的用于小对象检测的多任务GAN（MTGAN）奠定了基础。然后SOD-MTGAN5图二.提出的小目标检测系统（SOD-MTGAN）的流水线。(A)图像被输入网络。(B)基线检测器可以是任何类型检测器（例如更快的RCNN [29]，FPN [22]或SSD [24]）。它用于从输入图像中裁剪阳性（即对象）和阴性（即背景）示例，用于训练生成器和鉴别器网络，或生成感兴趣区域（ROI）用于测试。(C)正样本和负样本（或ROI）由现成的检测器生成。(D)生成器子网络重建低分辨率输入图像的超分辨率版本（4×放大）。(D)鉴别器网络将真实图像与生成的高分辨率图像区分开，同时预测对象类别并回归对象位置。鉴别器网络可以使用任何典型的架构，如AlexNet [20]，VGGNet [32]或ResNet [12]作为骨干网络。我们在实验中使用ResNet-50或ResNet-101。描述了我们的框架的整个体系结构（参考图2的图示）。最后，我们介绍了MTGAN网络的每个部分，并分别定义了用于训练生成器和鉴别器的损失函数。3.1GANGAN [9]通过对抗过程同时学习生成器网络G和鉴别器网络D。训练过程交替地优化彼此竞争的生成器和迭代器。生成器G被训练以产生样本来欺骗鉴别器D，并且D被训练以区分由G产生的真实图像和伪图像。待优化的GAN损耗定义如下：LGAN（G，D）=Ex pdata（x）[logDθ（x）]+Ez pz（z）[log（1−Dθ（Gω（z）]，（1）其中z是随机噪声，x表示真实数据，θ和ω分别表示D和G的参数这里，G试图最小化目标函数，而D试图最大化它，如等式（2）：arg minGMaxDLGAN（G，D）（2）类似于[9，21]，我们设计了一个生成器网络Gw，它以交替的方式与鉴别器网络Dθ一起优化，以寻求共同解决6Yancheng Bai，Yongqiang Zhang，Mingli Ding，Bernard GhanemTable1. 一般性规则和指示的合理性对网络工作来说是非常危险的。“conv”和“layerr *”表示成本节约，“x5”表示具有5个成本节约的持续时间，“de-conv”表示成本节约，“2x”表示通过2个因素进行的成本节约，“fc”表示完全成本节约。我们不只是使用ResNet-50发布鉴别器网络的架构。发生器鉴别器（ResNet-50）层conv 转换器x5conv 反卷积反卷积 conv conv Layer1Layer2Layer3第四层FC内核编号64646425625636412825651210243内核大小93333931111-步幅1112x2x121222-超分辨率、对象分类和用于小对象检测的边界框回归问题因此，总损失定义如下：arg minWMaxθEHR（，u，v）p列车（IHR、u、v）[logDθ（IHR，u，v）]+（三）ELR（，u，v）pG（ILR、u、v）[log（1−Dθ（Gw（ILR），u，v））]，其中ILR和IHR分别表示低分辨率和高分辨率图像。u是类标签，v是真实边界框回归目标。与[9]不同，我们生成器的输入是低分辨率图像而不是随机噪声。与[21]相比，我们在判别器中有多个任务，其中我们区分生成的超分辨率图像与真实的高分辨率图像，对对象类别进行分类，并联合回归对象位置。具体地，等式（3）背后的一般思想是，它允许训练生成器G，其目标是欺骗可微分鉴别器D，可微分鉴别器D被训练以将超分辨率图像与真实高分辨率图像区分开。此外，我们的方法（SOD-MTGAN）扩展了经典的SRGAN [21]，增加了两个并行分支来分类类别并回归候选ROI图像的边界框。此外，鉴别器中的分类损失和回归损失被反向传播到生成器，以进一步促进其产生也适合于更容易分类和更好定位的超分辨率图像在下面的小节中，我们将详细介绍MTGAN的架构和训练损失。3.2网络架构我们的生成器以低分辨率图像作为输入，而不是随机噪声，并输出超分辨率图像。为了目标检测的目的，判别器被设计为将生成的超分辨率图像与真实的高分辨率图像区分开，对目标类别进行分类，并且联合地回归位置。发电机网络（Gw）。如表1和图2所示，我们采用深度CNN架构，其在[13]中显示出图像去模糊的有效性，在[1]中显示出面部检测的有效性与[13]不同，我们的生成器包括上采样层（即， de-conv）。在网络中存在两个上采样分数步长conv我我SOD-MTGAN7特别地，在这些残差块中，我们使用两个具有3x3内核的conv层和64个特征映射，然后是批量归一化层[15]和参数化ReLU [11]作为激活函数。每个去卷积层由学习的内核组成，它将低分辨率图像上采样为2×超分辨率图像，这通常比通过插值方法重新调整相同图像的大小更好[5，17，33]。我们的生成器首先通过去卷积层将低分辨率小图像（包括对象和背景候选ROI图像）上采样为4×超分辨率图像，然后执行卷积以产生相应的清晰图像。生成器的输出（清晰的超分辨率图像）更容易被鉴别器分类为假的或真的，并执行对象检测（即对象分类和边界框回归）。鉴别器网络（Dθ）。我们使用ResNet-50或ResNet-101 [12]作为鉴别器中的骨干网络，表1显示了ResNet-50网络的架构我们在骨干网络的最后一个平均池化层后面添加了三个并行fc层，它们分别起到区分真实高分辨率图像与生成的超分辨率图像、分类对象类别和回归边界框的作用对于该特定任务，第一fc层（称为fcGAN）使用S形损失函数[26]，而分类fc层（称为fccls）和回归fc层（称为fcreg）分别使用softmax和smoothL1损失函数[6]。鉴别器的输入是高分辨率ROI图像，并且fcGAN分支的输出是输入图像是真实图像的概率（p GAN），fc cls分支的输出是输入图像是真实图像的概率（pcls=（p〇，…pK））是K +1个对象类别中的每一个，并且fc_reg分支的输出是ROI候选的边界框回归偏移（t =（tx，ty，tw，th））。3.3总损失函数我们采用一些最先进的GAN方法[21，16]中的像素和对抗损失来优化我们的生成器。与[21]相比，我们去除了特征匹配损失以降低计算复杂度，而不会牺牲太多的生成性能。此外，我们将分类和回归损失引入到生成器目标函数中，以驱动生成器网络从小尺度图像中恢复精细细节，从而更容易检测。像素损失。我们的生成器网络的输入是小ROI图像，而不是随机噪声[9]。强制生成器的输出（即，超分辨率图像）接近地面实况图像的自然且简单的方式是通过最小化逐像素MSE损失，并且其被计算为等式（4）：1ΣNLMSE（w）=Gw（ILR）−IHRNi ii=1其中ILR、Gw（ILR）和IHR表示生成的小的低分辨率图像我我我超分辨率图像和真实高分辨率图像。G表示生成器网络，W表示其参数。但已知8Yancheng Bai，Yongqiang Zhang，Mingli Ding，Bernard Ghanem我我我MSE优化问题的解决方案通常缺乏高频内容，这导致具有过度平滑纹理的模糊图像。对抗性损失。为了实现更现实的结果，我们将对抗损失[21]引入到目标损失中，定义为等式（5）：1ΣNLadv=N i=1log（1−Dθ（Gw（ILR）（5）对抗性损失鼓励网络生成更清晰的高频细节，以便欺骗鉴别器D。在等式（5）中，Dθ（Gw（ILR））表示解析图像Gw（ILR）是真实高分辨率图像的概率。分类损失。为了完成目标检测的任务，使生成的图像更易于分类，我们引入了分类损失的总体目标。令{ILR，i = 1，2，. . . ，N}和{IHR，i = 1，2，. . . ，N}我我分别表示低分辨率图像和真实高分辨率图像，以及{u，i = 1，2，. . . ，N}表示其对应的标签，其中u∈ {0，… K}指示对象类别。因此，我们将分类损失公式化为：1ΣNLcls（p，u）=−（log（Dcls（Gw（ILR）+log（Dcls（IHR）（6）Ni ii=1其中p/LR=Dcls（Gw（ILR））和p/HR=Dcls（IHR））表示我我我所生成的超分辨率图像和真实的高分辨率图像属于到真范畴ui。在我们的方法中，我们的分类损失扮演两个角色。首先，它引导机器人学习一个分类器，该分类器将高分辨率图像（尽管生成的是超分辨率和真正的高分辨率图像）分类为真或假。第二，它促进生成器恢复更清晰的图像，以更容易分类。回归损失为了实现更准确的定位，我们还将边界框回归损失[6]引入到目标函数，在等式（7）中定义Lreg（t，v）=1ΣNΣ[ui≥1]（SL（tHR−vi，j）+SL（tSR−vi，j））（7）其中，Ni=1j∈{x，y，w，h}.1i 、j1i 、jSL1（x）=0的情况。5 x2 如果|X|<1|-0。| − 0. 5其他（8）其中vi=（vi，x，vi，y，vi，w，vi，h）表示真实边界框回归目标的元组，并且ti=（ti，x，ti，y，ti，w，ti，h）表示预测回归元组tHR和tSR表示第i个实数高分辨率和gener的元组我我的超分辨率图像。括号指示函数[ui≥1]当u，i≥1时等于1，否则等于0关于回归损失的更详细描述，我们请读者参考[6]。与分类损失类似，我们的回归损失也有两个目的。首先，它鼓励探测器回归从基线探测器裁剪的对象候选的位置。其次，它促进生成器产生具有精细细节的超分辨率图像，以实现更准确的定位。SOD-MTGAN9目标函数基于上述分析，我们将等式（5）中的对抗损失、等式（6）中的分类损失和等式（7）中的回归损失与等式（4）中的逐像素MSE损失因此，我们的GAN网络可以通过优化等式（9）中的目标函数来训练1ΣNMax minα（log（1−Dθ（Gw（ILR）+logDθ（IHR））+θ wN我我i=11ΣN−β（log（Dcls（Gw（ILR）+log（Dcls（IHR）+Niii=1ΣNΣ（九）1γ[ui≥1]（SL（tHR−vi，j）+SL（tSR−vi，j））+Ni=1j∈{ x，y，w，h}1i 、j1i 、j1ΣN Gw（ILR）−IHRNi ii=1其中α、β和γ是权衡不同项的权重这些权重在我们的实验中进行了交叉验证。关于w直接优化等式（9）以更新生成器G使得w迅速发散到无穷大，因为大的w总是使得目标达到大的损失。为了更好的行为，我们以固定点优化方式优化目标函数，如在先前的GAN工作[21，16]中所做的那样具体地，我们优化生成器G的参数w，同时保持鉴别器D固定，然后更新其参数θ，保持生成器固定。下面是得到的两个子问题，其被迭代优化为：1ΣNmin（αlog（1−Dθ（Gw（ILR）−βlog（Dcls（Gw（ILR）+wNi=11ΣNγ我[ui≥1]SL（tSR−vi，j）+1我ΣN Gw1（ILR）−IHR（十）Ni=1j∈{ x，y，w，h}1i 、jNi ii=1和min1ΣN−α（log（1−Dθ（Gw（ILR）+logDθ（IHR））+θNi ii=11ΣN−β（log（Dcls（Gw（ILR）+log（Dcls（IHR）+（十一）Ni ii=11ΣNγΣ[ui≥1]（SL（tHR−vi，j）+SL（tSR−vi，j））Ni=1j∈{ x，y，w，h}1i 、j1i 、j方程（10）中的生成器G的损失函数由对抗损失方程（5）、MSE损失方程（4）、分类损失方程（6）和回归损失方程（7）组成，其强制重建图像类似于具有高频细节的真实、对象特定和可定位的高分辨率图像。与以前的GAN相比，我们增加了生成的超分辨率的分类和回归损失Σ10Yancheng Bai，Yongqiang Zhang，Mingli Ding，Bernard Ghanem对象图像到生成器的损失。通过引入这两个损失，从生成器网络恢复的超分辨率图像比仅使用对抗和MSE损失优化的那些更真实。等式（11）中的鉴别器D的损失函数引入分类损失等式（6）和回归损失等式（7）。分类损失的功能是对真实高分辨率图像和生成的超分辨率图像的类别进行分类，这与GAN [9]的基本公式平行，以区分真实或生成的高分辨率图像。在小目标检测领域，我们都知道，一些像素漂移可能会使预测的边界框不能满足评估标准。因此，我们将回归损失（回归分支）引入到递归网络中以更好地定位。4实验在本节中，我们在具有挑战性的公共对象检测基准（即COCO数据集[23]）上验证了我们提出的SOD-MTGAN检测器，其中包括一些消融研究和与其他最先进检测器的比较。4.1训练和验证数据集我们使用COCO数据集[23]进行所有实验。如[23]所述，数据集中的小对象比大/中对象多，大约41%的对象是小的（区域322）。因此，我们使用该数据集来训练和验证所提出的方法。对于对象检测任务，存在在自然环境和日常生活中拍摄的125K图像（即，具有多样性的对象）。随机选择80 K/40 K/5 K的数据分别用于训练、验证和测试根据之前的工作[2，22]，我们使用80k训练图像和35k验证图像的子集（ trainval135k ）的并集进行训练，并报告剩余 5k 验证图像（minival）的消融结果。在评估过程中，COCO数据集根据对象的区域分为三个子集（小，中，大）中型和大型子集分别包含面积大于322和962像素的对象，而小型子集包含面积小于322像素的对象在本文中，我们专注于使用我们提出的MTGAN网络的小对象检测我们使用标准COCO指标报告最终检测性能，其中包括AP（在所有IoU阈值上平均，即[0.5：0.05：0.95]）、AP 50、AP 75和AP S、AP M、AP L（不同尺度的AP）。4.2实现细节在生成器网络中，我们设置权衡权重α = 0。001，β = γ = 0。01.生成器网络从头开始训练，并且每层中的权重使用标准偏差为0的零均值高斯分布初始化。02，并且偏置被初始化为0。为了避免不必要的局部最优，我们首先训练一个基于MSE的SR网络来初始化发电机网络。为SOD-MTGAN11表2.我们提出的方法SOD-MTGAN对COCOminival子集上的基线方法的检测性能（AP）。Faster RCNN [29]和Mask-RCNN [10]的 AP性能由[8]提供显然，SOD-MTGAN优于基线方法，特别是在AP性能提高超过1.5%的小子集上。方法骨干APAP 50 AP75APS APM APLFaster-RCNN（基线）SOD-MTGAN（我们的）ResNet-50-C4ResNet-5036.5 57.339.337.2 57.7 40.218.4 40.6 50.619.9 41.1 51.2Mask-RCNN（基线）SOD-MTGAN（我们的）ResNet-101-FPNResNet-10140.9六十一点九44.841.5 62.5 45.423.5 44.2 53.925.1 44.6 54.1鉴别器网络，我们采用在ImageNet上预训练的ResNet-50或ResNet-101[12]模型作为我们的骨干网络，并添加三个并行fc层，如第3.2节所述fc层由标准偏差为0的零均值高斯分布初始化。1，偏置初始化为0。我们的基线检测器基于ResNet 50-C4的Faster RCNN [12]和ResNet 101的FPN [22]。基线探测器的所有超参数均采用[10]中的设置。为了训练我们的生成器和判别器网络，我们使用我们的基线检测器从COCO[23]trainval135k集合中通过使用具有因子4的双三次插值对高分辨率图像进行下采样来生成对应的低分辨率图像在测试过程中，100个ROI被我们的基线检测器裁剪，然后馈送到我们的MTGAN网络以产生最终检测。在训练过程中，我们使用Adam优化器[18]用于生成器，SGD优化器用于鉴别器网络。SGD的学习率初始设置为0。01，然后在每40k小批量之后减少10倍训练在最多80k次迭代后终止我们交替更新生成器和鉴别器网络，如[9]所示。我们的系统在PyTorch中实现，源代码将公开提供。4.3消融研究我们首先比较我们提出的方法与基线检测器，以证明MTGAN的小物体检测的有效性此外，我们通过比较有/没有这个分支的AP性能，验证了鉴别器网络中的回归分支的积极影响最后，为了验证发生器的损失函数中每个损失（对抗性、分类和回归）的贡献，我们还通过将它们中的每一个逐渐添加到像素MSE损失来进行消融研究。除非另有说明，否则所有消融研究均使用ResNet-50作为鉴别器中的主干网络多任务GAN（MTGAN）的影响。表2（第2行与第3行以及第4行与第4行）第5行）比较了基线检测器与我们的方法在COCO迷你子集上的性能。从表2中，我们观察到我们的MTGAN与ResNet-50的性能优于Faster-RCNN12Yancheng Bai，Yongqiang Zhang，Mingli Ding，Bernard Ghanem图三.我们的MTGAN网络从小的低分辨率补丁生成的超分辨率图像的一些例子。每个图像组的第一列描绘原始低分辨率图像，其被上采样4倍以用于可视化。第二列是地面实况高分辨率图像，而第三列是由我们的生成器网络生成的相应超分辨率图像。(the ResNet-50-C4检测器）在小子集上以相当大的余量（即AP中的1.5%）。类似地，在AP中，具有ResNet-101的MTGAN比具有ResNet-101的FPN检测器提高了1.6% 原因是基线检测器在提取卷积特征图时执行下采样操作（即，与步幅2的卷积）。小对象本身包含有限的信息，并且大部分详细信息将在下采样之后丢失。例如，如果输入是16×16像素的对象ROI，则结果是1×1的C4特征图，并且没有为C5特征图保留任何内容。这些有限的卷积特征映射降低了这种小物体的检测性能。相比之下，我们的方法将低分辨率图像上采样到精细尺度，从而恢复详细信息并使检测成为可能。图3显示了我们的MTGAN生成器生成的一些超分辨率图像。回归分支的影响。如图1所示，不完美的定位是检测误差的主要来源之一。对于小尺寸的对象尤其如此鉴别器中的回归分支可以进一步细化边界框并导致更准确的定位。从表3（第1行和第5行），我们看到当添加回归分支时，小对象子集上的AP性能提高了0.9%，从而证明了其在检测流水线上的有效性对抗性损失的影响。表3（第2行和第5行）显示小子集上的AP下降0.5%而没有对抗性损失。其原因是生成的图像没有对抗性损失是过度平滑和缺乏高频信息，这是重要的目标检测。为了鼓励生成器生成高质量的图像以进行更好的检测，我们使用对抗性损失来训练生成器网络。分类损失的影响。从表3（第3行和第5行）中，我们可以看到，当SOD-MTGAN13表3.我们的SOD-MTGAN模型在具有和不具有回归分支、对抗性损失、分类损失和回归损失的情况下在COCO 最小化子集上训练的性能。“regg+”表示在discriminator中的regresssi 〇 n bran c h，“dv”表示在Eq（ 5）中的 a_d_v_s，“cl_s” 表示在 Eq（ 6）中的 cl_i 〇 n loss，“regg”表示在Eq（7）中的regresssi 〇 n loss。方法 APAP50 AP75 APS APM APL无reg+分支 36.7 57.5 39.819.0 40.949.9无提前损失 37.0 57.6 40.019.4 41.051.0无cls损失 36.8 57.6 39.919.2 41.150.3无reg丢失 36.7 57.6 39.719.1 41.150.2SOD-MTGAN（我们的）37.2 57.7 40.2 19.9 41.2 51.2分类损失被并入。显然，这验证了分类损失促进生成器恢复更精细的详细信息以用于更好分类的主张。在这样做时，鉴别器可以利用精细细节来预测ROI图像的正确类别。回归损失的影响。如表3（第4和第5行）所示，通过使用回归损失来训练生成器网络，AP性能在小子集上提高了近1%。类似于分类损失，回归损失驱动生成器恢复一些精细细节以用于更好的定位。增加的AP证明了发电机损失函数中回归损失的必要性。4.4最先进的比较我们将我们提出的方法（SOD-MTGAN）与COCO测试-开发子集上的几种最先进的对象检测器[24，28，12，22，14，31，10]进行了表4列出了每个检测器的性能，从中我们得出结论，我们的方法在所有子集上都超过了所有其他最先进的方法。更重要的是，我们的SOD-MTGAN在小子集上实现了最高的性能（24.7%），比第二好的对象检测器高出约3%。这种AP改进对于小对象子集是最显著的，这清楚地表明了我们的方法对小对象检测的有效性。4.5定性结果图4示出了由所提出的SOD-MTGAN检测器生成的一些检测结果我们观察到，我们的方法成功地找到了几乎所有的对象，即使有些是非常小的这证明了我们的检测器对小对象检测问题的有效性图4示出了一些失败案例，包括一些假阴性和假阳性结果，这表明在进一步提高小对象检测性能方面仍有进步的空间14Yancheng Bai，Yongqiang Zhang，Mingli Ding，Bernard Ghanem表4.所提出的SOD-MTGAN检测器的性能（AP）和COCO上的其他方法的性能（AP）。方法骨干APAP50 AP75 APS APM APLSSD512 [24日]VGG1626.8 46.5 27.89.028.941.9Yolo9000 [28日]暗网-1921.6 44.0 19.25.022.435.5更快的RCNN+ [12个]ResNet-101-C434.9 55.7 37.415.6 38.750.9FPN [22日]ResNet-101-FPN36.2 59.1 39.018.2 39.048.2G-RMI [14个]inception-ResNet-v234.7 55.5 36.713.5 38.152.0TDM [三十一]Inception-ResNet-v2-TDM 36.8 57.7 39.716.2 39.852.1Mask RCNN [10个国家]ResNeXt-10139.8 62.3 43.422.1 43.251.2SOD-MTGAN（我们的）ResNet-10141.4 63.2 45.4 24.7 44.2 52.6图4.第一章SOD-MTGAN检测器的定性结果绿色和红色框表示地面实况和我们的方法的结果。最好的颜色和放大。5结论在本文中，我们提出了一个端到端的多任务GAN（MTGAN），在不受约束的情况下检测小物体。在MTGAN中，生成器将小的模糊ROI图像向上采样为精细尺度的清晰图像，这些图像通过鉴别器进行分类和边界框回归。为了重新覆盖用于更好检测的详细信息，鉴别器中的分类和回归损失被传播回生成器。COCO数据集上的大量实验表明，我们的检测器提高了最先进的AP性能，其中最大的改进是针对小尺寸的对象。致谢。本工作得到了阿卜杜拉国王科技大学科研资助办公室和国家自然科学基金项目的资助。61603372。SOD-MTGAN15引用1. Bai，Y.，（1996年），美国，张玉，丁，M.，Ghanem，B.：用生成对抗网络在野外寻找微小的面孔。在：CVPR（2018年6月）2. Bell，S.，Zitnick，C.L.，Bala，K.，Girshick，R.：内外网：用跳跃池和递归神经网络检测上下文中的对象。CVPR（2016）3. Dai，J.，李，Y.，他，K.，孙杰：R-fcn：通过基于区域的完全卷积网络工作的对象检测。 In：NIPS. pp. 3794. Denton，E.L.，Chintala，S.，斯拉姆河，Fergus，R.：使用拉普拉斯金字塔对抗网络的深度生成图像模型。 In ： Advances in Neu-raINFORMATIONPR OCESSINSYSSTES28 ， pp.1486-1494 年。CurrranAssociates，Inc.（2015年），http://papers.nips.cc/paper/5773-deep-generative-image-models-using-a-laplacian-adversarial-networks.pdf5. 董，C.，Loy，C.C.，唐X：加速超分辨率卷积神经网络，pp.391-407SpringerInternationalPublishing，Cham（2016）6. G irs hi ck，R. ：Fastr-cnn。 In：ICCV. pp. 1440- 1448年。IEEE（2015）7. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的功能层次结构，可实现准确的数据块和语义段。In：CVP R.pp. 5808. Gir shick，R.， RADOSA VV VVIC，I.， G.，G.，做吧，PHe，K. ：检测。https://github.com/facebookresearch/detectron（2018）9. 古德费洛岛Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A.Bengio，Y.：生成性对抗网。In：Advances inNeuralINFORMATIONPROCESSINGSYSTES27，pp.2672CurrranAssociates ， Inc. （ 2014 ）， http://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf10. H e，K.， G.，G.，做一个R，P。， Girshi ck，R. ：Maskr-cnn。 In：C VPR. pp. 296111. 他，K.，张，X.，Ren，S.，孙杰：深入研究整流器：超越人类水平的图像管理系统。 In：ICCV. pp. 102612. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：CVPR（2016年6月）13. Hradi，M.，Kotera，J.，Zemk，P. roubek，F.：用于直接文本去模糊的卷积神经网络。In：Xianghua Xie，M.W.J.，Tam，G.K.L.（编辑）BMVC。pp. 六、113（2015）14. 黄，J.，Rathod，V.，孙角，澳-地Zhu，M.，Korattikara，A.，Fathi，A.，费希尔岛Wojna，Z.，Song，Y.，Guadarrama，S.，等：现代卷积对象检测器的速度/精度权衡In：IEEE CVPR（2017）15. Ioffe，S.，Szegedy，C.：批次标准化：通过降低计算复杂度来加速深度网络训练。 In：ICML. pp. 44816. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件驱动器的图像到图像转换是一项复杂的工作。 In：CVPR. pp. 112517. 金，J.，Kwon Lee，J.，Mu Lee，K.：使用非常深的卷积网络实现精确的图像超分辨率。在：CVPR（2016年6月）18. 金玛，D.P.， Ba，J.： Adam：随机最佳化的方法。Corrabs/1412.6980（2014）19. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：具有深度卷积神经网络任务的图像网分类。 In：NI

下载后可阅读完整内容，剩余1页未读，立即下载