通过生成图像合成的自监督目标检测

18 浏览量更新于2023-10-14 收藏 12.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

https://github.com/NVlabs/SSOD.86090通过生成图像合成的自监督目标检测0Siva Karthik Mustikovela 1,3* Shalini De Mello 1 Aayush Prakash 10Umar Iqbal 1 Sifei Liu 1 Thu Nguyen-Phuoc 2 Carsten Rother 3 Jan Kautz 101 NVIDIA 2 University of Bath 3 Heidelberg University0{siva.mustikovela, carsten.rother}@iwr.uni-heidelberg.de; aayush382.iitkgp@gmail.com;0T.Nguyen.Phuoc@bath.ac.uk; {shalinig, sifeil, uiqbal, jkautz}@nvidia.com0摘要0我们提出了SSOD -第一个使用可控GAN的端到端分析合成框架，用于自监督目标检测任务。我们使用不带边界框注释的真实世界图像集合来学习合成和检测对象。我们利用可控GAN合成具有预定义对象属性的图像，并使用它们来训练对象检测器。我们提出了一种紧密的合成和检测网络的端到端耦合方法，以最优化地训练我们的系统。最后，我们还提出了一种在不需要标签的情况下，最优化地将SSOD适应于目标数据的方法。对于车辆检测任务，在具有挑战性的KITTI和Cityscapes数据集上，我们展示了SSOD优于先前基于纯图像的自监督目标检测方法Wetectron。即使不需要任何3DCAD资产，它也超过了先前基于渲染的方法Meta-Sim2。我们的工作通过引入基于可控GAN的图像合成的成功新范式，并显著提高了任务的基准准确性，推动了自监督目标检测领域的发展。我们在以下网址开源我们的代码：01. 引言0目标检测在各种自主视觉流水线中起着关键作用，例如机器人和自动驾驶。基于卷积神经网络的检测方法，如[40,32]，取得了令人印象深刻的性能。然而，它们是全监督的，需要大量的人工注释数据，这在获取所有对象类型和操作环境的数据方面非常耗时。当目标领域发生变化时，例如在自动驾驶中从一个城市到另一个城市，它们也无法很好地扩展。为了减少注释，一些现有的工作在不需要边界框注释的情况下训练检测器，并遵循两种范式。第一种是自/弱监督目标检测方法[41, 42,53]，它们使用图像级别的对象存在标签（即自监督）或点/涂鸦注释（即弱监督）。它们还依赖于由高质量对象提议检测到的。0* Siva Karthik Mustikovela在项目期间是NVIDIA的实习生。0可控生成合成0输入0参数0无标签源数据0无标签目标数据0学习图像合成0学习目标分布0注释0合成的0图像0检测网络0推理0训练0目标测试图像0检测结果0图1.自监督目标检测。我们纯粹使用不带边界框标签的自然图像集合学习目标检测。我们利用可控GAN合成图像，并在紧密耦合的框架中一起检测对象。我们从无标签的单对象源图像（例如Compcars[52]）中学习图像合成，并将我们的框架最优地适应任何多对象无标签目标数据集（例如KITTI [15]）。0需要人工注释的方法[57]。第二种范式是基于渲染的方法，包括Meta-Sim [26]和Meta-Sim2[10]，它们从合成图像中学习目标检测。然而，创建这些方法需要大量高质量的3DCAD模型，手动场景设置和昂贵的渲染引擎。这些图像也往往与真实世界的图像存在较大的领域差距。最近，通过使用形状、视点、位置和关键点等输入参数，生成对抗网络（GANs）[16]的可控性得到了很大的进展，为合成具有所需属性的图像打开了可能性。可控的GANs也已成功应用于学习其他视觉任务，例如自监督方式下的视点[34]和关键点[50,56,22]估计，但尚未在自监督目标检测中进行过探索。受到这些启发，我们提出了第一个使用可控GANs进行自监督目标检测的端到端分析合成框架，称为SSOD（图1）。我们学习纯粹使用无标签图像集合合成图像和检测对象，即不需要边界框标签，也不使用3D CAD。86100资产-一个多方面的挑战，之前没有解决。我们使用真实世界的单个对象图像集合学习了一个对象图像合成生成器，而不需要边界框标签。通过利用可控的GAN，我们还获得了相应的边界框注释，提供了对对象的3D位置和方向的控制。为了最优地训练SSOD，我们以端到端的方式紧密耦合合成和检测网络，并共同训练它们。最后，我们学习将SSOD最优地适应多对象目标数据集，同样不需要对其进行标记，并进一步提高准确性。我们在具有挑战性的KITTI[15]和Cityscapes[8]数据集上验证了SSOD的汽车目标检测性能。SSOD的检测准确性明显优于最佳的基于图像的自监督目标检测方法Wetectron [42]。此外，即使不使用任何3DCAD资产或场景布局先验，它也超过了最佳的基于渲染的方法Meta-Sim2[10]。据我们所知，SSOD是第一个探索使用可控GAN完全自监督目标检测的工作。因此，它为进一步研究在这个领域提供了新的范式。SSOD在所有竞争的基于图像的方法上表现出色，并为未来的工作提供了一个强大的基准。总结起来，我们的主要贡献是：•我们提出了一种通过可控生成综合的新颖自监督目标检测框架，仅使用图像集合而不需要任何类型的边界框注释。0•我们提出了一个端到端的分析合成框架，可以以纯自监督的方式最优地适应对象检测的下游任务和目标数据集。0•我们在两个真实世界的数据集上的实验证明，与SOTA基于图像的自监督目标检测方法相比，性能提升了约2倍。此外，没有使用3DCAD资产，SSOD的性能平均优于基于渲染的基准Meta-Sim2 [10]。02. 相关工作0自监督任务学习。最近的几项工作尝试以自监督的方式学习各种2D和3D计算机视觉任务。在2D计算机视觉中，有几项工作解决了对象关键点估计[50, 56, 22]和部分分割[20,7]的问题。[3]在生成的图像中获得了对象掩码。然而，对生成的对象的姿态和风格没有控制。同时，在3D计算机视觉中，有几项尝试学习对象重建[24, 29, 31,30]，视点估计[34]和点云估计[35]。这些工作为解决各自的单个对象图像问题提供了有趣的方法，但没有解决多对象分析的问题。0同时，在使用学习的3D对象表示[37, 36, 38, 45,11]或隐式表示[33, 54,44]进行高质量可控生成综合方面也取得了巨大进展。其中一些作品已经在分析合成框架中用于解决计算机视觉任务，包括3D重建[31, 30, 18,17]，视点估计[34]和关键点估计[22]。然而，之前没有任何工作探索通过可控GAN进行自监督目标检测，我们是第一个这样做的工作。0弱监督目标检测。最近的工作还解决了仅使用图像集合和对象存在的图像级标签进行自监督目标检测的问题。这些方法将问题提出在多实例[4, 49, 53, 41,14]，判别[47]，课程[55, 25,42]或自学习[23]学习框架中。然而，这些方法严重依赖于由方法[57, 1,51]生成的对象提议，而这些方法本身需要人类提供低级别基于边缘的注释。此外，它们也无法根据检测器或目标数据集的要求修改或控制输入图像。相比之下，我们学习了一个可控的合成模块，以合成最大化检测器在目标数据集上的性能。0从合成数据中学习目标检测。像 [ 43 , 6 , 13 , 26 , 10 ,39 ]这样的方法通过图形渲染器从合成数据中学习目标检测。[43 ] 从游戏引擎中获取合成图像和注释。在 [ 6 , 13 ]中，作者在合成模拟器中精确模拟了真实世界数据集（例如，KITTI [ 15 ]）。在 [ 39 ]中，作者通过随机化场景中感兴趣的对象的位置、方向和纹理来合成场景。在 Meta-Sim [ 26 ] 和 Meta-Sim2 [ 10 ]中，作者提出了一种学习最优场景参数以生成与目标数据集类似图像的策略。虽然像 [ 6 , 13 ]这样的方法使用真实世界数据集的注释来模拟合成世界中的数据集，但是像 [ 43 , 10 , 39 ]这样的其他方法在生成合成数据时不使用任何真实世界注释。尽管这些方法仅从渲染数据中学习，但它们需要对象和场景的3DCAD模型以及渲染设置，这些都是昂贵的。此外，图形渲染器通常不可微分，这使得学习和传播梯度以学习下游任务变得困难。此外，合成数据在外观和场景布局方面与真实目标数据存在领域差异，这影响了检测准确性。相比之下，我们的目标是从真实世界图像中学习数据生成和目标检测，而不需要边界框注释，也不需要3DCAD模型或渲染设置。我们基于GAN的框架使我们能够适应目标数据的分布，并合成最适合下游任务的数据。𝐷𝑚𝑠𝑜*𝐷𝑓𝑔𝑔𝐴𝑔𝐼𝑐𝐼𝑔86110合成0网络 ( � )0MLP0背景合成0图像0目标检测适应0检测网络 (� )0姿态0� �0( � � , � � )0风格0前景0目标数据适应0MLP0姿态0� �0( � � , � � )0风格0注释0� ��0� ��0� �� 0从{ I t }中获得高置信度的检测结果0(a) (b)0(c) � �� 0裁剪0真实图像0裁剪的合成对象0合成0背景0真实0背景0裁剪0� � 真实对象0外观适应目标尺度适应0图2. 自监督目标检测概述。SSOD包含三个模块：(a) 姿态感知合成模块，使用可控的GAN生成具有预定义姿态的图像来训练目标检测器；(b)目标检测适应模块，指导合成过程对下游的目标检测任务最优化；(c)目标数据适应模块，帮助SSOD最优地适应目标数据分布。我们以紧密耦合的端到端方式训练所有模块。03. 自监督目标检测 3.1. 问题设置0我们的目标是学习一个最佳的检测网络 F，它可以在目标领域（例如城市的户外驾驶场景）中最好地检测对象（例如汽车）。我们进一步假设我们可以使用来自目标领域的未标记图像集合 { I t }，每个图像中包含未知数量的对象（参见图1中的示例）。为了训练 F ，我们利用由可控生成网络 S合成的对象图像及其边界框注释，而 S也是使用未标记的对象集合进行学习的。具体而言，为了学习 S，我们使用了另一个足够大的未标记（无边界框注释）的单对象源集合 { I s }，其中每个图像只包含一个对象，但不一定来自检测器必须操作的目标领域（参见图1中的示例）。我们在 { I t } 和 { Is }上训练我们的系统，并在目标领域的一个保留的标记验证集上进行评估，该验证集与 { I t } 不相交，从未用于训练。03.2. SSOD概述0我们在图2中概述了SSOD。它包含三个模块：（a）姿态感知合成；（b）目标检测适应；（c）目标数据适应模块。姿态感知合成模块（图2（a））包含一个可控合成网络S。我们通过一个姿态感知生成器对S进行建模，该生成器在给定姿态参数（视点（v）和位置（l））的条件下合成对象的图像{ I g }，并为它们获取2D边界框注释{ A g}。使用合成的图像-注释对0� I g , A g �以及来自{ I t}的图像，我们训练目标检测器F。目标检测适应模块（图2（b））旨在为合成网络S提供反馈，以使其最佳地适应目标检测的下游任务。它紧密地耦合了目标检测器F和合成器S，进行联合端到端训练，并引入特定的损失来指导合成过程，以实现更好的目标检测学习。最后，目标数据适应模块（图2（c））通过引入一组空间局部化的判别网络来帮助减少由S合成的图像与目标域{ I t}之间的域差异。这些网络使合成网络S朝着生成更接近目标数据分布的图像的整体外观和对象尺度进行调整。我们将SSOD分为两个阶段进行训练-解耦和耦合。在解耦训练期间，我们在没有其他模块反馈的情况下对{ I s}上的合成网络S进行预训练。接下来，我们使用S合成图像-注释对，并将它们与{ I t}一起用于预训练F。在下一个耦合训练阶段，我们使用源{ Is }和目标{ I t}图像以及S合成的数据共同微调SSOD的模块。我们交替训练S和其他网络。我们在以下各节中详细描述了SSOD的所有模块。03.3.姿态感知合成我们的姿态感知合成网络S受到最近的BlockGAN[37]的启发，它对于目标检测具有几个理想的属性。它可以通过将背景和前景对象分离来控制场景中的样式、姿态和对象数量。其架构如图3所示。为了使BlockGAN [37]适应Style1MLPStyle2 𝑧𝑓(𝑣𝑓, 𝑙𝑓)Pose2𝐼𝑔86120为了适应目标数据，我们使用MLP块对其进行增强，这些块学习在输入到生成器之前修改前景和背景的样式向量，从而使合成图像更接近目标数据集（图3）。0合成网络S生成包含指定位置和方向的前景对象的场景Ig。网络包含用于前景和背景对象的类别特定的可学习的3D代码，这些代码在训练期间随机初始化并更新。每个对象的3D潜在代码通过相应的一组3D卷积传递，其中对象的样式由前景的输入1D样式代码向量（来自均匀分布）zf和背景的zb通过AdaIN（图3）进行控制。这些3D特征使用其输入姿态（v f，l f）进一步变换，用于一个或多个前景对象。vf的值表示对象的方位角，lf表示其水平和深度平移。每个对象在其自己的3D卷积分支中单独处理。所有对象的生成的3D特征通过逐元素最大操作进行整合，然后通过透视相机变换投影到2D，然后通过一组2D卷积生成I g。原始的BlockGAN[37]以64×64的分辨率生成图像。对于我们的S，我们进行修改并采用渐进增长的GANs[28，27]策略，将其合成分辨率增加到256×256。0我们在GAN设置中训练S，使用场景鉴别器Dscn计算的对抗性损失[2]Lscn如下：0Lscn = -E Ig�psynth[Dscn(Ig)], (1)0其中Dscn(Ig)是场景鉴别器Dscn对合成图像预测的类别成员分数。这是我们用来训练S的多个损失之一。输入到Dscn的真实图像是从{Is}中采样的。0为了训练S，我们使用一组大量的真实图像，每个真实图像中有固定且已知的n个对象{Is}，不需要任何边界框注释。由于我们知道n（在我们的情况下每个图像一个对象），在训练S时，我们可以合成具有相同数量对象的图像传递给鉴别器，使生成器更容易训练。训练S并不需要单个对象图像集合，并且已经在[37]中显示，它可以成功地用2个或更多对象每个图像进行训练。然而，拥有一个具有已知对象数量的大型图像集合{Is}对于训练S至关重要。我们尝试使用具有未知对象数量的目标图像集合{It}（例如KITTI）进行训练，但未成功（详见补充材料第4节）。02D卷积02D0投影0场景0组合03D0变换03D编码0前景103D卷积0（��，��）03D卷积03D编码0背景0风格姿态03D框0投影0计算2D框0合成图像03D0变换0��(��, ��)MLP0MLP03D0变换03D编码03D卷积0前景203D框0投影0计算2D框0��注释0��注释0图3.姿态感知合成网络（S）概述。S以分别用于背景和一个/多个前景对象的样式代码（z）和姿态（v，l）作为输入；使用提供的姿态转换其各自学习的3D代码；并在通过多个3D卷积、2D投影和2D卷积层后合成图像。我们使用提供的姿态来计算合成对象的2D边界框标签。03.3.1 获取边界框注释合成网络S可以使用姿态（vf，lf）生成前景对象。这个关键属性使我们能够在合成图像中定位对象，并为其创建2D边界框（BBox）注释。我们使用对象类的平均3D边界框（在真实世界尺寸中）并使用S的已知相机矩阵和对象的预定义姿态（vf，lf）通过透视投影将其向前投影到2D图像平面上。相机矩阵对于所有合成图像都是固定的。我们通过计算图像平面上投影的3D边界框的最大和最小坐标来获得合成图像Ig的2D边界框Ag。此过程在图3中说明。然后可以使用配对数据�Ig，Ag�来训练目标检测网络F。03.4. 目标检测适应0我们引入了一组目标，监督S合成最适合学习目标检测器的图像。这些目标包括（a）目标检测损失和（b）多尺度目标合成损失，接下来我们将介绍它们。03.4.1 对象检测损失在我们的设置中，我们将对象检测网络F 与 S 紧密耦合，以便它向 S提供反馈（图2（b））。对象检测网络 F是一个标准的特征金字塔网络[32]，它以2D图像作为输入，并预测对象的边界框。它使用标准的对象检测损失（Ldet）[32]进行训练。在训练SSOD时，我们计算由 S合成的图像-注释对 � I g , A g � 的对象检测损失 Ldet，并将其用作更新 S 权重的附加损失项。03.4.2 多尺度对象合成损失对于 S能够合成具有不同深度/尺度的高质量图像非常重要，以便 F可以通过多样化的数据进行最佳训练。因此，为了扩展Ldfg = −EIt∼preal[ct] ∗ Mt + EIg∼psynth[ˆcfg] ∗ Mg, (4)Lbg−Ig∼psynthbg ∗−gLdbg = −EIbt ∼preal[cbt] + EIg∼psynth[ˆcbg] ∗ (1 − Mg), (6)86130为了使 S生成高质量对象的深度范围更广，我们引入了多尺度对象合成损失 Lmso（图2（b））。为了计算它，我们使用合成图像 I g的边界框 A g 并使用 A g的膨胀版本以单位纵横比在可微分的方式下裁剪图像 Ic，以便考虑对象周围的上下文。此外，我们将 I c 调整为256 × 256。然后，我们将 I c 传递给多尺度对象判别器 Dmso。这使得生成的图像与真实图像的外观匹配，背景周围的内容更少，同时提高图像质量。输入到 D mso的真实图像是源集合 { I s } 中的图像，大小也为 256 ×256。多尺度对象合成损失 L mso 如下所示：0L mso = - E I c � p synth [ D mso ( I c )]，(2)0其中 D mso ( I c ) 是 D mso 预测的图像裁剪 I c的真实性分数。03.5. 目标数据适应0我们使用从一个集合中获取的单对象图像 { I s } 对 S进行训练，这些图像不一定来自最终的目标域。因此，合成图像与目标域中的图像之间可能存在域差异（见图1和图4中的示例）。这使得在由 S 合成的图像上训练的 F在目标域上表现不佳。为了解决这个问题，我们引入了一个目标数据适应模块（图2（c）），其重点是使 S能够合成更接近目标数据分布的图像。它使用前景和背景外观损失来监督 S的训练，使合成图像与目标域匹配。此外，它还包含一个对象尺度适应块，将合成对象的尺度与目标域中的对象尺度匹配。我们将合成数据与目标数据集的分布对齐，而不使用任何边界框注释。我们详细描述这些不同的组件。3.5.1前景外观损失我们通过基于补丁的[21]判别器 Dfg（图2（c））计算前景外观损失 Lfg。它以合成的图像-注释对 � I g , A g �作为输入，并预测一个2D类别概率图，ˆ c fg = D fg ( I g)，其中 ˆ c fg 是合成图像 I g的补丁级别的真实性分数。合成网络 S 的前景外观损失（Lfg）如下所示：0L fg = - E I g � p synth [ˆ c fg ] * M g，(3)0其中 * 表示逐元素乘法。M g使损失仅计算合成图像的前景区域。用于训练此判别器的真实图像来自目标集合 { I t}。我们使用在解耦训练的第一阶段中创建的预训练对象检测网络 F 推断目标数据集 { I t } 中的边界框。0预训练 F 并选择一部分具有检测置信度 > 0.9 的图像 { P t}。这形成了一个图像-注释对 � P t , M t �，其中 M t 是图像P t中检测到的前景对象的相应二进制掩码。用于训练判别器 Dfg 的损失计算如下：0其中 c t 是由 D fg 预测的实际图像的分块分类得分。03.5.2 背景外观损失背景鉴别器 D bg也是一个基于分块的鉴别器（图 2 (c)），它预测了 I g中背景区域相对于目标数据 { I t }的真实性。我们通过反转二进制前景掩码 M g来计算背景掩码。合成网络 S 的背景外观损失如下所示：0其中 ˆ c bg = D bg ( I g )预测了生成图像的背景区域的分块真实性得分。用于训练 Dbg 的真实图像是通过在目标集合 { I t }中识别不包含感兴趣对象的补丁来获得的。为此，我们利用预训练的图像分类网络和使用 Grad-CAM [ 46 ]的类别特定梯度定位图。通过这种方式，我们确定了目标集合 { I t } 中不包含感兴趣对象的补丁 { I b t }，它们用于训练 D bg 的背景图像的真实样本。训练 D bg的损失计算如下：0其中 c b t 是由 D bg预测的实际图像的分块分类得分。通过 L fg 和 L bg，我们只更新影响 S的样式和外观的组件。这包括（a）MLP块（图 3）的参数，用于修改前景和背景的样式代码，以及（b）2D卷积层的权重。前景和背景补丁是使用我们的方法计算的注释从合成图像中获得的（第 3.3.1节）。经验上，我们观察到这已经足够有效地学习目标域的前景和背景分布。03.5.3 目标尺度适应我们还通过该模块找到了应该输入到 S中以在目标域上获得最佳性能的目标深度参数的最优集合。为此，我们使用 S 来合成图像-注释对 � I d r g , A d r g �，用于多个不同的目标深度范围 Θ = { d r } ，并且还获得 {α d r } ，它是合成对象的裁剪合成对象的集合。深度 d是用于指定合成对象姿态的位置参数 l的组成部分之一。我们do = argmindiH(Φ(αdi), Φ(βdi)),(7)86140在每个深度范围 d r 内均匀采样深度值。对于每个深度范围d r ，我们使用其相应的合成数据 � I d r g , A d r g �训练一个检测器 F d r 。我们使用 F d r 来检测目标集合 { It } 中所有具有置信度 > 0.85 的对象边界框 { β d r }。最后，我们计算用于合成的最佳输入深度间隔如下：0其中 Φ 计算预训练的图像分类 VGG [ 48 ] 网络的 conv5特征，H 是两个特征分布之间的 Sinkhorn 距离 [ 9]。我们使用一个经过优化深度范围 d o训练的单个对应检测器在目标测试数据上进行最终评估。03.6. 训练过程0我们采用分阶段训练策略来学习SSOD。解耦训练。我们首先分别预训练 S 和 F。我们使用源集合 {I s } 仅对生成器 S 进行监督训练，由鉴别器 D scn 和 D mso进行监督。然后，我们使用 S 合成包含 1 或 2个对象的图像并计算它们的标签。我们使用它们以及使用Grad-CAM [ 46 ] 从目标数据 { I b t }中提取的真实背景区域（在第 3.5.2 节中描述）来预训练F。耦合训练。在这个阶段，我们以端到端的方式将所有网络耦合在一起，并与源集合 { I s } 和目标集合 { I t } 以及 S合成的数据一起进行微调。我们还在这个阶段将 SSOD适应到目标数据。我们使用类似 GAN的训练策略，交替在一次迭代中训练 S 和其他所有网络 D scn、F、D mso 、D fg 和 D bg 。这里 S受到所有其他模块的监督，其训练的总损失为：L syn = λ scn Lscn + λ mso L mso + λ det L det + λ fg L fg + λ bg Lbg , (8)0其中{λi}是各种损失的相对权重。最后，如3.5.3节所讨论的，我们找到了最佳的输入物体深度参数集，将合成数据进一步与目标分布对齐。04. 实验我们验证了SSOD在室外驾驶场景中检测“汽车”物体的能力。我们使用标准的平均精度（mAP）指标在交并比（IOU）为0.5时进行定量性能评估。我们在补充材料中提供了网络架构和训练细节。04.1. 数据集和评估我们使用三个包含汽车图像的数据集来训练和评估SSOD：（a）Compcars数据集[52]作为单车源数据集，（b）两个多车KITTI [15]和Cityscapes[8]目标数据集，包含室外驾驶场景。在训练过程中，我们不使用这些数据集的边界框注释。0Compcars.Compcars数据集[52]是一个包含137,000张图像的野外收集，每张图像中有一辆汽车。它提供了汽车外观、方向和尺度的良好多样性（见图1的示例）。我们将其用作训练我们的可控视点感知合成网络S的源图像集{Is}。KITTI.挑战性的KITTI[15]数据集包含375×1242大小的室外驾驶场景，每个图像中有零个或多个汽车，存在严重的遮挡、反射和极端光照（见图1的示例）。我们将其作为我们的目标数据集{It}之一。我们将其分为不相交的训练（6000个未标记图像）和验证（1000个标记图像）集。我们报告了Easy、Medium和Hard以及其验证集的所有情况[15]的mAP。Cityscapes.类似于KITTI，我们还在具有大小为512×1024的图像的具有边界框注释的挑战性Cityscapes[8]室外驾驶目标数据集上评估了SSOD。我们使用[12]提供的版本，其中包含3000个未标记图像的训练集和1000个标记图像的验证集，如[12]所提供。04.2. 消融研究我们在KITTI数据集上进行消融研究，评估SSOD的每个组件对性能的贡献（表1）。我们使用mAP评估目标检测性能，并计算SinkHorn [9]、KID [5]和FID[19]分数，以比较合成前景物体与KITTI中的物体的外观。注释质量首先，我们估计从我们的流程中获得的注释的准确性。对于生成器合成的260个图像，我们手动注释边界框，并测量它们与我们的流程中的注释之间的mAP。在IoU为0.5时，mAP为0.95，这对于学习目标检测器是合理的。0非耦合训练。我们评估了仅使用S合成的图像训练目标检测器F的有效性，当这些网络分别进行训练而没有耦合时。我们将原始的BlockGAN[37]与分辨率为64×64的两个变体进行比较，分辨率分别为128×128和256×256，我们按照3.3节的描述进行训练。结果显示在表1的前三行中。它们表明，更高分辨率的合成前景物体改善了Sinkhorn、KID和FID指标，这反过来也提高了目标检测器的性能。更高分辨率合成所实现的视觉质量的改进也在图4的前两列中可见。我们还观察到，训练检测器时如果没有使用Grad-CAM找到的背景目标图像，会导致误报检测，并将mAP从56.5降低到51.6。0耦合训练。接下来，我们评估使用耦合合成（S）训练的SSOD变体的性能。Figure 4. Qualitative analysis of image synthesis. The columnsshow images generated by (a) BlockGAN [37] at 64 × 64; and byS for (b) SSOD trained without Lfg, Lbg, and Lmso; (c) SSODtrained without Lmso; and (d) the full SSOD model. Each row hasimages generated with the same pose, and foreground and back-ground style codes. Rows (b)-(d) show 256 × 256 sized images.86150方法耦合 Easy ↑ Medium ↑ Hard ↑ All ↑ Sinkhorn [9] ↓ KID [5] ↓ FID [19] ↓0BlockGAN [37] 64 � 65.1 48.3 40.5 51.3 0.486 0.048 8.3 BlockGAN [37] 128 � 69.4 49.9 44.2 54.5 0.483 0.0467.8 BlockGAN [37] 256 � 72.7 52.1 44.8 56.5 0.481 0.045 7.610SSOD w/o L fg + L bg � 74.7 59.3 52.7 62.2 0.475 0.042 7.22 SSOD w/o L mso � 78.3 65.6 53.5 65.8 0.4710.040 6.86 SSOD w/o OSA � 76.1 61.3 50.9 62.7 0.475 0.042 7.230SSOD-Full � 80.8 68.1 56.6 68.4 0.465 0.037 6.370表1.KITTI上的消融研究。行1-3：在不同图像分辨率下，S中未耦合到检测器的BlockGAN；行4-6：SSOD的不同消融版本，每个版本都删除了一个组件；行7：完整的SSOD模型。列1-3：KITTIEasy、Medium、Hard和All情况下IOU为0.5的mAP值；列4-6：Sinkhorn、KID和FID分数，用于比较合成和真实的KITTI图像中的对象区域。0和目标检测（F）网络。我们评估了SSOD的四个变体：(a)没有目标数据外观适应损失（Sec. 3.5中描述的SSOD w/o Lfg + L bg）；(b)没有多尺度目标合成损失L mso（Sec.3.4中描述的SSOD w/o Lmso）；(c)没有适应目标数据集的目标尺度（Sec.3.5中描述的SSOD w/oOSA）；以及(d)完整的SSOD模型（SSOD-full）。我们观察到，在整个范围内，所有使用耦合检测器训练的SSOD变体（表1的最后四行）的性能明显优于没有使用检测器的变体（表1的前三行）。这个结果验证了我们提出的端到端框架的有用性，该框架将合成网络S适应到目标检测任务以及目标数据集的分布。整体上，我们的完整SSOD模型取得了最好的性能，mAP得分最高为68.4。从SSOD-Full中删除我们各自提出的目标数据外观适应模块（SSOD w/o L fg + Lbg）、目标对象尺度适应（SSOD w/oOSA）和多目标尺度合成（SSOD w/o Lmso）会降低其性能，其中目标数据外观适应模型对SSOD的检测精度影响最大。定性分析。我们定性评估了我们提出的损失对S合成的图像的影响。在图4的每一行中，我们展示了使用相同的前景和背景样式代码合成的图像，但在每一列中使用了不同的损失集合训练的网络S。第2-4列的分辨率为256×256。我们在行之间变化前景和背景样式代码。所有对象都在相机远离的位置合成。图4（a）显示了原始BlockGAN[37]在64×64分辨率下合成的图像质量较差。图4（b）显示了我们的方法在更高分辨率下使用耦合目标检测器训练时合成的图像，可见性更好。通过添加目标数据外观适应损失（L fg + Lbg），图像（图4（c））与目标分布的外观相匹配。最后，添加多尺度目标合成损失Lmso可以得到最佳结果（高视觉质量和外观）。0SSOD-Full0BlockGAN SSOD w/o0� �� +0(a) (b) (c) (d)0与目标分布的对齐度量）。这些定性结果与定量结果相一致：表2中的Sinkhorn、KID和FID指标。4.3.与最先进方法的比较在KITTI数据集上，我们将SSOD与现有的方法Wetectron [42]和PCL[49]进行比较，这些方法能够在不需要边界框注释的情况下训练目标检测器。这些方法与SSOD类似，仅使用未标记的图像集合训练目标检测器。它们也不使用3DCAD模型，因此是与SSOD最直接可比较的方法。Wetectron [42]是最好的方法。86160方法 3D Assets Easy ↑ Medium ↑ Hard ↑ All ↑0PCL [49] 47.3 32.9 19.4 33.2 Wetectron [42] 51.3 37.925.1 38.1 SSOD-Full（我们的方法）80.8 68.1 56.6 68.40Meta-Sim * [26] � 65.9 66.3 66.0 66.0 Meta-Sim2 [10] �67.0 67.0 66.2 66.70表2.与SOTA的比较。SSOD和各种SOTA方法在KITTI上的目标检测性能（IOU为0.5的mAP）。0与先前方法的性能。我们使用Compcars[52]和KITTI的[15]训练集组合来训练Wetectron和PCL；使用图像级别标签来表示目标的存在/不存在；从Edgeboxes[57]获取目标提议；并在KITTI的验证集上进行评估。结果如表2所示。与Wetectron（All的mAP为38.1）和PCL（All的mAP为33.2）相比，SSOD（All的mAP为68.4）具有约2倍更好的检测精度。我们认为SSOD的优越性能源于其使用姿态感知合成器为训练目标检测器生成数据。GAN改善了训练数据的多样性，并且还能够最优地适应目标数据上的目标检测任务。我们还将SSOD与基于渲染的SOTA方法Meta-Sim[26]和Meta-Sim2[10]进行了比较。它们纯粹使用合成渲染数据训练目标检测器，并在未标记的真实世界数据集上进行评估。它们需要大量的3DCAD模型库，因此使用强几何先验。相反，SSOD不使用任何3DCAD资产。实际上，它的合成网络可以被视为仅从对象图像集合中学习的可控渲染器，而不需要几何先验。有趣的是，即使没有使用任何强几何先验，SSOD在KITTI的Easy、Medium和All情况下都超过了Meta-Sim和Meta-Sim2（表2）。对于Hard情况，由于遮挡对象的图像质量较低和2D边界框标签的精度较低（见第4.5节），SSOD的性能低于Meta-Sim和Meta-Sim2。然而，令人兴奋的是，即使没有使用3D资产，仅仅通过从图像集合中学习，SSOD也能够与需要大量监督的基于渲染的方法竞争。04.4.附加数据集SSOD的一个优势是它可以适应不同的目标数据集。为了验证这一点，我们还在Cityscapes[8]上评估了其性能。我们评估了在Compcars和Cityscapes上训练的完整SSOD模型；去除了特定单个组件的消融版本（如第4.2节中所述的耦合训练）；在S中未与检测器耦合并仅使用Comp-cars进行训练的BlockGAN；以及在Compcars和Cityscapes上训练的竞争方法Wetectron（表3）。与KITTI类似，对于Cityscapes，SSOD-Full取得了最佳性能。0*我们报告的Meta-Sim版本不使用KITTI[15]数据集的标记验证图像进行检测准确性值的计算。0方法 mAP ↑ Sinkhorn ↓0Wetectron [42] 18.2 0.549 BlockGAN[37] 256 22.7 0.5310SSOD w/o L fg + L bg 27.2 0.520SSOD w/o L mso 28.5 0.515 SSODw/o OSA 29.1 0.5140SSOD-Full 31.3 0.5060表3.Cityscapes上的性能。Cityscapes上的目标检测性能（IOU为0.5的mAP）和合成数据质量分析（Sinkorn）。0图5.KITTI上的精确率-召回率曲线。SSOD的曲线，IOU阈值为0.5（粗线）和0.45（虚线）。0(mAP of 31.3). 移除 L fg + L bg对SSOD适应Cityscapes的帮助，对其性能影响最大。与未耦合的BlockGAN相比，与检测器一起训练的所有SSOD变体在S上表现更好。SSOD-Full的性能也显著优于Wetectron（mAP为18.2）。04.5.结果讨论SSOD在KITTI的Hard情况下召回率较低，因为它无法检测到严重遮挡的汽车（见补充材料中的示例）。图5显示了SSOD在KITTI上的精确率-召回率曲线，IOU阈值为0.5（实线）和0.45（虚线）。此外，使用较低的IOU阈值0.45，其mAP提高：Easy从80.8提高到83.5，Medium从68.1提高到73.2，Hard从56.6提

下载后可阅读完整内容，剩余1页未读，立即下载