广义目标检测的域不变解纠缠网络

34 浏览量更新于2023-10-13 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8771用于广义目标检测的域不变解纠缠网络创琳1* 袁泽焕2赵思成3孙培泽4王常虎2蔡建飞11蒙纳士大学数据科学与AI系2字节跳动AI实验室3哥伦比亚大学4香港大学摘要我们解决的问题域泛化对象检测，其目的是学习一个域不变的检测器，从多个“看到”域，使它可以推广到其他“看不见”域。泛化能力在实际场景中是至关重要的，特别是当难以收集数据时。与图像分类相比，对象检测中的域泛化很少被探索，图像和实例级别上的域间隙带来了更多的挑战。在本文中，我们提出了一种新的通用的目标检测模型，称为域不变解纠缠网络（DIDN）。与直接对齐多个源相反，我们将一个解纠缠网络集成到Faster R-CNN中。通过在图像和实例级别上解开表示，DIDN能够学习适用于广义对象检测的域不变表示。此外，我们设计了一个跨级别的表示重建，以完成这两个级别的解开，使信息对象表示可以保留。在五个基准数据集上进行了大量1. 介绍目标检测是计算机视觉中的一个基本而又具有挑战性的问题。它旨在识别和定位图像中某些类别的所有对象实例。在过去的几年中，我们已经见证了监督对象检测的重大突破[9，2，30，24，10，3]在各种各样的应用中。基准数据集[17，33，8，42]。然而，由于自然场景的复杂性和多样性，在实践中执行对象检测仍然具有挑战性。学习通用对象检测器需要收集大量数据，这在具有各种领域的真实场景中是非常昂贵的。另一种方法是将学到的知识*本作品是庄琳在字节跳动实习期间完成的。我们的方法源域1源域2不可见目标域训练过程推理过程独立于域的内容直接对齐图1.我们的方法域泛化对象检测的说明。如果直接将现有的域自适应方法[12，46，40，32，47，1]扩展到未知域，则由于在训练中没有可用的数据，因此无法推广到未知域我们的方法首先提取域独立的对象内容，以避免完全匹配所有的源域。进一步，我们学习了一个共享的特征空间，保留信息对象表示的域泛化。从标记的源域到另一个不同但相关的目标域的知识。然而，由于存在数据集偏倚或域转移[35]，即，观测数据和标签的联合概率分布在不同的域中是不同的，直接传送可能不能很好地执行。无监督域自适应（UDA）是解决这个问题的最流行的尝试之一，并且已经做出了相当大的努力[12，46，40，32，47，1，15]。给定良好标记的源数据和没有标记的已知目标数据，UDA的思想是对齐源和目标域之间的数据分布，使得源上的训练模型可以很好地泛化到目标[45]。然而，这些方法仍然需要预先收集目标数据并针对不同目标域重新训练模型。因此，很难将领域自适应方法扩展到目标数据不可用的场景本文主要研究领域可泛化对象8772检测，更一般的问题，其不依赖于目标数据，并且旨在直接从多个源域学习通用对象检测器。希望，检测器可以在任何以前“看不见”的目标域上表现良好可泛化对象检测的主要挑战仍然在于跨多个域的臭名昭著的域转移一方面，域移位不仅在图像级（例如，天气、时间、场景布局等）上表现，而且在实例级上（例如，对象外观、大小等）。所得到的模型需要在两个级别上学习不变另一方面，关于域自适应的现有方法通过直接匹配源域和已知目标域之间的分布来对齐特征空间，这在训练期间可用然而，当目标数据不可观察时，仅匹配多个源域将不足以用于一般化对象检测，因为它可能无法学习用于不可见目标域的良好对准的特征空间，如图1所示。为了解决上述挑战，在本文中，我们提出了一个新的框架，可推广的对象检测。受最近图像翻译的解纠缠作品[28]的启发，我们提出了一个域不变解纠缠网络（DIDN）来学习通用对象检测器。该网络由三部分组成：图像级解纠缠、实例级解纠缠和跨级重构。图像级和实例级解纠缠旨在明确地将表示空间解纠缠为域独立和域排他部分。通过将它们集成到Faster R-CNN框架中，两级解纠缠使得DIDN能够提取适合于对象检测的通用特征。我们认为，在这两个层次上的对象的一致性表示更有助于保持信息特征的对象检测。我们进一步实施了一个跨级别的重建，以补充检测模型，因为两个级别的disentangles是相互独立的。总之，本文的贡献有三：1) 我们建议将对象检测从多个源推广到以前看不见的域。据我们所知，这是第一个工作，探索领域的泛化对象检测。2) 我们开发了一个新的端到端的学习框架，称为DIDN，学习域不变的表示在图像级和实例级的泛化对象检测。3) 我们在多个基准数据集上进行了广泛的实验在Cityscapes、Foggy Cityscapes和BDD100k上，DIDN在mAP方面的表现分别优于最佳基线2. 相关工作2.1. 域自适应目标检测为了消除域偏移，已经提出了许多用于无监督域自适应对象检测的方法[12，46，40，37，47，1，39，15，4，20，21，18，38，19，13]。它们通常通过利用目标数据分布来实现特征空间对齐例如，Hsuet al. 将源图像和目标图像馈送到共享特征提取器，以根据中心度图模块[12]生成中心感知特征。 Zheng等在由粗到细的方案中，通过公共特征空间中的多层对抗学习来对齐源和目标边缘分布[46]。引入了图诱导原型对齐（GPA）框架，用于通过精心设计的原型表示进行类别级域Saito等人提出了一种弱对齐模型，该模型将对抗性对齐损失集中在全局相似的源和目标上，而不太强调全局不相似的部分[32]。所有这些方法都需要预先收集目标域数据，这可能不适合现实世界的情况。在我们的工作中，我们的目标是开发一个通用的对象检测模型，只在多个源上训练，并在看不见的目标上测试。2.2. 面向分类的作为一项实际任务，领域泛化已经被广泛研究用于图像分类，其可以分为两个流：学习域不变性和增强源域，其中前者旨在对齐多个源的特征空间，而后者拓宽了学习特征空间。特别地，学习域不变性的方法通常最小化具有对抗损失或距离损失的多个源域之间的差异。沿着这条线，Muandetet al.通过最小化跨域的最大均值差异（MMD）来学习不变变换Li等扩展的对抗性自动编码器来对齐分布并将对齐的分布与任意先验分布匹配[23]。此外，元学习也被应用于学习域不变特征，将训练集分为元训练集和元测试集。Qiao等人放松了Meta学习方案中广泛使用的最坏情况约束[29]。Li等开发了一种基于梯度的元学习算法，该算法要求提高训练域性能的步骤也应该为了提高覆盖目标域范围的可能性，该方法通过多样化样本在第二流源域中对于图像级增强，Yueet al.将源域图像转移到多个样式，每个样式称为辅助域[43]。对于特征级增强，Huang等人反复挑战DOM-8773∼∼XYXY我∈我我XY我我我不j=1imgjNtinant特征被激活，并迫使网络激活与标签相关的其余特征[14]。与这些工作不同的是，我们专注于对象检测问题，这是更具挑战性的域移位发生在图像级和实例级。据我们所知，这是第一次从域概括对象检测的角度来看。2.3. 超越分类的最近，领域生成工作的出色表现[43，16，44，36，34]甚至超过了主要的适应方法，这刺激了其在其他任务上的应用，例如语义分割 [43 ， 44]，个人 ReID[34]，人脸呈现[36，16]等。特别地，Song et al.提出了一种深度ReID模型，使用单次拍摄来学习人物图像与其身份分类器之间的映射[34]。Jia等人开发了一个特征生成器，使来自不同领域的真实人脸无法区分，但排除了虚假的人脸，从而形成了单边对抗学习[16]。Zhang等人提出了通过在训练中利用模型不可知学习和在测试中开发目标特定的归一化来然而，对象检测是与上述任务技术上不同的问题。与分类任务相比，我们将更多地关注感兴趣对象的在这项工作中，我们建立了一个可推广的模型，考虑区域部分在一个端到端的方式的对象检测。3. 问题设置设X表示非空输入空间，Y表示任意输出空间。我们定义BX×Y为X × Y上所有概率分布的集合。形式上，域是从BX X Y采样的联合分布PXY。域不是直接观测的，而是通常通过数据集观测的。我们认为具有多个标记的源域S1，S2，...，SM的域泛化场景，其中M是可以通过下面的例子来说明。考虑A是包含雾天的伦敦的家庭轿车的域，而B包含雨天的德国街道上的跑车我们的想法是找到一个共享的领域代表一辆车在街上，而不管域的具体信息，如天气，城市场景，和汽车的风格。换句话说，我们希望将源分离到共享域C：g（Si）PC和特异性结构域D：f（Si）PD.此外，为了更好地规范解纠缠，我们进一步引入函数d以重构原始分布：d （ g （ Si ）， f （ Si ）） Pi.（1）映射g被期望从源移除域特定信息，保留共享对象信息.以这种方式，可以预期在共享域上训练的模型在任何先前“看不见的”目标域上表现良好4. 方法图2给出了我们提出的用于可推广对象检测的域不变解纠缠网络的概述。它由三个主要部分组成：图像级解纠缠、实例级解纠缠和跨级重构。前两个组件旨在分别在图像和实例级别将表示空间分解为共享表示空间C和特定表示空间D，而最后一个组件是通过跨级别重构连接两个分解。在下文中，我们详细描述每个部件。4.1. 图像级解纠缠由于目标领域数据不可用，从多个源学习与领域无关的表示对于模型泛化至关重要为了推广到未知的目标领域，需要学习领域无关源在第i个源域中，S=（xj，yj）Ni 是山姆ii ij=1其中，Ni表示Pl中的样本的数量。Si，Xj表示观察到的图像，并且yj=（b，j，c，j）表示具有边界框坐标的对应标签b及其相关类别c.虽然不同源域下的xj（i M）来自相同的输入空间，但是它们的分布是不同的，可能具有复杂性。重叠和交互关系。除非另有说明，我们假设yj∈Y共享相同的图像内容来自多个来源。图像级分解的目的是明确地将图像表示分解为领域独立和领域排他的部分。受[28]的启发，通过具有域对抗训练的图像重建来实现解纠缠具体地，一组编码器被学习以从多个源解开域独立的图像内容对于每个源域Si，我们引入一个编码器Ei来提取域独占部分，并且引入另一个编码器Ec来提取域独占部分。班客观分析。使用多个可见域S1，S2，…，SM，我们的目标是产生可以在目标域ST={x}上表现良好的检测模型。域无关图像内容。 Ec共享于多个源并且还用作检测器主干。由于独占部分和共享图像内容应该恢复图像，因此我们采用生成器G来确保从未知分布P T中提取.我们的动机地层完整性相应的重建损失8774i、j第{}个imgΣlog D（E（x））。CJ2Lins--L域专用编码器Ei跨层重建跨级生成器G对象RoIAlign映像级发生器Gimg*+jrec$m&rec域独占编码器A（独立域编码器Ec实例级发电机GinsRoIAlign独立域编码器E输入&$-srec查看域名RPN类bbox（e$m&a（$-sa（域分类器#im$图像级解纠缠中&的域分类器实例级解纠缠图2.概述我们提出的新框架称为DIDN。带箭头的彩色实线表示训练阶段中的操作，而红色箭头表示推理管道。定义为：imgi∈Ec（xi）。之后，内容特征被馈送到对象检测器。2Lrec=ExiSi（G img（E i（x i），E c（x i））− x i）。（二）为了鼓励来自不同域的图像内容是相似的，一组成对分类器Di，j=Dii=j被训练以区分第1个卷积块中的源i和源j，而编码器E。旨在欺骗它们。分层域分类器被构造为从域独立编码器捕获丰富的中间信息。我们交替地优化编码器和分层域分类器，以形成域独立特征空间的最小-最大游戏。相应的对抗损失函数可以写为：L=ExSΣlog[1−Di，j（Ec（xi））]4.2. 实例级解纠缠在可推广的目标检测中，域移位不仅表现在图像层面，还表现在实例层面，包括目标外观、大小、视点等。对于每个可能的区域提议 ri ， k ， RoIAlign 层（RoI）[10]用于提取固定大小的特征图pi ，k=RoI（Ec（ri，k））。与图像级相似，实例级解纠缠是通过领域对抗训练的实例重构来实现的。增补─此外，由于实例与类别信息相关，我们采用条件域分类器。具体地，我们应用一对编码器Eapp和Eins来分别提取外观和实例内容信息。Adv我我l=1（三）Eins 也可用作Faster的RoI Head中的对象编码器+ExjSjLi，j ll=1CNN生成器Gins还用于重构实例特征图p′i，k。实例层重构损失函数被定义为：当量 (3)本质上鼓励ij对共享的Lins=ExS（p′-pi，k）。（四）Dl将xi和xj的内容特征分为0和1，同时鼓励使E c欺骗D ij以产生相反的结果。借─p′i，krec=Gins我（Eapp我（pi，ki，k），Eins（pi，k））。（五）通过在所有成对域分类器上使用这一点，我们确保域特定特征在很大程度上从内容表示Ec（xi）中移除，即无法识别域具体地，我们将源域分类器扩展到具有建议ri ，k的预测类别信息ci ，k的条件域分类器Di，ji=j。类似于8775国际新闻社insΣL =（GimginsrecrecobjE、GD数据集大小场景天气时间#C城市景观（C）3475城市街道良好/中等天气条件白天8Fog Cityscapes（F）3475城市街道雾白天8SIM 10k（S）10000合成街太阳，雾，雨，霾夜晚，早晨，黄昏1KITTI（K）7481城市街道，公路，农村良好/中等天气条件白天9BDD100k（B）100000城市街道，高速公路雨，雪，云，阴天白天，夜晚11表1.数据集的比较。“#C”是数据集中类别的数量。很明显，现有的数据集遭受域转移问题，由于大小，场景，天气，时间和类别的相互作用和不相交。当量（3）、实例级对抗性损失可以写为：其中E、G和D表示我们模型中的所有编码器、生成器、域分类器推论是L=log[1−D（Eins（pi，k）|ci，k）]重量轻（见图中的红色箭头）2）由于许多建筑物Advins+logDij （Ein s（pj，k）|cj，k）。（六）块仅用于训练。推理速度与Faster R-CNN相同。以这种方式，在图像级和实例级的解开导致以域不变的方式从图像内容到实例表示的多个源的对准4.3. 跨层重建为了进一步补充两级解纠缠，我们设计了一个跨级重建，以保持信息。由于更快的R-CNN必须考虑不同大小的建议ri，k，因此在RoIAlign中丢失了一些对象信息。为了规避这个问题，训练跨级生成器以在像素级重构对象以用于两级解纠缠的信息完整性，为此，在图像级的域独占信息也被馈送到生成器中。我们用图像级中的域线索和实例级中的重构特征图p′i，k重构像素级对象，其中跨级重构如下：损耗：5. 实验5.1.实验设置数据集。考虑到我们的目标是模拟一个真实世界的场景，其中检测模型可能会使用许多公共数据集进行训练，希望它可以很好地泛化到一个看不见的领域。为此，我们采用了许多现有的大规模对象检测数据集，包括Cityscapes [5]，Foggy Cityscapes [5]，SIM10k [17]，KITTI [8]和BDD 100k [41]。我们在表1中总结了这五个数据集。Cityscapes[5]数据集是用于驾驶场景的城市场景数据集。图像由车载摄像机捕获。Foggy Cityscapes[5]是一个合成的雾数据集，它模拟了真实场景中的雾。使用来自Cityscapes的图像和深度图渲染图像。它们在训练集中都有2，975张图像，在验证集中有500张图像。BDD 100k[41]接收目标k∈Oobj（p′i，k、RoI（Ei（ri，k））−ri，k）2、（7）由真实的驾驶平台收集并在街道上捕获。这是一个令人满意的大规模，多样化的数据集的时间信息。我们只使用验证集，包括其中O表示所有可能的区域提议。4.4. DIDN学习DIDN的总体目标损失函数可以写成：LDIDN=Ldet+λa（L+L）在我们的实验中有10,000张图片。KITTI[8]是由一个标准的旅行车与两个高分辨率的摄像机，因此有交叉摄像机的差异。KITTI[8]是一个自动驾驶数据库，包含7，481个图像。SIM 10k[17]包括由游戏引擎GrandTheft Auto渲染的10，000个图像。AdvAdv（八）实施详情。有八个共享的cate-+λr（Limg+Lins）+λcLrec，其中λa、λr和λc表示在图像和实例级别平衡对抗损失、重建损失和跨级别重建损失的权重，Ldet包括Faster R-CNN中的所有标准检测损失。训练过程本质上是解决以下优化问题：BDD100K 然而，在SIM 10k和KITTI中仅注释Car因此，我们在两个设置中进行实验。第一个是使用Cityscapes、Foggy Cityscapes和BDD100k，其中有八个共享类别，其中两个作为源域，左边的作为目标域。注意，对于BDD100k，由于存在R*= arg minmaxLCityscapes、Foggy Cityscape8776、（9）很少有“训练”对象，我们只评估七个BDD100k的类别第二个设置是使用所有吗8777DG设置方法人骑手车卡车总线火车电机自行车地图单最佳36.039.853.615.831.411.526.935.031.2FB到C合源直接对齐43.041.648.949.262.761.542.740.355.957.739.442.234.835.037.938.545.345.7DIDN（我们的）43.6 ↑0. 6 46.2 ↓3. 0 63.2 ↑0. 5 41.9 ↓0. 8 60.9 ↑3. 2 51.1 ↑8. 9 36.0 ↑1. 0 41.3 ↑2. 8 47.9 ↑2. 2Oracle-按目标进行培训44.751.663.542.058.645.842.044.449.1单最佳25.030.030.014.218.55.015.026.620.5CB至F合源直接对齐31.725.639.539.348.942.728.222.134.334.012.919.521.822.132.830.131.327.4DIDN（我们的）31.8 ↑0. 1 38.4 ↓1. 1 49.3 ↑0. 4 27.7 ↓0. 5 35.7 ↑1. 4 26.5 ↑7. 0 24.8 ↑2. 7 33.1 ↑0. 3 33.4 ↑2. 1Oracle-按目标进行培训36.147.152.732.149.556.036.037.043.3单最佳27.927.543.116.615.1-5.621.019.6FC到B合源直接对齐30.031.322.621.444.644.816.518.611.613.3--6.25.820.120.918.919.1DIDN（我们的）34.5 ↑3. 2 30.4 ↑7. 8 44.2 ↓0. 6 21.2 ↑2. 6 19.0 ↑3. 9 -9.2↑ 3. 022.8 ↑1. 8 22.7 ↑3. 1Oracle-按目标进行培训35.532.150.933.728.9-13.527.530.8表2. Cityscapes（C）[5]、Foggy Cityscapes（F）[5]和BDD100k（B）[41]上的域泛化结果（%）。最佳类别AP和mAP以粗体突出显示。Single-best表示从在每个源上训练的Faster R-CNN中选择最佳性能，Source-combined表示将所有源域组合为传统的单个域，Directly Align表示扩展域自适应方法，直接匹配特征空间中的所有源域。方法CBSF至KCFKS至B单最佳74.338.6合源75.248.2直接对齐75.645.1DIDN（我们的）76.8 ↑1. 252.3 ↑4. 1表3.Cityscapes上的域综合结果（%）(C)[5]，Foggy Cityscapes（F）[5]，BDD100k（B）[41]，Sim10k(S)”[17]，《易经》云：“君子之道，焉可诬也？”[18]五个数据集，但只考虑汽车类别的多源域泛化。在实验中，我们选择了四个数据集作为源域，左边的一个作为看不见的目标域。注意，SIM 10k仅被视为源域数据集而不是目标数据集。这是因为它是一个模拟数据集，从模拟到真实的泛化是有意义的，而不是相反。我们采用更快的R-CNN [31]和RoIAlign [10]，并在Py- torch [27]中使用maskrcnn-基准[25]实现我们的模型。虽然单阶段检测器已经成为流行的范例，但FasterR-CNN被认为是最具代表性的两阶段检测器，并且仍然是性能最好的检测器。我们将来会考虑其他骨干。在ImageNet [6]上预训练的ResNet-50 [11]被用作检测器的主干，这也是我们模型中的域独立编码器。在所有实验中，除非特别指定，否则调整所有训练和测试图像的大小，使得它们的较短边具有600个像素。我们使用SGD优化器，首先以lr = 0的学习率进行训练。002，然后Ir=0。0002进行另外60K次迭代。学习率预热策略[31]用于训练的前200次迭代。我们将遵循[25]。表 4. DIDN 中的每个组件在 Cityscapes （ C ）、 FoggyCityscapes（F）和BDD100k（B）上进行域概括的有效性。Img：具有图像级分解的更快R-CNN;Ins：具有实例级解纠缠的更快R-CNN;Comp：将两级解缠与跨级重建相连接。超参数在我们的实验中，两个NVIDIA V100 GPU用于训练。每个批次由来自每个源域的两个图像组成，例如每批来自四个源的八个图像以适合两个GPU。我们采用阈值为0.5的平均精度（mAP）来评估所有类别的结果。基线。我们将原始的Faster R-CNN模型作为基线，它是在源域上训练的，不考虑域间隙。我们考虑两个变体：(1)单最佳，即在每个单一来源上训练，我们选择所有训练模型中表现最好的一个DG设置ImgInsComp地图✓✓✓✓✓✓✓47.1FB到C46.147.347.9✓✓✓✓✓✓✓32.1CB至F31.933.233.4✓✓✓✓✓✓✓21.1FC到B20.322.222.78778（一）（b）第（1）款（c）第（1）款图3.图像级解缠结结果的可视化（a）、（b）、（c）分别是源图像，以及分解的内容和样式图像。看不见的目标;（2）源组合，即所有源域被组合成传统的单个源。此外，我们将域自适应方法[7]扩展为另一个名为Directly Align的基线，其中域分类器被训练为直接对齐共享特征空间中的所有源该基线是通过添加连接到Faster R-CNN主干的主分类器来构建的，以确保来自不同域的特征分布尽可能不可区分。我们还在表2中报告了 oracle设置的结果，其中模型在目标域上进行了5.2. 域泛化结果表2和表3分别给出了两种不同设置下不同方法的定量结果从结果中，我们有以下观察结果。(1) 其中，单源最佳和源合并的纯源方法的性能最差。源代码方法，即直接将在源上训练的更快的R-CNN转移到目标，在所有设置中都会大大下降。这是由于域偏移或数据集偏差。特定的域线索导致FasterR-CNN到看不见的目标域的可转移性较低(2) 简单地组合多个源的训练并不能保证比相应的单一最佳方法更好的性能。例如，在表2中的FC到B的设置中，单最佳的性能优于源组合方法。这表明，虽然组合多个源会产生更多的训练数据，但它们可能会相互干扰。(3) 直接对齐所有源域的分布对于可推广的对象检测是不够的。在CB到F和CFKS到B的两种设置中，直接对齐源未能提高泛化能力。这表明域自适应方法在域泛化中不起作用，其中在训练期间没有可用的目标数据。(4) 表 2 显示，与基线相比，我们的方法在Cityscapes、Foggy Cityscapes和BDD100k中分别实现了2.2%、2.1%和3.1%的改进。我们可以看到，所提出的方法是能够alle-viate域间隙在大多数类别。具体来说，即使BDD100k中只有几个此外，我们的方法在“自行车”和“电机”类别中有显着的改进，这是高度相似的对象外观。这些结果进一步揭示了我们模型中的实例级解纠缠能够学习域不变的实例表示。我们发现，“公共汽车”和“汽车”经常同时出现在一个图像中。改进表明，该方法能够消除空间的相互作用。此外，我们发现，所提出的方法是可比的，甚至更好的Oracle模型在几个类别。(5) 如表 3 所示，对于 Cityscapes 、 FoggyCityscapes、BDD100k、Sim10k和KITTI的领域概括，所提出的方法分别实现了1.2%和4.1%的改进。与BDD100k的结果相比，KITTI的改善相对较小。原因是，由于Cityscape和KITTI之间的场景相似，因此对于将单个源泛化到目标的性能已经很好了。从另一个角度来看，所有四个源都与BDD100k有明显的差距，这证明了我们的模型有能力很好地推广看不见的目标。5.3. 消融研究各组成部分的有效性。为了证明所提出的模型中不同组分的有效性，我们在表中提供了每个组分的结果4.图像级和实例级解缠的效果均优于基线解缠，这说明图像风格和实例外观都存在领域鸿沟。图像级和实例级双齿-(1)天气(2)场景(3)时间8779方法人骑手车卡车总线火车电机自行车地图只有源26.938.235.618.332.49.625.828.626.9[32]第三十二话31.844.348.921.043.828.028.935.835.3SC-DA [47]CVPR33.842.152.126.842.526.529.234.535.9MTOR [1]CVPR30.641.444.021.938.640.628.335.635.1ICR-CCR [39]CVPR32.943.849.227.245.136.430.334.637.4[46]第46话34.046.952.130.843.229.934.737.438.6美国[40]32.946.754.124.745.741.132.438.739.5[12]第十二话41.543.657.129.444.939.729.036.140.2DIDN（我们的）38.344.451.828.753.334.732.440.440.5Oracle -按目标进行36.147.152.732.149.556.036.037.043.3表5.结果（%）的doamin适应从城市景观（C）到雾城景观（F）。最佳类别AP和mAP以粗体强调343332310.01 0.10.512LaLr=0.1Lr=0.5(a) Foggy Cityscapes（F）作为目标535251500.01 0.10.512LaLr=0.1Lr=0.5(b) BDD100k（B）作为目标5.4. 域自适应现在，我们进行更多的实验，使用域自适应设置和比较我们的结果与以前的国家的最先进的作品。在本节中，我们使用标记的源数据和未标记的目标数据作为域自适应设置。我们只查看源代码，即在源域上进行训练，并直接在目标域上进行测试，如图4.方程式中λ的灵敏度(8)建议的DIDN。元素之间是互补的，因此将它们添加到一起会导致性能的提高。增加跨层对象重建可以进一步提高精度。参数灵敏度。我们分析了方程中的超参数值(8)以λr和λa为例，对目标检测结果进行了分析。对于重构损失的不同权重值λr，我们计算针对CB到F和CFKS到B的对抗损失的不同权重值λa上所实现的平均精度。结果报告于图4中。结果表明，λ a = 0是一个较好的选择。5，λ r= 0。1.一、可视化。我们将图像级解缠的结果可视化，以证明图3中所提出的方法的可解释性。我们可以看到，我们的模型是有效的，在解开源图像的领域无关的内容和领域特定的风格。对于列（1）中的恶劣天气情况，内容图像的结果是雾或阴天信息的良好消除，保留对象的结构对于列（2）中的不同场景（城市和高速公路），对应的内容图像被统一地改变为共享样式。对于列（3）中的夜间情况，与源相比，检测到的对象更清晰，这指示结构被保留，例如：在泛化之后，可以容易地观察到黑暗中的黑色汽车。DA的下限。比较的先前最先进的方法包括SW-DA[32]、SC-DA [47]、MTOR [1]、GPA [40]等。由于我们的方法的限制，跨级别重建组件需要地面实况包围盒，我们只是简化我们的模型，并删除它。由于大多数以前的工作进行适应天气传输任务，我们提出了适应 mAP 比较 Cityscapes 雾 Cityscapes 。如表 5 所示，DIDN在无监督域自适应设置下也取得了最佳结果。值得注意的是，在某些类别中，我们的方法甚至超过了使用标记目标域的监督方法的结果6. 结论在本文中，我们提出了一种新的框架，称为域不变的解纠缠网络（DIDN），可推广的对象检测。为了处理来自未知域的数据，我们将两级解纠缠集成到FasterR-CNN中。我们已经进行了广泛的实验，五个基准数据集，证明了我们所提出的方法的优越性能为了进一步的研究，我们将探索在目标域中存在不可见对象类别的情况，并研究多模态DG。例如，考虑图像和LiDAR数据两者。致谢这项研究得到了Monash FIT Start-up Grant的部分支持平均精密度（%）平均精密度（%）8780引用[1] Qi Cai，Yingwei Pan，Chong-Wah Ngo，Xinmei Tian，Lingyu Duan，and Ting Yao.探索平均教师中的对象关系以进行跨域检测。在IEEE计算机视觉和模式识别会议集，第11457-11466页[2] Zhaowei Cai，Quanfu Fan，Rogerio S Feris，and NunoVas-concelos.用于快速目标检测的统一多尺度深度卷积神经网络IEEE欧洲计算机视觉会议论文集，第354-370页施普林格，2016年。[3] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn：深入研究高质量的目标检测。在IEEE计算机视觉和模式识别会议集，第6154-6162页[4] Yuhua Chen ， Wen Li ， Christos Sakaridis ， DengxinDai，and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在IEEE计算机视觉和模式识别会议论文集，第3339-3348页[5] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition，第3213-3223页[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别上，第248-255页。Ieee，2009年。[7] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督国际机器学习会议，第1180-1189页。PMLR，2015.[8] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。The InternationalJournal of Robotics Research ，32（11）：1231-1237，2013.[9] 罗斯·格希克。快速R-CNN。IEEE国际计算机视觉会议论文集，第1440-1448页，2015年[10] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第770-778页[12] 许正春、蔡义宣、林燕宇、杨铭宣。每个像素都很重要：域自适应对象检测器的中心感知特征对准。arXiv预印本arXiv：2008.08574，2020。[13] Han-Kai Hsu ， Chun-Han Yao ， Yi-Hsuan Tsai ， Wei-Chih Hung ， Hung-Yu Tseng ， Maneesh Singh ， andMing-Hsuan Yang.用于对象检测的渐进域适应。在IEEE计算机视觉应用冬季会议论文集，第749-757页[14] Zeyi Huang ， Haohan Wang ， Eric P Xing ， and DongHuang.自我挑战提高了跨域泛化能力。arXiv预印本arXiv：2007.02454，2020。[15] 井上直人，古田良介，山崎俊彦，相泽贵治.跨域弱监督对象检测通过渐进域适应。在IEEE计算机视觉和模式识别会议论文集，第5001-5009页，2018年[16] Yunpei Jia，Jie Zhang，Shiguang Shan，and Xilin Chen.用于面部反欺骗的单侧域泛化。在IEEE计算机视觉和模式识别会议论文集，第8484-8493页[17] Matthew Johnson-Roberson 、 Charles Barto 、 RounakMehta 、 Sharath Nittur Sridhar 、 Karl Rosaen 和 RamVasudevan。矩阵中的驱动：虚拟世界能否取代人类为现实世界任务生成的注释？ arXiv 预印本 arXiv ：1610.01983，2016。[18] Mehran Khodabandeh，Arash Vahdat，Mani Ranjbar，and William G Macready.域自适应目标检测的鲁棒学习方法在IEEE国际计算机视觉会议，第480-490页，2019年[19] Seunghyeon Kim，Jaehoon Choi，Taekyung Kim，andChang- ick Kim.用于无监督域自适应一阶段对象检测的自训练和对抗背景正则化。在IEEE国际计算机视觉会议集，第6092-6101页[20] Taekyung Kim、Minki Jeong、Seunhyeon Kim、SeokeonChoi和Changick Kim。多样化和匹配：一种用于目标检测的领域自适应表示学习范例。在IEEE计算机视觉和模式识别集，第12456[21] Congcong Li，Dawei Du，Libo Zhang，Longyin Wen，Tiejian Luo，Yanjun Wu，and Pengfei Zhu.用于无监督域适应的空间注意力欧洲计算机视觉会议，第481-497页。Springer，2020年。[22] DalLi，Yongxin Yang，Yi-Zhe Song，and Timothy MHospedales.学习概括：领域泛化的元学习。arXiv预印本arXiv：1710.03463，2017。[23] Haoliang Li，Sinno Jialin Pan，Shiqi Wang，and Alex CKot.领域泛化与对抗性特征学习。在IEEE计算机视觉和模式识别会议论文集，第5400-5409页[24] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页[25]

下载后可阅读完整内容，剩余1页未读，立即下载