自适应教师-学生框架解决跨域目标检测中的问题

83 浏览量更新于2023-10-25 收藏 880KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7581平均教师（MT）一种跨域自适应目标检测李玉哲1*戴晓亮2马智尧2刘延成3陈侃4吴碧晨2何子健2KrisKitani1Peter Vajda21卡内基梅隆大学2Meta（Facebook）3乔治亚理工大学4Waymo{yujheli，kkitani}@ cs.cmu.edu，{xiaoliangdai，cyma，zijian，wbc，vajdap}@fb.com，kanchen@waymo.com，ycliu@gatech.edu摘要我们解决了对象检测中的域适应任务，其中具有注释的域（源）和没有注释的感兴趣的域（目标）之间存在明显的域间隙。作为一种流行的半监督学习方法，教师-学生框架（学生模型由教师模型的伪标签监督）也在跨域对象检测中产生了很大的准确性增益。然而，它遭受主移位并且生成许多低质量伪标签（例如，假阳性），这导致次优性能。为了缓解这个问题，我们提出了一个名为自适应教师（AT）的教师-学生框架，该框架利用领域对抗学习和弱-强数据增强来解决领域差距。具体地说，0.80.70.60.50.40.3目标域训练集MT + Wea k-强August对抗损失教师（Our心理状态）MT + A自适应10k 20k 30k 40k 50k 60k交互学习迭代我们在学生模型中采用特征级对抗训练，允许从源域和目标域导出的特征共享相似的分布。此过程可确保学生模型生成域不变特征。此外，我们在教师模型（从目标域获取数据）和学生模型（从两个域获取数据）之间应用弱-强增强和相互学习。这使得教师模型能够从学生模型学习知识，而不会偏向源域。我们表明，在现有的方法，甚至甲骨文（全监督）模型的一个很大的保证金证明优越性。例如，我们在FoggyCityscape（Cli-part1 K）上实现了50.9%（49.3%）的mAP，分别比之前的最先进技术和Oracle高出9.2%（5.2%）和8.2%（11.0%）。1. 介绍开发可以传递从一个标记数据集（即，源域）到另一个未标记的数据集（即，目标域）成为-*在Meta（Facebook）实习期间完成的工作。图1. 域丢失和弱-强增强对Mean Teacher（MT）中伪标记的有效性[40]。该图显示了以PASCAL VOC为源的Cli-part1 k（目标）训练集的假阳性率我们对每个设置运行5个相同的实验，并相应地绘制误差界限由于教师模型中固有的域移位，它生成噪声伪标签而没有域损失。弱-强增强能稳定伪标记。对于物体检测越来越重要研究人员已经提出了各种方法，如域分类器和对抗学习[10]，以解决对象检测中的跨域适应任务[2，3，14，32，39，42，44]。尽管这些方法已经提高了准确性，但仅在复杂的识别任务（如对象检测）上使用对抗性学习仍然是有限的。因此，在目标域上，与Oracle模型（完全监督）通常仍然存在很大的性能差距为了探索在未标记目标域上进行自我训练以提高检测性能的潜力，研究人员开发并扩展了师生自我训练方法，从半监督学习到自适应[40]。这些方法能够学习假阳性率（%）7582而不需要注释，这通常涉及教师模型来生成伪标签以更新学生模型。这些方法导致了显着的准确性增益域适应的情况下。例如，MTOR [1]采用Mean Teacher（MT）[40]作为其管道，以使用区域级，图间和图内一致性来识别无偏均值教师（UMT）[8]被提出来用CycleGAN [43]增强师生框架，并实现了进一步的性能改进。尽管准确性有所提高，教师-学生框架仍然面临着领域自适应设置的重大挑战：与半监督学习不同，从教师模型生成的伪标签通常包含大量错误和误报，如图1所示。这是因为域自适应的场景通常涉及标记数据（源域）和未标记数据（目标域）之间的大的域间隙。教师模型是在源域上训练的，偏向于源域并且仅能够精确地捕获源域上的特征，因此无法在目标域中提供高质量的伪标签。因此，直接应用师生框架只会导致次优的适应性能。为了解决这个问题，我们提出了一个名为自适应教师（AT）的自训练框架，以减轻域转移，并利用对抗学习和互学习来提高目标域上的伪标记质量。我们的模型包括两个独立的模块：目标特定的教师模型和跨领域的学生模型。我们还应用弱增强（仅在学生模型中应用强增强），并将目标域中的图像馈送到教师模型中，我们将其称为这允许教师模型生成可靠的伪标签，而不受大量扩增的影响。此外，为了减轻Student模型中对源域的域偏差，我们通过引入具有梯度反向层的递归来应用对抗学习，以对齐Student模型中两个域的分布。使用所有技术，我们观察到伪标签质量显著提高，如图1所示，其中误报率被抑制高达35%。这进一步导致在所有域自适应实验中获得实质性的准确性增益，并且优于所有现有的方法。我们总结本文的贡献如下：• 我们证明了教师-学生框架在领域适应场景中的局限性：教师模型偏向于源领域，只能在目标领域产生低质量的伪标签。• 我们提出了一个新的框架，利用对抗学习增强相互学习和弱-强增强以解决跨域对象检测中的域移位。• 我们的方法是能够处理域转移和所有现有的SOTA的一个很大的利润。例如，我们在 FoggyCityscape 上实现了 50.9% 的 mAP ，比 SOTA 和Oracle（完全监控）高9.2%和8.2%2. 相关作品物体检测。目标检测是在给定输入图像的情况下定位目标及其位置的任务。最近，深度模型已被证明在使用基于锚点的方法的对象检测中是有效的，例如，更快的R-CNN [30]，它引入了区域建议网络（RPN），以促进感兴趣区域（ROI）的建议生成。之后，提出了几个基于锚的作品[5，6，15，20，26，37另一方面，无锚方法也被提出作为一个阶段的检测器，没有生成区域建议的步骤。YOLO [27]为多个类联合生成边界框和置信度得分作为回归任务。它的几个变体[28，29]也被提出。SSD [21]也构建在YOLO之上，但利用了从不同比例的图像生成的特征图。在我们的工作中，由于其灵活性，我们采用Faster R-CNN作为检测的骨干。域适配。无监督域自适应（UDA）或局部自适应（DA）的目的是在给定目标域的未标记数据的情况下，从附加的已标记源域中学习模型，从而在目标域上获得满意的性能。最近，它使用深度神经网络证明了其有效性一方面，一些工作已经开发了基于差异的方法，通过最小化域差异来学习表示，这也被称为最大平均差异（MMD）[23域自适应的另一种方法是映射域分布，并将其视为具有域分类器的对抗（最小-最大）优化[10，11，34，41]。一些生成模型，如Cycle-GAN [43]也可以被视为图像级域自适应。然而，与这些一般的视觉任务相比，对象检测的问题更加复杂，因为它必须预测每个对象的边界框和类别标签。与其他识别任务相比，我们的目标是处理跨域目标检测这样具有挑战性的任务。跨域目标检测。近年来，越来越多的研究关注目标检测任务中的领域自适应，并提出了各种方法。有些人利用带有梯度反向层（GRL）的对抗学习来映射不同领域的特征7583DDDS i=1S i=1不j=1jNt- -目标域教师模式目标检测器弱八月。特征编码器（主干）RPN伪标记ROI头坚强的八月跨域学生模型EMAEMA检测器源RPN特征编码器（主干）ROI头ℒ��ℒ��坚强的八月GRL鉴别器ℒ��图2. 我们提出的自适应教师（AT）的概述。我们的模型由两个模块组成：1）特定于目标的教师模型，用于从目标域获取弱增强图像; 2）跨域学生模型，用于从两个域获取强增强图像我们使用两种学习流来训练我们的模型：师生相互学习和对抗学习。教师模型生成伪标签来训练学生，而学生用指数移动平均（EMA）更新教师模型。在Student模型中，利用梯度反相层的鉴别器来对齐两个区域的分布。在[2，3，14，32，39，42，44]中。注释级适配器-[17，18，31]或课程学习[38]也被提议用于领域适应的任务。最近，另一个方向是利用Mean Teacher（MT）[40]，这最初是针对该任务的半监督学习提出的。MTOR [1]是在MT和列车的基础上提出的它的教师网络具有强制区域级、图间和图内一致性。类似地，已经提出了无偏均值教师（UMT）[8]，通过用Cy-cleGAN [43]增强训练样本来减少域偏移。然而，上述方法很可能在Mean Teacher（MT）中遇到相同的固有问题，在目标域上生成低质量的伪标签。3. 适应性教师3.1. 问题表述和概述在我们展示我们所提出的方法是如何能够减轻错误的伪标签在域适应的对象检测，我们首先审查的问题制定。我们在源域中给出Ns 个标记图像Ds={（Xs，Bs ， Cs ） } ，在目标域中给出 Nt 个未标记图像Dt={Xt}。得到域，其中Bs={bi}Ns表示边界框图像来自目标域（t），而Student模型从两个域（s和t）获取强增强图像。我们使用两个训练流来训练我们的模型，这两个训练流是师生相互学习和对抗性学习策略。首先，我们用可用的源标记数据训练对象检测器，并初始化特征编码器和检测器。在相互学习阶段，我们将初始化的目标检测器复制成两个相同的检测器，即，教师和学生模型。教师生成伪标签以训练学生，而学生通过指数移动平均（EMA）更新其学到的知识回到教师迭代地，用于训练学生的伪标签被改进。此外，我们使用鉴别器和梯度反向层（GRL）[10]进行自适应学习（Sec. 3.3）在Student模型中对齐两个域的分布。这允许学生模型减少域移位，并有利于教师模型生成更准确的伪标签。3.2. 师生互动学习遵循师生框架最初提出的半监督对象检测，我们的模型是S注释和Cs={ci}Nsi=1表示相应的类源图像的标签X s={x i}Ns。没有anno-目标图像X t=x的位置。跨域目标检测的最终目标是利用Ds和Dt设计域不变检测器。我们的框架概述如图2所示。我们的AT框架包括两个模块：目标特定的教师模型和跨领域的学生模型。教师模型只考虑弱增广的学生模型和教师模型。学生模型通过标准梯度更新学习，教师模型通过学生模型权重的指数移动平均（EMA）进行更新。为了为目标域图像生成精确和准确的伪标签，我们将具有弱增强的图像作为输入馈送给教师以提供可靠的伪标签，而具有强增强的图像作为斯图的输入也由两个架构相同的模型组成：7584L--DRPNRPNLL−CLSreg罗伊罗伊Cdent.具体而言，目标样本被增强为随机水平翻转和裁剪作为教师模型中的弱增强，并且随机颜色抖动、灰度、高斯模糊和切割补丁作为扰动作为强增强。模型初始化。这对于自训练框架是重要的，因为我们依赖于教师来为目标域生成可靠的伪标签，而不需要符号来优化学生模型。为了实现这一点，我们首先使用可用的监督源数据s=（Xs，Bs，Cs）来优化我们的模型。因此，使用标记的源数据训练和初始化学生模型的监督损失可以定义为：Lsup（Xs，Bs，Cs）=L（Xs，Bs，Cs）+L（Xs，Bs，Cs）+L（Xs，Bs，Cs）+L（Xs，Bs，Cs），通过临时复制学生模型的权重来更新教师模型更新公式可以定义为：θt←αθt+（1−α）θs，（3）其中θt和θs分别表示Teacher和Student的网络参数3.3. 对抗学习桥接领域偏差由于注释仅在源数据上可用，因此在相互学习过程中，教师和学生都可以容易地偏向具体而言，从教师模型在目标图像上生成的伪标签基本上是使用用来自源域的标签训练的模型的知识导出的。因此，我们需要在源域和目标域之间架起域偏差的桥梁，否则Teacher模型会在目标图像上生成嘈杂的标签，使学习CLSreg（一）过程崩溃。因此，我们将对抗性学习引入到框架中，以对齐两个其中 RPN 损失 rpn 是用于学习区域建议网络（RPN）的损失，其被设计为生成候选建议，并且感兴趣区域（ROI）损失roi是用于ROI的预测分支。RPN 和 ROI 都执行边界框回归（ reg ）和分类（cls）。我们对Lrpn和Lroi使用二进制交叉熵损失，域. 这导致伪标记生成中的假阳性率大幅降低（MT+对抗性损失为20%），如图1所示。由于Student模型从两个域获取图像，因此对抗损失适用于Student模型以对齐两个分布。为了实现对抗学习，一个做-和lLrpn和Lroi的损失。CLSCLS主编码器D放置在特征编码器E1例reg（如图2所示）。区别-利用目标伪标签优化Student由于目标域中的标签不可用，我们采用伪标签的方法在目标域中的图像上生成伪标签来训练Student。为了过滤掉噪声伪标签，我们在来自教师模型的预测边界框上设置置信度阈值δ以去除假阳性。此外，我们排除了重复框预测的非最大抑制（NMS）为每个类。因此，在从目标域的图像上的教师模型获得伪标签之后，我们可以更新具有损失的学生为：Lunsup（Xt，Ct）=Lrpn（Xt，Ct）+Lroi（Xt，Ct），（2）特征提取器的目的是区分导出的特征E（X）来自哪里（源或目标）。然后我们可以定义每个输入样本属于目标域的概率为D（E（X）），属于源域的概率为1D（E（X））。给定每个输入图像的域标签d，我们可以使用二进制交叉熵损失来更新域cross-entropy_D具体地，来自源域的图像被标记为d=0，来自目标域的图像被标记为d=1。损耗L_dis可以用公式表示为：Ldis=−dlogD（E（X））−（1−d）log（1−D（E（X））），CLSCLS另一方面，鼓励特征编码器E其中，pseudot表示由教师模型在目标域上生成的伪标签。这里，无监督损失不应用于边界框回归的任务中，因为未标记数据上的预测边界框的置信度得分只能表示每个对象的类别的置信度，而不是预测边界框的位置以产生混淆CIDD的特征，而CIDD旨在区分所导出的特征来自哪个域。因此，这种对抗优化目标函数可以定义如下：Ladv= max min Ldis。（五）减少边界框。E D从学生临时更新教师。为了在MT [40]之后从目标图像中获得强伪标签，我们应用指数移动平均（EMA）来幸运的是，为了简化最小-最大优化，我们可以在特征编码器和卷积器之间附加一个额外的梯度反向层（GRL）[10]以产生反向梯度。在梯度计算期间，（四）7585→→LL表1.在PASCAL VOC Clipart1k适配的Clipart1k测试集上进行跨域对象检测的结果。报告所有类别的平均精度（AP，以%计）。所使用的主干是ResNet-101，用于公平比较。我们将我们的方法与SCL [35]，SWDA [32]，DM [19]，CRDA [42]，HTCN [2]，UMT [8]，Source（F-RCNN）和Oracle（F-RCNN）进行比较。方法Aerobcycle鸟船瓶总线车猫椅子牛表狗小时m-bikePRSN波兰国家电视台羊沙发火车电视地图源23.039.620.123.625.742.625.20.941.225.623.711.228.249.545.246.99.122.338.931.528.8（-16.2）SCL44.750.033.627.442.255.638.319.237.969.030.126.334.467.361.047.921.426.350.147.341.5（-3.5）SWDA26.248.532.633.738.554.337.118.634.858.317.012.533.865.561.652.09.324.954.149.138.1（-6.9）DM25.863.224.542.447.943.137.59.147.046.726.824.948.178.763.045.021.336.152.353.441.8（-3.2）档案室28.755.331.826.040.163.636.69.438.749.317.614.133.374.361.346.322.324.349.144.338.3（-6.7）HTCN33.658.934.023.445.657.039.812.039.751.321.120.139.172.863.043.119.330.150.251.840.3（-4.7）UMT39.659.132.435.045.161.948.47.546.067.621.429.548.275.970.556.725.928.939.443.644.1（-0.9）在33.860.938.649.452.453.956.77.552.863.534.025.062.272.177.257.727.252.055.754.149.3（+4.3）Oracle33.347.643.138.024.582.057.422.948.449.237.946.441.154.073.739.536.719.153.252.945.0表2.PASCAL VOC Watercolor 2k适配的Water-color 2k测试集上的跨域对象检测结果报告所有类别的平均精度（AP，以%计）。所使用的主干是ResNet-101，用于公平比较。方法自行车鸟车猫狗人地图源84.244.553.024.918.856.346.9（-3.7）标准普尔[35]82.255.151.839.638.464.055.2（+4.8）SWDA [32]82.355.946.532.735.566.753.3（+2.7）城市轨道交通[8]88.255.351.739.843.669.958.1（+7.5）在93.656.158.937.339.673.859.9（+9.3）Oracle51.849.742.538.752.168.650.6GRL否定返回的梯度，并且在相反方向上计算特征编码器E的梯度。这有助于最大化学习E的损失，而我们只需要最小化目标分布。有了上述损失，我们的学生模型解决了视觉特征中的域偏差，并帮助教师在几次EMA更新后生成精确的伪标签。我们想指出的是，我们的自适应教师的学生模型中的对抗学习设计是合理的，原因有两个。首先，由于我们只将来自目标域的图像馈送到教师模型中以避免教师模型上的主偏差，因此在跨两个域拍摄图像的学生模型中，对齐两个域的过程可能是优选的。从源域（如[1，8]）馈送图像可能会给教师模型和学生模型带来更多对源域的偏见。第二，对抗学习是一个最小-最大学习问题，需要损失函数来更新模型。由于Student模型是通过客观损失来更新的，因此将对抗损失应用于Student模型是Mean Teacher标准学习中简单而合适的方法。3.4. 完整的目标和推理培训我们拟定的AUT的总损失总结如下：L=Lsup+λ unsup·L unsup+λ dis·L dis，（6）7586LLL其中λunsup和λdis是用于控制相应损失权重的超参数。我们注意到，sup和unsup是为了学习Student模型中的特征编码器和检测器而开发的，而dis是为了更新特征编码器和检测器而引入的。教师模型仅通过第3.2节中讨论的EMA进行更新。4. 实验4.1. 数据集我们在五个公共数据集上进行了实验，包括Cityscapes [4] ）， Foggy Cityscapes [33] ， PASCALVOC [9]，Clipart1k [16]和Watercolor2k [16]。城市景观。Cityscapes [4]是通过从50个城市的正常天气条件下的户外街道场景中捕捉图像来收集的，这些场景具有多样性。它包含2，975张用于训练的图像和500张用于验证的图像，具有密集的像素级标签。边界框的注释从实例分割标签转换而来。雾城风光。雾城[33]是从城市景观中的图像合成的。因此，它具有与Cityscapes相同的列车/测试划分它根据Cityscapes提供的深度信息来模拟雾天气的情况，并生成三个级别的雾天气。PASCAL VOC. PASCAL VOC [9]包含20个来自现实世界的常见对象类别，带有边界框和类注释。在[32 ， 35] 之后，数据集来自 PASCAL VOC 2007 和2012，共有16，551张图像。Clipart1k。Clipart1k [16]包含剪贴画图像，并与PASCAL VOC共享相同的20个类。然而，它表现出从PASCAL VOC的大的域转移我们遵循[32，35]中的实践，并将其分为训练集和测试集，每个集包含500张图像。Watercolor2k. Watercolor2k [16]包含水彩风格的图像，它由6个类的图像组成，并与PASCAL VOC数据集中的相同类接下来[32，35]，数据集被分成训练集和测试集，每个集包含1000个图像。7587→表3.在FoggyCityscapes测试集上进行跨域对象检测的结果和比较适应列出了所有类别的平均精密度（AP，%）为了公平比较，使用的主干是VGG-16方法总线自行车车mcycle人骑手火车卡车地图来源（F-RCNN）20.131.939.616.929.037.25.28.123.5（-19.2）标准普尔[35]41.836.244.833.631.644.040.730.437.9（-4.8）DA-更快[3]35.327.140.520.025.031.020.222.127.6（-15.1）SCDA [44]39.033.648.528.033.538.023.326.533.8（-8.9）SWDA [32]36.235.343.530.029.942.332.624.534.3（-8.4）[19]第十九话38.432.244.328.430.840.534.527.234.6（-8.1）MTOR [1]38.635.644.028.330.641.440.621.935.1（-7.6）MAF [14]39.933.943.929.228.239.533.323.834.0（-8.7）[45]第四十五话45.533.048.522.832.640.031.727.935.3（-7.4）[42]第四十二话45.134.649.230.332.943.836.427.237.4（-5.3）中国[2]47.437.147.932.333.247.540.931.639.8（-2.9）城市轨道交通[8]56.537.348.630.433.046.746.834.141.7（-1.0）在56.351.964.238.545.555.154.335.050.9（+8.2）Oracle（F-RCNN）50.340.761.332.543.149.835.128.642.74.2. 实现细节在[3]和[32]之后，我们采用Faster RCNN [30]作为我们的 Adaptive Teachera 的基本检测模型，并使用Detectron 2实现它。根据设置，在ImageNet [7]上预训练的网络ResNet- 101 [13]或VGG 16 [36]都被用作骨干在实现具有ROI对齐的更快RCNN之后[12]，我们通过将图像的短边扩展到600来缩放所有图像，同时保持图像比率。对于超参数，我们设置 λ unsup=1 。0 且λdis=0。1为简单起见，所有实验。我们将置信阈值设为δ=0。8.对于培训的初始化阶段，第2节中描述的框架。3.2，我们使用源标签训练AT进行10k次迭代。然后，我们在相互学习开始时将权重复制到教师和学生模型我们在整个训练阶段将学习率设置为0.04，而不应用任何学习率衰减。我们使用随机梯度下降（SGD）优化网络。所使用的数据增强方法包括用于弱增强的随机水平翻转，以及用于强增强的随机颜色抖动、教师模型的指数移动平均（EMA）的权重平滑系数参数设置为0.9996。每个实验在8个Nvidia GPUV100上进行，批量大小为16，并在PyTorch中实现。4.3. 实验设置和评价我们报告了每个类别的平均精度（AP）以及所有类别的平均AP，用于所有实验设置的现有工作[3，32]的对象检测，如下所述：真实到艺术的改编。首先，我们想对我们的广告模型的有效性进行修整大的畴隙。在这种情况下，我们测试我们的模型与真实图像和艺术图像之间的域转移的效果。我们使用Pascal VOC作为源数据集，Clipart1k或Watercolor2k作为目标数据集。ResNet-101 [13]的主干是按照现有作品中的设置使用的。适应恶劣天气。对于这种设置，我们根据图像之间的域偏移来评估我们的模型在正常天气和图像与不利的天气（雾）。来自Cityscapes数据集的数据作为源域，而来自Foggy Cityscapes数据集的数据作为目标域。在实验中，使用Cityscapes中的标记图像和FoggyCityscapes 中的未标记图像来训练报告了在 FoggyCityscapes验证集上的测试结果。尽管Cityscapes 和Foggy Cityscapes数据集之间VGG16 [36]的主干按照先前的设置使用。4.4. 结果和比较在本节中，我们在表1和表3中报告了我们的自适应教师和其他最先进方法的性能。我们还报告了表示为“Source（F-RCNN）”的仅源模型，作为仅使用源图像作为下限基准来训练基础Faster RCNN模型。另一方面，我们还包括一个表示为“Oracle（F-RCNN）”的oral模型真实到艺术的改编。设置的结果：Clipart1k上的真实到艺术改编如表1所示，Watercolor2k上的真实到艺术改编如表2所示。7588表4.在未见过的目标数据集上进行域泛化的结果，该结果利用了标记的源数据和另一个域而无需监督。报告平均精密度（AP，%）。主干是ResNet-101，用于公平比较。“WS八月”表示弱-强增强。自行车鸟车猫狗人地图自行车鸟车猫狗人地图在78.630.140.310.932.672.844.5（+1.1）91.255.260.437.039.669.856.7（-6.1）[40]第四十话68.225.635.22.925.564.537.4（-6.0）82.149.055.629.525.466.250.4（-0.2）MT [40] +Ldis[40]第四十话73.264.829.723.438.834.69.03.128.622.069.261.441.3（-2.1）34.2（-9.2）84.380.551.243.458.753.034.227.624.319.562.455.651.1（+0.5）47.6（-3.0）Oracle47.639.151.420.138.469.743.451.849.742.538.752.168.650.6我们比较了我们的方法与几个国家的最先进的approaches和报告的性能差距或目标模型（完全监督）和每个竞争对手。我们观察到，首先，我们的模型在49时达到了最先进的性能。3% mAP，并优于最近的竞争对手UMT 5。2%和其他方法的大幅度。我们注意到，使用Mean Teacher的UMT已经在增强风格的训练图像上有了显着的性能提升然而，由于Mean Teacher中的伪标签在目标区域上的质量的固有问题，当生成伪标签时，其模型也可能遭受真实图像和艺术图像之间的大的区域偏移。另一方面，我们的模型减轻了域的差距，并实现了很大程度上提高了性能。其次，我们的模型是Clipart1k数据集上唯一一个超过oracle模型的模型，这表明采用Mean Teacher+对抗学习的相互学习在Watercolor2k上进行的实验中也可以发现类似的观察结果。适应恶劣天气。设置结果：正常天气对不利天气的适应性见表3。我们还报告了Oracle模型（完全监督）和每个竞争者之间的性能差距当与最先进的方法进行比较时，我们可以看到，首先，我们的模型也比所有最先进的方法表现得更其中MTOR [1]和UMT [8]是采用Mean Teacher模型的两种方法。然而，由于前面讨论的问题，关于教师模型中的扩增和对源域的偏见，他们的模型都遭受产生噪声标签，并导致我们的AT之间的性能差距其次，我们的模型的性能能够大大超过oracle模型，这表明仅使用来自晴朗天气（高能见度）的注释来训练图像足以在不利的雾天气（低能见度）上具有令人满意的目标检测性能4.5. 领域泛化正如我们观察到的那样，我们的AT在三个基准领域适应数据集上的表现优于所有Oracle模型表5.我们房性心动过速的消融研究。我们报告了每个实验设置的平均精密度（mAP，%），而表示弱-强增强。来源：目标：Pascal VOCClipart1kPascal VOC水彩2k城市景观雾蒙蒙的城市景观在49.359.950.9AT w/oLdisAT w/o WS Aug.40.6（-8.7）45.3（-4.0）55.5（-4.4）55.1（-4.8）48.7（-2.2）45.9（-5.0）AT w/oL unsupEMA31.6（-17.7）50.2（-9.7）36.0（-14.9）我们更感兴趣的是我们的模型在看不见的域上的泛化能力。我们将这样的问题定义为域泛化：我们不再关注模型在本节中，我们进一步进行了两个实验设置，并将我们的AT与基线模型MT进行了比较[40]：• 列车：PASCAL VOC（监督）Watercolor2k（无监督）→测试：Clipart1k• 列车：PASCAL VOC（监督）Clipart1k（未监督）→测试：Watercolor2k在每个设置中，我们在带有标签的源真实数据集和另一个没有标签的艺术数据集上训练模型。然后，我们在训练过程中看不到的目标数据集上推断模型。我们只在Clipart1k和Watercolor2k之间的重叠类（6个类）上进行训练，并在表4中列出了结果。从表中可以看出，与Oracle模型和MT相比，我们的模型实现了更优的性能这表明我们的模型能够推广到看不见的领域，而无需观察任何目标图像。此外，每项关于MT对抗性丧失或增强的消融研究也显示了它们在我们提出的AT中的重要作用4.6. 消融研究我们进一步对表5中的每个重要组分进行消融研究，并在图3中提供了伪标记的定性研究。方法PASCAL VOC（sup.）Watercolor2k（unsup.） → Clipart1kPASCAL VOC（sup.）Clipart1k（unsup.） →水彩2k7589LLLLLL(a) 平均教师（MT）(b) （��c）不含8月的AT（d）AT（Ours）图3. 对Clipart1k训练集图像上生成的伪标签进行定性消融研究。该图显示了对抗性损失Ldis和弱-强增强对伪标记的重要性。注意，这里不应用阈值。50.047.545.042.540.037.535.032.530.0验证集10k 20k 30k 40k 50k 60k 70k交互学习迭代来自噪声伪标签的传播。增强管道。我们还对我们的自适应教师中弱 - 强（WS）增强的有效性进行了基准测试，当排除它时，观察到约4%至5%的性能下降（表5）。这表明，对培训管道进行简单修改（分别对教师和学生进行弱增强和强增强）至关重要。我们还可以观察到，这种增强管道能够降低图3中的教师模型生成的伪标签中的误报率。取消&EMA。类似地，我们消除了利用表5中的平均教师的重要性，因为以前的作品（即，从我们的模型中排除相互学习和教师模型），并报告学生模型的性能图4. Clipart1k数据集。我们对每个设置运行5个相同的实验，并相应地在图中绘制误差界限。结果表明，增加λdis的权值可以提高学习性能，稳定学习曲线。对抗性损失。为了进一步分析对抗性学习在我们的自适应教师中的重要性，我们排除了损失的差异，并在表5中报告了三个实验设置的性能。可以观察到，在具有较大域间隙的场景中，Cli-part1 k和Watercolor 2k然而，在另一种具有较小域间隙的情况下（天气适应），仅观察到2.2%的性能下降。我们还可以观察到，dis能够大大降低图3中教师模型生成的伪标签中的误报率。另一方面，我们还分析了图4中的对抗损失dis的权重λdis。在该图中可以观察到两个折叠的一些现象。我们可以看到，首先，增加权重可以提高性能，这支持了我们模型中神经网络的有效性第二，在不应用对抗损失的情况下，由于误差，模型的性能不断下降对于仅具有强增强和对抗性损失DIS的跨域训练。我们可以看到，有一个显着的性能下降，因此，性能增益主要来自于相互学习与伪标签的目标域。5. 结论在本文中，我们提出了一个新的框架，以解决跨域目标检测的任务。通过引入目标领域的Teacher模型和跨领域的Student模型，该框架能够通过相互学习在目标领域上生成正确的伪标签我们设计的训练管道与适当的增强策略和对抗学习也解决了教师和学生模型中对源域的偏见。在两个基准测试上的消融研究的广泛实验也证明了我们提出的模型在没有看到目标域上的标签和图像的情况下训练优于在完全监督下训练的Oracle模型。鸣谢：我们感谢Meta（Facebook）的赞助和计算资源。ATdis= 0.1ATdis= 0.05ATdis= 0.01AT w/o dis。最大平均7590引用[1] Qi Cai，Yingwei Pan，Chong-Wah Ngo，Xinmei Tian，Lingyu Duan，and Ting Yao.探索平均教师中的对象关系以进行跨域检测。在CVPR中，第11457- 11466页，2019年。二三五六七[2] Chaoqi Chen ， Zebiao Zheng ， Xinghao Ding ， YueHuang，and Qi Dou.协调可转移性和可辨别性以适应对象检测器。在CVPR中，第8869一二三五六[3] Yuhua Chen ， Wen Li ， Christos Sakaridis ， DengxinDai，and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在CVPR中，第3339-3348页，2018年。一、三、六[4] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，第3213-3223页，2016年。5[5] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。NeurIPS，第379-387页，2016年。2[6] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在ICCV，第764-773页，2017年。2[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在CVPR，第248-255页中。Ieee，2009年。6[8] Jinhong Deng，Wen Li，Yuhua Chen，and Lixin Duan.跨域目标检测的无偏均值教师。在CVPR中，第4091-4101页，2021年。二三五六七[9] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。IJCV，88（2）：303-338，2010. 5[10] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督在国际机器学习会议（ICML）的会议中，第1180-1189页PM

下载后可阅读完整内容，剩余1页未读，立即下载