鲁棒目标检测自适应方法SimROD的应用与效果

82 浏览量更新于2023-10-16 收藏 15.1MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

models to be robust to domain shifts.Different types of methods have been proposed to over-come domain shifts for object detection namely data aug-mentation [25, 14, 12], domain-alignment [6, 11, 38, 37, 27,16,23,17], domain-mapping [3,18,23,17], and self-labelingtechniques [33,30,22,18]. Augmentation methods can im-prove the performance on some ﬁxed set of domain shiftsbut fail to generalize to the ones that are not similar to theaugmented samples [1, 26, 32]. Domain-aligning methodsuse target domain samples to align intermediate features ofnetworks. These methods require the addition of special-ized modules such as gradient reversal layers, domain clas-siﬁers to the model. On the other hand, domain-mappingmethods translate labeled source images to new images thatlook like target domain images using image-to-image trans-lation networks.Similar to augmentation methods, theyare suboptimal since the generated images do not alwayshave a high similarity to real target domain images. Fi-nally, self-labeling is a promising approach since it lever-ages unlabeled training samples form the target domain.However, generating accurate pseudo-labels under domainshift is hard; and when pseudo-labels are noisy, using targetdomain samples for adaptation is ineffective.In this paper, we propose a Simple adaptation method forRobust Object Detection (SimROD), to mitigate the domainshifts using domain-mixed data augmentation and teacher-guided gradual adaptation. Our simple approach has threedesign beneﬁts. First, it does not require ground-truth labelsof target domain data and leverage unlabeled samples. Sec-ond, our approach requires neither complicated architecturechanges nor generative models for creating synthetic data[18]. Third, our simple method is architecture-agnostic andis not limited to region-based detectors. The main contribu-tions of this paper are summarized as follows:35700SimROD：一种简单的鲁棒目标检测自适应方法0Rindra Ramamonjison 1, Amin Banitalebi-Dehkordi 1, Xinyu Kang 2, Xiaolong Bai 3和Yong Zhang 101 华为技术加拿大有限公司 2 英属哥伦比亚大学 3 华为云 rindranirina.ramamonjison@huawei.com,amin.banitalebi@huawei.com, xinyu.kang@alumni.ubc.ca, baixiaolong1@huawei.com, yong.zhang3@huawei.com0摘要0本文介绍了一种简单而有效的无监督自适应方法，用于鲁棒目标检测（SimROD）。为了克服领域转移和伪标签噪声等具有挑战性的问题，我们的方法集成了一种新颖的以领域为中心的数据增强方法、渐进的自标记适应过程和教师引导的微调机制。使用我们的方法，可以利用目标领域样本来适应目标检测模型，而无需改变模型架构或生成合成数据。在应用于图像损坏和高级跨领域适应基准测试时，我们的方法在多个领域适应基准测试上优于先前的基准线。SimROD在标准的真实到合成和跨摄像机设置基准测试中取得了新的最先进水平。在图像损坏基准测试中，使用我们的方法进行适应的模型在Pascal-C上实现了15-25%的AP50相对鲁棒性改进，在COCO-C和Cityscapes-C上实现了5-6%的AP改进。在跨领域基准测试中，我们的方法在Comic和Watercolor上分别超过了最佳基准性能8%和4%的AP50。01. 引言当训练的图像与测试集具有相同的分布时，最先进的目标检测模型具有很高的准确性[39]。然而，当部署到新环境时，由于天气变化（如雨或雾）、光照条件变化或图像损坏（如模糊）等领域转移，它们可能会失败[25]。这种失败对于自动驾驶或自动零售结账等关键任务应用来说是有害的，因为领域转移是不可避免的。为了使它们可靠，检测模型对领域转移具有鲁棒性非常重要。已经提出了不同类型的方法来克服目标检测的领域转移，包括数据增强[25, 14, 12]、领域对齐[6, 11, 38, 37, 27, 16, 23, 17]、领域映射[3, 18, 23,17]和自标记技术[33, 30, 22,18]。增强方法可以提高对某些固定领域转移的性能，但无法推广到与增强样本不相似的领域转移[1, 26,32]。领域对齐方法使用目标领域样本来对网络的中间特征进行对齐。这些方法需要向模型添加专门的模块，如梯度反转层、领域分类器。另一方面，领域映射方法使用图像到图像翻译网络将标记的源图像转换为看起来像目标领域图像的新图像。与增强方法类似，它们是次优的，因为生成的图像并不总是与真实的目标领域图像具有高相似性。最后，自标记是一种有前途的方法，因为它利用目标领域的未标记训练样本。然而，在领域转移下生成准确的伪标签是困难的；当伪标签存在噪声时，使用目标领域样本进行适应是无效的。在本文中，我们提出了一种简单的鲁棒目标检测自适应方法（SimROD），通过使用领域混合数据增强和教师引导的渐进适应来减轻领域转移。我们的简单方法具有三个设计优势。首先，它不需要目标领域数据的真实标签，而是利用未标记的样本。其次，我们的方法既不需要复杂的架构改变，也不需要用于创建合成数据的生成模型[18]。第三，我们的简单方法不依赖于特定的架构，也不仅限于基于区域的检测器。本文的主要贡献总结如下：01代码和笔记本可在https://marketplace.huaweicloud.com/markets/aihub/notebook/detail/?id=d6d7162f-32b9-483d-97d7-b16b32b148e2找到01.我们提出了一种简单的方法来提高目标检测模型对域偏移的鲁棒性。我们的方法首先使用渐进适应方法对大型教师模型进行调整。适应后的教师为调整学生模型生成准确的伪标签。35710方法首先使用渐进适应方法对大型教师模型进行调整。适应后的教师为调整学生模型生成准确的伪标签。02.我们引入了一种称为DomainMix的数据增强方法，用于学习域不变表示并减少伪标签噪声。它将标记的源域图像与目标域的未标记样本及其（伪）标签有效地混合在一起。混合训练样本为适应教师模型和学生模型提供了强有力的监督。03.我们进行了全面的基准测试和消融研究，以证明SimROD在缓解不同域偏移（如合成到真实、跨摄像头设置、真实到艺术、图像损坏）方面的有效性。我们的简单方法与更复杂的基线方法竞争，并在其中一些基准测试中取得了新的最优结果。02. 动机和相关工作0在本节中，我们回顾了与我们的工作相关的主流方法，并解释了我们工作的动机。0数据增强用于增强图像损坏的鲁棒性数据增强是提高深度学习模型性能的有效技术。最近的研究还探索了增强在增强对域偏移的鲁棒性方面的作用。特别是，已经提出了专门的增强方法来对抗图像分类[13，14，12]和目标检测[25，8]中的图像损坏的影响。例如，AugMix[14]对每个图像依次应用一组几何和颜色变换，并将原始图像与多个增强副本混合。DeepAugment[12]使用图像到图像转换网络生成增强样本，其权重受到随机扭曲的干扰。[25，8]提出了样式转移[10]作为增强以增加形状偏差并提高鲁棒性。虽然这些增强方法相对于源基线提供了一些改进，但它们可能过度拟合于少数损坏类型，并且无法推广到其他类型。事实上，[1]提供了实证证据，即增强变换与损坏之间的感知相似性是损坏错误的强预测因子。[1]还观察到，与更专业化的增强方法相比，更广泛的增强方案在不同的损坏类型上表现更好。[32]表明，针对合成损坏的增强技术很难推广到自然分布的偏移。在他们的广泛研究中，训练更多样化的数据是唯一有效提高对自然分布偏移的鲁棒性的干预措施。0目标检测的无监督域自适应无监督域自适应（UDA）方法利用来自目标域的未标记图像来明确减轻域偏移。0与使用数据增强得到的图像相比，这些未标记的样本更类似于测试样本。此外，它们收集起来更便宜，不需要费力的注释。已经提出了几种解决目标检测的UDA问题的方法。对抗训练方法，如[6]，学习两阶段检测器网络的域不变表示。最近的方法通过挖掘重要区域和在区域级别上进行对齐[11]，使用分层对齐模块[38]，通过粗到细的特征适应[37]，或通过强制进行强局部对齐和弱全局对齐[27]来提高性能。[16]提出了一种针对无锚点FCOS模型的中心感知对齐方法。虽然对齐方法有助于减少域偏移，但它们需要进行架构更改，因为必须向网络中添加额外的模块，如梯度反转层和域分类器。或者，域映射方法通过首先使用条件生成对抗网络（GAN）将源图像转换为类似于目标域样本的图像来解决UDA问题[3，15]。然后，使用域映射图像和已知的源标签对模型进行微调。对于目标检测，[23，17]将域转移与对抗训练相结合。例如，[23]生成源和目标之间的多样化的中间域集，以区分和学习域不变特征。最后，最近的研究表明，适应批归一化[19]层可以提高对抗攻击[35]或图像损坏[28]的鲁棒性，并减少域偏移[24，5]。0目标检测适应的自训练自训练使模型能够在未标记的目标样本上生成自己的伪标签。最近，[30]在STAC框架中应用了伪标签来进行半监督目标检测。然而，在存在领域偏移的情况下，伪标签可能会导致性能下降，因为目标样本上的伪标签可能变得不正确，导致监督不良。相反，我们的工作解决了原始源训练数据和未标记目标训练数据之间的领域偏移。为了减少领域偏移，[4]使用额外的正则化损失函数在平均教师模型和学生模型之间强制实施区域级和图结构一致性。接下来，[22]提出了一种直接减轻Faster-RCNN检测器的噪声伪标签的方法，通过对其提案分布进行建模。与[22]不同，我们的方法不依赖于模型架构，也可以与单阶段目标检测器一起使用。最后，[18]将领域转移与伪标签相结合，也是与架构无关的。与之前的工作相比，我们提出的方法更简单，因为它不使用GAN生成合成数据，也不改变训练损失函数或模型架构。正如将在第4节中展示的那样，我们的简单方法在减少领域偏移和标签噪声方面非常有效。̸35720图1. 我们提出的鲁棒目标检测适应方法通过三个简单的步骤来减轻领域偏移和标签噪声。(1)提出的DomainMix数据增强模块随机采样和混合源域和目标域的图像以及它们的真实标签和伪标签。(2)使用这些混合域的图像逐渐调整大型源教师模型的批归一化和卷积层。在此步骤中，还对目标域图像的伪标签进行了改进。(3)使用带有改进的伪标签的新的混合域图像对源学生模型进行微调。0非常有效地减少了领域偏移和标签噪声。03.问题定义和提出的解决方案在本节中，我们定义了适应问题并描述了我们提出的解决方案。03.1.问题陈述我们给定一个用于目标检测任务的源模型M，其参数为θsM，该模型是使用源训练数据集D={(xi,yi)}训练的，其中xi是图像，每个标签yi包含目标类别和边界框坐标。我们考虑存在原始源数据D和目标测试分布pT:X×Y→R+之间的协变量偏移的情况。更正式地说，我们假设pS(y|x)=pT(y|x)，但pS(x)≠pT(x)[31]。在无监督领域适应设置中，我们还给出了来自目标域的一组未标记图像D={(xj)}，我们可以在训练过程中使用。因此，我们的目标是将模型参数θsM更新为θaM，以在源测试集和给定的目标测试集上取得良好的性能，即提高其对领域偏移的鲁棒性。为了有效利用D中的额外信息，我们需要解决两个相互关联的问题。首先，目标训练集D没有真实标签。其次，使用源模型θsM为D生成伪标签会由于领域偏移而导致噪声监督，阻碍适应。在下面的子节中，我们提出了一种简单的方法来解决这些技术问题。03.2.对鲁棒目标检测的简单适应方法我们提出了一种简单的适应方法SimROD，用于实现鲁棒的目标检测模型。SimROD整合了一种基于教师引导的微调方法、一种新的DomainMix数据增强方法和一种渐进适应技术。第3.2.1节描述了整体方法。接下来，第3.2.2节介绍了DomainMix数据增强方法，用于对教师模型和学生模型进行适应。最后，第3.2.3节解释了渐进适应方法，克服了领域偏移和伪标签噪声两个相互关联的问题。03.2.1总体方法0我们的简单方法是受到标签噪声在域漂移下加剧的事实的启发。因此，我们的方法旨在在目标域图像上生成准确的伪标签，并将它们与源域和目标域的混合图像一起使用，为模型的自适应提供强有力的监督。由于学生目标模型可能没有能力生成准确的伪标签并自适应自身，我们首先提出先适应一个辅助教师模型，该模型可以后续生成高质量的伪标签来微调学生模型。SimROD的流程图如图1所示。其步骤总结如下：0步骤1：我们使用比学生模型M要大的容量训练一个大型源教师模型T，使用源数据D并获得参数θsT。源教师用于在目标数据上生成初始伪标签。3.2.3Gradual self-labeling adaptationNext, we present a gradual adaptation for optimizing theparameters of the detection model. This algorithm miti-gates the effects of label noise, which is exacerbated by thedomain shift. In fact, the pseudo-labels generated by thesource models can be noisy on target domain images (e.g. itcannot detect objects or detects them inaccurately). If theseinitial pseudo-labels are used to adapt all the layers of themodel at the same time, it results in poor supervision andhinders the model adaptation.Instead, we propose a phased approach. First, we freezeall convolutional layers and adapts only the BN layers inthe ﬁrst w epochs. After this ﬁrst phase, BN layers’ train-able coefﬁcients are updated. The partially adapted modelis then used to generate more accurate pseudo-labels, which35730步骤2：我们使用渐进自适应算法2（见第3.2.3节）将大型教师模型参数从θsT适应到θaT。在此步骤中，我们使用DomainMix增强（见第3.2.2节）生成的混合图像。0步骤3：我们使用适应后的教师模型参数θaT对目标数据D上的伪标签进行改进。然后，我们使用算法2的第2和第8行中的这些伪标签微调学生模型M。0这种方法的一个好处是，它可以使小型和大型目标检测模型适应域漂移，因为即使学生网络很小，它也能生成高质量的伪标签。我们方法的另一个优点是，教师和学生不需要共享相同的架构。因此，在自适应过程中可以使用一个准确但速度较慢的教师模型，而在部署时选择一个快速的架构。03.2.2 DomainMix增强这里，我们介绍一种名为DomainMix的新增强方法。如图1所示，它从源域和目标域D∪D中均匀采样图像，并将这些图像与它们的（伪）标签强烈混合成一个新的图像。图2显示了来自自然和艺术领域的DomainMix图像的示例。DomainMix使用简单的思想带来许多好处，以减轻域漂移和标签噪声的影响：0•它通过从源集和目标集中随机采样和混合裁剪，生成多样化的图像集。因此，它在每个时期都使用不同的图像样本，从而增加了有效的训练样本数量，并防止过拟合。相比之下，简单的批处理在每个时期都重复使用相同的图像。0•它是数据高效的，因为它从两个域中进行加权平衡采样。即使目标数据集样本有限或源域和目标域数据集高度不平衡，它也有助于学习对数据漂移具有鲁棒性的表示。在[2]中，我们提供了证明DomainMix数据高效性的消融研究。0•它在同一图像中混合了真实标签和伪标签。这减轻了自适应过程中错误标签的影响，因为图像始终包含来自源域的准确标签。0•它强制模型检测小物体，因为原始样本中的物体被缩小了。0DomainMix增强的步骤列在算法1中。对于批次中的每个图像，我们从源数据和目标数据D∪D中随机采样三个额外的图像，并混合这些图像的随机裁剪，以创建一个新的混合域图像，即2×2的拼贴图。此外，0算法1 DomainMix增强输入：一批B个图像β，源数据D的标签{yi}，无标签目标数据D，伪标签{yj}0输出：一个混合域样本批次 � β01: 过程 DOMAIN MIX (β, D, { y j })02: � β ← �03: 对于 i 从 1 到 B 循环05: 对于 j 从样本 (D ∪ D, 3) 中采样循环06: 如果 j ∈ D，则0, y j ) }08: 否则09: S ← S ∪ { ( x j , y j ) }010: 将 S 中的4个图像的裁剪整合为 � x i011: 重新计算 S 中所有框的坐标为 � y i012: 更新 β ← β ∪ { ( � x i , � y i )}0图2. 由DomainMix混合来自PascalVOC的真实图像和来自Watercolor2K的艺术图像生成的示例图像。0我们将 D 中未标记样本 x j 的伪标签 y j与源图像的真实标签进行整合。根据新混合图像中每个裁剪的相对位置计算对象的边界框坐标。此外，我们使用加权平衡采样器从两个域中均匀采样。35740算法2 渐进自标签自适应输入：源模型 θ sM，标记的源数据 D，未标记的目标数据 D，预热轮数w，总轮数 T，每轮步数 N 和批次大小 B0输出：适应后的模型 θ a M01: 过程 ADAPT ( θ s M , D , D )02: 对于 x j 从 D 中循环，y j ← GenPseudo ( x j03: 初始化 θ ← θ s M04: 对于层从 θ. layers 循环05: 如果层不是BatchNorm，则冻结该层06: 对于 epoch 从 1 到 T 循环07: 如果 epoch == w ，则切换到第二阶段08: 对于 x 从 D 中循环，y j ← GenPseudo ( x j , θ )09: 解冻所有层010: 对于 step 从 1 到 N 循环011: 从 D 中抽取一个批次 β = { ( x i , y i ) } B i =1012: 更新 β ← DomainMix (β, D, { y j013: 更新 θ 以最小化带有 β 的损失014: θ a M ← θ0为了简化操作，第一阶段的训练是离线完成的。在第二阶段，所有层都被解冻，然后使用经过改进的伪标签进行微调。需要注意的是，在这两个阶段中，我们使用由DomainMix数据增强生成的混合图像样本。这个渐进自适应的详细步骤列在算法2中。与之前的工作[24,28]不同，它们仅使用BN适应，我们将其集成到自训练框架中，以有效地克服由于域偏移引起的不可避免的标签噪声[18]。正如在第4节中将展示的那样，当与DomainMix数据增强一起使用时，所得到的方法能够有效地将目标检测模型适应到不同类型的域偏移中。需要注意的是，[18]也使用了两阶段的渐进自适应方法，但他们使用了由条件GAN生成的合成域映射图像，在第一阶段对模型进行微调。相反，我们的方法在整个适应过程中利用了实际的目标域图像，这些图像与使用DomainMix数据增强将其与源域图像混合。04.实验结果0在本节中，我们评估了SimROD在对抗不同类型的领域转换中的有效性，与标准基准上的先前工作进行了性能比较，并进行了消融研究。对于我们的实验，我们采用了单阶段检测架构Yolov5[20]，并通过缩放输入尺寸、宽度和深度使用不同的模型大小。我们在第4.1节中研究了合成到真实和摄像机设置转换[6]，在第4.2节中研究了跨领域艺术转换[18]，并在第4.3节中研究了对图像的鲁棒性。0训练细节和附加结果请参见补充材料[2]。04.1.合成到真实和跨摄像机基准数据集。我们使用Sim10k[21]到Cityscapes [7]和KITTI[9]到Cityscapes基准来研究在合成到真实和跨摄像机转换中的适应能力。与先前的工作一样，只使用了“car”类。度量标准。为了公平比较，我们根据“源”模型（仅在标记的源数据上训练）在目标测试集（即Cityscapesval）上具有相似的平均精度AP50(θs)进行了不同模型/方法对的分组。我们根据三个指标比较每个组：（1）其“适应”模型的AP50(θa) ，（2）绝对适应增益τ，以及（3）其有效适应增益ρ 定义为：0τ = AP50(θa) - AP50(θs) , (1)0ρ = 100 × 0AP50(Oracle) - AP50(θs) , (2)0其中“Oracle”是使用标记的目标域数据训练的模型。增益度量τ是由[37]提出的，用于比较可能共享相同基础架构但在适应之前具有不同性能的方法。为了更好地比较，我们还使用度量ρ分析适应方法的有效性。该度量有助于了解适应方法是否在目标测试集上提供了比在源测试集上具有更高性能的预期性能。对于无法适应模型的方法，其有效增益ρ =0% ，而使目标性能接近Oracle的方法，其ρ = 100%。Sim10K到Cityscapes。表1显示SimROD在目标AP50性能和有效适应增益上取得了新的SOTA结果。我们使用两个学生模型S320和S416，它们具有相同的Yolov5s架构，但输入尺寸分别为320和416像素，以与具有可比源AP50性能的先前方法进行比较。例如，我们的S320模型的AP50 =44.70% ，ρ = 72.93% ，而Coarse-to-Fine [37]的AP50 =43.8% ，ρ = 35.34%。在将我们的适应S416模型的性能与使用EPM[16]适应的FCOS模型的性能进行比较时，也观察到了类似的结果。图3展示了SimROD相对于先前基线方法在从Sim10K到Cityscapes的模型适应中的有效性。使用SimROD适应的模型达到了目标AP性能的70-75%（如果模型是使用完全标记的目标数据集进行训练的）。相比之下，基线方法仅实现了其Oracle性能的约30%。KITTI到Cityscapes基准。表2显示了这个实验的结果，SimROD优于基线。使用S416模型，它的AP50性能略高于最佳基线PDA [17]。DAF [6]F-RCNNV30.1039.00-8.90-CVPR 2018MAF [11]F-RCNNV30.1041.10-11.00-ICCV 2019RLDA [22]F-RCNNI31.0842.5668.1011.4831.01ICCV 201935750方法架构 Backbone 源AP50 Oracle τ ρ 参考文献0SCDA [38] F-RCNN V 34.00 43.00 - 9.00 - CVPR 2019 MDA [36] F-RCNN V 34.30 42.80 - 8.50 - ICCV 2019 SWDA [27]F-RCNN V 34.60 42.30 - 7.70 - CVPR 2019 Coarse-to-Fine [37] F-RCNN V 35.00 43.80 59.90 8.80 35.34 CVPR 2020SimROD (自适应) YOLOv5 S320 33.62 38.73 48.81 5.11 33.66 我们的 SimROD (带teacher X640) YOLOv5 S320 33.6244.70 48.81 11.08 72.93 我们的0MTOR [4] F-RCNN R 39.40 46.60 - 7.20 - CVPR 2019 EveryPixelMatters [16] FCOS V 39.80 49.00 69.70 9.20 30.77ECCV 2020 SimROD（自适应）YOLOv5 S416 39.57 44.21 56.49 4.63 27.37 我们的 SimROD（带教师X1280）YOLOv5S416 39.57 52.05 56.49 12.47 73.73 我们的0表1.Sim10K到Cityscapes适应场景中不同方法/模型对的结果。“V”，“I”和“R”分别代表VGG16，ResNet50，Inception-v2骨干网络。“S320”，“M416”，“X640”，“X1280”代表Yolov5模型的不同尺度，随着深度、宽度和输入尺寸的增加。“Source”指的是仅使用源图像进行训练的模型，没有进行领域适应。为了公平比较，我们将“Source”性能相似的方法/模型对分组在一起。我们报告了适应模型的AP50（%）性能和“Oracle”模型的性能，后者是使用标记的目标数据进行训练的，以及每种方法的绝对增益（%）和有效增益（%）（如果有）。τ和ρ分别是（1）和（2）中定义的绝对增益和有效增益。0方法架构。骨干网络。来源。AP50。Oracle。τ。ρ。参考文献0DAF [6] F-RCNN V 30.20 38.50 - 8.30 - CVPR 2018 MAF [11] F-RCNN V 30.20 41.00 - 10.80 - ICCV 2019 RLDA [22]F-RCNN I 31.10 42.98 68.10 11.88 32.11 ICCV 2019 PDA [17] F-RCNN V 30.20 43.90 55.80 13.70 53.52 WACV 2020SimROD（自适应）YOLOv5 S416 31.61 35.94 56.15 4.33 17.65 我们的 SimROD（带教师X1280）YOLOv5 S416 31.6145.66 56.15 14.05 57.27 我们的0SCDA [38] F-RCNN V 37.40 42.60 - 5.20 - CVPR 2019 EveryPixelMatters [16] FCOS R 35.30 45.00 70.40 9.70 27.64ECCV 2020 SimROD（自适应）YOLOv5 M416 36.09 42.94 59.29 6.85 29.51 我们的 SimROD（带教师X1280）YOLOv5M416 36.09 47.52 59.29 11.43 49.26 我们的0表2. KITTI到Cityscapes适应场景中不同方法/模型对的结果。τ和ρ分别是（1）和（2）中定义的绝对增益和有效增益。0图3.Sim10K到Cityscapes的测试AP50与有效增益之间的关系。我们使用五个不同的骨干网络S320、M320、S416、S640和M640作为学生，以及相同的骨干网络X1280作为教师。0当使用中等大小的M416模型时，SimROD也优于具有相似Source AP50性能的先前基线，即SCDA [38]和EPM [16]。04.2. 跨领域艺术基准0数据集和指标。跨领域艺术基准由三个领域转换组成，其中源数据是VOC07trainval，目标领域是Clipart1k、Watercolor2k和Comic2k数据集[18]。我们使用与第4.1节相同的基准指标。0结果。我们的方法在基线上取得了显著的优势。与DT+PL[18]相比，我们的方法进一步提高了yolov5s模型在Clipart、Comic和Watercolor上的AP50，分别增加了8.45、12和10.69个百分点。虽然DT+PL在Clipart上优于基于增强的基线，在Comic和Watercolor上却稍逊于STAC。最后，SimROD在适应不同大小的模型方面非常有效。在不生成合成数据或使用领域对抗训练的情况下，SimROD的有效增益ρ始终在70%以上，并且当使用大型适应的教师来改进伪标签时，可以达到97%。0在表3中，我们给出了VOC到Watercolor基准的详细结果，其中我们使用了1000个未标记的图像作为目标数据。在[2]中，我们还展示了在Clipart和Comic数据集上的详细结果，以及在使用额外未标记数据进行适应时的更多消融结果。mPCx = 1NcNc�c=11Ns5�s=1APxc,s.(3)rPCx = mPCxAPxclean.(4)τc = mPC(θa) − mPC(θs).(5)35760方法架构。骨干网络。来源。AP50。Oracle。τ。ρ。参考文献0DAF [6] F-RCNN V 39.80 34.30 NA -5.50 NA CVPR 2018 DAM [23] F-RCNN V 39.80 52.00 NA 12.20 NA CVPR 2019DeepAugment [12] YOLOv5 S416 37.46 45.19 56.07 7.73 41.54 arXiv 2020 BN-Adapt [19] YOLOv5 S416 37.4645.72 56.07 8.26 44.39 NeurIPS 2020 Stylize [10] YOLOv5 S416 37.46 46.26 56.07 8.80 47.29 arXiv 2019 STAC [30]YOLOv5 S416 37.46 49.83 56.07 12.37 66.47 arXiv 2020 DT+PL [18] YOLOv5 S416 37.46 44.86 56.07 7.40 39.77CVPR 2018 SimROD（自适应）YOLOv5 S416 37.46 52.58 56.07 15.12 81.26 我们的 SimROD（教师X416）YOLOv5S416 37.46 55.55 56.07 18.09 97.21 我们的0ADDA [34] SSD V 49.60 49.80 58.40 0.20 2.27 CVPR 2017 DT+PL [18] SSD V 49.60 54.30 58.40 4.70 53.41 CVPR2018 SWDA [27] F-RCNN V 44.60 56.70 58.60 12.10 86.43 CVPR 2019 DeepAugment [12] YOLOv5 M416 46.9554.02 66.34 7.07 36.47 arXiv 2020 BN-Adapt [19] YOLOv5 M416 46.95 55.75 66.34 8.80 45.39 NeurIPS 2020 Stylize[10] YOLOv5 M416 46.95 55.24 66.34 8.29 42.76 arXiv 2019 STAC [30] YOLOv5 M416 46.95 57.82 66.34 10.8756.07 arXiv 2020 DT+PL [18] YOLOv5 M416 46.95 49.14 66.34 2.19 11.30 CVPR 2018 SimROD (自适应) YOLOv5M416 46.95 60.08 66.34 13.13 67.72 我们的 SimROD (teacher X416) YOLOv5 M416 46.95 63.47 66.34 16.52 85.22我们的0表3. 在Real (VOC)到Watercolor2K领域转移上的基准结果。0图4. 定性比较：(a)在无标签目标示例上生成的伪标签和(b)使用适应后的Yolov5s的测试预测。04.3. 图像损坏基准0数据集。我们使用标准基准Pascal-C、COCO-C和Cityscapes-C[25]评估我们的方法对图像损坏的鲁棒性。对于Pascal-C，我们使用VOC07 trainvalsplit作为源训练数据。对于COCO-C和Cityscapes-C，我们划分了训练集并使用前一半作为源训练数据。每个数据集有N c = 15种不同的损坏类型。因此，我们将每种损坏类型应用于VOC12 trainval或COCO-C和Cityscapes-Ctrain的后一半作为无标签的目标数据。具体而言，我们使用imagecorruptions库[25]将每种损坏类型与中等严重程度应用于每个图像。更多细节请参见[2]。0指标。对于图像损坏基准，我们遵循[13, 25,32]的评估协议，测量在损坏下的平均性能(mPC)，在损坏下的相对性能(rPC)和相对鲁棒性0τ c 为适应模型在 N c 种不同的损坏类型上的平均值:0其中AP x clean和AP x c,s分别表示具有损坏类型 c和严重程度 s 的测试数据的平均精度。相对鲁棒性 τ c量化了适应对分布转移下性能(mPC)的影响。基线。我们使用以下旨在提高对图像损坏的鲁棒性的基线：Stylize[10]、BN-Adapt [19]、DeepAugment [12]、STAC[30]和DT+PL[18]。除非另有说明，我们采用弱

下载后可阅读完整内容，剩余1页未读，立即下载