学习忽略域风格提升无源目标检测性能

119 浏览量更新于2023-10-25 收藏 15.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

The resurgence of deep convolutional neural networkshas greatly promoted the development of object detection,for example, the one-stage YOLO [1] and two-stage FasterR-CNN [27] have made a big splash. However, when ap-plied to a new scenario, a pre-trained detector often suffersa performance drop, due to the domain shift [5]. Moreover,considering to data privacy, distributed data storage, and in-convenient data transmission, Source-Free Object Detection(SFOD) [23] which assumes only the pre-trained model onthe source domain is available and source data itself is un-80140通过学习忽略域风格进行无源目标检测0Shuaifeng Li 1 Mao Ye 1 Xiatian Zhu 2 Lihua Zhou 1 Lin Xiong 101 中国电子科技大学计算机科学与工程学院 2 英国萨里大学视觉、语音和信号处理中心0hotwindlsf@gmail.com,maoye@uestc.edu.cn,xiatian.zhu@surrey.ac.uk0摘要0无源目标检测（SFOD）需要将在标记的源域上预训练的检测器适应到目标域，只使用目标域的无标签训练数据。现有的SFOD方法通常采用伪标签范式，模型适应在预测伪标签和微调模型之间交替进行。这种方法由于存在域偏移和目标域训练数据的有限使用而导致伪标签的准确性不尽如人意。在这项工作中，我们提出了一种新颖的学习忽略域风格（LODS）方法，以解决这些限制。我们的想法是通过强制模型忽略目标域的风格来减少域偏移效应，从而简化模型适应并更容易进行。为此，我们增强了每个目标域图像的风格，并利用原始图像与增强图像之间的风格程度差异作为自监督信号进行模型适应。通过将增强图像视为辅助视图，我们利用学生-教师架构来学习忽略与原始图像的风格程度差异，同时还采用了一种新颖的风格增强算法和图形对齐约束。广泛的实验证明，我们的LODS在四个基准测试上取得了新的最先进性能。01. 引言0伪标签0目标域图像0监督学习0检测结果风格增强图像0目标域图像0伪标签策略0检测结果0忽略域风格策略0相互0风格增强0检测器0检测器（学生）0检测器（教师）0图1. 伪标签策略（上）和我们提出的策略（下）的比较。0最近，无源目标检测（SFOD）方法[13, 23,36]基于伪标签或样本生成策略80150提出了一些方法。它们使用更好的预测伪标签或领域噪声扰动的图像作为自我监督信号。已经取得了最先进的性能。与SFDA方法类似，不可靠的伪标签和生成样本的质量不佳限制了它们的性能。显然，目标域风格（例如成像特征）对于源域的领域偏移有很大的贡献。因此，减小目标域风格对模型行为的影响将立即有效地减少领域偏移。基于上述基础，如图1所示，我们提出了一种新的领域自适应方法，称为学习忽略领域风格（LODS）。它首先增强每个目标图像的目标域风格，同时保持目标图像的原始风格。通过这种方式，构建了一个基于风格增强图像的辅助视图。借助这个辅助视图，我们的方法让目标检测器学习忽略目标域风格。我们采用了学生-教师框架来完成这个任务。具体而言，我们的方法包括风格增强模块和忽略风格模块。对于风格增强模块，为了增加目标域风格的程度，它以非线性方式合并目标域风格。忽略风格模块基于Mean-Teacher架构。目标样本输入到教师模型，而相应的风格增强版本输入到学生模型。两个模型都是由预训练的源模型初始化的。为了帮助教师和学生模型都具备忽略目标域风格的能力，我们在实例和图像级别上设计了图形对齐约束。通过要求图像和其对应的风格增强版本之间的对象实例和图像块特征关系的一致性，提取的特征将忽略目标域风格。我们的贡献总结如下：（1）我们提出了一种新颖的学习忽略领域风格的策略。与传统的伪标签策略不同，它不仅充分利用了所有目标数据，还减少了目标检测器对领域的敏感性。与样本生成策略相比，风格增强更容易实现。（2）提出了一种风格增强方法。与现有的风格转换方法不同，它保留了原始的目标域风格，并进一步为目标域图像添加更多的目标域风格。（3）我们提出了一种新的Mean-Teacher框架变体，实现了双向知识蒸馏。它通过两个图形对齐来忽略领域风格，而不需要任何源数据的帮助。02. 相关工作02.1. 无监督领域自适应目标检测0最近的进展推动了无监督领域自适应目标检测（UDAOD）的发展，它0可以访问源数据（与SFOD的区别）。方法大致分为四种策略。第一种是基于分布对齐策略，例如DA-Faster[5]，SWDA [28]，HTCN [4]，SSA-DA [43]，ICR-CCR[37]，VDD [34]，SGA-S [41]，CST-DA [42]和DBGL[3]等。它通过域分类器或原型在不同层次上对不同类型的特征进行对齐。第二种使用伪标签策略，例如NL [16]和CDG[22]，它利用伪标签来处理目标样本。第三种是样本生成策略，例如DM [17]，AFAN [32]，UMT[7]等。它们倾向于通过CycleGAN[44]来转移源域和目标图像的风格。最后一种是使用辅助模型策略，它学习辅助检测器、多类分类器或多标签分类器来辅助转移检测器，例如NL [16]，ICR-CCR [37]，MTOR[2]，UMT[7]。Mean-Teacher框架是一个典型的代表。尽管取得了很好的性能，但所有这些方法都需要访问源域数据。02.2. 无源领域自适应0由于缺乏源数据，仅依赖预训练源模型的无源领域自适应（SFDA）比传统的无监督领域自适应更困难。解决这个问题有两个主要途径。一种是基于样本生成策略。例如，3C-GAN [21] 和 SDDA [19]生成带有目标领域风格的标记样本进行训练；VDM-DA[30]生成源领域风格特征，然后将生成的特征与目标特征对齐；SFIT [11]利用源模型的批归一化层生成具有源领域风格的图像，并对输出预测进行对齐。另一种是使用伪标签策略。SHOT [24]和 SHOT++ [25]使用每个类别的质心生成伪标签，并使用信息最大化来确保类别之间的平衡；DASD [18]构建自适应原型记忆来利用伪标签。对于无源目标检测（SFOD），方法并不多。SED [23]根据自熵下降策略搜索自信阈值以生成伪标签。除了伪标签，HCL [13]还提出了历史对比实例判别来将当前表示拉向其正样本。两者都取得了良好的性能，但使用的伪标签不可靠，且仅使用（有信心的）实例级样本。SOAP [36]提出使用领域噪声扰动目标图像，并使用对抗学习技术来转移检测器。在存在较大领域差距的情况下，它无法发挥作用。03. 方法03.1. 问题陈述080160预测特征0特征预测0RCNN0RCNN0共享RPN0忽略风格模块风格增强模块0风格增强特征0目标特征0风格增强图像0风格图像0(a) (b)0基于图的图像级对齐0基于图的类别级实例对齐0训练0测试0图2. 提出的学习忽略领域风格（LODS）方法的概述。黑线和红线分别表示训练和测试流程。(a)用于增加目标领域图像风格程度的风格增强模块。(b) 学生-教师架构中的忽略风格模块。0假设源领域 Ds = {(xis, yis)} Nsi = 1 是有标签的，其中 yis= (bis, cis) 表示源领域第i张图像中的框和类别，Ns表示源图像的总数。目标领域 Dt = {xit} Nti = 1是无标签的，其中 Nt表示目标图像的总数，目标样本遵循相同的分布。我们的目标是在领域自适应过程中将源模型转移到目标领域，而不降低性能，同时无法访问源数据。概述。提出的学习忽略领域风格（LODS）方法由两部分组成。如图2所示，一部分是风格增强模块，另一部分是忽略风格模块。风格增强模块（图2(a)）首先提取每个图像的风格，即通道方向上的均值和方差。对于一张图像，其增强的目标领域风格被计算为自身风格和任意目标图像风格的非线性组合。然后，通过用增强的风格替换原始风格来增强风格。通过将风格增强图像视为另一个领域，可以使用Mean-Teacher框架利用风格差异进行模型自适应（图2(b)）。目标图像和风格增强版本分别输入到教师模型和学生模型中。这两个模型都基于Faster-RCNN，并初始化为预训练的源模型。基于图匹配的类别级实例对齐和图像级对齐被设计用于帮助教师和学生相互学习。伪标签也被用来增加学生模型的区分能力。03.2. 风格增强0现有方法[14]已经通过简单地替换特征通道的均值和方差来实现任意风格转移。我们遵循这个技术路线。但与风格转移不同，我们需要进一步操作特征的均值和方差。0假设我们有一张图像x和目标领域中的任何图像y；ex和ey分别是对应的特征。µ(ex)和σ(ex)是相对于ex的逐通道均值和方差，µ(ey)和σ(ey)也是如此。根据[14]中的工作，风格转移是通过替换特征通道的均值和方差来完成的。假设eyx是通过添加图像y的风格进行风格转移的特征，该公式表示为0eyx = σ(ey)ex0σ(ex) + µ(ey). (1)0我们的目标不是转移图像风格，而是增强相似的风格，因此我们提出了一个想法，即生成由新的通道均值和方差组成的增强风格。由于图像x和y来自同一分布，将它们的均值和方差整合起来增强风格是很自然的。这个过程可以表示为µ(ˆex) = δ1(µ(ex), µ(ey)), σ(ˆex) = δ2(σ(ex),σ(ey))，其中δ1和δ2是两个非线性函数。ˆex是相对于x的风格增强特征。基于上述推理，我们设计了一个风格增强模块，如图3所示。两个网络F1和F2分别用于近似δ1和δ2。每个网络由两个全连接层和一个ReLU层组成，以具有最小参数的非线性。特征编码器E是从预训练的VGG-16模型中得到的，并在训练和测试过程中保持不变。解码器D是编码器的逆。由于风格一致性是在低层特征上受限的[14]，编码器E =E2 ◦E1进一步分为E1和E2两部分，其中◦是函数嵌套运算符。解码器D = D2 ◦D1也是如此，其中D1和D2。具体而言，第一个下采样后的ReLU层是分割线，用于分隔E。D被对称地分割为E。Given a target image x and its corresponding style enhancedversion ˆx, the image-level features gx ∈ RH×W ×C andgˆx ∈ RH×W ×C are extracted by using the base featureextractor of Faster-RCNN (ResNet-101 or VGG-16).Hand W represent the height and width of the feature maprespectively; C is the number of feature channel. Subse-nL(Ci,j, ˆCm,n)T i,mT j,n,(5)80170替换0替换0可训练的0固定的0图3. 风格增强模块的架构。风格通过两个网络F1和F2进行增强。0为了训练风格增强模块，网络F1和F2基于风格一致性进行训练，表示如下：0Lsty = αLs(E1(ˆx), E1(y)) + Ls(E1(ˆx), E1(x)), (2)0其中ˆx是风格增强图像，Ls(ϕ, ψ) = ∥µ(ϕ) - µ(ψ)∥2 +∥σ(ϕ) -σ(ψ)∥2，对于任意两个特征ϕ和ψ，是一个用于衡量特征通道均值和方差一致性的函数。α是一个超参数，在我们的所有实验中固定为50，用于控制添加风格的速率。第一和第二项分别确保ˆx中包含x和y的风格。解码器D通过以下损失函数进行训练：0Lcon = ∥ x - D(ex) ∥2 + ∥E1(x) - D1(ex) ∥20+ ∥ˆex - E(ˆx)∥2, (3)0其中，这三个项目分别代表了从图像、低层特征和高层特征的一致性角度来看内容的一致性。为了避免彼此干扰，解码器 D 和网络 F1 和 F2是交替训练的。需要注意的是，为了增强图像 x的风格，我们选择任何图像 y作为风格图像。我们不选择平均风格，因为如果背景散乱，它将成为高斯噪声（而不是多样化的风格）。而如果背景非常相似，则可以使用所有目标图像的平均值作为风格图像（例如Foggy-Cityscapes）。与领域随机化[12,40]和领域随机化[17]相比，我们的方法坚持目标领域的风格，以减轻其负面影响，而不是使用辅助领域进行广义表示学习。03.3. 忽略目标域风格0假设两个Faster R-CNN检测器Θ tea和Θstu分别被视为教师模型和学生模型，它们由预训练的源模型初始化0Θs。将目标图像和相应的样式增强版本分别输入教师模型和学生模型，学生模型由教师模型生成相同的区域提议。基于图的对齐用于提升教师模型和学生模型对目标域风格的忽视能力。03.3.1 基于图的对齐0并且f ˆ x ∈ R R × C′也可以通过利用Faster-RCNN的区域提议网络(RPN)和ROI池化层提取。R表示图像中的区域提议数；C'是特征维度。设p，ˆ p ∈ R R × N c是实例级特征f x ∈ R R × C'和f ˆ x∈ R R × C'的类别预测，其中Nc是包括背景在内的对象类别数。0基于图的类别级实例级对齐。由于ˆx只是x的样式增强版本，无论不同强度的样式对它们的影响如何，实例特征及其之间的关系应保持一致。为了提高判别能力，我们使用类别级实例级特征如下，0˜ f x = f x ⊙ p , ˜ f ˆ x = f ˆ x ⊙ ˆ p , (4)0其中˜ f x ∈ R R × ( C ′ � N c )和˜ f ˆ x ∈ R R × ( C ′ � N c)是通过预测和实例级特征的多线性变换⊙获得的。基于上述类别级实例级特征，对于目标图像x和相应的样式增强版本ˆx，我们分别定义了两个图G(V, C)和ˆ G(ˆ V, ˆ C)。V和ˆV是相应的类别级实例级特征；C和ˆC是边矩阵，即这些特征之间的余弦相似度矩阵。我们利用Gromov-Wasserstein(GW)差异[26]定义了基于图的类别级实例级对齐(GCIA)损失，如下所示，0L GCIA = �0其中L(∙,∙)是Kullback-Leibler散度，用于衡量图中边的距离。LGCIA使用图匹配矩阵T ∈ R R ×R作为权重来衡量特征差异。因为每条边都有两个点，图匹配矩阵T被使用两次。∥2 .(6)lr =M i,m ≠1http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html2https://naoto0804.github.io/cross domain detection80180接下来，我们解释如何构建一个类别相关的图匹配矩阵T。由于T i,m表示特征˜ f i x和˜ f m ˆx之间的匹配程度，如果它们的关系很强，匹配程度应该更大。因此，我们基于余弦相似度定义了一个类别相似性矩阵Γ，0Γ i,m = p i ∙ p m0这里，由于教师模型的预测更可靠，所以从教师模型中获得的预测被调整。由于p中存在噪声预测，我们需要构建一个类别关系掩码M来过滤噪声，借助伪标签的帮助。设置一个置信度阈值h，利用每个区域提议的伪标签如下，0� arg max c p r,c if max c p r,c ≥h,0否则为0，(7)0其中lr表示第r个区域的标签，0表示背景，h是一个超参数。通过这种方式，可过滤掉不可靠的标签。然后，我们进一步定义M如下，0� 1 if l i = l m , and l i � = 0 , 0 otherwise.. (8)0通过要求类别一致性，M不仅可以过滤掉低置信度的特征，还可以减少特征之间的冗余对齐。最后，我们得到图匹配矩阵如下，0T = I + βM � Γ, (9)0其中�表示逐元素乘法。β是一个超参数。第一项I是一个单位矩阵，因为˜fx和˜fˆx在相同区域具有对应关系。而第二项通过M滤除Γ中的噪声，并增强具有相同类别的特征之间的匹配度。0备注。与现有的图匹配方法[35,38]相比，我们直接基于类别概率构建了一个类别级的匹配矩阵，而不是学习一个匹配矩阵。这更适合需要特征区分性的目标检测。0基于图的图像级对齐。目标检测的领域自适应不仅包括实例级的转移，还包括场景自适应。与实例级对齐类似，我们定义了另一个基于图匹配的图像级对齐约束。首先，将图像级特征gx和gˆx划分为H*W个块。然后，分别定义两个图G'(V', C')和ˆG'(ˆV',ˆC')。V'和ˆV'是对应的块级特征；C'和ˆC'是余弦相似度矩阵。0这些特征的相似性矩阵。通过要求同一块中的特征对应，我们构建了图匹配矩阵Q =I，并得到基于图像级对齐(GIA)的损失如下：0LGIA = 0i,j,m,n L ((C')i,j, (ˆC')m,n) Qi,m Qj,n. (10)0备注。还有一些基于图的UDAOD方法可以访问源数据。与[2]相比，我们的方法使用了一种基于类别的图匹配矩阵，而不是点对点匹配。至于[39]，我们构建了两个图，然后对齐它们，而不是原型，这更适合我们的情况，即忽略领域风格。03.3.2 整体损失函数0在Mean-Teacher框架中，学生模型θstu的参数通过梯度下降更新，目标函数如下：0min θstu Lce + γLGCIA + λLGIA, (11)0其中γ和λ是用于平衡损失组成部分的超参数，固定为0.1。使用交叉熵损失Lce，该损失利用了公式(7)中生成的伪标签，以增加学生模型的区分性。而教师模型θtea的参数是学生模型历史参数的指数移动平均值：0θtea = η ∙ θtea + (1 − η) ∙ θstu, (12)0其中η是一个超参数，用于控制教师参数的更新，固定为0.999。因此，从风格增强特征到原始特征的对齐也会指导教师检测器忽略领域风格。我们提出的策略实现了双向知识蒸馏。当实现对齐时，知识从教师模型流向学生模型，而学生模型学到的知识通过参数更新流向教师模型。两个检测器都学会了忽略领域风格，从而实现了类似的性能。04. 实验0数据集。对于Pascal → Clipart的转移场景，Pascal 1[8]是一个包含20个自然图像类别的数据集。类似地，Clipart 2[15]也包含与Pascal相同的20个类别和1K个卡通风格的图像。根据[4, 28]，我们使用了大约15K张图像。80190Table 1. 在Pascal → Clipart上的检测结果。比较了UDAOD方法的平均精度(mAP,以%)。0方法飞机自行车鸟船瓶子公共汽车车猫椅子牛桌子狗小时自行车人植物羊沙发火车电视 mAP0仅源域 24.4 38.8 24.9 21.4 32.0 38.5 33.7 12.8 27.9 21.0 16.3 12.3 25.1 42.3 31.6 27.8 10.5 20.8 40.0 29.8 26.60SWDA [28] 26.2 48.5 32.6 33.7 38.5 54.3 37.1 18.6 34.8 58.3 17.0 12.5 33.8 65.5 61.6 52.0 9.3 24.9 54.1 49.1 38.1 ICR-CCR [37]28.7 55.3 31.8 26.0 40.1 63.6 36.6 9.4 38.7 49.3 17.6 14.1 33.3 74.3 61.3 46.3 22.3 24.3 49.1 44.3 38.3 HTCN [4] 33.6 58.9 34.023.4 45.6 57.0 39.8 12.0 39.7 51.3 21.1 20.1 39.1 72.8 63.0 43.1 19.3 30.1 50.2 51.8 40.3 DBGL [3] 28.5 52.3 34.3 32.8 38.6 66.438.2 25.3 39.9 47.4 23.9 17.9 38.9 78.3 61.2 51.7 26.2 28.9 56.8 44.5 41.6 DM [17] 25.8 63.2 24.5 42.4 47.9 43.1 37.5 9.1 47.046.7 26.8 24.9 48.1 78.7 63.0 45.0 21.3 36.1 52.3 53.4 41.8 PD [33] 41.5 52.7 34.5 28.1 43.7 58.5 41.8 15.3 40.1 54.4 26.7 28.537.7 75.4 63.7 48.7 16.5 30.8 54.5 48.7 42.1 SAPNet [20] 27.4 70.8 32.0 27.9 42.4 63.5 47.5 14.3 48.2 46.1 31.8 17.9 43.8 68.068.1 49.0 18.7 20.4 55.8 51.3 42.2 UMT [7] 39.6 59.1 32.4 35.0 45.1 61.9 48.4 7.5 46.0 67.6 21.4 29.5 48.2 75.9 70.5 56.7 25.928.9 39.4 43.6 44.10SOAP [36] 34.6 46.7 26.8 23.2 34.9 33.5 39.3 16.5 29.1 33.6 17.9 12.0 26.9 41.2 37.1 34.5 14.3 23.4 36.3 35.7 29.9 我们的方法43.1 61.4 40.1 36.8 48.2 45.8 48.3 20.4 44.8 53.3 32.5 26.1 40.6 86.3 68.5 48.9 25.4 33.2 44.0 56.5 45.20表2. Pascal → Watercolor上的检测结果。0方法自行车鸟车猫狗人 mAP0仅源域 85.6 46.8 43.1 24.5 21.9 54.8 46.10SWDA [28] 82.3 55.9 46.5 32.7 35.5 66.7 53.3 AFAN [32]87.0 46.4 47.3 33.1 30.0 60.1 50.6 DBGL [3] 83.1 49.3 50.639.8 38.7 61.3 53.8 ATF [10] 78.8 59.9 47.9 41.0 34.8 66.954.9 SAPNet [20] 81.1 51.1 53.6 34.3 39.8 71.3 55.2 VDD[34] 90.0 56.6 49.2 39.5 38.8 65.3 56.6 PD [33] 95.8 54.348.3 42.4 35.1 65.8 56.9 UMT [7] 88.2 55.3 51.7 39.8 43.669.9 58.10SOAP [36] 79.3 44.3 41.4 45.7 39.3 55.9 51.0 我们的方法95.2 53.1 46.9 37.2 47.6 69.3 58.20使用PASCAL VOC2007和2012的训练和验证集来预训练源模型。Pascal →Watercolor情景有一个数据集Watercolor 3[15]，其中包含2K个水彩风格的图像和6个与Pascal相同的类别。与之前的工作[17,28]一样，我们使用其训练和测试图像来相应地训练和测试我们的模型。Cityscapes →Foggy-Cityscapes。Cityscapes 4[6]是在正常天气下拍摄的，包含2975个训练图像和500个测试图像，共有8个类别。Foggy-Cityscapes 5[29]使用Cityscapes的图像来模拟有雾的图像，并继承了Cityscapes的注释。按照通用设置[22,39]，我们使用Cityscapes的训练集来预训练源模型，并在Foggy-Cityscapes的测试集上测试我们的模型。对于转移情景KITTI → Cityscapes，KITTI 6[9]包含7481个与Cityscapes不同的城市图像。按照通用设置[5, 23]，我们仅检测汽车类别并预训练源模型。03 https://naoto0804.github.io/cross domain detection 4https://github.com/tiancity-NJU/da-faster-rcnn-PyTorch 5https://github.com/tiancity-NJU/da-faster-rcnn-PyTorch 6http://www.cvlibs.net/datasets/kitti/0使用所有数据的模型。实现细节。为了公平起见，我们遵循[5, 23, 28]的实验设置，其中使用FasterR-CNN作为基础检测器。我们首先使用Adam训练风格增强模块，初始学习率为0.0001。然后我们固定它，并使用固定的学习率0.0001和SGD来训练忽视风格模块。我们在测试过程中报告IoU阈值为0.5的平均精度(mAP)。我们将β设置为0.5，h设置为0.8作为默认值。特别地，对于KITTI →Cityscapes，h设置为0.6。学生模型用于测试，因为它学习速度更快。04.1. 与最先进的方法的比较0我们将我们的LODS与最先进的SFOD和UDAOD方法进行比较。SFOD方法包括SED [23]和SOAP[36]。UDAOD方法包括基于分布对齐的DA-Faster[5]、SWDA [28]、HTCN [4]、SSA-DA [43]、PD[33]、SAPNet [20]、iFAN [45]、ATF [10]、VDD[34]、MeGA-CDA [31]、SGA-S [41]、CST-DA[42]、DBGL [3]；基于伪标签的NL[16]；基于样本生成的DM [17]、AFAN[32]；基于辅助模型的MTOR [2]、UMT [7]、ICR-CCR[37]。SourceOnly和Oracle分别表示在源领域数据和目标领域数据上训练的Faster R-CNN[27]。表中的结果引用自他们的论文。Pascal → Clipart .在这种情况下，我们将目标检测器从真实图像转移到卡通风格的图像，存在巨大的域偏移。表1显示了适应后的检测结果，从中可以看出我们提出的方法LODS以45.2%的mAP达到了最先进的性能，这意味着我们将SFOD方法的mAP提高了15.3%（从29.9%到45.2%）。与可以访问数据的最先进方法相比，我们的方法将mAP显著提升了1.1%（从44.1%到45.2%），这不仅强烈证明了我们提出的方法的有效性，也表明源数据中的知识没有得到充分的探索和传递。MethodsPsonRder Car Tuck Bus TainMcleBclemAPSource Only25.8 33.3 35.2 13.0 26.4 9.1 19.0 32.3 24.3DA-Faster [5]25.0 31.0 40.5 22.1 35.320.2 20.0 27.1 27.6SWDA [28]29.9 42.3 43.5 24.5 36.232.6 35.3 30.0 34.3DM [17]30.8 40.5 44.3 27.2 38.434.5 28.4 32.2 34.6MTOR [2]30.6 41.4 44.0 21.9 38.640.6 28.3 35.6 35.1iFAN [45]32.6 40.0 48.5 27.9 45.531.7 22.8 33.0 35.3Oracle37.2 48.2 52.7 35.2 52.248.5 35.3 38.8 43.580200表3. Cityscapes → Foggy-Cityscapes 上的检测结果。0SED [ 23 ] 21.7 44.0 40.4 32.6 11.825.3 34.5 34.3 30.6SED(Mosaic) [ 23 ] 25.5 44.5 40.7 33.2 22.228.4 34.1 39.033.5 HCL [ 13 ] 26.9 46.0 41.3 33.0 25.028.1 35.9 40.7 34.6SOAP [ 36 ] 35.9 45.0 48.4 23.9 37.224.3 31.8 37.9 35.5我们的方法 34.0 45.7 48.8 27.3 39.719.6 33.2 37.8 35.80转移到目标域，这也在[23]中提到。0Pascal → Watercolor .在这种情况下，我们将检测器从真实图像适应到水彩风格的图像。如表2所示，我们的方法LODS在适应后的两个任务中都达到了58.2%的mAP，其中域偏移也很大。与SFOD方法相比，性能提高了+7.2%，这证明了我们的方法在不同风格的图像上的强大适用性。而由于由于巨大的域差异，SOAP[36]无法工作。0Cityscapes → Foggy-Cityscapes .与前面提到的情景相比，这种情况在不同的天气条件下并不困难。由于背景相似，目标域图像的均值被用作样式图像，以更好地表示该域的风格。如表3所示，我们的方法在SFOD任务上达到了最先进的性能。与流行的域自适应目标检测方法相比，也取得了竞争性能。此外，从表3中还可以看出，我们的方法的改进并不大，因为这两个域非常相似。0KITTI → Cityscapes .在这种情况下，我们评估了我们的方法在不同相机上的适应性能，如表4所示。由于我们在所有实验中都没有使用Mosaic[1]，为了更公平的比较，我们在这里不比较SED（Mosaic）[23]的性能。如表4所示，我们的方法LODS在这种适应情景中达到了43.9%的性能，并且与许多最近的可以访问源数据的方法相比具有可比性的性能。与SFOD方法相比，我们的方法也取得了更好的性能。0定性比较。在图4中，我们展示了KITTI→Cityscapes和Cityscapes→Foggy-Cityscapes的检测结果。我们将我们的方法与Faster R-CNN [ 27 ]、SED [ 23 ]和SED(Mosaic) [ 23]进行了比较。显然，我们的方法能够检测到更多的物体，并确保准确性。特别是在Foggy-Cityscapes上，即使一些物体被雾气严重遮挡，我们的方法仍然能够准确地检测到它们。0表4. KITTI→Cityscapes的检测结果。0方法车辆上的AP 方法车辆上的AP0仅源域 39.2 SSA-DA [ 43 ] 43.3 ATF [ 10 ] 42.1 SAPNet [20 ] 43.4 MeGA-CDA [ 31 ] 43.0 SGA-S [ 41 ] 43.5 NL [16 ] 43.0 CST-DA [ 42 ] 43.60SED [ 23 ] 43.6 SOAP [ 36 ] 42.7 我们的方法 43.9 Oracle49.90表5.Pascal→水彩图案和Pascal→剪贴画的消融研究。ENH、TRA和RAN分别代表风格增强、风格转移和随机增强。0方法增强去除mAP0ENH TRA RAN GIA GCIA 水彩图案0仅源域 × × × × × 46.1 26.60√ √ √ 53.1 33.2 √ √ √ 55.4 39.8 √ √ 56.6 44.5 LODS √√ √ 58.2 45.20R-CNN [ 27 ]、SED [ 23 ]和SED(Mosaic) [ 23]。显然，我们的方法能够检测到更多的物体，并确保准确性。特别是在Foggy-Cityscapes上，即使一些物体被雾气严重遮挡，我们的方法仍然能够准确地检测到它们。04.2. 进一步分析0消融研究。为了探索适应过程中不同模块的有效性，如表5所示，我们在Pascal→水彩图案和Pascal→剪贴画的转移场景上进行了消融研究。(1)使用相同的对齐模块，为了展示我们的风格增强模块的优越性，我们使用随机图像增强，表示为RAN。其mAP为水彩图案为53.1%（剪贴画为33.2%）。而直接使用风格转移(TRA)相比随机增强提高了+2.3%（剪贴画提高了+6.6%）；使用风格增强(ENH)进一步提高了+2.8%（剪贴画提高了+5.4%）。这清楚地表明我们的风格增强技术有效。(2)使用相同的风格增强模块，我们展示了模块GIA和GCIA的效果。如表5所示，仅使用GCIA，其mAP为水彩图案为56.6%（剪贴画为44.5%）。而使用两个模块GIA+GCIA，性能提高了+1.6%（水彩图案提高了+0.7%）。这个消融研究表明，不仅我们提出的风格增强模型非常有效，而且两个对齐约束确实帮助目标检测器忽略领域风格。超参数敏感性。我们在Pascal→水彩图案的适应场景下对h和β进行了敏感性分析。如图6所示，我们的模型可以在广泛的h和β范围内保持相对稳定的结果。正如我们预期的那样，较高的h会导致知识探索能力的降低，较低的h会导致误分类样本数量的爆炸，给模型带来过多的噪声。请注意，0.8和0.5是h和β的最合适的超参数，因此我们在大多数实验中固定这两个超参数。80210仅源域SFOD(SED) 我们的方法0SFOD-Mosaic(SED)0图4.将我们的方法与SED和SED(Mosaic)在目标领域上的检测结果进行比较的示例。第一行和第二行分别代表KITTI→Cityscapes和Cityscapes→Foggy-Cityscapes的场景。放大以获得最佳视图。0目标图像风格图像 RSE图像 SE图像 RT图像0剪贴画0Pascal到0水彩图案0Cityscapes到0Foggy-Cityscapes0KITTI到0Cityscapes0图5.验证学习的忽略目标领域风格的能力。SE、RT和RSE图像分别代表风格增强图像、带有目标特征的重建图像和带有风格增强特征的重建图像。放大以获得最佳视图。0Pascal→水彩图案。如图6所示，我们的模型可以在广泛的h和β范围内保持相对稳定的结果。正如我们预期的那样，较高的h会导致知识探索能力的降低，较低的h会导致误分类样本数量的爆炸，给模型带来过多的噪声。请注意，0.8和0.5是h和β的最合适的超参数，因此我们在大多数实验中固定这两个超参数。0忽略领域风格的可视化。为了证明目标检测器确实学会了忽略目标领域风格的能力，基于源模型，我们首先使用目标数据训练一个解码器，该解码器在样式增强模块中说明。然后，从适应模型中提取目标特征和相应的样式增强版本，并将其输入解码器以重构相应的图像。如图5所示，与原始目标图像（例如，目标图像与RT图像；SE图像与RSE图像）相比，重构的图像具有明显较少的目标领域风格。0图6. 关于Pascal → Watercolor的超参数分析，其中h和β。0表明目标检测器确实学会了忽略目标领域的风格，并充分证明了所提出方法的正确性。RSE图像中的语义不一致性表明检测器能够忽略不重要的细节。可以观察到，样式增强也是不够的。更高效的样式增强方法值得进一步探索。05. 结论0我们提出了一种新的策略，赋予检测器学习忽略领域风格的能力。通过这种方式，目标检测器可以适应新的场景。基于这种策略，提出了样式增强模块和忽略样式模块。与样本生成线相比，样式增强对目标图像更容易。忽略样式模块还使用所有目标样本来帮助检测器适应，而自监督学习策略只使用高置信度样本。实验证实

下载后可阅读完整内容，剩余1页未读，立即下载