没有合适的资源?快使用搜索试试~ 我知道了~
跨域目标检测中的粗到细特征适应方法
ARTAASD ARTAASD 137660通过粗到细的特征适应进行跨域目标检测0郑阳涛 1 , 2 , 3 黄迪 1 , 2 , 3 � 刘松涛 1 , 2 , 3 王云宏 1 , 301 北京大数据与脑计算高精尖创新中心,北京航空航天大学 2软件发展环境国家重点实验室,北京航空航天大学 3计算机学院,北京航空航天大学,中国北京1001910{ ytzheng,dhuang,liusongtao,yhwang } @buaa.edu.cn0摘要0近年来,基于深度学习的目标检测取得了巨大的进展。然而,由于领域转移问题,将现成的检测器应用于未知领域会导致性能显著下降。为了解决这个问题,本文提出了一种新颖的粗到细的特征适应方法来进行跨域目标检测。在粗粒度阶段,与文献中使用的粗略的图像级或实例级特征对齐不同,通过采用注意机制提取前景区域,并通过多层对抗学习在共同特征空间中对齐它们的边缘分布。在细粒度阶段,我们通过最小化不同领域中相同类别的全局原型之间的距离,对前景进行条件分布对齐。由于这种粗到细的特征适应,前景区域中的领域知识可以得到有效传递。在各种跨域检测场景中进行了大量实验。结果是最先进的,证明了所提方法的广泛适用性和有效性。01. 引言0在过去的几年中,基于卷积神经网络(CNN)的方法显著提高了许多计算机视觉任务的准确性[21, 38, 49]。这些显著的进展通常依赖于大规模基准数据集,如ImageNet[11]和MS COCO[35]。由于领域转移或数据集偏差现象[59],当前的CNN模型在直接应用于新场景时性能下降。在实践中,我们可以通过构建一个涵盖足够多样化样本的任务特定数据集来减轻这种影响。不幸的是,标注大量高质量的真实数据是非常昂贵和耗时的。为了解决这个困境,一种有前途的方法是引入无监督领域适应(UDA)将关键知识从现成的标记域(称为源域)转移到相关但未标记的域(目标域)[44]。最近,UDA方法在深度学习技术的推动下取得了很大进展,它们主要通过减少跨域差异(例如最大均值差异[20]或H-散度[1])生成领域不变的深度表示,在图像分类[40, 15, 51, 12, 27]和语义分割[23, 42, 64,6]方面已经证明非常有竞争力。与它们相比,目标检测更加复杂,需要在图像中定位和分类不同对象的所有实例;因此,如何有效地适应检测器确实是一个具有挑战性的问题。在文献中,有许多解决这个问题的方法,包括基于半监督学习(SSL)[4],基于像素级适应[31, 25, 50]和基于特征的0� 通讯作者0基于注意力的区域转移(ART)0源样本 目标样本 前景 背景0基于原型的语义对齐(PSA)0源域0目标域 适应域0图1.所提出的粗到细的特征适应方法的示意图。它由两个组件组成,即基于注意力的区域转移(ART)和基于原型的语义对齐(PSA)。ART模块从不同领域的整个图像中找出前景,并在其上对齐边缘分布。进一步,PSA模块为每个类别构建原型以实现语义对齐。(最佳观看效果为彩色。)0标注大量高质量的真实数据是非常昂贵和耗时的。为了解决这个困境,一种有前途的方法是引入无监督领域适应(UDA)将关键知识从现成的标记域(称为源域)转移到相关但未标记的域(目标域)[44]。最近,UDA方法在深度学习技术的推动下取得了很大进展,它们主要通过减少跨域差异(例如最大均值差异[20]或H-散度[1])生成领域不变的深度表示,在图像分类[40, 15, 51, 12, 27]和语义分割[23, 42, 64,6]方面已经证明非常有竞争力。与它们相比,目标检测更加复杂,需要在图像中定位和分类不同对象的所有实例;因此,如何有效地适应检测器确实是一个具有挑战性的问题。在文献中,有许多解决这个问题的方法,包括基于半监督学习(SSL)[4],基于像素级适应[31, 25, 50]和基于特征的137670基于级别的适应方法[8, 22, 68, 52,74]。基于SSL的方法通过教师-学生方案中的一致性正则化来减小域差异。然而,教师并不总是传递比学生更有意义的知识[28],因此检测器往往会累积错误,导致检测性能下降。基于像素级的方法首先进行风格转移[73],合成类似目标的中间域,以限制视觉偏移,然后以监督方式训练检测器。然而,在某些极端情况下,保证生成图像的质量仍然是一个困难,这可能会损害适应结果。相反,基于特征级别的适应方法通过对跨域特征进行对齐来减小域差异。这些方法更方便地与竞争性分数一起工作,使其在现有社区中占据主导地位。0在这个类别中,域自适应Faster R-CNN[8]是一个先驱。它将图像级和实例级特征适应都融入到检测模型中。在[52]中,强弱特征适应是在图像级上启动的。该方法主要利用焦点损失来转移难以分类的示例,因为它们中的知识应该对两个域都更本质。虽然它们取得了有希望的性能,但是图像级或实例级特征适应不如局部感兴趣对象的形状多样性准确。[74]引入了K-means聚类来挖掘可转移区域以优化适应质量。虽然有吸引力,但该方法高度依赖预定义的聚类数和分组区域的大小,这在实际应用中不够灵活。此外,在目标检测任务中,通常存在多种类型的对象,每种对象都有自己的样本分布。但是这些方法没有考虑这样的信息,并将不同对象的分布视为整体进行适应,因此还有改进的空间。0本文提出了一种用于跨域目标检测的由粗到细的特征适应框架。主要思想如图1所示。首先,考虑到不同域之间的前景与背景相比具有更多的共同特征[30],我们提出了一种基于注意力的区域转移(ART)模块,以突出前景的重要性,该模块以类别无关的粗略方式工作。我们利用高级特征中的注意力机制提取感兴趣的前景对象,并在特征分布对齐过程中加以强调。通过多层对抗学习,可以在复杂的检测模型中执行有效的领域混淆。其次,对象的类别信息倾向于进一步细化前面的特征适应,在这种情况下,有必要区分不同种类的前景对象。同时,无法保证源图像和目标图像中的前景在同一级别上0批次中的对象具有一致的类别,可能导致一些小批次中的对象不匹配,使得UDA中的语义对齐变得非常困难。因此,我们提出了一种基于原型的语义对齐(PSA)模块,用于在域间构建每个类别的全局原型。原型在每次迭代中自适应更新,从而抑制了错误伪标签和类别不匹配的负面影响。总之,本文的贡献有三个:•设计了一种新的用于跨域两阶段目标检测的由粗到细的适应方法,逐步准确地对齐深度特征。0•提出了两个适应模块,即基于注意力的区域转移(ART)和基于原型的语义对齐(PSA),用于学习具有类别信息的前景区域中的领域知识。0•我们在三个主要基准测试中进行了大量实验,涵盖了一些典型场景,并取得了最先进的结果,证明了所提方法的有效性。02. 相关工作0目标检测。目标检测是计算机视觉中的基础步骤,在过去几十年中受到越来越多的关注。大多数传统方法[63, 10,13]依赖于手工设计的特征和复杂的流程。在深度学习时代,目标检测主要可以分为一阶段检测器[48, 37, 34,36]和两阶段检测器[18, 17, 49,33]。然而,这些通用的检测器没有解决在真实场景中影响检测性能的领域偏移问题。领域自适应。领域自适应[2,1]旨在通过利用源领域的共同知识来提升目标领域的性能,在许多视觉任务[67, 12, 72, 41, 7,14]中得到了广泛研究。随着CNN的出现,许多解决方案通过学习领域不变特征来减少领域偏移。沿着这条线的方法可以分为两个流派:基于准则的[61, 39, 57]和对抗学习的[15,60, 3,46]。前者通过最小化深度特征之间的某些统计距离来对齐领域分布,后者引入领域分类器与特征提取器构建极小极大优化。尽管取得了巨大的成功,但其中大多数只能处理相对简单的任务,如图像分类。跨领域目标检测。许多传统研究[66, 62, 43,70]专注于在领域之间适应特定模型(例如行人或车辆检测)。后来,[47]提出了通过子空间对齐的自适应R-CNN。最近,这些方法主要可以分为四类,包括(1)基于特征级别的:[8]提出了领域自适应Faster R-CNN以̸Ldet(x) = Lrpn + Lreg + Lcls(1)137680标记的源数据0未标记的目标数据0领域分类器0ART ART ART0RPN0⊙0⊙0FC0FC0C0B回归损失0伪标签0源领域真实0汽车人0......自行车0汽车人0......自行车0PSA0PSA损失0SGP TGP0VGG16骨干网络0GT ROIs0目标流0源域真实流0源流0梯度反转层0上采样0SGP源全局原型0TGP目标全局原型0UP0ART模块 PSA模块0卷积块3 卷积块4 卷积块50RoI头0源或目标流0分类损失0ART损失0UP0注意力流0RoI对齐0ADV损失 ⊕0更新0多层ART损失0图2.提出的特征自适应框架概述。我们通过ART和PSA模块的粗粒度到细粒度方案来解决前景区域的领域偏移问题。首先,我们利用从RPN模块学习到的注意力图来定位前景。结合多个领域分类器,ART模块更加注重对齐前景区域的特征分布,以实现类别无关的粗粒度自适应。其次,PSA模块利用源域的真实标签和目标域的伪标签来维护每个类别的全局原型,并以类别感知的方式在前景区域进行细粒度自适应。0缓解图像级和实例级的偏移,[22,68]将这个想法扩展到多层特征适应。[52]利用强弱对齐组件在局部特征中关注强匹配,在全局特征中关注弱匹配。[74]挖掘包含感兴趣对象的判别性区域,并在跨领域中对其特征进行对齐。(2)基于SSL:[4]将对象关系整合到一致性成本的度量中,使用均值教师[58]模型。(3)基于像素级:[25,50]使用CycleGAN将源域转换为类似目标域的风格。[31]使用域多样性和多域不变表示学习来解决不完美的翻译和源偏差问题。(4)其他方法:[29]建立了一个稳健的学习框架,将跨领域检测问题表述为带有噪声标签的训练。[30]引入了弱自训练和对抗性背景得分正则化,用于领域自适应的单阶段目标检测。[71]最小化Wasserstein距离以提高适应性的稳定性。[54]探索了基于梯度分离的堆叠互补损失来适应检测器。正如前面提到的,特征级适应是跨领域目标检测的主要分支,其性能目前受到不准确特征对齐的限制。所提出的方法集中在两阶段检测器上,并通过粗到细的方案大幅提高了特征对齐的质量,其中ART模块学习前景区域的适应重要性,PSA模块编码每个类别的分布特性。03. 方法 3.1. 问题阐述0在跨领域目标检测任务中,我们给出了一个标记的源域 D S = { ( x s i , y s i ) } N s i =1 ,其中 x s i 和y s i = ( b s i , c s i ) 分别表示第 i张图像和其对应的标签,即边界框 b的坐标和其关联的类别 c。此外,我们可以访问一个未标记的目标域 D T = {x t i } N t i =1。我们假设源域和目标域的样本来自不同的分布(即D S � = D T ),但类别完全相同。目标是利用 D S中的知识来提高 D T 中的检测性能。3.2. 框架概述0如图2所示,我们引入了一个用于跨领域目标检测的特征适应框架,其中包含一个检测网络和两个适应模块。0检测网络。我们选择了声誉良好且功能强大的FasterR-CNN [49]模型作为基础检测器。FasterR-CNN是一个两阶段的检测器,由三个主要组件组成:1)提取图像特征的骨干网络 G,2)同时预测物体边界和物体性质分数的区域建议网络(RPN),以及3)包括边界框回归器 B和用于进一步细化的分类器 C的感兴趣区域(RoI)头部。FasterR-CNN的整体损失函数定义如下:LlADV = minθGlmaxθDlExs∼DS log Dl(Gl(xs))+ Ext∼DT log(1 − Dl(Gl(xt)))(2)HWCM(x) = S( 1C�c|F crpn(x)|)(3)T(x) =1HW�h,wM(x)(h,w)(4)A(x) = I(M(x) > T(x)) ⊗ M(x)(5)137690其中 L rpn , L reg 和 L cls分别是RPN、基于RoI的回归器和分类器的损失函数。0适应模块。与大多数现有研究通常在整个特征空间中减少领域偏移不同,我们提出在前景上进行特征对齐,这些前景应该在跨领域之间共享更多的共同属性。同时,与当前方法将所有对象的样本视为一个整体不同,我们认为类别信息对于这个任务有所贡献,因此强调每个类别的分布以进一步改进特征对齐。为此,我们设计了两个适应模块,即基于注意力的区域传输(ART)和基于原型的语义对齐(PSA),以在前景中实现从粗到细的知识传递。03.3. 基于注意力的区域转换0ART模块旨在提高对前景区域内两个域之间分布的对齐度。它由两部分组成:域分类器和注意力机制。为了对齐域间的特征分布,我们将多个域分类器D集成到骨干网络G的最后三个卷积块中,构建了一个双人极小极大博弈。具体来说,域分类器D试图区分特征来自哪个域,而骨干网络G则旨在混淆分类器。在实践中,G和D通过梯度反转层(GRL)[15]连接在一起,该层反转通过G的梯度。当训练过程收敛时,G倾向于提取域不变的特征表示。形式上,第l个卷积块中的对抗学习目标可以写成:0其中θ G l和θ D l分别是G l和D l的参数。Dl(∙)(h,w)表示源域中位置(h,w)处特征的概率。回顾一下,检测任务要求定位和分类对象,RoI通常比背景更重要。然而,域分类器对整个图像的所有空间位置进行对齐,可能降低了适应性能。为了解决这个问题,我们提出了一种注意力机制来实现前景感知的分布对齐。如[49]所述,FasterR-CNN中的RPN用作注意力,告诉检测模型在哪里查找,我们自然地利用RPN中的高级特征生成注意力图,如图3所示。具体来说,给定任意域的图像x,我们将其表示为Frpn(x)∈RH×W×C0作为卷积层的输出特征图0RPN特征图输入0注意力图0过滤骨干网络平均0图3.注意力机制的示意图。我们首先从RPN模块中提取特征图。然后,我们通过在通道维度上对值进行平均来构建空间注意力图。最后,应用过滤来抑制噪声。0RPN模块,其中H×W和C分别是特征图的空间维度和通道数。然后,我们通过在通道维度上对激活值进行平均来构建空间注意力图。此外,我们过滤掉(设为零)那些小于给定阈值的值,这些值更有可能属于背景区域。注意力图A(x)∈RH×W0的公式为:0其中M(x)表示过滤前的注意力图。S(∙)是sigmoid函数,I(∙)是指示函数。F crpn(x)表示特征图的第c个通道。�表示逐元素乘法。阈值T(x)设置为M(x)的均值。由于注意力图的大小与不同卷积块中的特征不兼容,我们采用双线性插值进行上采样,从而产生相应的注意力图。由于注意力图可能不总是那么准确,如果将前景区域误认为背景,则将其注意力权重设置为零,不能对适应性产生贡献。受[65]中残差注意力网络的启发,我们向注意力图添加了一个跳跃连接,以增强其性能。ART模块的总目标定义为:0L ART = ∑l,h,w (1 +U l(A(x)(h,w))) ∙l,h,w ADV (6)03.4.基于原型的语义对齐0其中U l(∙)是上采样操作,L l,h,wADV表示第l个卷积块中像素(h,w)上的对抗损失。将对抗学习与注意机制相结合,ART模块对更易于传递给检测任务的前景区域的特征分布进行对齐。3.4. Prototype-based Semantic Alignmentwhere sim(x1, x2) = (137700由于RPN的注意力图不携带关于分类的信息,ART模块以类别无关的方式对前景的特征分布进行对齐。为了实现类别感知的语义对齐,一种直接的方法是为每个类别训练域分类器。然而,存在两个主要缺点:(1)训练多个类别特定的分类器效率低下;(2)目标域中出现的错误伪标签(例如背景或错误分类的前景)可能会影响语义对齐的性能。受少样本学习[56]和跨域图像分类[69, 5,45]中基于原型的方法的启发,我们提出了PSA模块来处理上述问题。PSA试图最小化跨域相同类别的原型对(P S k,PTk)之间的距离,从而在特征空间中保持语义一致性。形式上,原型可以定义为:0P S k = 10|GT k|0r ∈ GT k F(r) (7)0P T k = 10|RoI k|0r ∈ RoI k F(r) (8)0其中P S k和P Tk分别表示源域和目标域中第k个类别的原型。F(r)表示RoI头部中第二个全连接(FC)层之后前景区域r的特征。我们使用GTk从源域中提取前景区域。由于目标域缺少注释,我们使用RoI头模块提供的RoIk作为目标域中的伪标签。|∙|表示区域的数量。原型的好处有两个:(1)原型没有额外的可训练参数,可以在线性时间内计算;(2)正确伪标签的数量要比生成原型时的错误伪标签数量大得多,可以抑制错误伪标签的负面影响。需要注意的是,上述原型是建立在所有样本上的。在训练过程中,每个小批量的大小通常很小(例如1或2)用于检测任务,同一批次中源域和目标域图像的前景对象可能具有不一致的类别,使得所有类别的分类对齐在该批次中不切实际。例如,随机选择两个图像(一个来自每个域),但是Car只出现在源图像中。因此,我们无法在该批次中对跨域的Car原型进行对齐。为了解决这个问题,我们动态维护全局原型,它们通过每个小批量的局部原型自适应更新,具体如下:0α = sim(P(i)k,GP(i-1)k) (9)0算法1:用于跨域目标检测的粗到精的特征自适应框架。0输入:标记的源域DS。未标记的目标域DT。批量大小B。类别数量C。输出:自适应检测器F(∙;θ)。01 计算初始全局原型GP S(0)k和0使用基于DS的预训练检测器的GP T (0) k02 对于i = 1到max iter,执行03个S,YS ← Sample(DS,B/2)04个XT ← Sample(DT,B/2)05 监督学习:06 根据方程(1)计算L det07 粗粒度适应:08 根据方程(5)计算A ( X S )和A ( X T )09 根据方程(6)计算L ART010 细粒度适应:011 ˆ Y T ← F ( X T ; θ )012 对于k = 1到C进行循环:013 根据方程(7)和(8)计算P S ( i ) k和P T ( i ) k014 根据方程(10)更新GP S ( i ) k和GP T ( i ) k015 根据方程(11)计算LP SA016 根据方程(12)优化检测模型0GP ( i ) k = αP ( i ) k + (1 - α) GP ( i - 1) k (10)0∥ x 1 ∥∥ x 2 ∥ + 1) / 2表示余弦相似性0相似性。P ( i )k表示第i次迭代中第k个类别的局部原型。值得注意的是,我们根据来自标记源域的预训练模型,通过方程(7)(对于源域)和方程(8)(对于目标域)计算初始的全局原型GP(0)k。我们不直接对齐局部原型,而是通过最小化源全局原型GP S k与目标全局原型GP Tk之间的L2距离来实现语义对齐。第i次迭代中PSA模块的目标可以表示为:0L P SA = 0k ∥ GP S ( i ) k − GP T ( i ) k ∥ 2(11)03.5. 网络优化0我们提出的框架的训练过程包括三个主要组件,如算法1所示。01. 监督学习。监督检测损失L det 仅应用于标记的源域 DS。2.粗粒度适应。我们利用注意机制提取图像中的前景,然后通过优化L ART 来对齐这些区域的特征分布。Ltotal = Ldet + λ1LART + λ2LP SA(12)137710Cityscapes → FoggyCityscapes0方法 架构 公交 自行车 汽车 摩托人 乘客 列车 卡车 mAP mAP* 增益0MTOR [4] R 38.6 35.6 44.0 28.3 30.6 41.4 40.6 21.9 35.1 26.9 8.2 RLDA [29] I 45.3 36.0 49.2 26.9 35.1 42.2 27.0 30.0 36.5 31.9 4.60DAF [8] V 35.3 27.1 40.5 20.0 25.0 31.0 20.2 22.1 27.6 18.8 8.8 SCDA [74] V 39.0 33.6 48.5 28.0 33.5 38.0 23.3 26.5 33.8 26.2 7.6 MAF[22] V 39.9 33.9 43.9 29.2 28.2 39.5 33.3 23.8 34.0 18.8 15.2 SWDA [52] V 36.2 35.3 43.5 30.0 29.9 42.3 32.6 24.5 34.3 20.3 14.0DD-MRL [31] V 38.4 32.2 44.3 28.4 30.8 40.5 34.5 27.2 34.6 17.9 16.7 MDA [68] V 41.8 36.5 44.8 30.5 33.2 44.2 28.7 28.2 36.0 22.813.2 PDA [25] V 44.1 35.9 54.4 29.1 36.0 45.5 25.8 24.3 36.9 19.6 17.30仅源域 V 25.0 26.8 30.6 15.5 24.1 29.4 4.6 10.6 20.8 - - 3DC(基准) V 37.9 37.1 51.6 33.1 32.9 45.6 27.9 28.6 36.8 20.8 16.0我们的方法(无ART) V 41.6 35.4 51.5 36.9 33.5 45.2 26.6 28.2 37.4 20.8 16.6 我们的方法(无PSA) V 45.2 37.3 51.8 33.3 33.9 46.7 25.529.6 37.9 20.8 17.1 我们的方法 V 43.2 37.4 52.1 34.7 34.0 46.9 29.9 30.8 38.6 20.8 17.80Oracle V 49.5 37.0 52.7 36.0 36.1 47.1 56.0 32.1 43.3 - -0表1. 在从正常到雾化的适应场景中不同方法的结果(%)。“V”,“R”和“I”分别代表VGG16,ResNet50和Inception-v2的主干。“仅源域”表示仅在源域上训练的Faster R-CNN模型。“3DC”代表集成了三个域分类器的FasterR-CNN模型,这是我们的基准方法。“Oracle”表示在标记的目标域上训练的模型。mAP*显示每种方法的“仅源域”结果,Gain显示其适应后的改进。最佳结果在具有VGG16主干的方法中用粗体表示,次佳结果在其下划线表示。03.细粒度适应。首先,在目标域中预测伪标签。然后,我们自适应地更新每个类别的全局原型。最后,通过优化L P SA实现前景对象的语义对齐。通过上述术语,整体目标为:0其中 λ 1 和 λ 2 分别表示 ART 模块和 PSA模块的权衡因子。04. 实验 4.1. 数据集和场景0数据集。评估中使用了四个数据集。(1) Cityscapes [9]是一个用于语义城市场景理解的基准数据集。它包含 2975个训练图像和 500个验证图像,具有像素级别的注释。由于它不是为检测任务设计的,我们按照 [8]的方法使用实例分割掩码的最紧凑矩形作为真实边界框。(2)FoggyCityscapes [53] 是在 Cityscapes的基础上添加了合成雾的数据集。因此,训练/验证集划分和注释与 Cityscapes 相同。(3) SIM10k [26] 是一个包含10000张图像的合成数据集,是从视频游戏《侠盗猎车手V》(GTA5)中渲染得到的。(4) KITTI [16]是另一个用于自动驾驶的流行数据集,包含 7481张带有标签的训练图像。场景。根据 [8]的方法,我们在三个适应场景下评估框架的性能:(1)Normal-to-Foggy (Cityscapes →FoggyCityscapes)。它旨在在不同天气条件下进行适应。在训练阶段,我们使用训练集0以 Cityscapes 和 FoggyCityscapes作为源域和目标域,分别进行实验。结果报告在FoggyCityscapes 的验证集中。(2) Synthetic-to-Real(SIM10k →Cityscapes)。合成图像提供了缓解数据标注问题的替代方法。为了将合成场景适应到真实场景中,我们使用整个SIM10k 数据集作为源域,Cityscapes的训练集作为目标域。由于只有 Car在两个域中都有注释,我们报告了在 Cityscapes的验证集中 Car 的性能。(3) Cross-Camera (Cityscapes→KITTI)。由不同设备或设置拍摄的图像也会产生域偏移问题。为了模拟这种适应,我们使用 Cityscapes的训练集作为源域,KITTI的训练集作为目标域。注意,两个域中类别的分类标准是不同的,我们按照 [68] 的方法将 {Car, Van} 分类为Car,{Pedestrian, Person sitting} 分类为 Person,Tram分类为 Train,Cyclist 分类为 Rider。结果报告在 KITTI的训练集中,与 [8, 68] 中相同。4.2.实现细节在所有实验中,我们采用在 ImageNet 上预训练的Faster R-CNN 模型,使用 VGG16 [55]作为骨干网络。我们将所有图像的较短边调整为 600像素。批量大小设置为 2,即每个域一个图像。检测器使用SGD 进行 50k 次迭代的训练,学习率为10^-3,然后降低到 10^-4 进行另外 20k次迭代的训练。域分类器使用 Adam 优化器 [32]进行训练,学习率为 10^-5。因子 λ1 设置为1.0。由于目标域中的原型在开始时不可靠,所以在 50k次迭代后采用 PSA 模块,λ2 设置为 0.01。我们使用 IoU阈值为 0.5 进行 mAP 的评估。RLDA [29]I42.631.111.5MTOR [4]R46.639.47.2DAF [8]V39.030.18.9MAF [22]V41.130.111.0SWDA [52]V42.334.67.7MDA [68]V42.834.38.5SCDA [74]V43.034.09.0Source OnlyV35.0--3DC (Baseline)V42.335.07.3Ours w/o ARTV42.735.07.7Ours w/o PSAV43.435.08.4OursV43.835.08.8OracleV59.9--137720SIM10k → Cityscapes0方法 架构 AP on Car AP* 增益0表2. 合成到真实场景适应情况的结果(%)。04.3. 结果0我们进行了大量实验,并与最先进的跨域目标检测方法进行了比较,包括(1) 半监督学习:MTOR [4],(2)鲁棒学习:RLDA [29],(3) 特征级适应:DAF [8],SCDA[74],MAF [22],SWDA [52] 和 MDA [68],以及(4)像素级适应 + 特征级适应:DD-MRL [31] 和 PDA[25]。此外,我们还进行了消融实验,验证了每个模块的有效性。我们的基准方法被称为3DC,它是集成了三个域分类器的 Faster R-CNN 模型。我们分别从整个框架中移除ART 和 PSA 模块,并报告性能。注意,移除 ART意味着我们只移除了注意力图,而域分类器仍然保留。Normal-to-Foggy。如表1所示,在天气转换任务上,我们实现了38.6%的mAP,这是所有对比方法中最好的结果。由于每种方法在适应之前的检测性能不同,我们指出“增益”也是一个公平比较的关键标准,这在以前的工作中被忽视了。特别是,与MDA [68] 相比,我们将 mAP提高了2.6%。虽然我们没有利用额外的像素级适应,但我们的方法仍然比之前的最先进方法 PDA [25]提高了1.7%。此外,通过在前景上进行从粗到细的特征适应,我们提出的方法在所有类别上都比3DC模型有所改进,这表明前景上的特征对齐可以提升性能。此外,我们发现在几个类别中,我们的方法与甚至优于 Oracle模型相当。这表明,如果我们能够有效地在域之间传递知识,就可以实现与监督学习方法相似的性能。Synthetic-to-Real。表2显示了合成到真实任务的结果。我们获得了一个平均精度为0Cityscapes → KITTI0方法 架构 人 骑车者 汽车 卡车 列车 mAP mAP* 增益0DAF [8] V 40.9 16.1 70.3 23.6 21.2 34.4 34.0 0.4 MDA [68] V 53.0 24.5 72.228.7 25.3 40.7 34.0 6.70仅源域 V 48.1 23.2 74.3 12.2 9.2 33.4 - - 3DC(基线) V 45.8 27.0 73.9 26.4 18.438.3 33.4 4.9 我们的方法(无ART) V 50.2 27.3 73.2 29.5 17.1 39.5 33.4 6.1我们的方法(无PSA) V 50.5 27.8 73.3 26.8 20.5 39.8 33.4 6.4 我们的方法 V 50.429.7 73.6 29.7 21.6 41.0 33.4 7.60Oracle V 71.1 86.6 88.4 90.7 90.1 85.4 - -0表3. 跨摄像头适应场景的结果(%)。0在汽车上达到了43.8%的mAP,并与SCDA[74]相比,有了+0.8%的轻微增益。原因是对于单个类别来说,知识传递要容易得多,许多其他方法也可以很好地适应。此外,人们可能会想知道为什么PSA模块对于单个类别的适应仍然有效,我们认为它作为另一种关注机制,专注于前景区域,在这种情况下向ART模块传递了一些补充线索。跨摄像头。在表3中,我们展示了跨摄像头任务的性能比较。所提出的方法在mAP上达到了41.0%,比非自适应模型提高了+7.6%。由于场景在域之间相似,并且汽车样本占据了两个数据集,我们可以观察到汽车上的得分对于仅源域模型已经很好。与DAF [8]和MDA[68]相比,我们的方法减小了汽车检测中的负迁移影响。同时,我们的方法在其他类别中也优于基线模型(3DC)。04.4. 进一步分析0前景特征分布差异。理论结果[2]表明,A-距离可以作为域差异的度量。在实践中,我们计算代理A-距离来近似它,其定义为dA = 2(1 -ε)。ε是一个二分类器(在线性SVM实验中)的泛化误差,该分类器试图区分输入特征来自哪个域。图5显示了从“仅源域”、“SWDA”和“我们的方法”模型中提取的地面真实前景特征在“正常到有雾”任务中的每个类别的距离。与非自适应模型相比,SWDA和我们的方法在所有类别中都大幅减小了距离,这证明了域自适应的必要性。此外,由于我们通过PSA明确优化了每个类别的原型,我们实现了比其他方法更小的前景特征分布差异。0最高置信度检测的错误分析。为了进一步验证所提出的跨域目标检测框架的效果,我们分析了“仅源域”、“SWDA”和“我们的方法”模型在“正常到有雾”任务中由最高置信度检测引起的错误。我们按照[24, 8,4]的方法将检测结果分为三种错误类型:1)正确(与GT的IoU≥0.5),2)错误定位(0.3≤与GT的IoU<0.5),3)背景(与GT的IoU<0.3)。对于每个类别,我们选择前K个预测结果来分析错误类型,其中K是该类别中的groundtruth数量。我们在图6中报告了所有类别中每种类型的平均百分比。我们可以看到,“仅源域”模型似乎将大多数背景误判为假阳性(绿色)。与SWDA相比,我们将正确检测的百分比(蓝色)从39.3%提高到43.0%,同时减少其他错误类型。结果表明,所提出的框架可以有效增加真阳性并减少假阳性,从而提高检测性能。定性结果。图4显示了一些定性结果。由于域偏移问题,仅源域模型仅检测到一些显著的对象,如图(a)所示。从(b)到(c),我们可以观察到所提出的方法不仅增加了真阳性(在第一行和第二行检测到更多汽车),还减少了假阳性(在第三行丢弃了人),这与之前的分析一致。此外,我们还可视化了由ART模块生成的注意力图。尽管存在一些噪声,但是0.000.25.50.75.00.25.50.752.001.621.441.651.341.511.271.641.430.510.240.660.220.450.240.180.480.380.120.450.110.330.210.180.3922.6%5.4%72.0%(b) SWDA39.3%9.4%51.3%43.0%9.0%48.0%137730(a) 仅源域 (b) SWDA (c) 我们的方法 (d) 注意力图0图4.正常到有雾适应场景的定性结果。(a)-(c):仅源域模型、SWDA和所提出的方法的检测结果。(d):对应的注意力图的可视化(放大查看效果更佳)。0公交车0自行车0汽车0摩托车0人0骑车者0训练0卡车0代理-距离0仅源域 SWDA 我们的方法0图5. 前景特征分布差异。0类型:1)正确(与GT的IoU≥0.5),2)错误定位(0.3≤与GT的IoU<0.5),3)背景(与GT的IoU<0.3)。对于每个类别,我们选择前K个预测结果来分析错误类型,其中K是该类别中的groundtruth数量。我们在图6中报告了所有类别中每种类型的平均百分比。我们可以看到,“仅源域”模型似乎将大多数背景误判为假阳性(绿色)。与SWDA相比,我们将正确检测的百分比(蓝色)从39.3%提高到43.0%,同时减少其他错误类型。结果表明,所提出的框架可以有效增加真阳性并减少假阳性,从而提高检测性能。定性结果。图4显示了一些定性结果。由于域偏移问题,仅源域模型仅检测到一些显著的对象,如图(a)所示。从(b)到(c),我们可以观察到所提出的方法不仅增加了真阳性(在第一行和第二行检测到更多汽车),还减少了假阳性(在第三行丢弃了人),这与之前的分析一致。此外,我们还可视化了由ART模块生成的注意力图。尽管存在一些噪声,但是0(a) 仅源域0(c)我们的方法0正确的错位背景0图6. 最高置信度检测的错误分析.0注意力图能够很好地定位前景区域,有利于跨领域的知识传递.05. 结论0本文提出了一种新颖的粗到细的特征自适应方法来解决跨领域目标检测问题.所提出的框架通过两个精心设计的模块,即ART和PSA,实现了这一目标.前者以类别无关的方式突出了注意机制确定的前景区域的重要性,并在领域之间对其特征分布进行对齐.后者利用原型的优势,在语义级别上对前景进行细粒度的自适应.在各种自适应场景上进行了全面的实验,并取得了最先进的结果,证明了所提方法的有效性.0致谢.本工作由中国国家重点研发计划资助(编号2018AAA0102301),国家软件发展环境重点实验室研究计划资助(编号SKLSDE-2019ZX-03),以及中央高校基本科研业务费资助.137740参考文献0[1] S. Ben-David, J. Blitzer, K. Crammer, A. Kulesza, F. Pereira,and J. W. Vaughan. 不同领域学习的理论. 机器学习,79(1-2):151–175, 2010. [2] S. Ben-David, J. Blitzer, K. Crammer,and F. Pereira. 领域自适应表示分析. 在NeurIPS, 2007. [3] K.Bousmalis, N. Silberman, D. Dohan, D. Erhan, and D. Krishnan.生成对抗网络的无监督像素级领域自适应. 在CVPR, 2017. [4] Q.Cai, Y. Pan, C.-W. Ngo, X. Tian, L. Duan, and T. Yao.探索平均教师中的目
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功