没有合适的资源?快使用搜索试试~ 我知道了~
多粒度对齐域自适应目标检测
9581多粒度对齐域自适应目标检测周文章1,杜达伟2,张立波1,3*,陆铁坚1,吴艳军31中国科学院大学,北京,中国2Kitware,Inc.,美国纽约州3中国科学院软件研究所,北京,中国https://github.com/tiankongzhang/MGADA摘要域自适应目标检测是具有挑战性的,由于不同的数据分布之间的源域和目标域。在本文中,我们提出了一个统一的基于多粒度对齐的目标检测框架,以领域不变的特征学习。为此,我们在不同的粒度角度编码的依赖关系,包括像素,实例,和类别级别的si-multisource对齐两个域。基于骨干网络的像素级特征图,我们首先开发了全尺度门控融合模块,通过尺度感知卷积聚合实例的区分表示同时,提出了多粒度判别器来识别样本的不同粒度(即,像素、实例和类别)来自。值得注意的是,我们不仅利用不同类别中的实例可区分性,而且利用两个域之间的类别一致性在多域自适应场景上进行了大量实验,证明了我们的框架在无锚FCOS和基于锚的Faster R-CNN检测器上的最新算法的有效性。1. 介绍由于深度学习的出现[41],现代对象检测方法[19,23,24,27,34]已经基于大规模注释数据集取得了显着进展。然而,这样的域约束模型在没有标记训练数据的新环境中经常失败为了解决这个问题,一个可行的解决方案是减少 标签丰富的源域和标签不可知的目标域之间的差异,通过无监督的域适应以对抗的方式[8]。具体地说,引入域判别器来识别图像是否*通讯作者(libo@iscas.ac.cn)图1.我们的框架可以跨多个粒度编码依赖关系,包括像素级,实例级,类别级。从源域或目标域;而对象检测器学习域不变特征以混淆识别器[29]。然而,经典的域自适应框架在复杂背景下会受到尺度变化的影响,导致性能受限由于网络中的卷积对于小的目标,特征是从具有太多背景的大区域卷积而来;对于大的对象,卷积覆盖小的部分并且缺乏全局结构信息。另一方面,为了更好地适应目标域,一些研究者从不同的粒度角度采用了不同的特征对齐策略,即:实例级、像素级和类别级。实例级对齐[3,20]依赖于检测建议的池化特征来帮助训练域对齐。然而,实例级池操作可能会扭曲具有不同尺度和宽高比的对象的特征。相比之下,像素级对齐[14,18]专注于对齐较低级别的特征,这些特征说明每个像素处理对象和背景的跨域变化。然而,对于同一类别的不同尺度的对象,像素级特征之间存在很大的差距。最近,类别级对齐[39,40]利用两个域中的类别区分度来处理硬对齐实例。9582然而,这些工作更注重图像级和实例级预测之间的为了解决上述问题,我们提出了一个统一的多粒度对齐的目标检测框架,使用无监督的领域自适应。如图1所示,我们在不同的粒度角度(包括像素级、实例级和类别级)对依赖性进行编码,以对齐源域和目标域,这不是先前单粒度对齐技术的粗略组合为了适应各种情况,我们的全尺度门控融合从低分辨率和高分辨率流中选择最合理的卷积来提取特征。具体地说,我们首先估计粗检测作为基于像素级骨干特征图的指导。然后,激活并行卷积以聚合具有相似尺度和宽高比的实例的区分表示。以这种方式,跟随物体检测头可以更准确地预测多尺度物体。同时,我们引入了一个新的类别级判别器,它不仅考虑了实例在不同类别中的可判别性,还考虑了源域和目标域之间的类别一致性。为了监督类别级的分类,我们分配伪标签的重要实例具有高的信心,从对象检测。总之,我们在三个粒度的样本(即,像素、实例和类别)。这样不同粒度的信息可以相互支持,从而获得更好的自适应性能.为了验证我们的方法的有效性,我们进行了全面的实验,在不同的领域适应的情况下(即。,Cityscapes[4],FoggyCityscapes [30],Sim10k [17],KITTI [10],PASCAL VOC [7],Clipart [16]水的颜色[16]。所提出的框架在无锚FCOS [34]和基于锚的Faster R-CNN [27]以及VGG-16 [32]和ResNet-101[11]骨干之上进行评估,在不同的应用程序数据集。例如,我们的方法实现了43。使用FCOS [ 34 ]从源域Cityscapes [4]适应到目标域FoggyCityscapes [30]的8% mAP 评分 ,其为3。比第 二好的 方法 CFA 好6%[14]。捐款. 1)我们提出了多粒度对齐框架来编码跨像素的依赖关系,用于自适应对象检测的实例级和类别级粒度,其可以应用于不同的对象检测器。2)全尺度门控融合模块被设计为提取具有不同尺度和纵横比的对象的区分性表示3)类别级的语义一致性模型既能描述不同类别中实例的可区分性,又能描述源域和目标域之间的类别一致性。4)我们的方法实现了国家的最先进的性能在五个域自适应applications。2. 相关工作2.1. 对象检测基于CNN的对象检测方法通常可以分为基于锚的框架和无锚的框架。基于锚点的检测器使用一系列具有不同尺度和长宽比的锚点框来生成检测方案,然后应用网络对每个候选对象进行分类和回归Faster-RCNN[27]开发了区域提案网络(RPN),以高效地生成提案。FPN [23]引入了一种新的自上而下的架构,具有横向连接以捕获多尺度特征图。相比之下,无锚方法依赖于关键点来表示对象。CornerNet [19]是将对象边界框检测为一对左上角和右下角的开创性工作。最近,FCOS [34]利用全卷积网络来预测特征图中每个像素的标签和边界框坐标 在这项工作中,我们建立了我们的域自适应框架上的两个代表性的检测器,广泛用于以前的域自适应方法,即。,基于锚的Faster-RCNN[27]和无锚FCOS [34]。2.2. 无监督域自适应给定标记源数据和未标记目标数据,无监督域自适应目标检测引起了研究者的兴趣。Ganin和Lempitsky[8]通过标准的反向传播训练对分类网络进行域自适应受[9]的启发,检测网络通过对抗学习进行优化[35,43]。它们应用域映射来区分源域和目标域之间的特征差异,并应用梯度反转层来减少域之间的特征分布Inoue等人。 [16]提出了跨域弱监督对象检测方法,通过对两种类型的人工和自动生成的样本微调检测器。Saito等 [29]制定强弱分布对齐方法,在局部和全局水平上调整分布对齐能力。最近,Zheng等人。 [45]使用预测的对象类别和大小生成注意力图,以选择对象的区域。相比之下,在粗检测的帮助下,我们的全尺度门控融合模块通过尺度感知卷积聚合实例特征,以软决策的方式适应多尺度对象。2.3. 领域适应如在引言部分中所讨论的,为了改进域级对准,各种特征对准方案被应用于其他更精细的级别,即,实例级[3,20]、像素级[14,18]和类别级[6,15,26、37、39、40]。Chen等人 [3]在两个层次上处理畴移问题。9583···−图2.不同类别级鉴别器D的图示,其中sc和tc表示第c个类别(c= 0,1,得双曲余切值.第一章分别在源域和目标域中。(a)每个类别的特定类别鉴别器[6,15,26]。(b)域一致性的分类,以区分一个域中的不同类别[37]。(c)我们的类别和领域一致性判别器考虑了不同类别中的实例可区分性和两个领域之间的类别一致性。包括图像级(例如,图像样式和照明)和实例级(例如,对象外观和大小)。Li等人。 [20]提出了空间注意力金字塔网络,以捕获不同尺度的对象的上下文信息。Kim等人 [18]设计了多域不变表示学习,以通过对抗学习来鼓励无偏见的语义表示。Hsu等人 [14]提出了一种基于中心感知对齐的域自适应方法,以专注于逐像素对象。类别级对齐。在类别级对齐方面,一些作品[6,15,26]为每个类别设计了一个类别特定的分类器,并专注于基于伪标签的源域和目标域之间的分类(见图2(a))。很难在多个区分器之间学习区分的类别表示。Wang等人 [37]保留了一个用于区分一个域中不同类别的参数(见图2(b))。然而,它很少考虑同一类别的特征子空间在两个域之间的一致性。此外,在[39]中开发了一种分类正则化方法,用于定位关键图像区域和重要位置,以减少域差异。类似地,Xu等人。 [40]通过增强类内紧凑性和类间分离性来寻求类别级域对齐。该方法基于不同类别原型之间的欧氏距离构建图,其中特征子空间遵循高斯分布。相比之下,我们的类别级别的模型不依赖于高斯分布假设,但选择重要的实例,以自适应阈值的基础上建模的子空间。然后,我们对不同类别中的实例区分度 和 两 个 域 之 间 的 类 别 一 致 性 进 行 建 模 ( 见 图 2(c))。此外,基于不同层次的特征对齐的合并,我们的方法是一个统一的领域自适应框架,考虑到所有的异质性图3.我们的域自适应对象检测网络的架构。注意,对象检测头和鉴别器具有关于不同检测器的不同大小的输出。3. 多粒度对齐如图3所示,给定来自源域s和目标域t的图像,我们首先使用主干计算基本特征图。然后,像素级特征通过全尺度门控融合模块进行融合,生成多尺度实例的基于融合特征,目标检测头可以更准确地估计目标。同时,引入多粒度判别器,从像素级、实例级和类别级等不同角度区分源域和目标域值得注意的是,我们的方法可以应用于不同的检测器(例如,,基于锚的Faster-RCNN [27]和无锚FCOS[34])和骨干(例如,、VGG-16 [32]和ResNet- 101[11])。不失一般性,我们首先采用FCOS[34]作为一个例子,然后解释我们的方法如何应用于Faster-RCNN [27]。对于FCOS检测器[34],我们提取骨干特征图的最后三个阶段,并将它们组合成多级特征图Fk,k∈{3,4,5,6,7}使用FPN表示[23]。3.1. 全尺度选通目标检测以往的领域自适应方法大多集中在特定层次和关注区域的鉴别器设计上然而,无锚模型[14,25]中的点表示难以在杂乱背景中提取鲁棒和有区别的特征,而基于锚模型[13,29]中的AlignROI操作可能会扭曲具有各种尺度和纵横比的对象的特征。为了解决这个问题,我们采用全尺度门控融合,以适应不同的规模和长宽比的各种情况。具体地说,通过粗检测的尺度引导,选择具有不同核的最合理的卷积来提取实例在对象尺度方面的紧凑特征因此,它可以应用于不同的探测器。规模指导。 其次是多层次特征图F k,我们可以通过使用一系列卷积层来预测候选对象boxesbk 根据[28],我们使用9584Σi、j··LLi、j.W{− ∞}≤≤×LLF(i,j)=−ylogD(F(i,j))i、jΣ⊙L感受野,然后是具有内核ω的卷积层处理大物体(wk>5,hk>5)。之后,我们引入门掩模G,以基于预测的粗boxes_b对每个卷积层进行加权,exp(τ(oω−o))(三)Gω=ω exp(τ(oω、-o))图4.用于FCOS探测器的全尺度门控融合模块[34]。其中τ是温度因子。 oω=IoU(ωb,ω)表示预测框和卷积核ω之间的重叠。 其中最大的重叠是O_n。最后,我们可以合并像素级特征以利用实例的尺度表示,即。、M=F3×3<$G ω+F1×1,(4)ωstride2.交叉熵交集(IoU)损失[42]回归前景像素中对象的边界框,即、其中表示元素级乘积。Fω表示具有核ω的卷积层之后的特征图。目标检测。在获得合并的特征图M,我们预测对象的类别和边界框Lgui=−ln(IoU(bkki,j)),(1)在FCOS网络[34]中,对象检测头包括:分类、中心和回归分支的集合k(i,j)其中,IoU(,)是计算预测框bk和基础框bk 之 间 的IoU得 分 的 函 数。 对于特征图中的每个像素(i,j),对应的框可以被定义为4维向量b k=(xti,j,xbi,j,xli,j,xri,j),分别表示当前位置与地面实况框的上、下、左和右边界之间的距离。因此,我们可以计算 归一化的 对 象 比 例 ( 即 , , 宽 度 wk 和 高 度hk),分类和中心度分支通过以下方式进行优化:焦点损失[24]CLS和交叉熵损失[34]CTR恢复。回归分支由IoU损失优化[42]reg。对象检测的损失函数定义为L det =L cls +L ctr + L reg.(5)上述损失函数的更多细节参见[34]。3.2. 多粒度鉴别器正如引言部分所讨论的,我们应用ki,jHK=(xr=(x)bi、j+xl+xti、j)/步幅k,)/步幅k,(二)多粒度判别器,用于从包括像素、实例和类别的不同角度来识别样本是属于源域还是目标域,i、ji、ji、j血淋淋的 两个域之间的差异减少了其中步幅k表示在卷积1中的每一步中我们移动了多少步。如FCOS检测器[34]中所定义的,每个级别的特征图用于单独检测范围[1,64],[64,128],[128,256],[256,512],[512,+]中具有不同尺度的对象。因此,大多数对象尺度小于8,即、焕光8,h k8.为了简单起见,我们省略了上标k在下面的章节中,把Fk写成F,把bk写成b。全方位门控融合为了适应不同尺度、不同宽高比的目标,设计了由低分辨率和高分辨率码流组成的全如图4所示,低分辨率流包含三个并行卷积,采用不同核函数ω∈ {3×3,3×5,5×3}的核函数层,用于提取小目标(wk≤梯度恢复层(GRL)[8],在优化目标检测网络时传输卷积层由四个堆叠的卷积- groupnorm-relu层和一个额外的3 - 3卷积层组成。在下文中,我们详细描述我们的多粒度鉴别器。像素级和实例级鉴别器。像素级和实例级鉴别器分别用于执行特征图的像素级和实例级对准。如图3所示,给定输入多级特征F和合并特征M,Lpix和Lins采用等式2中定义的相同的损失函数。(六)、 类似于以前的工作[14],我们使用相同的损失函数,表示为pix和ins。例如,像素级的HDpix的丢失定义为:5,hk≤5)。在高分辨率流中,我们首先应用步长为2的3×3卷积层来扩展1 W e h a v e {(k,strid e)(3,8),(4,16),(5,32),(6,64),(7,128)}。|Lpixpixpixsi,j(i,j)+(1−ypix)log(1−Dpix(Ft(i,j),,b9585(六)9586y=1i,j,mΣSS{|}LLLLL阿夫里−exp(Mi,j,c阿夫里Σ∈Σ`x`x∈其中F(i,j)表示fea中的像素(i,j)处的特征在M 是中国古代文学史上的一个重要范畴,真地图我们有域名标签pixi、j如果该像素是特定域和y空间2=0否则。域从源域,否则为0。类别级别的数据库。 如图2(c)所示,概率psim为exp(M)我们的类别级搜索引擎用于保持语义psim=i,j,m,(10)不同域分布之间的一致性。具体-i,j,mm−m%2+1exp(Mv=m−m % 2(i、j、v)该方法基于输出特征图M_R_H×W×2C,预测每幅图像中像素(i,j)的类别和域标签,其中H和W是高度和宽度的相关性,2C表示源域和目标域的类别总数.由于没有基础事实来监督类别级别的分类,我们将伪标签分配给来自对象检测的具有高置信度的重要样本(参见第二节)。第3.1节)。在实践中,给定一批输入图像,我们可以使用对象检测头输出类别概率图P,并计算所有水平P ′上的最大类别概率。让表示选定的集合在这种情况下,其概率大于阈值,i. e. 、=(i,j)Pi,j>θca tP<$. 然后,在不同类别的实例分类的Eq。(7),同时在两个领域的类别是对齐的方程。(九):• 为了保持实例在不同类别中的可区分性,我们使用以下损失函数来分离类别分布:C−1其中%是余数函数。类别级别的CJDcat的损失函数写为:L猫 =λ dis L dis + λ sim L sim,(11)其中λdis和λsim是平衡因子。3.3. 总损失函数如上所述,全尺度选通对象检测网络由gui和det监督。同时,对多粒度判别器进行了不同粒度的优化,包括像素级pix、实例级ins和类别级cat。总而言之,函数被定义为L=(Lgui+Ldet)+α· (Lpix+Lins+Lcat),(12)目标检测多粒度鉴别器其中α是对象检测和多粒度鉴别器之间的平衡因子。3.4. 实现细节L显示1=−| S|disi,j,cdisi,j,c)的情况。(七)扩展我们的框架。 为了将我们的框架扩展到Faster-RCNN [27],我们使用骨干功能,(i,j)∈Sc=0通过对域变化的置信度进行归一化,步幅16以收集基本特征图F。由于Faster-RCNN [27]是一种两阶段的对象检测方法,我们disi,j,c表示第c类的概率正确使用区域建议网络(RPN)来预测粗候选框,由原始RPN的像素,即,、损耗LGUI=Lrpn . 同样,我们使用分类和重新-p分布exp(Mi,j,2c+Mi,j,2c+1)=,(8)目标检测头中的回归分支,i,j,c其中C1-C4c=0ˆi、j、2c+M i、j、2c+1)对象的类别和边界框,定义为Ldet=Lcls+Lreg.注意Faster-RCNN中的RPN [27]Mi,j,2c和Mi,j,2c+1分别表示源域和目标域中第c个类别的置信度(c. F. 图2(c))。伊雷迪斯RH×W×C是伪猫核标号。我们有一个很好的选择 =1,如果实例位于只预测前K个提案。为了将特征图与不同的卷积层融合,我们首先在每个卷积层之后连接特征图,然后通过ROIAlign操作提取每个建议的特征(i,j)在M中是c类中的重要一类最后,通过相应的特征值确定合并后的特征disi,j,c=0否则。响应对象根据RPN输出进行缩放。的我们的方法在Faster-RCNN上的详细架构[27]• 两个域中的类别一致性。在对不同类别的实例进行分类之后,我们需要进一步确定实例来自哪个域使用GRL [8],损失函数可以写为2C−1log(p内尔山口而y9587i,j,m∈可以在补充材料中找到。优化策略 我们根据经验分两个阶段训练所提出的网络。首先,我们禁用类别级别的扩展,并在没有多尺度增强的情况下训练剩余的网络。第二,我们微调1Lsim=−SIMi,j,mSIMi,j,m),(9)通过添加类别级别的网络,|(i,j)∈S m =0|(i,j) ∈S m=0其中ysimRH×W ×2C是伪域标签。类似地,如果在(i,j)处的实例和多尺度增强。该模型以0的学习率进行训练。005,动量为0。9,并且权重decay为0。0001等式中的平衡因子式(11)中,设λdis=1。0,λsim=0。1,α在Eq.(12)设为0。1.一、log(p9588方法检测器骨干人骑手车卡车总线火车姆比凯自行车地图基线Faster-RCNNVGG-1617.823.627.111.923.89.114.422.818.8DAF [3]Faster-RCNNVGG-1625.031.040.522.135.320.220.027.127.6SC-DA [46]Faster-RCNNVGG-1633.538.048.526.539.023.328.033.633.8MAF [12]Faster-RCNNVGG-1628.239.543.923.839.933.329.233.934.0SW-DA [29]Faster-RCNNVGG-1629.942.343.524.536.232.630.035.334.3DAM [18]Faster-RCNNVGG-1630.840.544.327.238.434.528.432.234.6MOTR [1]Faster-RCNNResNet-5030.641.444.021.938.640.628.335.635.1CST [44]Faster-RCNNVGG-1632.744.450.121.745.625.430.136.835.9PD [38]Faster-RCNNVGG-1633.143.449.622.045.832.029.637.136.6CDN [33]Faster-RCNNVGG-1635.845.750.930.142.529.830.836.536.6[22]第二十二话Faster-RCNNVGG-1634.144.451.930.441.825.730.337.237.0ATF [13]Faster-RCNNVGG-1634.646.549.223.543.129.233.239.037.3[39]第三十九话Faster-RCNNVGG-1632.943.849.227.245.136.430.334.637.4沙中线[31]Faster-RCNNVGG-1631.644.044.830.441.840.733.636.237.9CFFA [45]Faster-RCNNVGG-1643.237.452.134.734.0四十六岁。929.930.838.6GPA [40]Faster-RCNNResNet-5032.946.754.124.745.741.132.438.739.5[第20话]Faster-RCNNVGG-1640.846.759.824.346.837.530.440.740.9城市轨道交通[5]Faster-RCNNVGG-16五十六537.348.630.433.046.7四十六岁。834.141.7MeGA-CDA [36]Faster-RCNNVGG-1637.749.052.425.449.2四十六岁。934.539.041.8CDG [21]Faster-RCNNVGG-1638.047.453.134.247.541.138.338.942.3我们Faster-RCNNVGG-1643.9四十九6六十岁。629.650块739.038.3四十二844. 3OracleFaster-RCNNVGG-1646.551.365.232.649.934.239.645.845.6SST-AL [25]FCOS-45.147.459.424.550.025.726.0三十八岁。739.6CFA [14]FCOSVGG-1641.938.756.722.641.526.824.635.536.0CFA [14]FCOSResNet-10141.543.657.129.444.939.729岁036.140.2我们FCOSVGG-16四十五7四十七560.631岁052.944.529岁038.043.6我们FCOSResNet-10143.147.361岁530.2五十三250块327.936.9四十三8OracleFCOSVGG-1650.146.468.033.754.538.730.739.745.2OracleFCOSResNet-10146.645.466.133.654.162.929.037.146.9表1.从Cityscapes到FoggyCityscapes的天气适应检测结果4. 实验在训练集中老化。我们验证了交叉摄像头适配器-在本节中,我们将我们的方法在不同的检测器(FCOS [34]和Faster-RCNN [27])和骨干(VGG-16[32]和ResNet-101 [11])上与最先进的域自适应方法进行比较。此外,我们进行了详细的烧蚀研究,以分析我们的模型中的重要组成部分的影响。在[3]之后,使用IoU阈值为0时的平均精密度(mAP)评价所有方法。五、4.1. 数据集在[3]的基础上,在7数据集包括Cityscapes [4],FoggyCityscapes [30],Sim10k [17],KITTI [10],PASCAL VOC [7],Clipart[16]《水经注》[16]。对于天气适应,Cityscapes [4]是一个正常天气下的户外街道场景数据集,包括2,975张用于训练集的图像和50个不同城市的500张用于验证集的图像作为自然目标域,FoggyCi- tyscapes [30]是在Cityscapes [4]上合成的雾天气室外街景数据集。Sim10k [17]包含来自游戏视频Grand Theft Auto V(GTA5)的10k因此,从Sim10k [17]到Cityscapes [4]的适应可用于评估合成到真实的适应。类似于Cityscapes [4],KITTI [10]是另一个流行的场景数据集,有7,481im-9589→[10]《易经》中的“道”字,就是“道”字。请注意,只有类车被考虑在合成到真实和跨相机适应。此外,我们评估领域适应方法在不同的领域,即。从以真实图像为代表的PAS- CAL VOC [7]到以艺术图像为代表的Clipart [16]和Water Color [16]请注意,我们使用15k图像PASCAL VOC 2007和2012培训和验证设置为源域。4.2. 结果分析如表1、表2和表3所示,我们将我们的方法与各种域自适应场景中的其他最先进方法进行了比较。同时,我们提供了基线Faster-RCNN的性能[27],没有自适应。“oracle”结果表明,我们删除了我们的城 市 景 观 FoggyCityscapes. 在 表 1 中 , 我 们 在Cityscapes的天气适应数据集上评估了我们的方法[30]第30话:通过使用FCOS [34],我们的方法实现了3. 使用ResNet-101骨架,比第二好的CFA [14]增加6%,使用VGG-16骨架增加更多。通过使用Faster-RCNN [27],我们的方法仍然比最近的CDG [21]获得更好的性能在此外,我们的方法比具有不同检测主干的or-acle结果稍差,表明9590→→∞方法检测器骨干地图基线Faster-RCNNResNet-10127.8/44.6SW-DA [29]Faster-RCNNResNet-10138.1/53.3沙中线[31]Faster-RCNNResNet-10141.5/55.2[2]Faster-RCNNResNet-10141.6/53.8ATF [13]Faster-RCNNResNet-10142.1/54.9PD [38]Faster-RCNNResNet-10142.1/56.9[第20话]Faster-RCNNResNet-10142.2/55.2城市轨道交通[5]Faster-RCNNResNet-10144.1/581我们Faster-RCNNResNet-10144.8/58。1OracleFaster-RCNNResNet-101-/55.4表2.从Sim 10 k/KITTI到Cityscapes的合成到真实/跨相机自适应检测结果。我们模式的有效性。Sim10k/KITTI Cityscapes. 我们提供了合成到真实适应数据集的结果,其中Sim10k[17]是源域,Cityscapes [4]是目标域。如表2所示,我们的方法达到了54的最佳精度。6%具有VGG-16骨架和54. 1%,ResNet-101骨架。 较CFA [14]使用FCOS [34],我们的方法得到5。6%的增益与VGG-16和2. ResNet-101分别获得9%的增益我们注意到我们的方法和Oracle的结果之间存在巨大的差距。这是因为合成的Sim10k [17]和真实的Cityscapes [4]之间我们还提出了我们的方法和最先进的跨相机适应数据集之间的比较。[10][11][12][13][14][15][16][17][18][19][1与CFA [14]相比,该方法获得了5. 3%和1. VGG-16 [32]和ResNet-101分别获得5%的增益,显示出使用不同主链的最新性能。值得一提的是,具有ResNet的FCOS [34]的性能略逊于VGG。这可能是因为VGG功能比ResNet功能更适合从Sim 10 k/KITTI适应Cityscapes。PASCAL VOC剪贴画/水彩。此外,我们使用Faster-RCNN [27] 和 ResNet- 101 在 从 PASCAL VOC [7] 到Clipart和Watercolor [16]的真实艺术适应数据集上评估了我们的方法根据表3,我们的方法获得了44的最佳mAP 评分。8%,58。1%的Clipart和Watercolor,在Clipart上略优于第二好的UMT [5]由于表3.从PAS-CAL VOC到Clipart/Watercolor2的真实到艺术适应检测结果。存在严重的阶级不平衡(即,,标签汽车,猫和狗比其他标签具有更少的图像),我们的方法甚至比Watercolor上的oracle结果更好[16]。通过使用我们的多粒度鉴别器,源域中的训练样本可以帮助训练准确的检测网络。4.3. 消融研究为了研究我们网络中重要模块的有效性,我们对从Cityscapes [4]到FoggyCityscapes [30]的域适应进行了消融研究。我们使用FCOS [34]作为所有变体的具有VGG-16骨架的碱基检测器如图5所示,视觉结果表明,所提出的全尺度门控融合和类别级融合减少了自适应域中对象检测的假阳性和全尺度门控融合的有效性。为了验证我们的方法处理尺度变化的能力,我们在对象尺度方面比较了我们的方法和CFA [14根据COCO度量,APS、APM和APL表示mAP分数,使得对象区域分别在范围[0,322]、(322,962]和(962,+)中。在表4中,所有尺度下的性能都相当好。与基线方法相比,通过在目标检测网络中使用全尺度选通融合,即,,39. 3%vs. 三十六百分之八 如果我们在目标检测头之前移除全尺度门控融合模块,则“我们的(w/o门控融合)”的性能降低2。百分之三。我们还注意到,我们的方法在所有尺度上都优于CFA [14],特别是在大尺度上。我们推测,全尺度门控融合模块可以处理各种尺度的目标,以产生一个更具鉴别力的表示,用于目标检测。此外,我们还讨论了粗检测制导对全尺度门控融合和目标检测头的影响。如果我们使用朴素平均融合2Clipart [16]数据集没有oracle结果,因为我们使用Clipart [16]数据集中的所有图像作为目标域。方法检测器骨干mAP(汽车)基线Faster-RCNNVGG-1630.1/30.2DAF [3]Faster-RCNNVGG-1639.0/38.5MAF [12]Faster-RCNNVGG-1641.1/41.0ATF [13]Faster-RCNNVGG-1642.8/42.1SC-DA [46]Faster-RCNNVGG-1643.0/42.5城市轨道交通[5]Faster-RCNNVGG-1643.1/-[22]第二十二话Faster-RCNNVGG-1643.1/44.6CST [44]Faster-RCNNVGG-1644.5/43.6MeGA-CDA [36]Faster-RCNNVGG-1644.8/43.0[第20话]Faster-RCNNVGG-1644.9/43.4CDN [33]Faster-RCNNVGG-1649.3/44.9我们Faster-RCNNVGG-16四十九8/45。2OracleFaster-RCNNVGG-1666.9SST-AL [25]FCOS-51.8/45.6CFA [14]FCOSVGG-1649.0/43.2CFA [14]FCOSResNet-10151.2/45.0我们FCOSVGG-16五十四6/48。5我们FCOSResNet-10154.1/46.59591图5.我们的方法及其变体之间的视觉比较。鉴别器基线Dcen[14]D组[15]Dcls[37] D猫(我们的)地图39.340.540.741.1四十三6表5.不同鉴别器之间的比较。包括Dins、Dgrp和Dcls在内的现有鉴别器被添加到我们的网络中,其中基线鉴别器在等式(1)中。(六)、方法CFA [14] 我们沙中线[31][第20话]我们检测器FCOSFCOS Faster-RCNN Faster-RCNN Faster-RCNN参数数量(M)177283580556255FPS17.510.011.825.221.4表4.多尺度目标检测的有效性。我们的方法的不同变体是通过删除网络中的重要模块来构建的此外,两个基线融合策略进行了比较,我们的全尺度门控融合。性能低于我们使用全尺度选通融合的方法。它表明,粗检测指导是至关重要的选择最合理的卷积多尺度特征聚合。分类层次判别器的有效性。如果我们通过去除等式中的类别级CJD猫来将多粒度鉴别器还原为经典鉴别器,(11)从我们的方法中,我们可以观察到4的急剧下降。基线的3% mAP(39. 三对四十三。6),如表4所示。这表明了我们所提出的计划的重要性.为了进一步证明我们的类别级CJD猫的优越性,我们在我们的网络中添加了三个最相关的判别器,包括Dins[14],Dgrp[15]和Dcls[37],其中基线判别器在等式中。(六)、Dcen[14]考虑了像素级实例的中心感知分布对齐及其多尺度扩展。如图2(a)所示,Dgrp[15]利用类别级别的对抗性搜索来减少源域和目标域之间每个类别如图2(b)所示,Dcls[37]通过使用类信息扩展二进制域标签,并保留源域和目标域的域内结构。从表5中,我们只得到39。3%的mAP得分,通过使用等式中的传统像素级的pMDpix(六)、在我们的方法中,通过使用Dcen或Dgrp,性能得到改善,增益小于2%虽然Dcls可以进一步提高perfor- mance略有,我们的方法实现了近5%的相当大的增益。这归因于更多的实例可区分性表6.计算复杂度的比较在我们的方法中,在两个域上的不同类别计算复杂性。此外,我们在表6中提供了我们的方法与其他SOTA作品之间的计算复杂度比较。请注意,除SCL [31]外,大多数方法在测试阶段都删除了鉴别器。通过使用无锚FCOS,我们的多粒度对齐框架在其主要竞争者CFA [14]的合理增加的复杂性下表现最佳;而我们的方法在基于锚的Faster-RCNN之上的参数比两种最近的方法SCL [31]和SAPNet [20]少。5. 结论在这项工作中,我们编码的像素级,实例级和类别级信息之间的多粒度的依赖关系值得注意的是,所提出的全尺度门控融合模块可以利用具有最合理卷积的多尺度特征图之间的实例特征。同时,多粒度判别器可以区分两个域上不同类别的实例。实验表明,在我们的框架上的不同的检测器和骨干域自适应对象检测的上述设计利益确认书和利益声明书。中国科学院前沿科学重点研究项目(批准号:ZDBS-LY-JSC038.中国科学院青年创新促进会资助项目(2020111)杜博士和他的雇主没有收到任何财政支持的研究,作者,和/或出版这篇文章。方法地图APSAPMAPLCFA [14]36.08.336.761.6我们的(不包括所有人)36.87.237.764.1我们的(无类别级别差异)39.38.740.564.4我们的(无门控融合)41.38.539.170.6我们的(w/all)四十三610个。1四十三1七十二5我们的(w/平均融合)42.111个国家。540.768.99592引用[1] Qi Cai,Yingwei Pan,Chong-Wah Ngo,Xinmei Tian,Lingyu Duan,and Ting Yao.探索平均教师中的对象关系以进行跨域检测。在CVPR中,第11457- 11466页,2019年。6[2] 陈超奇、李炯诚、郑泽彪、黄越、丁兴浩、余益州Dualbipartite graph learning:A general approach for domainadaptive object detection(Dual bipartite graph learning:A general approach for domain adaptive object detection)在ICCV,第2703-2712页,2021年。7[3] Yuhua Chen , Wen Li , Christos Sakaridis , DengxinDai,and Luc Van Gool.域自适应更快的R-CNN用于野外目标检测。在CVPR中,第3339-3348页,2018年。一、二、六
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功