没有合适的资源?快使用搜索试试~ 我知道了~
12576I3Net:一种适用于单级目标检测器的隐式实例不变网络Chaoqi Chen1,Zebiao Zheng2,Yue Huang2,Xinghao Ding2,YizhouYu1,3*1香港大学2厦门大学信息学院3Deepwise AI实验室cqchen1994@gmail.com,zbzheng@stu.xmu.edu.cnhuangyue05@gmail.comdxh@xmu.edu.cn,yizhouy@acm.org摘要最近的两阶段跨域检测工作已经广泛地探索了局部特征模式,以实现更准确的自适应结果。这些方法严重依赖于区域建议机制和基于ROI的实例级特征来设计关于前景对象的细粒度特征对齐模块。然而,对于单阶段检测器,很难甚至不可能在检测管道中获得显式的实例级特征。受此启发,我们提出了一种隐式实例不变网络(I3 Net),它是为适应一级检测器而定制的,并通过利用不同层中深层特征的自然特性来隐式学习具体而言,我们从三个方面来实现自适应:(1)动态类平衡重权(DCBR)策略,考虑域内和类内变量的共存,为样本稀缺的类别和易于自适应的样本分配更大的权重;(2)类别感知对象模式匹配(COPM)模块,增强由类别信息引导的跨域前景对象匹配,抑制 无 信 息 背 景 特 征 ; ( 3 ) 正 则 化 联 合 类 别 对 齐(RJCA)模块,通过一致性正则化联合执行不同领域特定层的实验表明,I3Net在基准数据集上的性能超过了最先进的性能。1. 介绍由于深度卷积网络(CNN)的空前发展和大规模注释的存在,*通讯作者图1:上图:先前的两阶段跨域检测方法的图示。下图:所提出的方法的动机是基于对不同层中的深层特征的特性的观察。数据集。然而,在各种领域中收集大量的实例级注释数据用于对象检测是非常昂贵的。另一种方法是将在源域上训练的现成检测模型应用于新的目标域。然而,当在存在域移位的情况下应用于新域时,深度对象检测器遭受性能降级[41]。这个问题启发了对无监督域自适应(UDA)的研究[27],其目的是通过知识转移来弥合源域和目标域之间的分布差异许多方法,如矩匹配[11,6,23,25,49]和对抗学习,ing [7,42,37,24,44],已经被提出用于跨域图像分类和语义分割。12577与传统的UDA问题相比,跨域目标检测是一个更加复杂和具有挑战性的问题,因为它需要同时考虑分类和回归的自适应性。目前的方法[4,53,34,1,14,3,46,52,45]主要采用对抗性特征自适应来探索局部级别,全局级别和实例级别的区分特征模式,以适应两阶段检测器(参见图1的顶部),更快的R-CNN[33]。然而,他们严重依赖于区域亲的机制和基于ROI的实例级功能,设计细粒度的功能对齐模块相对于前景对象。例如,Zhu et al. [53]根据RPN得到的区域属性,挖掘目标判别区域。Cai等人。 [1]通过使用基于ROI的特征来正则化关系图。Chen等人。 [3]和Xu等人。 [45]通过上下文或分类正则化来帮助实例级特征对齐。单级对象检测器,如SSD [22]和Reti- naNet [21],在现实世界的应用中具有更快和更简单的优点。不幸的是,由于缺少区域建议步骤,在单阶段检测器中获得显式的实例级特征是不现实的。因此,如何适应一级检测器是至关重要的实际情况下,但尚未得到彻底的研究。本文的动机如图1底部所示。标准CNN中的深层特征最终必须沿着网络从一般过渡到特定[48]。受此启发,在一级检测器中,我们可以合理地设想,在较低层处的特征(例如,颜色、角落、边缘和照明)被期望为大多数情况下无信息的,而较高层的特征(例如,对象类别)是实例信息的。因此,我们需要减轻无信息特征的负面影响,并促进信息特征的对齐,即,抑制来自较低层的冗余(例如背景)信息,并增强较高层处的前景对象的跨域语义相关性。在本文中,我们提出了一个隐式的实例不变网络(I3网),消除了需要外显式的实例级功能。相反,我们隐式地学习实例不变的功能,通过可转移的区域和图像的对齐,同时保持域间的类关系。具体而言,我们从三个方面促进了一级探测器的适应性。首先,在观察到存在隐藏在目标数据中的两个概念上正交的分布变化时,即,针对域内和类内变化,提出了一种动态和类平衡重加权(DCBR)策略,根据目标样本的适应难度来动态地对每个目标样本进行重加权,该适应难度由多标签分类器的类不平衡程度和预测不确定性来衡量。其次,考虑到具有相同类别标签但来自不同领域的对象将共享相似目标模式的情况下,设计了一个基于类别的目标模式匹配(COPM)模块,在类别信息的指导下提高跨域前景目标的匹配,并在较低层抑制无信息的背景特征。最后,我们开发了一个正则化联合类别对齐(RJCA)模块,通过考虑不同领域特定层的互补效应来实现类别对齐,并进一步结合关于不同检测头的平均预测的一致性正则化项。实验结果表明,I3网在三个基准测试中显著提高了单阶段跨域目标检测的性能.2. 相关工作无监督领域自适应(UDA)方法在图像分类、语义分割和目标检测等领域中,由于能够有效地消除两个不同领域之间的分布差异而受到广泛关注。对于UDA,典型的解决方案是通过将视差度量嵌入到深度架构中来匹配公共空间中的源和目标特征分布,例如最大平均离散度(MMD)[43,23]、相关对齐(CORAL)[40]、中心矩离散度(CMD)[49]和传输距离[20,47]。受生成对抗网(GAN)[12]成功的启发,大量工作[8,42,35,30,44,2,50,17]已经通过对抗学习具有额外分类正则化的域不变目标检测目标检测是过去几十年中最基本的计算机视觉问题之一[54]。我们的工作重点是如何适应目标检测器,所以我们只回顾了几个代表性的两级和一级检测器。一系列基于区域的 卷积网络(即, R-CNN[10],Fast R-CNN [9]和Faster R-CNN [33])在检测精度方面取得了令人信服的结果。它们依靠区域预测机制独立地对感兴趣区域(ROI)进行分类[10],或与ROI池化层共享卷积特征[9],或基于区域建议网络(RPN)[33]产生区域建议。另一方面,单阶段检测器,如SSD [22],YOLO [31,32]和RetinaNet [21],通过直接进行类别置信度预测和边界框回归,在推理速度UDA for Object DetectionDomain Adaptive Faster R-CNN[4]是一种开创性的两阶段跨域检测方法,通过在图像级和实例级上逆向学习域不变特征来减少分布偏移考虑到目标检测任务的局部性质,最近的努力[53,34,1,14,3,46,52,45,15,39,51]致力于捕获局部特征模式12578Bk×4tNt我 我 我 i=1我J j=1SD{}DD图2:左:所提出的I3 Net的总体结构,其中Fmlc是图像级多标签分类器,Dl和Dg分别是像素级和图像级域鉴别器非线性融合代表张量积运算。我们采用SSD作为基础检测网络。右:DCBR、COPM和RJCA是互补的。并在多个层次上明确地对齐它们。例如,Chen等人[3]提出分层校准不同级别特征的可传递性(即,局部区域,图像和实例),以提高检测器的可辨别性; Xu等人。 [46]和Zheng等人。 [52]从跨域原型对齐[44,2,28]中得出动机,以在域之间对齐具有相同类别的前景对象。然而,这些方法不能简单地扩展到一级检测器,因为它们高度依赖于区域建议和池实例级特征。关于适应一级目标检测器的研究非常有限。一项开创性的尝试[19]提出了一种弱自我训练策略,通过在硬否定挖掘过程中同时减少假阳性和假阴性。然而,基于自训练的方法可能容易受到误差累积问题的影响,特别是在复杂的跨域检测场景中。此外,如何在没有区域建议机制的指导下学习实例不变特征表示,这对于适应一阶段检测器至关重要,仍然不清楚。3. 方法在跨域目标检测任务中,给定一个源域Ds={(xs,ys,bs)}Ns(ys∈ Rk×1,i∈ R),包含Ns个标记样本;给定一个目标域t= x,包含Nt个未标记样本。s和t是从不同的数据分布中提取,但共享一个相同的类组(共K的目的本文的目的是将知识从Ds转移到Dt,并在Dt上取得较好的检测效果。框架概述。为此,我们提出了一种隐式实例不变网络(I3Net),它由三个部分组成,即动态和类平衡重加权(DCBR)、类别感知对象模式匹配(COPM)和正则化联合类别对齐(RJCA).I3Net的概述如图2所示.其基本思想是利用检测器不同层的表示的固有特性来弥补显式实例级特征的缺乏。DCBR算法根据域内和类内变化的适应难度对目标样本进行重新加权,COPM算法捕获前景对象模式并抑制冗余背景信息,RJCA算法通过一致性正则化促进不同领域特定层(与检测头相连)在之前关于适应一级检测器的工作之后[19],我们的I3 Net基于SSD [22]框架。3.1. 动态和类平衡的重新加权迄今为止的跨域检测方法[4,34,46,52]主要集中在特征级自适应上,并平等地对待所有目标样本,而忽略了目标数据的分布特性,这对于自适应过程至关重要。相比之下,所提出的DCBR策略明确地探索未标记目标域内的域内和类内变化,以向那些样本稀缺的类别和易于适应的样本分配更大的权重。我们在下面分析这两种变化域内变化。阶级不平衡问题12579k=1K1D2不J我KKKK--K不K不不 k=1D D {D}lem [26],它指的是属于不同类的例子数目之间的不平等,通常其多标签分类输出:存在于目标检测中以前的努力,如Focalwt=1克朗(y损失[21]和困难的例子挖掘[22,36],致力于解决前景-背景类不平衡,这与单个域中每个类的示例数量无关。 在跨域检测中,我们认为1K′其中K′=KK Kk=1t(y_t(x_t)>τ),并且τ是阈值。前景-前景类不平衡(其与数据集相关并且在域之间可能不同)倾向于恶化自适应性能,因为每个类的自适应将受到两个域中每个类的示例数量的影响,即,不同类别的适应难度可能不同。类内变量。由于背景、目标共现和场景布局的差异,源和目标特征过度对齐A(a)是一个指标函数,如果a为真,则为1,如果a为0,则为0。否则,请执行以下操作。 通过这样做,目标样本具有更高的classi-由于与源域更相似,因此将为fication置信度分数分配更大的权重。注意,wt的值不断增加,因为随着训练的进行,源分布和目标分布越来越接近为了估计Dt中每个类的示例数,我们求助于将t粗略划分为K个类的分类输出。xt被添加到′类Dk,如果k′=argmaxyk(xt). 然后,得到未标记的标签一些目标样本可能是较少可转移的或甚至是不可转移的。然而,大多数领先的跨域检测方法将目标域作为一个整体来处理,而没有考虑类内数据分布的结构。受此启发,我们假设同一类中不同样本的适应难度可能不同。一个直观的解决方案是利用重新加权技术。然而,这种解决方案在跨域对象检测的上下文中受到严重限制。与分类问题相反,单个图像通常只包含一个语义类别,存在多个-样品t被分成K类,即,t=kK。为此,我们能够为那些样本稀缺的类别分配更大的权重。 xtw.r.t.域内变化被公式化为,Kwt=e(1−Nt/Nt)(3)其中,Nk表示类别k中的样本的数量。基于等式(2)Eq.(3)、目标样本xt的总体权重函数如下所述,在同一图像内的姿态检测问题。wt=θwt+(1−θ)wt(四)1 2因此,如何衡量输入的适应难度跨域检测中目标样本仍然不清楚。其中θ是平衡wt和wt的超参数。后1 2基于上述讨论,我们正式提供建议的DCBR的详细信息。DCBR包括两个步骤:(i)估计每个个体的适应难度-将权重添加到所有目标样本,逐图像域的对抗性损失可以写为:Ns年度目标样本和每个目标类别;(ii)重新加权目标根据估计结果的样本。从技术上讲,目标示例xt的适应难度(为了便于表示,当xs和xtLdcbr = −1Ns-1对数(Dg(G2(xs)i=1Ntwt·log(1−Dg(G2(xt)(五)ijNsj j应用)是通过使用图像级多标签类来测量的筛选器(即,图2中的F mlc)。我们首先基于标记的源样本训练Fmlc源域上的多标签分类损失被公式化为:Kj=1其中G2是连接到Dg的特征提取器。3.2. 类别感知的对象模式匹配正如我们在第1节中所讨论的,该功能表示-s s s sLmlc=k=1yk·log(yk)+(1−yk)·log(1−yk)(1)在较低层的选项包含各种冗余信息(例如,背 景 )并且不应完全对准。预处理其中ys是第k个(k= 1,2,...,K)元素=Fmlc(G1(xs))k(G1是连接到Fmlc的特征提取器)。 ys=1表示xs中至少存在一个k类对象;否则ys= 0表示xs不包含k类对象。对于每个目标样本xt,我们将其多标签分类的预测表示为y_t=F_m_l_c(G_1(x_t))_k。然后,我们定义目标样本的权重函数xtw.r.t. 类内变异将导致负转移,即,12580严格匹配低级别特征的vieve作品[4,34]可能导致较差的性能,特别是在一级检测上。在探索过程中,我们观察到,具有相同类别标签但来自不同领域的对象将拥有相似的对象模式。目标模式是指前景目标的可区分特征,它能为目标识别提供丰富的语义信息。对象,例如对象类别、形状、大小等。驱动12581∈∈关于我们∈∈⊙C×H ×WH×WJM联系我们n不ǁ −ǁ类别调整的公式如下:L L LLS基于这一发现,我们提出了一个类别感知的对象模式匹配(COPM)模块,以增强由类别信息引导的跨域前景对象匹配,并抑制无信息的背景特征。假设我们有一个CNN层(例如,SSD300中的Conv4 3)及其相应的激活张量ARC×H×W,它由C个特征面组成,高H,宽W。局部特征对齐的一个直观想法是从两个域中提取注意力地图并以某种方式匹配它们。然而,目标注意力图倾向于集中在主要前景对象上,而不是全部前景对象(参见图1)。图3),这将削弱探测器探测那些小的或/和模糊的目标的定位能力因此,我们重新排序以利用检测头的分类输出(参见图10)。 图 2),表示为p<$m(p<$mRK+1,m是A中的锚索引,m=1,2,.,HW),以指导目标模式匹配。具体地,分类输出pm和特征表示Am(AmRC)经由张量积运算被非线性地融合,即,Am=Ampm,其中Am是融合特征向量。3.3. 正则化的联合类别对齐基于原型 1的特征对齐已被广泛研究以测量UDA[44,2,29]中的类别级特征差异,并被应用于两阶段跨域检测[52,46]。然而,考虑到一级检测器的密集预测属性,与其中大多数否定建议将被过滤掉的适配两级检测器相比,在这种情况下原型对准可能是容易出错的。此外,现有的努力仅在某个高级特征层中实现基于此,本文提出了一种正则化联合类别对齐( Regularized Joint Category Alignment , RJCA ) 模型,实现了不同领域层次的类别对齐,并对不同层次的平均预测一致性进行了正则化。根据一级检测器的全卷积和多级预测特性,我们的目标是在不同层中联合执行跨域类别对齐。首先,假设深层网络将在不同层中生成激活,为了防止维度爆炸,我们绘制了莫-s1s|L|Nst1t|L|Nt从随机化多线性映射[18,24]中激励,通过Hadamard乘积估计张量积,{(zi,., zi )}i=1且{(zj,.,zj )}i=1,其中l∈LzRC×H×W。然后,我们采用逐像素的预测来计算层A=(RA)(Rp),A∈R(六)l,可以写成:m1m2个月Z′s|L|为1NsH×Wny·zs|L|(九)其中表示Hadamard乘积。r1和r2是随机矩阵,其每个元素遵循一致k金斯林si=1m =1具有univariance。C是特征尺寸其中,nk表示标记有在融合后(在我们的实验中,C_(max)被设置为1024)。基于IMK在猫引导的动作张量A的情况下,我们经由基于激活的映射函数输出空间注意力图:F:R→R,其可以写为如下:类k,m是z中的像素索引。 ys0 , 1是 一 个indi-用于确定当前像素是否被预测为类别k的因子。在训练开始时计算每个类的源全局原型假设对探测头w的预测。r. t. 一个目标可以用p∈(zt)表示|L|)的。(F(A))m=C|第二章(七)|2(7)目标局部原型计算如下:Mc=1z′t|L|为 1|Bt|高×宽公司简介|L|(十)为了降低计算成本,我们将源和目标注意力映射平坦化为向量,表示为fs和ft。最后,我们通过最小化源和目标对象之间的距离来对齐源和目标对象模式,kk tjmtj=1其中,n=k表示被分配有伪标签k的对象的数量,并且Bt是目标域的小批量样本。同样,我们可以得到一组源局部原型{z<$s|L|}K.联合目标函数fsftk k=1Lla=H×W·Φ(φfs、ft)(8)公司简介|L|t|L|'s|L|t|L|ǁ2 ǁ2Ljca=[d(Zk,Zk )+的lKh(Z m ,Z n)](11)m,n|m/=n其中Φ(x,x′)= xx′2是欧几里得距离。请注意,我们采用了像素级域判别法,v公司简介个文件夹v分离纯化}tor(即,图中的Dl。2)引入COPM进一步降低低层特 征 差 异 。 因此, COPM的 目 标 被 公 式 化 为 :copm=la+adv,其中adv是香草像素域对抗训练损失。其中,d和h是对mea的两个不同的相似性函数确保原型之间的距离。在我们的例子中,我们确定了Eq。[11][13 ][14][15][16][17][18][19]1原型是同一类内样本的平均特征。C12582×L LLLKKKKKLK KA BK×在训练期间,Eq.(11)由本地原型以移动平均的方式更新,4.2.实现细节我们实验中的基本检测模型遵循Z<$|L|←ρZ<$|L|+(1−ρ)z<$|L|(十二)[22]第23话:在[22]的时候,VGG-16 [38]架构。的参数其中ρ被设置为0。7在所有实验中此外,我们还对不同层次的预测一致性进行了调整。通过分别最小化它们的对称化的Kullback-Leibler(KL)散度,将相同的类k表示为:VGG-16是从在ImageNet上预训练的模型中进行微调的。在所有实验中,输入图像的大小调整为300 300,我们进行[22,19]中使用的所有增强。 批量大小选择为32 (16源图像和16个目标图像),以适应GPU1张图片1张图片不|La|不|Lb|记忆 我们评估了跨域检测性能-Lpr=Kl k=1 2[DKL(p(z<$k)p(z<$k))(十三)通过在目标域上报告平均精度(mAP),IoU阈值为0.5我们采用+D(p(z<$t|Lb|)p(z<$t|La|))],其中l,l∈L.其中p∈(z<$t|La|)和p(z<$t|Lb|)代表平均价格w.r.t. 不同层中的k类在这里,为了平滑预测,我们将温度变量T(在所有实验中T=2)添加到softmax函数。为此,所提出的RJCA的目标可以写为:rjca=jca+γpr,其中γ被设置为0。1在所有实验中3.4. 训练损失假设检测损失表示为det,其包括分类损失和回归损失。结合所有提出的部分,I3 Net的总体目标函数如下所示,随机梯度下降(SGD)优化器用于检测网络训练,动 量 为 0.9 , 初 始 学 习 率 为 0.001 , 权 重 衰 减 为510−4。在50个epoch之后,学习率下降到0.0001注意,多标签分类器Fmlc是在标签源域,并在训练我们的自适应网络时保持固定。在没有特定符号的情况下,我们设置τ = 0。5在Eq。(2)θ=0。5在Eq。(四)、对于RJCA中的L,我们根据以下公式为I 3 Net模型设置L ={Conv7,Conv9 2}:SSD。 设λ1= 0。05和λ2=1,(14)对于所有的专家-iments.我们的实验是用Pytorch深度学习框架4.3. 与最先进技术的比较最先进的技术我们将其与3I Net =Ldet+λ1Ldcbr+λ2(Lcopm+Lrjca)(14)现有技术的跨域对象检测方法,包括领域对抗神经网络(DANN)[8],ad-其中λ1和λ2是用于平衡不同的超参数损失成分。4. 实验4.1. 数据集我们基于Pascal VOC[5],Cli-part1 k,Watercolor 2k和Comic 2k[16]数据集进行实验。根据之前的一阶段方法[19],我们使用Pascal VOC 2007-trainval和VOC 2012-trainval数据集作为源域,Clipart 1 k,Watercolor 2k和Comic 2k分别作为目标域。Pascal VOC [5]是一个真实世界的图像数据集,包含16,551张图像,其中包含20个不同的对象类别。Cli-part1 k [16]是一个具有复杂背景的图形图像数据集,由1 K个图像组成,具有与Pascal VOC相同的20个类别。我们利用Cli-part1 k的所有图像作为训练和测试的目标域。Watercolor2k和Comic2k [16]分别包含2K图像(即,1K作为训练集,另1K作为测试集)。它们与Clipart1k数据集共享6个相同的类别,即,自行车,鸟,猫,汽车,狗,和人。根据先前的实践[19],我们利用训练集进行训练,并利用测试集进行评估。L12583→versarial背景分数正则化+弱自训练(BSR+WST)[19]、强弱分布对齐(SWDA)[34]和分层可传递性校准 网 络 ( HTCN ) [3] 。 DANN 、 BSR 、 WST 和BSR+WST的定量结果引自原始论文[19]。我们重现完整的SWDA模型对我们的一个阶段的情况。此外,我们从HTCN模型中删除了上下文感知的实例级对齐组件,并在实验中重新实现了其余模块。注意,主流的跨域检测方法(例如,[4,53,1,14,46,52,45])是为两阶段检测器定制的,并且不能简单地扩展到基于一阶段的实验,因为它们高度依赖于区域提议机制。关于Clipart1k 表1显示了Pascal VOC Clipart1k的适配结果。Source Only表示基线SSD在源域上训练,并直接在目标域上测试,而不进行任何调整。所提出的I3Net在mAP方面显著优于所有的com-mapping方法,并且比最先进的方法提高值得注意的是,拟议的I3 Net的所有组件都经过了适当的设计,当我们删除其中任何一个组件时,12584→→→表1:PASCAL VOC适应Clipart1k的结果(%)。mAP在Clipart1k上报告方法Aero bcycle鸟船瓶总线车猫椅子牛表狗小时 自行车PRSN波兰国家电视台羊沙发 火车 电视 地图来源[22]27.360.417.5 16.014.543.7 32.0 10.2 38.6 15.3 24.5 16.0 18.4 49.5 30.7 30.02.323.0 35.1 29.9 26.7DANN [8]24.152.627.5 18.520.359.3 37.43.835.1 32.6 23.9 13.8 22.5 50.9 49.9 36.311.631.3 48.0 35.8 31.8DT+PL w/o标签[16]16.853.719.7 31.921.339.3 39.82.242.7 46.3 24.5 13.0 42.8 50.4 53.3 38.514.925.1 41.5 37.3 32.7WST [19]30.865.518.7 23.024.957.5 40.2 10.9 38.0 25.9 36.0 15.6 22.6 66.8 52.1 35.31.034.6 38.1 39.4 33.8[19]第十九话26.356.821.9 20.024.755.3 42.9 11.4 40.5 30.5 25.7 17.3 23.2 66.9 50.9 35.211.033.2 47.1 38.7 34.0[34]第三十四话29.060.725.0 20.424.655.4 36.1 13.1 41.2 38.3 30.3 17.0 21.2 55.2 50.4 36.610.638.4 49.2 41.2 34.7BSR+WST [19]28.064.523.9 19.021.964.3 43.5 16.4 42.2 25.9 30.57.925.5 67.6 54.5 36.410.331.2 57.4 43.5 35.7[3]第三次世界大战28.767.725.3 16.128.756.0 38.9 12.5 41.0 33.0 29.6 12.9 22.9 69.0 55.9 36.111.834.1 48.8 46.8 35.8I3 Net w/o DCBR30.566.925.6 17.924.047.8 35.7 13.8 40.6 36.3 27.8 16.5 24.5 71.4 56.6 38.210.539.9 50.7 44.5 36.0I3 Net w/o COPM28.766.828.4 23.125.358.4 42.8 19.2 40.4 33.6 32.7 18.1 23.5 53.8 52.5 35.613.437.3 52.4 46.0 36.6I3 Net w/o RJCA28.867.825.4 16.228.956.1 39.0 12.6 41.1 33.1 29.7 13.0 22.9 69.1 55.9 36.311.934.2 48.9 46.935.9I3 Net(Full)30.067.032.5 21.829.262.5 41.3 11.6 37.1 39.4 27.4 19.3 25.0 67.4 55.2 42.919.536.2 50.7 39.3 37.8表2:从Pascal VOC到Water-color 2k的适配结果(%)。在Watercolor2k测试集上报告mAP。表3:从Pascal VOC到Comic2k的适配结果(%)。在Comic2k测试集上报告了mAP。方法自行车鸟车猫狗人地图方法自行车鸟车猫狗人地图来源[22]77.546.144.630.026.058.647.1仅来源[22] 43.39.423.69.810.934.221.9DANN [8]73.441.032.428.622.151.441.5丹麦[8] 33.311.319.713.419.637.422.5[19]第十九话82.843.249.829.627.658.448.6[19]第十九话15.826.39.915.839.725.5WST [19]77.848.045.230.429.564.249.2WST [19] 45.79.330.49.110.946.925.4[34]第三十四话73.948.644.336.231.762.149.5BSR+WST [19] 50.613.631.07.516.441.426.8BSR+WST [19]75.645.849.334.130.364.149.9[34]第三十四话12.929.512.719.144.127.6[3]第三次世界大战78.647.545.635.431.062.250.1HTCN† [3] 50.315.027.19.418.946.227.8I3 Net w/oDCBR78.749.242.637.432.462.550.5I3 Net w/o DCBR 44.214.035.16.519.351.728.5I3 Net w/oCOPM75.649.245.937.933.263.650.9I3 Net w/o COPM 47.114.532.37.120.351.828.9I3 Net w/o RJCA81.846.340.433.334.065.150.2I3 Net w/o RJCA 45.012.133.98.020.150.528.3I3 Net(Full)81.149.346.235.031.965.751.5I3净收入(全额)47.519.933.211.419.449.130.1最终性能将相应下降结 果水 彩 2k和Comic2k结 果Pascal VOCWatercolor2k和Pascal VOC Comic2k的任务报告见表2和表3。I3Net在大多数对象类别上实现了更好的性能,表明I3Net能够学习更多的可转移表示,并可扩展到不同的跨域检测场景。值得注意的是,I3 Net在具有挑战性的传输任务上表现出更好的适应性能(27.8%至30.1%),即,Pas- cal VOC Comic 2k,其中源数据和目标数据之间的域差异非常大。4.4. 进一步的实证分析消融研究。我们验证了建议DCBR,COPM,和RJCA的影响,通过评估I3网的变体。结果报告于表4中。(1)DCBR w/o Dynamic和DCBR w/o CB表示我们从表4:三种转移任务中的I3 Net消融(%)。源靶Clipart1kPascalVOCWatercolor2kComic2kDCBR,不带动态37.351.429.2DCBR,不带CB37.151.029.3COPM w/o C36.851.129.0COPM w/MMD34.948.427.0COPM w/Adv37.050.729.8RJCA w/o J36.650.829.1RJCA(不含PR)37.451.529.4I3 Net(Full)37.851.830.1在一个层中进行类别对齐RJCA w/o PR是没有预测正则化的变量(等式2)。(13))。COPM w/ MMD和COPM w/ Adv的结果表明,L2距离能够更好地保持结构化信息(即,对象模式)。RJCA w/o J的结果验证了考虑不同领域特定层的互补效应的意义。1 2当量(4)分别。 (2)COPM w/o C表示我们重新-移动非线性融合步骤(Eq.(6)直接匹配源和目标矢量化的注意力地图。COPM w/ MMD和COPMw/Adv 表 示 我 们 在 等 式 中 替 换L2[23][24][25][26][27][28][29](3)RJCA w/o J是仅COPM的可视化。 图3显示了由Source Only [22]、HTCN [3]和I3 Net(Ours)生成的地图颜色越亮,权重值越大值得注意的是,所提出的I3网络能够(i)捕获包含丰富语义信息的可区分区域,(ii)突出前景对象12585图3:Source Only、HTCN†和I3 Net生成的目标注意力地图的图示。从左到右:输入目标图像与地面实况边界框,源只,HTCN†,我3净。图4:Clipart1k、Watercolor2k和Comic2k上的定性检测结果即使具有小的对象尺寸,以及(iii)抑制冗余的背景信息。定性检测结果。图4展示了三个靶域上的检测结果的实例,即,Clipart1k、Watercolor2k和Comic2k。在不同的传输任务中,提议的I3 Net始终显著优于Source Only[22]和HTCN [3由于DCBR的引入,I3 Net能够精确地检测样本稀缺类别(例如,(a)、(d)和(e))。I3 Net能够检测那些模糊的对象并提供准确的边界框预测,因为我们明确鼓励通过所提出的COPM(例如,(a)、(b)、(c)和(f))。此外,由于RJCA的存在,I3 Net能够确保跨域语义一致性,从而显著减少误 报 结 果 并 提 高 分 类 准 确 性 ( 例 如 , ( d ) 和(e))。5. 结论本文提出了一种隐式实例不变网络(I3Net)来解决基于一级检测器的跨域目标检测问题,该网络不需要显式的实例级特征。我们的方法的关键思想是通过利用不同层中深层特征的自然特性来隐式地学习实例不变特征,即,抑制来自较低层的冗余信息并增强较高层处的前景对象的跨域语义相关性。在三个标准的跨域检测基准上的实验验证了该方法的有效性。鸣 谢 本 课 题 得 到 了 国 家 重 点 研 究 发 展 计 划( No.2020YFC2003900 ) 和 国 家 自 然 科 学 基 金U19B2031,61971369的部分资助。12586引用[1] Qi Cai,Yingwei Pan,Chong-Wah Ngo,Xinmei Tian,Lingyu Duan,and Ting Yao.探索平均教师中的对象关系以进行跨域检测。在CVPR中,第11457- 11466页,2019年。第二、六条[2] Chaoqi Chen , Weiping Xie , Wenbing Huang , YuRong,Xinghao Ding,Yue Huang,Tingyang Xu,andJunzhou Huang.渐进式特征对齐,用于无监督的局部自适应.在CVPR中,第627-636页,2019年。二、三、五[3] 陈超奇,郑泽彪,丁兴浩,黄越,齐斗。协调可转移性和可辨别性以适应对象检测器。在CVPR中,第8869二、三、六、七、八[4] Yuhua Chen , Wen Li , Christine Sakaravan , DengxinDai,and Luc Van Gool.域自适应快速r-cnn用于野外目标检测。在CVPR中,第3339-3348页,2018年。二、三、四、六[5] Mark Everingham 、 Luc Van Gool 、 Christopher KIWilliams、John Winn和Andrew Zisserman。pascal visualobject classes ( pascal visual object classes ) IJCV , 第303-338页,2010年。6[6] Basura Fernando,Amaury Habrard,Marc Sebban,andTinne Tuytelaars.使用子空间对齐的无监督视觉域自适应。在ICCV,第2960-2967页,2013年。1[7] 雅罗斯拉夫·加宁和维克多·伦皮茨基。通过反向传播进行的无监督在ICML,第1180第1、7条[8] 雅罗斯拉夫·甘宁、叶夫根尼娅·乌斯季诺娃、哈娜·阿亚坎、帕斯卡尔·热尔曼、雨果·拉罗谢尔、弗朗索瓦·拉维奥莱特、马里奥·马尔尚和维克托·列皮茨基。神经网络的领域对抗训练JMLR,17(1):2096二、六、七[9] 罗斯·格希克快速R-CNN。在ICCV,第14402[10] Ross Girshick , Jeff Donahue , Trevor Darrell , andJitendra Malik.丰富的特征层次结构,用于精确的对象检测和语义分割。在CVPR,第5802[11] 公伯庆,袁氏,飞沙,克里斯汀·格劳曼。用于无监督域自适应的测地线流核在CVPR,第2066-2073页,2012年。1[12] Ian Goodfellow , Jean Pouget-Abadie , Mehdi Mirza ,Bing Xu , David Warde-Farley , Sherjil Ozair , AaronCourville,and Yoonne Bengio.生成性对抗网。NIPS,第2672-2680页,2014年2[13] Raia Hadsell,Sumit Chopra和Yann LeCun。通过学习一个不变映射进行降维.在CVPR,2006年。5[14] 何振伟和张磊。多对抗faster-rcnn用于无限制目标检测。在ICCV,2019年。第二、六条[15] 徐正春、蔡义宣、林燕玉、杨铭宣。每个像素都很重要:域自适应对象检测器的中心感知特征对齐。在ECCV,2020年。2[16] 井上直人,古田良介,山崎俊彦,相泽喜小春.跨域弱监督对象检测通过渐进域适应。在CVPR中,第5001-5009页,2018年。六、七[17] Xiang Jiang , Qicheng Lao , Stan Matwin , andMohammad Havaei. 用于无监督域自适应的隐式类条件域对齐2020年,《
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功