没有合适的资源?快使用搜索试试~ 我知道了~
22D2F2WOD:通过渐进域自适应学习弱监督对象检测的对象建议RutgersUniversityPiscataway,NJyw632@cs.rutgers.eduRicardo Guerrero三星AI中心英国r. samsung.com罗格斯大学Piscataway,NJvladimir@cs.rutgers.edu摘要弱监督对象检测(WSOD)模型试图利用图像级注释来代替准确但昂贵的对象定位标签。这常常导致在推理时的不合标准的对象检测和局部化。为了解决这个问题,我们提出了D2F2 WOD,一个双D域Fully-to-Weakly监督对象检测框架,它利用合成数据,用精确的对象定位进行注释,以提供一个自然的图像目标域,其中只有图像级标签可用。在预热域自适应阶段,该模型学习全监督对象检测器(FSOD),以提高目标域中对象预测的精度,同时学习特定于目标域的检测感知建议特征。在其主WSOD阶段,WSOD模型被特定地调整到目标域。WSOD模型的特征提取器和对象建议生成器建立在微调的FSOD模型上。我们测试D2F2WOD五双域图像基准。结果表明,我们的方法与最先进的方法相比,在不断改进的对象1. 介绍在过去的几年里,目标检测取得了显着的进步,主要是通过深度神经网络架构的发展[20,4]。然而,训练这样的深度神经网络需要大量手动注释的图像。获得这些注释是昂贵且耗时的。因此,降低这些成本非常重要,并且已经相应地开发了许多弱监督对象检测(WSOD)方法[2,29,28]。WSOD方法通过仅使用图像级注释训练检测架构来减轻对精确对象定位信息的依赖。大多数现有的WSOD算法[2,29,28,34,21,8,13]人类标记的RPN选择性搜索图1:人类标记的对象与我们的D2F2 WOD预热生成的对象建议的对比图,单独在合成数据上训练的Faster R-CNN的RPN,以及RealPizza 10数据集上的选择性搜索(SS)它展示了我们的学习对象建议生成器(预热阶段)相对于SS的优势SS通常无法生成准确的边界框,因此很难提高分类精度。它还表明,我们的D2F2 WOD预热比仅在合成数据上训练的Faster R-CNN的学习RPN更好。我们的热身领域适应阶段可以提高目标领域中对象建议的精确度。基于多实例学习(MIL)[6]。他们将图像视为由对象建议生成器产生的对象建议袋[31,41]。尽管WSOD已经取得了许多有希望的结果,但它们仍然无法与全监督对象检测器(FSOD)[20,4]相媲美其中一个主要原因是,现有技术的对象建议生成器仍然不能产生准确的对象建议-这对于具有多个复杂的非刚性对象和杂乱背景的野外图像是特别严重的问题,如图1所示。1.一、为了克服这个困难,我们引入了一个简单的对象建议生成策略,可以应用于不同的WSOD,以提高其检测性能。我们的关键见解是将WSOD转换为域适应问题-例如,当合成图像(如SyntheticPizza 10 [19])时,定位和身份标签可作为生成过程的副产品。高度程式化图像(例如,Clipart 1 K [14]、Water-color 2K [14]和Comic 2K [14])同样比自然图像更容易标注,在自然图像中,对象可能会表现出COM。23→共享或外观的丛变化。在这项工作中,我们有兴趣利用完全注释的非摄影数据集来支持真实世界数据集中的准确对象定位为此,我们提出了一个双-D主Fully-to-Weakly监督对象检测(D2F2 WOD)框架,它能够通过FSOD模型的渐进域适应,使用自然图像的图像级标签以及完全监督的非摄影图像来考虑到源和目标之间跨前景和背景(F B)的大的域间隙,关键在于(1)在可行时以解纠缠的方式单独地解决F B的自适应,以及(2)以渐进的方式减小域间隙以控制误差的传播。 在我们的工作中,我们逐步适应FSOD模型从源图像到目标域的五个步骤。 首先,我们要建立一个初步的桥梁,非摄影源和真实世界目标使用不成对的图像到图像转换(I2I),例如[40]。这将创建代替在该中间域上初始化FSOD的常见做法,我们通过采用来源于[35,9]的复制-粘贴增强技术来进一步减少域间隙,以将翻译的对象外观与真实背景图像融合,并创建第二个转移标记的中间域。该域用作初始化FSOD的初始阶段,用于在真实目标域上的后续WSOD学习阶段中进行伪标记(PL)[16]。然而,由初始化的FSOD产生的并且WSOD所需的置信伪标记实例的典型数量不足以有效地适应目标域。为此,我们重新采用以前使用的增强技术,以增加置信PL实例的数量。最后,我们学习利用这些目标样对象pro-pronunciation功能的检测头。与最先进的方法相比,我们的D2F2WOD实现了一致的改进,为WSOD模型提供了强大的基线。我们的贡献有三个方面:(1)我们提出了一个基于do-main适配的对象建议生成框架,适用于不同的WSOD,包括OICR [29]和CASD [13]。五步渐进式局部自适应过程利用FSOD对生成的样本的逐渐自适应,以及前景和背景上的解耦焦点,并且它可以与不同类型的FSOD骨干无缝集成,例如Faster R-CNN [20]和基于变换器的检测器[4]。(2)我们构建了一个双域图像基准Synthet-icPizza 10RealPizza 10,其中非摄影图像作为源,真实世界图像作 为 目 标 域 。 ( 3 ) 实 验 结 果 表 明 , 本 文 提 出 的D2F2WOD在五个基准测试中均达到了最佳性能。2. 相关工作弱监督目标检测。WSOD方法通常旨在仅利用图像级注释,而不是FSOD中通常使用的细粒度对象定位。现有方法主要将WSOD视为多实例学习(MIL)问题,其中对象不一定位于图像的中心,并且存在杂乱的背景[18]。 在基于MIL的模型中,图像被解释为潜在对象实例的袋子。这些模型通常由三个部分组成:特征提取器(FE)、对象建议(OP)生成器和检测头(DH)。给定一个图像,他们首先将其馈送到OP生成器和FE中,分别生成建议和特征图。然后,特征图和对象提议(OP)被转发到空间金字塔池(SPP)层[32]或感兴趣区域(RoI)池层[20],以产生固定大小的对象提议特征。最后,这些特征向量被馈送到DH中以分类和定位对象。端到端弱监督深度检测网络(WSDDN)[2]提出了一种第一个MIL框架。基于Fast R-CNN [10],它引入双流网络来分别执行分类和定位。然而,在WSDNN中,由于在训练过程中缺乏精确的局部化信息方面的监督,排名最高的OP可能仅覆盖对象的最有区别的部分而不是整个对象实例。随后的工作[29,28,34,1,36,21,8,13,30]旨在通过扩展WSDDN来缓解这个问题影响WSOD性能的关键因素之一是OP的质量许多现有的方法都建立在无监督的ROI提取上,例如选择性搜索(SS)[31]和边缘框(EB)[41]。为了生成OP,SS使用穷举搜索和分割,EB使用对象边缘。[37]提出了一个分层的区域建议细化网络,[30]提出了一个两阶段的区域建议网络,以逐步细化其他一些工作,如W2N [12],继续使用半监督学习改进由经过良好训练的WSOD生成的噪声数据集。与上述方法不同的是,在这项工作中,我们首先将WSOD转换为域适应问题,通过利用辅助源域来预训练FSOD模型。FSOD模型从源域到目标域逐步适应。在我们获得自适应FSOD模型之后,我们将其视为WSOD设置中的弱监督OP生成器,同时将FSOD的FE视为WSOD模型的预训练FE用于对象检测的域自适应。域自适应通常涉及两个域,即源域和目标域。现有的领域自适应方法大多是针对完全标记的源域和未标记或弱标记的目标域之间的域转移,其被表述为无监督或弱标记的。24∈不联系我们联系我们--T∈∈{S T}不S不不SGG不不GGS不STS TS11NsNs(单位:w)--S有监督的域自适应。用于对象检测的最新领域自适应引入了不同的策略来减少领域分歧。例如,对抗性特征学习被用来在域识别器的帮助下使对象检测器适应目标域[5,25,26,11,33],从而产生域不变特征。由源检测器生成的高置信度预测被用作伪标签,以微调目标域上的检测器[14,15,39,24]。类似地,可以采用未配对的I2I模型[14,22,11]将源图像映射到类似目标的图像。引入这种类似目标的域减轻了在具有大域间隙的源和目标之间直接传输的困难。与上述方法不同的是,我们的方法将域移动分为前景和背景移动。这使得可以以聚焦的方式逐渐地使检测器从源适应目标。我们还在自适应阶段使用数据增强,因为颜色抖动[27],混合[38]和复制粘贴[35,9]等增强可能对图像分类和对象检测产生重大影响。此外,通过使用WSOD设置中的检测头对建议分支进行额外的细化,来增强由自适应对象检测器生成的OP。这种改进提高了网络3. 方法提出的双域全到弱监督目标检测框架(D2F2WOD)旨在通过将WSOD公式化为域自适应问题来解决目标域中缺乏目标定位信息的问题。将WSOD模型训练分为两个阶段- 域适应和WSOD。在域自适应阶段,我们通过利用辅助源域作为预热来逐步学习域自适应在WSOD阶段,该自适应FSOD用于初始化WSOD模型,然后在目标区域上细化WSOD模型。D2F2WOD是一个通用的框架,可以使用不同的FSOD和WSOD方法.在这里,我们关注两个代表性的FSOD主干-在本节中,我们首先阐述问 题 , 然 后 是 框 架 概 述 、 体 系 结 构 的 细 节 以 及D2F2WOD每个阶段的训练过程。3.1. 问题公式化图2说明了我们的D2F2WOD方法。我们的目标是在现实世界中检测对象实例,弱监督目标域(例如,图2中的真实比萨饼)通过利用非摄影源域(例如,图2中的合成比萨饼)。对于这个问题,我们只能访问带有图像级注释的图像(即,类标签)在T和IM-具有丰富实例级注释的年龄(即,类标签和边界框)。形式上,Xs∈Rh×w×3表示来自S,其中h和w是图像的高度和宽度分别Y(f)=(b,c),. . . .. . . C是它的类别标签。Ns是与Xs关联的对象实例数。T中要检测的类与S共享,C是对象的数量这两个领域的分类。 类似地,Xt∈Rh×w×3表示来自,并且Y(w)=[y1,. . . 表示图像级弱监督,其中y c0,1指示第c个类别的至少一个实例的不存在(存在)。Nt是与Xt相关联的当前对象类的数量。我们将Vj表示为来自域j的图像的对象属性特征向量。在这项工作中,我们的目标是学习一个对象检测器的焦油-得到定义域,Y∈(f)=f(X|θ),X∈T,通过改变两者,从S得到的全标注数据Ds={(Y(f),Xs)}和从T得到的弱标注数据 Dt={(Y,Xt)};换句话说,θ∈<$D ={Ds<$Dt}。3.2. 方法概述为了提高WSOD模型的性能,我们的关键见解是共同提高OP的精度,并学习特定于目标域和检测感知的建议功能。为此,我们的D2F2WOD利用全标记(FLS)域并引入如图2所示的双阶段训练方案。在预热域适应阶段中,FSOD在(1)转移标记的中间(TLI)域1,(2)增强的(Aug.)转移标记的中间结构域2,然后在(3)假标记的靶(PLT)结构域和(4)扩增的假标记的靶结构域上。 如图 2,1被构造为具有准确传递的定位信息的类目标实例,并且2被构造为具有准确传递的定位信息和真实背景的类目标图像,从而桥接和并便于自适应。在WSOD主阶段,基于MIL的WSOD模型被专门调整。WSOD模型的FE和OP发生器建立在微调FSOD模型的基础3.3. 预热领域适应阶段:学习领域特定特征对象建议D2F2WOD的预热阶段在dual上训练FSOD模型,该模型提供预训练的深度FE和OP生成器,以在T上生成对象建议特征向量。这种FSOD模型后来主要用于25热身:领域适应阶段FLS(X,&&TLI(X ,(/(/TLI(X、���()()WL T(X,(#$(不 不PLT(Xt,不)PLT(X 、tF)(#$(tFI2I八PL八X&���“(&X (���“((X (���“((X不“(#$(1))tXF不“(#$(2))tFLc$,L$ocLc$,L$ocLc$,L$ocLc$,L$ocLc$,L$ocFSOD-1���(&FSOD-2���((FSOD-3���((FSOD-4(#$(1))FSOD-5(#$(2))tFK倍Main:弱监督目标检测阶段目标域特定、检测感知对象建议特征向量OPsRWLT(X t,t)的方式(*中文t tL+$c“(*)FC(X不FSOD-5‘Frozen’ROI5510)联系我们GG不不STG1S1高×宽×3图2:我们的双域全到弱监督对象检测架构(D2F2WOD)概述。 上块:热身域适应阶段;下块:主要是弱监督目标检测阶段。这里“A B”表示模块A的输出被用作模块B的输入,或者模块B直接复制模块A的参数而不进一步微调。‘PNDH’ denotes theproposal networks and detection heads in an FSOD初始化WSOD模型的阶段。我们的方法在不同的FSOD上通用化。在这里,我们采用了FSOD模型的两种3.3.1渐进域适应。直接在双域上训练FSOD模型是具有挑战性的,因为(1)在前景和背景中的源(非摄影图像)和目标(自然图像)域之间的大量数据分布偏移,以及(2)源(完全标记的)和目标(缺乏定位信息)域之间的显著监督差异。受DT+PL [14]的启发,我们通过生成中间域1和2来克服这个困难,其中实例级注释从源域转移。相应地,我们介绍了一个五步渐进域自适应策略(上半部分在图2),首先在完全标记的S上预训练FSOD-1模型,然后在转移标记的S上逐渐微调它。FSOD-3,然后在第一轮伪标记和第二轮增强伪标记上分别标记为FSOD-4和FSOD-5。自动生成初始适应的中间域。 为了便于自适应,中间域的期望属性应该是其图像与目标图像相似,同时具有准确的定位信息。为此,我们生成中间域图像作为由源图像中的对象的布局引导的照片般逼真的目标状对象的合成,从而允许将定位注释从源图像直接转移到生成的图像。具体地,由于在图像之间不存在对应的图像对,和域,我们训练CycleGAN [40],一个不成对的I2I网络,将源图像Xs映射到目标G1中间到目标T:Xg1=fS→G1(Xs),(1)其中Xg1∈R是由I2I网生成的图像G1和增广transfer标记的G2为FSOD-2,1稀疏DETR提高了DETR的效率,提高了每个DETR的性能将Xs中的实例转换为Xg1中的实例,在小对象数据集上,因此我们选择稀疏DETR。Y(f)=Y(f):Xg =fS→G(Xs).(二)工作 给定这个I2I映射,我们将标签从126不--G不GG不S不不G2不--不不不联系我们不11NtSG1(二)(一)使用中间图像Xg1及其实例级注释Y(f),我们将预训练的FSOD-1模型微调为FSOD-2。为了使Xg1更接近Xt图像,我们专注于单独桥接前景和背景间隙。具体来说,我们采用基于复制粘贴的对象感知数据增强[35]来将Xg1映射到Xg2图像。为每个再次生成这些对象实例。我们重复前面的步骤,其中FSOD-4模型用于产生实例级伪注释Y(pl(2))。为每个在Xt中的伪标记实例(bq,c),我们复制y并运行-将其粘贴L次,(b/q1,c).,(b∈qL,c)到原始目标图像Xt上,并产生增强的im。年龄X′和新的伪注释Y(pl)。FSOD-Xg图像,我们随机复制几个前景对象t t′1实例,并进行平移和翻转变换,然后将它们粘贴到真实世界的目标背景图像上,以生成Xg2。使用增强的中间图像Xg2及其实例级注释Y(f),我们将FSOD-2模型微调为FSOD-3。目标图像的实例级伪注释,用于连续自适应。 虽然中间域1和2部分地桥接源域和目标域,在中间体之间的域转移仍然是不可忽略的目标域和目标域。例如,通过CycleGAN翻译的合成对象仍然与目标图像中的对象不同;中间域中的对象的布局受限于中的布局,并且缺乏中的真实世界变化。因此,为了在目标域上实现良好的检测性能,我们需要在目标域上进一步微调FSOD-3模型作为FSOD-4。 为此,我们使用FSOD-3,最初很好-在G2上调优,以产生实例级虚拟注释4随后在具有实例级伪注释Y(pl(2))的增强目标Xt上微调到FSOD- 5中,从而从T适应于增强T。3.4. WSOD主阶段:目标方案的分类与局部细化在D2F2 WOD的主要阶段,我们利用在预热阶段获得的FSOD-5模型初始化WSOD模型,并在真实世界的目标数据上训练它。正如在SEC中解释的那样。基于MIL的WSOD模型由FE、OP生成器和DH组成。我们用微调过的FSOD-5(图2中的蓝色块)的FE初始化WSOD模型的FE,并不断对其进行训练。我们用整个微调的FSOD-5(图2中的绿色块)替换WSOD模型的基于标准选择性搜索的OP生成器,该FSOD-5在WSOD训练过程中注意,这里我们将FSOD-5的检测输出视为WSOD的目标建议这条线-Y(pl(1))={(b,c),. . . 、(b),c )}对于每个弱-EGY可以无缝地应用于不同类型的WSOD,标记目标(WLT)图像Xt。具体来说,对于每个图像Xt,我们首先从FSOD-3模型获得预测D(3)D(3)={D1,...,D C}= fFSOD-3(Xt),(3)其中,Dj表示属于类别j的所有预测,{1,. . . ,C}。 Dj={d1,., dNj},Nj是第j类检测的数量,dm=(pm,b<$m,j),pm∈R表示属于第j类的检测概率b<$m。对于每个地面实况对象类c,我们选择前1个置信度在这里,我们考虑广泛使用的OICR [29]和最先进的CASD [13]。通过这样做,我们提出的模型显着优于现有的WSOD方法,因为:(1)目标域特定的预训练特征,(2)检测感知的预训练特征,以及(3)目标域特定的对象提议。生成对象建议及其功能。 给定图像Xt,OP生成器旨在获得Mt个边界框R=b1,.,bMt与Xt相关。为此,对于每个图像Xt,我们首先从微调的FSOD-5模型获得预测D(5):预测dq从Dc,我们加上(b<$q,c)到Y(pl(1)):D(5)={D1,...,D C}=0 FSOD-5 (Xt)。(五)dq=(pq,b<$q,c):yc=1,q=argmaxpm。(四)MFSOD-3模型随后在具有实例级伪注释Y(pl)的目标图像X t上进行微调。到FSOD-4,最后从目标G2调整到T. 原则上,可以执行K次以生成实例级伪注释Y(pl),并适应于FSOD-(3+k),其中k 1,. . .、K.然而,在这方面, 典型的 置信伪随机FSOD-3产生的标记实例不足以有效适应目标域。要添加实例注释,我们使用复制-粘贴增强Nt(k)27∈鉴于DETR产生的预测数量远远少于Faster R-CNN,我们采用不同的建议生成策略。对于DETR,所有预测的边界框都被添加到R。对于更快的R-CNN,我们认为-选择属于地面的预测边界框真值类为R。对于WSOD模型,使用FE,然后是RoI池化层和两个全连接(FC)层,然后我们获得每个输入图像Xt的d维对象建议特征向量VtRd×Mt(图中的下半部分)。 2)的情况。对象程序的分类与局部化精化。 这些对象建议特征向量Vt被馈送到28→S→→→→→S T→进入OICR [29]或CASD [13]的检测头,以分类和定位对象。请参阅SEC。1份补充材料,用于详细说明。4. 实验结果基准。我们在五个双域图像基准对上评估我们的方法:[19]第19届中国国际纺织品博览会[编辑]Watercolor 2K [14] VOC 2007-sub,Comic 2K [14] VOC2007-sub和Clipart 1 K MS-COCO-sub [17]数据集。我们从[19]中构建了SyntheticPizza10数据集,包括单层图像,并去除了仅包含比萨饼底座的图像(即,不含任何配料)。Re-alPizza 10是PizzaGAN的一个子集[19],包含9,213个带有13种浇头注释的真实图像。当我们使用伪标签时,我们要求(,)中的类是相同的。因此,我们从PizzaGAN数据集中删除了只有菠菜,芝麻菜或玉米的图像,这些类别在SyntheticPizza10中没有,类似地,MS-COCO-sub和VOC 2007-sub数据集通过从域中删除图像而构建,而不具有至少一个类。请看SEC。补充材料2的细节。每对数据集中每个类的实例数量是不平衡的。与其他基准相比,SyntheticPizza10 RealPizza10更具挑战性,因为所有Pizza对象实例都非常小,并且具有不同的形状和纹理。虽然[19]使用各种不同的剪贴画图像为每个浇头,以获得合成比萨饼,如图所示。 3、这些配料模板的数量仍然有限。在真实的食物图像中,每个配料对象的形状、颜色和纹理都取决于烹饪动作。如图 对于每种成分,SyntheticPizza10和RealPizza10之间的域差距各不相同。此外,差距延伸到基地的合成和真正的比萨饼,如图所示。3.第三章。基线和评价程序。我们主要关注与最先进的DAOD基线进行比较(跨域):DT +PL [14]和PADOD [11],以及广泛使用的WSOD基线(单域):OICR [29]、CASD [13] 和 其 他 基 线 ,包 括 WS- DDN [2] 、 PCL[28]、C-MIL [34]、WSOD 2(+Reg)[36]、Pred辣香肠培根蘑菇胡椒橄榄番茄罗勒图3:比萨饼的顶部和底部有一个域的变化。左:用于创建合成比萨饼图像的浇头示例[19]。中间:真实比萨饼图像中的浇头示例。右上:用于创建合成比萨饼图像的基地的例子[19]。右下:在实际比萨饼图像基地的例子。图4:识别对象检测错误。VOC2007上平均每个图像有441个建议,RealPizza10上平均每个图像有441个目标建议请参阅SEC。3在补充材料中进行详细说明。来源与目标标签成本。两个因素决定了源与目标FSOD:构建合成图像生成器的成本当合成图像的真实感是温和的,建造发电机的成本低 。 对 于 从 抽 象 剪 贴 画 或 补 丁 构 建 的SyntheticPizza10,生成成本很低。此外,如果需要这样的注释(例如,Clipart1k)。因此,我们的方法具有固有的成本比直接注释目标域。4.1. 主要结果我们比较了D2F2WOD与最先进的单域(SD)和跨域(CD)方法的mAP。Ta-Net [1],C-MIDN [8],MIST(+Reg)[21],WeakRPN[30],CASD2(培训CASD两次:一次用于建议,一次用于对象检测),以及CASD+W2N [12]。我们的评估遵循标准检测程序。我们计算平均精度(AP)和AP的平均值(mAP)作为评估指标。如果预测框的IOU > 0,则将其视为正例。5之间的地面实况边界框和预测框。实施详情。在预热阶段,使用Faster R-CNN [20]和Sparse DETR [23]作为我们的FSOD模型。对于每个目标图像,我们生成438个对象表1和表2总结了基于Faster R-CNN FSOD主干的五个基准的检测结果。每类AP列在补充文件中,材 料 表 5. 与 OICR 结 合 的 D2F2WOD 表 示 为 D2F2WODoicr , 与 CASD 结 合 的 D 2 F2 WOD 表 示 为 D2F2WODcasd。我们的预热阶段的结果表示为D2F2 WOD预热。D2F2WOD始终优于SD基线。如表1所示,在Clipart1KVOC 2007上,D2F2WODcasd达到64。8% mAP,跑赢原CASD 7. 8%mAP,D2F2 WODcasd+ w2 n达66. 9%的mAP,输出-合成浇头真正的浇头合成的碱基实基29→→ → → →→→ →→→→→→→GGGG不不TT→预热阶段后主舞台类型我们SD我们方法上限更快的R-CNN [20][14]第十四话帕多克[11]D2F2WOD预热WSDDN [2]OICR [29]PCL [28]WeakRPN [30]C-MIL [34][36]第三十六话Pred Net [1]C-MIDN [8][21]第二十一话CASD [13]CASD2CASD+W2N [12]D2F2WOD盒D2F2WODcasd+w2n平均值69.922.8 34.6 24.2 37.3 34.8 41.2 43.5 45.3 50.5 53.6 52.9 52.6 54.9 57.0 57.465.464.866.9表1:Clipart1K VOC 2007上不同方法的结果(mAP,%)。我们将FSOD(Faster R-CNN或Sparse DETR)结果表示为上限,在完全注释的目标域上进行训练和测试,以表明我们的方法的弱上限性能我们的热身阶段与CD模型进行了比较,我们的主阶段与SD模型进行了比较CD中更快的R-CNN意味着我们在完全注释的源上训练我们的网络,并在完全注释的目标域上进行测试。 D2F2WOD的最佳和次佳结果与基线相比,以红色和蓝色显示。表2:不同方法对SyntheticPizza 10 RealPizza10(SPizzaRPizza)、Watercolor 2KVOC 2007-sub(WaterVocS)、Comic 2KVOC 2007-sub(ComiVocS)和Clipart 1 KMS-COCO-sub(ClipCocoS)的结果(mAP %)。热身阶段后主阶段剪辑→CocoS84.313.9 22.1 - 25.7-48.357.2将原CASD+W2N乘以1。5% mAP,而CASD2仅优于原始CASD 0. 4%的mAP。检测性能并没有从使用CASD2中获益多少,因为这样做并没有改善生成的建议。在表2中报告的SyntheticPizza10 RealPizza10上,D2F2WODcasd提供12. 在mAP方面,比原始CASD提高了2%。D2F2WOD也始终优于CD基线。表1显示在Clipart1K VOC2007D2F2WODcasd上的性能比DT+PL和PADOD高30. 2%和40 。 6%mAP , 回 收 。 如 表 2 所 示 , D2F2WODcasd 在SyntheticPizza10上的性能优于DT+PL和PADOD10的realpizza2%和17。0%mAP。D2F2WOD跨不同的数据集生成.如表2所示,D2F2WOD有效地处理不同的域移位,充分利用各种S2.我 们 观 察 到 , 与 最 先 进 的 SD 和 CD 基 线 相 比 ,D2F2WOD的两个阶段都能持续提高检测和定位性能通过利用我们的领域适应阶段,我们相信我们对WSOD模型的训练在三个重要方面优于现有方法。首先,我们的预训练特征是特定于目标域的,因为从源到中间到目标域的渐进适应其次,我们的预训练特征是检测感知的,而现有WSOD方法中使用的ImageNet特征是用单个整体图像分类损失进行预训练的,这鼓励了平移和尺度不变特征。相比之下,我们的FSOD模型的训练涉及分类和回归损失,提供对对象位置和尺度敏感的特征,因此对检测很有用。第三,我们的对象亲是特定于目标域的,并且是高质量的,因为它们是直接在目标域上逐步学习的2资源限制限制了我们对最佳选择SOTA的关注,广泛的比较委托给Clipart1K→ VOC 2007评估。从前景和背景。现有的WSOD方法使用手工制作的选择性搜索对象建议,这导致不准确的建议,特别是对于具有不同于VOC 2007的属性的域,例如Pizza。4.2. 消融研究我们首先进行了消融研究,以研究我们在基于Faster R-CNN FSOD主干的SyntheticPizza 10RealPizza 10上的热身阶段的有效性。渐进适应的有效性 在我们的热身阶段,每个适应阶段(从FSOD-2到FSOD-5)在mAP方面分别提供与前一步骤相比的5.4%、0.6%、4.7%、2.9%的改善。因此,我们在热身阶段的每一个适应步骤都是有帮助的。适应秩序的影响 何时使用复制粘贴扩充是很重要的。 从相同的基线模型FSOD-1开始,如果我们在中间域1和增强中间域2上依次微调FSOD-1模型,则从FSOD-1到FSOD-3的检测性能将提高6.0%mAP。然而,如果我们在增强的中间域2和中间域1上依次微调FSOD-1模型,则从FSOD-1到FSOD-3,检测性能将仅提高1.6% mAP。同样地,从相同的FSOD-3模型开始,如果我们在第一轮伪标记域上依次微调FSOD-3模型,第二轮增强伪标记域,检测性能从FSOD-3提高到FSOD-5,提高了7.6%mAP然而,如果我们在增强的第一轮伪标记域上依次和第二轮伪标记do-主要是从FSOD-3到FSOD-5,检测性能将提高7.0%FSOD中预热阶段的普遍性我们在其他FSOD模型上研究了我们的预热阶段,例如SyntheticPizza10 RealPizza10数据集上的稀疏DETR。与更快的R-CNN主干相比,我们的D2F2 WOD预热和基于稀疏DETR的D2F2 WODcasd在mAP方面分别提高了0.6%和1.1%,类型CD我们SD我们方法上限更快的R-CNN [20][14]第十四话帕多克[11]D2F2WOD预热OICR [29]CASD [13]D2 F2WOD盒地图比萨→RPizza-4.314.98.117.94.712.925.1水→VocS78.042.149.4-52.1-65.273.2Comi→ VocS78.033.546.5-49.6-65.270.830→→罗勒橄榄辣香肠我们的与CASD船我们的与CASD马我们的与CASD鸟表3:Cli上 D2F2 WOD主要配置的消融研究-第1 K部分→VOC 2007和SyntheticPizza 10→ RealPizza 10。地图类型方法剪辑→语音比萨→RPizzaSDOICR41.24.7D2 F2WODoicr+Fe44.78.5+OP47.212.6+FE+OP52.713.8SDCASD57.012.9D2F2WOD盒+Fe60.014.8+OP60.124.0+FE+OP64.825.1分别为。这些结果强调了我们的框架在不同FSOD模型中的通用性。 我们还进行了消融研究,以调查我们的架构组件在主要FSOD阶段的有效性,包括特定领域的预训练深度FE和弱监督OP生成器,以及我们的框架在两个WSOD上的泛化能力:OICR和CASD。我们在Clipart1K VOC 2007和SyntheticPizza10 RealPizza10上进行实验。我们发现:(1)我们的特定于dom的预训练的深度FE和弱监督的OP生成器对于D2F2 WOD都是必要的;并且(2)D2F2 WOD可以推广到不同的WSOD方法。主 舞 台 从 表 3 中 , 我 们 观 察 到 , 与 单 域 基 线 网 络(OICR和CASD)相比,用特定于域的预训练深度FE替换在ImageNet上预训练的VGG16主干可以提高VOC2007上的性能(mAP从41. 2%至44。7%,从57。0%至60。0%,分别为-在RealPizza 10上,实现了3。8%和1. OICR和CASD的回收率为9%。从表1中,我们观察到我们的对象pro-proposal生成器也优于WeakRPN [30],包括两阶段区域建议网络。这些结果证实了特定领域预训练深度特征的必要性。表3还显示了弱监督OP生成器的影响;与CASD相比,它在VOC2007和RealPizza 10数据集上分别实现了3.1%和11.1%的一致改进。表3中的FE+OP结果表明,这两种关键成分均有效且相互补充图5:在RealPizza10和VOC 2007数据集的测试集中,我们的D 2 F2WOD casd与CASD的成功案例示例。我们只显示得分超过0.3的实例以保持可见性。D2F2WOD跨WSOD的通用性。 我们研究了我们的框架作为不同WSOD方法(这里是OICR和CASD)的函数的影响。结果以Ta-表3强调了D2F2WOD在WSOD中的通用性。在OICR和CASD两个数据集上都观察到了性能增益。D2F2WOD的效果对于RealPizza 10上的CASD特别重要,因为我们的对象建议是特定于目标域的并且是高质量的。相比之下,现有的WSOD方法使用手工制作的选择性搜索来生成对象建议,导致不准确的建议,特别是对于与VOC 2007非常不同的域,例如Pizza。识别目标检测错误。我们使用TIDE [3]来理解我们模型中的分类、定位、Cls和Loc、重复检测、背景和遗漏的GT错误。如图4所示,D2F2WOD有效地减少了定位误差。请看SEC。5补充材料更多细节。4.3. 定性分析图 5 显 示 了 我 们 的 D2F2WOD 和 CASD 分 别 在RealPizza10和VOC 2007数据集上产生的检测结果。在那里,可以观察到D2F2WOD不仅可以定位大多数对象,而且还可以生成更准确的边界框。具体来说,在RealPizza 10图像中,可以理解我们的方法提供的边界框(左)与感兴趣的对象紧密对齐VOC2007也有类似的观察结果,CASD经常无法定位对象或产生虚假的边界框。5. 讨论和结论我们提出了D2F2WOD,一个简单而有效的对象生成策略,可以应用于不同的WSOD方法。关键的见解是将WSOD转换为域适应问题,并通过将FSOD从非摄影源到真实世界目标域的渐进式前景-背景聚焦转移学习来实证评估表明,D2F2WOD在多个基准测试中的性能明显优于现有技术.限制. 我们的框架需要CycleGAN额外的训练时间,这会带来最多的额外计算开销。虽然D2F2WOD提供了一种 很 有 前 途 的 方 法 来 解 决 存 在 较 大 领 域 差 距 的WSOD,但它目前缺乏联合学习和改进管道中所有阶段的能力。一个端到端的大间隙WSOD可以通过创建越来越多的歧视性的对象特征,在目标域上的检测性能的额外的改进然而,该设置的一个挑战将是控制由PL步骤引起的可能误差的反向传播。谢谢。这项工作得到了NSF IIS Grant #1955404的部分支持。31引用[1] Aditya Arun,CV Jawahar和M Pawan Kumar。基于相异系数的弱监督目标检测.在CVPR,2019年。二六七[2] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在CVPR,2016年。一、二、六、七[3] 丹尼尔·博亚,肖恩·福利,詹姆斯·海斯,和朱迪·霍夫曼。Tide:用于识别对象检测错误的通用工具箱。在ECCV,2020年。8[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV,2020年。一、二、三、四[5] Yuhua Chen , Wen Li , Christos Sakaridis , DengxinDai,and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在CVPR,2018年。3[6] 托马斯·G·迪特里希、理查德·H·莱思罗普和托马的洛扎诺·佩雷斯。用平行轴矩形求解多实例问题人工智能,89(1-2):31- 71,1997. 1[7] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉对象类(voc)的挑战。IJCV,88(2):303-338,2010. 6[8] 高岩、刘博笑、南郭、叶小春、方晚、游海航、樊东瑞。C-midn:具有分割指导的耦合多实例检测网络,用于弱监督对象检测。在ICCV,2019年。一、二、六、七[9] Golnaz Ghiasi,Yin Cui,Aravind Srinivas,Rui Qian,Tsung- Yi Lin,Ekin D Cubuk,Quoc V Le
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功