没有合适的资源?快使用搜索试试~ 我知道了~
基于矢量分解的域不变目标检测
9342基于矢量分解的域不变目标检测吴阿明1,2 *刘锐1,2 *韩亚红1,2,3†朱林超4杨毅41天津大学智能与计算学院2天津大学天津市机器学习重点实验室3深圳市4悉尼科技大学AAII ReLER实验室{tjwam,ruiliu,yahong} @ tju.edu.cn,{Linchao.Zhu,yi.yang} @ uts.edu.au摘要为了提高检测器的泛化能力,针对域自适应目标检测(DAOD),近年来的研究主要集中在源域和单目标域之间的特征级分布对齐,但这可能忽略了对齐特征中存在的域特定信息的影响。对于DAOD,重要的是提取域不变的对象表示。为此,在这篇文章中,我们试图解开域不变表示从特定领域的表示。提出了一种基于矢量分解的解纠缠方法。首先,设计一个提取器来从输入中分离其次,引入特定于域的表示作为输入和域不变表示之间的差异。通过差分运算,扩大了特定领域表示和领域不变表示之间的距离,使得领域不变表示包含更多的领域无关信息。在实验中,我们分别对单目标和复合目标的情况进行了评估.对于单目标的情况下,四个域移位场景的实验结果表明,我们的方法获得了显着的性能增益比基线方法。此外,对于化合物-目标情况(即,目标是没有域标签的两个不同域的复合物),我们的方法比基线方法好大约4%,这证明了我们的方法的有效性。1. 介绍虽然目标检测已经取得了许多进展[27,9,42,19,26,21],但当训练和测试数据来自不同的领域,这些方法通常会受到*平等捐款†通讯作者图1.为了进一步验证所提出的方法,我们构建了两个新的自适应场景,不同的天气条件。因为泛化能力差。为此,已经提出了域自适应对象检测(DAOD)[4]的任务,其中在训练/源域和测试/目标域之间总是存在域间隙,例如,不同的天气条件(如图所示)。①的人。为了解决DAOD,许多方法[31,18,35,46]探索通过对齐源和单个目标域的特征级分布来减少域间隙,这可能忽略对齐特征中存在的域特定信息的影响对于DAOD,重要的是获得域不变表示(DIR),这是减轻域移位影响的桥梁,可以帮助提取域不变的对象特征。在本文中,我们专注于提取DIR。我们探索采用解纠缠表示学习(DRL)[1,24]来将DIR与特定领域表示(DSR)分离。作为一种特征分解方法,DRL的目的是揭示引起当前观察结果的一组独立因素[6]。这些因素应该包含观察中的所有信息。受此启发,我们探索利用DRL来求解DAOD,并提出了一种新的解纠缠方法来提取9343→→(a)TraditionalDisentanglement(b) 矢量分解解纠缠(a) (b)三个组成部分图2.向量分解的两个例子。(a)是两个组件的 情 况 (即,−O−→D=−O→A+−O−→B ) 。 ( b ) 是 三 个 组 分 的 情 况 ( 即 ,−O−→D=−O→A+−O−→B+−O−→C)。这里,所有这些分量保持正交。DIR.特别地,我们将DRL转换为向量分解的过程。向量分解是将一个向量分解为两个或多个向量的一般过程,这些向量加起来等于原始向量,这在精神上类似于解纠缠的过程[13]。因此,我们考虑采用矢量分解的思想进行解纠缠。具体地,给定由主干提取的特征图接下来,我们将特征图和DIR之间的差异作为DSR。同时,领域分类器被用来帮助DSR包含更多的领域特定的信息。此外,解纠缠的一个关键步骤是保持DIR和DSR独立。在本文中,我们通过约束的DIR和DSR之间的向量正交化最后,一个区域建议网络(RPN)是用来从DIR中提取对象的建议此外,由于所提出的为此,基于DRL的目的,我们将DRL分为两个顺序的训练步骤,即,特征分解步骤,旨在学习解纠缠;特征正交化步骤,旨在促进DIR和DSR的独立性。两步优化可以促进我们的模型学习的特征分解,这是有益的提取DIR的DAOD。在实验中,我们首先评估我们的方法上的单目标的情况下。接下来,我们在复合目标情况下评估我们的方法[23],即,靶是没有结构域标记的两个不同结构域的化合物显著的性能增益超过基线显示了我们的解纠 缠 方 法 的 有 效 性 。 我 们 的 代 码 将 在https://github.com/AmingWu/VDD-DAOD 上 提供。这些贡献摘要如下:(1) 与传统的解纠缠算法不同,本文提出了一种矢量分解的解纠缠算法,该算法不依赖于重构操作来保证分解后的分量包含输入的全部信息。(2) 基于矢量分解的解纠缠,我们图3.传统方法与我们的方法的比较矢量分解法给定输入I,传统的解缠通常采用两个提取器F和G来解缠V1和V2。并且V1和V2应该保持独立。为了使V1和V2包含I的全部信息,通常采用重构操作。这里,红色箭头指示重建操作。对于矢量分解的解缠结,它仅使用提取器来分解V1。I和V1之间的差取为V2。同时,V1和V2保持正交。此外,矢量分解解纠缠不需要利用重构操作来提升V1和V2包含I的所有信息设计一个新的框架来解决DAOD问题。同时,我们设计了一个两步训练策略来优化我们的模型。(3) 在实验中,我们的方法分别评估的单一和复合目标的情况下。我们建立了两个新的自适应场景(见图)。1),即,白天晴-黄昏雨和白天晴-夜晚雨,进一步验证我们的方法。显著的性能提升在基线上显示了我们的方法的有效性2. 相关工作域自适应目标检测。大多数现有方法[39,3,40,32,44,43]采用整体表示来对齐源域和目标域的特征级或像素级分布。特别地,Chen et al.[4]提出对齐全局特征分布以减少域间隙。Saito等[29]提出了对齐局部和全局特征分布以减轻域偏移影响。此外,工作[16]利用编码器-解码器网络将源域的风格转换为目标域的风格,这可以被认为是对齐源域和目标域的像素级分布虽然这些方法已被证明是有效的,但它们忽略了对齐特征中存在的特定领域信息的影响,这可能会影响自适应性能。为此,我们专注于提取域不变表示DAOD。解纠缠表示学习。作为一种有效的特征分解机制,最近,DRL [22,2]已被证明在许多任务中是有效图像翻译[17]和少量学习[28]。特别地,工作[17]使用DRL分解DSR以进行多样的图像风格翻译。Peng等人[25]利用DRL将三个不同因素分解成域ܨሺܫሻܸ◌ଵ我独立ܩሺܫሻܸ◌ଶܨሺܫሻܸ◌ଵ我正交ܫܸ◌ଵଶ9344⊥LLL图4.矢量分解解纠缠的说明:域自适应Faster R-CNN系列的插件组件[29,39]。 我们首先设计了一个提取器EDIR来从Fb中分解DIR(Fdi)。然后,基于Fdi,RPN被用来提取领域不变的建议。自适应分类然而,由于这项工作只考虑整体图像级表示的分类,它不能直接应用于对象检测。在本文中,我们考虑DRL从向量分解的角度。特别地,我们的方法仅要求设计一个提取器来分解DIR。DSR可以从输入和DIR之间的差获得单目标和复合目标的实验结果表明,我们的方法的有效性。3. 矢量分解解纠缠如引言部分所讨论的,向量分解的目的是将一个向量分解为两个或更多个分量,这些分量加起来就是原始向量。一般而言,每个向量可以被视为两个或更多个其他向量的总和。图2示出了两个分解的示例,即,−O−→D=−O→A+−O−→B和−O−→D=−O→A+−O−→B+−O−→C。显然,向量分解在精神上与解纠缠相似。分解思想也适用于高维空间。因此,我们考虑采用向量分解,以获得解开表示。具体而言,对于两个组件的情况(图。3(b)),给出一个输入表示I,我们设计一个获得最后一个分量可以使所有分量包含输入的所有信息,这不依赖于重建操作。在下文中,我们将介绍用于域自适应对象检测的矢量分解解缠的细节。4. 领域不变目标检测对于DAOD,我们可以访问带有标签ys和边界框bs的图像xs,它们来自源域。我们还可以访问来自目标域的图像xt。目标是获得目标域的结果。4.1. 解开纠缠的网络图的右边部分。图4示出了矢量分解解纠缠的细节,其被插入到域自适应Faster R-CNN系列中[29,39,27]。具体地,给定图像xs和xt,我们首先获得特征图Fb,其是特征提取器E的输出。接下来,我们定义提取器EDIR以从Fb分解域不变特征Fdi。并且将Fb与Fdi之间的差作为领域特定特征Fds。Fdi=EDI R(Fb),Fds=Fb−Fdi。(二)提取器F从I分解第一分量V1。然后,我们将I和V1之间的差作为秒-给你E和DIR 指示DIR提取器。 Fdi的大小第二组分V2。在这里,我们将该过程命名为提取V2作为差分分解。V1=F(I),V2=I−V1,V1V2,(1)哪里表示两个分量正交。与传统的解缠相比(图3(a)),向量分解仅将原始输入与分解分量之间的差作为最后分量,这减少了参数和计算成本。此外,差分分解Fds设置为与Fb相同。接下来,在Fdi上执行区域预测网络(RPN)以提取一组域不变建议。最后,对于来自源域的图像,检测损失定义如下:Ldet=Lloc+Lcls+Lrpn,(3)其中loc和cls分别指示边界框回归损失和分类损失。rpn是RPN的损失,以区分前景与背景并细化边界框锚。93452∈|| · |||·|Ⓢ∈∈12srcTGTsrcLLTGTL∈L∈LL −图5.我们的两步优化过程的图示。在第一训练步骤(即,特征分解),整个对象检测器(所有蓝色块)在源图像和目标图像上被联合训练。在第二训练步骤(即,特征正交化)中,黄色块中的参数是固定的。我们只更新蓝色块中的参数。4.2. 两步优化训练我们的方法的目标(见Eq. (1))是分解一个最终损失如下所示:M=(||P迪||2)(||P ds||2)、2 2正交分量的集合。为了增强解开的nc能力,我们将向量分解分解成两个连续的L=1Σ|ΣM[i,j]|、(五)步具体来说,我们首先提升模型,使其能够分解组件。然后,施加约束卢恩i=1j=1以促进这些分量正交。特征分解步骤。该步骤是pro-mote我们的模型分解成两个不同的- ent组件的输入功能具体地说,在Fdi的基础上,我们首先使用RPN来提取对象建议。然后,对于源图像,检测丢失的过程在等式(1)中示出。(三)、接下来,为了促进差异结果Fds包含更多的领域特定信息,我们利用对抗训练机制[8]并设计网络Cds来执行领域分类。并且域标签D对于源域被设置为0,并且对于目标域被设置为1最后,第一步的损失如下所示:1其中PdiRn×c和PdsRn×c是全局平均池。2,和分别表示L2-范数、绝对值运算和逐元素乘积。 M[i,j]表示在位置(i,j)处的M R n × c的值。此外,值得注意的是,我们使用对齐结果而不是整体特征图来计算正交损失,这不仅可以减少计算成本,而且可以促进我们的模型专注于对象区域。通过最小化正交损失,我们可以提升Fdi和Fds是独立的。由于Fds包含更多的域特定信息,因此这种损失可以促使Fdi包含更多的域不变信息。最后,第二步的损失定义如下:Lsrc= Ldet+ Ldom(Cds(Fds)),(4)2Ltgt =Ldom(Cds(Fds)),Lsrc=Ldet+Ldom(Cds(Fds))+L,Ltgt=Ldom(Cds(Fds))+Ldom,(六)其中L1和L1是其中L是基于A的检测损失. 之和源域和目标域。Ldom是域代迪22分类损失,即,dom=[DlogD+(1D)log(1D) ]且D=Cd s(Fd s)。最后,我们计算1和1来优化整个模型。特征正交化步骤。在这一步中,我们首先确定特征提取器E。然后,我们使用提取器E_DIR来获得F_di(等式2)。(2)译注。接下来,对Fdi执行RPN以提取一组对象提议。解纠缠的关键思想[6]是保持解纠缠的组件独立。本文基于向量分解的理论,试图使分解后的分量正交,这就等价于向量分解中的正交分量。挂起操作。因此,我们在DIR和DSR上施加正交损耗具体地,基于对象提议,我们首先获得ROI对齐结果A diF di和A ds的Rn×c×h×wF ds的Rn×c×h×w,其中n、c、h和w分别指示建议数、通道数、高度和宽度。正交过程SRC和TGT用于优化模型的某些组件。 过程显示在右边的部分 图5中。在第二训练步骤之后,分解的模型中的两个子模型将保持独立,从而增强了模型的解纠缠能力。在本文中,我们的模型是以端到端的方式训练的。训练细节在算法1中示出。此外,对于第二训练步骤,未出现在步骤中的参数被认为是固定的。4.3. 关于学习DIR对于我们的方法,我们有两个操作来促进学习域不变特征。首先,差异分解使得Fdi包含更少的域相关信息。其次,正交损耗可以进一步促进Fdi包含更多的域无关信息。我们认为领域无关信息9346联系我们联系我们src +LLL=L+LLL→→→→→→→算法1DAOD的两步优化要求:源图像xs,ys,bs;目标图像xt;特征提取器E; DIR提取器EDIR;域分类器Cds。确保:featuree extractorE,DIRe extractorEDIR.1:不收敛时2:从以下位置取样小批次 xs,ys,bs和 xt;3:特征分解:4: 计算L1=L11TGT(等式。(4));5: 将E、EDIR和Cds更新1;6:将RPN模块、分类器和回归器更新1;7:特征正交化:8:计算L22src2TGT(等式。(6));9: 将E_s,C_ds更新2;10:将分类器和回归器更新2;11:结束while12:retur nE=E;EDIR=EDI R.包含域不变信息。因此,这两个操作促进Fdi包含更多的域不变信息,这减少了域移位影响。5. 实验在实验中,我们分别评估我们的方法对单一和复合目标DAOD。对于单目标情况,我们的方法在四个域移位场景上进行评估,即,城市风景[5]雾城市风景[30],PAS- CAL [7]水彩[14],白天阳光明媚的黄昏下雨,白天阳光明媚的夜晚下雨。对于复合目标情况[23],我们将白天-晴天作为源域,将黄昏-雨天和夜晚-雨天的复合作为目标域,其目标是将模型从标记的源域适应到未标记的复合目标域。所有的实验都是以端到端的方式训练的。数据集。Cityscapes是一个关于城市街景的数据集。它包含2,975张用于训练的图像和500张用于验证的图像FoggyCityscapes基于Cityscapes渲染。它显示了雾天下的街景。我们遵循工作的设置[29],并在验证集上评估我们的方法。对于PASCAL Watercolor,我们使用Pascal VOC数据集作为源域。它包含20类图像和边界框注释。在工作[29]的设置之后,我们采用Pascal VOC2007和2012训练和验证分割进行训练,这产生了大约15K的图像。Watercolor包含2K图像和6个类别。训练集和测试集的划分与工作[29]相同。Berkeley Deep Drive 100 k(BDD-100 k)数据集[41]由100,000个驾驶视频组成。基于这个数据集,我们建立了两个新的自适应场景。如图1,对于白天-晴天和黄昏-雨天,我们选择27,708个白天-晴天图像作为源域,选择3,501个黄昏-雨天图像作为源域表1.从都市景观到雾天景观的适应结果(%)。“prsn”、“mcycle”和“bcycl”分别表示“人”、“摩托车”和“自行车”类别。‘VDD’ indicates vector- decomposed图像作为目标域。对于白天-晴天-夜晚-雨天,我们选择27,708个白天-晴天图像作为源域,选择2,494个夜晚-雨天图像作为目标域。此外,对于复合目标情况,我们选择27,708个白天晴天图像作为源域,5,995个由黄昏-下雨和夜晚-下雨组成的图像作为复合目标域。同时,我们对这些雨天图像进行渲染,以扩大源区域和目标区域之间的距离注释框的数量约为455,000。我们在目标域上评估性能此外,BDD-100 k数据集包括十个类别。在这里,我们选择了七个常用的类别,其中不包括灯,标志和火车的类别。实施详情。我们采用三个卷积层作为域不变特征提取器EDIR。我们分别设计了一个三层完全连接的网络作为领域分类器。最后,在训练过程中,我们首先以0.001的学习率训练我们的模型50K迭代,然后以0.0001的学习率进行30K次以上的迭代。在测试中,我们利用平均精度(mAP)作为评估指标。更多细节见补充材料。5.1. 单目标DAOD关于FoggyCityscapes 表1显示了FoggyCityscapes的结果。在这里,VGG16 [33]被视为骨干。通过将我们的解纠缠插入域自适应Faster R-CNN方法,可以显着提高性能。特别地,对于SW [29]和ICCR [39],我们的方法分别将性能提高了3.6%和2.6%。这表明分解域不变特征有助于减轻域移位对对象检测的影响。图1的第一行图6示出了来自方法PRSN骑手车卡车 总线 火车麦克伊克勒bcycl地图源仅24.731.933.111.026.49.218.027.922.8DAF [4]25.031.040.522.135.320.220.027.127.6[14]25.439.342.424.940.423.125.930.431.5SC-DA [45]33.538.048.526.539.023.328.033.633.8DMRL [16]30.840.544.327.238.434.528.432.234.6MLDA [38]33.244.244.828.241.828.730.536.536.0FSDA [36]29.139.742.920.837.424.126.529.931.3MAF [11]28.239.543.923.839.933.329.233.934.0CT [43]32.744.450.121.745.625.430.136.835.9CDN [34]35.845.750.930.142.529.830.836.536.6沙中线[32]31.644.044.830.441.840.733.636.237.9ATF [12]34.647.050.023.743.338.733.438.838.7MCAR [44]32.042.143.931.344.143.437.436.638.8简体中文[CN]33.247.547.931.647.440.932.337.139.8中文(简体)29.942.343.524.536.232.630.035.334.3SW-VDD(我们的)32.142.849.429.049.033.929.937.137.9ICCR [39]32.943.849.227.245.136.430.334.637.49347→→(a) 原始图像(b)GT(c)SW基线(d)一步训练(e)两步训练图6.对FoggyCityscapes和Watercolor场景的检测结果。'GT'指示地面实况结果。“一步训练”表示我们整合所有损失函数并使用一个优化步骤来训练SW-VDD。我们可以看到,使用两个训练步骤可以准确地定位和识别两个图像中存在的对象,例如,卡车、汽车、人、自行车和鸟。方法总线 自行车车电机人骑手卡车地图源仅38.621.551.712.019.713.640.928.3CT [43]35.520.350.97.921.616.134.426.7沙中线[32]34.819.250.813.225.918.038.128.6简体中文[CN]35.921.151.113.724.016.639.028.8DAF [4]43.627.552.316.128.521.744.833.5中文(简体)40.022.851.415.426.320.344.231.5SW-VDD46.131.154.425.331.022.447.636.9ICCR [39]43.828.552.422.729.221.945.634.9ICCR-VDD47.933.255.126.130.523.848.137.8表2.从Pascal到Watercolor的适应结果(%)FoggyCityscapes数据集这里,我们以SW [29]为例。我们可以看到,与SW相比,我们的方法定位和识别对象存在于雾图像准确。这进一步表明我们的方法是有效的。水彩画的结果表2显示了水彩画的结果。在这里,我们使用ResNet101 [10]作为主干。 我们可以看到将矢量分解的解纠缠插入SW [29]中显著提高了其性能。此外,MCAR [44]利用多标签对象识别作为双重辅助任务来改善比对。我们可以看到,我们的方法比MCAR高出0.6%。这些都证明了我们的方法是有效的。我们的方法可以减轻水彩风格的影响。图的第二行6显示了一个水彩画的例子。可以看出,与SW相比,我们的方法可以准确地定位和识别对象。这些进一步证明了采用矢量分解的解缠结可以确实减轻域移位影响。关于Dusk-rainy 表3示出了白天-晴天、黄昏-雨天的结果。ResNet101 [10]被用作主干。我们可以看到,对于 该 场 景 , 最 先 进 的 方 法 的 适 应 性 能 , 例 如 ,[33][34][35][36][37][38][39]此外,我们还可以看到,将解纠缠插入SW [29]和ICCR [39]显着提高了它们的性能。性能分别提高了5.4%和2.9%。另一个恶魔-表3.从白天晴天到黄昏雨天的适应结果(%)。在这里,我们直接运行所比较的方法的发布代码来获得结果。衬底矢量分解去纠缠能够去纠缠域不变特征,这有助于减轻域移位对目标检测的影响。图1的第一行图7示出了三个黄昏-下雨场景的检测示例。我们可以看到这是一个具有挑战性的改编场景。图像非常模糊。我们的方法定位和识别这些图像中存在的对象准确,这进一步证明了矢量分解解纠缠的有效性。夜雨的结果。表4显示了Daytime-sunny的结果夜雨ResNet101 [10]被用作主干。我们可以看到,对于该场景,许多自适应方法[3,32,43]的性能较弱。例如,HTCN和CT的mAP值低于20%。将解缠结插入SW[29]和ICCR [39]中显著提高了它们的性能。性能提高了5.7%和3.1%。特别是,对于每个对象类别,我们的方法优于SW [29]和ICCR [39]。这进一步证明了矢量分解解纠缠的有效性。图的第二行。图7示出了夜雨场景的三个检测示例。我们可以看到,对于这个场景,图像的亮度非常低。同时,雨的意象也非常模糊。我们的方法定位和识别对象存在的夜雨图像准确。这表明提取域不变表示有助于减轻域移位影响。我们的方法方法自行车鸟车猫狗人地图源仅68.8 46.8 37.2 32.7 21.360.744.6[29]第二十九话68.6 48.3 47.2 26.5 21.760.545.5DAF [4]75.2 40.6 48.0 31.5 20.660.046.0WST-BSR [5]75.6 45.8 49.3 34.1 30.364.149.9MAF [11]73.4 55.7 46.4 36.8 28.960.850.3华盛顿特区[20]76.7 53.2 45.3 41.6 35.570.053.7ATF [12]78.8 59.9 47.9 41.0 34.866.954.9沙中线[32]82.2 55.1 51.8 39.6 38.464.055.2MCAR [44]87.9 52.1 51.8 41.6 33.868.856.0中文(简体)82.3 55.9 46.5 32.7 35.566.753.39348→→→→图7.第一行和第二行分别显示了“白天-晴天-黄昏-雨天”和“白天-晴天-夜晚-雨天”的检测结果我们可以看到我们的方法检测到这些图像中存在的对象,这表明我们的方法的有效性表4.结果(%)白天晴→夜间雨。可以有效地提取域不变表示5.2. 消融分析基于单目标情况,我们将我们的方法插入SW [29]进行消融分析。表5示出了结果。我们可以看到,对于我们的模型,采用两个训练步骤是有效的。特别是两步训练法表5.我们的方法的消融分析。这里,我们使用mAP作为度量 。‘One-step’ and ‘Two-step’ indicate we use one train- ing'0L'表示正交损耗。‘‘54.6%,比我们的方法弱。此外,由于我们的方法不包括重建阶段,我们的方法具有更少的参数和计算成本。这些都表明我们的方法的性能同时,这也表明我们的矢量分解的二戊烷-比一步训练的效果好3.4%和2.1%。这表明我们的优化机制促进了模型提取领域不变的表示,这对DAOD是有益的。在图6(d)中,我们示出了基于一个训练步骤的两个示例。我们可以看到使用两个训练步骤可以准确地检测出两幅图像中存在的对象。此外,我们还可以看到,正交损耗可以显着提高性能。这说明正交损失确实有助于促进DIR和DSR的独立,从而提高解缠能力。与传统解缠相比。为了进一步证明我们的方法的有效性,我们用传统的解缠方法代替了我们的方法[25,37]。其他组件保持不变。我们使用相同的训练步骤来优化模型。基于Fog-gyCityscapes和Watercolor数据集,传统解缠算法的自适应性能分别为34.1%和34.1%。Glement算法能够有效地提取出区域不变特征,提高了检测性能.可视化分析在图8中,我们比较了通过我们的解缠结方法和传统解缠结提取的DIR。我们发现,与传统的解纠缠相比,我们的矢量分解解纠缠提取的DIR包含更少的特定领域的信息。特别地,对于这些示例,我们可以看到,通过传统解纠缠提取的DIR包含更多的域特定信息,例如,TD-DIR(图8(f)),这导致不正确的检测。这进一步证明了我们的矢量分解解纠缠的有效性。5.3. 复合靶DAOD对于复合目标DAOD,我们使用与单目标情况相同的优化方法ResNet101方法一步SW-VDDCSW-VDDCSW-VDD两步OL C→ F V→ W33.2% 52.7%34.5% 54.5%C36.5%54.9%SW-VDDCC37.9% 56.6%方法总线自行车车电机人骑手卡车地图源仅23.413.331.81.510.210.923.216.3CT [43]22.49.727.40.69.39.313.413.1沙中线[32]20.09.233.20.311.910.626.415.9简体中文[CN]22.89.430.70.711.94.822.014.6DAF [4]23.812.037.70.214.94.029.017.4中文(简体)24.710.033.70.613.510.429.117.4SW-VDD31.715.338.011.118.216.730.823.1ICCR [39]32.512.136.21.316.117.029.320.69349(a) GT(b)TD-结果(c)VDD-结果(d)TD-基础(e)VDD-基础(f)TD-DIR(g)VDD-DIR图8.我们的矢量分解解纠缠(VDD)和传统的解纠缠(TD)提取的特征图的比较。这里,“TD-Results”指示TD的检测结果。‘TD-Base’和‘VDD-Base’分别指示用于解缠结的特征图。 这些例子来自对于每个特征图,选择与最大值对应的通道用于可视化。方法总线 自行车车电机人骑手卡车地图源仅35.119.344.08.817.512.837.725.0DAF [4]35.918.344.210.122.017.939.926.9CT [43]31.315.441.78.419.115.332.323.4沙中线[32]32.719.744.910.522.918.538.326.8中文(简体)36.920.745.16.623.116.941.527.3方法总线 自行车车电机人骑手卡车地图源仅23.413.331.81.510.210.923.216.3DAF [4]24.211.032.44.612.711.927.717.8CT [43]19.59.729.01.19.99.117.613.7沙中线[32]22.912.835.80.914.815.030.218.9中文(简体)29.610.437.90.715.011.131.619.5SW-VDD41.826.848.617.927.022.244.132.6SW-VDD35.717.442.27.918.116.033.924.5表6.化合物靶结构域的结果(%)方法总线 自行车车电机人骑手卡车地图源仅38.621.551.712.019.713.640.928.3DAF [4]39.521.051.612.624.820.542.730.4CT [43]34.917.649.811.621.917.935.627.0沙中线[32]35.722.350.714.825.319.940.129.8中文(简体)39.224.649.69.225.519.343.730.1ICCR [39]42.021.951.516.527.216.844.131.4SW-VDD43.730.352.722.329.724.846.435.7表7.结果(%)在黄昏下雨的场景。在这里,训练好的模型直接在黄昏下雨的场景中进行评估。是骨干。表6、7和8显示了比较结果。在这里,在复合目标DAOD上训练的模型分别在复合目标、黄昏下雨和夜间下雨域上进行评估。与SW [29]相比,将我们的解缠结插入SW将其性能提高了5.3%、5.6%和5.0%。同时,我们可以看到,每个类别的性能优于所有比较的方法显着。这表明对于单目标和复合目标DAOD,提取DIR是一种有效的方法。表8.结果(%)为夜雨场景。在这里,训练好的模型直接在夜雨场景上进行评估。同时,性能增益进一步表明我们的方法能够有效地提取DIR。6. 结论在 本 文 中 , 我 们 提 出 了 矢 量 分 解 的 解 缠 结 的DAOD。我们只定义了一个提取器来提取域不变表示。同时,我们不使用重构来确保解纠缠的分量包含输入中的所有信息。在实验中,我们的方法分别评估单目标和复合目标的情况下。在基线上的性能增益表明我们的方法的有效性。确认这项工作得到了国家自然科学基金的支持(基金61876130,61932009)。9350引用[1] Yoshua Bengio Aaron Courville和Pascal Vincent表示学习:回顾与新的视角 。IEEE Transactions on PatternAnalysis and Machine Intelligence,35(8):1798[2] Ruichu Cai , Zijian Li , Pengfei Wei , Jie Qiao , KunZhang,and Zhifeng Hao.学习解缠语义表示域适应。在第二十八届国际人工智能联合会议的会议记录中,第2060-2066页[3] Chaoqi Chen , Zebiao Zheng , Xinghao Ding , YueHuang,and Qi Dou.协调可转移性和可辨别性以适应对象检测器。在IEEE/CVF计算机视觉和模式识别会议论文集,第8869-8878页[4] Yuhua Chen , Wen Li , Christos Sakaridis , DengxinDai,and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在IEEE计算机视觉和模式识别会议论文集,第3339-3348页[5] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition,pages 3213[6] Kien Do和Truyen Tran。理论和评估指标,学习解开表示。arXiv预印本arXiv:1908.09961,2019。[7] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 International Journal ofComputer Vision,88(2):303[8] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无 监 督域 自 适 应 。arXiv 预 印 本arXiv : 1409.7495 ,2014。[9] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[11] 何振伟和张磊。 用于无限制目标检测的多对抗快速rcnn。arXiv预印本arXiv:1907.10343,2019。[12] 何振伟和张磊。域自适应对象检测通过非对称三路faster-rcnn。欧洲计算机视觉会议,2020年。[13] Irina Higgins 、 David Amos 、 David Pfau 、 SebastienRacaniere、Loic Matthey、Danilo Rezende和AlexanderLerchner。走向一个解缠表象的定义。arXiv预印本arXiv:1812.02230,2018。[14] 井上直人,古田良介,山崎俊彦,相泽贵治.跨域弱监督对象检测通过渐进域适应。进行中-IEEE计算机视觉和模式识别会议,第5001-5009页,2018年。[15] Seunghyeon Kim,Jaehoon Choi,Taekyung Kim,andChang- ick Kim.用于无监督域自适应一阶段对象检测的自训练和对抗背景正则化。在IEEE/CVF计算机视觉国际会议论文集,第6092-6101页[16] Taekyung Kim、Minki Jeong、Seunhyeon Kim、SeokeonChoi和Changick Kim。多样化和匹配:一种用于目标检测的领域自适应表示学习范例。在IEEE计算机视觉和模式识别集,第12456[17] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解纠缠的表示进行不同的图像到图像的翻译。在欧洲计算机视觉会议(ECCV)的会议记录中,第35-51页[18] 李爽,刘驰,谢斌辉,苏利民,丁正明,高煌.联合对抗域自适应。在第27届ACM国际多媒体会议论文集,第729-737页[19] Xin Li,Fan Yang,Hong Cheng,Junyu Chen,YuxiaoGuo,and Leiting Chen.用于显著目标检测的多尺度级联网络。第25届ACM国际多媒体会议论文集,第439447页,2017年。[20] 凤琉,张晓松,方晚,季向阳,叶麒翔。用于域自适应对 象 检 测 的 域 对 比 度 。 arXiv 预 印 本 arXiv :2006.14863,2020。[21] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy , Scott Reed , Cheng-Yang Fu , andAlexander C Berg. Ssd:单发多盒探测器。在欧洲计算机视觉会议上,第21-37页。施普林格,2016年。[22] Yen-Cheng Liu,Yu-Ying Yeh,Tzu-Chien Fu,Sheng-De Wang,Wei-Chen Chiu,and Yu-Chiang Fran
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 多传感器数据融合手册:国外原版技术指南
- MyEclipse快捷键大全,提升编程效率
- 从零开始的编程学习:Linux汇编语言入门
- EJB3.0实例教程:从入门到精通
- 深入理解jQuery源码:解析与分析
- MMC-1电机控制ASSP芯片用户手册
- HS1101相对湿度传感器技术规格与应用
- Shell基础入门:权限管理与常用命令详解
- 2003年全国大学生电子设计竞赛:电压控制LC振荡器与宽带放大器
- Android手机用户代理(User Agent)详解与示例
- Java代码规范:提升软件质量和团队协作的关键
- 浙江电信移动业务接入与ISAG接口实战指南
- 电子密码锁设计:安全便捷的新型锁具
- NavTech SDAL格式规范1.7版:车辆导航数据标准
- Surfer8中文入门手册:绘制等高线与克服语言障碍
- 排序算法全解析:冒泡、选择、插入、Shell、快速排序
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功