没有合适的资源?快使用搜索试试~ 我知道了~
9082转转不S在结构域-S和结构域-T中。YY′代表核心TTSTSS→TS TT →STSTSTS→TSSs(GT标签)“TY隔离区模型伊什不T′���T→s(伪标签)语义切分领域自适应的双路径学习怡庭城1方云围 *2 包健民2陈冬2方文2张文强*1 1复旦大学计算机学院2微软亚洲研究院{ytcheng18,wqzhang}@fudan.edu.cn {fawe,jianbao,doch,fangwen}@microsoft.com摘要用于语义分割的域适应使得能够减轻对大规模逐像素注释的需要最近,自监督学习(SSL)与图像到图像的翻译相结合,在自适应分割显示出巨大的 最常见的做法是执行SSL以及图像转换,以很好地对齐单个域(源或目标)。然而,在这种单域范例中,不可避免的图像翻译引起的视觉不一致性可能会影响后续的学习。在本文中,基于在源和目标域中执行的域自适应框架在图像翻译和SSL方面几乎是互补的观察,我们提出了一种新的双路径学习(DPL)框架来减轻视觉不一致。具体地,DPL包含两个互补的和交互式的单域自适应管道,分别在源和目标域对齐。DPL的推理非常简单,只需要在目标域中使用一个分割模型。提出了双路径图像平移和双路径自适应分割等新技术,使两条路径以交互的方式相互促进。在GTA5 Cityscapes和SYNTHIA Cityscapes场景上的实验证明了我们的DPL模型优于最先进的方法。代码和模型可在以下网址获得:https://github.com/royee182/DPL网站。1. 介绍在过去的几十年里,取得了重大进展[45,4,38,35,43,31,20]已经使用深度卷积神经网络实现了语义分割。经验观察[25,39]表明,领先的性能部分归因于大量的训练数据,因此在监督学习中需要密集的像素级注释,这是费力且耗时的。为了避免这项艰苦的任务,研究人员求助于训练*通讯作者S���s→TS′伊什(GT隔离区模型T不“(Pse udo Label)不(a) 结构域-T中的适应的图示。(b) 结构域-S中的适应图示。图1:单域自适应管道的图示。是具有地面实况标记Y源图像得双曲正弦值. 是目标图像。 G表示域中的图像转换 域- 反之亦然。′=G()和′=G()是相应域中的平移图像。M和M是语义分割模型ˆ ˆ的响应伪标签和’。RedT破折号reT角形表示由图像翻译引起的视觉不一致性干扰了监督部分或SSL部分中的域自适应学习。在合成但照片般逼真的大规模数据集上的分割模型,如GTA5 [26]和SYNTHIA [27],具有计算机生成的注释。然而,由于跨域差异,当在现实数据集上测试时,这些良好训练的模型城市景观[6])。因此,非监督域自适应(UDA)方法已被广泛采用以对准富标记源数据(合成图像)与未标记目标数据(真实图像)之间的域移位。无监督域自适应分割中的两种常用范例是基于图像到图像转换的方法[21,9]和基于自监督学习(SSL)的方法[50,49,44,12]。基于图像到图像转换的方法的最常见实践是将合成数据从源域(表示为域-)转换到目标域(表示为域-)[9,2],以减少不同域之间的视觉差距。然后自适应分段-9083不SS不SST不STTSSSTT TSTS在翻译的合成数据上训练分段。然而,仅将图像到图像的翻译应用于领域适应任务,结果总是不令人满意。其中一个主要因素是图像到图像的翻译可能会不自觉地改变图像内容,并在原始图像和翻译后的图像之间引入视觉不一致在具有源图像的未校正的地面真实标签的翻译图像上训练引入了干扰域自适应学习的噪声。SSL和图像到图像转换的组合[16,41,15]已经在UDA领域中被证明是非常有效的。SSL利用经过良好训练的分割模型生成一组对未标记目标数据具有高置信度的伪标签,然后自适应分割训练可以分为两个并行部分,即监督部分(对具有真实标签的源数据进行训练)和SSL部分(对具有伪标签的目标数据进行训练)。在该范例中,最普遍的实践是进行适应以很好地比对单个结构域,即,源域(命名域-适应)[16,15]或靶结构域(命名为结构域-适应)[41]。然而,域和域自适应都严重依赖于图像到图像转换模型的质量,其中视觉不一致总是不可避免的。对于域适应(如图1所示。(a))视觉不一致性导致翻译后的源图像和未校正的地面真实值标签之间的不对齐,这干扰了监督部分。相比之下,域自适应(如图1所示。(b))避免了源图像上的图像转换,但同时在目标图像和相应的转换图像之间引入了视觉不一致。由未对齐的图像生成的有缺陷的伪标签干扰SSL部分。注意,上述单域自适应流水线在两个训练部分方面几乎是互补的,即,图像平移引起的视觉不一致性干扰了领域自适应中的监督部分和领域自适应中的SSL部分的训练相比之下,域自适应中的SSL部分和域自适应中的监督部分很自然地会提出一个问题:我们是否可以将这两个互补的适配管道组合成一个单一的框架,以充分利用各自的优势并使它们相互促进?基于这一思想,我们提出了双路径学习框架,它考虑了两个管道从相反的域,以减轻不可避免的视觉不一致所提出的图像翻译。我们命名两个路径在我们的框架中使用如路径-(在域中执行适配)和路径-(在域中执行适配)。 )的情况下。 路径-辅助路径-从源数据中学习精确的监督。同时,路径-引导路径-生成高质量的伪标签,这些伪标签对SSL的实现具有重要意义. 值得注意的是,路径-S和路径-T不是两个在我们的框架中,两个路径之间的交互在整个训练过程中进行,这在我们的实验中被证明是有效的整个系统形成闭环学习。一旦训练完成,我们只保留一个在目标域中对齐良好的分割模型用于测试,不需要额外的计算这项工作的主要贡献总结如下:• 我们提出了一种新的双路径学习(DPL)框架的语义分割领域适应。DPL采用两个互补的交互式单域流水线(即路径-和路径-)。)在训练阶段。在测试中,仅使用在靶域中良好对准的单个分割模型所提出的DPL框架在代表性场景上超越了最先进的方法。• 为了使两条路径相互促进,我们提出了两个交互模块,即双路径图像平移和双路径自适应分割。• 我们引入了一种新的预热策略的分割模型,这有助于自适应分割在早期训练阶段。2. 相关工作域适配。领域自适应是计算机视觉中广泛研究的课题。它旨在纠正跨域中的不匹配,并在测试时调整模型以实现更好的泛化[23]。已经提出了用于图像分类[28,3,33,13]和对象检测[5,1在本文中,我们专注于语义分割的无监督域自适应。用于语义分割的领域自适应。语义分割需要大量的像素级标注训练数据,标注起来费时费力。降低标记成本的有希望的解决方案是在合成数据集(例如,GTA5[26]和SYNTHIA [27]),并在实际数据集上进行测试之前使用计算机生成的注释(例如,城市景观[6])。虽然合成图像具有与真实图像相似的外观,但在布局、颜色和光照条件等方面仍存在区域差异,这往往会域自适应对于对齐合成数据集和真实数据集是必要的[37,50,46,14]。基于对抗的方法[10,19,32]在无监督域自适应中被广泛探索,其在图像级[21,9,37]或特征级[32,11]对齐不同的域。图像级自适应将域自适应视为图像合成问题,并且旨在减少视觉差异(例如,照明和对象纹理)9084∗不不SSTST不隔离区模型T不(a) DPL的培训管道(b) 试验.图2:(a)DPL框架的概述输入以橙色矩形突出显示DPL由两个互补的单域路径组成:路径-S(在源域中执行学习)和路径-T(在目标域中执行提出了双路径图像平移和双路径自适应分割方法,使两条在DPIT中,不成对的图像平移模型(GT→S和GS→T)由一般GAN损失和跨域感知损失来监督DPAS采用建议的双路径伪标签生成(DPPLG)模块,以产生目标图像的伪标签,然后在两个源图像(或经翻译的源图像)上训练分割模型(MS和MT)。图像)和具有伪标签的目标图像(或转换的目标图像)。(b)DPL的测试。只有MT用于推理。在跨域中使用未配对的图像到图像转换模型[47,17,22]。然而,简单地将图像平移应用于自适应任务,其性能往往不能令人满意.一个原因是图像到图像的转换可能会不自觉地改变图像内容,并进一步干扰后续的分割训练[16]。近年来,自监督学习(SSL)[7,48]在自适应分割中显示出巨大的潜力[50,49,30,12]。这些方法的关键原理是为目标图像生成一组伪标签作为对地面真实标签的近似,然后利用具有伪标签的目标域数据来更新分割模型。CRST [50]是第一个将自训练引入自适应分割的工作,它还通过控制每个类别中所选伪标签的比例来缓解类别不平衡问题。最近的TPLD [12]提出了一种两阶段伪标签致密化策略,以获得SSL的致密伪标签。两个作品[16,41]探索图像翻译和SSL的结合与我们密切相关。Label-Driven [41]执行目标到源转换,并且使用标签驱动重建模块从相应的预测标签重建源图像和目标图像相比之下,BDL [16]表示双向学习框架,其交替训练目标域中的图像翻译和自适应分割。同时,BDL利用单域感知损失来保持视觉一致性。我们将证明这种设计与第3.2节中提出的双路径图像转换模块相比是次优的。这两项工作证明了图像翻译和SSL的结合可以促进自适应学习。不同于这些单域自适应方法,提出的双路径学习框架集成了两个完整的自适应方法。以交互的方式处理初始单域流水线,以通过以下方式解决视觉不一致问题:1)利用在不同域中对齐的分割模型来为图像翻译提供跨域感知监督;2)组合来自源域和目标域的知识以用于自监督学习。3. 方法给定具有像素级分割标签的源数据集S(合成数据)和没有标签的目标数据集(真实数据)。无监督域自适应(UDA)的目标是,通过仅使用,YS和,分割性能可以与用对应的真实标签YT训练的模型相当。畴隙 和 使得网络很难立即学习可转移的知识。为了解决这个问题,我们提出了一种新的双路径学习框架DPL。如图2所示。(a)DPL由两个互补且交互的路径组成:路径-(在源域中执行自适应学习)和路径-(在目标域中执行自适应学习)。如何让两条路径中的一条为另一条提供积极的反馈是成功的关键 为了实现这一目标,我们提出了两个模块,即双路径图像翻译(DPIT)和双路径自适应分割(DPAS)。 DPIT旨在减少不同域之间的视觉差距,而不引入视觉不一致性。在我们的设计中,DPIT将一般的不成对图像翻译模型与来自两个单域分割模型的双重感知监督相结合。注意,任何不成对的图像转换模型都可以用于DPIT,我们使用Cycle-GAN[47]作为我们的默认模型,因为它很受欢迎,并且它固有地提供双向图像转换。我们用T′=GT→S(T)和S′=GS→T(S)来表示翻译的SS′LT(S′,T)a/0LT(T,()s*g*LT(S′,)s*gs不S′隔离区模型TT(T)s→TL TLT���T(S′)$%o(GANL)*+(T(S′),s(S))���SoftmaxT(T)L)*+((T),���#(伪标签)伊TsL LS s$%&(GANs(S)���s(T′)Softmax隔离区模���s(T′)不伊什T→sT′Ls(S,T′)TSa/0Lss*g(T′,(*))���Lss*g(S,s)双路径自适应分割双路径图像转换(DPIT)路径-S:路DPPLG转发:损失:9085SSSTSS(i,j)不S·LLTSHWˆ策略如图3所示。 核心原则是找到′ ′通过考虑两个地面事实,S的修订标签YS′图3:标签纠正策略的图示。输入以橙色矩形突出显示。路径-S和路径-T中的图像,其中GT→S标签YS和′的分割预测。特别地,我们将’馈送到M(其在开始时被初始化为M)以生成伪标签Y( ’。然后,标签校正模块通过用Y中的高置信度像素级标签替换YS中的像素级标签来修改原始地面实况标签Y S,这意味着内容改变区域的标签已经通过可靠的预测近似校正选项。形式上,定义修订的标签YS′={YS′ }(1≤i≤H,1≤j≤W)为:和GS→T 是对应的图像平移模型。.Y(i,j),如果P(i,j,c()(S′)−P(i,j,c)(S′)>δDPAS利用来自DPIT的翻译图像和所提出的双路径伪标签生成(DPPLG)模块来生成用于目标识别的高质量伪标签Y(i,j)=S′S′Y(i,j),否则,S(一)年龄,然后利用源域中的传递知识和目标域中的隐式监督两者来训练分割模型MS(在路径中)和MT(在路径中)DPL的测试非常简单,我们只保留MT用于推断,如图2所示。(b).DPL的培训过程包括两个阶段:单路径热身和DPL训练。DPL受益于良好初始化的MS和MT,因为DPIT和DPAS其中,H和W分别表示输入图像的高度和宽度,P(i,j)是由分割模型预测的概率图,C(i,j)和C(i,j)关于i维的 分类指数X,δ控制校正率,我们s eSt′δ=0. 3eSmpiricall y.此外,我们还利用MT生成伪标签T为。现在我们有成对的训练数据(′,YS′)和( ,Y)M依赖于分割模型的质量一个简单但TT其近似位于T的靶域有效的预热策略可以加速DPL的收敛。预热完成后,DPIT和DPAS训练总损失定义为:LMT=Lseg(S′,YS′)+Lseg(T,Y¨)(二)在DPL训练阶段按顺序训练。在本节中,我们首先描述我们的热身策略+λadv Ladv不(S′,T),第3.1节。然后,我们介绍DPL的关键组件:第3.2节的DPIT和第3.3节的DPAS。接下来,我们将在第3.4节中回顾并总结整个培训过程。最后,在3.5节中给出了DPL的测试流水线。哪里adv表示[32,16,41]中使用的典型对抗性损失,以进一步对齐目标域,seg表示常用的每像素分割损失:HW C3.1. 单路径预热L分段(I,Y)=−1ΣY(i,j,c)logP(i,j,c)(I),DPIT和伪标签生成器i=1j=1c=1(三)DPAS中的分割依赖于分割模型的质量为了加速DPL的收敛,需要用于分割模型MS和MT的预热过程M S预热。通过使用具有地面实况标签Y_S的源数据集S,以完全监督的方式容易地进行M_S的预热。M T热身。难以以监督的方式直接训练MT,因为在目标数据集T中没有标签可以被访问。一个简单的想法是通过使用朴素CycleGAN将源图像S翻译到目标域,然后在具有近似地面真实标签YS的翻译图像S’上训练MT。不幸的是,朴素CycleGAN不应用任何约束来保持S和S’之间的视觉一致性,即,当S被转换为S’时,视觉内容可以改变。S′与YS的错位会干扰MT的训练。为了解决这个问题,我们提出了一种新的标签校正其中I和Y分别表示输入图像(原始图像或翻译图像)和对应的标签(地面实况标签或伪标签)。一旦预热过程完成,我们就获得在相应域中近似对齐的初步分割模型这些良好初始化的模型促进了DPIT和DPAS的训练,这将在接下来的部分中描述。3.2. 双路径图像翻译图像到图像的转换旨在减少视觉外观的差距(例如,对象纹理和照明)。如第1节中所讨论的,由图像平移引起的不可避免的视觉不一致性可能会误导后续的自适应分割学习,因此需要额外的约束来保持视觉一致性。隔离区模型TS'���%s′(Pse udo Label)sNai$%→T概率图(S(GT标SS���s′(修订标签)ˆ9086TSST公司简介TS不SL L LL公司简介∗∗图4:双路径伪标记生成(DPPLG)的图示。输入由橙色矩形突出显示。BDL [16]引入感知损失以保持成对图像之间的视觉一致性(即, 原始图像和相应的转换图像)。 感知损失测量从良好训练的分割模型提取的感知特征1的距离。在BDL中,仅在目标域中执行域自适应,因此,使用相同的分割模型计算成对图像(,’)和(,’注意,成对的图像来自两个不同的域(和’在源域中,而和’在目标域中),使用在单个域中对齐的分割模型来提取用于感知损失计算的特征可能是次优的。现 在 我 们 介 绍 我 们 的 双 路 径 图 像 转 换(DPIT),如图2所示。(一). DPIT是一种具有跨域感知监督的双向图像翻译模型。我们使用GS→T和 GT→S分别表示路径-和路径-中的图像平移。Cy-cleGAN被用作我们的默认模型,因为它固有地提供双向图像平移,然而,任何不成对的图像平移算法都可以在DPIT中使用。与BDL不同,DPIT利用在相反域中对齐的两条路径,并从其对应的路径中提取成对图像的感知特征,以更好地保持视觉一致性。具体地,DPIT分别利用MS来提取S和T’的感知特征,并且利用MT来提取T和S’的感知特征。 然后,我们可以将我们的对偶感知损失LDualPer公式化为:哪里SGAN(TGAN)和SRecon(TRecon)是GAN损失和重建损失,如[ 47 ]中所示。λ Recon和λ DualPer分别表示重建损失和双重感知损失的权重。我们设置λRecon=10和λ DualPer=0。默认为1。3.3. 双路径自适应分割一旦DPIT被对称地训练,平移的图像′=GS→T()和′=GT→S()分别送入双路径自适应分割 ( DPAS ) 模 块 进 行 后 续 学 习 。 如 图 2 所 示 。(a)DPAS利用自监督学习与用于自适应分割学习的良好训练的图像翻译的组合,即,分割模型在具有真实标签的源图像(或转换后的源图像)和具有伪标签的目标图像(或转换后的目标图像)DPAS的核心是通过组合两条路径的预测结果来生成目标图像的高质量伪DPAS的培训过程可分为两个备选步骤:1)双路径伪标签生成;2)双路径分割训练双路径伪标签生成。目标数据集的标签在无监督的域自适应任务中不可用。自监督学习(Self-supervisedlearning,SSL)在数据集标签不足或有噪声的情况下取得了巨大的成功。伪标签的生成方法在SSL中起着重要的作用。如第1节中所描述的,在路径中,视觉不一致性导致经翻译的源图像S’与未校正的地面实况标签Y_S之间的未对准,这干扰M_T的训练。路径中也存在类似的问题(见图1)。受来自相反域的两条路径几乎互补的观察的启发,我们充分利用两条路径并提出了一种新的双路径伪标记生成(DPPLG)策略来生成高质量的伪标记,如图4所示。LDualPer(S,S′,T,T′)=LPer(FT(S′),FS(S))+LPer(FT(T),FS(T′)),(四)具体地,设PS(·)=Softmax(FS(·))和PT(·)=Softmax(FT(·))分别表示由MS和MT预测的概率图。在路径-T中,目标图像可以被其中LPer是如[16]中的感知损失,FS(·)和FT(·)分别表示由MS和MT提取的感知特征。除了双重感知损失的监督外,DPIT还受到一般对抗和重建损失的监督。DPIT的总损失可以用公式表示为:直接馈入MT以产生PT(T)。相反,路径-S需要图像平移来生成T′=GT→S(T),则可以通过将T′馈送到MS来获得PS(T ′)。最后,用于生成目标图像伪标签的增强概率图P*可以通过两个单独的概率图 PT(T)和PT(T)的加权和来获得。S ′ T′PS(T′):L_DP_IT=L_GAN(S,T)+L_GAN(S,T)第11章P=P(T+λLS(S,G(S′))※2吨)+2PS(T)、(6)ReconReconT →S(五)按照惯例[16,12],我们使用最大概率-+λReconLTRecon(T,GS→T(T′))+λDualPerLDualPer(S,S′,T,T′),概率阈值(MPT)来选择P*中置信度较高的像素作为未标记目标图像的伪标记1感知特征表示分割模型的softmax层之前的概率图。具体地,定义伪标签Y={Y(i,j,c)}(1≤i≤H,1≤j≤W,1≤c≤C)为:0.5不隔离区模型T(T)不+隔离区模型伊什���!∗���∗(伪标签)���T→s增强概率图T′���s(T ')���0.5′′9087ST∗∗∗TTST →SS×个转转L×个转→→×个ST←Y(i,j,c)=C且P(i,j,c)> λ∗TT∗1,ifc=argmax(P(i,j,c))∗3.5.检测管线(七)如图2所示。(b),DPL的推论是前-0,else,∗非常简单,我们只保留MT 在目标上测试时其中λ表示用于过滤具有低预测置信度的像素的阈值。我们设置λ=0。9.《易经·系辞上》云:“以德为本,以德为本。虽然path和path可以使用各自生成的伪标签,但我们将在第4.4节中通过使用共享伪标签Y来演示其优点。双路径分割训练。 现在我们介绍双路径分割训练的过程。具体地说,对于路径T,目标是在目标域中训练一个良好的广义分割模型MT。M T的训练数据包括两部分,翻译的源图像S′ = GS→T(S)具有地面实况标签Y_S的原始目标图像T,以及具有图像. 虽然DPL已经显示出了优于最先进的方法,我们探索了一个可选的双路径测试流水线命名为DPL-Dual,以提高性能,考虑从两个路径的预测。具体地说,我们首先分别从两个训练好的分割模型MT和MS生成概率图PT(T)和PS(T′),然后使用一个平均函数生成最终的概率图PF=(PS(′)+PT())/2.虽然DPL-Dual提高了性能,但引入了额外的计算。 我们建议DPL-Dual作为一个可选的推理管道时,计算成本是次要的。4. 实验由DPPLG生成的伪标签Y。相反,路径-S要求在源域中具有良好的泛化能力。类似地,MS在具有地面实况标签Y的源图像和具有共享伪标签Y()的经转换的图像’=G()上 训 练 。除了来自分割损失的监督之外,我们还在分割模型的特征之上利用鉴别器,以进一步减少如[9,16]中的域间隙。双路径分段的总损失函数可以定义为:LDualSeg=LTseg(S′,YS)+LTseg(T,Y¨)4.1. 数据集按照惯例,我们在两个常见场景中评估我们的框架 , GTA5 [26] Cityscapes [6] 和 SYNTHIA [27]Cityscapes。GTA5由24,996张图像组成,分辨率为1914 1052,我们使用GTA5和Cityscapes之间的19个常见类别进行训练和测试。对于SYNTHIA数据集,我们使用SYTHIA-RAND-CITYSCAPES集,该集包含9,400幅分辨率为1280×760的图像和16种常见的猫。∗+LSseg(S,YS)+LSseg(T′,Y¨)(八)与城市景观。Cityscapes分为训练集、验证集和测试集。训练集+λadv(LTadv(S′,T)+LSadv(S,T′)),其中Lsadv和Ltadv表示典型的广告损失,Lsseg和Ltadv表示典型的广告损失Tseg是如等式3中所定义的像素分割损失。λadv控制对抗性损失的贡献。3.4.训练管道算法1总结了DPL的整个训练过程首先,通过所提出的预热策略初始化MS和MT接下来,我们训练DPIT以提供良好翻译的图像用于后续学习。最后,遵循自监督学习以迭代方式进行的常见实践[16,49,12],DPAS被训练N次以进行域适应。我们使用上标(n)来表示第n次迭代。算法1DPL的训练过程输入:S、YS、T输出:M(N)、M(N)获取2,975张图像,分辨率为2048 1024。 按照惯例,我们报告的验证集,其中包含500个图像具有相同的分辨率的结果。所有消融研究均在GTA5 Cityscapes上进行,并在GTA5 Cityscapes和SYNTHIA Cityscapes上与最新技术水平进行比较。我们使用类别的IoU和mIoU来评估性能。4.2. 网络架构按照惯例,我们使用DeepLab-V2 [4]与ResNet-101[8]和FCN-8 s [18]与VGG 16 [29]作为我们的语义分割模型。对抗学习中使用的鉴别器类似于[24],它有5个卷积层,内核大小为44个通道编号{64,128,256,512,1}和步幅2。 对于每个convo-在除了最后一个之外的所有层之后,跟随由0.2参数化的泄漏ReLU [40]层。鉴别器是在分割模型的softmax输出上实现的。预热试验(0)S(0)对于DPIT,在[16]之后,我们采用Cy的架构。M,M用等式5对于n1到N,DPAS是否通过等式7生成Y(n)cleGAN具有9个块,并使用所提出的双重感知损失来保持视觉一致性。4.3. 实现细节用等式8训练M(n)*M(n)端T和S在训练DPIT时,输入图像被随机裁剪为512×256的大小,并训练40个epochs。9088×个×个联系我们ST×× ××个SS→→STT表1:不同图像平移模型的比较。图像转换模块mIoU(M(1))mIoU(M(1))表3:分阶段DPAS的消融研究。表4:M热身CycleGAN41.4S48.5吨MSmIoUMTmIoU型号δmIoUSPIT 48.6 51.1男(0)S(1)43.7个月(0) T(1)48.5MT0.2 47.4DPITMS49.6MT51.8MT0.348.5表2:不同伪标记生成策略的比较男(2)S(3)M50.6男(2)50.7MT(3)52.452.6MT0.5 47.3MTw/Y S-46.2(一)(一)S(4)M50.7MT(4)52.8MTw/Y-44.3S伪标签生成策略 mIoU(MS ) mIoU(MT )S T前20个epoch的学习率为0.0002,在20个epoch之后线性下降到0 在[47,16]之后,在等式5中,λ Recon被设置为10,λ DualPer被设置为0.1。 对于DPAS训练,输入图像被调整大小为1024 512,批量大小为4。对于使用ResNet-101的DeepLab-V2,我们采用SGD作为优化器,并将初始学习率设置为5 10−4,使用幂为0.9的“poly”学习率策略降低。 对于使用VGG16的FCN-8,我们使用动量为0的Adam优化器。九比零。99,初始学习率设置为2 10- 5。 学习率下降的“步骤”的政策与步长50000和下降因子0.1。对于对抗学习,λadv贝尔斯我们比较了DPPLG和单路径伪标签生成(SPPLG)方法,即,路径和路径生成器自身生成相应的伪标签同时,我们研究了DPPLG的三种不同策略:1)DPPLG-Max,它选择两条路径概率最大的预测; 2)DPPLG-Joint,其中两个路径分别生成伪标签,并且交叉点被选择为最终伪标签; 3)DPPLG-Weighted,其是如第3.3节中所述的默认策略。表2显示了结果。所有DPPLG策略的性能都优于SPPLG,这意味着两条互补路径的联合决策可以提高伪标签的质量。我们使用DPPLG-Weighted作为我们的伪标签生成策略,由于卓越的实验结果。双路径自适应分割的有效性。我们在表3中示出了DPAS的分阶段结果。当对于DeepLab-V2设置为110−3,对于FCN设置为110−4在等式2和8中。鉴别器是用以下训练的:预热完成,M(0)SM(0)不实现mIoU(一)Adam优化器,初始学习率为2 10- 4。 动量参数设置为0.9和0.99。 所有消融研究均在第一次迭代(N =1)时进行。 当与最先进的方法比较时,我们设置N= 4。4.4. 实验分别为43.7和48.5在第一次迭代之后,MS达到49.6(+13.5%改善),M(1)达到51.8(增长6.8%)。最大的改进是两个分割模型表明,两个互补路径之间的相互作用促进了自适应相互学习尽管随后的迭代(M(2)-M(2))(四)(二)(4)S双路径图像翻译提高翻译质量。DPIT通过由分割模型MS和MT计算的双感知损失来鼓励视觉一致性。为了证明DPIT的有效性,我们将其与以下进行比较:1)朴素CycleGAN,其中没有感知损失用于保持视觉一致性;2)BDL [ 16 ]中使用的单路径图像转换(SPIT),其应用CycleGAN和通过在目标域中对齐的单分割模型计算的感知损失。请注意,本消融研究中的唯一差异是DPL中使用了不同的图像平移方法表1显示了比较。通过使用感知损失来维持视觉一致性,SPIT和DPIT两者与朴素CycleGAN相比可以显著提高自适应性能我们的DPIT超过SPIT在两个分割模型(MS和MT)表明,提取对齐的感知特征,可以进一步减轻视觉不一致造成的图像平移。双路径伪标记生成的有效性。在我们提出的DPPLG模块中,来自两条路径的预测共同参与生成伪la-c。M和M- -米)仍能促进业绩但是改进是有限的。标签纠正策略的消融研究。在第3.1节中,我们提出了一个标签校正策略MT热身。现在我们研究表4中的不同预热策略以及超参数。回想一下,标签校正用于通过考虑地面真值标签YS和伪标签Y()两者来找到经修订的标签YS’(参见等式1)。 我们消除了两种极端情况:1)不加标号校正而直接用地面真值标号YS; 2)直接地平均伪标签Y(’而不进行标签校正。表4中的结果显示了我们的标签校正模块的优越性。我们还研究了控制校正率的不同δ,从表中我们发现δ是一个不太敏感的超参数,默认情况下可以设置为0.3。与现有技术方法的比较。我们评估DPL和DPL-Dual在两种常见场景下使用最先进的方法,GTA5 Cityscapes和SYNTHIA Cityscapes。对于每个场景,我们报告了两个细分模型ResNet101和VGG16的结果。表5显示了场景GTA5→城市景观的结果不SPPLG46.050.0DPPLG-Max49.250.6DPPLG-接头49.150.3DPPLG加权49.651.89089ALK表5:与GTA5→ Cityscapes场景中最先进方法的比较。红色:最佳结果。蓝色:第二好的结果。分割模型法MiouResNet101[8]VGG16[29]BDL[16] 91.0 44.7 84.2 34.6 27.6 30.2 36.0 36.0 85.043.6 83.0 58.6 31.6 83.3 35.3 49.7 3.3 28.8 35.6 48.5电话:021- 888888888传真:021 - 88888888FADA[34] 92.5 47.5 85.1 37.632.8 33.4 33.8 18.4 85.3 37.7 83.563.2 39.7 87.5 32.9 47.8 1.6 34.9 39.5 49.2标签驱动[41] 90.8 41.4 84.7 35.1 27.5 31.2 38.0 32.885.6 42.1 84.9 59.634.4 85.042.852.7 3.4 30.9 38.1 49.5Kim等人[第十五条] 92.9 55.085.3 34.2 31.1 34.9 40.7 34.0 85.2 40.187.1 61.0 31.1 82.5 32.3 42.9 0.3 36.4 46.1 50.2FDA-MBT [42] 92.5 53.3 82.4 26.5 27.636.4 40.638.9 82.3 39.8 78.0 62.634.4 84.9 34.153.1 16.9 27.746.4 50.5TPLD [12]94.2 60.5 82.8 36.6 16.639.3 29.0 25.585.644.9 84.4 60.6 27.4 84.1 37.0 47.031.2 36.150.3 51.2DPL 92.5 52.886.0 38.5 31.7 36.247.3 34.9 85.5 39.9 85.262.9 33.9 86.8 37.2 45.320.144.1 42.452.8DPL-Dual 92.8 54.486.2 41.632.7 36.449.0 34.085.8 41.386.063.2 34.287.2 39.3 44.5 18.742.6 43.153.3TPLD [12] 83.5 49.9 72.3 17.6 10.729.6 28.3 9.0 78.2 20.1 25.7 47.4 13.3 79.6 3.3 19.3 1.3 14.333.5 34.1BDL [16] 89.2 40.9 81.2 29.1 19.2 14.2 29.0 19.6 83.7 35.9 80.7 54.7 23.3 82.7 25.8 28.0 2.3 25.7 19.9 41.3FDA-MBT [42] 86.1 35.1 80.6 30.8 20.4 27.5 30.0 26.0 82.1 30.3 73.6 52.5 21.7 81.7 24.0 30.529.9 14.6 24.0 42.2Kim等人[第十五条] 92.5 54.5 83.934.5 25.531.030.4 18.084.1 39.6 83.9 53.6 19.3 81.7 21.1 13.617.7 12.3 6.542.3电话:+86-10 - 88888888传真:+86-10 - 88888888标签驱动[41] 90.1 41.2 82.2 30.3 21.3 18.3 33.5 23.084.1 37.5 81.4 54.2 24.3 83.0 27.6 32.0 8.129.7 26.9 43.6FADA[34]92.3 51.1 83.7 33.129.1 28.5 28.0 21.0 82.6 32.685.3 55.2 28.8 83.5 24.4 37.4 0.0 21.1 15.2 43.8DPL 88.9 43.6 83.4 33.8 24.7 28.037.6 26.2 84.140.3 81.554.9 25.0 83.027.7 48.6 4.8 29.132.0DPL-Dual 89.2 44.0 83.535.0 24.7 27.838.3 25.384.2 39.5 81.6 54.725.8 83.329.3 49.0 5.230.232.646.5表6:与SYNTHIA→ Cityscapes场景中最先进方法的比较。红色:最佳结果。蓝色:第二好的结果。分割模型方法路赛德建筑壁围栏极T形灯T形符号植物天空人骑手车总线摩托车自行车mIoU mIoU(16)(13)Kim等人[第十五条]92.6五十三点二79.2---1.67.578.6八十四点四52.620.082.1三十四点八14.6三十九点四- 四十九点三BDL[16]86.0四十六点七80.3--- 十四点一11.679.281.354.1二十七点九分73.7四十二点二25.7四十五点三-51.4SIM卡[36]83.044.080.3---17.115.8 80.5八十一点八59.933.170.2三十七点三分28.5四十五点八-52.1FDA-MBT [42]79.335.073.2--- 十九点九24.0 61.7八十二点六61.431.183.9四十点八38.451.1-52.5ResNet101[8]FADA[34]84.540.183.14.80.034.320.127.284.884.053.5二十二点六85.4四十三点七26.8二十七点八45.2 52.5标签驱动[41]85.1四十四分五81.0--- 十六点四15.2 80.1八十四点八59.4三十一点九73.241.032.644.7-53.1TPLD [12]80.944.382.2十九点九0.340.620.530.1 77.2八十点九60.625.584.841.124.7四十三点七47.353.5DPL87.4四十五点五82.7十四点八分0.7 33.0二十一点九20.0 82.9八十五点一56.4二十一点七82.1三十九点五30.8四十五点二46.953.9DPL-Dual87.545.782.813.30.633.222.020.183.186.056.6二十一点九83.140.329.8四十五点七47.054.2CrCDA [11]74.5三十分五78.66.60.721.22.38.477.4七十九点一45.9十六点五73.1二十四点一9.6十四点二35.2 41.1TPLD [12]81.3三十四点五73.3十一点九0.026.90.26.379.9七十一点二55.1十四点二73.65.70.5四十一点七36.0 41.3Kim等人[第十五条]89.8四十八点六78.9---0.04.780.6八十一点七36.213.074.
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功