没有合适的资源?快使用搜索试试~ 我知道了~
18922风格和雾都很重要:语义模糊场景理解的累积领域自适应马先正1、2、王志祥3、4、詹亚成1、郑银强3、王正1、2*戴登新5、林嘉文61武汉大学计算机学院人工智能研究所多媒体软件国家工程研究中心2多媒体与网络通信工程湖北省重点实验室3东京大学4RIISE5 MPI for Informatics6国立清华大学摘要虽然在晴朗天气下的地震场景理解已经取得了很大的进展,但在浓雾等恶劣天气条件下,由于观测不完善而带来的不确定性,地震场景理解仍然是一个难题此外,雾天图像的采集和标记困难也阻碍了这一领域的发展。考虑到在晴朗天气下语义场景理解的成功,我们认为将从清晰图像中学习到的知识转移到雾域是合理的。因此,问题变成了弥合清晰图像和模糊图像之间的域间隙。不同于以往的方法主要集中在关闭域的差距造成的雾- 对于有雾图像的去雾或清晰图像的去雾,我们提出通过同时考虑雾的影响和风格变化来减轻域间隙。我们的动机是基于我们的发现,风格相关的差距和雾相关的差距可以分开和关闭,分别通过添加一个中间域。因此,我们提出了一个新的管道来累积适应风格,雾和双因素(风格和雾)。具体而言,我们设计了一个统一的框架,以解开的风格因素和雾因素分开,然后从不同领域的图像的双重因素。此外,我们合作解开这三个因素与一个新的累积损失彻底解开这三个因素。我们的方法在三个基准测试中达到了最先进的性能,并在雨雪场景中显示了通用化能力。1. 介绍语义雾场景理解(SFSU)对于自动驾驶很重要[9,14,18,27,28,40]。虽然在语义理解方面已经取得了很大的进展*通讯作者双间隙(样式+雾)标签标签标签s:Clear Cityscapesm:Clear Zuricht:Foggy Zurich花柱间隙雾隙图1. 问题和我们的主要想法。我们的目标是将知识从一个有标签的领域转移到一个无标签的领域.然而,由于混合的双因素差距,直接知识转移具有挑战性(橙色箭头)。通过添加中间域m作为桥,我们可以将混合双因子间隙分解为两个单因子间隙:风格差距和雾差距。由于s和m域中的图像都是在清晰的场景中捕获的,因此我们假设s域和m域之间只有风格差异(蓝色箭头)。同样,m和t两个域中的图像都是在同一个城市(苏黎世)收集的,我们假设它们之间只存在雾隙(绿色箭头)。在清晰的场景中,SFSU由于雾引起的能见度下降而往往具有不令人满意的性能[22,31]。此外,与清晰场景下丰富的数据和注释不同,浓雾天气下数据和注释的缺乏因此,处理具有挑战性的SFSU问题通常需要将从标记的清晰图像中学习到的分割知识转移到未标记的模糊图像中。直观地说,我们可以通过使用最先进的域自适应方法来缩小清晰图像和模糊图像之间的域差距来解决这个问题。然而,这些方法主要是在对抗中对齐域[4,6,17,19,33-此外,如[27]所验证的,由于大的域间隙,它们未能很好地解决SFSU问题。因此,SFSU的注意力集中在雾因子,这被认为是SFSU问题中的畴隙的主要一种解决方案是18923样式间隙(0.089) (0.033)雾隙关闭样式间隙后雾隙保持不变风格差距(0.067)(0.037)雾隙S+m0.139不M对偶间隙0.0180.107SSMVV测试火车SS−通过使用实验性去雾方法[3,10,15,24- 26,38 ]对真实的雾图像进行去雾来弥补这一差距然而,除雾方法也会引入伪影。它们作为噪声在一定程度上阻碍了域适应[23]。另一种解决方案是将合成雾添加到清晰图像中,并以监督的方式使用这些合成雾图像和清晰图像的注释进行学习[9,12,14,27,28]。然而,这些渲染的合成雾图像并不像真实的雾图像那样真实,也会扩大清晰图像和雾图像之间的域间隙,从而产生不令人满意的性能。此外,我们认为,这些方法过于关注雾因子,而忽略了其他因素,这可能会影响SFSU问题的域间隙。跳出框框,我们建议明确地研究SFSU中的畴隙1),以避免直接处理总畴隙; 2)不使用人工合成的雾数据或除雾知识。我们假设畴隙是由混合雾影响和风格变化引起的,它们对SFSU都很重要。也就是说,我们假设SFSU的域带隙中存在风格相关带隙和雾相关带隙,通过增加一个中间域,我们可以将混合的接下来,我们详细说明为什么我们可以解开风格相关的差距,以及什么样的关系之间的风格相关的差距和雾相关的差距在SFSU问题,使用以下实证发现。1.1. 动机我们首先调查的风格和雾因素的影响,在不同的领域,即。,我们想知道风格和雾因素如何影响分割模型的性能。为此,如图2所示,我们利用平均方差值(MVV)来表示分割模型在每个域中的功能以及两个不同域之间的差距如何闭合。如[42]所验证的,从分割模型中的不同级别特征计算的方差在预测像素标签时具有很强的测量分割模型的不确定性的能力。我们得到一个方差值来表示模型分割一幅图像时的不确定性因此,我们计算特定域数据集中所有图像的MVV,以显示该域的整体具体来说,在图2中,我们用s域数据训练分割模型Model(s),并计算域s、m和t中的MVV,分别产生Vs、Vm和VtS0.012M0.079不 0.116图2. 动机的实证发现。平均方差值(MVV)测量特定领域中分割模型的总体性能,即:域性能。首先,我们用s域数据训练分割模型,即,该模型已经学习了领域知识。然后,我们在s,m和t域数据上进行测试,三个域的性能显示为不同的此外,两个不同条之间的差异可以表示性能差距,即,域间隙(灰色虚线箭头),如样式间隙、雾间隙和双重间隙。接下来,我们用m域数据调整分割模型,即,该模型可以学习领域s和m之间的领域知识(与风格因子相关),这意味着风格差距可以通过这种适应来弥合。在此调整之后,样式间隙已经关闭(从0.089到0.067),而雾间隙保持不变(仅0.004的可忽略变化)。也就是说,通过添加中间域m,我们将样式间隙从对偶间隙中分离出来,而不会损坏雾间隙。因此,我们假设风格间隙和雾间隙可以分别被分割和闭合,双重间隙是两个间隙的累积。当处理域s、m和t中的图像时,时间更长。此外,我们可以使用两个MVV的差异作为两个域之间的性能差距(即,域间隙)。例如,Vm Vs可以表示域s和m之间的间隙,我们假设为“风格间隙”。同样,我们得到了然后,我们用m域数据调整模型(s)以获得模型(s+m)并计算三个域中的MVV。与Model(s)相比,Model(s+m)可以学习领域s和m之间的领域知识(与风格因子相关),从而缩小风格差距(从0.089到0.067)。然而,雾隙(0.037)仍然很大,近似等于调整模型之前的雾隙(0.033(s)具有m域数据。也就是说,在关闭样式间隙之后,雾间隙仍然保持不变,这意味着两个间隙可以分别划分和关闭。同时,这种双重的鸿沟也是改编前后风格鸿沟和迷雾鸿沟的累积。基于这一发现,我们提出了一个累积域s s s我们使用条形的长度来表示每个域中的性能。理想情况下,由于我们只从域s中学习模型,因此当在域s中分割图像时,其性能应该很好(即,,MVV应该是低的),但是当在域m和t中分割图像时倾向于降级(即,,MVV应该相对较高)。我们的实验结果和预期的一样,黄色的条变成了cumu-本文提出了一个自适应框架来解决语义模糊场景的理解问题,在这项任务中,同时考虑了风格因素和模糊因素。如图1所示,通过添加中间域m作为桥,我们可以将混合双因子间隙分解为两个单因子间隙:风格差距和雾差距。具体来说,我们先将风格和雾因素分开,然后将风格和雾因素联合起来,18924S··SSi=1不i=1M--i=1--这确保了从源域到目标域的有效分割知识转移。此外,我们假设双因素差距是风格差距和迷雾差距的累积。因此,我们进一步提出了一种新的累积损失来表示这种关系,并以循环的方式将三个因素的解纠缠与累积损失相结合,使我们的网络能够连续地传递分割知识,并进一步提高性能。我们将我们的贡献总结如下。1)我们设计了一个新的框架,将SFSU中的具体地说,我们提出了一种新的累积域自适应(CuDA-Net)方法,首先将风格因子和雾因子分开,然后将双因子联合起来。2)我们发现风格、迷雾和双重因素之间存在累积关系,并提出了一种新的累积损失,以进一步以周期性的方式解开这三个因素。3)在SFSU中三个广泛使用的数据集上,我们的方法优于现有技术,并且在其他不利场景(如雨天和雪天场景)上显示出泛化能力2. 方法假设我们有来自源域s的Ns个标记图像(xi,yi)Ns,其中yi是标签,以及来自目标域t的Nt个未标记图像xiNt。我们的目标是通过我们提出的CuDA-Net将分割知识从源域s转移到目标域t受[ 4 ]成功的启发,我们使用类似的框架作为我们的基本单元来将领域不变特征与特定领域对应物分开。但由于s和t域图像是在不同的城市和天气条件下拍摄的,它们会遇到混合风格和雾因素造成的较大域间隙,这给该方法带来了挑战。因此,我们建议将混合因素分解为单独的因素,通过引入一个在-具有Nm个未标记图像{xi}Nm的中间域m,2.1. 特征解纠缠网络特征分解网络(FDN)是我们方法的基本单元,如图3a所示。 给定来自两个不同域的图像x1和x2,利用“共享内容空间”假设[ 16 ],它可以将这些图像的域不变内容特征c 1和c 2与域特定对应物z 1和z 2分离。正如[4]所验证的那样,内容特征对语义分割任务的贡献最大。因此,通过特征解纠缠,我们可以将分割知识从x1域转移到x2域。具体来说,我们首先使用共享内容编码器Ec(黑线)来提取c1和c2,并使用两个私有编码器来分别提取域特定特征z1和z2(红线和蓝线)。然后,我们使用共享图像解码器D来使用内容特征c1、c2和域特定特征z1、z2解码图像。根据我们使用的c和z,我们可以执行域内重建,跨域翻译来监督解纠缠学习。此外,我们使用分割头S来从内容特征c产生分割热图h,其中标签yi被用作监督信号。我们使用与DISE类似的框架构建FDN [4]因为我们双方都采用然而,我们只设计了四个必要的损失来训练我们的FDN,旨在使FDN能够关闭三个不同的差距(风格差距,雾差距和双差距)。而DISE [4]利用七个损失来弥补合成清晰数据与真实清晰数据之间的一个差距,这是训练耗时且难以收敛的。域内重建。我们期望从同一幅图像中提取的内容特征c和私有特征z因此,我们将重建损失定义为:L_r_ec=L_pixe_l ( x_l , x_l ) +L_pixe_l(x_2,x_2),其中,逐像素损失L pixel(,)由感知损失[30]实现,其中浅层特征被突出显示。跨域翻译。 我们重新组合内容fea-与源共享相似的雾影响(无雾)域和与目标域(同一城市)相似的风格变化。图3描述了我们提出的方法的框架 它包括三个子网:Fs → m,Fm→ t,来自一个域图像的Truec和来自另一域图像以生成所述经翻译的图像。例如,在图3b中的子网络Fm→t中,通过从xt和私有fea重新组合内容特征c2F,它们共享相同的原型来解开2Ts→t域不变的特征从域特定的对比部分(图3a)。它们被馈送有不同的输入对(xs,xm)、(xm,xt)和(xs,xt),以分别闭合风格间隙、雾间隙和双重间隙。我们一个接一个地训练它们(图3b),并向前共享领域不变的知识。在训练了这三个子网络(初始化)之后,我们使用累积关系(图3c)作为辅助损失进行循环训练(图3d),以帮助更好地解开用于生成分割热图的域不变(内容)特征。从xm得到真实的zm,我们可以生成图像,该图像可以被视为xt的去雾版本。对于私有特征已被改变的翻译图像x1→2和x2→1,我们施加内容一致性损失Lcon,其由感知损失[30]实现,其中深层特征被突出显示,以约束翻译图像和原始图像的内容方面:Ltranss=Lcon(x1,x1→2)+Lcon(x2,x2→1)。(二)密集像素预测。由于解纠缠学习发现的域不变性,我们可以将18925初始化123123123?冷冻?Trainable端雾隙………FDN标记伪标号3∈segsegsegsegΣ。Σ源域目标域域专用域共享重构损失换算亏损 ~CE损失标签域内重构跨域平移密集像素预测a. 特征解缠网络C. 累积关系1花柱间隙2对偶间隙FDNB. 管道的三个步骤d. 整个管道图3. 建议的方法。a.特征解纠缠网络(FDN)将来自两个不同域的图像的域不变内容特征与域特定对应物解纠缠。b.通过引入中间域m,我们可以得到三种不同的输入域组合,(xs,xm),(xm,xt)和(xs,xt),对于三种FDN,Fs →m,Fm→t,分别解决风格间隙,雾间隙和对偶间隙。三个FDN一个接一个地训练,其中领域不变的知识是共享的。由于域m和t都没有标签,我们使用Fs→m来标记域m以训练Fm→t。D、整个管道。我们首先初始化三个FDN,每个FDN训练一次,如b所示。然后,我们使用累积关系(c)作为辅助损失进行循环训练,以更好地解开用于生成分割热图的域不变(内容)特征。跨领域的语义知识我们将分割头S应用于c1和c2,得到每个像素的概率输出h1,h2RH×W ×C,其中H,W,C表示高度,宽度和类别数,re-源域预测特征解缠损耗。FDN中的解缠损失函数是每种损失的加权组合:分别为。 监督共享内容L1→2=λrecLrec+λtranssLtranss、(四)编码器Ec和分割头S,我们使用交叉熵来计算h1和+λseg(L1+L1→2)+λsegadvLsegadv其对应的标签y1。此外,由于1域类图像x1→2与x1共享相同的内容,因此标签y1可以是x1→2的伪标签。因此,我们计算h1→2和标签y1之间的L 1 → 2,也使用交叉entropy。除了监督损失之外,在分段头S的输出处引入对抗性损失Lsegadv,希望使内容编码器Ec和S在域2上很好地泛化。为此,我们通过最大化目标域预测h2被被认为是源域预测:其中L1→2可以是Ls→m、Lm→t或Ls→t,如下所示:ingdisentanglement和权重λrec、λtranss、λseg和λ segadv根据经验设定为0。5,0。1、1和1来控制重构/翻译质量、预测精度和域泛化的相对重要性2.2. 样式和雾分解上述FDN被设计为通过解开域不变特征和域特定特征来传递分割知识。但是,直接将FDN应用于域s和域t不能Lsegadv =−logDis(h2)(h,w,1)、(3)h,w达到理想的性能。我们认为这是因为域s和域t之间的混合双因素差距太大而无法弥合,这也是其他领域的弱点。其中,1表示ADI将h2视为域自适应方法。 我将介绍一个内部。FDN实标号~实标号约0/1~……编码器解码器累计亏损当量18926stysty雾雾双SMS i=1介电域m,将双因子间隙分解为两个单因子间隙:风格和雾。由于域s和m中的图像都是在清晰的场景中捕获的,因此我们假设它们之间只有风格差异。同样,由于m和t两个域中的图像都是在同一个城市(苏黎世)收集的,我们假设它们之间只存在雾隙。因此,我们使用三个子网络Fs→m、Fm→t和Fs→t来逐一解开风格因子、雾因子和双重因子,并逐渐将分割知识从领域s转移到t(图3b)。具体地说,FS→m首先利用两个特定的私有风格编码器Es和Em来提取潜在的风格特征Fs→t被用作累积域自适应的初始化。具体来说,我们使用Fs→t中的所有模块(一个内容编码器,两个双因子编码器,一个图像解码器和一个分割头),两个风格编码器,在Fs→m中使用两个fog编码器,在Fm→t中使用两个fog编码器,以构建整个网络。接下来,如图3b所示,我们输入(xs,xm,xt)元组来提取样式、雾和双重私有特征。然后,我们冻结两个雾编码器和两个双因子编码器,并使用下面的最终损失来训练整个网络中的其他模块(特别是两个风格编码器和内容编码器)L最终=Ls → m+ λcumLcum。(六)z1和z2分别。标签{yi}Ns监督培训过程。之后,除了两个私有风格编码器之外,我们认为是域共享部分并表示分割知识的该训练的Fs→m的剩余部分将被传递到下一个子网络Fm→t。换句话说,内容编码器Ec、分段头S、图像解码器D和域编码器Dis被用作子网络Fm→t的初始化。注意,域m没有标签,我们使用训练的Fs→m来生成伪标签以训练Fm→t。在训练Fm→t后,除了两个雾编码器Em和Et外,Fm→t的域共享部分被用作子网络Fs→t的初始化。同样,Fs→t使用两个对偶-在该训练之后,我们假设风格编码器可以更好地捕获特定于领域的风格特征,这是由于将特征解纠缠损失Ls→m与累积损失Lcum相结合,并且内容编码器可以更好地提取共享内容特征,其用于产生分割热图。图3d中的以下两个步骤具有相同的功能,唯一的区别是我们训练哪些私有编码器以及我们冻结哪些编码器请注意,共享内容编码器在这三个步骤中始终是可训练的此外,我们还对整个网络进行了循环训练,希望能提高解缠能力factor(style and fog)encodersEs不双提取三对私人编码器的能力交替和潜在的双因子特征分别为z3和z3 把它不断增强的共享内容编码器。经验S t简单地说,通过训练Fs→m、Fm→t和Fs→t,我们以更有效的方式将分割知识从域s向下传递到域t,并获得三对特定于域的特征编码器,用于在累积域自适应中进一步进行特征分解。2.3. 累积域适配累积损失。在我们的研究动机中证实了三种领域因素(私人特征)之间存在着一种累积关系。如图3c所示,如果我们取以m(zm,zs)为域m和s之间的风格差异,以m(zt,zm)为域t和m之间的雾差异,以m(zt,zs)为域t和s之间的对偶差异,可以合理地假设对偶差异是风格差异和雾差异的累积,即m(zm,zs)+m(zt,zm)= m(zt,zs)。因此,我们将累积关系损失函数设计为:L cum=(z m,z s)+(z t,z m)−(z t,z s)2。(5)然后,我们更进一步,利用这个累计损失Lcum作为额外的损失来进行我们提出的累积域自适应,通过利用在前三个步骤中训练的私有编码器。培训管道。图3d描述了整个训练过程。三个训练的子网络Fs→m、Fm→t和我们将T设为3,这意味着我们进行了三次循环累积训练。最后,我们使用训练好的内容编码器和Fs→t中的分割头S来产生用于测试的分割热图。3. 实验3.1. 数据集Cityscapes[8]是一个真实世界的数据集,由50个不同城市的街景图像组成。它的数据分割包括2,975张训练图像和500张验证图像。Foggy Cityscapes DBF[28]总共有550张合成雾图像,包括498张训练图像和52张测试图像。这些图像是从Cityscapes中选择的,并使用深度信息与雾合成。我们使用来自Cityscapes的498张清晰图像作为源域数据集,命名为Clear Cityscapes。请注意,Clear Cityscapes中的图像不是在苏黎世市拍摄的。Foggy Zurich*[27]包含了3,808个现实世界中苏黎世市及其郊区的雾路场景。 根据 对于雾密度,将其分为两类--轻雾和中雾,分别包含1,552幅图像和1,498幅图像。我们使用中等类别作为目标主数据集,命名为Foggy Zurich。此外,它还有一个测试和E18927表1. 性能比较。实验在有雾的苏黎世(FZ)和有雾的驾驶(FD)上进行,用所有类别的平均IoU(mIoU %)有关ACDC的结果,请参阅ACDC-fog基准测试网站。实验方法骨干FZFD骨干– deeplab-V225.935.7– RefineNet34.635.8[第24话]RefineNet34.438.3DCP [15]RefineNet31.233.2除雾非本地[3]RefineNet27.632.8GFN [25]deeplab-V227.537.2DCPDN [38]deeplab-V228.737.9多任务[1]AdSegNet [34][35]第三十五话DISE [4]CCM [19]美国汽车协会[2]ProDA [39]DMLC [13]DACS [32]–DeepLab-v2DeepLab-v2DeepLab-v2DeepLab-v2DeepLab-v226.131.626.137.624.536.1域40.745.235.842.6适应37.043.437.841.233.532.628.735.0除雾+DA[24]第二十四话deeplab-V238.637.1我们CuDA-Netdeeplab-V248.252.7[第28话]RefineNet35.735.9[27]第二十七话RefineNet42.937.3合成†CycleGAN [43]RefineNet40.547.7MUNIT [16]RefineNet39.147.8AnalogicalGAN [12]RefineNet42.347.5CMAda 3 +[9]RefineNet46.849.8合成+DA[28]第二十八届全国政协委员deeplab-V239.339.0我们CuDA-Net+deeplab-V249.153.5由于基于合成的方法使用额外的合成数据,为了公平比较,我们还添加这些数据来训练我们的子网络Fm →t,然后进行累积域自适应,命名为CuDA-Net+。[27]第二十七话.这是一个收集了101个真实世界的雾天道路场景图像,其中33个图像进行了精细注释,其余68个图像进行了粗注释。它们纯粹用于测试。清除苏黎世我们从Foggy Zurich*[27]的光照类别中手动选择248张图像,并将此数据集称为Clear Zurich。我们使用Clear Zurich作为中间域数据集,因为我们在视觉上将这些图像视为清晰的场景图像。ACDC[29]。它包含四个不利条件类别(雾,雨,雪和夜间)与像素级注释。每个样本包含1,000张图像,并按照大约4:1:5的比例分为训练集、验证集和测试集。测试集被保留用于在线测试。3.2. 性能比较我们将我们的方法与几种方法进行了比较,包括1)主干:RefineNet [20]和DeepLab- v2 [5];2)除雾为主: [15]第24话,我的天啊非本地[3]、DCPDN [38]和GFN [25];3)基于DA的:多 任 务 [1] , AdSegNet [34] , ADVENT [35] , CCM[19],SAC [2], ProDA [39], DMLC [13], DACS [32]和表2. 与CMAda3+的训练数据比较。我们的CuDA-Net和CuDA-Net+都优于CMAda 3+,使用较少的合成雾数据和较少的真实雾数据。‘light’, ‘medium’ and ‘dense’ in the tableindicates the different fog使 用 的 训 练 数 据 雾 密 度 CMAda 3 + CuDA-Net CuDA-Net+ ClearCityscapes 498 498 498雾城景观DBF灯498––(合成雾)介质498––密集498–498苏黎世雾天光1552248248(real雾)介质149814981498总数504222442742mIoU(在FZ上)46.848.249.1我们的基线DISE [4];4)基于合成: [28]第二十八话CMAda2 [27], CMAda3+ [9], [43]第四十三话[12]第 5)除雾/合成+基于DA:MSCNN+DISE、SFSU+DISE。 平均表1报告了Foggy Zurich和Foggy Driving上的交叉点对联合点(mIoU)结果。对于基于去雾的方法,我们首先使用这些方法对真实的有雾测试图像进行去雾,然后使用主干分割模型来产生预测。对于基于域自适应的方法,我们将源域数据设置为我们的方法的清晰的城市景观的域对于目标域数据,我们将Clear Zurich和Foggy Zurich相结合,分别作为m域和t域。通过使用相同数量的训练数据,我们确保了与基于DA的方法的公平比较对于去雾+域自适应方法,我们首先使用MSCNN [24]去雾目标域数据(包括训练数据和测试数据),然后使用DISE [4]弥合域间隙。对于基于合成的方法,范例是用合成雾图像微调在真实清晰天气图像(Cityscapes)上预训练的分割模型有雾的城市景观DBF,以及与其清晰天气图像相对应的标签这些基于合成的方法的区别在于它们使用不同的方法[12,16,27,28,43]来生成合成雾图像。最后,在真实雾天图像上对模型进行了测试.为了与CMAda 3 + [9]进行公平的比较,我们还添加了FoggyCityscapes DBF作为额外的数据,以在累积训练之前训练子网络Fm→t,我们将其命名为CuDA-Net+。表1中的结果表明,尽管骨干模型DeepLab-v2的性能不如RefineNet,但我们提出的方法CuDA-Net(使用DeepLab-v2作为骨干)实现了最佳性能,优于所有最先进的方法。我们还在ACDC [29](ACDC-fog基准)上实现了SOTA。此外,我们可以看到,基于DA的方法,直接适应从域s到域t的分割模型,不能显着提高性能相比,我们的方法。这与我们的假设是一致的,18928输入MSCNN DISE CMAda 3 + CuDA-Net(我们的)地面实况图4. 与SOTA方法的定性比较。输入图像是从Foggy Querich-test中随机选择的。红框清楚地表明,我们的方法可以更好地处理细节比SOTA方法。表3.消融研究。我们在Foggy的Escherich-test数据集上进行了这些实验组件mIoU增益初始化Deeplabv225.89 +0.00Fs→mFm→tFs→tMiou增益样式和雾分解✓✓✓✓39.1642.4940.21+13.27+16.60+14.32✓✓✓43.06+17.17T= 1T= 2T= 3Miou增益循环训练✓✓45.3245.78+19.43+19.89✓45.45+19.56L1余弦L2Miou增益累计亏损✓✓47.6447.23+21.75+21.34✓48.21+22.32当领域差距过大且受不同因素(风格和雾)影响时,自适应方法不能很好地执行,也证明了在这种设置下研究风格和雾因素的必要性。结果还表明,基于去雾的方法并不总是获得良好的性能。这是因为基于去雾的方法需要成对的训练数据来去除雾,而SFSU无法获得这种数据。在表1中,当我们将在CMAda 3+中模拟的合成雾景图像-雾景城市景观DBF引入我们的方法时,我们的CuDA-Net+进一步提高了性能,在FZ上比CMAda 3+高出2.3%(在FD上为3.7%)。请注意,当我们只引入498张密集的合成雾图像时,我们的CuDA-Net+比FZ上的CuDA-Net提高了0.9%,这表明合成雾图像和我们的CuDA-Net可以很好地互补。然而,将DISE [4]与除雾方法MSCNN [24]或雾合成方法SFSU [28]相结合不能产生比仅使用DISE [4]更好的性能。定性比较如图4所示。红框清楚地表明,我们的方法CuDA-Net可以更好地处理细节比CMAda 3+,特别是在天空和其他对象的边界类。表4. 建设m域的不同选择方案。当使用不同数量的图像时,我们比较了三种选择方案。我们在Foggy的Querich-test数据集上测试了训练好的模型#选择的图像无域名随机基于cnn手动19840.241.946.947.324840.242.447.748.129840.242.848.148.43.3. 讨论在本节中,我们进行了一系列的消融研究,以验证单个组件的贡献,最终雾场景的理解。有效的风格和雾分解。在表3中,非适配模型Deeplabv2(也是我们的CuDA-Net的骨干)在FZ上仅给出25.89mIoU。当使用'Fs → m '时当使用请注意,使用 除了使用循环训练的效果。我们调查了没有L cum的循环训练的重要性,即。使用等式(4)。如表3所示,当我们将T设置为2时,循环训练将性能提高了2.72。当我们将T设置为1或3时,两个结果都接近45.78,这表明性能对T的选择不敏感。累积损失的有效性。我们还在表3中研究了累积损失Lcum的影响。我们将T固定为2,并使用不同的距离度量来计算累积训练中两个域之间的域差异。我们发现L2距离达到最佳性能。我们还在图5中显示了一些主观分割结果。它们清楚地表明,随着CuDA-Net中使用更多组件,分割结果会更好。不同选择方案对构建m域数据集。 为了建造“透明苏黎世”,我们-18929→输入DeepLab-v2+Fs → m+Fs→m+Fm→t+Fs→m+Fm→tCuDA-网络地面实况Fs→t图5. 消融研究的定性结果。这些实验是在Foggy Escherich-test数据集上进行的。每一列显示了所提出的方法在不同分量下的结果结果表明,随着使用更多的组件,更清晰的空间结构表5. 对雨雪场景的概括。 我们在ACDC雨天和雪天子集上训练我们的基线,并在相应的验证集上测试它,其中Fs→m+ t意味着我们将m域和t域数据组合为整个目标域数据。InputGFNOurs(F mt)Figure 6. 除雾能力。我们将CuDA-Net中的Fm→t生成的去雾图像与常规除雾方法GFN [25]。输入图像是从Foggy Zurich随机选择的。根据人类视觉,从Foggy Zurich*[27]的光线类别中选择248张图像,看看它们是否清晰。 为了证明其有效性,我们还训练了一个CNN来区分Foggy Zurich* [27]光照类别中图像的清晰度,并选择前248张图像来构建m域。如表4所示,我们发现手动选择功能优于基于CNN的选择,这表明了我们手动选择方案的必要性。此外,当我们随机选择图像时,与基于CNN或手动选择相比,性能显著下降,这表明在选择期间需要合适的标准。除雾的可视化 虽然我们的CuDA-Net旨在传输风格和雾,以进行雾场景理解,但它也能够在去纠缠学习期间对雾图像进行去雾,如第2.1节的跨域翻译部分所述。在图6中,我们可视化了除雾的结果,并将我们的方法与除雾方法GFN [25]进行了比较。结果清楚地表明,我们的方法可以很好地去除雾,并且不会破坏图像的内容,而GFN [25]会带来颜色失真。对雨雪场景的概括。多亏了ACDC [29]数据集,我们可以在表5中的雨天和雪天场景中测试我们的方法。实验结果表明,本文提出的两步自适应算法优于其他自适应算法中直接从源域到目标域的诗景,表明我们的方法的潜力,以处理不同的不利的场景的理解。4. 结论在本文中,我们提出了累积式雾双解纠缠域自适应方法(CuDA网)的SFSU任务。我们假设SFSU中存在双重(风格和雾)域间隙,并且风格、雾和双重因素具有累积关系。我们的方法优于国家的最先进的方法在三个广泛使用的数据集SFSU和其他不利的场景,如下雨和下雪的场景表现出泛化能力。我们将公开代码。限制. 1. 我们选择DISE [4]作为我们的基线,它可以被其他新的更强的基于解纠缠的域自适应方法所取代。通过这样做,我们相信我们的CuDA-Net可以实现更好的性能。2. 我们进行了初步的实验,以展示对雨雪场景的一定概括能力,并可以进行更详细的分析,以验证在其他不利场景中是否存在累积关系。鸣 谢 。本 研 究 得 到 了 国 家 重 点 研 发 & 项 目( 2021YFC3320301 ) 和 国 家 自 然 科 学 基 金(62171325)的资助。本文的数值计算是在武汉大学超级计算中心的超级计算系统上进行的智翔感谢MEXT奖学金和价值交换工程,这是Mercari,Inc.起来。+设置Fs→m+tFs→mFs→m+Fm →tACDC(雨)46.243.948.5ACDC(雪)44.842.647.218930引用[1] Naif Alshammari,Samet Akcay,and Toby P.我猜通过领域自适应实现实时雾景理解的多任务学习的竞争简单性。CoRR,abs/2012.05304,2020。6[2] 尼基塔·阿拉斯拉诺夫和斯特凡·罗斯自监督增强一致性,以适应语义分割。在CVPR,2021年。1、6[3] Dana Berman,Tali Treibitz,and Shai Avidan.非本地图像去雾。在CVPR,2016年。二、六[4] 张伟伦、王惠波、彭文孝、邱伟臣。关于结构:跨域调整结构信息以促进语义分割。在CVPR,2019年。一、三、六、七、八[5] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义PAMI,2017年。6[6] Yuhua Chen,Wen Li,and Luc Van Gool.道路:面向现实的适应城市场景的语义分割。在CVPR,2018年。1[7] Jaehoon Choi,Taekyung Kim和Changick Kim。基于gan的数据增强的自集成用于语义分割中的领域适应。在ICCV,2019年。1[8] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。5[9] Dengxin Dai , Christos Sakaridis ,Simon Hecker , andLuc Van Gool.基于语义模糊场景理解的合成和真实数据的课程模型适应。IJCV,2020年。一、二、六[10] 塞巴斯蒂安·德·布卢瓦,伊森·赫德利和克里斯蒂安·加根。用于分割任务的图像去雾模型的学习。2019年,在欧洲石化公司。2[11] 李高,张静,张乐飞,陶大成。Dsp:用于无监督域自适应语义分割的双软粘贴。在ACMMM,2021年。1[12] Rui Gong,Dengxin Dai,Yuhua Chen,Wen Li,andLuc Van Gool.用于雾生成的模拟图像转换。在AAAI,第1卷,第2页,2021年。二、六[13] 郭晓青,杨晨,李宝璞,袁逸轩。元校正:语义分割中无监督域自适应的域感知Meta丢失校正。在CVPR,2021年。1、6[14] Martin Hahner、Dengxin Dai、Christos Sakaridis、Jan-Nico Zaech和Luc Van Gool。用纯合成数据对雾天场景进行语义理解在ITSC,2019年。一、二[15] 何开明,孙建,唐晓鸥。使用暗通道前去除单个图像PAMI,2010年。二、六[16] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz. 多 模 态 无 监 督 图 像 到 图 像 翻 译 。 在 ECCV ,2018。三、六[17] Myeongjin Kim和Hyeran Byun。学习纹理不变量表示的语义分割域适应。在CVPR,2020年。1[18] Divya Kothandaraman , Rohan Chandra , and DineshManocha.危险环境下道路分割的自监督无源域自适应arXiv预印本arXiv:2012.08939,2020。1[19] 李广瑞、康国良、刘武、魏云超、杨毅。领域自适应语义分割的内容一致性匹配。在ECCV,2020年。1、6[20] Guosheng Lin ,Anton Milan,Chunhua Shen,and IanReid. Refinenet:用于高分辨率语义分割的多路径细化网络。在CVPR,2017年。6[21] Ke Mei,Chuang Zhu,Jiaqi Zou,and Shanghang Zhang.实例自适应自训练,用于无监督域自适应。在ECCV,2020年。1[22] 斯里尼瓦萨湾Narasimhan和Shree K.纳亚尔天气退化图像的对比度恢复。PA
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功