开放复合域自适应语义分割：聚类、分割、重构和更新

24 浏览量更新于2024-01-22 收藏 2.8MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8344聚类、分割、重构和更新：开放复合域自适应语义分割龚瑞1，陈玉华1，Danda Pani Paudel1，李亚伟1，Ajad Chhatkuli1，李文3，戴登新1，Luc Van Gool1，21计算机视觉实验室，苏黎世联邦理工学院，2VISICS，KU Leuven，3UESTC{gongr，yuhua.chen，paudel，yawei.li，ajad.chhatkuli，dai，vangool} @vision.ee.ethz.ch，liwenbnu@gmail.com摘要开放复合域自适应（ Open Compound DomainAdaptation，OCDA）是一种局部自适应环境，目标域被建模为多个未知同构域的复合体，从而提高了对未知域的泛化能力。在这项工作中，我们提出了一个原则性的元学习为基础的方法，OCDA的语义分割，MOCDA，通过建模的未标记的目标域连续。我们的方法包括四个关键步骤。该算法首先根据图像类型将目标区域聚类为多个子目标区域，然后采用无监督的方式提取目标区域。然后，不同的子目标域被分成独立的分支，对于这些分支，批量归一化参数被学习以独立地对待它们。此后，元学习器被部署为学习以风格代码为条件来融合子目标领域特定的预测意思是-(c) 保险丝(d) 更新同时，通过模型不可知元学习（MAML）算法在线更新模型，进一步提高泛化能力。我们通过对合成到真实知识转移基准的大量实验来验证我们的方法的好处，在那里我们在复合域和开放域都实现了最1. 介绍具有最小监督的语义分割是图像理解最受欢迎的目标之一[23，56]。不幸的是，在一个领域中学习到的理解并不能推广到其他领域的图像[4]。在这种情况下，领域适应旨在跨不同但相关的领域转移共享知识[41]，即，源和目标，使用来自目标的未标记图像。当目标域图像以混合、连续变化甚至非连续变化的方式采集时，图1：（a）传统的无监督域自适应（UDA）与（b，c ， d ）提出的基于元的开放复合域自适应（MOCDA）。与传统的UDA不同，MOCDA将靶标看作是多个未知子域的复合物使用集群和分割模块（b）来发现和处理这些子域。融合模块（c）然后将子域分裂组合为基础（虚线）。在开放域上，MOCDA通过（d）中的推理（蓝色箭头）期间的在线更新进行适应。元学习在融合和更新模块中发挥作用。开放复合域自适应（OCDA）将目标看作是多个未知子域的复合体.这种假设已经被Liu等人证明是非常有前途的。[35]对于图像分类的许多实际设置。然而，该方法在[35]没有完全利用相同的假设来完成图像分割任务1在这项工作中，我们表明，看到的情况下，理解图像会引发问题，开放复合域适应[35]。1OCDA [35]没有充分利用seg的域信息(a)传统领域适应(b)群集/拆分8345均匀子域假设也可以有效地用于图像分割。我们提出了一种新的基于元学习的 OCDA 方法（简称MOCDA），它由四个模块组成：集群;分裂;融合;和更新，如图所示。1.一、与OCDA类似，所提出的MOCDA利用两个图像集进行训练：单个标记的源域;和不同的未标记的目标域，其被假设为多个未知子域的复合。这种假设适用于真实的搜索情况，其中目标域是多种因素的组合，包括不同的天气、城市和获取时间[45，13，40]。所考虑的学习设置不仅执行域适应复合目标域，但也有推广潜力看不见的开放域。在这种情况下，域适应的过程恰好表现出元行为[29，3，12]，动态学习使开放世界语义分割成为可能。在这项工作中，我们表明，Meta行为的OCDA可以学习使用（a）超网络的动态融合的知识，和（b）在线更新。一方面，更新过程-- 仅用一个梯度步长创建更好的开集泛化的机会。另一方面，学习的动态融合允许图像从复合目标域的连续流形出现。实质上，拟议框架分为以下四个步骤。(i)从目标图像中提取样式代码并将其分组为多个聚类。 (ii)对于每个集群，学习一组批归一化（BN）参数(iii) 对应于每个聚类，每个图像可以具有不同的特定于域的预测。然后，超网络学会融合这些预测。(iv)在超训练过程中利用模型不可知元学习（MAML）[15]，在推理阶段赋予模型在开放域上的在线更新能力本文的主要贡献可概括如下：• 我们提出了一个新的框架，在OCDA设置的语义分割。我们在动态融合和基于在线更新的MAML策略中使用元学习，以解决[35]的局限性。• 我们提出了以子目标域为基础，对复合目标域进行连续建模的方法，具有适应目标域和推广未知开放域的优点.• 我们证明了充分的图像风格的功能，学习在无监督的方式，为我们的元为基础的方法MOCDA。由于域编码器的不可访问性，因此无法执行分段任务。详情请参阅原始文件[35]• 所提出的方法提供了最先进的结果，在合成到真正的知识转移基准数据集，为复合和开放领域。2. 相关作品无监督领域适应和泛化。我们的工作与域适应有关[51，41，57，18，60，44]和域泛化[29，28，33，30]工作。无监督域自适应的目的是在标记的源域上训练模型，并将学习到的知识转移到未标记的目标域。传统的无监督域自适应工作[38，16，39，59]通常专注于解决从单个源域到单个目标域的自适应问题。单目标域搜索虽然最近，多目标域自适应问题[12，17]受到越来越多的研究兴趣。该问题研究知识转移到多个未标记的目标域。经典领域适应方法没有优先考虑的另一个重要方面是知识转移到看不见但相关的开放领域[35，19，31]。跨领域语义分割。为了提高语义分割模型的自适应性和泛化能力[7，63，50，37，9，8]，交叉-领域语义分割主题被广泛研究，无论是在领域适应设置[68，53，71，11，10，62][2019 -04 - 19][2019 - 04-19][2019-04-19][2019 - 04 - 19]大多数作品要么假设目标域是一个单一的域[53，68，52，22，11，10，71]，要么假设目标域是多个域的组合，[19，67，69，47]，但OCDA除外[35]。OCDA将目标域假设为多个未知域的组合，这在实际应用中更符合实际。[35]与分类任务相比，遵循不同的语义分割方法。因此，课程学习是基于平均班级信心分数，而不是在分类任务的情况下整齐地学习领域集中的因素。尽管如此，我们工作的实验设置受到[35]的启发同时，[43]开发了OCDA问题的基于图像平移的方法，这是对我们方法的补充。除了[35，43]中的开放域之外，我们的工作进一步探索了模型在面对更多样化的扩展开放域时的泛化能力领域适应/泛化的元学习。元学习解决了学习学习的问题，并已成功地应用于各种应用，包括图像分类[20]，图像恢复[24]，vi-super tracking [5]和网络压缩[32]。元学习[54，21]的原理也被研究用于任务域自适应[46，27，12]和泛化[29，3，14]，以及算法进步[2，15，48]。我们的工作可以与这些作品在性别方面8346不不不不不方法论。在这些作品中，最相关的是[12]和[66]。相似之处在于：（1）两者[12]我们的MOCDA通过元学习研究了当存在多个未知目标域时的域适应2）[66]和我们的MOCDA都旨在借助MAML策略来提高语义分割模型的领域泛化性能。然而，我们在以下方面有显著的差异：1）[12]利用元学习器将目标域聚类为不同的子目标域，目标域被建模为多个子目标域的联合而[12]不包括开放域。利用元超网络融合不同簇的知识，将目标域建模为连续的复合目标域。2）[66]没有研究领域自适应问题，只关注领域泛化。[66]中的MAML策略仅在训练阶段在良好标记的源域上使用。相比之下，MOCDA在训练阶段同时在标记良好的源域和未标记的目标域中使用MAML策略。在推理过程中，利用MAML策略进行在线更新。3. MOCDA模型你的助手。我们认为标记源域S由源图像xs和相应的语义标记 ys 组成，即， S={ （ xs ， ys ）|xs∈RH×W×3，ys∈RH×W}，其中H，W是高度，开放域名。框架概述如图2a所示。在下文中，我们分别提供所有四个模块的详细信息。3.1. 聚类：风格代码提取和聚类聚类模块的目的是将目标域T聚类成不同的子目标域Tk，k=1，. . .，K，服务于目标域的未知多个子目标域的OCDA假设。如图所示在[35，26]中，由于天气、光照和数据集间等条件的变化而导致的目标域图像的主要差异可以通过图像的风格来有效地反映。我们的集群模块包括两个映射;Ec（·）和El（·）。Ec（·）将ta r getdo-mainT映射到样式代码域Ct={ct|ct∈Rl}表示为Ec：T →Ct，其中l是样式码的维数。更具体地，目标域图像xt被映射到低维风格码ct= Ec（xt）。然后采用聚类算法K-means [36]来自动聚类风格代码域Ct，划分为具有质心{ck}的K个聚类。我们使用映射E1（ · ）来将 xt 分配给子目标域之一，由集合K={k|k=1，. . . ，K}，则E1：T→K。在这里，我们对El（·）采用最近邻策略。更具体地，每个目标图像被分配到最近的聚类，使用图像的样式代码和质心之间的欧几里得距离，由下式给出，El（xt）：= arg min <$ct− ck <$。（一）图像的宽度。在OCDA中，未标记的目标域T由来自多个图像的目标图像xi三重齐次子域，Ti={xi|xi∈K我们的集群模块的关键是找到一个适当的地图-pingEc（·）。在本工作中，不不RH×W×3}，i = 1，. . . N，其中N是子目标域的数量。在这项工作的背景下（也在OCDA中），这些子目标域是未知的。因此，来自某个未知子目标域Ti的图像xi是相似的。为了表示方便和清楚，层表示为xT在本节中，我们提出了用于se的 MOCDA模型芒裂MOCDA模型由四个模块组成：集群、拆分、融合和更新。聚类模块从目标域图像中自动提取并聚类出风格代码，将目标域划分为多个子目标域。分割模块采用复合域特定批量归一化（CDBN）层，使用不同的分支处理不同的子目标域图像。该模块利用超网络来预测对应于每个分支的权重自适应，输入图像的风格代码的网络的最终输出是不同分支输出的加权利用MAML方法对训练模块进行训练，使模型在更新模块中快速自适应。最后，在推理时间内，采用一个梯度步长在线更新，这是有益的框架MUNIT [26]被训练为在源域S和目标域T之间进行翻译。在翻译训练过程中，训练MUNIT的风格码编码器从非监督图像中提取风格码。MUNIT的训练风格编码器用作Ec（·）。然后，将目标域T聚类为K个子目标其中，子目标域的数量K是超参数。使用最近邻搜索，fer方程（1）中，每个目标图像xt被分配给子目标域Tk中的一个。因此，将分配给图像第k个聚类的图像xt表示为xk。3.2. 拆分：特定于域的批处理规范化在[6]中，通过分离源域和目标域的批量归一化层，特定于域的批量归一化（DSBN）被证明有利于无监督域类似于UDA的DSBN，我们的分裂模块的目的是将多个子目标域特定信息与域不变信息分离。我们提出了OCDA的DSBN（简称CDBN），对源域S和多个83471˜˜˜不不不不σ23sadvk=1K不TT(iii) 保险丝(iv) 更新（测试）(a) 框架概述（b）复合领域建模图2：（a）MOCDA框架概述，展示了四个模块：（i）集群，（ii）拆分，（iii）更新和（iv）更新。（b）以K=3为例说明复合域建模。子目标整环P（f∈t|xt，1），P（ft|xt，2）和P（ft|xt，3）作为基础。聚类/分割模块将复合目标域建模为三个点的并集，即，红点绿点蓝点但是融合模块对复合目标域P（ft）进行建模，|xt）作为向量H（ct）=[H（ct）（1），H（ct）（2），H（ct）（3）]′，构成紫色半球面。（成簇的）子目标域{T k}。请注意，UDA的DSBN仅学习两组BN参数（在给定更多标记域的情况下可能进行扩展）。然而，所提出的CDBN针对源域和多个未标记的子目标域学习K + 1组BN参数，即，BS，B1，...， BK，公式为，xs−µs多分支对抗性损失。回想聚类模块，每个目标图像xt被分配给唯一的子目标域标签k，即， xk. 这里，在分割模块中，仅使用对应的分支Gk来处理图像x k，即，Gk（xk）.我们的多分支对抗性损失是对抗性损失的扩展[58]，它对齐源域Gs（xs）的预测分布，BS（xs，µs，σs，βs，γs）=γsσsxk−µk+βs，（2）子目标域{Gk（xk）}。多支血管损伤Lsadv与相应的神经元训练Bk（xk，µk，σk，βk，γk）= γkt t+ βk，（3）损失Lsd被公式化为，T t t t t t t t t t tk t不L（G）=−E.K.Elog（D（G（xk））（n，1）），（5）分裂模块用CDBN代替BN层所示Lsd（D）=−Exs<$PSlog（D（Gs（xs））（n，1））（6）图2a，我们的分割模块包括多分支语义，- --Exklog（D（Gk（xk））（n，0）），分段网络G ={Gs，G1，.，GK}和k=1tTkt我的天Gk是通过选择第k个分支形成的Bk的CDBN层。通过对抗性学习，该算法在输出空间中对齐源域和子目标域的预测分布。因此，拆分模块的完整优化目标包括语义分割损失和对抗损失，如下所示。语义分割损失。我们使用源域图像xs和相关联的地面真值标签ys来训练具有标准交叉熵损失的语义分割网络G，其中PS和PTk分别是S和Tk下面的全优化对象用于训练我们的分割模块，Lsplit（G）=Lseg（G）+λ1Lsadv（G），（7）其中λ1是一个权衡参数。在训练过程中，我们交替地用等式中的目标来优化CXD和生成器G（6）Eq。（7）分别。3.3. HyperNetwork for Branches Fusion（HW ML（G）=−1n（n，m）log（G（x）（n，m）），（4）CDBNBSBT1BBTK(i)集群(ii)分裂BSBT1BBTKBSB1不B一个梯度步长MAML不其中k是子目标域标记，k = 1，.，K. 我们xkP不K8348聚类和拆分模块将目标do离散化，segHWsss n=1m =1将其分成几个簇，提供初始离散模型-在目标域中。离散模态其中（n，m）表示M个类的（像素，类）索引形成连续流形，其上的样本反射K-Means18349KKK˜K˜不K不不克·特k=1P（ft|xt）d ft|xt) dftK˜˜˜KKK目标域的连续变化，并且可能对应于看不见的域。在融合模块中，我们学习组合子目标域，以不断地对复合目标域进行建模。复合域建模。在这里，我们在对应的特征域F中对目标域T进行建模，该特征域F由F：T→F映射。设P（f∈t|xt，k）be目标域分布。这里我们采用网络G作为映射F.在[25]之后，我们重新加权每个特征样本f= G（x），H（c），因此，来自主导子目标域的特征样本具有较高的权重，而来自非主导子目标域的样本具有较低的权重。最终预测可以表示为，对应于图像xt的特征分布，被认为是来自第k个集群。然后，得到图像的特征ft的分布xt，i。例如， P（f）t|xt），表示为yt= αH（ct）（k）Gk（xt）.（十一）k=1因为，1000万美元通过结合Eq.（11）Eq.（5）、对抗性损失k熔断器模块Lfadv和相应的保险丝P（ft|xt）=k=1∫FP（f）t，k|xt）= NKk=1P（k|xt）P（ft|xt, k)（八）训练损失Lfd可以用公式表示Lfadv（G，H）=−Ext<$PTlog（D（y<$t）FDxsPSSS（n，1））（12）其中N=KL（D）=−Elog（D（G（x））（n，1））（13）描述子目标do的概率分布main 通过采取子目标做-−ExtPTlog（D（yt）（n，0））。主分布P（ft|xt，k）作为基础，可以用向量对复合目标域进行建模，即，{[P （ 1|xt ）， . ，P （ k|xt ）， . ，P（K|xt）]′}。HyperNetwork用于分支融合。实质上，聚类和分割模块可以被看作是将子目标域标签分布建模为P（k|xt）=1，如果E1（xt）=k且P（k|xt）=0，则E1（xt）k. 它将复合目标域建模为离散点在向量空间中，如图2b所示。为了在连续空间中对复合目标域进行建模，在我们的融合模块中，我们采用了P（k）的类别分布|xt），即，P（k|xt）= wk，其中，wk= 1，wk> 0，（9）k=1其中w =[w1，...， wk，.，是K维分类向量，其元素wk表示目标图像xt属于子目标域Tk的概率。然后采用hypernet工作H（·）学习P（k|xt），取图像样本x t的样式代码ct作为输入，即，[w1，.，wk，.，wK]n=H（ct）. 将H（ct）代入等式（8），特征分布P（ft|xt）可以被导出为，我们的引信模块的优化目标是一个组合，国家的EQ。（4）Eq.（12），它是由，Lfuse（G，H）=Lseg（G）+λ2Lfadv（G，H），（14）其中λ2是用于在对抗损失和分割损失之间平衡的超参数。在训练过程中，我们交替地优化EqD和生成器G，超网络H与Eq中的目标。（13）和Eq。（14）分别。在我们的MOCDA模型中，融合模块的训练与MAML策略相结合，这将在第3.4节和算法1中进一步解释。3.4. 更新：基于MAML的在线更新在以前的OCDA工作[35]中，开集仅被视为一个测试集，以验证模型的泛化能力。相比之下，在我们的工作中，开集也用于在测试期间在线更新模型，以便更好地推广到MAML实现的未知领域。MAML。MAML策略[15]旨在学习最佳模型参数θ，从而简化新任务的适应过程。在MAML的每次迭代中，有两个训练循环：内部和外部。设内外循环的数据分别为Din和Dout在每次训练迭代中，模型参数θ首先更新为P（f）t|xt）Σk=1H（ct）（k）P（ft|xt, k).（十）内环损耗Lin和数据Din。更新后的模型，然后评估外环损失L出和数据D出，以测试更新后的模型的泛化能力毛皮-其中H（c）（k）是H（c）的第k个元素。当量（10）显示此外，还采用了评价性能L_outtt，以更好地概括模型。此嵌套复合目标域是在连续连续向量空间H（ct），取子目标域分布P（ft|xt，KK. P（k|xt）K8350k）为基础，如图所示。 2b.训练方式模仿模型的训练和测试阶段为了赋予自适应能力，MAML的优化目标被表述为，从上面可以看出，H（ct）对不同的子目标域分布不同，以获得COM-θ=arg minLθ出来（θ−αLin（θ，Din），D出来），（十五）8351GHGHΣΣOOOGHOGH其中α是更新模型的学习率。MAML为OCDA。在我们所解决的OCDA语义分割问题中，来自看不见的开放域O的集合{xo}的图像仅在测试期间可用。我们在MOCDA中采用了MAML算法，训练与引信模块相结合然后，MAML为我们提供了在测试过程中快速适应开集的优势，通过一个梯度步骤内的在线更新。在内部循环中，我们从目标域中采样数据T，即，Din={xt}。同时，为了更新没有监督的模型，我们使用无监督的自-算法1用于OCDA的MAML算法（训练）要求：源数据S={（xs，ys）}，目标数据T={xt}，分割网络G，超网络H，判别器D，G，H的学习率α，以及学习率为100%。1：分别初始化分段网络G、超网络H和超网络D的参数θGH和θD;2：不做就做第三章：样品D来自T恤内环第四章：θ+<$θGH−α<$θLin（Din，θGH）;熵损失[62]Lent作为内环损失L，模拟测试期间的模型更新过程，由下式给出5：从S和T外环取出的样品D+6： θGH<$θGH−α<$θLout（Dout，θ）;1Lin=Lent=−HWHW Cn=1c=1于特（n，c）洛格日什特7：θD←θD−θ D − θDLfd（Dout，θD）;8：结束时（n，c）. （十六）算法2OCDA的MAML算法（测试）在外部循环中，从两个源do-主结构域S和靶结构域T，即， Dout={xs，ys，xt}。为了评估模型在不同环境下的性能，要求：来自未知新域O、分段网络G、超网络H的数据{xo}。域，并以不同的方式，外环损耗L出来使用1：使用分割网络的训练参数θGH工作，G和超网络H，从训练方程中引信模块的优化目标（十四）和方程中的自熵损失。（16），这样，其中δ是用于在融合器模块损失和无监督自熵损失之间平衡的超参数的阶段;2：F ←03：对于i=1，...，n是否4：从{x0}采样第i个图像xi;5：y∈i←G（xi）;算法1中给出了OCDA训练期间使用的MAML算法。类似地，在OCDA测试的在线更新期间使用的MAML在算法2中给出.3.5. MOCDA培训协议6：θGH←θGH−ηθGH第七章：端4.1. 实验设置Lent（y∈i，θGH）总的来说，我们的MOCDA模型是以多阶段的方式训练的，包括三个步骤：i）训练MUNIT模型用于风格代码提取和聚类，ii）在分割模块中使用CDBN层进行训练，iii）冻结CDBN层，添加超网络和融合模块，并训练超网络H并使用算法1中描述的MAML策略微调语义分割网络G。然后在测试阶段，我们的整个模型，除了CDBN层，是在线更新的MAML策略中阐明算法2。4. 实验在本节中，我们将展示MOCDA模型在开放复合域自适应语义分割设置下的优势。我们比较我们的MOCDA模型与其他国家的最先进的（SOTA）的方法在目标域和开放域。为了进一步证明MOCDA模型在开放域在线更新中的有效性，我们引入了更多样和更具挑战性的扩展开放域来测试模型。在[35]之后，我们采用合成图像数据集GTA 5 [49]或SYNTHIA-SF [53]作为源域，BDD 100 K [64]中的下雨，下雪和多云图像作为目标域，而BDD 100 K中的阴天图像被用作开放域。此外，来自其他真实图像数据集的更多样化的图像，Cityscapes[13]，KITTI[1] 和WildDash [65] 被引入作为扩展的开放域。我们采用DeepLab-VGG 16模型[7，55]，其中批量归一化层作为分割网络。簇编号K被设置为4。分段网络和网络结构与[58]相同方程中的超参数λ1和λ2（14）Eq.（7）设为0.001.方程中的超参数δ（17）设为0.0001。4.2. GTA 5转BDD 100K与SOTA比较在表1中，我们提出了我们的开放复合结构域的适应结果，与其他SOTA方法相比。为了公平比较，所有方法都采用了带有批量归一化层的DeepLab-VGG 16 模型。与我们的基线方法AdaptSegNet[58]相比，我们的拆分模块实现了3. 百分之一8352(a) 聚类可视化群集(b) 不同集群图3：聚类结果的可视化。(a)是由聚类模块提取的样式代码的t-SNE可视化，（b）是来自不同聚类的示例图像。源GTA→阴雨化合物雪域多云开放阴天AvgC C+O来源[35]仅来源16.219.718.018.420.920.521.222.518.919.719.121.0[35]第三十五话20.221.223.825.122.122.5[58]第58话21.620.523.927.122.324.4CBST[71]21.320.623.924.722.222.6[42]第四十二话20.621.926.125.522.823.5PyCDA [34]21.722.325.925.423.323.8OCDA [35]22.022.927.027.924.525.0我们的（斯普利特）23.523.527.829.525.427.1Ours（我们的）24.427.530.131.427.729.4表 1 ：与 SOTA的语义分割性能比较：GTA→ 使用DeepLab-VGG 16的BDD 100 K表2：开放域语义分割性能比较w/o在线更新：GTA→BDD 100 K与DeepLab-VGG 16主干。结果报告mIoU超过19类。“复制”是指我们复制的结果。阶段，我们的MOCDA模型在所有开放域上的性能提高了0。7%，从28。1%至28。百分之八我们的模型w/或w/o在线更新在开放域上具有相同的性能，BDD 100K阴天图像。这是因为BDD 100K阴影图像仍然来自于BDD 100K数据集，并且阴影图像与目标域图像之间的风格差距很小，其可视化在补充中显示。从我们的集群，分裂和融合模块的好处已经能够处理骨干结果报告mIoU超过19班“复制”是指我们复制的结果。和2. 在目标域和开放域上分别获得4%的增益。与SOTA方法OCDA[35]相比，我们的拆分模块性能优于0。9%的目标域和1。6%的开放领域。实验证明了聚类模块和分割模块对于子目标域发现和子目标域信息分离的有效性。聚类可视化如图所示3 .第三章。在融合模块中采用超网络的元学习和MAML训练策略，使MOCDA模型的性能达到了最先进水平，将分割模块的性能提高了2。3%，从25。4%至27。7%，1。9%，从29。5%至31。4%的目标域和开放域，分别。证明了MOCDA模型在融合不同子目标领域知识、通过超网络连续建模目标领域以及采用MAML训练策略等方面的优势对目标领域的语义分割结果的定性比较如图所示。四、在线更新。在我们的MOCDA模型中的另一个元学习范例，除了融合模块，是基于MAML算法的在线更新在测试阶段。从表2中可以看出，我们的MOCDA模型没有在线更新，优于基线方法AdaptSegNet[58]在开放域和扩展的开放域上都增加了5。平均6%。实验证明了本文提出的聚类、分裂和融合模块在开放域生成中的有效性.通过在测试过程中进一步使用算法2中描述的基于MAML的在线更新策略，风格差异小，具有较好的推广性。性能增益，0。7% ， 1. 1% 和 1. 0% 的扩展开放域，其中风格差距Cityscapes，KITTI和WildDash数据集，证明了基于MAML的元学习范式，在用于训练的算法1和用于测试的算法2中，增强了对我们的模型的快速适应能力，以在开放域上更好地泛化。开放领域的定性比较（不含在线更新）见图10。四、消融研究。我们在表3中显示了消融和我们模型的不同变体的比较。从表3中可以看出，所有的模块、集群/拆分模块（Lsplit）、融合模块（Lfadv）和MAML训练策略对整个MOCDA模型都有帮助俱乐部-在与AdaptSegNet[58]和其他SOTA方法的比较中，已证明ter和split模块是有用的。在这里，我们展示了我们的元学习范式，超网络和MAML训练策略的有效性，通过消融和变体方法的比较。首先，为了验证超网络的有效性，我们建立了分支融合的非自适应基线方法：1）在分裂模块的测试阶段进行平均融合预测。2）在引信模块训练和测试阶段平均引信。3)在FUSE模块的训练和测试阶段，使用来自不同簇的样式码距离来加权不同分支结果表明，我们的超网络的分支融合策略的性能，27。1%，优于所有其他非自适应融合策略，23。百分之一，二十六。百分之一，二十六。百分之六该方法利用超网络的自适应权值预测的优点，其次，通过比较列车的性能，1234源GTA→开放BDD伸展打开城市景观KITTIWildDashAvg来源[35]21.2––––源代码22.519.324.116.020.5[35]第三十五话25.1––––[58]第58话27.122.023.417.522.5w/o在线更新31.430.429.820.628.1w/在线更新31.431.130.921.628.8在线更新–+0.7+1.1+1.0+0.78353源SYNTHIA-SF→化合物阴雨雪域多云开放阴天AvgC C+O源仅16.5 18.2 21.420.619.2十九点八MinEnt[62][58]第五十八话21.8 22.624.9 26.9 30.725.730.323.9二十四点七28.0二十九点零我们的（斯普利特）Ours（我们的）25.2 27.9 32.426.6 30.031.832.629.130.330.431.4表3：不同消融和变体比较表4：与SOTA的语义分割性能比较：SYNTHIA-SF→具有DeepLab-VGG 16主干的BDD 100 K。结果报告mIoU超过11类。最佳结果以粗体表示。对于OCDA，在BDD 100k目标域上测试，基于DeepLab-VGG 16具有批处理规范化层主干。结果报告mIoU超过19类。*仅表示测试期间的平均熔合。表示在训练和测试期间不同分支的平均融合§表示训练和测试期间的风格码距离加权融合。使用等式中的L输出来（17）和纯粹使用L熔断器在方程。（14），证明有0。2%的性能增益，通过添加无监督熵损失，从27。1%至27。百分之三通过进一步引入算法1中的MAML训练策略，ule，在我们的MOCDA模型中所做的，性能可以进一步提高到27。百分之七实践证明，MAML训练策略不仅有助于上述开放领域的通用化，而且有利于提高源SYNTHIA-SF→开放BDD伸展打开城市景观KITTIWildDashAvg源20.624.720.717.320.8[58]第五十八话30.335.924.720.727.9w/o在线更新32.629.933.224.530.1w/在线更新32.632.234.225.831.2在线更新–+2.3+1.0+1.3+1.1表5：开放域语义分割性能比较（带或不带在线更新）：SYNTHIA-SF→ BDD 100 K，带DeepLab-VGG16主干。结果报告mIoU超过11类。模型对目标函数的自适应性能（i）图像（ii）非适应（iii）适应（i）图像（ii）我们的w/o更新（iii）我们的w/updatemain.这是由于MAML训练策略通过外环和内环模拟了模型的训练和测试过程，使模型具有更强的领域适应性。4.3. SYNTHIA SF至BDD 100K在本节中，SYNTHIA-SF 用作源代码。在 [70]之后，我们仅采用SYNTHIA-SF数据集中的11个主要类来测量语义分割性能，它们是道路、人行道、建筑物、墙壁、围栏、杆、光、植被、天空、人和汽车。与SOTA比较在表4中，我们报告了我们的MOCDA模型和其他SOTA方法之间的定量比较结果，用于开放复合结构域适应设置，从SYNTHIA-SF 到BDD 100K。从表4中可以看出，我们的MOCDA模型在目标域和开放域上都优于MinEnt [62]和AdaptSegNet [58]。进一步验证了MOCDA模型在OCDA中的有效性在线更新。在表5中，示出了我们的MOCDA模型对于开放域和扩展开放域的性能。我们的MOCDA模型w/o在线更新优于AdaptSegNet方法2。2%，在所有的开放域。通过进一步利用开放领域的在线更新，可以进一步提高性能. 平均1%，从30。1%至31。百分之二它进一步图4：目标域（包括下雨、下雪和多云天气）和开放域（KITTI、Wild- Dash和Cityscapes）上的语义分割结果证明了开放域在线更新的有效性5. 结论在本文中，我们解决的问题，开放复合领域的适应，并提出了一个元学习为基础的模型，MOCDA。MOCDA由集群、分裂、融合和更新四个模块组成融合与更新模块采用元学习技术，实现对复合目标域的连续大量实验表明，该模型在不同的基准测试中均达到了最佳性能，证明了所提出的MOCDA模型的有效性.致谢。该研究已获得欧盟地平线2020研究和创新计划的资助，资助协议编号为820434。李文的课题得到了新一代人工智能重大专项（批准号：2018AAA0100400）的支持。Dengxin Dai是由丰田汽车欧洲通过研究项目TRACE苏黎世支持。目标域多云雨夹雪L段LadvLsadvLfadv长期MAMLMiouC18.9CC22.3CC25.4CC23.1†CC第26.1节CC26.6§CC27.1CCC27.3CCCC27.7开放域KITTIWildDash城市景观8354引用[1] Hassan Abu Alhaija ， Siva Karthik Mustikovela ， LarsMescheder，Andreas Geiger，and Carsten Rother.增强现实与计算机视觉：城市驾驶场景的高效数据IJCV，126（9）：961-972，2018。6[2] Marcin Andrychowicz ， Misha Denil ， Sergio Gomez ，Matthew W Hoffman ， David Pfau ， Tom Schaul ，Brendan Shillingford，and Nando De Freitas.学习通过梯度下降来学习。InNeurIPS，2016. 2[3] 尤格什·巴拉吉，斯瓦米·桑卡拉纳拉亚南，和拉玛·哲拉帕. Metareg：使用元正则化实现领域泛化.在NeurIPS，2018年。2[4] Shai Ben-David ， John Blitzer ， Koby Crammer ， AlexKulesza ， FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论Machine learning，79（1-2）：151-175，2010. 1[5] Goutam Bhat ， Martin Danelljan ， Luc Van Gool ， andRadu Rifte. 学习判别模型预测跟踪。在ICCV，2019年。2[6] Woong-Gi Chang，Tackgeun You，Seonguk Seo，SuhaKwak，and Bohyung Han.针对无监督域自适应的特定域批量归一化在CVPR，2019年。3[7] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络，atrous卷积和全连接crfs进行语义TPAMI，40（4）：834第二、六条[8] Liang-ChiehChen ， GeorgePapandreou ， FlorianSchroff，and Hartwig Adam.重新思考语义图像分割的卷积。arXiv预印本arXiv：1706.05587，2017。2[9] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018年。2[10] Yuhua Chen，Wen Li，Xiaoran Chen，and Luc Van Gool.从合成数据中学习语义分割：一种几何引导的输入输出自适应方法。在CVPR，2019年。2[11] Yuhua Chen，Wen Li，and Luc Van Gool.道路：面向现实的适应城市场景的语义分割。在CVPR，2018年。2[12] 陈子良，庄靖宇，梁晓丹，林良。对抗性Meta适应网络的混合目标域适应在CVPR，2019年。二、三[13] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rupfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。第二、六条[14] Qi Dou ， Daniel Coelho de Castro ， KonstantinosKamnitsas，and

下载后可阅读完整内容，剩余1页未读，立即下载