语义分割任务中的无监督域自适应：跨域调整结构信息以提高分割性能

5 浏览量更新于2023-10-18 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1源域源特定纹理目标域域不变结构目标特定纹理关于结构：跨域调整结构信息以提高语义分割张伟伦 *王慧波 * 温晓彭维珍邱国立交通大学台湾{luckchang.ee06g，a88575847.cs06g，wpeng，walon}@ nctu.edu.tw摘要在本文中，我们解决了语义分割任务的无监督域自适应问题，我们试图将在具有地面真实标签的合成数据集上学到的知识转移到没有任何注释的真实图像上。基于图像的结构内容是语义分割中最重要和最具决定性的信息，并且可以跨领域共享的假设，提出了一个领域不变结构提取（DISE）框架，将图像分解为领域不变结构和领域特定纹理表示，进一步实现跨领域的图像翻译，并支持标签转移以提高分割性能.大量的实验验证了我们提出的DISE模型的有效性，并证明了它的优越性比几个国家的最先进的方法。1. 介绍语义分割是预测图像的像素级它被认为是计算机视觉中最具挑战性的任务之一。由于近年来深度学习的复兴，我们见证了这项任务的巨大飞跃。自全卷积网络（FCN）诞生以来，它是建立在预先训练的分类模型（例如，VGG [21]和ResNet [7]）和去卷积层，已经提出了许多技术来推进语义分割，例如扩大感受野[2，27]和更好地保留上下文信息[28]，仅举几例。然而，这些方法在很大程度上依赖于监督学习，从而需要昂贵的像素级注释。为了避免这个问题，一种解决方案是在合成数据上训练分割模型。当今的计算机图形学技术能够为虚拟场景合成高质量的、照片般逼真的图像。因此，有可能-* 两位作者贡献相同(a) 常规域自适应(b) 该方法图1.比较传统的领域适应语义分割和我们提出的方法。而不是使整个特征表示域不变，我们只调整跨域的结构组件的分布。能够建立用于监督语义分割的数据集（例如，GTA5[17]和SYNTHIA [18]）基于这些合成图像。在渲染过程中，它们的像素级语义标签是现成的.然而，在合成数据集上训练的分割模型通常由于被称为域移位的现象而难以在真实世界场景中获得令人满意的性能-因此，提出了领域自适应来转移从源领域（例如，合成图像）到另一目标域（例如，真实图像）。一种常见的方法是通过匹配它们的特征分布来跨域学习域不变特征空间，其中已经探索了不同的匹配标准例如，最小化二阶统计量[23]和域对抗训练[6，8，25]。还有一个最近的研究工作[24]，介绍了分布对齐1900源域目标域域不变特征1901直接在结构输出空间中用于语义分割的任务。然而，这些方法都是由一个强有力的假设驱动的，即两个域的整个特征或输出空间可以很好地对齐（参见图1（a）），以产生一个域不变的表示，该表示对于所讨论的任务也是有在本文中，我们提出了一个域不变结构提取（DISE）框架，以解决无监督的域适应语义分割。我们假设图像的高层结构信息对于分割预测是最有效的因此，我们的DISE旨在通过学习将图像的域不变结构信息与其域特定纹理信息分离来发现域不变结构特征，如图1（b）所示。我们的方法区别于类似的先前的作品，(1)学习明确地包括域不变结构分量和域特定纹理分量的图像表示，（2）仅使结构分量域不变，以及（3）允许跨域的图像到图像的转换，这进一步使得能够进行标签转移，所有这些都在一个单一框架内实现尽管DISE与域分离网络[1]和DRIT [13]有一些相似之处，但其对结构和纹理信息分离的强调以及跨域翻译图像并同时保持结构的能力明显突出了新颖性。在标准化数据集上的广泛实验证实了其优于几种最先进的基线。2. 相关工作与图像分类相比，存在许多解决领域自适应问题的现有工作，语义分割被认为是应用领域自适应的更具挑战性的任务，因为其输出是充满高度结构化和上下文语义信息的分割图我们在这里回顾几个相关的作品，并根据三种广泛使用的策略进行分类：分布对准、图像翻译和标签传送。不同的作品可能会有不同的选择和执行这些战略的顺序，如表1所示。首先，类似于图像分类的域自适应的情况，可以应用不同的标准来匹配特征空间（例如[9，20，26，30]）或输出空间中的域之间的分布后者的代表性工作是由Tsai等人提出的。[24]，其中基于源域和目标域之间的空间上下文相似性，然而，假设两个域的整个特征或输出空间可以很好地对齐，通常证明是不切实际的，考虑到合成和表1.不同的策略，采用先前的工作领域适应语义分割。IT、DA、LT分别代表图像翻译、分发对齐和标签转移、重新分配. 顺序表示应用这些策略的顺序。方法它DALt秩序Sankaranarayanan等人[20个]CCIT→DAHong等人[9]第一章C--Wu等[26日]CCCIT→DA→LTTsai等人[24日]C--Chen等人[3]第一章C--Hoffman等人[八]《中国日报》CCCIT→LT，DAZhu等[30个]CCIT→DA我们的DISECCCDA→IT→LT在某些应用中的真实世界图像。其次，图像到图像的翻译和风格转换[10，12，29]的最新进展促使源图像的翻译获得目标图像的纹理外观，反之亦然。一方面，这种翻译过程允许分割模型使用翻译的图像作为增强的训练数据[8，26];另一方面，在图像翻译过程中学习的公共特征空间可以促进学习域不变分割模型[20，30]。最后，图像到图像的转换使得标签从源域到目标域的转移成为可能，提供额外的监督信号来学习适用于目标域图像的模型[8，26]。然而，直接的图像翻译可能对学习有害，因为存在将源特定信息带到目标域的风险我们提出的DISE利用所有三种策略，但在几个重要的方面不同于这些以前的作品。我们假设，图像的高层次结构信息因此，DISE通过一组公共和私有编码器将图像的高级域不变结构信息与其低级域特定纹理信息3. 方法在本文中，我们提出了一个领域不变结构提取（DISE）框架，以解决无监督的领域适应语义分割的问题强调明确规范化的共同和私人编码器对捕捉结构和纹理信息，以及将图像从一个域转换到另一个域的标签转移的能力，强调了我们的方法的新颖性。下面给出了DISE的正式处理。我们先来看看它的框架-1902recrecCpp我pℒ&3*cℒ&&*+阿勒3*c简体中t3a4_ad/200吨t3a4_ad/200吨&*+域不变结构提取&E$&（&1 2&$D（&EcC不阿勒（tC101t2tEtD$（t$（（（（（&101t2&100吨$（&（tDCDE不C（t $Ct3a4_t*5200吨t3a4_t3200吨t3a4_t*5简体中t3a4_t3简体中符号源域目标域丢失Ec 公共编码器E$ 专用编码器D解码器不逐像素分类器*+_ad/图2.概述了提出的域不变结构提取（DISE）框架的语义分割。DISE框架由跨域共享的公共编码器Ec，两个特定于域的私有编码器Es，Et，一个像素方式的编码器Ep p分类器T和共享解码器D。它将图像（源域或目标域）编码为域特定纹理分量zp和域不变结构分量zc，如部分（a）所示。利用这种解纠缠，可以通过将xs（相对于i v el y，x t）的结构内容与x t（相应地，x s）的纹理外观相结合，将一个域中的图像x s（相应地，x t）转换为另一个域中的另一个图像x s 2 t（相对于i v el y，xt2s），如部分（b）和（c）所示。这进一步实现了地面实况的传输标签从源域到目标域，如部分（d）所示工作接下来，我们详细介绍所使用的损失函数为了最小化重建损失Ls，在输入随后是对实现细节的描述。xs及其重构x<$s2s=D（zs，zs;θd）. 李克明智的，一个C P可以对目标域图像xt进行编码和解码。3.1. 领域不变结构提取通常最小化Lt，得到zt=Ec（xt;θc），zt=Et（xt;θt）和xt<$x<$t2t=D（zt，zt;θd），其中pri-DISE的目的是学习一个图像表示组件-pptcp提出一个域不变结构组件和一个域特定纹理组件。该设置假定速度编码器Ep，像它的对应物Es一样，提取目标特定的纹理信息。它是结构组成部分zs，zt，其将由分类器T使用以预测分段。接入到N带注释的源域图像Xs=c cs s t tSS s Ns高×宽×3桩号图，y=T（zc，θt），y=T（zc，θt）（源），{（x，y）}s，其中每个图像x∈R具有i i i=1 i高度H、宽度W和C-对象类别ys∈ {0，1}H×W×C每像素标记，且N是未注释的目标-域图像Xt={xt}Nt.如图2（a）所示，相应的目标域结构信息与织构信息的解纠缠是通过对非结构信息的正则化来实现的。i i=1DISE中有五个子网，即公共编码器Ecsh a.红色acrosacros域，域特定的优先级，vate encodersEs，Et 、共享解码器D，以及年龄转换与领域对抗训练[14]和感知损失最小化[12]。如图所示图2（b）和（c），我们考虑任何一对源-和p p逐像素分类器T. 它们由θc，θs，分别为θt、θd和θt目标域图像及其各自的表示xs={zs，zs}和xt={zt，zt}。我们先交换公司简介p给定源域图像xs作为输入，com它们的领域特定组件，然后解码它们，mon编码器Ec产生zs=Ec（xs;θc），以将r-为两个不可见的、平移的图像xs2t=D（zs，zt;θd）c c p确定其域不变高级结构信息且x∈t2s=D（zt，zs;θd）. 如果普通和普通-Cp而源特定专用编码器Es生成zs=编码器按照我们期望的方式来捕捉结构p pEs（xs;θs），用于捕获其剩余方面，这些方面在很大程度和纹理信息，p p关于Domain-SPE C.Ific，lobuw-leveltextur einformation.这两个部件 zs，zs 是相辅相成xs2t（相对于ively，xt2s）应保持高电平结构，与xs（分别为xt）相同，但表现出相似性。C P1903其他;当组合在一起时，它们允许解码器D最大低级纹理外观为xt（分别为xs）。到1904Advsegseg¨AdvAdv塞格塞格Adv为此，我们通过施加域广告来训练我们的网络-通过最小化对抗损失Lt2s，Ls2t[14]感知t2stransadvtransadvs2t1个选区g损失Ltransstr，Lt2s，Ls2t，L[12]在L（θ，θ）=−log（D（yt）“’），（2）反特克斯特兰斯海峡反特克斯赛格C不H′W′Advh，w解码器D的输出，以确保做，这些翻译图像与源或目标域中的对应图像之间的主要和感知相似性。DISE的这种图像转换功能还允许将地面实况标签从源域转移到目标域。更具体地说，由于目标类域图像x∈s2t共享相同的结构，h′，w′其中， h′ 、 w′ 是片坐标，并且 H′= H/16 ，W ′=W/16，其中因子16说明了在CXD段中的下采样。重建损失的重构损失Lrec（θc，θs，θt，θd）是为了确保两个域-pp分量作为xs，我们考虑地面真值标签ys的xs是xs2t的伪标签，这是基于我们的假设，即图像的分割预测仅取决于其结构信息。最后，我们使结构分量ZS，ZT不变，不变和域特定分量zc，zp 的图像表示一起形成图像的几乎完整的概要。为了鼓励重建在感知上与输入图像相似，我们遵循感知损失的概念[12]来定义我们的质量度量C c通过最小化在分类器T的输出处的另一个域对抗损失Lsegadv以及负对数似然，Lperc（x，y;w）作为从预训练的VGG网络[22]。在符号中，我们有地面真值标号ys相对于xs′的函数且x≠2t，即Ls3.2. 学习和Ls2t（见图2（d））。Lperc（x，y;w）=w（l）？N（l）？l∈L（l）(x) −ψ（l）(y)¨1 、（3）建议的DISE的训练是最小化上述损失函数的加权组合关于五个参数{θ，θs，θt，θ θ}，其中，N（l）（y））是针对输入x（分别为y）的预训练VGG网络的第l的动作，N（l）是针对输入x（分别为y）的预训练VGG网络的第l层的数目，N（l）是针对输入x（分别为y）的预训练VGG网络的第l层的数目。子网：CppD t层l中的动作的BER，w（l）表示层l中的损耗的单独S赛格S赛格+λseg advLseg adv+λrecLrec{relu 1 1，relu 2 1，relu 3 1，relu 41，relu 5 1}，共+λtransstrLtransstr+λtranstexLtranstex+λtransadvLtransadv+λs2tLs2t，（一）VGG网络。正如[12]中所指出的，VGG网络的层倾向于表示图像的高级结构内容，而较低层通常描述其低级纹理外观。方程3则为其中根据经验选择组合权重λ以在模型容量、再现/翻译质量和预测精度之间取得平衡。在下文中，我们将详细说明这些损失函数中的每一个。S用于通过最小化源域和目标域图像各自的感知损失的总和来正则化源域和目标域图像的重建：Lrec（θc，θs，θt，θd）分段丢失。分割损失Lseg（θc，θt）由基于源的典型交叉熵给出pp=Ls+Lt（四）域地面实况ys是有监督地训练公共编码器Ec和分类器T，以预测分段。rec=Lpercrec（x=2s，xs;wrec）+Lperc（xt2t，xt;wrec），对于源域图像xs，分割映射ys。输出空间对抗损失。受Tsai et al的启发。[24]，我们在分类器T 的输出处引入对抗损失Lsegadv （θc ，θt），希望使公共编码器Ec和分类器T在目标域图像上很好地推广具体来说，我们首先训练一个辨别力-其中加权Wrec被设置为在较高层上加权更多。翻译结构丢失。正如前面在3.1节中所提出的，通过跨域翻译产生的图像应该保持其结构不变。翻译结构损失Ltransstr（θc，θs，θt，θd），如等式-pp控制器D例如通过最小化监督域损失（即，D_seg应该理想地针对源预测y_seg中的每个补丁输出1，并且针对目标预测y_seg 中的每个补丁输出0。然后，我们更新通用编码器Ec和分类器T，以通过将yt的输出从0变为1来欺骗鉴别器Dseg，即，L=λL1905步骤5测量转换后的图像x∈s2t和从中导出x∈ s 2t的结构分量的图像x∈s之间的高级结构的差异，并且类似地，测量x∈s2t和x∈ s 之间的高级结构的差异。这是通过为感知度量选择加权w_str来实现的，该加权再次强调预训练的VGG网络的较高层中的特征重构损失我们的目标是惩罚翻译1906seg在结构上与它们共享相同结构分量Zc的图像显著不同的图像，从而使Zc明确地编码图像的结构方面。[24]它是基于DeepLab-v2 [2]和ResNet-101 [7]构建的。我们通过在PASCAL VOC [5]数据集上进行预训练来获得初始权重，并在训练时重用预训练的batchnorm层。公共编码器Ec输出最后残余层（层4）的特征图作为zc。为Ltransstr（θc，θs，θt，θd）s tpp个私有编码器Ep，Ep，我们采用卷积神经s2t特兰斯海峡t2s特兰斯海峡（五）网络包含4个卷积块，后面是一个=Lperc（xs2t，xs;wstr）+Lperc（xt2s，xt;wstr）全局池化层和一个全连接层。的专用编码器Es（分别为Et）的输出是p p8-维表示zs（分别为zt）。为p p翻译纹理损失。平移纹理损失Ltranstex（θc，θs，θt，θd）进一步要求，在共享解码器D中，我们使用三个残余块和三个反卷积层解码器的输入是一个连接-pp图像xs2t（相对于ively，xt2s）在纹理上应该与图像x t（分别为x s）非常相似相同的纹理分量zp。在这样做时，zp必须显式地对图像的纹理方面进行编码。受AdaIN [10]工作的启发，我们提出了一个加权矩阵Ltex（x，y;w）来测量通道上从预处理中提取的激活平均值的差异。经过训练的VGG网络：Ltex（x，y;w）国家的私人代码zp，特征地图zc和一面旗帜指示私有代码的域。培训详情。我们使用Pytorch实现DISE，一台16GB内存的Tesla V100完整的训练需要88个GPU小时。由于内存有限，在训练时，我们将输入图像的大小调整为512×1024，并执行随机种植，作物大小为256×512。然而，在这方面，在测试时，输入图像的大小为512×1024。为w（l）（6）公平的比较，我们遵循Tsaiet al。[24]第二十四话=？？（（l）（x））−？？（（l）（y））？，输出预测从512×1024到1024×2048，l∈LC （l）-Ccé1行动时间。我们用一个训练我们的模型250，000次迭代，批量大小为2。我们使用SGD求解器进行初始学习-其中，C（l）是VGG网络的第l层中的通道数，w（l）指定第l层的加权g iv en，µc（·）返回通道c的平均动作。译文的结构损失，译文的肌理损失也涉及两种类型的翻译：Ltranstex（θc，θs，θt，θd）的速度2。5×10−4，用于公共编码器Ec和分类器T;Adam求解器的初始学习率为1 .一、0×10−3; Adam求解器的初始学习率为1。0×10- 4为其他。所有的学习率都按照多项式衰减规律政策动量被设置为0.9和0.99。pps2t反特克斯t2s反特克斯（七）4. 实验结果=Ltex（x≠2t，xt;wtex）+Ltex（x≠2s，xs;wtex），在本节中，我们对典型的其中权重wTex感知度量的一部分，用于语义分割的数据集我们比较了我们提出的方法与几个国家的最先进的性能选择更多地强调早期层。翻译不利损失。除了前面提到的感知损失，我们还使用对抗性损失Ltransadv（θc，θs，θt，θd）以适应平移的im-基线，并进行消融研究，以了解损失函数的各种组合对分割性能的影响。代码和预训练模型可在线获取1。年龄x=2t和x=2t，以分别看起来好像它们是目标域和源域之外的图像为此，我们采用 LSGAN [16] 和 PatchDiscriminator [11]。标签转移损失。标签传递损失Ls2t（θc，θt）由典型的交叉熵损失给出，该交叉熵损失在具有伪标签ys的翻译图像xs2t上监督地训练公共编码器Ec和分类器T。3.3. 执行网络. 对于实验，我们使用基本模型，共同参考公共编码器Ec和逐像素分类器T，类似于图1中的分割网络。4.1. 数据集对于实验，我们遵循大多数先前工作所采用的共同协议;也就是说，将具有地面实况注释的合成数据集GTA 5 [17]或SYNTHIA [18]作为源域，并将Cityscapes数据集[4]作为目标域，其中在训练期间没有注释可用。在测试时，对Cityscapes的验证集进行评估这些数据集的详细情况如下所述。1https://github.com/a514514772/=L+L=L+L1907DISE域不变结构提取1908segsegCityscapes[4]是一个真实世界的数据集，由50个不同城市的街景图像组成。它的数据分割包括2975张训练图像和500张验证图像，每张图像的空间分辨率为2048×1024，像素级的19个语义标签请再次注意，在模型训练中使用地面实况标签。GTA 5[17]是一个合成数据集，包含24996张大小为1914× 1052的图像。这些图像是从电脑游戏侠盗猎车手V（GTAV）收集，并附带与Cityscapes完全兼容的像素级语义标签[4]。SYNTHIA是另一个合成数据集，由9400个分辨率为1280× 960的带注释的合成图像像GTA5一样，它具有语义兼容的注释，城市景观[4]。根据之前的工作[9，20，24，26]，我们使用SYNTHIA-RAND-CITYSCAPE子集[18]。4.2. 性能比较我们比较了我们的方法与几个基线的性能，包括[3，9，19，20，24，26]的模型vations表明，我们的基于结构的表示确实比其他表示，可能已经编码的结构和纹理信息与SYNTHIA 到 Cityscapes 我们还在更具挑战性的SYNTHIA数据集上评估了所有模型。具体来说，我们遵循[24]，仅对16个类的基于语义预测的结果进行比较。表3给出了每类IoU和mIoU的可以看出，使用GTA5数据集进行的大部分上述讨论虽然之前的工作[9]在mIoU方面的表现与我们的模型非常接近，我们的方法在“Road”，“Sidewalk”，“Building”，“Sky”等类中的优越性4.3. 消融研究下面通过比较模型的四种变体与四个不同的训练目标的性能来研究模型的四种变体：• 源仅限：培训与GTA5这些作品[3，9，24]是代表性的CON-数据集[17]通过最小化Ls只有，即没有任何与特征分布相匹配的意向适应，基于对抗训练的跨域输出空间;作品[20，26]是典型的映射源-域适应• Seg-map Adaptation：使用带注释的GTA5进行数据集[17]以及域图像到目标域的像素级的IM-年龄转换或风格转换;和Saleh et al. [19]站最小化输出空间和L赛格. 这对于前景实例，通过基于对象检测的方法从其他实例中分离出来。这些工作的更多细节可以在第2节中找到。GTA5城市风景表2显示，与基线相比，我们的方法在平均交并比（mIoU）方面实现了45.4的最先进性能。细分分析进一步表明，它在预测“道路”，“人行道”，“墙”，“围栏”，“建筑物”和“天空”类方面远远优于这些类经常同时出现在图像中，并且往往在空间上相连。此外，其中一些，例如。“道路”和“人行道”，表现出高度相似的纹理外观。因此，我们属性的良好性能，我们的计划，以它的能力，过滤出特定领域的纹理信息，形成一个域不变的结构表示语义分割。在图3中，我们显示了将我们的方法与“仅源”（即，无适应）和“常规适应”（即，而没有结构和纹理的分离）。对于后者，我们给出[24]的结果。很明显，我们的方法所做的分割预测看起来与地面事实最相似。经过仔细检查，我们发现与基线相比，我们的模型可以更好地辨别“人行道”和“道路”之间的差异它也很好地识别了罕见的类，如这些观察者-[24]这是一个非常好的例子，它是一个非常好的例子。跨领域的心理预测。• DISE w/o标签转移：使用除标签转移损失外的所有损失函数进行培训，即的设置seg-map自适应加上结构和纹理分量的解纠缠。• DISE：训练所有损失函数。表4比较了这些设置在mIoU方面的性能。正如预期的那样，在没有任何域适配的情况下，39.8 mIoU。当在输出空间处引入域自适应时，使用Seg- map Adaptation” 的性能提高了 2.8 ，达到 42.6mIoU。对于“DISE w/o Label Transfer”的设置，可以看到比“Source Only”更高的4.3增益，这证实了结构和纹理成分分离的好处。最后，由于标签传输而增加了额外的数据，DISE实现了最佳性能。4.4. 图像到图像翻译在图4中，我们显示了两种设置（S2T和T2S）下使用DISE进行图像到图像转换通过S2T（分别为T2S），我们将列（a）中GTA 5（分别为Cityscapes）中图像的结构内容与Cityscapes中图像的纹理外观相1909seg表2.从GTA5改编的Cityscapes在19个类的每类IoU和mIoU方面的比较结果方法基础模型道路人行道建筑围墙护栏杆红绿灯交通标志植物地形天空人骑手汽车卡车公共汽车火车摩托车自行车MiouSankaranarayanan等人[20个]FCN 8s [15]88.0 30.5 78.6 25.2 23.5 16.7 23.5 11.3 78.7 27.2 71.9 51.3 19.5 80.4 19.8 18.3 0.9 20.8 18.437.1Wu等[26日]FCN 8s [15]88.5 37.4 79.3 24.8 16.5 21.3 26.3 17.4 80.8 30.9 77.6 50.2 19.2 77.7 21.6 27.1 2.7 14.3 18.138.5Hong等人[9]第一章FCN 8s [15]89.249.0 13.5 10.938.5 29.4 33.7 77.9 37.6 65.875.1 32.4 77.839.2 45.2 0.0 25.535.444.5Chen等人[3]第一章PSPNet [28]76.3 36.1 69.6 28.6 22.4 28.6 29.3 14.8 82.3 35.3 72.9 54.4 17.8 78.9 27.7 30.3 4.0 24.9 12.639.4Wu等[26日]PSPNet [28]85.0 30.8 81.3 25.8 21.2 22.2 25.4 26.6 83.4 36.7 76.2 58.9 24.9 80.7 29.5 42.9 2.5 26.9 11.641.7Chen等人[3]第一章Deeplab v2 [2]85.4 31.2 78.6 27.9 22.2 21.9 23.7 11.4 80.7 29.3 68.9 48.5 14.1 78.0 19.1 23.8 9.48.30.035.9Tsai等人[24日]Deeplab v2 [2]86.5 36.0 79.9 23.4 23.3 23.935.2 14.883.4 33.3 75.6 58.5 27.6 73.7 32.5 35.4 3.9 30.128.142.4Saleh等人[19个]Deeplab v2 [2]79.8 29.3 77.8 24.2 6.9 23.544.280.538.0 76.2 52.7 22.2 83.0 32.3 41.327.0 19.3 27.742.5我们Deeplab v2 [2]91.547.582.5 31.3 25.6 33.0 33.7 25.8 82.7 28.882.7 62.4 30.885.2 27.7 34.5 6.4 25.2 24.445.4表3.根据SYNTHIA改编的Cityscapes在16个类别的每类IoU和mIoU方面的比较结果方法基础模型道路人行道建筑壁栅栏杆交通信号灯交通标志植物天空人乘汽车巴士摩托车自行车MiouSankaranarayanan等人[20个]FCN 8s [15]80.129.177.52.80.426.811.118.078.176.748.215.270.517.48.716.736.1Wu等[26日]FCN 8s [15]81.533.472.47.90.220.08.610.571.068.751.518.775.322.712.828.136.5Hong等人[9]第一章FCN 8s [15]85.025.873.53.43.031.519.521.367.469.468.525.076.541.617.929.541.2Wu等[26日]PSPNet [28]82.836.475.75.10.125.88.0418.774.776.951.115.977.724.84.137.338.4Chen等人[3]第一章Deeplab v2 [2]77.730.077.59.60.325.810.315.677.679.844.516.667.814.57.023.836.2Tsai等人[24日]Deeplab v2 [2]84.342.777.59.30.222.94.77.077.982.554.321.072.332.218.932.340.0我们Deeplab v2 [2]91.753.577.12.50.227.16.27.678.481.255.819.282.330.317.134.341.5表4.根据mIoU改编自GTA 5时Cityscapes的消融研究结果。我们目前的结果没有适应（源只），适应在输出空间只（Seg-map适应），适应在输出空间连同结构和纹理解纠缠（DISEW/O标签传输），适应与所有损失考虑（DISE）。方法一BCDMiou源仅C39.8Seg-map自适应CC42.6不带标签转移的CCC44.1DISECCCC45.4S赛格B：L段C：Lrec+Ltransstr+Ltranstex+LtransadvD：Ls2t（分别为GTA 5），以分别在列（c）和（e）中产生平移图像。我们看到，DISE在将图像从一个域高质量地转换到另一个域方面非常有效。在所有情况下，翻译后的图像很好地保留了结构内容，同时产生了所需的纹理外观。这也验证了我们使用源域图像的地面实况标签作为其具有类似于目标域图像的纹理外观的翻译图像的伪标签。5. 结论在本文中，我们假设图像的高级结构信息是最具决定性的语义分割，可以跨域不变基于这一假设，我们提出了一个新的框架，域不变结构提取（DISE），解开纠缠的表示一个图像的域不变的结构组件和域特定的纹理组件，其中前者是用来推进域自适应语义分割。DISE还允许将地面实况标签从源域转移到目标域，为学习适合于目标域图像的分割网络提供额外的监督在典型数据集上的大量仿真结果证实了DISE优于几种最先进的方法，证明了我们最初的假设。确认本项目得到MOST-108-2634-F-009-013和MOST-108-2636-E-009-001的支持，我们感谢国家高性能计算中心提供的计算机时间和设备。A：L1910(a)结构(b)纹理(c)输出(d)纹理(e)输出(a) 目标图像（b）地面实况（c）仅源（d）常规自适应。（e）DISE（我们的）图3。从GTA5改编的Cityscapes上的分割结果从左到右，（a）目标图像，（b）地面实况，（c）仅源，（d）常规自适应[24]，（e）和DISE。图4.翻译图像的示例结果S2T：（a）中GTA 5图像的结构内容与（b）和（d）中Cityscapes图像的纹理外观相结合，分别输出（c）和（e）中的翻译图像T2S：（a）中Cityscapes图像的结构内容与（b）和（d）中GTA 5图像的纹理外观相结合，分别输出（c）和（e）中的翻译图像T2sS2t1911引用[1] K. Bousmalis，G.Trigeorgis，N.Silberman，D.Krishnan和D. 二汉域分离网络。神经信息处理系统进展，2016年。2[2] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的 crfs 进行语义图像分割。在 IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI），2018年。一、五、七[3] Y.陈威Li和L.范古尔道路：面向现实的适应城市场景的语义分割。在 IEEE 计算机视觉和模式识别会议（CVPR）上，2018年。二六七[4] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。IEEE计算机视觉和模式识别会议论文集，2016。五、六[5] M. Everingham，S. A.埃斯拉米湖凡古尔角，澳-地K. 威廉姆斯J. Winn和A.齐瑟曼。pascal visual object classes挑战：回顾展。 InternationalJournalofComputerVision（IJCV），2015. 5[6] Y. Ganin和V. Lempitsky通过反向传播的无监督域自适应在2015年国际机器学习会议（ICML）上1[7] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。 IEEE Conference on Computer Vision andPattern Recognition（CVPR），2016年。一、五[8] J. Hoffman，E.Tzeng，T.帕克，J. -Y. Zhu、P.Isola，K.萨延科，A. A. Efros和T.达雷尔。苏铁：周期一致的对抗域适应。2018年国际机器学习会议论文集一、二[9] W. 洪，智-地Wang，M.Yang和J.元用于结构化领域自适应的条件生成对抗网络在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。二六七[10] X. Huang和S.J. 贝隆吉具有自适应实例规范化的实时任意样式传输在IEEE国际计算机视觉会议（ICCV）的论文集，2017。二、五[11] P. Isola，J.Y. Zhu，T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。四、五[12] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议（ECCV），2016年。二、三、四[13] H.- Y.李，H.- Y. Tseng，J. - B. Huang，M. Singh和M.-H.杨通过解纠缠的表示进行不同的图像到图像的翻译。在欧洲计算机视觉会议（ECCV）的论文集，2018。2[14] M.- Y. Liu，T. Breuel和J.考茨无监督图像到图像翻译网络。在神经信息处理系统（NIPS）的，2017年。三、四[15] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议，2015年。7[16] X.茅角，澳-地Li，H.谢河，巴西-地Y. Lau，Z. Wang和S.史莫利。最小二乘生成对抗网络。在2017年IEEE国际计算机视觉会议（ICCV）上。5[17] S. R. Richter，V.Vineet，S.Roth和V.科尔顿。玩数据：来自电脑游戏的地面真相。欧洲计算机视觉会议（ECCV），2016年。一、五、六[18] G.罗斯湖Sellart，J. Materzynska，D. Vazquez和A. M.洛佩兹synthia数据集：一个大的合成图像集，用于城市场景的语义分割。在2016年IEEE计算机视觉和模式识别会议（CVPR）上。一、五、六[19] F. S. Saleh，M. S. Aliakbarian，M.萨尔茨曼湖Petersson和J. M.阿尔瓦雷斯有效利用合成数据进行城市场景语义分割。在欧洲计算机视觉会议（ECCV）的会议记录中，2018年。六、七[20] S. Sankaranarayanan，Y.巴拉吉A.Jain，S.N. 林，R.切拉帕从合成数据中学习：用于语义分割的寻址域移位。在IEEE计算机视觉和模式识别会议，2018年。二六七[21] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。国际学习代表会议（ICLR），2014年。1[22] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。CoRR，abs/1409.1556，2014。4[23] B. Sun和K.萨恩科Deep Coral：Correlation Alignment forDeep Domain Adaptation. 欧洲计算机视觉会议（ECCV），2016年。1[24] Y.-- H.蔡文雄C.洪，S。Schulter，K.孙，M.- H.杨，和M。Chandraker学习适应结构化输出空间进行语义分割。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。一、二、四、五、六、七、八[25] E. Tzeng，J. Hoffman，K. Saenko和T.达雷尔。对抗性判别域自适应。在IEEE计算机视觉和模式识别会议，2017年。1[26] Z. Wu ， X. 汉， Y.-L. 林， M 。 G. Uzunbas ，T.Goldstein，S.N. Lim和L. S.戴维斯Dcan：用于无监督场景自适应的双通道对齐网络。在欧洲计算机视觉会议（ECCV）的论文集，2018。二六七[27] F. Yu和V.Koltun.通过扩张卷积的多尺度上下文聚合。在2015年国际

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

语义分割任务中的无监督域自适应：跨域调整结构信息以提高分割性能

ADVENT-master_无监督分割_语义分割_自适应_

医学图像分割任务中跨域指的是什么

maskformer出现后，有没有新的语义分割和实例分割论文创新点或方向？

vue iframe自适应高度跨域问题

语义分割中跨条件鲁棒性

跨域联邦学习有哪些研究方向

iframe跨域高度自适应

GeMpooling和域自适应模块是做什么的

CORS：跨域资源共享（CORS）

2022跨域目标检测

@CrossOrigin用来局部跨域的好处和坏处

yolov5实现域适应

基于特征向量跨域融合的跨域推荐算法和迁移学习有什么区别

yolov5 半监督

iframe如何高度自适应

运动想象的左右手分类跨域

JS跨域和同域的區別

跨域小样本学习的优势

跨域知识迁移分析模型库

最新资源