语义场景分割中的领域适配与对抗训练方法

35 浏览量更新于2023-10-13 收藏 2.1MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8548BiMaL：语义场景分割Thanh-Dat Truong1，Chi Nhan Duong2，Ngan Le1，Son Lam Phung4，Chase Rainwater3，Khoa Luu11阿肯色大学CVIU实验室2康考迪亚大学3Dep. University of Arkansas阿肯色大学4卧龙岗大学{tt032，thile，cer，khoaluu}@ uark.edu，phung@uow.edu.au，dcnhan@ieee.org摘要语义分割旨在预测像素级标签。它已经成为各种计算机视觉应用中的一个热门任务。虽然全监督分割方法在大规模视觉数据集上实现了高精度，但它们无法很好地推广到新的测试环境或新的领域。在这项工作中，我们首先引入了一个新的未对齐的领域得分来衡量学习模型在一个新的目标领域在无监督的方式的效率然后，我们提出了新的双射最大似然1（BiMaL）损失，这是一种广义形式的对抗熵最小化，没有任何假设像素的独立性。我们已经评估了建议的BiMaL上两个域。所提出的 BiMaL 方法在 “SYNTHIA 到Cityscapes” 、 “GTA5 到 Cityscapes” 和 “SYNTHIA 到Vistas”的实证实验上始终优于SOTA方法1. 介绍语义分割是计算机视觉研究的热点之一，它的目的是将图像中的每个像素点划分为一个预定义的类别。它具有各种实际应用，特别是在自动驾驶中，其中需要分段模型来识别各种城市条件下的道路、人行道、行人或车辆。典型的监督分割模型通常是在带有标签的数据集上训练的然而，注释图像的语义分割任务是昂贵和耗时的。或者，获取大规模训练集的强大且具有成本效益的方法是使用模拟，例如游戏引擎，以创建合成数据集[42，43]。然而，在合成数据集上训练的完全监督模型[3，24]通常无法在真实图像上表现良好，因为合成图像和真实图像之间存在像素外观差距。无监督领域适应（UDA）旨在训练1https://github.com/uark-cviu/BiMaL注释数据集上的机器学习模型，即源，并保证其在新的未标记数据集上的高性能，即目标. UDA方法已被应用于各种计算机视觉任务，如语义分割[3，24，26，54，55，57]，人脸识别[3，24，26，54，55，57]。[12，32，33，34，35]。最近的UDA方法旨在减少跨域差异，以及源域上的特别地，这些方法旨在最小化从源域和目标域提取的深度表示的分布差异。该过程可以使用最大平均差异[16，29，52]或对抗性差异训练[5，6，20，21，22，50]。这一组中的方法已经显示出它们在对齐来自两个域的图像的预测输出方面的潜力。然而，由学习的判别器预测的二元交叉熵标签通常是分割任务的结构学习的弱指示。另一种称为自训练的方法利用以目标图像为条件的伪标签或生成网络[37，58]。半监督学习是一种与UDA相关的方法，其中训练集由标记和未标记样本组成。因此，它激发了几种UDA方法，如类平衡自我训练（CBST）[60]和熵最小化[4，17，40，47，54]。尽管诸如熵之类的度量可以被有效地计算并用于训练，但它们倾向于依赖于简单的预测，即高置信度分数，作为标签从源域转移到目标域的参考。这个问题在后面的方法[4]中通过防止学习模型过度关注高置信度区域来缓解。然而，这种类型的度量是以逐像素的方式制定的，因此忽略了图像中呈现的结构信息（参见图1）。这项工作的贡献。这项工作提出了一种新的无监督域自适应方法来解决语义分割问题。表1总结了我们提出的方法和以前的方法之间的差异。我们的贡献可归纳如下。8549图1. 两个图像具有相同的熵，但一个具有较差的预测（顶部图像），而一个具有较好的预测（底部图像）。列1和列2是输入图像和地面实况。第3列和第4列是熵图和AdvEnt的预测[54]。第5列是我们提出的方法的结果。由AdvEnt产生的两个预测具有相似的熵分数（0. 13和0。第14段）。同时，底部预测的BiMaL值（0. 06）小于顶部预测（0. 第14段）。我们在最后一列中的结果比AdvEnt具有更好的BiMaL值，可以很好地模拟图像的结构特别是，我们的结果有更清晰的结果的障碍和骑手（白色破折号框），道路和人行道之间的清晰边界。首先，引入了一种新的未对齐领域分数（UDS），以无监督的方式来衡量学习模型在目标领域上的效率。其次，所提出的UDS被进一步扩展为一个新的损失函数，称为双射最大似然（BiMaL）损失，该损失函数可以与无监督深度神经网络一起用于在目标域上进行推广。实际上，我们进一步证明BiMaL损失是不利熵最小化（AdvEnt）[54]的广义形式，而没有像素独立假设。除了作为像素独立性的AdvEnt之外，使用最大似然公式来对分割输入的全局最后，在三个流行的大规模语义分割基准上评估所提出的BiMaL方法，包括 GTA5 [42]到 CityScapes [7]， SYNTHIA [43]到Cityscapes，以及SYNTHIA到 Vista [38]。实验结果表明，我们提出的BiMaL方法在所有这些基准数据库中始终优于最先进的（SOTA）据我们所知，这是第一批作品之一，介绍了一种新的双射最大似然方法与基于流的度量无监督域适应语义分割。2. 相关工作无监督领域自适应是近年来最活跃的研究课题之一。常见的UDA方法是域差异最小化[16，29，52]，对抗学习[5，6，20，21，22，50]，熵最小化[5，6，20，21，22，50]。[37，40，54，58]，自我训练[60]。在这项工作的范围内，UDA专注于语义分割。对抗训练是UDA用于语义分割的最常见方法。与生成对抗网络（GANs）类似，对抗训练分割范式旨在训练鉴别器来预测输入的域，而分割网络试图欺骗鉴别器。该对抗步骤与源域上的监督分割任务同时训练。Hoffman等人[21]首先介绍了基于GAN的UDA语义分割方法。后来，Chenet al. [6]提出了通过伪标签上的对抗学习来学习的全局和类适应。考虑到空间分布的差异，[5]提出了一种空间感知自适应方法，以对齐两个域以及目标引导的蒸馏损失。Hong等人[22]学习了一个条件生成器来将源域的特征映射转换为与目标域相似。Tasi等人[50]使用对抗学习来学习场景布局的一致性以及源域和目标域之间的局部上下文。存在利用生成网络来合成以源图像为条件的目标图像的一些现有方法[58，37]。Hoffman等人[20]提出了在像素级和特征级表示上对齐的周期一致对抗域自适应。Zhu等[59]在对抗性框架中引入了保守损失，该框架惩罚了简单和困难的源示例。We等[56]提出了一种DCAN框架，该框架在分割网络中使用通道特征对齐Sakaridis等人[44]提出了一个UDA框架工作的场景理解，逐步适应的分割模型，从非雾重雾图像。为了提高域适应的性能，一些方法探索了源数据上可用的特权信息的使用[2，27，45]。Vapnik等人[53]首先介绍了特权信息的概念，即其他信息仅在培训过程中可用。后来，许多方法[19，30，36，46]利用特权信息进行各种任务。在语义分割中，SPIGAN [25]提出了一种在训练阶段利用深度信息在SPI之后-8550DL·LLL不不θθSS 1不∈ X1Ls（ys，ys）=− Σylog.yΣ（2）−1 h，w，ch，w，c表1. 我们提出的方法和其他方法之间的性能比较。卷积神经网络（CNN）、生成对抗网络（GAN）、双射网络（BiN）、熵最小化（EntMin）、课程训练（CT）、图像加权（IW）、分割图（Seg）、深度图（Depth）;CE：交叉熵损失，方法架构源标签学习机制损失函数结构学习[50]第五十话CNN + GANSeg域适应adv弱（二进制标签）[51]第五十一话CNN + GANSeg域适应adv弱（二进制标签）CBST [60]CNNSeg自我训练联系我们不适用高级[54]CNN + GANSeg域适应EntMin弱（二进制标签）MaxSquare [4]CNN + GANSeg域适应平方损失+IW弱（二进制标签）[40]第四十话CNN + GANSeg课程学习EntMin弱（二进制标签）SPIGAN [25]CNN + GAN分段+深度域适应adv+弱（二进制标签）DADA [55]CNN + GAN分段+深度域适应adv+深度感知标签BimalCNN + BiNSeg域适应最大似然分割密度（无监督）GAN，Vu等. [55]提出了一种对抗性的方法，利用深度知道的源和目标图像。熵最小化已用于半监督学习[17，47]。Vu等人。[54]首先介绍了用于语义分割中域自适应的熵最小化方法。最小化过程通过对抗学习来解决。后来，[40]引入了一种基于预测熵水平的域内自适应方法。学习过程包括两个阶段。第一阶段执行从源域到目标域的自适应，而第二阶段在目标域内对齐硬分割和易分割另一种最近的UDA方法是自训练，其中训练模型的预测自我训练已广泛用于分类[28]和分割任务[60]。3. 未对齐域评分（UDS）让xsSRH×W×3是源极域（H和W是源极域的高度和宽度）image），xt∈ XtRH×W×3是目标域的输入图像，G：X → Y其中X=Xs∪ Xt是一个se-其中θ是G的参数，p（）是概率密度函数。由于s的标签是可用的，因此s可以被有效地公式化为监督交叉熵损失：h，w，c h，w，cS sh、w、c其中yh，w，c和y（h，w，c）分别表示在（h，w）的位置处的像素的预测概率和真实概率，其采用c的标签。同时，t处理来自目标域的未标记数据，其中地面实况标签不可用。为了缓解这种标签缺乏的问题，已经利用了t（yt）的几种形式，例如具有伪标签的交叉熵损失[60]、概率分布散度（即，经由附加鉴别器定义的对抗性损失）[50，51]或熵公式[54，40]。熵最小化的重新审视。通过将香农熵公式化用于目标预测和约束函数G以产生高置信度预测，Lt可以公式化为L（y）=ylog.yΣ。（三）将输入图像映射到其对应的分割图yRH×W×C的Mantic分割函数，即ttlog（C）t th、w、cy=G（x，θ）（C是语义类的数目）。在一般来说，给定来自源域的N个标记的训练样本Ds={xi，y（i）}N和来自目标域的M个未标记的样本D t={xi}M，无监督域虽然这种形式的t可以给出预测分割图的直接评估，但它往往由高概率区域主导（因为高概率区域产生更新的更高值用于语义分割的自适应可以公式化为：由limyh，w，c引起的梯度→1−Lt（yt）yh，w，c1log（C）和θ*=argminΣΣL（G（xi，θ），y（i）+L（G（xj，θ））Σlimyh，w，c→0−L= −∞），即简单的课程，而不是t（yt）不yh，w，cSsθi、jstt困难的课程[54]。更重要的是，这本质上一种逐像素的形成，其中像素被独立地处理=argmin<$Exs<$p（xs），y<$s<$p（y<$s）<$Ls（G（xs，θ），y<$s）]彼此之间。因此，结构信息-+Ext（xt） [Lt（G（xt，θ））ΣΣ（一）在这种情况下，通常会被忽略。这个问题可能会导致培训过程中的混淆点，其中两个预=argminEysp（ys），ysp（ys）Ls（ys，ys）]+Eytp（yt）[Lt（yt）ΣΣ所述分割图具有相似的熵，但分割精度不同，如图1所示，一个正确，另一个不正确。不=8551LL∼∈ YZY → Z..FyDY不不S不qs（yt）不Y不不不不不不不不不不SSzS.y.∫L图2. 提出的框架。首先将RGB图像输入转发到深度语义分割网络以产生分割图。在源训练样本上采用监督损失。同时，将目标训练样本上的预测分割映射到潜在空间以计算双射最大似然损失。双射映射网络在源域的地面实况图像上训练。3.1. 建议的UDS指标在熵公式中，采用像素独立约束将图像级度量转换为像素级度量。相比之下，我们提出了一个图像级的UDS度量，可以直接评估的yt的结构质量。特别地，令pt（yt）和qt（yt）分别是预测分割图yt的预测分布和真实（实际）分布的概率质量函数。UDS度量度量函数的效率-目标数据集上的特征G可以表示如下：目标域。Y有几种选择来估计两个分布pt（yt）和qs（yt）之间的散度。本文采用常用的度量如注意，其他度量也适用于所提出的UDS公式。此外，为了提高预测语义分割的平滑性，施加了正则化项τ到LY为L（p（y），q（y））= log. pt（yt）<$+ τ（y）.（六）UDS =Eytp（yt）LY（pt（yt），qt（yt））=L（p（y），q（y））p（y）dy（四）、通过计算UDS，可以测量目标数据上的预测分割图yt的质量在接下来的章节中，我们首先详细讨论学习-的过程，然后UDS的推导满足-其中Y（p（y），q（y））定义两个分布pt（yt）和qt（yt）之间的距离。由于在目标域中不存在样品的标记，因此对qt（yt）的直接访问不可用。注意，尽管xs和xt可以在图像空间中显著变化（例如，由于照明、场景、天气引起的像素外观的差异），它们的分割图Yt和Ys在类别分布以及全局和局部结构约束（天空必须在道路上方，树应该在人行道上，车辆应该在道路上，等等）方面共享相似的分布。因此，可以实际地采用从源域的分段标签qt（yt）作为新的双射最大似然损失。3.2. 源域设F：是映射一个分段ys给潜在空间，即zs=F（ys，θF），其中zsqz（zs）是潜在变量，q z是先验分布。然后，概率分布qs（ys）可以通过变量公式的变化来表示log g（q（y））=log（q（z））+log∫. F（y（七）UDS≈∫LY（pt（yt），qs（yt））pt（yt）dyt，（5）其中，分布qs（yt）是从地面实况分段学习的真实分布的概率质量函数。其中θ是F的参数，F（ys，θF）表示所述S函数F（ys，θF）关于ys 的雅可比行列式。为了学习映射函数，将如下最小化n个对数s的心理状态图。因此，拟议的美元符合-Ric可以在不需要标记的tar的情况下计算获取用于学习分割图密度的数据θF*=argminEysqs（ys）Σ−log（qs不S8552=argminEzsqz（zs）..（ys））ΣΣθF（八）.. F（yΣΣ阿比什θF-log（qz（zs））−log.8553..伊L∈ N····。L≤∈L−θysp（ys），ysp（ys）SSSq（y）不不不qs（y）不不不z不.伊伊.y通常，对于先验分布q/z存在各种选择。然而，理想的分布应该满足两个标准：（1）密度估计简单，和（2）采样容易。考虑到这两个准则，我们选择正态分布作为先验分布qz。请注意，任何其他分布也是可行的，只要它满足雅可比行列式F（yt，θF）。第二任不，我们进一步用成对公式增强预测的语义分割的平滑度，以鼓励对具有相似颜色的邻域像素的相似预测：上述标准。ΣΣ||2||2不21||二、||2,不不2为了加强信息流从一个细分做-主要的潜在空间具有不同的抽象层次，τ（yt）=h，wh′，w′ exp−不2σ2-2σ22（十二）双射函数F可以进一步被公式化为复合函数。几个次双射函数fi的位置为F=f1◦f2◦... ◦ f K，其中K是子函数的数量。雅科-其中（h′，w′）h，w表示邻域像素（h，w）中的xh，w表示像素（h，w）处的颜色;以及{σ1，σ2}是控制bianFS 可由FSf1阿比什f2f1高斯核函数应该注意的是，增强分割的平滑度的任何正则化器[3，13]都可以重新有了这个结构，每个fi的属性将定义全双射映射函数F的性质。有趣的是，通过这种形式，F变成了DNN结构。结果也可用于τ。放置等式（10）、（11）、(12)对于等式（1），目标函数可以重写为：当fi是从com构建的非线性函数时卷积层的位置。几种DNN结构θ*=arg minΣEΣL（y，y（）]子功能可采用[8，9，39，15，23，14，49]+Eyt 年（t） [Lllk（yt）+τ（yt）]4. 双射最大似然损失在本节中，我们提出了所提出的双射最大似然（BiMaL），其可以用作目标域t的损失。从Eqns (5)以及（6），UDS度量可以重写如下：UDS=∫Σlog∫pt（yt），+τ（y）Σp（y）dyS不图2示出了我们提出的用于学习深度分割网络G的BiMaL框架。此外，我们可以证明，直接熵最小化作为Eqn。(3)只是对数似然最大化的一个特例。我们将在4.2节中4.1. BiMaL性质=Eytpt（yt）[log（pt（yt））]- Eytpt（yt）[log（qs（yt））]+Eytpt（yt）[τ（yt）]≤Eytpt（yt）[ −log（qs（yt））+τ（yt）]（九）全球结构学习。与[10，11，15，39，48]共享类似的性质，从等式(7)，因为对于整个分割图应该注意的是，对于任何形式的分布pt，上述不等式仍然保持为pt（yt）[0，1]和log（pt（yt））0。现在，我们将双射最大似然损失定义为Lt（yt）=−log（qs（yt））+τ（yt），（10）其中log（qs（yi））定义yi相对于密度函数qs的对数似然。然后，通过采用从等式（1）学习的双射函数F，得到了一个双射函数F（8）使用来自源域的样本和先验分布qz，Lt（yt）在等式 (10)可以通过log-ys，ys中的全局结构可以被有效地捕获和建模。可追溯性和可逆性。由于所设计的双射F，可以有效地捕获分割图的复杂分布。此外，映射函数是双射的，因此，推理和生成都是精确和易处理的。4.2. 与熵最小化的Eqn中的UDS的第一项(9)可以导出为双对数pt（y），p（y）dy≥0似然公式：Eyt（十四）llk（yt）= log（qs（yt））=−log（q（z））−log∫。F（yt，θF） .，，（11）（十三）不不=8554LL其中Yt是随机变量，可能值为ytEytEyt其中zt=F（yt，θF）。多亏了双射性质的映射函数F的最小负对数似然损失Ilk（y_t）可以通过先验分布q_z的密度及其相关，并且Ent（Yt）表示随机变量的熵。t. 可以看出，提出的负对数-似然性Ilk是Yt的熵的上界。因此，最小化我们提出的BiMaL损失也将8555××--图3.四个语义分割数据集的示例包括RGB图像（顶行）和对应的地面实况图像（底行）。(a)GTA和（b）SYNTHIA是合成数据集，(c)城市景观和（d）远景是真实收集的数据集。执行熵最小化过程。此外，通过不假设像素独立性，我们提出的BiMaL可以比以前的像素级方法更好地在图像级建模和评估结构信息[4，40，54]。5. 实验结果本节将展示我们在三个不同基准测试上的实验结果，即：SYNTHIA到Cityscapes，GTA到Cityscapes，SYNTHIA到Vistas。首先，我们概述了我们的实验中使用的数据集和网络架构其次，我们提出了消融研究来分析我们提出的BiMaL的有效性和双射网络的能力。最后，我们提出了定量和定性的结果，我们的方法相比，以前的方法在三个基准。5.1. 数据集GTA5[42]是一个合成数据集，包含24，966个密集标记的图像，分辨率为1，9141，052。此数据集是从游戏Grand Theft Auto中收集的V.自动生成具有33个类别的地面实况注释。在我们的实验中，我们考虑了与Cityscapes兼容的19个类别[7]。SYNTHIA （ SYNHIA-RAND-CITYSCAPES ） [43]是也是包含9，400个像素级标记的RGB图像的合成数据集。在我们的实验中，我们使用了与Cityscapes数据集重叠的16个Cityscapes[7]是一个真实世界的数据集，包括3，975张图像，具有30个类别的精细语义，密集像素注释。在我们的实验中，2495张图像用于训练，500张图像用于测试。Vistas（Mapillary Vistas Dataset）[38]是多样的街道级影像数据集，具有像素精确和特定于实例的人类注释，用于了解世界各地的街道场景。Vistas由25000张高分辨率图像和124个语义对象类别组成。图4.消融语义分割性能mIoU（%）对所提出的BiMaL损失的有效性。图5. 由双射映射函数F重建图象和合成图象。(a)从相应的输入图像（顶行）重建的图像（底行）。(b)从潜在空间采样的合成图像。在我们的实验中，我们考虑了 7 个类，这些类是SYNTHIA、Cityscapes和Vistas所共有的，如图所示。3.第三章。5.2. 网络架构在我们的实验中，我们采用具有ResNet-101 [18]主干的DeepLab-V2 [3]用于分割网络G。此外，我们利用Atrous空间金字塔池，采样率为6，12，18，24。我们只使用层conv5的输出来预测分割。在双射网络F中，我们使用多尺度架构[8，9，14，23，39]。对于每个尺度，我们有多个流程步骤，每个步骤都由ActNorm ， Invertible11 Convolution 和 Affine CouplingLayer组成 [23，48]。在我们的实验中，尺度的数量和流动步骤的数量分别设置为4和32。整个框架在PyTorch中实现[41]。训练和验证模型在NVIDIA Quadpro P8000的 4个GPU上进行，每个GPU为 48GB节段a-和双射网络由学习率为2的随机梯度下降优化器[1]训练。5 ×10−4，8556×LL表2.在SYNTHIA上训练的不同模型的Cityscapes验证集上的语义分割性能mIoU（%）。我们还示出了13个类（mIoU*）的mIoU（%），不包括具有 * 的类。SYNTHIA→城市景观（16类）模型路人行道建筑墙 *围栏 *杆 *光签署蔬菜天空人骑手车总线姆比凯自行车MioumIoU*不进行适应64.926.171.53.00.221.70.10.273.171.048.420.762.927.912.035.633.739.6[25]第二十五话69.529.468.74.40.332.45.815.081.078.752.213.172.823.67.918.735.841.2SPIGAN [25]71.129.871.43.70.333.26.415.681.278.952.713.175.925.510.020.536.842.4[50]第五十话79.237.278.8---9.910.578.280.553.519.667.029.521.631.3-45.9[51]第五十一话82.239.479.4---6.510.877.882.054.921.167.730.717.832.2-46.3CLAN [31]81.337.080.1---16.113.778.281.553.421.273.032.922.630.7-47.8高级工程师[54]87.044.179.79.60.624.34.87.280.183.656.423.772.732.612.833.740.847.6[40]第四十话84.337.779.55.30.424.99.28.480.084.157.223.078.038.120.336.541.748.9DADA[55]89.244.881.46.80.326.28.611.181.884.054.719.379.740.714.038.842.649.8我们的BiMaL92.851.581.510.21.030.417.615.982.484.655.922.385.744.524.638.846.253.7表3.在GTA5上训练的不同模型的Cityscapes验证集上的语义分割性能mIoU（%）GTA5→城市景观（19类）模型路人行道建筑壁围栏极光签署蔬菜地形天空人骑手车卡车总线火车姆比凯自行车Miou不适应[50]75.816.877.212.521.025.530.120.181.324.670.353.826.449.917.225.96.525.336.036.6道路[5]76.336.169.628.622.428.629.314.882.335.372.954.417.878.927.730.34.024.912.639.4[50]第五十话86.536.079.923.423.323.935.214.883.433.375.658.527.673.732.535.43.930.128.142.4最小输入[54]84.225.277.017.023.324.233.326.480.732.178.757.530.077.037.944.31.831.436.943.1高级工程师[54]89.936.581.629.225.228.532.322.483.934.077.157.427.983.729.439.11.528.423.343.8我们的BiMaL91.239.682.729.425.229.634.325.585.444.080.859.730.486.638.547.61.234.036.847.3动量为0。9，重量衰减10- 4。对于分割网络，每个GPU的批量大小设置为4，对于学习双射网络，每个GPU的批量大小设置为16在所有实验中，图像大小被设置为1280 × 7205.3. 消融研究损失的有效性。图4报告了在SYNTHIA数据集上训练模型时，BiMaL在Cityscape验证集的16个类上的语义性能（mIoU）。我们考虑三种情况：（1）没有自适应（仅具有源的训练），（2）没有正则化项的BiMaL（仅Ilk（y）），以及⑶具有正则化项的BiMaL（Ilk（y）+ τ（y））。总体而言，所提出的Bi-MaL提高了该方法的性能特别地，基线的mIoU准确度（没有适配）是33。百分之七。相比之下，没有正则化的BiMaL和具有正则化的BiMaL实现了43的mIoU精度。5%，46。2%，分别。在每类准确性方面，使用BiMaL显著提高了“道路”、“人行道”、“公共汽车”和“摩托车”类的性能。双向网络能力。我们进行了一个试点实验的双射网络上的地面实况语义分割图像的GTA数据集。本实验旨在分析双射网络对图像和结构信息建模的能力。刻度数和流量步长数分别设置为3和32。活泼地如图5（a）所示，我们的双射网络可以成功重建了高质量图像。它还可以合成从潜在空间采样的图像，如图5（b）所示。这些实验结果表明双射网络甚至可以对具有复杂结构的图像建模，如场景分割。5.4. 与SOTA方法的比较我们提出的实验结果相比，其他强基线的建议approach。在三个基准上进行比较实验：即SYNTHIA到Cityscapes，GTA5到Cityscapes，以及SYN- THIA到Vistas。在所有三个基准测试中，我们的方法一致地实现了SOTA语义分割性能的SYNTHIA到Cityscapes 表2显示了Cityscape验证集的16个类的语义性能（mIoU）。我们提出的方法实现了更好的准确性比现有的方法，即。四十六岁。比DADA高2%[55] 了3. 百分之六。考虑到每个类的结果，我们的方法显著改善了“人行道”类的结果（51. 5%）、‘汽车’（85. 7%），以及“巴士”（44. 5%）。我们还报告了13类子集的结果，我们提出的方法也达到了最先进的性能。GTA5城市风景表3显示了验证集上19类Cityscapes的mIoU。我们的方法获得47的mIoU。3%，与现有方法相比，这是最先进的性能。分析每个类的结果，我们的方法获得了改善大多数类。特别地，关于“地形”（+10. “货车”（升9，巴士（升百分之八，"电单车（升5，6%）与AdvEnt相比显示出显著改善。对于其他类别，所提出的方法获得适度的改进，相比以前的SOTA方法。8557→图6. SYNTHIA城市景观实验的定性结果列1和列5是输入和对应的地面实况。第2、3和4列是没有自适应的模型、AdvEnt [54]和我们的方法的结果。SYNTHIA呼叫远景表4报告了Vistas测试集的7个类别的mIoU。我们的方法获得了67的mIoU。2%，这是与现有方法相比的SOTA性能。此外，我们的方法还获得了moder- ate每类精度的改进。定性结果。图6示出了SYNTHIA至 Cityscapces实验的定性结果。与在源域和AdvEnt上训练的模型相比，我们的方法给出了更好的定性结果[54]。我们的方法可以很好地模拟图像的结构。特别地，我们的结果在“道路”和“人行道”之间有明显的边界同时，仅在source和AdvEnt上训练的模型的结果在“道路”和“人行道”之间具有不清晰的边界总体而言，我们的定性语义表4. 在SYNTHIA上训练的不同模型的Vistas测试集上的语义分割性能mIoU（%）。（const.表示用于构造）SYNTHIA→景观（7类）模型平坦常数对象性质天空人类车辆Miou[25]第二十五话53.030.83.614.653.05.826.926.8SPIGAN [25]74.147.16.843.383.711.242.244.1高级工程师[54]86.958.830.574.185.148.372.565.2DADA [55]86.762.134.975.988.651.173.867.6我们的BiMaL87.661.635.377.587.853.375.668.4分割结果比AdvEnt的结果更清晰6. 结论本文提出了一种新的双射最大似然方法的语义场景分割领域自适应。与对抗熵最小化损失相比，它是一种更一般化的形式，可以在没有任何像素独立性假设的情况下工作。此外，还引入了新的未对齐域分数度量来以无监督方式测量分割模型在新目标域上的效率。通过对三个不同数据集的深入实验，即SYNTHIA到 Cityscapes，GTA到 Cityscapes，以及SYNTHIA到Vistas，与现有方法相比，我们实现了SOTA性能。具体来说，我们的语义分割准确率在这三个基准是46。2%，47. 3%，68。4%，分别。这项工作的未来方向这项工作得到了NSF Data Science，Data Analytics thatare Robust and Trusted （ DART ）， Chancellor'sInnovation Fund，UAF和NSF Small Business Grant的支持8558引用[1] 我在博图。随机梯度下降的大规模机器学习在COMPSTAT中。2010年。[2] 林琛，文丽，董旭。通过从RGB-D数据学习来识别RGBCVPR，2014。[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接CRF进行语义TPAMI，2018年。[4] 陈明昊，薛宏阳，蔡登。最大平方损失的语义分割的主适应。在ICCV，2019年。[5] Yuhua Chen，Wen Li，and Luc Van Gool.道路：面向现实的适应城市场景的语义分割。在CVPR，2018年。[6] Yi-Hsin Chen ， Wei-Yu Chen ， Yu-Ting Chen ， Bo-Cheng Tsai，Yu-Chiang Frank Wang，and Min Sun.不再歧视：道路场景分段器的跨城市适应。InICCV，2017.[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele. Cityscapes数据集用于语义城市场景理解。在CVPR，2016年。[8] Laurent Dinh ， David Krueger ， and Yoshua Bengio.Nice：Non-linear Independent Components Estimation，2015.[9] Laurent Dinh，Jascha Sohl-Dickstein，and Samy Bengio.使用真实nvp的密度估计，2017年。[10] Chi Nhan Duong、Khoa Luu、Kha Gia Quach和Tien D.Bui. 基于时间深度限制玻尔兹曼机的纵向人脸建模在CVPR，2016年。[11] Chi Nhan Duong、Khoa Luu、Kha Gia Quach和Tien D.Bui.深款外观：人脸建模的深度玻尔兹曼机方法。IJCV，2019年。[12] Chi Nhan Duong 、 Khoa Luu 、 Kha Gia Quach 和 NganLe。Shrinkteanet：通过缩小师生网络实现百万级轻量级人脸识别。arXiv：1905.10620，2019.[13] Chi Nhan Duong，Khoa Luu，Kha Gia Quach ，NghiaNguyen，Eric Patterson，Tien D. Bui和Ngan Le。通过深度强化学习在视频中自动进行面部老化。在CVPR，2019年。[14] Chi Nhan Duong，Kha Gia Quach，Khoa Luu，T HoangNgan Le，Marios Savvides，and Tien D Bui.从纵向面部演示中学习-易于处理的深度建模与反向强化学习相结合。IJCV，2019年。[15] Chi Nhan Duong、Thanh-Dat Truong、Khoa Luu、KhaGia Quach、Hung Bui和Kaushik Roy。Vec2face：在人脸识别中从黑盒特征中揭示人类的面孔。在CVPR，2020年。[16] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督ICML，2015。[17] Yves Grandvalet和Yoshua Bengio基于熵最小化的半监督学习。NIPS，2005年。[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[19] 朱迪·霍夫曼，索拉布·古普塔，特雷弗·达雷尔。通过模态幻觉学习附带信息。在CVPR，2016年。[20] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu、Phillip Isola、Kate Saenko、Alexei Efros和TrevorDarrell。CyCADA：Cycle-consistent adversarial domainadaptation。在ICML，2018。[21] 朱迪·霍夫曼，王德全，余菲，特雷弗·达雷尔. FCNs inthe wild ： Pixel-level adversarial and constraint- basedadaptation.arXiv：1612.02649，2016。[22] Weixiang Hong ， Zhenzhen Wang ， Ming Yang ， andJunsong Yuan.用于结构化域自适应的条件生成对抗网络。在CVPR，2018年。[23] Durk P Kingma和Prafulla Dhariwal。Glow：具有可逆1x1卷积的生成流。In S.Bengio，H.Wal-lach，H.拉罗谢尔湾格劳曼Cesa-Bianchi和R. Garnett，编辑，NIPS，2018。[24] T. Hoang Ngan Le ， Kha Gia Quach ，Khoa Luu ， ChiNhan Duong，and Mari

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

语义场景分割中的领域适配与对抗训练方法

领域自适应语义分割中的对抗性学习方法与SIBAN网络结构的应用

自我激励的金字塔课程：非对抗性方法的跨领域语义分割

基于区分性面片表示的领域自适应方法改进语义分割

语义一致领域自适应的类别级对抗网络在语义分割任务上取得了匹配现有方法的结果

场景语义分割与物体模型语义分割的区别

国内外交通场景语义分割现状

弱监督语义分割、无监督语义分割和全监督语义分割的关系和区别

语义分割有哪些应用场景

UNet道路场景语义分割

实时语义分割与非实时语义分割

语义分割 图像分割

语义分割和实例分割的优点与缺点

交通场景中的语义分割

图像分割和语义分割的区别

标准语义分割和实例语义分割

语义分割与图像分割区别

CVPR2021语义分割

高精度语义分割方法发展史

多阶段弱监督语义分割和端到端语义分割区别

最新资源

语义分割图像分割