跨域语义分割中标签移位的损伤

187 浏览量更新于2023-10-25 收藏 814KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7042|消除跨域语义分割中标签移位的损伤亚豪刘锦洪邓佳乐陶彤储立新段文莉*深圳高等研究院计算机科学与工程学院中国电子科技大学{lyhaolive，jhdeng1997，jialetao.std，uestcchutong，lxduan，liwenbnu} @ gmail.com摘要现有的工作通常把跨域语义分割（CDSS）作为一个数据分布不匹配的问题，并专注于调整边缘分布或连接分布。然而，标签移位问题被不幸地忽视了，这实际上普遍存在于CDSS任务中，并且经常导致学习模型中的分类器偏差。本文对此进行了深入的分析，并证明了通过对齐数据条件分布和修正后验概率可以克服标签移位的危害。为此，我们提出了一种新的方法来消除标签移位问题的损害在CDSS中。在实现中，我们采用类级特征对齐的方法进行条件分布对齐，并通过两种简单有效的方法对分类器的预测进行重构，以纠正分类器从源到目标的我们在城市场景的基准数据集上进行了广泛的实验，包括GTA5到Cityscapes和SYNTHIA到Cityscapes，我们提出的方法在很大程度上优于以前的方法。例如，我们的模型配备了自我训练策略，达到59。3%mIoU上GTA5到Cityscapes，推-ING 到一个新的国家的最先进的。代码将在https://github.com/manmanjun/Undoing UDA。1. 介绍语义分割的目的是对给定图像中的每个像素进行分类。作为一个基本的视觉感知问题，它是许多视觉应用的基本模块，如自动驾驶系统。近年来，在大规模注释数据集的推动下，语义分割取得了显著进展[5，13，53]。然而，大量且高质量的注释，特别是用于语义分割的注释，可能是昂贵且劳动密集的。因此，为新环境收集足够数量的注释良好的图像并不总是现实的。幸运的是*通讯作者我们可以通过物理引擎从计算机获得具有精确像素级注释的合成图像[36，38]。然而，使用合成域训练的模型通常会遭受性能下降，因为合成图像（源域）和测试图像（目标域）是从不同的分布中提取的。这种现象普遍存在于跨领域语义分割（CDSS）任务中，许多无监督的领域自适应模型被提出来解决这个问题，将知识从标签丰富的源领域转移到未标签的目标领域。大多数现有的CDSS方法[11，18，29，34，42，44]试图通过对抗训练来学习域不变表示，以对齐边缘分布（p（x））或条件分布（p（x y））。然而，他们忽略了标签移位问题，这通常存在于CDSS任务，因为标签分布往往是不同的域。如图1所示，以GTA 5 [36]到Cityscapes [13]为例，“truck”和“wall”在源域中的频率因此，在这项工作中，我们提出了一种新的方法来撤销CDSS中的标签移位的损害。首先，我们深入分析了分类器偏差是导致学习后的语义分割模型在目标域上泛化能力差的关键因素，并指出当存在标签移位问题时，分类器偏差是导致泛化能力差的关键不可避免的是，分类器将偏向源域，因为监督信号仅来自源域。同时，我们表明，标签移位的损害可以克服对齐数据的条件分布和校正后验概率。然后，我们采用类级特征对齐进行条件分布对齐，并提出了两种简单有效的方法，通过重构分类器预测来纠正分类器从源到目标的偏差。特别地，在对齐条件分布之后，我们使用源和目标标签分布在训练阶段或推理阶段调整分类器的预测7043一H10.0%9.0%百分之八点零7.0%6.0%5.0%4.0%3.0%百分之二点零百分之一点零百分之零点零GTA5城市景观2. 相关工作2.1. 语义分割语义分割是一种像素级预测，可用于大量视觉应用，如自动驾驶和安全。Long [27]提出了全卷积网络（FCN），之后研究人员开始关注如何设计语义分割的主干，并提出了许多优秀的解决方案，如UNet[37]，SegNet [1]，HRnet [45]和SegFormer [46]。在语义切分中，分类器对提高切分精度起着重要作用，因此许多研究工作都对分类器的作用机理进行了深入的研究。图1. GTA5和Cityscapes中的标签分发。两个数据集之间存在明显的标签移位问题。例如，GTA5中的“骑手”的频率为了实现这一点，我们设计了一种新的方法来估计目标标签分布使用模型预测和源像素分布先验。这样，我们可以有效地解决标签移位问题，从而提高模型在目标域上的泛化能力。我们在城市场景的基准数据集上进行了广泛的实验，包括GTA5到Cityscapes和SYNTHIA到Cityscapes。通过简单的分类器校正后对齐的条件分布，我们的方法是非常有效的。例如，对于GTA5到Cityscapes任务，它可以达到49。0%的mIoU，这超过了所有基于对抗的方法。我们的模型可以达到59. 自我培训后，3%的mIoU。这验证了我们提出的方法的有效性。简而言之，我们的贡献可概括如下：• 我们建议在一个更现实的场景中解决CDSS任务的标签移位问题（即，条件分布在域之间是不同的），并且揭示了分类器偏差是导致目标域上的较差泛化的关键因素。• 我们提出了两个简单而有效的方法来纠正分类器的偏见，从源到目标，重塑分类器的预测后，明确对齐的条件分布。• 我们在城市场景的基准数据集上进行了广泛的实验。实验结果表明，我们的方法优于其他现有的工作，达到了一个新的国家的最先进的，验证了我们的深入分析标签移位。分类器，包括DeepLab [8]，PSPnet [50]和 OCR- net[48]。然而，尽管这些方法在语义分割方面取得了令人印象深刻的性能，但它们仍然需要大规模的注释良好的数据集，这在现实世界的应用中并不容易收集。2.2. 无监督域自适应无监督域自适应（UDA）方法旨在将知识从标签丰富的域转移到无标签的域，并且已经在许多计算机视觉任务中进行了探索，例如，分类[28，39]，对象检测[10，15]和语义分割[23，42]。大多数UDA方法都是基于源域和目标域之间的差异（例如，，-divergence[2]或-距离[3]）。其中，对抗训练是最广泛采用的策略[12，20，28，39]。这种方法通常侧重于在协变量偏移的假设下对齐源域和目标域之间的边缘分布。最近，研究人员发现，这种对齐策略可能会导致错位现象[7，24]。因此，一些方法试图通过对抗训练来解决源域和目标域之间的条件转移[30，40]。2.3. 跨领域语义分割利用合成数据来辅助真实世界数据已经成为无监督域自适应的一个热门研究课题为了解决跨域语义分割问题，[23，42，43]使用具有结构信息的域对抗学习来对齐边缘分布。然而，为了消除错位现象，已经提出了许多方法[18，29，34，44最近，自我监督的方法，包括自我训练[16，17，32，49，51，52，54，55]和语义一致性[26，41，47]，已被证明可以显着提高跨域语义分割性能。然而，源域和目标域之间的标签移位问题仍然是一个长期存在但未得到充分研究的问题7044◦||不ti=1◦D{|}||Ss|问题.一些方法[6，19]试图解决这个问题，但它们通常假设跨域的条件分布是相同的，这在实践中是不现实的。在一个不同的方法比其他研究，我们提出解决的条件转移和标签转移模拟。目前，最相关的工作是CLS [25]，它提出了一种通过调整标签分布来对齐边缘分布的算法，作为条件分布对齐的替代方案。与之不同的是，我们提出了一个两阶段的学习范式，通过对齐条件分布，然后考虑标签移位，这给出了一个更好的性能结果。详细分析见第3.5节。3. 方法在跨域语义分割（CDSS）中，我们给定标记的源域Ds={（xi，yi）|Ns}，其中第3.2节中的标签对齐策略和第3.3节中的标签分布调整策略。其他详细信息和讨论见第3.4节和第3.5节。3.1. 动机给定分割模型G=C F，期望分类器C输出理想情况下的后验概率，即，G（x）=C（F（x））=p（YF（x））其中x是图像，Y是表示语义标签的随机变量。根据贝叶斯C（F（x））= P（Y F（x））= P（F（x））|Y）P（Y），（1）P（F（x））其中p（F（x））是常数，x是采样图像。我们可以观察到，分类器受到条件分布P（F（x））的影响。|Y）和标签分布P（Y）。相应地，对于分割模型Gs=CsSs i =1xi是图像，yi是对应的像素级anno。tation，以及未标记的目标域t= xiNt，其中xi是没有注释的目标图像。虽然目标域是未标记的，但我们通常假设源域和目标域共享相同的标签空间。为了简单起见，我们在下面的损失函数中忽略图像大小H和W。CDSS的任务是学习一个在目标域上表现良好的语义分割模型G通常，分割网络可以表示为G=C F，其中F是特征提取器，C是分类器。现有方法[11，23，42]主要将CDSS视为数据分布失配问题，并专注于训练F，通过对齐边缘分布[11，42]或条件分布[18，29，34，44]来对齐源和目标域然而，数据分布不匹配并不是CDSS的唯一问题。还经常有标签分发Fs在源数据上训练，Cs的输出满足以下关系：C s（F（x））P s（F s（x））|Y）Ps（Y）。（二）类似地，对于目标域，理想分割模型Gt=Ct <$Ft应满足，C t（F t（x））<$P t（F t（x））|Y）Pt（Y）。（三）在CDSS中，我们的目标是使使用源监督训练的模型在不损失一般性的情况下，我们假设特征提取器对于两个域是相同的，并且将它们统一为F=Fs=FT。然后，我们进一步假设条件数据分布P（XY）是良好对齐的，即，我们有Ps（F（x）Y）=Pt（F（x）Y）。使用等式（2）和Eq。（3）、Cs与Ct的关系可导出为：Cs（F（x））Pt（Y）不同领域之间的差异。例如，汽车和建筑物在该国的频率要低得多Ct（F（x））.（四）Ps（Y）在城市景观中，植物的出现频率高于乡村景观，植物的出现频率高于城市景观。从图1中可以观察到更多的例子。这种标签分布差异将导致源域和目标域之间的分类器差异，即使它们的数据分布很好地对齐。换句话说，我们需要关注CDSS模型的学习分类器C，以减少由标签分布离散性引起的分类器偏差。为此，我们提出了一种新的方法来同时处理图2所示的数据分布差异和标签分布差异，其中我们利用条件分布对齐策略并为此目的设计了两种标签分布调整策略。在下文中，我们首先对第3.1节中的分类器偏差和标签分布差异进行了严格的分析，然后进行了条件分布。我们可以从Eq。（4）源域和目标域之间的标签分布差异会导致分类器偏差问题。并指出了一种使源分类器向理想目标分类器逼近的方法。我们将在以下小节中详细介绍该解决方案。3.2. 条件分布对齐如上文所示，使用等式（1）来校正分类器偏差的假设（4）数据的条件分布是否对齐。接下来，我们讨论如何在CDSS中执行条件分布对齐。对抗性训练是CDSS中对齐两个分布的常用策略，其中应用域CRDD来学习域不变特征。判别器D调整特征并尝试识别输入图像的域标签，而特征提取器F尝试提取域不变特征。这是7045LLLLLL∝ΣΣ不不′Lseg= − klog。C. F. （7）第一章不不S不CCDAsegSPt（Y=k）ps·SΣΣ通过在特征提取器F和FGD之间的梯度保留层（GRL）或通过采用最小-最大方式的替代优化来实现。对于条件分布对齐，也提出了一些解决方案[18，29，34，44]。一般来说，它们是通过将标签信息集成到域CNOID中来实现的。例如，FADA [44]建议扩展域的属性，以输出域标签和类标签。具体地说，他们使用一个具有2K维输出的数据库，条件分布对齐模型分类器创意分类器分级机整流培训流程类条件域概率。形式上，对抗学习过程的优化过程可以写为：minseg+λadv adv，（5）F、C最小D，（6）D其中 seg是源域的交叉熵损失，D被设计用于训练CSTRD，adv用于使F提取条件域不变特征。其定义如下：NsK图2.概述我们提出的方法。首先，通过条件分布对齐，特征提取器将获得连续域不变特征。然而，在偏向于源域的模型分类器和理想目标分类器之间仍然存在分类器差异因此，我们需要通过分类器校正来消除标签移位对CDSS的损害（最好是彩色的）。分类器精化（CR）我们考虑如何使用CDSS中的源监督来训练目标分类器。特别是，假设我们有一个分类器Ct，根据方程。（4）我们有，S si=1k =1C（F（x））Ct（F（x））Ps（Y）。（十）sPt（Y）Ladv=−NtKj=1k=1ajklogD .d=0，y=k|F（xj）、（八）这意味着当训练具有源监督的分割模型时，如果我们使用上述公式来重塑分类器的预测，则我们能够获得可以直接用于预测的目标分类器NK 目标域样本。LD= − 伊希斯a iklog D（d = 0，y = k |F（x i））具体地，在执行条件分布之后，Si=1k =1S（九）为了进行对准，我们首先固定主干，使得特征的条件分布保持不变。然后我们Nt K-ajklogD（d=1，y=k|F（xj）），使用标记的源样本通过如下最小化语义分割损失其中k和jk是不同域的第k类kn，d是域标签，0表示源域，1表示目标域。详情请参阅[44]这样，该功能突出了-最小L′ 、（11）nsKL=−yiklog（pik），（12）TOR将在使用条件分布对齐策略训练模型之后获得条件域不变特征。我们简单地使用FADA进行条件数据分布对齐，并专注于验证IM。segikS si=1k =1pik·Ps（Y=k）分类器偏差校正的重要性。3.3. 分级机整流p=ΣKj=1k=1′′k=1Pt（Y=k）源目标A类B类7046|.ik′P（Y=k′）（十三）在对齐条件分布P（X Y）之后，我们能够使用Eq.（4）将源分类器校正为目标分类器，即，通过 Pt（Y）/Ps（Y）的比值调整Cs的预测值。为此，我们提出了两种策略，类化细化和推理调整推理调整（IA）：另一种想法是我们在目标域的推理阶段直接调整现有网络Gcda的输出。由于一致性概率分布现已对齐，因此满足标签移位的假设根据Eq。（四）、7047不不ΣΣ不ΣΣSSS·ΣP（Y=k）=i=1t.（十九）Σlog1+S伊克。（二十）P（Y=k）=i=1s。（十六）不不我们在目标域数据xi的推断阶段中调整现有网络Gcda的输出pi，以获得最终预测y1A。因此，我们调整分类器的预测对于类别k，如果pi（k）大于ppix（k），则认为该类别出现在图像中，否则Ii（k）为0。对数据集进行归一化处理后，可得到目标域的标签分布估计Pt（Y）. 具体情况如下：i=argmaxk。pi·。（十四）Pt（Y）IA不刘伟Ps（Y）在CDSS中，CR和IA都是从pi（k）=log1实验GHW h=1w=1CDA . Xi∈（h，w，k）∈，分类器，以纠正由域移位引起的问题CR使分类器偏向目标域在训练阶段，而IA的目的是在推理时直接改变目标域的模型（十七）Ii（k）=1[pi（k）>ppix（k）]，（18）阶段这两种策略在理论上基本相同ΣNt Ii（k）你可以选择任何一种方式结合数据分布对齐此外，它在现有的最先进的CDSS中很受欢迎不3.5. 讨论Kk=1Nti=1 Ii（k）方法[32，49，52]使用域对齐模型作为用于生成伪标签的预热模型，然后执行自训练。由于我们提出的策略能够提高基于对抗的CDSS模型的性能，因此这些自训练方法中伪标签的质量也将得到提高，从而进一步提升当前最先进的CDSS方法。3.4.标签分布估计回想一下，当使用3.3节中的两种策略校正分类器时，需要先验标签分布Ps（Y）和Pt（Y）。我们将在下面讨论如何估计它们。对于源域，由于标签可用，我们通过从地面真值中计数图像级类别标签，直接获得标签分布估计Ps（Y）在最近的一项研究中，CLS [25]被提议解决无监督域自适应任务中的标签移位问题虽然他们也在实验中验证了他们的CDSS方法，但与我们的方法相比，性能不太令人满意（详见第4节）。我们分析潜在的原因如下。在CLS中，他们证明了条件分布对齐可以通过将类分类器和域分类器合并在一起并使用标签分布比率重新加权类分类器损失来实现之后，执行后验对齐以校正训练的类分类器。我们澄清CLS和我们之间的区别，以获得更好的理解的标签移位问题的CDSS。特别地，给定具有标签k的源图像xi，经修改的分类器损失可以被写为：标签在整个数据集。具体而言，我们表示第i个源图像的图像级标签的计数为Ii（k）.我们可以得到Ii（k）如下：Pt（Y=k）阿比克k′KSIi（k）=1Σ。公司简介S1yi（h，w）==k> ns，（15）为了方便起见，我们在等式中重写了分类器细化的损失。（十二）如下：哪里h=1w=1意味着我们忽略了那些只存在于Ps（Y=k′）Pt（Y=k）pik′S′Sns在图像中有v个像素，1[·]是指示函数L（k，xi）=log1 +k′S.Ps（Y=k）Pt（Y=k）pikK当[ ]为true时，它等于1，否则为0。图像级可以如下估计整个数据集的源标签分布：（二十一）可以观察到，不同之处在于CLS应用标签分布比率作为损失重量，而我们不应用标签分布比率作为损失重量。ΣNs Ii（k）S直接调整类的后验概率输出，SKk=1Nsi=1 Ii（k）sifier。如[4，33]所述，当重新加权损失时，标签分布比率也有助于指导分类器对于没有地面实况的目标域，我们使用条件对齐模型Gcda通过平滑最大池策略[31，34，35]估计图像级类别概率pi（Y）然后，我们将其与源域数据y我pWL（k，xs）=Ps（Y=k）7048集中每个类别的像素比ppix（Y）进行接近目标分类器，但不像DI那样有效直接使用它来纠正分类器输出，比如我们的分类器细化损失。另一个重要的区别是，CLS在训练和推理7049×阶段。如第3.3节所述，如果正确应用，标签分布比率能够在任一阶段恢复目标分类器。从概率的角度来看，在两个阶段都使用它是不可取的。我们推测，由于训练阶段的损失加权不太有效，他们可能希望通过在推理阶段再次应用标签分布比率来补偿它。相反，在我们的方法中，我们清楚地解开了条件分布对齐和标签移位校正问题。通过在分类器精化或推理调整中应用标签分布比率，我们在分割性能上获得了令人满意的改善。4. 实验4.1. 数据集我们在两个常见的CDSS基准上进行实验：GTA5到Cityscapes和SYNTHIA到Cityscapes。它们都是从合成到真实的场景。GTA5和SYN-THIA是用作源域的合成数据集，Cityscapes是作为目标域的真实数据集。• Cityscapes[13]是一个真实世界的城市场景语义分割基准数据集。在[23，42，43]之后，我们使用来自其训练集的2，975张没有注释的图像作为未标记的目标样本，并在包含500张图像的验证集上评估我们的方法• GTA5[36]是一个自动合成的数据集，来自名为Grand Theft Auto V（GTA5）的计算机游戏我们使用其所有24，966张图像作为源域，其中包括与Cityscapes共同的19个类。• SYNTHIA[38]也是一个流行的合成语义分割基准数据集。我们使用它的子集 SYNTHIA-RAND-CITYSCAPES作为源域，它包含9400幅图像和16个与Cityscapes相同的类。4.2. 实现细节在我们的实验中，遵循实验研究的方法[18，21，29，32，41我们采用在ImageNet [14]上预训练的ResNet-101 [22]模型作为主干。为了公平比较，我们使用Deeplab-v2 [9]中的原始Atrous空间金字塔池化（ASPP）和修改后的ASPP [51，52]作为分割分类器进行实验。当执行条件对抗学习时，我们选择FADA [44]作为我们的基线。对于原始ASPP，我们使用FADA提供的检查点。对于使用修改后的ASPP的方法，我们重现FADA的实验作为一个新的基线。在我们的实验中，我们使用随机变量梯度下降（SGD）优化器，动量设置为0。9，权重衰减设置为10−4。我们采用幂为0的多项式衰减。9，初始学习率为2。5 10−4。在自我训练阶段，我们遵循伪标签方法的相应训练策略 [32 ， 49] 。我们使用Intersection over Union（IoU）作为评估指标，并报告每个类的IoU和所有类的平均IoU。我们使用PyTorch实现在Tesla V100 GPU上进行所有实验。4.3. 分析与现有技术方法的比较我们分别在表1和表2中将所提出的方法与先前的现有技术CDSS方法在GTA 5到Cityscapes 和 SYN-THIA 到 Cityscapes 上进行比较。CDSS方法可分为三类：1 ）域比对方法，包括 AdaptSegNet [42] ， AdvEnt[43]，CLAN [29]和FADA [44]，2）自训练方法，包括CRST [55]，R-MRNet [52]，IAST [32]和ProDA [49]，3）数据参数方法，包括FDA [47]，DACS [41]。所有模型都使用ResNet-101作为主干，原始ASPP作为分类器进行训练，除了ProDA [49]和R-MRNet [52]，它们使用修改后的ASPP作为分类器。因此，与ProDA和R-MRNet相比，我们基于修改后的ASPP重现了FADA[44]。值得注意的是，我们的工作主要解决了标签移位后的条件分布对齐。因此，很明显，与域对齐方法[29，42此外，配备不同的伪标签策略，我们的方法可以改善他们的结果，甚至达到新的国家的最先进的结果。具体而言，在GTA 5到Cityscapes的场景中，所提出的推理调整（IA）和分类器细化（CR）达到48。8%的mIoU和49。0%mIoU，分别。他们优于所有以前的域对齐的方法由一个显着的保证金。我们的工作可以提高那些两个域之间密度相差很大的类别的性能，例如，“卡车”和“自行车”。结合自我训练方法，如：[44]，IAST [32]和ProDA [49]，我们实现了52。7%，55. 5%，59。3%的mIoU，达到新的最先进的结果，重新启动。由于CR和IA本质上是相同的，我们只使用CR与自我训练方法相结合。CLS [25]报告了基于IAST的结果，实验结果清楚地表明，我们的工作可以提供2的mIoU增益。5%，采用相同的伪标记方法（即，IAST）。我们的方法的分割结果的定性示例如图3所示，我们可以观察到我们的方法可以预测更准确的分割图。在表2中也可以观察到SYNTHIA与Cityscapes的相似结果。对于这项任务，我们报告了16个类和13个类（不包括7050表1.结果（%）调整GTA5到城市景观。所有结果都是从基于ResNet-101的模型中获得的。除了ProDA [49]和R-MRNet [52]使用修改后的ASPP作为分类器外，其他方法都使用原始ASPP。方法道路人行道建筑墙栅栏杆灯标志蔬菜。地形天空人乘用车货车客车列车Miou源65.016.168.718.616.821.331.411.283.022.078.054.433.873.912.730.713.728.119.736.8[42]第四十二话86.536.079.923.423.323.935.214.883.433.375.658.527.673.732.535.43.930.128.142.4[第43话]89.433.181.026.626.827.233.524.783.936.778.858.730.584.838.544.51.731.632.445.5[29]第二十九话87.027.179.627.323.328.335.524.283.627.474.258.628.076.233.136.76.731.931.443.2FADA [44]87.037.683.336.925.330.935.321.082.736.883.158.334.183.331.535.024.434.332.046.9我们的IA87.937.083.337.025.031.035.724.983.438.985.758.035.483.635.336.330.732.545.248.8我们的CR89.134.383.638.327.528.934.717.684.241.085.157.833.785.138.541.330.731.148.049.0美国食品药品监督管理局[47]92.553.382.426.527.636.440.638.982.339.878.062.634.484.934.153.116.927.746.450.5DACS [41]89.939.787.930.739.538.546.452.888.044.088.867.235.884.545.750.20.027.334.052.1CRST [55]91.055.480.033.721.437.332.924.585.034.180.857.724.684.127.830.126.926.042.347.1FADA+SD [44]92.547.585.137.632.833.433.818.485.337.783.563.239.787.532.947.81.634.939.549.2IAST [32]93.857.885.139.526.726.243.134.784.932.988.062.629.087.339.249.623.234.739.651.5CLS [25]+IAST94.760.185.639.524.444.139.520.688.738.780.367.235.186.537.045.439.037.946.253.0我们的+SD91.245.185.541.030.836.041.119.387.445.788.764.437.887.541.851.211.241.654.952.7我们的+IAST94.161.386.539.333.538.348.938.587.244.289.363.438.386.230.543.033.643.154.855.5R-MRNet [52]90.431.285.136.925.637.548.848.585.334.881.164.436.886.334.952.21.729.044.650.3ProDA [49]87.856.079.746.344.845.653.553.588.645.282.170.739.288.845.559.41.048.956.457.5我们的+ProDA92.952.787.239.441.343.955.052.989.348.291.271.436.090.267.959.80.048.559.359.3表2.使SYNTHIA适应城市景观的结果（%）。mIoU* 表示13个类别的平均IoU，不包括标记为*. 未计算的类被“-”替换所有结果都是基于ResNet-101的模型生成的[49]第49话R-MRNet [52]使用修改后的ASPP作为分类器，其他方法使用原始ASPP。方法道路人行道建筑墙 *栅栏 *杆 *灯标志蔬菜。天空人乘用车摩托车mIoU* mIoU源55.623.874.69.20.224.46.112.174.879.055.319.139.623.313.7 25.038.6三十三点五[42]第四十二话81.739.178.411.10.325.86.89.079.180.854.821.066.834.713.8 29.945.8三十九点六[第43话]85.642.279.78.70.425.95.48.180.484.157.923.873.336.414.2 33.048.0四十一点二[29]第二十九话81.337.080.1---16.113.778.281.553.421.273.032.922.6 30.747.8-FADA [44]81.335.180.89.60.226.89.117.882.481.549.918.878.933.315.3 33.747.5四十点九我们的IA82.235.680.89.00.227.112.421.382.380.754.421.280.036.614.0 42.249.542.5我们的CR83.636.280.910.30.127.417.622.881.581.254.620.180.338.111.1 42.950.143.0美国食品药品监督管理局[47]79.335.073.2---19.924.061.782.661.431.183.940.838.4 51.152.5-DACS [41]80.625.181.921.52.937.222.724.083.790.867.638.382.938.928.5 47.654.8四十八点三分CRST [55]67.732.273.910.71.637.422.231.280.880.560.829.182.825.019.4 45.350.143.8FADA+SD [44]84.540.183.14.80.034.320.127.284.884.053.522.685.443.726.8 27.852.5四十五点二IAST [32]81.941.583.317.74.632.330.928.883.485.065.530.886.538.233.1 52.757.0四十九点八我们的+SD86.942.983.39.90.035.317.226.085.483.062.018.586.751.412.8 50.054.347.0我们的+IAST84.643.084.138.10.536.732.936.283.181.965.633.480.534.538.2 53.157.851.6R-MRNet [52]87.641.983.114.71.736.231.319.981.680.663.021.886.240.723.6 53.154.947.9ProDA [49]87.845.784.637.10.644.054.637.088.184.474.224.388.251.140.5 45.662.055.5我们的+ProDA82.537.281.123.80.045.757.247.687.785.874.128.688.466.047.0 55.364.556.7“fence”、“pole”）。结合自我训练的方法，可以达到56。7%，64。5%的mIoU分别超过16和13个类别，这表明我们的工作可以在两个数据集上超过现有的方法。这再次验证了我们的方法的有效性，消除了CDSS的标签移位的损害。结合自训练由于自训练方法[32，44，49]通常使用域对齐方法，7051ods作为他们的热身模型来产生伪标签，我们的模型可以很容易地插入其中。为了简洁起见，我们在这一部分只显示了分类器精化的结果。如表3所示，我们首先将自蒸馏（SD）[44]与我们的方法结合起来，我们可以增加我们的基线49。2% mIoU至52。7%的mIoU。通过将我们的方法与先进的自我训练方法相结合[32]，我们实现了更高的mIoU（55. 5%，五十三2% ）。使用 ProDA [49] ，我们的模型达到 59 。3%mIoU，导致7052∼（一）（b）第（1）款（c）第（1）款（d）其他事项（e）图3.GTA5到Cityscapes的定性分割结果我们提出（a）目标图像，（b）地面实况，（c）仅源(d)基线[44]，（e）我们的。表3.结合不同的自我训练方法于GTA5至Cityscapes之结果（%方法mIoU基线+SD [44] 49.2我们的+SD 52.7 3.5IAST [32] 51.5基线+IAST 53.2Ours+IAST 55.5 2.3ProDA [49] stage1 53.7基线+ProDA阶段1 55.1Ours+ProDA stage1 57.6 2.5ProDA 57.5Ours+ProDA 59.3 1.8↑新的最先进的成果分类器不可知的基线方法FADA [44]建立在原始ASPP的基础上，我们复制了修改后的ASPP版本进行比较。如Ta所示-表4，所提出的方法可以改善基线1。百分之二。两个不同分类器中的1%mIoU。考虑到各种语义分割分类器，我们相信我们的方法可以应用于任何其他类型的分类器。5. 结论在本文中，我们解决了CDSS任务的标签移位问题。我们深入地表明，标签移位往往会导致学习模型中的分类器偏差问题，然而，通过对齐数据一致性，可以有效地避免分类器偏差问题。表4. GTA5到Cityscapes上不同分类器的结果（%）。方法分类器mIoU[44]第四十四话Our IA Original ASPP 48.8 1.9Our CROriginal ASPP49.02.1FADA [44] 修改后的ASPP 47.6我们的IA修改的ASPP 49.2 1.6↑我们的CR改良ASPP 48.7 1.1↑分布和修正后验概率。为此，我们采用类级域对齐对齐条件分布，并建议通过重塑分类器预测来纠正从源域到目标域的分类器偏差。如实验所示，我们提出的方法实现了新的最先进的性能，并在两个CDSS基准设置上以显著的幅度优于所有现有的方法，显示了消除标签移位对CDSS的损害的重要性。局限性：本文主要研究闭集跨领域语义切分问题。未来应考虑开集域自适应和部分域自适应设置鸣谢：本工作得到了新一代人工智能重大项目（批准号：2018AAA0100400）、国家自然科学基金（批准号：62176047）和北京市自然科学基金（Z190023）的支持。↑↑↑↑↑7053引用[1] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on pattern analysis and machineintelligence，39（12）：2481-2495，2017。2[2] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论Machine learning，79（1）：151-175，2010. 2[3] Shai Ben-David ， John Blitzer ， Koby Crammer ，Fernando Pereira ， et al. Analysis of representations fordomain adaptation. 神经信息处理系统进展，19：137，2007。2[4] 乔纳森·伯德和扎卡里·利普顿。深度学习中重要性加权的效果是什么？国际机器学习会议，第872-881页。PMLR，2019年。5[5] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari Coco-stuff：上下文中的东西类. 在IEEE计算机视觉和模式识别会议论文集（CVPR），2018年6月。1[6] Yee Seng Chan和Hwee Ng。词义消歧与分布估计。在第19届人工智能国际联合会议的会议记录中，IJ-CAI摩根考夫曼出版公司3[7] Chaoqi Chen ， Weiping Xie ， Wenbing Huang ， YuRong ， Xinghao Ding ， Yue Huang ， Tingyang Xu ，Junzhou Huang.无监督局部自适应的渐进式特征对齐。在IEEE/CVF计算机视觉和模式识别会议论文集，第627-636页，2019年。2[8] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。Deeplab：使用深度卷积网络、无纹理卷积和全连接crf进行语义图像分割。IE

下载后可阅读完整内容，剩余1页未读，立即下载