无监督场景自适应的双通道对齐网络

132 浏览量更新于2023-10-13 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

DCAN：用于无监督场景自适应的吴祖轩1，韩新通2，林艳亮3，穆斯塔法·格汗·乌尊巴斯3，汤姆·戈尔茨坦1，林南4，拉里·S.戴维斯11马里兰大学2马龙科技3GE全球研究4Facebook抽象。收集密集的像素级注释来训练用于语义分割的深度神经网络是极其昂贵的并且在规模上是不实用的。虽然从标签可读的合成数据中学习听起来很有希望，但由于域差异，在新的现实数据上测试时，性能会显着下降。我们提出了双通道对齐网络（DCAN），一个简单而有效的方法，以减少在像素级和特征级的域移位。探索CNN特征图的每个通道中的统计数据，我们的框架执行通道式特征对齐，其在图像生成器和图像生成器中保留空间结构和语义信息。分割网络。特别地，给定来自源域的图像和来自目标域的未标记样本，生成器即时合成新图像以在外观上类似于来自目标域的样本，并且分割网络在预测语义图之前进一步细化高级特征，这两者都利用来自目标域的采样图像的特征统计。不像许多最近和并发的工作依赖于对抗训练，我们的框架是轻量级的，易于训练。广泛的实验，适应ING模型训练的合成分割基准真实的城市场景证明了所提出的框架的有效性。1介绍深度神经网络推动了计算机视觉的最新进展。然而，通过高容量深度模型实现的准确性的显着提高需要大量手动标记数据的语料库，例如ImageNet [1]和COCO [2]。需要收获干净和大量的注释限制了这些方法的扩展能力，特别是对于细粒度的理解任务，如语义分割，其中密集的注释是非常昂贵和耗时的。一个可能的解决方案是从现代计算机图形工具（例如，视频游戏引擎），使得地面实况标签是容易获得的。虽然合成数据已被用于训练深度网络，以完成深度估计[3]，对象检测[4]等任务。，当暴露于新的真实样本时，所得到的模型通常遭受较差的泛化。原因主要有两方面：（1）合成图像的真实感是有限的--在合成图像之间引起固有的差距。Z. Wu，X.汉，Y.- L. Lin等人2合成和真实图像分布;（2）深度网络在训练阶段容易过拟合，这导致泛化能力有限。学习减少训练和测试分布之间的差异的判别模型通常被称为域适应;更具有挑战性的设置是无监督域自适应，其目的是在训练期间不访问测试域的标签的情况下桥接间隙。大多数现有工作试图通过显式匹配特征统计[5，6，7]或隐式使特征域不变[8，9]来对齐源域（训练集）和目标域（测试集）的深度网络中的特征最近的工作还试图最大限度地减少像素空间中的域偏移，以使原始图像在对抗训练中看起来相似[10，11，12]虽然分类已经取得了很好的进展，但将这些想法推广到语义分割已经被证明是不太有效的[13]，这可能是因为与用于全连接层分类的特征相比，高维特征映射更难对齐。在本文中，我们研究了无监督域适应语义分割，我们称之为无监督场景适应。我们假设高级特征图的通道对齐对于适应分割模型是重要的，因为它能够独立地保留空间结构并考虑语义信息，如在不同通道中编码的属性和概念[14]，这隐含地有助于跨域在相应概念之间转移特征分布。特别是，我们建立在实例规范化[15]的最新进展之上，因为它对于风格转换[15，16，17]的有效性和简单性。实例归一化的动机是CNN特征图的每个通道中的均值和标准差包含图像的样式信息，因此它们用于基于每个通道的参考图像将源图像的特征图转换为归一化版本除了能够匹配特征统计之外，利用通道归一化来维持特征图中的空间结构的能力使得其对于诸如分割的任务具有吸引力。出于这些观察，我们建议减少域差异在低级别和高级别通过通道对齐。特别是，我们规范化的功能，从源域的图像与那些从目标域的图像，通过匹配其通道的特征统计。然而，这种对准是基于每个图像的，其中每个目标样本用作校准的参考。当目标域中存在多个图像时，一种直接的方式是枚举所有图像以覆盖所有可能的变化，这在计算上是昂贵的。相比之下，我们从靶结构域随机取样用于比对。随机化策略不仅有效，而且更重要的是，它提供了一种正则化的形式，以类似于随机深度[18]，数据转换[19，20]和dropout [21]的精神进行训练。为此，我们提出了双通道对齐网络（DCAN），以端到端方式优化的简单而有效的框架。其主要思想是利用来自目标域的图像进行通道对齐，这不仅能够最小化像素中的低级域差异用于无监督场景自适应的双通道对齐网络3空间（例如、颜色、纹理、光照条件等。），而且还同时将源图像的高级特征图归一化为目标图像的高级特征图，以改进分割。图1给出了框架的概述特别是，我们利用图像生成器将图像从源域映射到具有与输入相同内容但具有不同风格的多个表示，由从目标集合中随机选择的未标记图像确定类似于来自目标域的样本的这些合成图像与采样的目标图像一起被进一步输入到分割网络中，在分割网络中，再次执行逐通道特征对准以细化用于最终分割任务的特征。DCAN的主要贡献总结如下：（1）我们提出了一个端到端的学习框架，由目标域图像的特征统计引导，以合成新图像并在无监督场景自适应中对特征进行标准化;（2）我们证明了通道式特征对齐，保留空间结构和语义概念，是减少高级特征映射中域偏移的简单而有效的方法。有了这个，我们的方法离开了许多最近和并发的工作，它使用对抗训练进行分布对齐;（3）我们通过转移在合成分割基准上训练的模型来进行广泛的实验，即，SYNTHIA[22]和GTA 5[23]，到真实的城市场景，CITYS cAPES[24]，并证明DCAN优于最先进的方法，具有清晰的边缘，并且它与几个现代分割网络兼容。2相关工作有大量关于领域适应的工作（参见[25，26]的调查），在这里我们只关注最相关的文献。无监督域自适应。大多数现有的工作集中在分类问题，并分为两类：特征级和像素级的自适应。特征级自适应寻求通过显式地最小化由最大平均差异（MMD）[27，28]、协方差[6]等测量的距离来对齐特征。，或者以反向梯度[29，30]，域混淆[31]或生成对抗网络[8，9，32，33]的形式隐式优化对抗损失函数，使得特征是域不变的。相比之下，像素级域自适应试图通过将源图像风格化以类似于目标图像来重新移动低级别差异，如颜色和纹理[10，34，35，36]。相对于大量的分类问题的工作，有限的努力已经取得了语义分割。在[9]中，对抗性训练被用于对齐用于分割的完全卷积网络中的特征，并且该想法被进一步扩展用于联合使用循环一致性的像素级和特征级自适应[11]。在[13]中，通过利用来自全局标签分布和局部超像素分布的信息，提出了一种课程学习策略我们的工作与以前的工作在两个方面有所不同：（1）在无监督场景自适应中引入了通道对齐算法，该算法保留了空间信息和语义信息Z. Wu，X.汉，Y.- L. Lin等人4源图像合成图像标签图Gen编码器按通道要素对齐Gen解码器图像生成器目标图像Seg编码器...按通道要素对齐Seg解码器...随机目标集合分割网络采样图1：所提出的框架的概述。它包含一个图像生成器和一个分割网络，在这两个通道进行对齐。生成器合成新图像，减少低级外观差异，其被进一步输入到语义分割网络。直接用于分割的特征在产生预测图之前被细化。在测试过程中，我们关闭对齐（蓝色形状），分割网络可以很容易地应用。在归一化高级特征图以进行对齐时，每个通道的特征值;（2）我们增加了一个新的特征值，其中 “ 特征值可显著降低到特征值”[ 37 ]，从而实现了更好的性能。图像合成。生成对抗网络（GANs）[38]由一个生成器和一个鉴别器组成，它们被优化为相互竞争，是图像合成中最流行的深度生成模型之一[39，40，36]。已经探索了各种先验信息，包括标签[41]，文本[42]，属性[43]，图像[44，45GAN也被进一步扩展到图像到图像转换的问题，它使用循环一致性[46]或共享潜在空间[47]将给定图像映射到另一个不同风格的图像。这条线的工作旨在学习一个联合分布的图像从两个域使用图像从每个域的边缘分布。如前所述，对抗性损失函数很难训练，因此生成高分辨率图像仍然是一个具有挑战性的问题，可能需要几天时间[48]。图像到图像翻译的另一个方向是神经风格转移[49，17，50，51，52]。虽然风格迁移可以被视为一个特殊的领域适应问题，每种风格都是一个领域[53]，但我们在这项工作中的目标是不同的：我们专注于无监督的场景自适应，通过联合合成图像并在来自目标域的图像的帮助下执行分割，以进行通道式分布对准。3方法给定来自源域的标记图像和来自目标域的未标记样本，我们的目标是减少像素级和用于无监督场景自适应的双通道对齐网络5J我我C功能级别。特别地，我们利用未标记的目标图像进行通道对齐合成照片般逼真的样本，以看起来好像来自目标集，并且同时归一化源图像的特征图，分割分类器直接依赖于此。然后可以容易地将所得分割模型应用于新的目标域。为此，我们认为每个图像从目标域作为一个独特的参考样本，其特征表示用于规范化的图像从源域。此外，给定来自源域的图像，而不是考虑每一个目标图像，我们从目标集合中随机抽样进行对齐，作为正则化以提高泛化能力。图1给出了该框架的概述。ss s s更正式地说，让X={ xi， yi}i∈[Ns]表示源域，N图像xs∈R3×H×W和相应的标号映射ys∈{ 0， 1}C×H×W，我我其中H和W分别表示图像的高度和宽度，并且C表示类的数量。另一方面，目标域具有Ntt t s图像X ={ xj}j∈[Nt]，具有相同的分辨率，没有标签。对于每个图像xi，在源域中，我们从目标域中随机选择一个样本X t（为了便于描述，我们在这里使用一个图像，但是它可以是一组图像，如下面将示出的那样）。Asynthesizedimagexsisgeneeratdithexs的内容和xt的样式。这I j然后将图像馈送到分割网络中，其中在高级别中域移位特征图被进一步最小化以用于分割。在下文中，我们首先回顾通道对齐（第3.1节），然后介绍DCAN（第3.2节），它包含一个图像生成器，合成新图像以最小化颜色和纹理等低级差异，以及一个分割网络，细化在最终分割任务中至关重要的高级特征图。最后，我们介绍了学习策略（Sec. 3.3）。3.1通道级特征对齐CNN特征图中每个通道的平均值和标准差已被证明可以捕获图像的样式信息[16，15，17]，因此采用特征图的通道对齐来快速进行样式转换，并具有简单的实例归一化步骤。在这里，由于其有效性和简单性，我们使用自适应实例归一化[17]来匹配来自两个不同域的图像特别地，给定特征图F sandF tofthesamesizeRC×H×W（C，H，W表示通道、高度I j和宽度）从源域和目标域，自适应实例归一化h产生源图像的新表示为：. F s− µ（F s）ΣFs=h（F s，F t）=σ（F t）i i+µ（F t），（1）iij1 ΣHJΣWσ（Fs）1ΣHJΣWµc（F）=HWh=1w=1Fchw，σ2（F）=HWh=1w=1（Fchw−µc（F））2，Z. Wu，X.汉，Y.- L. Lin等人6我我k=1我我J我其中µc和σc表示第c个通道的空间维度的均值和方差。这个简单的操作将源图像的特征归一化为具有与每个通道的目标图像的特征相似的统计，这对于分割任务是有吸引力的，因为它是空间不变的，即像素的相对位置是固定的。此外，这种逐通道对齐确保独立地处理在不同通道[14]中编码的语义信息（如属性）。在我们的工作中，我们在我们的图像生成器中采用通道式特征对齐来合成照片般逼真的样本，并在分割网络中改进用于分割的特征。请注意，通道式特征对齐是通用的，可以插入到网络的不同层中。3.2双通道对齐网络图像生成器。我们的图像生成器包含一个编码器和一个解码器之间的通道对齐。表示为fgen的编码器通过采用直到relu4的层从预先训练的VGG19网络[54]中截断。我们固定编码器的权重，遵循[55，17]，以将图像xs和xt映射到固定的I j表示：F s= f gen（x s）和F t= f gen（x t）。Fs更进一步i i j j iNormalizedtooprodueanewrepresentationFaccordingtoEqn. （一）. Given由Ggen表示的解码器被应用于如果将一个新的图像xs=ggen（Fs）进行大小调整，则从该图像中提取样本的类型为我我集这通过最小化以下图像生成损失函数来实现Σ4gen=||G（f l（x（s））−G（f l（xt））||二、（二）我我l=1GenIj代这里，第一项是内容损失，其测量来自经分解的图像x的f e at与来自源图像的平均的feat之间的差异（f gen的权重是固定的），从而迫使合成图像包含与原始图像相同的内容。第二项匹配样式信息，通过将Gramatrice的差值由xs和大小xt进行归一化I j使用前四个层中的要素（其中L表示层索引）e n c od e r. 特别地，给定一个映射F∈RC×H W上的一个映射与itsoriginalchannel，heightandwidthbeingC，H，W分别地，克m在rixc处可被计算为：G（F）=ΣHWFFJK∈RC×C.Seg mentationntwork. 新的图像x（s）y（s）y（s ，这是为一些重要的片段而准备的。考虑到将x_i_n_g_s_o_n_o_f分割引擎用于任务，我们再次利用目标样式图像x_t来对x_i_s_w_s_w_i_g_m_t的空间进行计算，因为这些点具有相似的统计数据，并且其空间信息被保留以用于分割。这里，直觉是去除在第一阶段中最小化低级差异之后可能仍然存在的高级特征图中的不期望的失配因此，DCAN在分割网络中明确地执行另一轮对齐，从而细化针对像素级分割定制的为此我们ik用于无监督场景自适应的双通道对齐网络7ΣS将基于全卷积网络（FCN）的模型划分为编码器f段和解码器GSEG，其间具有对准特别是，分割decderprod uceapreictionap：ps=gseg（h（fseg（x？s），fseg（xt）andthei i j分段损失seg采取以下形式：seg=−HΣ×WΣCymclog（pmc），（3）我我m=1c =1其本质上是在所有像素上求和的多类别交叉熵损失（这里省略了表示源域的下标S）。请注意，最先进的分段网络，如DeepLab [56]，FCN[57]，PSPNet [58]，GCN[59]等。，通常建立在ImageNet上的顶级模型上，如VGG [54]或ResNet [60];这些网络在深度上不同，但具有相似的配置，即，五组卷积。在这种情况下，我们使用分割模型的前三个卷积组作为编码器，其余部分作为解码器。对于像SegNet [61]这样的基于编码器-解码器的分割网络，可以直接应用这个简单的想法。总之，DCAN以以下方式工作：给定源图像，随机选择目标图像，其样式信息用于图像合成和分割阶段中的双图像生成器首先在运行中合成新的图像，以看起来与来自目标域的样本相似，从而减少像素空间中的低级域差异（例如，像素空间中的低级别域差异）。、颜色、纹理、光照条件等。），其被进一步输入到分割网络中。在分割模型中，来自合成图像的特征被进一步归一化为特定于采样的目标图像，同时在产生标签图之前保留空间结构和语义信息。在测试时，将来自目标域的新图像输入到分割网络（分割编码器，然后解码器）中以预测其语义图。分割网络中的通道特征对齐被关闭，因为网络已经被训练成匹配两个域之间的特征统计，因此可以直接应用于测试，如图1所示。3.3优化可以通过选择源域中的每个样本并利用目标域中的每个图像的样式信息对其进行归一化来训练框架，其中，减少了原始图像的Nt个样本;然后可以通过最小化Ns Nt的大小将新的数据集Xs1N1L=ΣNt（（xs， xt，ys;Θ）+λ（xs，xt;Θ）），（4）NsNti=1j=1赛格吉segGenijGen其中Θseg和Θgen分别表示分割网络和图像生成器的参数，并且λ平衡两个损失。然而，枚举所有目标将在计算上是昂贵的，因为成本随着目标域中的图像的数量值得注意的是Z. Wu，X.汉，Y.- L. Lin等人8当存在无限个目标图像时，等式（4）可以重写为：ΣNs1s t s s tL=Nsi=1Ext Xt [seg（xi，xj，yi; Θ seg）+ λ gen（xi，xj; Θ gen）]。（五）这里，可以通过训练期间的随机采样来计算预期均值。与确定性地对所有目标类型求和相反，该输入单元是在“非确定性”期间对该学习过程进行输出，从而使导出的模型对噪声更鲁棒并且在目标域上更好地泛化。它是一种在精神上类似于SGD的正则化类型，用于快速收敛[62]，随机深度[18]和dropout [21，63，64]。另一种看待这一点的方法是随机数据增强以提高泛化能力[65，54]。与PixelDA [10]不同，PixelDA [ 10 ]生成以噪声向量为条件的新样本，我们使用从目标域随机采样的图像的特征统计来增强数据。同样值得注意的是，采样的想法与随机梯度下降一致，它通过对图像批次进行采样来循环训练集，因此可以很容易地在当前的深度学习框架中实现。4实验在本节中，我们首先介绍实验设置和实现细节。然后，大量的实验结果表明，我们的方法的有效性。最后，进行消融研究以评估DCAN的不同组分的贡献。4.1实验装置数据集和评估指标。我们分别在两个源数据集SYNTHIA[22]和GTA5[23] 上训练 DCAN ，然后在 CITYS cAPES[24] 上评估模型。 CITYScAPES是一个真实世界的数据集，捕捉了50个不同城市的街景，总共5000张带有像素级标签的图像该数据集被分为一个包含2975张图像的训练集，一个包含500张图像的验证集和一个包含1525张图像的测试集SYNTHIA是一个大规模的合成数据集自动生成的语义分割的城市场景。如在[13，9]中，我们利用SYNTHIA-R和-CITYS cAPES，一个包含与CITYS cAPES配对的9， 400个图像的子集，共享16个共同的类。我们随机选择100张图像进行验证，并使用剩余的9，300张图像进行训练。Gta5包含24，966张高分辨率图像，自动标注为19个类别。该数据集是从现代计算机游戏《侠盗猎车手V》中渲染出来的，其标签与CITYS cAPES的标签完全兼容。我们随机挑选1000张图片进行验证，并使用剩余的23966张图片进行训练。在[13，9]之后，为了训练我们的模型，我们利用来自SYNTHIA或GTA5的训练集的标记图像，以及来自CITYSCAPES的训练集的未标记图像作为分布对齐的参考。然后我们在CITYS类的验证集上评估分割模型，并且J用于无监督场景自适应的双通道对齐网络9报告平均交叉-联合（mIoU）以测量性能。这两个适应设置分别表示为SYNTHIA-CITYS cAPES和GTA 5-CITYS cAPES网络架构。对于图像发生器，其编码器基于VGG 19网络;解码器的详细结构可以在补充材料中找到。为了验证DCAN在最先进的分割网络中的有效性，我们使用三种性能最好的架构进行了实验，FCN-8 s-VGG 16 [57]，FCN-8 s-ResNet 101和PSPNet [58]。特别是，FCN 8 s-VGG 16和FCN 8 s-ResNet 101分别将预训练的VGG 16和ResNet 101网络适配为全卷积网络，并使用跳过连接进行详细分割。PSPNet建立在ResNet50模型上，具有新颖的金字塔池化模块，以获得用于每像素预测的多个子区域的表示[58]。这些网络在ImageNet上进行了预训练。实作详细数据。我们采用PyTorch实现，并使用SGD作为优化器，动量为0.99。FCN 8 s-ResNet 101和PSPNet的学习率固定为1e−3，FCN 8s-VGG 16的学习率固定为1e− 5我们采用批处理大小为3，并针对100，000次迭代进行优化，将λ固定为0.1。给定训练集中的每个样本，我们从目标图像集中随机抽取2个图像和1个图像，分别用于SYNTHIA和GTA 5上的实验这是为了在GTA 5上实现有效的训练，因为它的大小是SYNTHIA的三倍，我们将在下面分析采样图像数量的影响我们在训练过程中使用512×1024的裁剪，为了进行评估，我们将预测图上采样2倍，然后评估mIoU。4.2主要结果我们将DCAN与针对SEMMANTIC SEGMENT的无监督域自适应的最新方法进行比较，包括“FCNinthehwil”[ 9 ]和“CurriculumAdapat”[13]。具体而言，FCN将使用一个额外的虚拟化操作来调整VGG16模型的全连接层（适用于卷积层），并额外利用多个实例学习来转移空间布局[9]。课程适应使用图像和超像素的标签分布来推断目标域的属性 [13] 。SYNTHIA→CITYSCAPE和GTA 5→CITYSCAPE的结果总结于表1中。我们观察到，这些域自适应方法，虽然在设计上不同，但确实可以导致对仅源方法（表示为源）的改进，该方法简单地在源域上训练模型，然后直接将其应用于目标域。特别是，DCAN在两个数据集上使用所有三种不同的网络时，其表现优于其相应的仅源基线，具有明显的优势，约为8和9个这证实了DCAN的有效性，它不仅减少了域差异，提高了性能，但也是一般的多个网络架构。此外，使用PSPNet，当从 GTA 5 和 SYNTHIA 适应时， DCAN在 CITYSCAPES 上分别达到41.7%和38.4%与[9，13]相比，在相同的骨干VGG16架构下，DCAN提供了最佳的mIoU值以及最大的相对mIoU增益（从SYNTHIA和G ta训练的9.5%和8.4%10 Z。Wu，X.汉，Y.- L. Lin等人表1：当改编自辛西娅和GTA5时，对C i tys capes的结果和比较。其中，“源”表示来自系统的源，“A/d使用VGG 16中的膨胀进行分割。SYNTHIA→CITYS cAPES方法来源[9]A/d6.40 17.7 29.7 1.20 0.00 15.1 0.00 7.20 30.3 66.8 51.1 1.50 47.3 3.90 0.10 0.00[9]A/d11.5 19.6 30.8 4.40 0.00 20.3 0.10 11.7 42.3 68.7 51.2 3.80 54.0 3.20 0.20 0.60来源[13]A 5.60 11.2 59.6 8.00 0.50 21.5 8.00 5.30 72.4 75.6 35.1 9.00 23.6 4.50 0.50 18.0[13]A 65.2 26.1 74.9 0.10 0.50 10.7 3.50 3.00 76.1 70.6 47.1 8.20 43.2 20.7 0.70 13.1来源A 10.8 11.4 66.6 1.60 0.10 16.9 5.50 14.1 74.2 76.2 46.0 11.5 45.4 15.1 6.00 13.4DCAN A 79.9 30.4 70.8 1.60 0.60 22.3 6.70 23.0 76.9 73.9 41.9 16.7 61.7 11.5 10.3 38.6来源B 57.9 17.0 72.7 0.20 0.00 10.4 0.00 0.00 73.5 75.4 37.8 9.30 59.3 21.7 0.40 12.3DCAN B 81.5 33.4 72.4 7.90 0.20 20.0 8.60 10.5 71.0 68.7 51.5 18.7 75.3 22.7 12.8 28.1来源C 56.0 24.6 76.5 5.00 0.20 19.0 5.70 7.80 77.5 78.9 44.7 7.70 35.3 7.90 1.50 24.0DCAN C 82.8 36.4 75.7 5.08 0.06 25.8 8.04 18.7 74.7 76.9 51.1 15.9 77.7 24.8 4.11 37.32019- 05 - 25 00：00：00 00：00 00：00 00：00- -一种OracleB 97.3 76.7 88.1 44.4 46.9 35.3 44.5 55.9 88.6 91.2 67.7 41.6 89.9 73.3 44.7 63.1 65.6- -一种C97.8 78.6 89.6 56.7 57.8 39.9 61.3 65.2 89.9 91.5 73.4 56.0 89.9 84.1 54.2 69.5 72.2- -一种GTA5 → CITYS cAPES来源[9]A/d31.9 18.9 47.7 7.40 3.10 16.0 10.4 1.00 76.5 13.0 58.9 36.0 1.00 67.1 9.50 3.70 0.00 0.00 0.00 21.2[9]A/d70.4 32.4 62.1 14.9 5.40 10.9 14.2 2.70 79.2 21.3 64.6 44.1 4.20 70.4 8.00 7.30 0.00 3.50 0.00 27.1 5.90来源[13]A 18.1 6.80 64.1 7.30 8.70 21.0 14.9 16.8 45.9 2.40 64.4 41.6 17.5 55.3 8.40 5.0 6.90 4.30 13.822.3[13]A 74.9 22.0 71.7 6.00 11.9 8.40 16.3 11.1 75.7 13.3 66.5 38.0 9.30 55.2 18.8 18.9 0.00 16.8 16.628.9 6.6源一72.5 25.1 71.2 6.60 13.4 12.3 11.0 4.70 76.1 16.4 67.7 43.1 8.00 70.4 11.3 4.80 0.00 13.9 0.40 27.8DCAN一82.3 26.7 77.4 23.7 20.5 20.4 30.3 15.9 80.9 25.4 69.5 52.6 11.1 79.6 24.9 21.2 1.30 17.0 6.70 36.2 8.4源B44.5 12.7 71.1 9.40 17.7 15.3 24.3 11.9 80.5 14.3 80.0 50.3 7.70 45.4 30.5 30.8 5.50 9.80 3.50 29.8DCANB88.5 37.4 79.3 24.8 16.5 21.3 26.3 17.4 80.8 30.9 77.6 50.2 19.2 77.7 21.6 27.1 2.70 14.3 18.1 38.5 8.7源C69.9 22.3 75.6 15.8 20.1 18.8 28.2 17.1 75.6 8.00 73.5 55.0 2.90 66.9 34.4 30.8 0.00 18.4 0.00 33.3DCANC85.0 30.8 81.3 25.8 21.2 22.2 25.4 26.6 83.4 36.7 76.2 58.9 24.9 80.7 29.5 42.9 2.50 26.9 11.6 41.7 8.4A96.4 70.3 85.9 44.4 35.8 31.5 41.5 54.2 87.5 51.9 88.9 64.1 40.8 88.5 55.8 66.1 44.9 35.5 60.3 60.2- -一种OracleB 97.3 76.7 88.1 44.4 46.9 35.3 44.5 55.9 88.6 55.9 91.2 67.7 41.6 89.9 60.1 73.3 54.4 44.7 63.1 64.2- -一种C97.8 78.6 89.6 56.7 57.8 39.9 61.3 65.2 89.9 58.9 91.5 73.4 56.0 89.9 75.8 84.1 78.8 54.2 69.5 72.0- -一种分别地）。请注意，尽管主干网络相同，但由于实验设置不同，仅源在[9]中采用了扩张的VGG 16网络，并且在[13]中，该网络在P上额外地预训练此外，它在训练期间使用320× 640的裁剪尺寸我们的模型在ImageNet上初始化，我们选择512× 1024进行训练，因为大分辨率提供了更好的性能，如[58]中所观察到的，这也与最先进的监督方法一致。值得注意的是，DCAN相对提高了36%（25.9%至35.4%）。使用与[13]中相同的图像大小，DCAN将仅源基线从23.6%提高到33.0%（与[13]中的相比）。，[13]中22.0%至29.0%;见表2）。方法28.036.5 8.529.538.4 8.922.029.0七点25.9- -一种35.4 9.517.420.2两块八毛网络网络路路人行道人行道建筑建筑壁壁围栏围栏极极红绿灯红绿灯交通标志交通标志植被植被地形天空天空人人骑手骑手车车总线卡车摩托车总线自行车Miou火车莫托尔比凯自行车Miou百万单位增益百万单位增益用于无监督场景自适应的双通道对齐网络11测试图像仅来源预测我们的地面实况标签图2：使用来自CITYSCAPES的测试图像，在GTA 5→CITYSCAPES设置下，PSPNet及其相应的仅源模型的采样预测结果。我们的模型提高了训练的分段网络的泛化能力在三个不同的网络中，PSPNet在两个数据集上都给出了最好的结果，这主要是由于考虑了不同尺度的金字塔池化模块。图2示出了在GTA 5下PSPNet的采样结果→CITYS cAPES设置，及其与仅源方法的比较在数据集之间进行比较，在GTA 5上训练的模型比从SYNTHIA学习的模型产生更好的准确性。原因有二：（1）来自Synthia的大量图像在夜间渲染，由于来自CITYSCAPES的图像在白天捕获，因此引起显著的域差异;（2）在Gta 5中存在更多的训练样本。此外，还列出了使用来自目标域的注释的传统监督训练产生的oracle结果以供参考。我们可以看到，领域自适应方法和oracle监督训练之间仍然存在显着的性能差距，这突出了这个问题的挑战性。4.3讨论在本节中，我们运行多个实验来分析在SYN-THIA-C iTYS类设置中的DCAN，并提供相应的结果和讨论。图像分辨率。在计算机上表现最好的方法通常使用高分辨率来提高性能[24]。例如，GCN和FRRN分别使用800× 800 [59]和512× 1024 [66]的分辨率。在这里，我们报告了使用具有三种不同分辨率的FCN 8 s-VGG 16从SYNTHIA改编的DCAN的结果，并与表2中的对应的仅源方法进行比较。DCAN为所有分辨率提供了显着的性能增益，并且更大的分辨率确实更适合无监督域自适应。1 Z. Wu，X.汉，Y.- L. Lin等人表2：使用三种不同图像分辨率的FCN 8 s-VGG 16的结果。SYNTHIA→CITYSCAPES分辨率方法mIoU增益256×512源21.2表3：使用不同图像合成方法在FCN 8 s-VGG 16中进行具有和不具有特征对准的训练。SYNTHIA→CITYS cAPES方法mIoUCycleGAN [46] 30.4不同的图像合成方法。我们比较了两种不同的图像合成方法：（1）CycleGAN [46]和（2）UNIT [47]，这两种方法都试图学习两个域之间的分布映射函数。一旦学习了映射函数，来自源域的图像就可以被翻译成目标域的风格。因此，我们使用来自源域的翻译图像来训练分割网络。表3给出了结果。为了公平比较，我们在两种设置下比较它们，在分割网络中有和没有通道特征对齐DCAN在这两种情况下都比基于GAN的图像合成方法取得了更好的结果。为了证明端到端框架的优势，我们还比较了两阶段训练策略，该策略使用预合成图像简单地训练分割网络，而不进行端到端训练。在这种情况下，不使用来自分割网络的梯度来优化图像合成。DCAN将两阶段训练提高了1.7%mIOU，证明了用最终任务的有用信息指导合成过程的重要性。图3进一步比较了由不同合成方法产生的图像。DCAN能够生成符合目标集图像风格的图像，包含比CycleGAN和UNIT更少的伪影。此外，CycleGAN和UNIT都试图在数据集级别对齐分布，一旦学习了映射，从源到目标的转换是固定的（给定输入图像的固定输出）。在高分辨率图像上学习这样的变换函数是一项重要的任务，并且可能无法完美地覆盖所有可能的变化。相反，DCAN在实例级别执行图像转换，并且在随机采样的机制中，它能够覆盖来自目标集合的足够可以通过合成源图像和目标图像的特征图来进一步增加合成图像的变化（参见Supple.以取得详细数据）。同样值得注意的是，无论合成方法如何，特征对齐都可以改善分割结果我们还尝试了其他基于GAN的方法，如PixelDA [10]用于图像DCAN29.68.4CycleGAN w. 特征对齐31.7320×640光源23.6单位[55]31.6DCAN33.09.4单位w. 特征对齐32.7512×1024源25.9DCAN，不带特征对齐33.8DCAN35.49.5DCAN（两阶段）33.7DCAN（端到端）35.4用于无监督场景自适应的双通道对齐网络13源图像（a）源图像（b）目标图像（c）目标图像（d）我们的（a至c）我们的（a至d）CycleGAN单元我们的（b到c）我们的（b到d）CycleGAN单元图3：来自以具有Cy- cleGAN [46]、UNIT [47]和DCAN的CITYSCAPES的样式合成的SYNTHIA的合成;然而，对噪声向量而不是标签图[67]的调节无法产生高分辨率的照片般逼真的图像。表4：分割网络中不同特征对齐方法的比较SYNTHIA→CITYS cAPES38.037.036.0比对方法mIoU35.034.033.032.031.01 2 4 8采样的目标图像数量图4：针对每个训练样本使用不同数量的目标图像的效果。用于分割的逐行特征对齐。我们现在分析在具有FCN 8 s-VGG 16的分段网络（表4）中逐通道对齐的效果。我们与对抗性判别域自适应[8]进行了比较，后者利用对抗性损失使两个域的特征DCAN的性能比ADDA高1.4%，并且在训练过程中收敛得更快。我们还实现了MMD[27]和CORAL [6]损失来对齐特征，但它们的结果比仅源方法更差这与[13]中的观察结果一致我们进一步研究了分割网络中的对齐位置，发现Conv3层之后的对齐给出了最佳结果，这可能是由于它FCN8s-VGG16FCN8s-ResNet101PSPNetMiouADDA [8]34.0Ours-w/o对齐33.8我们34.0我们34.4我们33.2我们的32.7我们-35.41 Z. Wu，X.汉，Y.- L. Lin等人包含足够数量的通道和相对较大的特征图。此外，将特征映射与更详细的空间信息（Conv2和Conv4）对齐也优于Conv6和Conv7（从全连接层改编的卷积层，其特征映射更小）。这证实了明确考虑详细的空间信息以用于对准的重要性。采样的目标图像数。我们还评估了采样目标图像的数量如何影响性能。由于在训练集中为每个图像列举大约3000个样本在计算上是不允许的，我们创建了一个伪目标集，其中包含从中国8个城市随机选择的8个图像。这是为了确保目标之间存在变化，并且在计算上对于枚举所有目标是可行的。然后，我们通过从Synthia中随机选择1，2，4个样本来分析训练期间使用的目标图像数量的影响。图4呈现了结果。我们观察到，从目标集中随机选择比使用所有这三个网络。这可能是由两个原因造成的：（1）在一次拍摄中将一个图像转换为多个不同的表示难以优化;（2）随机采样充当正则化以改进泛化，这类似于随机梯度优于全批梯度下降的情况。有趣的是，对于PSPNet和FCN 8 s-ResNet 101，对一个图像进行采样可以获得有竞争力的结果，当目标域中的样本数量有限时，这非常有吸引力。5结论在本文中，我们提出了，DCAN，一个简单而有效的方法来减少域移动在像素级和特征级的无监督场景适应。特别是，我们的框架利用通道的功能对齐，在图像生成器合成照片般逼真的样本，似乎从

下载后可阅读完整内容，剩余1页未读，立即下载