DAFormer:改进领域自适应语义分割的网络架构与训练策略

23 浏览量更新于2023-10-26 收藏 14.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

201822021455055606599240DAFormer：改进领域自适应语义分割的网络架构和训练策略0Lukas HoyerETH Zurich0lhoyer@vision.ee.ethz.ch0Dengxin Dai MPIfor Informatics0ddai@mpi-inf.mpg.de0Luc Van Gool ETHZurich & KU Leuven0vangool@vision.ee.ethz.ch0摘要0由于获取真实世界图像的像素级注释对于语义分割来说是一项昂贵的过程，模型可以通过使用更易获取的合成数据进行训练，并在不需要真实图像注释的情况下适应真实图像。这个过程在无监督领域自适应（UDA）中得到了研究。尽管有大量的方法提出了新的适应策略，但它们大多基于过时的网络架构。由于最近网络架构的影响尚未得到系统地研究，我们首先对UDA进行了不同网络架构的基准测试，并新发现了Transformer在UDA语义分割中的潜力。基于这些发现，我们提出了一种新的UDA方法，DAFormer。DAFormer的网络架构由Transformer编码器和多级上下文感知特征融合解码器组成。它通过三个简单但关键的训练策略来稳定训练并避免过拟合到源域：（1）在源域上进行稀有类别采样可以通过减轻自训练对常见类别的确认偏差来提高伪标签的质量，（2）Thing-ClassImageNet特征距离和（3）学习率预热可以促进从ImageNet预训练的特征转移。DAFormer在UDA方面代表了一项重大进展。它将GTA →Cityscapes的最新技术水平提高了10.8 mIoU，Synthia →Cityscapes提高了5.4mIoU，并且能够很好地学习包括火车、公交车和卡车在内的困难类别。实现代码可在0https://github.com/lhoyer/DAFormer .01. 引言0在过去的几年里，神经网络在许多计算机视觉任务上取得了压倒性的性能。然而，为了正确训练神经网络，需要大量的注释数据。对于语义分割来说，注释特别昂贵，因为每个像素都必须进行标注。例如，标注单个0出版日期0mIoU0AdaptSegNet0CBST0BDL0MRKLD FDA0IAST DACS CAG0CAMix CTF0CorDA0ProDA0DAFormer0网络架构0DeepLabV2，ResNet-101DeepLabV2，ResNet-38DeepLabV3+，ResNet-101DAFormer，MiT-B50图1. GTA →Cityscapes上UDA的时间进展。大多数先前的UDA方法使用过时的DeepLabV2架构进行评估。我们重新思考了网络架构的设计以及其对UDA的训练策略，并提出了DAFormer，明显优于先前的方法。0Cityscapes的图像[12]，在恶劣天气条件下，持续时间甚至为3.3小时[58]。解决这个问题的一个想法是使用合成数据[55,57]进行训练。然而，常用的CNNs[38]对于领域转移非常敏感，从合成数据到真实数据的泛化能力较差。无监督领域自适应（UDA）通过将使用源（合成）数据训练的网络适应目标（真实）数据，而无需访问目标标签来解决这个问题。以前的UDA方法主要使用DeepLabV2[6]或FCN8s[46]网络架构，使用ResNet[24]或VGG[60]骨干网络，以便与先前发表的作品进行比较。然而，即使是它们最强大的架构（DeepLabV2+ResNet101）在监督语义分割领域也已经过时。例如，它在Cityscapes上只能达到65mIoU的监督性能[68]，而最新的网络可以达到85 mIoU[64,86]。由于性能差距较大，人们不禁要问是否使用过时的网络架构会限制UDA的整体性能，并且还可能误导UDA的基准进展。为了回答这个问题，本文研究了网络架构对UDA的影响，编制了一个更复杂的架构，并成功地将其应用于UDA，采用了一些简单但关键的训练策略。简单地使用一个99250对于UDA来说，更强大的网络架构可能不是最佳选择，因为它更容易过拟合到源域。通过对在UDA设置中评估的不同语义分割架构进行研究，我们编译了DAFormer，这是一种专为UDA量身定制的网络架构（第3.2节）。它基于最近的Transformer[14,83]，这些Transformer已被证明比主导的CNN[3]更具鲁棒性。我们将它们与上下文感知的多级特征融合相结合，进一步提高了UDA的性能。据我们所知，DAFormer是第一个揭示Transformer在UDA语义分割中具有重要潜力的工作。0由于更复杂和功能更强大的架构更容易出现适应性不稳定性和过拟合到源域的问题，在这项工作中，我们引入了三种训练策略来解决这些问题（第3.3节）。首先，我们提出了稀有类别采样（RCS）来考虑源域的长尾分布，这阻碍了对稀有类别的学习，特别是在UDA中由于自训练对常见类别的确认偏差。通过频繁采样具有稀有类别的图像，网络可以更稳定地学习它们，从而提高伪标签的质量并减少确认偏差。其次，我们提出了一种物体类别ImageNet特征距离（FD），它从多样化和表达丰富的ImageNet特征中提取知识，以规范源培训。这对于源域仅限于某些类别的少数实例（低多样性）且外观与目标域（域偏移）不同的情况特别有帮助。如果没有FD，将导致学习不太具有表达性和源域特定的特征。由于ImageNet特征是针对物体类别进行训练的，我们将FD限制在图像中标记为物体类别的区域。第三，我们首次将学习率预热[22]引入到UDA中。通过在早期训练中线性增加学习率，可以稳定学习过程，并更好地将ImageNet预训练的特征转移到语义分割中。0DAFormer在很大程度上优于以前的方法（见图1），支持我们的假设，即网络架构和适当的训练策略对于UDA起着重要作用。在GTA → Cityscapes上，我们将mIoU从57.5[88]提高到68.3，在Synthia → Cityscapes上从55.5[88]提高到60.9。特别是，DAFormer甚至学习了以前的方法难以处理的类别。例如，我们将GTA →Cityscapes上的类别train的IoU从16提高到65，truck的IoU从49提高到75，bus的IoU从59提高到78。总体而言，DAFormer在UDA方面取得了重大进展。我们的框架可以在一个消费级RTX 2080 TiGPU上的一个阶段内进行训练，耗时16小时，与以前的方法（如ProDA[88]）相比，简化了使用过程，后者需要在四个V100GPU上进行多个阶段的训练，耗时数天。02. 相关工作0语义图像分割自从Long等人[46]引入卷积神经网络（CNN）[38]用于语义分割以来，CNN一直在该领域占主导地位。通常，语义分割网络遵循编码器-解码器设计[2, 46,56]。为了克服瓶颈处低空间分辨率的问题，提出了一些解决方案，例如跳跃连接[56]，扩张卷积[5,85]或保持分辨率的架构[62]。通过利用上下文信息，如金字塔池化[6, 7, 33, 89]或注意力模块[17, 34, 78,86]，进一步改进了性能。受到注意力机制在自然语言处理中的成功启发，它们被应用于图像分类[14,66]和语义分割[45, 83,90]，取得了最先进的结果。对于图像分类，CNN对于图像损坏[27]、对抗性噪声[63]或域偏移[26]等分布变化敏感。最近的研究[3, 51,53]表明，相对于CNN，Transformer在这些属性方面更具鲁棒性。虽然CNN侧重于纹理[19]，Transformer更注重物体形状[3,51]，这更接近人类视觉[19]。对于语义分割，ASPP[7]和跳跃连接[56]被认为可以增加鲁棒性[35]。此外，Xie等人[83]表明，基于Transformer的架构在鲁棒性上优于基于CNN的网络。据我们所知，最近的网络架构对于语义分割的UDA性能的影响尚未得到系统研究。0无监督领域自适应（UDA）UDA方法可以分为对抗训练和自训练方法。对抗训练方法旨在在输入[20, 29]、特征[30, 68]、输出[68,72]或补丁级别[69]上对齐源域和目标域的分布，采用GAN框架[18,21]。使用多个尺度[8, 68]或类别信息[15, 48,80]的鉴别器可以改善对齐。在自训练中，网络使用目标域的伪标签[39]进行训练。大多数UDA方法是离线预计算伪标签，训练模型，并重复这个过程[13, 84, 92,93]。或者，可以在训练期间在线计算伪标签。为了避免训练不稳定，使用伪标签原型[88]或基于数据增强[1, 9, 50]或域混合[67,91]的一致性正则化[61, 65]。几种方法还结合了对抗训练和自训练[37,40, 74]，使用辅助任务进行训练[32, 73,75]，或进行测试时UDA[76]。数据集通常不平衡，并且遵循长尾分布，这使得模型偏向常见类别[79]。解决这个问题的策略包括重新采样[23,25, 81]，损失重新加权[42, 59]和迁移学习[36,43]。在UDA中，还应用了重新加权[49,92]和用于图像分类的类平衡采样[54]。我们将类平衡采样从分类扩展到语义分割，并提出了稀有类别采样，以解决单个语义分割样本中稀有类别和常见类别的共现问题。此外，我们证明重新采样对于UDA中Transformer的训练特别有效。Li等人[41]已经证明，从旧任务中进行知识蒸馏[28]可以作为新任务的正则化器。这个概念已经成功地应用于半监督学习[31]和对抗UDA[8]中的ImageNet特征。我们将这个想法应用于自训练，表明它对于Transformer特别有益，并通过将特征距离限制在具有物体类别的图像区域[4]上来改进它，因为ImageNet主要标记物体类别。3.1. Self-Training (ST) for UDAq(i)T =L(i)T = −992603.1. 无监督领域自适应（ST）03. 方法0首先，我们将概述用于评估不同网络架构的基线UDA方法。在UDA中，使用源域图像XS = {x(i)S}NSi=1和独热标签YS={y(i)S}NSi=1来训练神经网络gθ，以在没有目标标签YT的情况下在目标图像XT ={x(i)T}NTi=1上获得良好的性能。简单地使用分类交叉熵（CE）损失在源域上训练网络gθ。0L(i)S = -0H ×W ×0j=10c=1 y(i,j,c)S log gθ(x(i)S)(j,c) (1)0通常在目标图像上表现较差，因为网络在目标领域上泛化能力不强。为了解决领域差异，提出了几种策略，可以分为对抗训练[30, 68, 74]和自训练（ST）[67, 88,92]方法。在这项工作中，我们使用ST，因为已知对抗训练不太稳定，并且目前被ST方法超越[67,88]。为了更好地将知识从源域传递到目标域，ST方法使用一个教师网络hφ（稍后将描述）为目标域数据生成伪标签。0p(i,j,c)T = [c = arg max c′ hφ(x(i)T)(j,c′)], (2)0其中 [ ∙ ]表示Iverson括号。请注意，没有梯度会反向传播到教师网络中。此外，还会为伪标签生成一个质量/置信度估计。在这里，我们使用超过最大softmax概率阈值τ的像素的比例[67]。0� H × W j =1 [max c ′ h φ ( x ( i )T ) ( j,c ′ ) > 0H ∙ W . (3)0伪标签及其质量估计用于在目标域上额外训练网络g θ0H ×W �0c =1 q ( i ) T p ( i,j,c ) T log g θ ( x( i ) T ) ( j,c ) . (4)0伪标签可以在线生成[1, 67,091 ]或离线生成[84, 92,93]。由于只有一个训练阶段，我们选择在线ST，这在比较和分析各种网络架构时非常重要。在在线ST中，h φ根据gθ的训练进行更新。通常情况下，权重hφ在每个训练步骤t之后被设置为gθ的权重的指数移动平均值[65]，以增加预测的稳定性。0φ t +1 ← αφ t + (1 − α ) θ t . (5)0研究表明，如果学生网络gθ在增强的目标数据上进行训练，而教师网络hφ使用非增强的目标数据生成伪标签进行半监督学习[16, 61,65]和无监督域自适应[1,67]，则ST特别高效。在本文中，我们遵循DACS[67]的设计，使用颜色抖动、高斯模糊和ClassMix[52]作为数据增强方法，以学习更具域鲁棒性的特征。03.2. DAFormer网络架构0以往的UDA方法主要使用（简化的）DeepLabV2网络架构[6,68]进行评估，该架构被认为已过时。因此，我们编译了一个专为UDA定制的网络架构，旨在不仅实现良好的监督性能，还提供良好的域自适应能力。对于编码器，我们追求一个强大而稳健的网络架构。我们假设稳健性是实现良好域自适应性能的重要属性，因为它促进了学习域不变特征。根据最近的研究结果[3, 51,53]和对UDA的架构比较，我们选择了Transformer [14,66]作为UDA的良好选择，因为它们满足这些标准。尽管Transformers[71]和卷积都执行加权求和操作，但它们的权重计算方式不同：在CNN中，权重在训练过程中学习，但在测试过程中固定；在自注意机制中，权重根据每对标记之间的相似性或关联性动态计算。因此，自注意机制中的自相似操作提供了比卷积操作更具适应性和通用性的建模手段。特别是，我们遵循Mix Transformers (MiT)[83]的设计，该设计专为语义分割而定制。图像被划分为大小为4×4的小块（而不是16×16，如ViT[14]中的大小），以保持局部连续性。以前使用Transformer骨干的语义分割工作通常仅利用解码器的局部信息[77, 83,90]。相反，我们建议在解码器中利用额外的上下文信息，因为这已被证明可以增加语义分割的鲁棒性[35]，这对于UDA是有帮助的。DAFormer在特征融合之前，通过1×1卷积将每个F i嵌入到相同数量的通道C e 中，将特征双线性上采样到F 1的大小，并将它们连接起来。对于上下文感知的特征融合，我们使用多个并行的3×3深度可分离卷积[10]和一个1×1卷积进行融合，类似于ASPP [7]，但没有全局平均池化。与原始的ASPP[7]的用法不同，我们不仅将其应用于瓶颈特征F4，而且将其用于融合所有堆叠的多级特征。深度可分离卷积的优点是其参数数量较普通卷积较低，可以减少对源域的过拟合。 TargetDataySxTTeacher NetImageNet EncoderLSStop GradientSize & ChannelContext-Aware FusionF4F3F2F1Stackdetails for semantic segmentation. To cope with the highfeature resolution, sequence reduction [77] is used in theself-attention blocks. The transformer encoder is designedto produce multi-level feature maps Fi ∈ RH2i+1 ×W2i+1 ×Ci.The downsampling of the feature maps is implemented byoverlapping patch merging [83] to preserve local continuity.Previous works on semantic segmentation with Trans-former backbones usually exploit only local information forthe decoder [77, 83, 90]. In contrast, we propose to uti-lize additional context information in the decoder as thishas been shown to increase the robustness of semantic seg-mentation [35], a helpful property for UDA. Instead of justconsidering the context information of the bottleneck fea-tures [6,7], DAFormer uses the context across features fromdifferent encoder levels as the additional earlier featuresprovide valuable low-level concepts for semantic segmen-tation at a high resolution, which can also provide impor-tant context information. The architecture of the DAFormerdecoder is shown in Fig. 2 (b). Before the feature fusion,we embed each Fi to the same number of channels Ce bya 1×1 convolution, bilinearly upsample the features to thesize of F1, and concatenate them. For the context-awarefeature fusion, we use multiple parallel 3×3 depthwise sep-arable convolutions [10] with different dilation rates [85]and a 1×1 convolution to fuse them, similar to ASPP [7] butwithout global average pooling. In contrast to the originaluse of ASPP [7], we do not only apply it to the bottleneckfeatures F4 but use it to fuse all stacked multi-level features.Depthwise separable convolutions have the advantage thatthey have a lower number of parameters than regular convo-lutions, which can reduce overﬁtting to the source domain.99270源数据0P(c)0常见稀有学生网络0数据增强0L T EMA更新0分层Transformer0对齐0稀有类别采样0a) b)0图2. 我们的UDA框架概述，包括Rare Class Sampling、Thing-Class Feature Distance和DAFormer网络。03.3. UDA的训练策略0训练更有能力的UDA架构的一个挑战是过拟合到源域。为了解决这个问题，我们引入了三种策略来稳定和正则化UDA训练：稀有类别采样、Thing-ClassImageNet特征距离和学习率预热。整体的UDA框架如图2(a)所示。0对于在源数据集中稀有的类别而言，与其他架构相比，UDA性能在不同的运行中变化很大。根据数据采样顺序的随机种子，这些类别在训练的不同迭代中学习，有时根本不学习，如第4.4节所示。某个类别在训练的较晚阶段学习，其性能在训练结束时越差。我们假设如果包含稀有类别的相关样本由于随机性而在训练的后期才出现，网络只会在后期开始学习它们，更重要的是，网络很可能已经对常见类别产生了强烈的偏见，使得学习具有非常少样本的新概念变得困难。这一偏见在ST与教师网络的确认下得到了进一步加强。为了解决这个问题，我们提出了稀有类别采样（RCS）。它更频繁地从源域中采样包含稀有类别的图像，以便更好地并且更早地学习它们。源数据集中每个类别c的频率fc可以根据具有类别c的像素数量计算得出0fc=0NSi=1H×Wj=1[y(i,j,c)S]0NS∙H∙W. (6)0某个类别c的采样概率P(c)是其频率fc的函数0P(c)=e(1−fc0Cc′=1e(1−fc′)/T. (7)0因此，频率较小的类别将具有较高的采样概率。温度T控制分布的平滑程度。较高的T导致更均匀的分布，较低的T则更加关注具有小fc的稀有类别。对于每个源样本，从概率分布c�P中采样一个类别，并从包含该类别的数据子集uniform(XS,c)中采样一张图像。方程式7允许过采样包含稀有类别的图像（如果fc较小，则P(c)≥1/C）。由于稀有类别（小fc）通常与单个图像中的多个常见类别（大fc）共现，因此更频繁地采样稀有类别比常见类别（P(c rare)>P(ccommon)）更有利于接近平衡的d(i,j) = ||FImageNet(x(i)S )(j) − Fθ(x(i)S )(j)||2 .(8)L(i)FD =HF ×WFj=1d(i,j) · M (i,j)thingsj M (i,j)things,(9)M (i,j)things =C�c′=1yi,j,c′S,small · [c′ ∈ Cthings] .(10)ycS,small = [AvgPool(ycS, H/HF , W/WF ) > r] .(11)99280重新采样的类别。例如，常见类别道路与稀有类别如公共汽车、火车或摩托车共现，因此在采样包含这些稀有类别的图像时已经覆盖了道路类别。当减小T时，会采样更多具有小fc的类别的像素，但也会采样更少具有中等fc的类别的像素。选择温度T是为了达到具有最少数量的重新采样像素的类别的像素数量与具有小和中等fc的类别的重新采样像素数量之间的平衡。0Thing-ClassImageNet特征距离（FD）通常情况下，语义分割模型gθ的初始化权重来自ImageNet分类，以便从有意义的通用特征开始。鉴于ImageNet还包含一些相关的高级语义类别的真实世界图像，而UDA经常难以区分，例如火车或公共汽车，我们假设ImageNet特征可以提供超出常规预训练的有用指导。特别是，我们观察到DAFormer网络在训练开始时能够分割一些类别，但在几百个训练步骤后忘记了它们，如第4.5节所示。因此，我们假设ImageNet预训练的有用特征被LS破坏，并且模型过度拟合于合成源数据。为了防止这个问题，我们基于语义分割UDA模型gθ的瓶颈特征Fθ和ImageNet模型的瓶颈特征FImageNet，对模型进行特征距离（FD）正则化。0然而，ImageNet模型主要是在物体类别上进行训练（具有明确定义形状的对象，如汽车或斑马），而不是在背景类别上进行训练（如道路或天空等无定形的背景区域）[4]。因此，我们仅计算包含物体类别C things 的图像区域的FD损失，该区域由二进制掩码Mthings 描述0这个掩码是从缩小的标签y S, small中获得的0为了将标签下采样到瓶颈特征大小，使用平均池化和大小为H H F × W的补丁0对于每个类别通道应用WF，并且当其超过比率r时保留一个类别0这确保只有包含主导物体类别的瓶颈特征像素才会被考虑在特征距离中。整体UDA损失L是所提出的损失组件的加权和L= L S + L T + λ FD L FD。0UDA的学习率预热线性预热学习率[22]在训练开始时已成功用于训练CNNs[24]和Transformers[14,71]，因为它通过避免在训练开始时大的自适应学习率方差扭曲梯度分布[44]，从而提高了网络的泛化能力[22]。我们首次将学习率预热引入到UDA中。我们认为这对于UDA特别重要，因为扭曲来自ImageNet预训练的特征将使网络失去对真实领域的有用指导。在预热期间直到迭代twarm，迭代t处的学习率设置为η t = η base ∙ t/t warm。04. 实验04.1. 实现细节0数据集对于目标域，我们使用Cityscapes街景数据集[12]，包含2975个训练图像和500个验证图像，分辨率为2048×1024。对于源域，我们使用GTA数据集[55]，其中包含24966个分辨率为1914×1052的合成图像，或者使用Synthia数据集[57]，它包含9400个分辨率为1280×760的合成图像。根据UDA的常见做法[68]，我们将Cityscapes的图像调整为1024×512像素，将GTA的图像调整为1280×720像素。网络架构我们的实现基于mmsegmentation框架[11]。对于DAFormer架构，我们使用MiT-B5编码器[83]，它产生一个特征金字塔，其中C = [64, 128, 320, 512]。DAFormer解码器使用Ce =256和扩张率为1、6、12和18。所有编码器都在ImageNet-1k上进行了预训练。训练根据[45, 83]，我们使用AdamW[47]对DAFormer进行训练，编码器的学习率为η base =6×10−5，解码器的学习率为6×10−4，权重衰减为0.01，线性学习率预热t warm =1.5k，之后线性衰减。它在两个512×512的随机裁剪批次上进行了40k次迭代的训练。根据DACS[67]，我们使用相同的数据增强参数，并设置α = 0.99和τ =0.968。RCS温度设置为T =0.01，以最大化具有最少像素的类别的采样像素。对于FD，r = 0.75和λ FD = 0.005，以使编码器的梯度幅度与L S相似。04.2. UDA网络架构的比较0首先，我们比较了几种语义分割架构在GTA →Cityscapes上的UDA性能（见第3.1节）（表1）。此外，我们还提供了仅使用增强的源数据（域泛化）训练的网络性能，以及使用目标标签（监督学习）训练的理想性能。在所有情况下，模型在Cityscapes验证集上进行评估，并以mIoU（百分比）提供性能。为了比较网络的适用性如何DeepLabV2 [6]34.3 ±2.254.2 ±1.772.1 ±0.575.2%DA Net [17]30.9 ±2.153.7 ±0.272.6 ±0.274.0%ISA Net [34]32.3 ±2.153.3 ±0.472.0 ±0.574.0%DeepLabV3+ [7]31.0 ±1.453.7 ±1.075.6 ±0.971.0%SegFormer [83]45.6 ±0.658.2 ±0.976.4 ±0.276.2%MiT-B5 [83]SegF. [83]58.2 ±0.976.4 ±0.276.2%MiT-B5 [83]DLv3+ [7]56.8 ±1.875.5 ±0.575.2%R101 [24]SegF. [83]50.9 ±1.171.3 ±1.371.4%R101 [24]DLv3+ [7]53.7 ±1.075.6 ±0.971.0%R50 [24]DLv2 [6]29.352.170.873.6%R101 [24]DLv2 [6]36.953.372.573.5%S50 [87]DLv2 [6]27.948.067.770.9%S101 [87]DLv2 [6]35.553.572.274.1%S200 [87]DLv2 [6]35.956.973.577.4%MiT-B3 [83]SegF. [83]42.250.876.566.4%MiT-B4 [83]SegF. [83]44.757.577.174.6%MiT-B5 [83]SegF. [83]46.258.876.277.2%DeepLabV2 [6]–49.1 ±2.067.4 ±1.772.8%DeepLabV2 [6]✓54.2 ±1.772.1 ±0.575.2%SegFormer [83]–51.8 ±0.872.9 ±1.671.1%SegFormer [83]✓58.2 ±0.976.4 ±0.276.2%99290表1.不同分割架构在Cityscapes验证集上的mIoU（%）的比较，包括仅源域（GTA），UDA（GTA →Cityscapes）和oracle（Cityscapes）训练。此外，还提供了相对UDA性能（Rel.）与oracle mIoU的比较。均值和标准差是基于3个随机种子计算的。0架构仅源域UDA Oracle 相对性能0表2. SegFormer编码器和解码器的消融实验。0编码器解码器 UDA Oracle 相对性能0对于UDA，我们进一步提供相对性能（Rel.），它通过将UDA mIoU归一化为oraclemIoU来衡量。请注意，由于UDA中Cityscapes的图像被缩小了一倍，因此oraclemIoU通常低于监督学习文献中的报告值，这是UDA中将来自两个域和额外网络的图像适应到GPU内存中的必要共同做法。大多数UDA作品使用DeepLabV2 [ 6 ]和ResNet-101 [24]骨干网络。有趣的是，更高的oracle性能并不一定会增加UDA性能，如表1中的DeepLabV3+ [ 7]所示。一般来说，研究的较新的CNN架构并不能提供比DeepLabV2更好的UDA性能。然而，我们确定了基于Transformer的SegFormer [ 83]作为UDA的强大架构。它将源域仅训练的mIoU从34.3 /54.2 / 72.1显著提高到45.6 / 58.2 /76.4。我们认为，SegFormer特别适用于UDA的更好领域泛化（源域仅训练）对于改善UDA性能非常有价值。为了更好地了解SegFormer为什么适用于UDA，我们将其编码器和解码器与ResNet101和DeepLabV3+进行了交换。由于SegFormer的MiT编码器的输出步幅为32，但DeepLabV3+解码器设计为输出步幅为8，因此当与DeepLabv3+解码器结合时，我们将SegFormer的瓶颈特征双线性上采样4倍。表2显示，SegFormer的轻量级MLP解码器相对UDA性能（Rel.）略高于更重的DLv3+解码器（76.2% vs75.2%）。然而，对于良好的UDA性能，关键贡献来自TransformerMiT编码器。将其替换为ResNet101编码器会导致UDA性能显著下降。尽管由于这个原因oracle性能也下降了。0表3. 编码器对UDA性能的影响。0编码器解码器仅源域UDA Oracle 相对性能0表4. 学习率预热对UDA性能的影响。0架构学习率预热 UDA Oracle 相对性能0ResNet101 ImageNet特征 MiT-B5 ImageNet特征0道路侧边建筑物墙隔离栏杆子交通灯标志植被无法识别0地形天空人骑手汽车卡车公共汽车火车机动车自行车0图3. 在Cityscapes验证集上，ResNet101 [ 24 ]和MiT-B5 [ 83]经过ImageNet预训练后的瓶颈特征的T-SNE [ 70]嵌入，显示MiT具有更好的车辆可分离性。0由于ResNet编码器[ 83]的感受野较小，UDA的性能下降超过比例，从76.2%下降到71.4%。因此，我们进一步研究编码器架构对UDA性能的影响。在表3中，我们比较了不同的编码器设计和大小。可以看出，深层模型实现了更好的仅源域性能和相对性能，证明深层模型更好地泛化/适应新域。这一观察结果与网络架构鲁棒性的研究结果一致[ 3]。与CNN编码器相比，MiT编码器更好地从仅源培训到目标域进行泛化。总体而言，MiT-B5编码器实现了最佳的UDAmIoU。为了了解改进的泛化性能，图3可视化了目标域的ImageNet特征。尽管ResNet结构在物体类别上稍微好一些，但MiT在分离语义相似类别（例如所有车辆类别）方面表现出色，这通常是适应性困难的。一个可能的解释是CNN的纹理偏好和Transformers的形状偏好。0102030400204060012020406002040601 SegF. [83] ––––51.8 ±0.82 SegF. [83]–––58.20.991 56 87 32 30 40 51 51 89 49 92 62 6 90 60 53 0 20 2589 50 88 46 44 43 53 55 90 51 93 64 9 91 77 63 0 47 5095 65 89 50 43 42 54 60 89 47 93 69 30 92 77 70 27 57 6388 48 88 49 44 41 54 57 90 51 93 66 7 92 73 69 43 53 6493 62 89 53 44 43 55 61 89 47 93 71 42 92 74 75 62 53 639930010k 20k 30k 40k0迭代0IoU0骑手010k 20k 30k 40k0迭代0自行车0方法0无RCS有RCS0种子0图4. SegFormerUDA在没有和有稀有类别采样（RCS）的情况下对于稀有类别骑手和自行车的性能。02k 4k 6k0迭代0IoU02k 4k 6k0迭代0训练0方法0无FD有FD0图5. SegFormerUDA在训练开始时的性能，使用和不使用ImageNet特征距离（FD）。0表5. UDA框架的组件消融。0网络预热RCS FD杂项UDA03 SegF. [ 83 ] � �（ T = ∞ ）– – 62.0 ± 1.505 SegF. [ 83 ] � – �（全部 C ）– 58.8 ± 0.406 SegF. [ 83 ] � – � – 61.7 ± 2.6 7 SegF. [ 83 ] � � � – 66.2 ± 1.0 8 SegF. [ 83 ] � � �裁剪PL， α ↑ 67.0 ± 0.409 DLv2 [ 6 ] – – – – 49.1 ± 2.0 10 DLv2 [ 6 ] � � � 裁剪PL， α ↑ 56.0 ± 0.50ers [ 3]。在我们研究DAFormer的上下文感知融合解码器之前，我们将首先讨论如何稳定使用默认SegFormer解码器的MiT训练。04.3. 学习率预热0表4显示，学习率预热显著提高了UDA和oracle性能。UDA比监督学习更受益于预热（参见Rel.列），表明预热对UDA的重要性，通过稳定训练的开始，改善了困难类别（参见图6中的第1行和第2行）。由于预热对于不同架构的良好UDA性能至关重要，因此在前一节中已经应用了预热。04.4. 稀有类别采样（RCS）0当训练SegFormer进行UDA时，我们观察到一些类别的性能取决于数据采样的随机种子，如蓝色IoU曲线所示。0道路0步行0构建。0墙0栅栏0电线杆0交通灯0交通标志0植被0地形0天空0行人0骑手0汽车0卡车0公交车0火车0摩托车0自行车0SegF. UDA0+W0+RCS +W0+FD +W0+RCS +FD +W0图6.Warmup（W）、RCS和FD的类别IoU比较。颜色可视化了与基准线的IoU差异。0在图4中。受影响的类别在源数据集中的表示较少，如补充材料所示。有趣的是，对于自行车类别，不同种子的不同迭代次数开始增加IoU。我们假设这是由于采样顺序引起的，特别是当采样到相关的稀有类别时。而且，IoU开始改善的越晚，该类别的最终IoU就越差，这可能是由于自训练的确认偏差在较早的迭代中积累所致。因此，对于UDA，早期学习稀有类别尤为重要。为了解决这个问题，提出的RCS增加了稀有类别的采样概率。图4（橙色）显示，

下载后可阅读完整内容，剩余1页未读，立即下载