野外学习：领域泛化的语义分割网络

92 浏览量更新于2023-10-26 收藏 19.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

99360WildNet：从野外学习领域泛化的语义分割0Suhyeon Lee Hongje Seong Seongwon Lee Euntai Kim *韩国首尔延世大学电气与电子工程学院0{ hyeon93, hjseong, won4113, etkim } @yonsei.ac.kr0摘要0我们提出了一种名为WildNet的新领域泛化语义分割网络，通过利用野外的各种内容和风格来学习领域泛化特征。在领域泛化中，对于未见目标领域的低泛化能力显然是由于过拟合到源领域。为了解决这个问题，以前的工作集中于通过去除或多样化源领域的风格来泛化领域。这些方法减轻了对源风格的过拟合，但忽视了对源内容的过拟合。在本文中，我们提出通过野外的帮助来多样化源领域的内容和风格。我们的主要思想是让网络从野外自然地学习领域泛化的语义信息。为此，我们通过增强源特征以类似于野外风格的方式来多样化风格，并使网络适应各种风格。此外，我们通过在特征空间中提供从野外借来的语义变化来鼓励网络学习类别判别特征。最后，我们通过正则化网络来捕捉一致的语义信息，即使源领域的内容和风格都扩展到野外。在五个不同的数据集上进行的大量实验证实了我们的WildNet的有效性，并且我们明显优于最先进的方法。源代码和模型可在网上获得：https://github.com/suhyeonlee/WildNet。01. 引言0领域泛化语义分割旨在在多个未见目标领域上更好地预测像素级语义标签，同时仅在源领域上进行学习。不幸的是，源领域和目标领域之间的领域转移使得在给定的源数据上训练的分割模型在未见目标数据上表现愚蠢，如图1b所示。在领域泛化中，对于未见领域的低泛化性能显然是由于过拟合到源领域。由于模型在学习过程中无法看到关于目标领域的任何信息，甚至不提供未标记的目标图像，与领域适应（DA）不同，它过度学习了给定源数据的统计分布。最近的一些研究[7, 29, 41,42]提出通过“去除”数据中的领域特定风格信息来学习领域泛化的内容特征，以防止过拟合到源领域。基于特征的协方差矩阵和风格之间的相关性[13,14]，他们假设如果将被认为是领域特定风格的特征元素进行白化[23, 30, 50,53]，那么只有内容特征会保留下来。然而，由于内容和风格不正交，白化风格可能会导致语义内容的丢失，而这对于语义类别预测是不可或缺的。因此，他们从不完整的内容特征中预测语义类别，并且很难进行准确的预测，如图1c所示。在本文中，我们提出了一种名为WildNet的新领域泛化语义分割网络，通过利用野外的各种内容和风格来学习领域泛化特征。0* 通讯作者。0(a) 未见过的领域图像0(b) 基准模型 (mIoU 35.16%)0(c) RobustNet (mIoU 36.58%)0(d) 我们的模型 (mIoU 44.62%)0图1. 在未见过的领域图像上的语义分割结果。模型在GTAV[46]训练集上进行训练，并在Cityscapes[10]验证集上进行验证。(b)基准模型在源领域上过拟合，在未见目标领域上的mIoU为35.16%。(c) RobustNet[7]，一种最先进的方法，通过去除风格来提高mIoU至36.58%，但仍然具有较低的泛化能力。(d)我们的WildNet通过从野外学习各种风格和内容，实现了卓越的泛化性能，mIoU为44.62%。更多其他数据集的定性结果请参见补充材料。0模型在学习过程中无法看到关于目标领域的任何信息，甚至不提供未标记的目标图像，与领域适应（DA）不同，它过度学习了给定源数据的统计分布。最近的一些研究[7, 29,41,42]提出通过“去除”数据中的领域特定风格信息来学习领域泛化的内容特征，以防止过拟合到源领域。基于特征的协方差矩阵和风格之间的相关性[13,14]，他们假设如果将被认为是领域特定风格的特征元素进行白化[23, 30, 50,53]，那么只有内容特征会保留下来。然而，由于内容和风格不正交，白化风格可能会导致语义内容的丢失，而这对于语义类别预测是不可或缺的。因此，他们从不完整的内容特征中预测语义类别，并且很难进行准确的预测，如图1c所示。在本文中，我们提出了一种名为WildNet的新领域泛化语义分割网络，通过利用野外的各种内容和风格来学习领域泛化特征。99370通过“扩展”源域的内容和风格来获得域泛化的语义特征。尽管一些先前的研究[22, 45,62]利用了来自野外的各种风格，例如ImageNet[11]用于真实风格，Painter by Numbers[38]用于虚构风格，但它们忽视了高泛化能力来自于学习不仅仅是各种风格，还有各种内容。与以往的研究相比，我们的主要思想是通过利用野外的各种内容和风格来自然地学习域泛化的语义信息，而不是强制对域特定风格进行白化。为了将内容和风格都扩展到野外，我们提出了四种有效的学习方法。 (i)基于风格和特征统计的相关性，通过将野外特征的统计信息转移到源特征上的几层来使源特征的风格多样化。(ii)为了防止对源内容过拟合，我们提出了内容扩展学习，以增加潜在嵌入空间中的类内内容变异性。将内容从源域扩展到野外有助于网络对未知内容进行泛化预测。(iii)为了防止对源风格过拟合，我们提出了风格扩展学习，以鼓励网络适应扩展到野外的各种风格。(iv)最后，语义一致性正则化使网络能够在源域的内容和风格都扩展到野外时捕捉一致的语义信息。通过提出的学习方法，我们的WildNet通过利用野外的各种内容和风格来学习域泛化的语义特征。在多个领域上进行的大量实验表明，我们的网络在语义分割的域泛化方面取得了卓越的性能。我们的主要贡献如下：0•我们提出了一种名为WildNet的新颖域泛化语义分割网络，通过利用野外的各种内容和风格来学习域泛化的语义特征。0•我们提出了四种学习技术，通过扩展源域的内容和风格来训练域泛化网络。这使得我们的模型能够在各种未知的目标域上进行可靠的预测，而无需对它们进行训练。0•在多个领域上进行的大量实验中，我们的网络在域泛化的语义分割方面取得了卓越的性能。02. 相关工作02.1. 域自适应和泛化0域自适应（DA）旨在通过减小源域和目标域之间的域差距来提高目标域上的性能。在语义分割中，利用DA来解决注释工作的难题。0图像中的像素级别类别。大多数DA方法使用图像翻译[17,20, 33, 60, 64]，特征对齐[21, 44, 55-57]和自训练[16, 29,32, 40,63]策略来训练网络。然而，在学习过程中很难获取来自各种环境的目标图像，并且需要重新训练网络才能将网络应用于新的目标域。为了克服这些限制，域泛化（DG）最近引起了相当大的关注。然而，大多数DG研究都集中在图像分类上，只有少数最近的研究涉及语义分割。在本研究中，我们处理语义分割的域泛化。与DA不同，DG在学习过程中没有访问目标域。为了在各种“未知”的目标域上进行可靠的预测，大多数现有研究侧重于白化[7]、归一化[41]和多样化[22, 45,62]风格，以避免对源域风格的过拟合。本文侧重于将源域的内容和风格都扩展到野外，使网络能够从多样化的内容和风格中学习域泛化的语义特征。02.2. 对比学习0对比学习[9,39]是一种在嵌入空间中最小化与正样本的距离并最大化与负样本的距离的策略。最近，He等人[18]使用具有队列的动态字典，Chen等人[3]使用同一图像的两个视图作为正对来学习视觉表示。为了使正对多样化，最近的一项工作[12]提出使用潜在空间中的正对最近邻作为正对。在提出监督对比学习[27]之后，最近有一些工作将对比学习应用于全监督和半监督的语义分割[1, 65,66]。为了获得正样本，这些工作进行图像增强或使用标签信息在内存库中存储特征[58]。这些方法增强了在已知源域中的类别区分能力，但不能保证在各种未知域中改善类别区分能力。为了将对比学习适应于语义分割的DG，我们提出了一种使用野生风格化特征及其最接近的野生内容作为正样本的学习方法。02.3. 自由ImageNet0大多数研究将ImageNet [11]视为免费，并用它来预训练网络。ImageNet预训练模型通常在各个领域中使用，如目标检测[34, 68]，语义分割[8,54]，全景分割[6, 35,59]和视频对象分割[51]，被认为是相同的基础。ImageNet预训练模型也被大多数DA和DG语义分割方法使用，并且ImageNet用于借鉴��Flatten��(��)�� , ��99380语义一致性规范化0特征风格化0分割损失0内容扩展学习0& 入队0风格扩展学习0推理0图2.WildNet的整体学习过程。我们的模型通过四种提出的方法进行训练：FS，CEL，SEL和SCR。FS使用野生特征的统计数据来增强源特征以模拟野生风格，并使用增强的特征进行CEL，SEL和SCR。CEL使用增强的特征和最接近它们的野生特征作为正样本，其他类别特征作为负样本进行对比学习。SEL使网络能够从具有多样化风格的特征中学习任务特定信息，SCR则通过规范化网络来捕捉具有多样化内容和风格的特征中的一致语义信息。通过这些提出的学习方法，我们的模型通过利用野生内容和风格来学习领域通用的语义特征。0各种风格[22,62]。本文关注通过利用ImageNet中的各种内容和风格来学习领域通用的网络。03. 提出的方法0在本节中，我们介绍了四种学习技术，包括特征风格化（FS），内容扩展学习（CEL），风格扩展学习（SEL）和语义一致性规范化（SCR），通过将源域的内容和风格扩展到野生域来学习领域通用的特征。我们的WildNet通过这些技术实现了卓越的泛化能力，整体学习过程在图2中概述。03.1. 问题设置和概述0域泛化（DG）旨在增强对已知源域S和未知目标域T = {T1,...,TN}的泛化能力。设ϕ为一个语义分割模型，从图像x输出像素级别的类别预测p。该模型由特征提取器ϕfeat和分类器ϕcls组成。在DG中，当我们训练模型时，我们可以访问源域训练数据集。0Ds = { (xs, ys) }，其中xs∈RH×W×3是一张图像，ys∈RH×W×K是其像素级标签，K是语义类别的数量。基线模型使用分割损失进行训练。0Lorig = -10HW0H×W0W×0k =1 ys hwk log(ϕ(xs)).0在本文中，我们专注于将源域的内容和风格扩展到未知目标域T，以获得高泛化性能。我们利用无标签的野外数据集Dw={xw}，其中包含各种内容和风格。在每次训练迭代中，随机提供一对源图像和野外图像作为输入，并将源图像的风格和内容扩展到野外域W中的特征空间。在野外的帮助下，我们的网络自然地从各种内容和风格中学习领域通用的语义信息。训练结束后，模型在已知源域S和未知目标域T的验证集上进行评估。03.2. 特征风格化0由于风格与特征统计信息相关[14, 15, 24, 26,31]，而由于风格差异导致的分布偏移主要集中在网络的浅层，因此通过调整浅层特征的统计信息可以使特征的风格多样化。LiSCE = −logψ(zsi , zswi )ψ(zsi , zswi ) +Nzj=11sijψ(zsi , zswj ),(4)LSCE = 1NzNzi=1LiSCE.(6)99390由于特征的风格主要集中在网络的浅层[41]，通过调整浅层特征的统计信息，可以使特征的风格多样化。在本文中，我们通过在学习过程中向特征提取器添加几个AdaIN[24]层来通过野外风格来多样化源特征的风格。这使得我们能够增强源特征以类似于野外风格，而不会丢失空间信息。设ϕl为网络ϕ的第l层，zl为当图像x输入到ϕ时从ϕl输出的特征。为了使网络能够从各种野外风格特征中学习领域通用的语义信息，我们将源图像xs的特征zsl的风格与野外图像xw的特征zwl的风格进行交换。在第l层，我们将zwl的风格转移到zsl，得到野外风格化特征zswl。0zswl = σ(zwl)zsl 0σ(zsl) + µ(zwl) (2)0其中µ(zl)和σ(zl)分别是特征zl的通道均值和标准差。由于zsl的分布通过zwl的通道统计重新归一化，zsl的风格被交换为野外风格，同时保持空间信息。野外风格化特征zswl输入到第l+1层，zswl+1 =ϕl+1(zswl)从该层输出。zswl+1可以反复以zwl+1的风格进行交换，如下所示：0zswl+1 := σ(zwl+1)0σ(zswl+1) + µ(zwl+1). (3)0根据上述公式，在多个层次上将特征zsw以zw的风格进行交换。随着层次的加深，语义信息应该比风格更重要，因此在本文中，FS仅适用于一些浅层。03.3. 内容扩展学习0在这个子部分中，我们提议将源领域的内容扩展到野外。对于过度拟合源领域的原因之一是网络过度学习了有限数量的源内容。我们通过在潜在嵌入空间中通过内容扩展增加类内内容的变异性来解决这个问题。为此，在特征提取器ϕfeat之后，我们在分类头ϕcls之外独立添加一个投影头ϕproj，并在嵌入空间中将源内容扩展到野外。当源图像xs和野外图像xw进入特征提取器ϕfeat时，它输出源特征zs、野外风格化的源特征zsw和野外特征zw。投影头ϕproj接收特征zs、zsw和zw，并分别输出像素级投影内容特征zsproj、zswproj和zwproj。所有投影特征都通过z = z/max(∥z∥2,ϵ)沿通道维度进行归一化。在每次训练迭代中，zwproj被展平并存储在野外内容字典Q∈RCq×Nq中，其中Cq是投影特征的通道数，Nq是字典大小。我们的模型使用动态字典结构。0野生图像 �� 0源图像 x s0野生图像 �� 0图 3.在裁剪的源图像和野生图像上可视化源到野生匹配像素。我们将源内容扩展到与源像素对应的最接近的野生风格源内容。在嵌入空间中，鼓励源内容靠近野生内容。这提高了我们的模型对未见内容的泛化能力。0在 [ 18 ] 中作为 Q，没有动量更新。我们通过将源内容扩展到野生风格的源内容，然后使用 Q扩展到野生域来使内容多样化。这里我们关注的是投影的源特征 z s i0和投影的野生风格特征 z sw i 对应于源图像 x s 的第 i个像素，包含完全相同的语义信息，但存在内容扰动。为了从未见过的内容中获得可靠的语义信息，网络应该能够将包含相同语义信息的内容聚类，将其与包含其他语义信息的内容区分开来。为了实现这个目标，我们将对比学习策略 [ 39] 调整为监督方式，并定义第 i个像素的源内容扩展损失如下：0ψ ( z s i , z sw i ) = exp ( z s i ∙ z sw i /τ ) , (5) 其中 1 sij 是负像素指示器，如果 y s i 和 y s j 不同，则为 1，如果相同，则为 0 ， N z 是像素的数量，温度参数 τ设置为0.07。我们只使用可靠的样本来训练模型，忽略模糊的正样本和负样本，通过排除未知类别的像素和相同类别的其他位置的像素。方程 ( 4 ) 鼓励 z s i 和 z sw i靠近，同时也鼓励 z s i远离所有负类内容。然后，可以将逐像素损失应用于整个源图像。0方程 ( 6 )通过减少嵌入空间中源内容和野生扰动源内容之间的距离来鼓励网络进行广义预测。接下来，我们通过利用野生内容字典 Q将源内容进一步扩展到野生内容。在学习过程中， Q存储多样的像素级野生内容，这些内容在源域中可能不存在。因此，如果我们仔细选择每个像素需要学习的具有语义信息的野生内容，并将其用于训练网络，网络对野生内容的扰动更加鲁棒。由于野生集合 D w 中没有类别信息，方程 ( 4 )不能直接应用于这种野生内容扩展。我们从相似语义内容在嵌入空间中彼此靠近的角度解决了这个问题。受到 [ 12 ] 的启发，我们从 Q 中选择与野生风格源内容 zsw i 最接近的野生内容 z w k 作为01 下标 proj 有时为了方便省略。zwk = arg minqQ∥zswi− q∥2(7)zwk = arg maxq∈Q(zswi· q).(8)Fig. 3 shows the wild content zwk matched to the source con-tent zsi using the stylized source content zswi . In this way, weprovide various contents of the wild to the networks with-out category information. Now Eq. (4) can be adapted to thewild content extension as follows:LiW CE = −logψ(zsi , zwk )ψ(zsi , zwk ) +Nzj=11sijψ(zsi , zswj ).(9)LW CE = 1NzNzi=1LiW CE.(10)CEL =SCE +W CE.(11)(a) xs(b) xw(c) rec. image from zsw(d) ys(e) prediction on zs(f) prediction on zswLSEL = −1HWHh=1Ww=1Kk=1yshwklog(pswhwk).(12)LSCR = −1HWHWKpshwklogs99400并鼓励源内容 z s i 靠近它。由于 z sw i 和 q早期被归一化，方程 ( 7 )可以使用点积进行高效计算，并重写为0Fig. 3 显示了与源内容 z s i 匹配的野生内容 z w k ，使用风格化的源内容z sw i。通过这种方式，我们向网络提供了不带类别信息的各种野生内容。现在，方程 ( 4 ) 可以调整为以下形式：0在野生内容扩展中，我们重用了源内容扩展的负样本。一些负扩展方法可能会获得更好的性能，我们将这留作未来的工作。然后，我们可以通过以下方式将像素级的野生内容扩展损失应用于整个源图像0通过结合源内容扩展损失和野生内容扩展损失，CEL损失定义为0我们的模型通过使用提出的CEL损失来学习从多样的内容中捕捉到的广义语义信息。03.4. 风格扩展学习0过度拟合源域的另一个原因是网络过度学习了有限数量的源样式[36, 43,67]。为了解决这个问题，FS通过野生样式的帮助使源特征的样式多样化。有趣的是，源特征的样式发生了变化，同时保留了空间信息，但网络无法从野生样式特征中预测语义类别，如图4f所示。在本小节中，我们提出了SEL来使网络适应多样化的样式。SEL旨在通过从野生样式特征中学习任务特定信息，使网络能够自然地适应各种样式。当野生样式源特征zsw进入分类头ϕcls时，它输出像素级的softmax分割图psw∈RH×W×K。因为zsw是0图4.给定（a）源图像和（d）标签，FS使用来自（b）野生图像的野生特征对源特征进行风格化。为了可视化野生风格化特征，（c）我们使用U-Net[48]从野生风格化特征中重建了一幅图像。与（e）从源特征的准确预测相反，网络（f）无法从野生风格化特征中进行正确预测，即使源特征的空间信息保持不变。为了解决这个问题，我们应用SEL损失来使网络能够从野生风格化特征中学习任务特定信息。0在这种目标下，我们通过最小化以下SEL损失来训练网络：在xw中，网络必须从zsw中预测xs的语义标签ys，其中xw的特征样式已与xs的特征样式交换。0我们的模型通过应用SEL损失从野生风格化特征中学习任务特定信息。这使得我们的模型能够自然地从各种样式中学习领域通用的语义信息。03.5. 语义一致性正则化0为了在未见过的领域具有高泛化能力，分类器应该从特征中捕捉到一致的语义信息[5,25]，即使在风格和内容上存在扰动。然而，如图4e和4f所示，野生风格化源特征zsw的预测结果psw与源特征zs的预测结果ps不同。尽管SEL允许网络从zsw中学习任务特定信息，但这并不保证psw和ps是相同的。为了解决这个问题，我们提出了SCR，它使网络规范化以捕捉一致的语义信息，即使源域的内容和风格都扩展到了野生域。SCR旨在训练网络，使得野生风格化源特征的预测概率分布psw =ϕcls(zsw)接近于源特征的ps =ϕcls(zs)。为此，我们采用了Kullback-Leibler（KL）散度损失，如下所示：0p sw hwk . (13)0通过提出的野外扩展方法，我们的模型可以在风格和内容的扰动下学习到一致的语义信息。994104. 实验04.1. 数据集0真实语义分割数据集。Cityscapes [ 10 ]、BDD100K [ 61]和Mapillary [ 37]分别包含2975、7000和18000张训练集图像，以及500、1000和2000张验证集图像。我们考虑了与其他数据集兼容的19个类别。在所有的表格中，C、B和M分别表示Cityscapes、BDD100K和Mapillary。0合成语义分割数据集。GTAV [ 46 ]包含从Grand Theft AutoV游戏引擎渲染的24966张图像。其中12403张用于训练，6382张用于验证，6181张用于测试。SYNTHIA [ 49]包含9400张图像，我们将其分为6580张和2820张用于训练和验证，遵循[ 7]的方法。在所有的表格中，G和S分别表示GTAV和SYNTHIA。0野外数据集。ImageNet [ 11]是一个大规模的图像分类数据集，大多数研究中用于网络预训练。在本文中，我们使用没有类标签的图像作为野外领域数据。根据用于训练我们的WildNet的图像数量，我们展示了其泛化性能，见表6a。04.2. 实验设置0我们在五个不同的语义分割数据集上进行了大量实验，并在几个领域泛化场景中报告了平均交并比（mIoU）得分：GTAV →{ Cityscapes, BDD100K, Mapillary, SYNTHIA,GTAV } 和 Cityscapes →{ GTAV, BDD100K, Mapillary,SYNTHIA, Cityscapes}。为了与其他领域泛化方法进行公平比较，我们在我们的基线模型上重新实现了IBN-Net [ 41 ]和RobustNet [ 7]，†表示我们重新实现的模型。我们的模型在一个源域训练集（GTAV或Cityscapes）上进行训练，并在五个领域验证集（四个未见过的领域和一个已见过的领域）上进行验证。为了展示整体的领域泛化性能，我们还报告了五个领域验证集上mIoU的平均值（Avg）。在所有的表格中，每个领域的最佳结果都用粗体标记。04.3. 实现细节0我们使用DeepLabV3+ [ 2]作为分割网络，将ResNet-50、ResNet-101 [ 19 ]和VGG-16[ 52 ]进行调整，并且所有的骨干网络都是在ImageNet [ 11]上进行预训练的。在基于ResNet的模型中，我们使用SGD优化器 [ 47]，动量为0.9，权重衰减为5e-4。初始学习率设置为2.5e-3，并使用幂次策略进行衰减，幂次为0.9。我们使用批量大小为8进行60K次迭代训练。在基于VGG的模型中，我们使用Adam优化器 [ 28 ]，动量为(0.9,0.99)。初始学习率设置为1e-5，批量大小设置为8。根据[ 7]的方法，我们应用随机缩放。0方法 C B M S G Avg0基准线 [ 41 ] 22.20 - - - 61.00 - IBN-Net [ 41 ] 29.60 - - -64.20 -0基准线 [ 62 ] 32.45 26.73 25.66 - - - DRPC [ 62 ] 37.4232.14 34.12 - - -0基准线 [ 4 ] 23.29 - - - - - ASG [ 4 ] 31.89 - - - - -0基准线 [ 7 ] 28.95 25.14 28.18 26.23 73.45 36.39 RobustNet[ 7 ] 36.58 35.20 40.33 28.30 72.10 42.500基准线 [ 45 ] 31.70 - - - - - GLTR [ 45 ] 38.60 - - - - -0基准线 35.16 29.71 31.29 27.97 71.17 39.06 † IBN-Net [ 41 ]36.52 34.18 38.74 30.41 70.78 42.12 † RobustNet [ 7 ]38.78 35.64 40.38 28.97 70.16 42.78 WildNet (我们的模型)44.62 38.42 46.09 31.34 71.20 46.330表1. 在使用ResNet-50作为骨干网络的域泛化设置G →{ C, B, M, S,G } 下，mIoU(%)的比较。0方法 C B M S G Avg0基准 [ 62 ] 33.56 27.76 28.33 - - - DRPC [ 62 ] 42.5338.72 38.05 - - -0基准 [ 22 ] 33.40 27.30 27.90 - - - FSDR [ 22 ] 44.80 41.2043.40 - - -0基准 [ 45 ] 34.00 28.10 28.60 - - - GLTR [ 45 ] 43.70 39.6039.10 - - -0基准 35.73 34.06 33.42 29.06 71.79 40.81 † IBN-Net [ 41 ]37.68 36.64 36.75 30.84 70.39 42.46 † RobustNet [ 7 ]37.26 38.66 38.09 30.17 70.53 42.94 WildNet (我们的方法)45.79 41.73 47.08 32.51 71.91 47.810表2. 在使用ResNet-101作为骨干网络的域泛化设置G →{ C, B, M,S, G } 下，mIoU(%)的比较。0在[0.5,2.0]范围内进行随机缩放和大小为768×768的随机裁剪。投影头的输出大小为192×192，我们使用均匀采样的64×64大小的特征图进行交叉熵损失以避免内存问题。对于野生内容字典的多样性，野生特征图在均匀采样后存储，大小为16×16。FS层替换了ResNet中前两个残差块的加法操作之后的第一个批归一化层，并在VGG中的前三个最大池化层之后的第一个ReLU之后添加。训练结束后，所有的FS层、投影头和野生内容字典都被移除，我们的模型可以应用于多个未见过的域，无需在目标域上进行进一步训练。04.4. 与DG方法的比较0我们将结果与现有的DG方法进行比较：IBN-Net [ 41 ]，DRPC [ 62 ]，ASG [ 4 ]，FSDR [ 22]，RobustNet [ 7 ]和GLTR [ 45]。表1显示了在GTAV上训练的ResNet-50模型的泛化性能。我们在包括Cityscapes、BDD100K、Mapillary和SYNTHIA数据集的五个验证集上评估模型，其中四个是未见过的域，一个是GTAV。为了展示在多个域上的高泛化能力，我们还报告了在这五个域上的mIoU的平均值。我们的WildNet在除源域以外的所有未见目标域中展现出非常出色的泛化能力，明显优于其他方法。特别是与重新实现的结果相比，我们证明扩展内容和样式比去除域特定样式更有效地学习域泛化信息。在表2和表3中，我们使用ResNet-101和VGG-16模型实现了更优越的泛化能力。我们在Cityscapes上训练的模型也在表4中展现了超越其他DG方法的性能。对于不同的骨干网络和各种域的广泛比较实验证明了我们模型的优越性。Lorig LCEL LSEL LSCRCBMSGAvg✓35.16 29.71 31.29 27.97 71.17 39.06✓✓41.25 35.95 40.06 31.26 68.75 43.46✓✓✓43.61 38.69 43.17 31.40 70.52 45.48✓✓✓✓44.62 38.42 46.09 31.34 71.20 46.33za-99420方法 C B M S G Avg0基准 [ 62 ] 30.04 24.59 26.63 - - - DRPC [ 62 ] 36.1131.56 32.25 - - -0基准 [ 4 ] 19.89 - - - - - ASG [ 4 ] 31.47 - - - - -0基准 [ 22 ] - - - - - - FSDR [ 22 ] 38.30 34.40 37.60 - - -0基准 [ 45 ] 31.40 - - - - - GLTR [ 45 ] 37.20 - - - - -0基准 24.68 26.41 23.60 24.73 66.36 33.16 † IBN-Net [ 41 ]30.25 30.09 31.87 26.22 65.47 36.78 † RobustNet [ 7 ]30.13 29.22 33.96 26.16 64.73 36.84 WildNet (我们的方法)39.18 34.49 40.75 27.25 64.57 41.250表3. 在使用VGG-16作为骨干网络的域泛化设置G →{ C, B, M, S, G} 下，mIoU(%)的比较。0方法 G B M S C Avg0基准 [ 41 ] 29.40 - - - 64.50 - IBN-Net [ 41 ] 37.90 - - -67.00 -0基准 [ 7 ] 42.55 44.96 51.68 23.29 77.51 48.00 RobustNet [7 ] 45.00 50.73 58.64 26.20 76.41 51.400基准 40.50 42.35 20.67 8.08 76.30 37.58 † IBN-Net [ 41 ]45.28 46.61 56.78 26.41 75.47 50.11 † RobustNet [ 7 ]45.28 48.21 56.97 26.59 74.91 50.39 WildNet (我们的方法)47.01 50.94 58.79 27.95 75.59 52.060表4. 在使用ResNet-50作为骨干网络的域泛化设置C →{ G, B, M, S,C } 下，mIoU(%)的比较。0表5. 在使用ResNet-50作为骨干网络的域泛化设置G →{ C,B,M,S,G} 下，提出的损失对mIoU(%)的影响。损失L orig，L CEL，LSEL和L SCR分别在公式(1)，(11)，(12)和(13)中定义。0为了展示我们的WildNet在多个域上的高泛化能力，我们将其与现有的DG方法进行比较：IBN-Net [ 41 ]，DRPC [ 62]，ASG [ 4 ]，FSDR [ 22 ]，RobustNet [ 7 ]和GLTR [ 45]。表5显示了在使用ResNet-50作为骨干网络的域泛化设置G →{ C,B,M,S,G }下，提出的损失对mIoU(%)的影响。损失L orig，L CEL，LSEL和L SCR分别在公式(1)，(11)，(12)和(13)中定义。04.5. 消融研究0在这个小节中，我们对ResNet-50模型在从GTAV到Cityscapes、BDD100K、Mapillary、SYNTHIA和GTAV的DG场景上进行了大量实验，以研究所提出方法中每个组件的有效性。表5显示了所提出损失对领域泛化的影响。仅使用L orig训练的基准模型过拟合源域，在未见过的领域上性能较差。即使只应用LCEL，我们的模型也能达到43.46%的平均值，提高了4.40%。这表明了在许多研究中被忽视的内容多样化的重要性。此外，我们使用L SEL使野生风格特征学习任务特定信息，达到45.48%的平均值，并使用L SCR规范化模型以学习一致的语义信息，最终达到46.33%的平均值。接下来，我们对重要组件进行更多的消融研究。0野生图像的数量。在表6a中，考虑了用于训练我们的模型的野生图像的数量。即使只使用10张野生图像，与基准相比，通过防止过拟合到源域，泛化性能显著提高了+5.54%。此外，随着使用的野生图像数量的增加，模型的泛化性能逐渐提高。这表明将内容和风格都扩展到野生有助于网络学习领域通用的语义特征。0FS的数量。表6b显示了FS数量对泛化性能的影响。通过仅将第一个批归一化替换为FS，我们可以基于多样化的风格化特征将内容和风格扩展到野生，相比基准提高了5.23%的泛化性能。将FS应用于一些浅层进一步提升性能。然而，将FS应用于更深层次会稍微降低性能，因为随着层次的加深，语义内容应该被捕捉得比风格更重要。适量的FS数量不会干扰语义信息，有助于通过增加源特征的各种野生风格来训练泛化模型。0野生内容字典的大小。表6c显示了对野生内容字典大小的敏感性。将源内容扩展到野生可以提高泛化性能，即使在没有内容字典的情况下，将源内容扩展到大小为2048的野生内容中，我们的模型的泛化性能也高于没有内容扩展的情况。我们取393216的大小。0野生风格的FS。在表6d中，我们展示了使用野生特征的统计数据应用FS对模型的泛化性能的影响。为了在没有野生帮助的情况下应用FS，源特征的均值和标准差被随机值

下载后可阅读完整内容，剩余1页未读，立即下载