源内风格增强：领域泛化的改进方法

75 浏览量更新于2023-10-16 收藏 2.22MB PDF 举报

语义分割

深度学习模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

509用于改进领域泛化的源内风格增强Yumeng Li1，2Dan Zhang1，4Margret Keuper2，3Anna Khoreva1，41BoschCenterforAI2Siegen大学3MPIforInformatics4图宾根大学{yumeng.li，dan.zhang2，anna.khoreva} @ de.bosch.commargret. uni-siegen.de摘要关于域转移的泛化，因为它们经常出现在自动驾驶等应用中，是深度学习模型面临的最大挑战之一因此，我们提出了一个源内风格增强（ISSA）的方法，以提高领域概括的语义分割。我们的方法是基于一种新的掩蔽噪声编码器的StyleGAN2反演。该模型通过噪声预测学习忠实地重建图像，保留其语义布局估计噪声的随机掩蔽使得我们的模型具有风格混合能力，即，它允许在不影响图像的语义布局的情况下改变全局外观。使用所提出的掩蔽噪声编码器来随机化训练集中的风格和内容组合，ISSA有效地增加了训练数据的多样性，并减少了虚假相关。结果，我们达到了12。在不同类型的数据偏移下，驾驶场景语义分割的mIoU改进为4%，即，不断变化的地理位置，恶劣的天气条件，以及从白天到黑夜。ISSA与模型无关，可直接应用于CNN和变压器。它也是其他领域泛化技术的补充，例如，它改进了最新的最先进的解决方案RobustNet，3%mIoU在Cityscapes到DarkZuéric h.1. 介绍具有潜在多样性的照明和不利天气条件的变化环境使得在开放世界中部署深度学习模型变得困难[60，82]。因此，提高神经网络的泛化能力对于自动驾驶等安全关键型应用至关重要（例如，参见图10）。①的人。虽然通常目标域在训练时可能是不可访问或不可预测的，但重要的是基于已知（源）域训练可推广的模型，这可能只提供对现实世界的有限或有偏见的看法[7，61]。训练数据的多样性被认为是一个Unseen domain（snow）地面实况我们的基线图1. HRNet [69]在未知域（雪）上的语义分割结果，在Cityscapes [14]上训练并在ACDC [60]上测试。用我们的ISSA训练的模型可以成功地分割卡车，而基线模型完全失败。重要的作用域推广，包括自然分布转移[63]。许多现有的工作假设多个源域在训练期间是可访问的[4，30，34，44，46，47，85]。例如，Liet al. [44]将源域划分为元源域和元目标域，以模拟域迁移进行学习;Hu等人[30]提出多域判别分析来学习域不变特征变换。然而，对于像素级预测任务，如语义分割，收集不同的训练数据涉及繁琐和昂贵的注释过程[8]。因此，从一个单一的源域提高泛化是非常引人注目的，特别是语义分割。提高数据多样性的一个实用方法是应用数据扩充。它已被广泛用于解决不同的任务，如图像分类[26，28，67，80，86]，有限数据的GAN训练[33，37]或姿态估计[6，55，68]。一种数据扩充技术集中于增加训练集中的内容多样性，诸如几何变换（例如，[17][18][19]然而，CutOut和CutMix对[63]中报道的自然域偏移无效另一方面，风格增强只修改风格-非语义外观，如图像的纹理和颜色[20] -而风格增强-510语义内容。通过多样化的风格和内容组合，风格增强可以减少训练集中风格-内容相关性的过拟合，提高对领域变化的鲁棒性。亨德里克斯corruptions [25]提供了一个广泛的合成风格，包括天气条件。然而，它们并不总是看起来很真实，因此仍然远不像自然数据偏移。在这项工作中，我们提出了一个源内风格增强（ISSA）策略的语义分割，旨在提高风格的多样性，在训练集没有额外的标签工作或使用额外的数据源。我们的增强技术基于StyleGAN 2的反转[39]，这是最先进的无条件生成对抗网络（GAN），因此确保了合成样本的高质量和真实性。GAN反演允许将给定图像编码为潜在变量，从而促进具有风格混合能力的忠实重建为了实现ISSA，我们学习分离语义基于单一来源的样式信息的内容做-main.这允许改变图像的风格，同时保持内容不变。具体地说，我们利用在源域中提取的样式，并将它们混合起来。因此，我们可以增加数据的多样性，并减轻在给定的训练数据的虚假相关。具有复杂结构的图像（如驾驶场景）的忠实重建是不平凡的。现有方法[3，18，57，58，76]主要在简单的单对象中心数据集上进行测试，例如，[36]，FFHQ[38]，或LSUN [78].如[2]所示，用随机噪声空间扩展StyleGAN2的原生潜在空间可以提高反演质量。然而，所有的风格和内容的信息将被嵌入在噪声地图，leav- ing在此设置中的潜在代码无效。因此，为了能够精确重建复杂的驾驶场景以及风格混合，我们提出了一种用于StyleGAN 2的掩蔽噪声所提出的噪声图上的随机掩蔽正则化鼓励生成器依赖于潜在预测进行重建。因此，它允许有效地分离内容和风格信息，并促进逼真的风格混合，如图所示。二、总之，我们做出以下贡献：• 我们提出了一种用于GAN反演的掩蔽噪声编码器，该编码器能够对复杂的以场景为中心的数据集进行高质量的重建和样式混合。• 我们探索了GAN反演用于源内数据增强，这可以提高语义分割上自然分布变化下的泛化能力。• 大量的实验表明，我们提出的增强方法ISSA一贯促进主泛化性能的驾驶场景SEMANIC分割在不同的网络体系结构，tures，实现高达12。即使是4%的mIoU改进，在源数据中具有有限的多样性并且不能访问目标域。2. 相关工作域泛化。域泛化涉及神经网络在目标域上的泛化能力，该目标域遵循与源域不同的分布，已经提出了各种方法，这些方法采用数据增强[31，40，48，62，86]，域对齐[30，34，46，47，85]，Meta-学习[4，44，45，83]或集成学习[19，52，72]。虽然大多数人专注于图像级任务，例如，图像分类或人员重新识别，一些最近的工作[12，41-RobustNet [12]提出了一种对实例归一化的实例选择性白化损失，旨在选择性地去除导致域偏移的信息，同时保持区分性特征。[41]介绍了一个记忆引导的元学习框架，以捕获跨域的共现分类知识。[42，43]利用野外的额外数据。另一个工作方向是探索功能级增强 [48 ， 86]。MixStyle [86]和DSU [48]在归一化层添加扰动，以模拟测试时的域偏移。然而，这种扰动可能会导致图像内容的失真，这对语义分割是有害的（参见第二节）。4.2）。此外，这些方法需要仔细适应特定的网络架构。相比之下，ISSA对图像级，因此是模型不可知的，并且可以是近似的。作为其他方法的补充，以进一步提高泛化性能。数据增强。数据增强技术可以通过改变训练样本的风格、内容或两者来使其多样化，从而防止过度拟合并提高泛化能力。混合增强[16，67，80]在两个训练样本及其标签之间线性插值，正则化风格和内容。尽管在图像级分类任务上显示出有效性，但它们并不适合密集像素级预测任务。CutMix [79]将输入图像的随机矩形区域剪切并粘贴到另一个图像中，从而增加了内容多样性。几何变换，例如，随机缩放和水平翻转也可用于此目的。相比之下，Hendrycks腐败[25]只影响图像外观而不修改内容。它们生成的图像看起来是人工的，与自然数据相去甚远，因此对自然分布变化的帮助有限[63]。StyleMix [28]在概念上更接近我们的方法，其目的是将训练图像分解为内容和风格表示，然后将它们混合以生成更多样本。尽管如此，他们基于AdaIN [32]的风格混合方法无法实现像素级标签保留重新511W[76]第76话我的世界，我的世界图2. Cityscapes上StyleGAN2反演方法的定性结果（彩色和放大的最佳视图），即，pSp†，双模式编码器[76]和我们的掩蔽噪声编码器。注意，pSp†是我们引入的pSp [57]的改进版本。pSp†可以重建场景的粗略布局，但仍难以保留细节。尽管双模式编码器具有更好的重建质量，但它不能忠实地重建小对象（例如，行人）和一些物体（例如，车辆、自行车）相当模糊。我们的掩蔽噪声编码器具有最高的图像保真度，保留反转图像中的更精细细节。更多的可视化示例，包括原始pSp结果，可以在图中找到。S.2中的Sup。材料需求（见图）（七）.我们的ISSA也是一种基于样式的数据增强技术。受益于最先进的GAN的使用，它可以生成看起来自然的样本，仅改变原始图像的风格，同时保留其内容，从而能够重新使用地面实况标签地图。GAN反演。GAN反演在人脸编辑等应用中取得了良好的效果 [1，2，87]，图像恢复[54]和数据增强-tation [21，53]. StyleGAN [37然而，存在已知的失真-可编辑性权衡[64]。因此，为特定用例实现精心策划的性能是至关重要的GAN反演方法可以分为三组：基于优化的方法[1，2，13，15，23，35]，基于编码器的模型[5，57，64，71，76]方法，和hy-[3，9，18，58].优化方法通常具有较差的可编辑性，并且需要对每个输入进行穷举因此，在本文中，我们使用基于编码器的方法来实现我们的风格混合目的。基于工作pSp编码器的代表性编码器[57]将输入图像嵌入StyleGAN的扩展潜在空间+中。e4e编码器[64]提高了pSp的可编辑性，同时牺牲了细节保留。为了提高重建质量，嵌入式编码器[76]进一步用特征图预测替换较低的尽管取得了很大进展，但大多数先前的工作仅展示了以单个对象为中心的数据集上的应用程序，例如FFHQ [38]，LSUN [78]。它们在更复杂的场景中仍然失败，因此限制其在实践中的应用。我们的掩蔽噪声编码器可以满足保真度和风格混合能力的要求，使自己非常适合语义分割的数据增强。据我们所知，我们的方法是第一个GAN反演方法，可以有效地应用于复杂场景的语义分割的数据增强。3. 方法我们将在第二节介绍源代码内风格增强（ISSA）。3.1，它依赖于GAN反演，可以提供图像的忠实重建和风格混合为了实现更好的风格-内容解纠缠，我们提出了一个掩蔽噪声编码器，用于在第二节中进行GAN反转。3.2.其详细的训练损失在第二节中描述。三点三3.1. 源内风格增强（ISSA）训练集中数据多样性的缺乏和虚假相关性的存在往往导致领域泛化能力差为了减轻它们，ISSA旨在修改训练样本的样式，同时保留其语义内容。它采用GAN反演来随机化训练集中的风格-内容组合。在这样做的过程中，它使源训练集多样化，并减少虚假的风格-内容相关性。因为图像的内容被保留并且仅样式被改变，所以地面实况标签图可以被重新用于训练，而不需要任何进一步的注释工作。ISSA建立在基于编码器的GAN反演流水线之上，具有快速推理能力。GAN，如Style-GAN [37512WWW--∈ W----图3. 方法概述。我们的编码器构建在pSp编码器[57]之上，如蓝色区域（A）所示。它将输入图像映射到预训练的StyleGAN2生成器的扩展潜在空间W+。以复杂场景为中心，提高重建质量数据集，例如，城市景观，我们的编码器还预测了中间尺度的噪声图，如橙色区域（B）所示。M代表随机噪声掩蔽，用于编码器训练的正则化。没有它，噪声映射在编码图像风格时超过了潜在代码，使得后者不能对重构图像进行任何可感知的改变，从而使得风格混合不可能。中间特征和潜在空间中的语义和风格信息对于基于编码器的GAN反转，编码器被训练为将输入图像反转回预训练的GAN生成器的潜在空间。ISSA需要一个编码器，可以单独编码的风格和内容信息的输入图像。利用这种编码器，它可以将新的训练样本与新的风格-内容组合进行合成，即，它可以从源域内的不同训练样本中获取内容和样式代码，并将它们馈送到预先训练的生成器。由于ISSA仅使用此编码器修改图像样式，因此新的合成训练样本已经具有地面实况标签映射。StyleGAN2可以合成以场景为中心的数据集，如Cityscapes [14]和BDD 100K [77]。然而，现有的GAN反演编码器不能提供期望的保真度以使ISSA能够经由数据增强来改进语义分割的域泛化小尺度物体细节的丢失或重建的不真实会损害模型因此，我们提出了一种新的编码器设计来反转StyleGAN 2，称为屏蔽噪声编码器（见图（3）第三章。3.2. 掩蔽噪声编码器我们在pSp编码器的基础上构建编码器[57]。它采用特征金字塔[50]从给定图像中提取多尺度特征，见图。3-（A）.我们通过识别在哪个潜在空间中嵌入输入图像来改进pSp，以用于具有复杂街道场景的图像的高质量重建。此外，我们提出了一种新的培训计划，使风格内容解开的编码器，从而提高其风格混合能力。延伸的潜在空间StyleGAN2生成器将由MLP网络生成的潜在代码w和随机采样的加性高斯噪声映射作为图像合成的输入。如文[1]所指出的，将真实图像嵌入到原始潜空间中StyleGAN2的数据分布，由于真实数据分布和合成数据分布之间的差距通常的做法是将输入图像映射到扩展的潜在空间中+。将pSp特征金字塔的多尺度特征分别映射到StyleGAN2生成器的相应尺度处的潜码w，k，即，图中的map2latent3-（A）.加性噪波贴图。扩展的潜空间中的潜码+单独不够表达重建具有不同语义布局的图像，例如Cityscapes[14]，如图所示。2-（pSp）。StyleGAN2的潜在代码是一维向量，其在不同空间位置处相同地调制特征向量。因此，他们不能精确地编码语义，TIC布局信息，其在空间上变化。为了解决这个问题，我们的编码器还以中间尺度预测StyleGAN 2的加性噪声图ε图中的map2noise。3-（B）.随机噪声掩蔽。在提供高质量重建的同时，加性噪声图可能太有表现力，以至于它编码了输入图像的几乎所有可感知的细节。这会导致一个穷人的风格内容解开，并可能损害风格混合能力的编码器（见图。4）.为了避免这种不良影响，我们建议513×∼S--S----⊙M--------1公里内容风格W/O掩蔽W/-掩蔽（我们的）图4.通过随机噪声掩蔽启用样式混合效果（最佳彩色视图尽管重建质量很好，但在没有掩蔽的情况下训练的编码器不能改变给定内容图像的风格相比之下，使用掩码训练的编码器可以使用来自给定样式图像的样式来修改它图5.我们的掩蔽噪声编码器的噪声地图可视化。噪声图对图像的语义内容进行编码。通过随机掩蔽所述噪声图来正则化所述编码器的噪声预测。请注意，随机掩蔽作为正则化技术也已成功用于基于重建的自监督学习[24，74]。特别地，我们在空间上将噪声图划分为不重叠的PP贴片，参见M在图3-（B）中。基于一个预定义的比率ρ，随机选择一个子集的补丁，并替换为单位高斯随机补丁变量N（0，1）的大小相同。N（0，1）是训练StyleGAN2时生成器.我们称这个编码器为掩蔽噪声编码器，因为它是用随机掩蔽训练来预测噪声图的。所提出的随机掩蔽降低了噪声图的编码能力，因此鼓励编码器联合利用潜码wk进行重构。图4显示了风格混合效果。编码器从内容中获取噪声图εc和潜在码wk图像和样式图像。然后，它们被馈送到StyleGAN2合成新图像，即，G（wk，εc）.如果编码器没有用随机掩蔽训练，则新图像与原始图像没有任何可感知的差异内容图像这意味着潜码w，k对图像的可忽略的信息进行编码。相比之下，当使用掩码进行训练时，编码器创建一个新的图像，该图像从两个不同的图像中获取内容和风格。这一观察结果证实了掩蔽对于内容和风格解开的使能作用，从而改进了风格混合能力。噪声贴图不再编码图像的所有可感知信息，包括样式和内容。实际上，潜码wk在控制风格方面起着更积极的作用。在图5中，我们进一步可视化了掩蔽噪声编码器的噪声图，并观察到它很好地捕捉了场景的语义内容。3.3. 编码器训练损失在数学上，所提出的具有掩蔽噪声编码器EM的StyleGAN2反演可以公式化为：{w ， ...， w ， ε}=E （ x ） ;（1）x∈ G ∈M（ x）= G（ w1，.. . ，wK，ε）。掩蔽噪声编码器EM将给定图像x映射到潜码w，k和噪声映射ε上。Style-GAN 2生成器G将wk和ε作为输入并生成x。理想情况下，x应该等于x，即，完美的重建当训练掩蔽噪声编码器EM以重构x时，原始噪声图ε在被馈送到预训练的GεM=（1−M噪声）εε+M噪声εε，（2）x∈G（w1，. . . ，wK，εM），（3）其中，M 噪声是随机二进制掩码，表示Hadamard乘积，并且x表示具有掩码噪声ε M的重建图像。编码器的训练损失如下所示：L=Lmse+λ1Llpips+λ 2Ladv+λ 3Lreg，（4）其中λi是加权因子。前三个术语是像素MSE损失，学习感知图像块相似性（LPIPS）[81]损失和对抗性损失[22]，Lmse=<$（1−Mim g）<$（x−x<$）<$2，（ 5）Llpips=<$（1−Mfea t）<$（VGG（x）−VGG（ x<$ ）） <$2 ，（ 6 ） Ladv= −logD （ G （ E（x）））。（七）这是编码器训练的常见重建损失[57，87]。注意，掩蔽去除了给定图像x在某些空间位置处的信息，然后应该放松对这些位置的重建要求通过将噪声掩模M_noise上采样和下采样到基于VGG的特征提取器的图像大小和特征大小来获得M_img和M_feat对抗性损失通过将编码器训练公式化为对抗性游戏来获得，该对抗性游戏具有被训练以区分重建图像和真实图像的ARMD514W2M最后一个正则化项定义为：Lreg=ε1+E（G（w gt，ε））−w gt<$.（八）515W·W××L××W内容Ic图6.通过我们的屏蔽噪声编码器启用的BDD 100K（最佳彩色视图）上的样式混合的视觉示例通过将Is的潜码{wk}和Ic的噪声映射εc相结合，合成图像G（wk，εc）以类似Is的新样式保留Ic的内容。SL1范数有助于引入稀疏噪声预测。它是随机掩蔽的补充，减少了噪声图的容量。第二项通过使用合成图像G（wgt，n）的真实潜码wgt来训练潜码预测EM（）[76]来获得。它引导编码器保持接近生成器的原始潜在空间，加速收敛。4. 实验秒4.1和SEC。4.2分别给出了语义分割的StyleGAN2反演和领域泛化实验。数据集。我们使用以下驾驶场景数据集进行了广泛的实验：Cityscapes（CS）[14]、BDD 100K（BDD）[77]、ACDC [60]和Dark[59]第五十九章：你是谁？城市景观是从不同的城市收集的，BDD 100K是在美国收集的驾驶场景数据集，代表了从Cityscapes的地理位置转移。此外，它还包括更多样化的场景（例如，城市街道、住宅区和高速公路）以及在一天中的不同时间捕获的不同天气状况。ACDC和DarkZürich都在瑞士收集。 CDC包含四种不利的天气条件（雨，雾，雪，夜）和黑暗苏黎世包含夜景。默认设置是使用Cityscapes作为源训练数据，而其他数据集的验证集表示具有不同类型的自然偏移的看不见的目标域，即，仅用于测试。在supp。材料，我们还报告了BDD 100K用作源集的数字，其余数据集被视为看不见的域。在这两种情况下，我们都考虑使用单个源域进行训练。培训详情。我们用两种图像分辨率进行实验-S电话：128256和256512。 StyleGAN2 [37]模型首先被训练为无条件地合成图像，然后在编码器训练期间固定。为了反转预训练的StyleGAN2生成器，掩蔽噪声编码器预测扩展+空间中的潜在代码和加性噪声图。根据StyleGAN 2生成器，+空间由14和16个潜在代码矢量组成，用于输入分辨率128 256和256 512，re-encryption。加性噪声图始终位于中间特征空间，具有输入分辨率的四分之一我们使用与pSp相同的编码器架构，优化器和学习速率调度[57]。我们的编码器是用等式中定义的损失函数（4）λ1= 10，λ2=λ3=0。1 .一、对于我们的随机噪声掩蔽，我们使用补丁大小P为4，掩蔽比ρ=25%。关于噪声图的详细消融研究和编码器的计算复杂度分析可以在S.1中找到。我们使用经过训练的掩蔽噪声编码器来执行ISSA，如第2节所述。第3.1条我们尝试了几种语义分割的架构，即， HRNet [69] ， SegFormer [73] 和 DeepLabv2/v3+ [10，11]。基线分割模型是用它们的默认控制来训练的图和使用标准扩增，即，随机缩放和水平翻转。4.1. 掩蔽噪声编码器重建质量。表1显示，我们的掩蔽噪声编码器在所有三个评估指标中的性能都大大优于两个强StyleGAN 2反演基线pSp [57]和Questure-Style编码器[76MSE、LPIPS[81]和FID [27]的低值表明其重建质量高。掩蔽噪声编码器和隐藏式编码器都采用对抗性损失adv和正则化，使用具有地面真实潜码的合成图像wgt。因此，我们也将它们添加到StyleIs516×W×方法MSE↓LPIPS↓FID↓表1.解决城市景观重建质量问题128 256. MSE、LPIPS [81]和FID [27]分别测量真实图像和重建图像之间的逐像素重建差异、感知差异和分布差异所提出的掩蔽噪声编码器（Ours）一致地优于pSp、pSp+和特征风格编码器。注意，pSp†是由我们引入的，通过使用额外的训练器训练pSp并合并合成图像以更好地初始化。来训练pSp，并将此版本记为pSp†。虽然pSp†在MSE和FID方面优于pSp，但与其他产品相比，它仍然这证实了，反转到扩展的潜在空间+只允许有限的反射质量的城市景观。[76]第七十六话用特征预测代替低级潜在代码的预测，这导致更好的重建，而不会严重损害风格可编辑性。然而，它在城市景观上的重建仍然不令人满意，表现低于我们的掩蔽噪声编码器。如[76]中所述，嵌入式编码器的特征尺寸受到限制。使用更大的特征图来提高重建质量只能作为更多潜在代码预测的替代。因此，它大大降低了潜在嵌入的表现力样式混合数据扩充。图12中示出了跨pSp+、双模式编码器和我们的掩蔽噪声编码器的视觉比较。2的定量结果，并与表1中的定量结果一致。pSp†具有总体较差的重建质量。 TheChallenge风格编码器不能忠实地重建小对象并重新存储精细细节。相比之下，我们的掩蔽噪声编码器提供了高质量的重建，保留了每个类的语义布局和细节。具有高品质的重建是使用编码器进行数据扩充的重要要求不幸的是，pSp和PSP-Style编码器都不能达到令人满意的重建质量。例如，它们都无法捕捉图中的红色交通灯二、使用这些图像，数据扩充会混淆语义分割模型，导致性能下降。消除掩蔽效应。在图4和图6中，我们直观地观察到，与没有掩蔽训练的模型相比，随机掩蔽提供了更强的接下来，我们测试掩蔽的效果提高语义的领域泛化能力，tic segmentation task.特别是，我们采用的编码器，是训练与不掩蔽执行表2.随机噪声掩蔽对提高区间综合能力的影响.我们报告了HRNet [69]在决议256512BDD 100K（BDD）、ACDC和DarkZürich（DarkZ）代表了Cityscapes的不同领域转移。内容风格[28]第28话图7. StyleMix [28]和ISSA的比较。StyleMix的保真度相当低，而ISSA可以保留更多的细节。伊萨在表2中，虽然略微降低了Cityscapes上基线模型的源域性能，但 ISSA 提高了 BDD 100K 、 ACDC 和DarkZuürich上的域泛化性能。由于具有掩蔽噪声编码器的ISSA在使训练集多样化和降低风格-内容相关性方面更有效，因此它在表2中实现了更显著的增益，例如，从Cityscapes到DarkZürich的mIoU提升超过10%。4.2. 领域泛化与数据扩充方法的比较。表 3 报告了 Cityscapes 到ACDC域泛化的mIoU分数，使用两个语义分割模型，即，[69]第73话：ISSA与三种代表性的数据增强方法进行了比较，即，[79]《易经》：“天之道，天之值得注意的是，我们的ISSA是性能最好的方法，在两种模型中以及 ACDC 的所有四种不同场景中持续改进mIoU，即，雨、雾、雪和夜晚。与HRNet 相比，SegFormer对所考虑的域偏移更鲁棒。与其他人相比，CutMix混合了内容而不是风格。它提高了Cityscapes的分布性能，但这种增益并没有扩展到主要的综合。亨德里克斯虽然已经在训练中模仿ACDC，但它仍然可以通过以下方式降低ACDC-雪方法CS ACDC BDD DarkZpSp [57]pSp† [57]0.0780.0490.3480.339130.6214.60基线ISSA（不含掩蔽）70.4769.6841.4844.6345.6646.4515.2517.36[76]第七十六话0.0250.2207.14ISSAw/-掩蔽69.4847.4347.8726.10我们0.0110.1243.94517HRNet [69]SegFormer [73]方法CS雨雾雪夜平均。CS雨雾雪夜平均。基线70.4744.1558.6844.2018.9041.4867.9050.2260.5248.8628.5647.04[79]第七十九话72.6842.4858.6344.5017.0740.6769.2349.5361.5847.4227.7746.57天气[25]69.2550.7860.8238.3422.8243.1967.4154.0264.7449.5728.5049.21[第28话]57.4040.5949.1139.1419.3437.0465.3053.5463.8649.9828.9349.08ISSA（我们的）70.3050.6266.0953.3030.1850.0567.5255.9167.4653.1933.2352.45Oracle70.2965.67 75.22 72.34 50.3965.9068.2463.67 74.10 67.97 48.79表3.比较用于改进域泛化的数据增强，即，从城市景观（火车）到ACDC（看不见的）。在Cityscapes（CS）、ACDC的四个单独场景（雨、雾、雪和夜晚）和整个ACDC（平均）上报告了联合平均交叉口（mIoU）Oracle表示Cityscapes和ACDC上的监督训练，作为其他方法ACDC的上限。注意，它不应该是Cityscapes的上限。下划线表示ACDC结果比基线差。ISSA在使用HRNet和SegFormer的ACDC的所有四种场景中表现最好，并持续改善mIoU[48]第四十六话：我的世界60.1760.2041.81 42.17 20.5643.31 42.24 24.63表5. ISSA和RobustNet的组合[12]。我们采用RobustNet的实验设置，并使用DeepLab v3+ [11]作为基线。我们的ISSA是RobustNet的补充，并进一步提高了其泛化性能。表4.以Cityscapes为源，与特征级增强方法对领域泛化性能的比较在DSU [48]之后，我们使用DeepLab v2 [10]作为公平比较的基线进行实验。超过5. 使用HRNet的mIoU中为8%。关于其他腐败类型的更多结果可以在supp中找到。材料StyleMix [28]也试图混合风格。但是，它不适用于以场景为中心的数据集，如Cityscapes。其合成图像质量差（见图）。7）在许多情况下导致HRNet基线上的每千次下降，例如，从 58 频道转到 ACDC- 雾。 68% 到 49 。 11% 的mIoU。与领域泛化技术的比较我们进一步将ISSA与两种高级特征空间风格混合方法进行比较，旨在提高域生成性能：[86]和DSU [48]。两者都在CNN的某些规范化层提取样式信息。MixStyle [86]通过线性内插特征统计来混合风格，即，不同图像的均值和方差，而DSU [48]将特征统计建模为分布，并从中随机抽取样本。我们采用具有默认超参数的DSU的实验设置，使用具有ResNet101主干的DeepLab v2 [10]分割表4显示，ISSA的性能远远优于MixStyle和DSU。我们还观察到，在应用DSU和MixStyle时，源域（CS）上的性能略有下降。由于它们在特征级操作，因此不能保证语义内容在特征统计的随机扰动之后保持不变因此，统计数据可能会对性能产生负面影响，如[48]所示。请注意，相比之下，ISSA在图像空间上操作。将ISSA与MixStyle和DSU相结合，可以大大提高这些方法的性能。作为模型不可知的，ISSA可以与专门为语义分割的领域概括而设计的其他网络相结合为了展示其复杂性，我们在RobustNet之上添加了ISSA[12]，它提出了一种新的实例白化损失，以选择性地删除特定于域的样式信息。虽然颜色转换已经用于RobustNet的增强，但ISSA可以引入更自然的风格转换，从而有助于进一步消除特定于风格的偏见。表5验证了ISSA的有效性。它为RobustNet带来了额外的收益，特别是在具有挑战性的日夜场景中，即，城市景观到黑暗苏黎世，提高性能从20。11%至23。09%在mlou。5. 结论在本文中，我们提出了一种基于GAN反演的数据增强方法ISSA，用于使用来自单个源域的受限训练数据进行学习域广义语义分割。 ISSA的关键推动因素是掩蔽噪声编码器，它能够隐藏细粒度的内容细节，并允许在不影响语义内容的情况下在图像之间进行风格混合大量的实验结果证明了ISSA在不同数据集和网络结构上进行领域泛化的有效性。方法CSACDC BDD DarkZ基线[10]61.7330.86 34.30 11.62MixStyle [86]59.0136.9736.279.38DSU [48]59.5938.3135.5312.29ISSA（我们的）62.2043.2142.6021.56方法CSACDC BDD DarkZ基线69.0144.2343.2716.03RobustNet [12]69.4747.2546.9420.11+ISSA69.4547.5548.4423.09518引用[1] Rameen Abdal，Yipeng Qin，and Peter Wonka.图像-年龄2风格：如何将图像嵌入到潜空间中？在ICCV，2019年。三、四[2] 拉米恩阿卜杜勒一鹏秦和彼得旺卡我-age2stylegan++：如何编辑嵌入的图像？在CVPR，2020年。二、三[3] Yuval Alaluf，Omer Tov，Ron Mokady，Rinon Gal，and Amit Bermano.Hyperstyle：使用超网络的风格反转-适用于真实图像编辑。在CVPR，2022年。二、三[4] Yogesh Balaji，Swami Sankaranarayanan和Rama Chel-拉帕Metareg：使用元正则化实现领域泛化.NeurIPS，2018。一、二[5] Christian Bartz、Joseph Bethge、Haojin Yang和ChristophMeinel一个模型来重建它们：一种在StyleGAN中使用随机噪声的新方法。在BMVC，2021年。3[6] Yanrui Bin，Xuan Cao，Nya Chen，Yanhao Ge，YingTai，Chengjie Wang ， Jilin Li ， Feiyue Huang ， ChangxinGao，and Nong Sang.用于人体姿态估计的对抗性语义数据增强。在ECCV，2020年。1[7] Simon Burton，Lydia Gauerhof，and ChristianHeinzemann.为高度自动化驾驶中机器学习的安全性提供案例在SAFECOMP，2017年。1[8] Holger Caesar Jasper Uijlings和Vittorio Ferrari 可可-stuff：上下文中的Thing和stuff类。在CVPR，2018年。 1[9]Lucy Chai、Jun-Yan Zhu、Eli Shechtman、Phillip Isola和理查德·张。具有深刻的生成观点。在CVPR，2021年。3[10] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI，2017。六、八、十五[11] 陈良杰，朱宇坤，乔治·帕潘德里欧，弗洛里安Schroff和Hartwig Adam。用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。六、八[12] 放大图片作者：Sungha Choi，Sanghun Jung，HuiwonYun，Joanne T. 金姆，金承龙和周在虎RobustNet：通过实例选择性白化改进城市场景分割中的域泛化。在CVPR，2021年。二、八[13] Edo Collins，Raja Bala，Bob Price，and Sabine Susstrunk.编辑风格：揭示gans的局部语义。在CVPR，2020年。3[14] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。一、四、六[15] Antonia Creswell和Anil Anthony Bharath。反转生成对抗网络的生成器TNNLS，2018年。3[16] Ali Dabouei、Sobhan Soleymani、Fariborz Taherkhani和纳赛尔·M·纳斯拉巴迪。Supermix：监督混合数据扩充。在CVPR，2021年。2[17] Terrance DeVries和Graham W Taylor。改进的常规-使用剪切的卷积神经网络的化。arXiv预印本，2017年。1[18] Tan M Dinh、Anh Tuan Tran、Rang Nguyen和Binh-Son519华Hyperinverter：用超网络改进花柱反演。在CVPR，2022年。二、三[19] 安东尼奥·德诺森特和芭芭拉·卡普托域一般-与特定领域的聚合模块。在2018年的GCPR2[20] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.我-使用卷积神经网络的年龄风格转移在CVPR，2016年。1[21] MayankGolhar ， TaylorLBobrow ， SaowaneeNgamrueng-phong，and Nicholas J Durr. GAN反演用于数据增强以改进结肠镜病变分类。arXiv预印本，2022年。3[22] Ian Goodfellow ， Jean Pouget-Abadie ， Mehdi Mirza ，BingXu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville ， and Yoshua Bengio. 生成性对抗网。NeurIPS，2014。5[23] Jinjin Gu，Yujun Shen，and Bolei Zhou. 图像处理使用多码GAN先验。在CVPR，2020年。3[24] Kaiming He，Xinlei Chen，Saining Xie，Yanghao Li，Piotr Doll a'r，andRossGirshick. Masked自动编码器是可扩展的

下载后可阅读完整内容，剩余1页未读，立即下载