记忆定位：基于元学习的语义分割泛化方法

124 浏览量更新于2023-10-25 收藏 45.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Read(Source Domain)Update(Target Domain)Categorical MemoryInputEncoderDecoderSegmentation Net.Virtual ⋯pected and unseen data, especially for replacing human taskssuch as medical diagnosing or autonomous driving.In order to mitigate severe performance degradation fromthe domain shift [4, 20], unsupervised domain adaptation(UDA) approaches [16,41,56] have been proposed to bridgethe domain gap using unlabelled images of the target domain.These methods have introduced inventive learning strategiesto learn domain invariant features [21,28,65,66,73,76] oralign source and target domain to unified space [22,24,51,69,70]. Though they have shown impressive results againstdomain shift, collecting data from the target domain is of-ten impractical. Moreover, the scalability of the model isrestricted as UDA requires network re-training or fine-tuningfor the new target domain, thereby exposing limitations interms of being able to generalize to ‘any’ unseen domains.To overcome those limitations, domain generalization(DG) methods have been developed to learn robust modelsagainst variants of data distribution across arbitrary unseendomains [7,29,35,37,58,77]. It is much harder than UDA inthat no target domain data is available during training. Some43500记忆定位：学习语义分割的泛化0金晋 1 李智英 2 朴贞仁 1 闵东波 3 * 宋光勋 1 �01 韩国延世大学 2 NAVER AI实验室 3 韩国梨花女子大学0{ kimjin928, newrun, khsohn } @yonsei.ac.kr lee.j@navercorp.com dbmin@ewha.ac.kr0摘要0深度神经网络的崛起为语义分割带来了几个突破。尽管如此，源域上训练的模型在新的具有挑战性的领域中往往无法正常工作，这直接涉及模型的泛化能力。在本文中，我们提出了一种基于元学习框架的新型记忆引导域泛化方法，用于语义分割。特别地，我们的方法将语义类别的概念知识抽象为常数的类别记忆，该记忆在不同域中保持不变。基于元学习的概念，我们反复训练记忆引导网络并模拟虚拟测试，以实现以下目标：1）学习如何记忆与域无关的类别信息；2）提供一个外部固定的记忆作为类别指导，以减少任意未知域的测试数据中表示的模糊性。为此，我们还提出了记忆分歧和特征凝聚损失，以促进学习读取记忆和更新过程，实现基于类别的域泛化。对于语义分割的大量实验表明，我们的方法在各种基准测试上具有优越的泛化能力。101. 引言0语义分割是计算机视觉中视觉理解的经典研究课题，它为每个像素分配一个语义类别标签。近年来，在语义分割方面取得了巨大的进展，主要是通过在大量密集注释的数据集上训练的深度神经网络。尽管取得了成功，但是使用给定数据集（源域）训练的模型在新的领域（目标域）中往往无法很好地泛化，而这与模型的泛化能力直接相关。克服由两个域的不同数据分布引起的域偏移问题对于处理未预期和未见过的数据尤为重要，特别是用于替代医学诊断或自动驾驶等人类任务。为了减轻由域偏移引起的严重性能下降[4,20]，已经提出了无监督域自适应（UDA）方法[16, 41,56]，利用目标域的未标记图像来弥合域差距。这些方法引入了创新的学习策略，以学习域不变特征[21, 28, 65, 66, 73, 76]或将源域和目标域对齐到统一空间[22, 24, 51, 69,70]。尽管它们在对抗域偏移方面取得了令人印象深刻的结果，但是从目标域收集数据通常是不切实际的。此外，由于UDA需要为新的目标域进行网络重新训练或微调，模型的可扩展性受到限制，因此在能够泛化到“任何”未见过的域方面存在局限性。为了克服这些限制，已经开发了域泛化（DG）方法，用于学习针对任意未见域的数据分布变体的鲁棒模型[7, 29, 35, 37, 58,0*通讯作者。本研究得到了韩国国家研究基金会（NRF）的资助，该基金会由韩国政府（MSIP）资助（NRF2021R1A2C2006703），韩国延世大学2021年研究基金（2021-22-0001）以及韩国国家研究基金会的中期研究员计划（NRF-2021R1A2C2011624）支持。1https://github.com/Genie-Kim/PintheMemory0训练0元训练元测试0测试0预测0读取0�0� 2 � 10域偏移0图1.我们的记忆引导元学习算法的示意图，用于域泛化。我们的方法学习如何记忆与域无关的类别知识，以提供对未知目标域中的测试数据的外部指导。43510方法启发性地将领域偏置信息定义为样式（例如纹理、颜色），以明确增强它[27,63]，或通过实例归一化[46]和通道协方差白化[13]来消除样式。尽管他们的努力，现有方法在实际应用中仍然显示出有限的性能。然而，人类视觉系统在面对从未见过的场景时仍然能够稳定适应。人类的概念知识[5]，也称为语义记忆，是从实际经验中抽象出来的可重复使用的形式，并且被泛化以支持各种认知活动，如事件重建[30,31]和对象识别[53]。受此启发，我们认为人类的知识概念可以通过记住每个类别的共享信息来有效地应用于领域泛化。例如，汽车的风格可能因领域而异，但用于配置汽车的基本特征（例如车轮、车门、保险杠、前灯）保持不变。换句话说，关于这些先前知识的指导可以帮助提高机器的泛化能力。在这项工作中，我们提出了一种新颖的记忆引导元学习框架，以捕捉和记忆同一类别对象在不同领域中的共同出现的知识。该框架的目标是将每个类别的共享信息分配到外部存储槽中，并在任意未见领域中重用分类概念以进行鲁棒的语义分割。为此，我们将源域数据分为元训练集和元测试集，以明确模拟推理中的领域转移，允许网络存储和调用与类别模式的领域无关的原型相对应的记忆，如图1所示。也就是说，我们的方法实现了语义分割的类别感知泛化，而不像以前的领域泛化方法[13, 46,63]只关注全局推断领域无关表示。此外，我们引入了记忆分歧损失和特征凝聚损失，分别提升了记忆的区分能力和来自编码器的更多领域不变表示。因此，我们的方法在多个未见真实世界基准测试中实现了优越的性能提升。在不重新训练或微调的情况下，我们的结果甚至与多源UDA方法[22,68-70]相当，其中训练图像来自源域和目标域。总之，我们的主要贡献如下：（i）我们提出了一种新颖的领域泛化方法，用于具有记忆模块的语义分割，以利用类别的领域无关知识。（ii）我们引入了记忆引导元学习算法，通过将模型暴露给不匹配的数据分布来提高记忆引导特征的表示能力。（iii）我们提出了两种互补的损失，包括记忆分歧损失和特征凝聚损失，促进嵌入特征找到合适的类别记忆。（iv）大量实验证明了类别感知泛化在单源或多源设置中的重要性。0将模型暴露给不匹配的数据分布。（iii）我们提出了两种互补的损失，包括记忆分歧损失和特征凝聚损失，促进嵌入特征找到合适的类别记忆。（iv）广泛的实验证明了类别感知泛化在单源或多源设置中的重要性。02. 相关工作0领域自适应和泛化。针对深度网络在源（训练）域和目标（测试）域之间的领域分布差异，已经进行了广泛的研究，以实现更好的泛化。特别是，无监督领域自适应（UDA）方法已经被提出，通过利用无标签的目标图像进行训练来纠正这种领域不匹配[8, 16, 24, 34, 41, 56, 65,67]。最近，多源UDA方法[22,68-70]在更实际的场景中引入了多个合成数据集[19, 48,49]的训练数据，这些方法仍然集中在将整个图像分类为一个类别的任务上，而我们的方法旨在泛化网络，以防止城市场景中语义分割的大幅性能下降。语义分割的领域泛化。与在许多实际应用中的重要性相比，这个任务相对较少受到关注，包括在野外自动驾驶。其中一个有希望的解决方案是领域随机化[27,63]，通过数据增强生成新的训练样本。然而，这需要很高的训练成本，而且仅通过数据增强实际上很难覆盖真实世界的分布。作为替代方案，基于归一化的理论直觉，一些方法尝试通过消除每个领域的样式特定信息来规范化全局特征[13, 46,54]。与那些仅关注全局表示的方法相比，我们提出了一种基于类别记忆引导的框架，用于类别的领域泛化。同时，最近的论文[11,12]指出了来自合成数据的学习特征的多样性在分割任务中防止过拟合到源域的关键作用。受此启发，我们在我们的框架中采用元学习，以在不同的数据分布下虚拟测试存储的记忆，促进仅保存类别的共同知识以进行泛化。元学习。模型无关的元学习[17, 18]是元学习（又称为43520码器0元训练元测试领域分割0� !"#0� !"$ � !"$0� !"%0读取更新0解码器0上.-网络0�$%&'() �*)'&0更新0�′0源域虚拟测试记忆更新 & 读取0* , � , ) � ,-. = � � � -th 迭代0分类器0�*)'&0�0编0Θ #0+ 上.-网络0冻结0编0Θ #0解0Θ !0# �0� !"$0�0�0!� !"#0� !"%0� !"$0!� !"$0编码器0读取0图2. 我们方法的整体训练过程，包括领域分割、元训练和元测试步骤，每个迭代都会进行。0学习如何学习），其中设计了一种用于少样本学习的多阶梯度下降的情节训练方案。情节训练的关键思想是将学习步骤分为元训练和元测试，以模拟训练和评估步骤，这激发了其他研究[2, 15, 33, 35-37,39]开发基于元学习的领域泛化方法。与我们的方法最相关的是，Zhen等人[72]最近提出了一种具有元学习的长期记忆，用于存储少样本学习的语义信息，其中来自更新记忆的梯度不会反馈到网络中。Zhao等人[71]声称子网络之间的异步梯度更新不稳定了元优化，并将记忆简单地视为非参数模块来解决问题。我们的方法与这些工作正交，因为我们的目标是通过元学习来学习网络以推广分类记忆更新和读取过程。记忆网络。记忆网络的最新进展[3, 47,52]通过稳定记录信息来增强神经网络的能力。虽然[60,72]提出了与我们方法类似的具有元学习的长期记忆模块，但他们只改进了读取性能，而没有考虑记忆写入。与以前的工作相比，我们的记忆模块通过元学习在整个训练步骤中存储长期记忆，这有助于在领域转移中稳定地读写记忆。[3]中的记忆近似于需要多次计算才能读取记忆的神经网络，但我们的方法比[3]更高效，只需要一次估计。值得注意的是，记忆网络在几个分割相关任务[1, 25, 26, 32, 45,59-61]中非常有效。例如，Jin等人[32]存储了各种类别的数据集级周围上下文以增强像素级表示。相反，我们将领域无关的信息存储到记忆中，以包含语义类别的共同特征。03. 提出的方法03.1. 问题陈述和概述0给定来自未见过的目标域的图像，领域泛化旨在保护分割性能。0通过一组可观察源域 S训练的分割网络，基本上由编码器和解码器（逐像素分类器）组成。对于领域泛化，一种直观的方法是将所有源域组合成一个训练数据集，并使用标准的分割损失（如交叉熵）进行训练[40]。然而，这种简单的聚合方法过于适应源域，因此在推理时当领域转移发生时会出现巨大的性能下降。为了解决这个问题，我们提出了一个基于内存引导的元学习框架，以防止在测试时未知领域中的语义分割性能下降，如图2所示。通过使用数据增强或领域分割来配置人工领域转移，我们允许网络在元学习框架中更新和读取指定领域上的内存，从而使网络学习如何在存在领域转移的情况下记忆概念知识。在下一节中，我们首先描述内存读取和更新过程（第3.2节），然后介绍带有损失函数的内存引导元学习框架（第3.3节）。03.2. 内存模块0内存模块与分割主干网络结合，将每个类别的公共特征存储到内存矩阵 M ∈ R N × C 中，其中 N 是类别数，C是编码器特征的通道维度。接下来我们详细解释我们的内存模块的初始化、更新和读取过程。初始化。作为预备步骤，通过在ImageNet [50]上预训练的编码器 E提取所有源域中的训练图像的ℓ2-归一化特征图。为了用这些特征图初始化内存矩阵，我们通过使用真实分割地图屏蔽区域来计算每个类别的平均特征向量。由于由类别均值向量组成的初始内存矩阵处于非常嘈杂的状态，我们的方法通过存储更具有辨别性和域不可知性的类别特征来学习更新它。更新。我们采用一个内存更新网络 U，它由一个带有残差连接的 1 × 1 卷积层组成。𝓜…1nN𝜓ℂonv1×1∏ℛ⋯𝑛1𝑁⋯ℳ𝒳𝒵𝜙Rd𝜓𝒴𝒢𝒯FlattenFlatten1/𝐾⋯𝑛1𝑁⋯m1 − mmመ𝒵⋯𝑛1𝑁⋯ℳ𝑛1𝑁⋯෡ℳ⋯𝒳∏⋯𝑛1𝑁⋯ℳ𝜓ℱℱℛ𝒲𝜓𝜃𝑈𝑁𝑊′𝐻′…∏𝒳𝒵𝜙Rd𝜓𝒴𝒢𝒯FlattenFlatten1/𝐾⋯𝑛1𝑁⋯m1 − mመ𝒵⋯𝑛1𝑁⋯ℳ𝑛1𝑁⋯෡ℳ⋯⋯𝑛1𝑁⋯ℳℱ𝜓𝜃𝑁𝑊′𝐻′′43530m0�0输入特征0真实分割0内存0�0更新后的内存0� � �0� One-hot & Resiz0� �0��0�0�′ �′0�0�0�0�0�′0�′0�0上采样网络0�′0�′0�0�0输入特征0内存引导0特征0�0ReLU0�0�0�′ �′0�′0�′0�01×0�0�0�0（a）内存更新0m0�01 n N0�0�onv 1×10�0� � 1 � �0�0m0�0∏ �0�0�0�0内存0�0记忆0�0�0�0输入特征0基于记忆的0特征0�0∏0ReLU0�0�0�′ �′0�0�′0�′0�01×1卷积0�0(b) 记忆读取0图3. 内存更新和读取操作的示意图0如图3(a)所示，具有参数ΘU的记忆更新网络将输入图像X∈R3×H×W的ℓ2-归一化特征图F∈RC×H′×W′转换为Z =U(F)，其中H×W是图像的原始尺寸，H′×W′是通过骨干网络中的池化操作减小的尺寸2。为了更新类别记忆中的第n个项目M[n]，我们按照以下方式通过参考第n个类别的分割掩模对掩膜区域进行平均池化：0ˆZ[n] = (Y[n]Z�)/Kn, (1)0其中Kn是属于第n个类别的像素数量，ˆZ∈RN×C是一个掩膜特征图，Y是一个大小为N×H′W′的单热分割真值。注意，Z被重塑为C×H′W′。然后使用移动平均值使用掩膜特征向量ˆZ[n]的第n个通道来更新记忆项。0ˆM[n] = m ∙ M[n] + (1 − m) ∙ ˆZ[n], (2)0其中ˆM[n]是更新后的记忆，动量m经验性地设置为0.8。这个过程对所有类别重复进行，如下所示：0ˆM = update(M, X; {Θ}E,U), (3)0其中参数集ΘE和ΘU表示为{Θ}E,U。读取。如图3(b)所示，我们使用编码特征图F来读取存储的记忆项，以表示一个记忆引导的特征图R∈RC×H′×W′，该特征图在解码器中使用。为了在每个特征位置上聚合相应的记忆项，我们通过余弦相似性计算一个记忆权重矩阵W∈RN×H′×W′，并使用softmax函数对其进行归一化：02H′, W′的变化取决于背骨网络的输出步幅，如FCN [40]，DeepLabV2[9]，DeepLabV3+ [10]等0softmax函数如下所示：0W[n] = 0�Nn′=1exp(M[n′]F), (4)0其中F和W被排列为C × H′W′和N × H′W′0分别。通过以下方式融合原始特征图F和加权记忆特征M�W，得到记忆引导的特征图R：0R = ReLU(Conv 1 × 1(Π(F, M � W))), (5)0其中Π(∙)表示连接操作。注意，M�W被重新排列为C×H′×W′的大小。我们添加1×1卷积层，将R的通道大小变为C。最后，通过将R传递到解码器中，估计出预测的分割概率图ˆY。从现在开始，我们将解码器中的1×1卷积层表示为具有参数ΘD的D。03.3. 学习泛化更新和读取0与不使用外部先验知识的基于元学习的先前DG方法[2, 35,36]相比，我们的方法利用元学习实现了两个目标。首先，每个类别的域不变的分类知识以外部记忆的形式保存，可以为从未见过的域中的图像提供类别导向的鲁棒分割指导。其次，我们加强网络，使其能够针对类内和跨域变化鲁棒地将每个未见图像像素分类为类别标签。具体而言，我们将可用的源域S随机分割为元训练域Smtr和元测试域Smte，在每个迭代步骤中重复记忆来自Smtr的类别特征，并测试网络是否能够在Smte上正确使用记忆。总体训练过程如图2和Alg.1所示。元训练。给定输入图像Xmtr∈Smtr，编码器通过读取操作计算特征图Fmtr并通过记忆M进行增强。我们使用交叉熵损失[40]，即分割损失Lseg，与来自解码器的估计输出ˆYmtr和地面真值图Ymtr一起计算每像素交叉熵损失。然而，Lseg并不一定保证相同类别的编码器特征在特征嵌入空间中靠近。因此，我们进一步提出了特征凝聚损失Lcoh，以鼓励基于每个记忆项将语义特征局部组装在一起：0L coh = 10j = 1 -Y � mtr [j] log(W mtr [j]), (6)0其中 W mtr计算如下（4）。此外，内存中的类别特征应该彼此之间足够远，以便具有区分性。为了确保这一点，我们提出了一种内存分散损失 Ldiv，它可以增加内存项之间的距离，并最大化决策边界：̸(7)(9){Θ E,U,D,GE,U,D,GM ← M∗t ← t + 1{Θ}∗E,U,D ←{Θ}E,U,D− β∇ΘLread(M′, Xmte ; {Θ}′E,U,D),(11)M∗ = update(M, Xmtr ; copy({Θ}∗E,U)).(12)43540增加内存项之间的距离，同时最大化决策边界：0L div = � N0n = 1 (-I [n] log(G(ˆM[n] �))0+ 2 ∙ � N0n ′ � = n ] � , 0)0N (N - 1)),0其中 I 是大小为 N × N 的单位矩阵，内存分类器 G包括具有参数 Θ G 的 FC 层，并且在 softmax之后具有大小为 N的输出。在（7）中，第一项用于内存分类，第二项类似于余弦嵌入损失[57]，边界设置为0，经验上缩放两倍。虽然分散损失可以改善类间离散度，但特征凝聚损失可以增加编码器特征在不同内存项之间的类内紧凑性。我们要注意的是，Ldiv 是针对新估计的内存 ˆM计算的，而读取过程使用上一次迭代步骤中更新的M。这是因为读取过程旨在通过先前保存的内存很好地引导特征映射，而更新过程则专注于将更好的模式保存到内存中，并通过 L div扩大内存项之间的差距。为了澄清，我们定义了在内存读取操作中计算的分割和特征凝聚损失的 Lread，以及在更新内存项时计算的内存分散损失的 Lupdate：0L update(M, X mtr; {Θ} E,U,G) = λ 2 L div, (8)0其中 λ 1 和 λ 2是超参数。因此，更新后的网络参数如下所示：0{Θ} ′ E,U,D, Θ � G ← {Θ} E,U,D,G - α � Θ Lread(M, X mtr; {Θ} E,D)0- α � Θ L update(M, X mtr; {Θ} E,U,G),0其中 α是元训练步骤的学习率。由于元测试步骤中不使用内存分类器 G，因此 Θ � G 是此训练迭代中 G的最终更新参数。元测试。我们方法中元测试的目标不仅是在新的数据统计上虚拟模拟测试网络，还要表征学习以更新分类内存以在不同领域中良好工作。此外，内存分散损失对于更新网络 U的有效性应该在元测试过程中进行测试。出于这些原因，我们精心设计了元测试过程，使用元更新的网络参数 {Θ} ′ E,U和元训练图像 X mtr 重新更新内存：0M' = update(M, X mtr; copy(Θ' E), Θ' U), (10)0其中 copy(Θ ′ E) 表示 Θ ′ E被冻结。我们使用元训练数据而不是元测试数据再次获取内存，因为我们将在推理中重复使用已学习的内存而不进行更新过程。由于此内存 M ′ 用于分割0算法1：整体训练过程0在 t = 0 时初始化 {Θ} E,U,D,G 和 Mwhil0随机将 S 分割为 S mtr 和 S mte元训练：0从 S mtr 中采样批次 X t mtr = {X b mtr } B b =1 计算 L read（X t mtr，M，{Θ} E,D） ˆ M ←update（M，X t mtr；{Θ} E,U）使用（9）计算 L update（ˆ M，Θ G）从 {Θ}E,U,D,G 更新 {Θ} ′ E,U,D，Θ � G0元测0M ′ ← update（M，X t mtr；copy（Θ ′E），Θ ′ U）从 S mte 中采样批次 X t mte= {X b mte } B b = 1 计算 L read（X tmte，M ′，{Θ} ′ E,D）从 {Θ} ′ E,U,D 更新{Θ} � E,U,D（11） M � ← update（M，X tmtr；copy（{Θ} � E,U））0元测试数据 X mte ，这个新的步骤还允许记忆更新网络的参数 Θ U接收关于更新后的记忆 M ′ 的二阶梯度反馈0在不同的领域上应用。通过冻结编码器的参数 Θ ′ E，我们可以避免由编码器和其他网络之间的异步梯度更新引起的不稳定的元学习。在 M ′的指导下，网络参数通过元测试域 S mte 中的图像 X mte 的读取损失 L read 进行更新，具体如下：0其中 β 是元测试步骤的学习率。注意，二阶梯度是通过对( 9 ) 中获得的 { Θ } ′ 与原始参数 { Θ } 进行微分得到的 (11 )的最后一项生成的。使用更新后的网络参数，我们初始化下一个训练迭代步骤中将使用的记忆 M � ：0元测试步骤中的优化允许 (1)从元训练图像中将领域无关特征写入当前记忆 M 中，如 (12 ) 所示，并且 (2)确保元测试图像的记忆引导特征的泛化能力。04. 实验 4.1. 实验设置0数据集。我们在六个不同的数据集上进行实验，以证明我们方法的泛化能力。• 真实数据集：C ityscapes [ 14 ]包括来自50个不同城市（主要是德国）的3,450个精细注释的图像。我们仅使用精细注释的数据集进行sidewalkwallpolet-signterrainpersoncarbusm-bikemIoU(%)CityscapesBDD100KMapillary43550方法0道路0建筑物0栅栏0交通灯0植被0天空0骑车者0卡车0火车0自行车0基准 † 72.7 36.4 64.9 11.9 2.8 31.0 37.7 20.0 84.9 14.0 71.9 65.3 9.9 84.7 11.6 25.4 0.0 10.6 18.1 35.46 IBN-Net † [ 46 ] 68.3 29.5 69.7 17.41.8 30.7 36.2 20.2 85.4 18.2 81.8 64.7 12.9 82.7 13.0 16.2 0.0 8.2 22.2 35.55 ( 0 . 1 ) RobustNet † [ 13 ] 82.6 40.1 73.4 17.4 1.4 34.2 38.6 18.584.9 16.9 81.9 65.2 11.4 84.7 7.2 23.6 0.0 10.4 23.9 37.69 ( 2 . 2 )0基准 49.1 28.0 69.8 21.1 12.2 21.5 39.3 13.0 81.8 33.7 68.7 66.0 18.2 38.1 20.7 15.6 3.6 16.4 18.4 33.42 MLDG ‡ [ 35 ] 75.8 37.4 78.1 27.68.5 37.4 31.6 18.7 84.0 16.2 70.2 66.3 16.7 74.0 20.4 38.4 0.0 20.4 16.1 38.84 ( 5.4 )0我们的 85.3 45.3 82.5 26.3 19.9 34.9 39.0 24.0 85.8 24.0 82.8 64.7 21.3 85.7 32.0 38.2 6.7 26.0 21.5 44.51 ( 11.1 )0基准 † 44.6 26.1 34.7 1.8 6.9 29.5 39.1 20.5 64.9 10.8 51.6 50.6 10.2 63.9 1.1 4.8 0.0 5.5 10.1 25.09 IBN-Net † [ 46 ] 53.8 25.0 55.4 2.8 14.832.9 39.7 26.3 71.7 16.4 85.9 57.4 17.5 56.9 5.3 6.0 0.0 18.5 25.4 32.18 ( 7.1 ) RobustNet † [ 13 ] 69.5 35.0 60.9 4.1 13.1 36.6 40.5 27.371.6 14.0 83.6 56.0 17.3 61.9 4.4 8.8 0.0 24.3 18.9 34.09 ( 9.0 )0基准 54.5 26.0 44.0 3.4 20.9 30.1 37.4 15.9 65.7 22.7 42.3 50.9 14.7 58.0 17.5 14.1 0.0 25.0 9.4 29.07 MLDG ‡ [ 35 ] 54.0 33.4 61.0 6.4 25.335.5 35.5 19.0 71.5 20.0 75.8 53.7 13.4 46.2 7.3 34.4 0.0 9.5 5.3 31.95 ( 2.9 )0我们的 79.3 39.1 69.0 6.2 32.8 32.1 36.7 26.9 71.3 25.9 86.3 49.4 12.5 75.2 20.6 31.6 0.0 17.9 10.7 38.07 ( 9.0 )0基线 † 62.0 36.3 32.5 9.5 7.7 29.9 40.5 22.5 78.6 40.9 61.0 59.4 6.4 78.3 5.1 5.1 0.1 9.0 21.8 31.94 IBN-Net † [ 46 ] 67.4 38.8 51.3 10.2 7.636.0 40.1 40.8 80.3 39.9 92.1 61.8 14.0 74.4 10.7 9.4 3.5 15.3 25.4 38.09 ( 6.2 ) RobustNet † [ 13 ] 78.0 41.0 56.6 13.1 6.2 39.4 41.336.1 79.5 34.7 90.0 61.0 12.0 76.1 10.7 13.1 0.8 16.9 24.8 38.49 ( 6.6 )0基线 53.4 25.9 44.7 11.1 19.0 28.4 36.2 15.8 71.3 27.1 66.1 58.6 11.7 64.2 20.1 1.1 11.4 23.1 22.3 32.19 MLDG ‡ [ 35 ] 69.4 36.0 58.6 19.416.8 37.6 31.3 28.8 76.7 36.9 81.6 43.4 15.5 59.1 21.4 8.1 1.3 16.8 17.9 35.60 ( 3.7 )0我们的方法 78.0 40.8 71.1 14.6 27.0 34.2 40.7 50.3 77.1 26.2 90.0 63.1 24.0 81.6 30.5 15.5 5.3 18.7 22.7 42.70 ( 10.5 )0表1. 源（G+S）→目标（C，B，M）：其他语义分割SOTADG方法的平均IoU（%）和每类IoU（%）比较。我们将mIoU改进以红色文本显示。网络使用ResNet50的DeepLabV3+，带有†的结果来自[ 13 ]。0训练和验证。B DD100K [ 62]包含了来自美国各地的8K个多样的城市驾驶场景图像。Mapillary [ 44]是一个真实的街景数据集，包括来自世界各地的25K张图像。I DD [ 55]包含了来自印度道路的10,004张图像。IDD中的道路场景与主要在欧洲或美国收集的现有数据集显著不同，其中包0• 合成数据集：G TAV [ 48]包括24,966个由游戏引擎生成的驾驶场景图像。它具有与真实世界数据集兼容的19个对象类别。S ynthia [ 49]是另一个合成数据集，模拟了不同的季节、天气和照明条件，从多个视点进行了注释。Synthia数据集包含了9,400张逼真的合成图像，分为16个与GTAV兼容的类别。0指标。按照标准设置[ 13 , 22]，我们报告了平均交并比（mIoU），该指标对所有类别进行平均，以衡量分割性能。实现细节。我们采用了DeepLabV3+[ 10 ]和DeepLabV2[ 9 ]与ResNet50和ResNet101[23]作为语义分割架构，其中DeepLabV3+的输出步幅为16。所有骨干网络都使用ImageNet[ 50]预训练模型进行初始化。我们将最大迭代次数设置为120K，但在30K次迭代时提前停止，除了训练70K次的ResNet-101模型。超参数λ1和λ2经验性地设置为0.02和0.2。有关优化和训练的更多详细信息请参见补充材料。在所有实验中，我们将使用聚合源域训练的网络作为基线。为了进行实验，我们重新实现了几个0方法 Cityscapes BDD100K Mapillary 平均0基线 52.51 47.47 54.70 51.56 IBN-Net ‡ [ 46 ] 54.39 48.91 56.0653.12 RobustNet ‡ [ 13 ] 54.70 49.00 56.90 53.53 MLDG ‡ [ 35 ]54.76 48.52 55.94 53.07 TSMLDG ‡ [ 64 ] 53.02 46.43 52.7650.700我们的方法 56.57 50.18 58.31 55.020表2.源（G+S+I）→目标（C，B，M）：其他最先进的DG方法的平均IoU（%）比较，其中所有网络都是使用两个合成（GTAV，Synthia）和一个真实（IDD）数据集进行训练。所有方法都采用具有ResNet50的DeepLabV3+。0DG方法，并用†标记了它们。04.2. 结果0与最先进方法的比较。表1总结了在最流行的真实世界数据集基准上的测试结果，其中模型是在多源域（GTAV和Synthia）上进行训练的。我们与重新实现的不带记忆模块的基准元学习方法（MLDG）和基于归一化的方法（IBN-Net和RobustNet）进行比较，这些结果是根据论文[ 13]中报告的结果得出的。尽管现有的基于归一化的方法略优于基线性能，但我们的方法在所有真实世界数据集上始终大幅优于最先进技术（SOTA）。这表明通过消除域的视觉风格来实现泛化方法使得很难充分利用多源域信息。特别是，我们的方法在Cityscapes上的改进幅度为11.1%，在BDD100K上为9.0%，在Mapillary上为10.5%。此外，与像我们一样使用元学习框架的MLDG [ 35]相比，我们的方法证明了分类记忆提高了性能的有效性。FCN-8s✓42.0836.8040.8339.90✓✓44.5138.0742.7041.76ˆM--40.6431.0631.5934.43M′✗✗41.6536.5638.8039.00M′✓✗44.5138.0742.7041.76′✓✓41.6732.0433.9035.87Agg.✗✗33.4229.0731.9031.46Agg.✓✗38.2831.4632.2534.00Episodic✗✓38.8431.9535.6035.46Episodic✓✗41.5038.0040.2239.91Episodic✓✓44.5138.0742.7041.76ingas43560(a) 图像0(b) 真实标签0(c) 基线0(d) IBN-Net [46]0(e) RobustNet [13]0(f) MLDG [35]0(g) 我们的0图4. 源（G+S）→目标（C）: 在Cityscapes数据集上的定性比较。所有方法都采用DeepLabV3+与ResNet50。0方法 Cityscapes 方法 Cityscapes0基线 † 29.0 DRPC [63] 37.4 IBN-Net † [46] 33.90基线 21.4 RobustNet † [13] 36.60CNSN [54] 36.5 基线 31.60基线 23.3 MLDG [35] 36.7 ASG [12] 31.9 我们的 41.00表3. 源（G）→目标（C）:使用ResNet50的其他SOTA方法的平均IoU(%)比较。带†的结果来自[13]。其他数据集的结果在补充材料中报告。0方法与目标 Cityscapes BDD100K0基线 � 40.0 37.4 CyCADA [24] † � 39.3 37.2 MDAN [68]† � 36.0 29.4 MADAN [70] † � 45.4 40.4 MADAN+ [69] �48.5 42.7 CLSS [22] � 54.0 N/A0我们的 � 49.4 45.50表4. 源（G+S）→目标（C, B）:其他多源UDA方法的平均IoU(%)比较。分割模型都是DeepLabV2与ResNet101。带†的结果来自[69]。0泛化能力。图4展示了Cityscapes数据集上的定性结果，更多结果在补充材料中提供。为了进一步验证在使用更多源数据时性能的变化，我们在源域中添加了一个真实数据集（IDD），遵循[64]。由于IDD数据集与现有的真实数据集存在显著差异，该场景假设可用的真实数据集与目标域的文化非常不同。从表2中可以看出，在这种设置下，我们的方法也优于所有先前的方法。表3显示了在Cityscapes数据集上使用不同分割模型评估的结果，涉及单源域泛化设置。与[13]一样，在这种设置中，我们通过光度变换（如高斯模糊或颜色抖动）生成虚拟域偏移。尽管网络仅在GTAV数据集上进行训练，但我们的方法在泛化性能上取得了最佳效果，并获得了相对较高的性能提升。因此，这指出了类别感知泛化，如我们的方法，在这个领域的进一步研究中应该得到重视。与UDA的比较。我们还将我们的结果与最先进的UDA方法[22，68-70]进行了比较，这些方法在多个合成数据集上进行了训练

下载后可阅读完整内容，剩余1页未读，立即下载