多目标无监督域自适应的语义分割模型

48 浏览量更新于2023-10-08 收藏 2.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9072语义分割Antoine Saporta安托万·萨波塔1，2武端雄2Matthieu Cord马修·科德1，2Patrick Pe' rez21索邦大学2Valeo.ai网站{antoine.saporta，tuan-hung.vu，matthieu.cord，patrick.perez} @valeo.com图1：用于语义分割的多目标无监督域自适应（UDA）。在标准的单目标设置中，UDA方法在它们所训练的目标域中产生良好的分割，但对其他看不见的域的概括性很差。多目标UDA旨在在模型训练的多个领域中表现出色。（顶部）训练过程中可用的（底部）测试时分割是在来自目标域的新图像上进行的，而不知道它们来自哪个域摘要在这项工作中，我们解决了在存在多个目标域的情况下用于语义分割的无监督域自适应（UDA）的任务：我们的目标是训练一个单一的模型，可以在测试时处理所有这些领域。这种多目标适应对于现实世界自主系统必须处理的各种场景是至关重要的。这是一个具有挑战性的设置，因为人们不仅面临标记的源集合和未标记的目标集合之间的域间隙，而且还面临不同目标域之间存在于后者为此，我们引入两个对抗框架：（i）多鉴别器，其明确地将每个目标域与其对应物对齐，以及（ii）多目标知识转移，其由于多教师/单学生蒸馏机制而学习目标不可知模型。评估是在四个新提出的多目标基准上进行的，用于语义分割中的UDA。在所有测试的sce- narios中，我们的方法始终优于基线，为新任务设定了竞争标准。1. 介绍领域自适应的最新进展有助于减轻训练全监督模型所需的标记工作，这对语义分割等任务特别有帮助。大多数先前的工作解决了单目标设置，其目标是从源适应于感兴趣的特定目标域，例如。一个特定的城市区域。然而，在实践中，感知系统经常在包括不同城市、天气或照明条件的各种场景中进行测试。为了处理多个测试分布，可以通过以下方式直接采用单目标技术：（i）针对所有目标域训练多个模型并在测试时自适应地激活一个模型，或者（ii）合并所有目标数据并将它们视为从单个目标分布中提取的。虽然前一种策略会给嵌入式平台带来存储问题，并且难以扩展，但后一种策略忽略了不同目标域之间的分布变化在这项工作中，我们解决了多目标无监督的主适应（UDA）的语义分割。我们的目标是学习一个单一的分割器，实现同样良好的性能，在所有目标领域，同时关闭不一致。9073已标记和未标记数据之间的分配差距（源与目标）和目标域之间（目标vs.目标）。我们的工作与最近的努力[3，7，15]一致，旨在为现实生活中的应用程序提供更实用的域自适应设置不同于大多数现有的多目标作品，具体考虑图像分类，我们在这里研究更复杂的任务，语义分割。我们提出了两个对抗性的UDA框架，其架构和学习方案是为多目标设置设计的。多鉴别器模型通过对抗性学习显式地减少源-目标和目标-目标域差距-每个目标域与其对应物对齐。我们的第二个框架，称为多目标知识转移（MTKT）放宽了多目标优化的复杂性，采用多教师/单学生的机制。每个目标特定的教师通过对抗训练处理特定的源-目标域差距;目标不可知的学生是从所有教师那里学到的，以实现目标与目标的一致性，并在所有目标领域表现得同样好。我们的贡献可归纳如下：• 我们提出了两个多目标UDA框架的语义分割。• 我们定义了四个不同的评估基准的任务，利用现有的语义分割数据集，即。GTA5 [20]、Cityscapes[4]、Mapillary Vis- tas [17]和India Driving Dataset[24]。• 我们对这两个模型进行了广泛的实验，对国家的最先进的基线上提出的基准。我们的方法报告了在所处理的基线上的一致改进。2. 相关作品用于语义分割的无监督域自适应。UDA是一个最近受到广泛关注的设置[10，16，22，23，25，27]。目标是通过利用来自标记的源域的信息来在未标记的目标域上训练模型，这通常通过以某种方式对齐源域和目标域之间的分布来执行一些策略包括用正则化来约束训练，例如最大均值差异（MMD）[16]或相关对齐[22]。最近的工作，特别是在UDA中用于语义分割，在特征级[11]或输出级[23，25]采用对抗训练策略。一些作品还包括一种形式的风格转换或图像翻译[10，27，28]，以获得目标外观的源图像，同时保持源注释。此外，一些作品诉诸于虽然这些方法是真正有效的适应从从一个域到另一个域，它们的UDA设置是有限的。在真实世界场景中，数据可能来自各种域：例如，在城市场景中，这种域变化可能源于不同的传感器、天气条件或城市。虽然基础分布在域之间是相似的，但是传统的UDA模型对目标域的变化不稳健。此外，由于它们被专门设计用于单源到单靶比对，因此它们不能跨更多源或靶域利用信息。最近的一些工作扩展了语义分割中的标准UDA设置到更多的源或目标域。MADAN [30]解决了用于语义分割的多源域适应的任务，其中使用多个标记的源域训练模型并在单个目标域上进行适应。作者首先将源图像变换成与目标域类似的自适应域，然后用子域聚合鉴别器将这些新域更紧密地结合在一起。最后，他们通过在适应域和目标域之间执行adversar- ial特征级对齐来训练分割网络。更接近我们的设置，OCDA [15]用开放的复合靶域解决UDA：在该任务中，目标域可以被认为是多个同质目标域的组合，例如，类似的天气条件，诸如“晴天”、“多雾”等。 - 其中在训练期间do_main标签是未知的。此外，在推断期间可能遇到先前未见过的目标域。与OCDA不同，我们的多目标设置假设在训练时原始域是已知的，并且在测试时没有新的域（除了在额外的泛化实验中）。用于分类的多目标域自适应。多目标域自适应在文献中仍然是一个相当新的设置，主要处理分类任务。在这项任务的工作中出现了两种主要的情况在第一个中，即使目标被认为是由具有间隙和未对准的多个域组成，域标签在训练和测试期间是未知的[19]提出了一种通过执行源-目标域解缠来提取域不变特征的体系结构此外，它还通过添加类解纠缠损失来移除类不相关的特征。在类似的设置中，[3]提出了一种对抗性元自适应网络，该网络将源与混合目标特征对齐，并使用无监督元学习器将目标输入聚类为k个聚类，这些聚类是对抗性对齐的。在第二种情况下，目标身份被标记在训练样本上，但在推断期间保持未知。为了处理它，[29]从不同的目标域学习公共参数字典，并通过稀疏表示提取目标模型参数;[7]通过分别捕获特定于域的私有特征和特征表示，9074×Y ∈ X∈XX≥X∈∈ X × YL（一）L.Σ。ΣL.ΣXxs。`ΣXt通过学习域分类器和类标签预测器，并训练共享解码器以从那些解纠缠的表示重构输入样本。在本工作中，我们采用第二个多目标假设：训练样本的目标身份是已知的，但测试样本的目标身份是未知的。事实上，假设这些信息在测试时是可用的，这与一些实际场景是不兼容的。更重要的是，它会阻碍以前看不见的领域的推广，这是野外自治系统的一个据我们所知，在这种多目标UDA场景中解决语义分割仅在最近发表的并行工作中提出[12]。这项工作建议为每个域训练一个完全成熟的分割网络，并通过域之间的图像风格化来确保这些多个网络之间的一致性。3. 多目标对抗适应3.1. 问题公式化标准无监督域自适应。在大多数UDA作品中所处理的标准设置是单源和单目标。对于自适应，在具有相关联的地面实况集Ys的源域集Xs和未标记的目标域集Xt上训练模型。对于C类中的语义分割，集合s和t包含训练图像xRH×W×3，而注释集S[0，1]H×W×C包含每个xS是指示所有像素的地面实况语义类的Hff个独热向量的映射y。分割网络F以图像x作为输入，并预测软分割映射[Px（k）]k∈[H]×[W]×[C]。1最终分割图F（x）由每个像素处的最大得分类arg maxc∈[C]Px（i，j，c）给出。 UDA方法旨在对齐源域和目标域训练数据的分布，使得在测试时间，分段器F产生针对目标域输入的令人满意的预测，而无需在来自该域的标记图像上进行训练。多目标UDA。在这项工作中，我们考虑一个不同的UDA的情况下，T2不同的目标域必须联合处理。这些目标域由未标记的训练集表示t，nRH×W×3，n[T]。类似于标准设置，我们假设带注释的训练示例（x，y）源自单个源域，例如特定的合成环境主要目标是训练在所有目标域测试集上实现同样好的结果的单个分割器F虽然对于所有未标记的训练示例来说，源的目标域是已知的，但我们假设[7，29]中的分类方法在测试时无法访问此信息分段器特征分机分类器'源与目标鉴别器目标源图2：对抗性UDA的训练。训练下的分割模型摄取源域（绿色）和目标域（蓝色）数据。前者导致分割损失，后者导致对抗损失，两者都导致鉴别器三个损耗（虚线框）在等式（1）中定义。（1）和（2）中所述的方法。3.2. 重新审视对抗性UDA方法最近的最先进的单目标UDA方法是基于对抗训练来对齐源-目标分布。在这样的方法中，除了具有参数Θ的分割器F之外，具有参数Φ的附加网络D（被称为鉴别器）被训练以播放分割器的“对手”：学习D以从由F提取的合适表示（诸如中间或接近输出特征）预测输入的域。同时，F试图产生能够欺骗D的结果，使其做出错误的判断。在语义分割中，在接近预测的表示上操作的对抗方法最成功。AdaptSegnet [23]提出在软分割预测Px之上进行对抗学习。AdvEnt [25]通过使用“加权自信息”映射I x，2来改进AdaptSegnet这种单目标对抗框架作为构建块，在其之上我们开发我们的多目标策略。在下文中，我们将所使用的表示表示为Qx，其代表[23]中的Px或[25]中的Ix在实践中，D是具有参数Φ的全卷积二元分类器。它将分割器的输出Qx分类为了训练判别器，我们最小化分类损失：LD （ φ ） =LBCE （ D （ Qx ）， 1 ） Xs+LBCE （ D（Qx），0）Xt，哪里BCE代表二进制交叉熵损失和。表示在下标中的集合上求平均。同时，分割器F在其参数θ上被训练，以不仅最小化源域数据上的监督分割损失F，seg，而且通过最小化对抗性损失F，adv来欺骗识别器D。最终目标如下：LF（θ）=LCE（x，y）+λadvLBCE（D（Qx），1）、（二）LF，seg（θ）LF，adv（θ）x1我们使用符号[A]={1，. . . ，A}，其中A ∈ N*.2定义为Ix=−PxlogPx，具有逐项操作。9075源LSΣ。L（D（QBCEn不nnAdvAdvD1：T不Dnn/X源特征分机分类器'源与目标鉴别器目标'靶vs.其他目标鉴别器图3：多目标UDA的多鉴别器方法。对于Multi-Dis.，针对分别区分源VS的两种类型的对手来训练分段器。一个目标和一个目标vs.所有其他目标。四种类型的对抗性损失定义在方程中（ 3 ）、（4 ）、（6 ）和（7）。符号和颜色遵循图2中的符号和颜色。其中权重λadv平衡两项;CE是共同的交叉熵损失。在训练期间，交替地最小化两个损失L_D和L_F。图2提供了培训流图4 ：多目标UDA的多目标知识转移方法。利用MTKT，首先对抗性地训练一组靶特异性分段器。然后，它们的知识被联合地提取到目标不可知分割器，其损失（10）不被反向传播到目标特定分支中（如虚线箭头所示）。符号和颜色遵循图2中的符号和颜色。具有对抗性目标的鉴别器：最近的对抗性UDA方法。关于更多细节，我们请读者参考[23，25]。以后方便LF，adv1（θ）=不s-tnn∈[T]x），1）ΣXt，n.（四）在我们提出的策略的呈现中，分割器F被解耦成特征提取器Ffeat，随后是逐像素分类器Fcls。讨论像[23，25]这样的方法只处理一个源域和一个目标域。在我们的多目标域设置中，一个简单的策略是合并所有tar-目标-目标对抗对齐。在上述源-目标对准中，源充当每个目标的锚以“拉”得更然而，由于这种对齐是不完美的，因此在靶标之间仍然存在间隙，我们建议通过额外的靶标-靶标对齐来进一步减少间隙。为此，我们为每个目标域n引入具有参数φt的鉴别器Dt，其对Xt，n进行将数据集整合到一个数据集中，然后利用现有n（1类）与n（类0），单源单目标UDA框架。这样的一个战略-.所有其他目标域Xt，k，k n然而EGY忽略了目标域之间的固有差异正如我们在实验中所展示的，这种多-导致T1-vs.-所有的歧视者。通过最小化损失来训练目标-目标判别器DtLDt.φtΣ=. LBC E（Dt（Qx），1）n+.LBC E（Dt（Qx），0）ΣS.目标基线的有效性低于建议的策略nn其显式地处理目标域间移位。在什么nXt，nnt，kK=n（五）下面，我们描述这两个新的框架。3.3. 多目标框架所有目标-目标鉴别的集体目标tors现在读：Lt.φtΣ= 1ΣLt.φtΣ。（六）多鉴别器。我们的第一个多目标策略D1：TTDnnn∈[T]UDA，称为多鉴别器简而言之）依赖于两种类型的鉴别器来对准每个目标分段器F试图通过最小化对抗损失来欺骗所有目标-目标鉴别器：域与源（源-目标鉴别器）和与其它目标（目标-目标鉴别器）。图3LF，adv1（θ）=不Σ。LBCE（Dt（Qx），1）ΣSXt，k.（七）n∈[T]k n说明了第一种方法。源-目标对抗对齐。我们为每个目标域引入了一个带有参数φs-t的判别器Ds-t总而言之，分割器F通过在θ上最小化目标来训练：s s t tn nLF=LF，seg+λadvLF， adv+λ advLF， adv，（8）n.学习从源集合Xs中区分Xt，n。通过表示LDs-t，该分布的最小化目标为具有权重λs和λt以平衡对抗项。criminator，定义为（1）域n，我们训练这些T具有平均目标的源-目标鉴别器：L s-t φs-tΣ= 1ΣL s-t。φs-tΣ。目标特定分类器'源与目标鉴别器源特征分机目标目标不可知分类器9076（三）n∈[T]多目标知识转移。预测级对抗方法[23，25]的主要驱动力是决策边界的调整。对准特征空间随后遵循调整后的边界。因此，我们强调分类器设计的重要性同时，分割器F被训练为欺骗这些T多目标UDA场景。在我们的多鉴别器9077n∈nnAGNΣnAGNAGNΣ。AGN×在这种方法中，一个分类器同时处理多个域移位，无论是源-目标还是目标-目标。主要的挑战是对抗训练的不稳定性，如果几个对抗损失被联合最小化，这种不稳定性就会被放大。当大多数目标预测非常嘈杂时，这种问题在早期训练阶段尤其成问题。为了解决这一挑战，我们提出了多目标知识转移（MTKT）框架，具有新颖的网络设计和学习方案，不依赖于在同一分类器模块上联合最小化多个对抗损失，希望减少训练的不稳定性。图4显示了MTKT架构。网络的分类部分首先基于相同的特征提取器Ffeat用T个目标特定的工具分类器Fcls，n[T]重新设计，每个工具分类器处理一个特定的源-目标域移位。这样的架构允许针对每个特定的源-目标对进行单独的输出空间对抗对准，从而减轻不稳定性问题。对于每个目标特定的分类器Fcls，我们引入域鉴别器Dt以分类源vs。目标;靶子训练目标与单目标模型中使用的训练目标类似1和2）。然后，我们引入了一个目标不可知的分类分支Fcls，它融合了从T个目标特定分类器转移的所有知识。该目标不可知分类器是该方法的最终产品，即当领域知识不可用时，在测试时使用的一个。通过最小化教师和学生对目标领域的预测之间的Kullback-Leibler分歧[ 9 ]，将来自T具体来说，对于给定的样本x∈ Xt，n，我们计算KL损失目标明确的教师，从而帮助跨目标的对齐。虽然我们在输出空间对齐上构建了我们的框架[25，23]，但请注意，它们可以适用于其他对抗性特征对齐方法[11]。此外，伪标记等正交方法也可以包含在我们的框架中，我们展示了一些实验在第4.3节中添加了这样的内容。4. 实验4.1. 实验细节数据集。我们在四个城市驾驶数据集上构建实验，一个是合成的，另外三个是在不同地理位置记录的：• GTA5 [20]是从同名视频游戏生成的24，966个标记合成图像的数据集• Cityscapes [4]包含来自德国各地城市的标记城市场景，分别分为2，975和500个样本的训练和验证集• IDD [24]是印度城市数据集，具有6，993个训练和981个验证标记场景;• Mapillary Vistas [17]是在全球多个城市收集的数据集，由18，000个训练和2，000个验证标记的场景组成。虽然四个数据集都包含城市场景，但它们具有不同的标注策略和语义粒度。我们遵循[13，26]中使用的协议，并使用所有四个数据集共有的7个超类标准化标签集：平面、建筑、物体、自然、天空、人和车辆。给出了从原始类到这些超类的映射LKL，n（x）=k∈[H]×[W]×[C]Pn，x（k）logPn，x（k），（9）Px（k）在补充材料中。当Cityscapes、IDD或Mapillary被用作目标域时，只有来自它们的未标记图像被用于其中Pn，x和Px是软分割预测com。分别从靶标特异性Fcl和靶标不可知的Fcl中提取。目标不可知分类器Fcls在分割器的参数（包括特征提取器的参数）上的最小化目标然后读取：培训，根据UDA问题的定义。实施详情。我们的实验是用PyTorch进行的[18]。对抗框架基于AdvEnt发布的代码。3我们采用DeepLab-V2[2]作为语义分割模型，基于ResNet-CLSAGN1（θ）=不LKL，nn∈[T]（x）Σ Xt，n.（十）101 [8] backbone使用ImageNet [5]预训练的权重初始化。分割器采用随机梯度法进行训练最小化KL损失有助于Fcls调整其决策下降[1]，学习率为2。5× 10- 4，动量0。9在所有T目标域中朝向良好行为的边界。由于KL损失通过特征提取器反向传播，因此这种调整导致目标特征空间中的隐式对齐，这总体上减轻了T域之间的讨论与Multi-Dis不同，MTKT中的多教师/单学生机制避免了未标记部分之间的直接对齐。鼓励目标不可知分类器调整其决策边界以支持所有重量衰减10−4。我们使用Adam优化器[6]以10 - 4的学习率训练鉴别器。所有实验均在640 - 320分辨率下进行。对于MTKT，在训练目标不可知分支之前，我们将目标特定分支“预热”20，000次迭代。预热步骤避免了在早期阶段中对噪声目标预测的提取，这有助于稳定目标不可知训练。FL90783https://github.com/valeoai/ADVENT9079GTA5城市景观+国际长途。组织如Tab。1.一、 ⭢GTA5Cityscapes+ Mapillary+ IDD平坦构造对象性质天空人类车辆平坦构造对象性质天空人类车辆⭢⭢−⭢⭢⭢GTA5城市景观+Mapillary方法目标火车⭢MioumIoU平均单目标基线[25]城市景观MapillaryC-93.580.526.078.578.555.1 七十六点四86.869.030.271.291.535.3 五十九点五69.8（*）63.4 ↓ 6. 266.6城市景观Mapillary-C89.379.319.576.984.647.7 63.089.572.631.075.394.150.7 七十三点八65.8 ↓ 4. 069.6（*）67.7多目标基线[25]城市景观MapillaryCC93.180.524.077.981.052.5 75.090.071.331.173.092.646.6 七十六点六69.1 ↓ 0. 768.7 ↓ 0. 968.9Multi-Dis。城市景观MapillaryCC94.580.822.279.282.147.0 79.089.471.229.576.293.650.4 78.369.3 ↓ 0. 569.8 ↑ 0. 269.5MTKT城市景观MapillaryCC95.081.623.680.183.653.7 七十九点八90.673.331.075.394.552.2 七十九点八71.1 ↑ 1. 370.8 ↑ 1. 270.9表1：语义表2上的分割性能：语义分割性能GTA5Cityscapes + Mapillary 每类IoU（%），每域平均IoUmIoU增益（绿色）或损耗（红色）相对于对应的每个目标基线（标记为“*”）;“train”：用于训练的未标记目标数据的指示。4.2. 主要结果我们考虑四种设置，改变域移位的类型为了测量每个目标分割性能，我们使用标准的平均交集（mIoU）度量。对于多目标性能，我们报告在目标域上平均的mIoU;使用平均值有助于减轻由具有显著不同大小的目标评估集引起的潜在偏差。GTA5城市景观+Mapillary。表1报告了Cityscapes 和 Mapillary 两个目标验证集上的站点结果;GTA5是此设置中的源域为了比较，我们考虑单目标AdvEnt模型，即在Cityscapes或Mapillary未标记图像上训练。我们还具有多目标AdvEnt模型，在表1中表示为对于所有模型，包括单目标模型，我们报告每个目标和平均mIoU。标记有“（*）”的两行单目标基线实现比在两个域上训练的那些更差的平均mIoU我们提出的方法优于具有+0的mIoU增益的多目标基线。6%用于多鉴别器和+2。MTKT为0%。仔细观察每个目标的结果，如果直接将单目标模型转移到新的域，我们观察到不利的性能。实际上，在地图上测试仅Cityscapes模型导致下降6。与参考性能相比，mIoU为2%，并且可以看到类似的急剧下降方法目标火车⭢MioumIoU平均单目标基线[25]城市景观MapillaryIDDC--93.580.526.078.578.555.1七十六点四86.869.030.271.291.535.3五十九点五91.352.313.376.188.746.7七十四点八69.8（*）63.3 ↓ 6. 363.3 ↓ 1. 865.5城市景观马皮拉里IDD-C-89.379.319.576.984.647.763.089.572.631.075.394.150.7七十三点八91.754.313.077.392.347.476.865.8 ↓ 4. 069.6（*）64.7 ↓ 0. 466.7城市景观马皮拉里IDD--C78.679.224.877.683.648.7四十四点八88.571.232.472.892.851.3七十三点七91.253.116.078.290.747.9七十八点九62.5 ↓ 7. 369.0 ↓ 0. 665.1（*）65.5多目标基线[25]城市景观马皮拉里IDDCCC93.680.626.478.181.551.9七十六点四89.272.432.473.092.741.6七十四点九92.054.615.777.290.550.878.669.8−68.0 ↓ 1. 665.6 ↑ 0. 567.8Multi-Dis。城市景观MapillaryIDDCCC94.680.020.679.384.144.6七十八点二89.072.529.375.594.750.3七十八点九91.654.213.178.493.149.680.368.8 ↓ 1. 070.0 ↑ 0. 465.8 ↑ 0. 768.2MTKT城市景观马皮拉里IDDCCC94.680.723.879.084.551.0七十九点二90.573.732.575.594.351.2八十二91.755.614.578.092.649.879.470.4 ↑ 0. 671.1 ↑ 1. 565.9 ↑ 0. 869.1表3：GTA5Cityscapes + Mapillary +IDD（T=3）的结果。组织如Tab。1.一、每个目标基线的显著裕度，即+1。3%的城市景观和+1。2%的马皮里。这样的结果突出了所提出的策略的优点，特别是MTKT。请注意，在MTKT的目标不可知分支上添加对抗训练会阻碍对齐效果，使性能降低0。9%mIoU平均值GTA5城市景观+国际长途。我们用另一个syn-2-real设置进行实验，其中两个目标数据集具有明显不同的景观，即城市风景中的欧洲城市和IDD中的印度城市。结果报告于表2中。在这里，多目标模型也优于单目标模型。在此设置中，多显示器的性能。与多靶点基线相当。我们推测，多鉴别器框架中的复杂且不稳定的优化利用缓解这种优化问题的专用架构和学习方案，MTKT模型在每个目标和平均mIoU方面实现了最佳我们在图5中可视化了一些定性结果。城市风景上的Mapillary专用模型。特别是我们GTA5城市景观+Mapillary + IDD。我们考虑一个注意使用这些单目标模型的安全关键类（如人或车辆）的重要退化。多目标模型实现了与每个目标基线相当的mIoU。MTKT模型改进了涉及三个靶域- Cityscapes、Mapillary和IDD -的更具挑战性的设置对于更多的目标域，同样的结论成立。在平均mIoU方面，多鉴别器GTA5城市景观+国际长途电话方法目标训练城市景观C⭢Miou单目标IDD基线[25]-城市景观-国际长途直拨电话C93.580.526.078.578.555.176.469.8（*）91.352.313.376.188.746.774.863.3↓ 1. 8mIoU平均66.578.679.224.877.683.648.744.862.5↓ 7. 391.253.116.078.290.747.978.965.1（*）63.8多目标城市景观C基线[25]国际长途直拨电话C城市景观C93.980.226.279.080.552.578.070.0↑ 0. 291.854.514.476.890.347.578.364.8↓ 0. 367.4Multi-Dis。国际长途直拨电话C城市景观C国际长途直拨电94.380.720.979.382.648.576.268.9↓ 0. 992.355.012.277.792.451.080.265.7↑ 0. 667.3MTKT94.582.023.780.184.051.077.670.4↑0. 5六十八点二91.456.613.277.391.451.479.965.9↑ 0. 8平坦构造对象性质天空人类车辆9080⭢⭢⭢⭢⭢⭢城市景观Mapillary+IDDGTA5城市景观+国际长途电话方法M-T基地M-Tbse.+ PLMTKTMTKT+ PL（1）MTKT+ 中文（简体）MTKT+ 中文（简体）mIoU平均67.468.968.269.869.769.9表4：城市-2城市多目标UDA打开表5：伪标记（PL）的额外影响。使用ESL的一个步骤[21]（使用预测熵作为选择标准的伪标记）来细化训练模型。对于MTKT，针对具有相关联的教师头的每个目标域提取伪标签，并且使用以下任一项：CityscapesMapillary + IDD. 组织如Tab。1.一、模型在多目标基线上略有改善。MTKT模型显著优于所有其他模型，69。1%mIoU平均值此外，与每个目标基线相比，MTKT是唯一一个在每个目标领域都有改进的模型。（1）仅细化该头部，（2）细化该头部并且仅在具有符合伪标签的预测的像素上反向传播KL损失，或者（3）细化该头部和目标不可知模型两者CityscapesMapillary+ IDD. 最后，我们进行实验在一个现实的城市2城市设置与城市景观作为源和Mapillary和IDD作为目标域。结果示于表4中。有趣的是，在Mapillary上，在IDD上训练的单目标模型比仅在Mapillary上训练的模型获得了更好的结果。我们推测Cityscapes和Mapillary之间的域差距小于Cityscapes和IDD之间的域差距;来自IDD的额外数据多样性改进了单目标仅IDD模型泛化，并有助于减轻小的Cityscapes-Mapillary域差距。另一个观察结果是仅IDD模型优于多目标基线。这表明了朴素数据集合并策略的缺点：不仅互补的信号，而且冲突/负面的信号也会被传递。这两种模型的性能优于多目标基线; MTKT获得了最好的性能整体。再次在这个现实的设置，我们展示了我们的方法的优势，特别是多目标知识转移模型。结论. 这四组实验表明，所提出的多目标框架一致地降低了它们被训练的多目标领域的竞争性能。MTKT总是提供最佳性能，无论是在每目标和平均mIoU，与基线和多鉴别器模型相比。请注意，我们的模型与图像翻译[10，27，28]或伪标记自训练[14，21，31]等技术兼容，它们可以从中受益。特别地，我们接下来通过额外的实验展示了如何使用MTKT的伪标记[21]。4.3. 进一步的实验表6：直接转移至新靶标。多目标模型在一个新的未知领域进行测试：（上）GTA5 Cityscapes + IDD，在Mapillary上测试;（下）GTA5 Cityscapes + Mapillary，在IDD上测试。从最近提出的ESL [21]来看，我们考虑了三种方法来使其伪标记策略适应MTKT体系结构。在所有这些方法中，我们使用相应的目标特定的分类器收集每个目标域中的伪标签，并将它们用作这些目标特定的头部的额外的自我监督;在第二种方法中，我们还使用这些伪标签来将KL损失的反向传播限制到根据这些伪标签正确分类的像素;在第三种方法中，它们也被用于改进目标不可知分类器。我们在表5中报告了在GTA5Cityscapes+ IDD上使用这三种基于PL的细化策略训练的模型的结果，并将其与使用ESL训练的基线进行比较。用PL扩展MTKT的三种方法的结果是相似的。最大性能增益至少为+1。6%mIoU平均值这表明知识转移是对伪标签的补充。此外，具有ESL的MTKT优于具有ESL的基线+1。7%mIoU平均值直接传输到新数据集。我们考虑一种直接传输设置，其中模型在训练期间看不到来自测试域的图像：这个实验突出了模型可以推广到以前看不见的新领域的程度。我们在表6中报告了在不同设置中这种直接转移到新数据集的伪标签的其他影响。伪标记模型在GTA5城市景观+国际直拨电话（分别对（PL）是一种在UDA中非常流行的策略，用于语义分割[14，21，31]。它可以很容易地与我们的多目标框架相结合。把它-GTA5 Cityscapes+ Mapillary），并在Mapillary上进行了测试（分别为IDD）。在这两种设置中，MTKT在mIoU方面的平坦构造对象性质天空人类车辆方法目标火车⭢MioumIoU平均单目标基线[25]MapillaryIDDC-87.465.928.272.892.146.9七十二点七91.852.215.980.291.145.7七十七点六66.6（*）65.0 ↓ 2. 365.8MapillaryIDD-C88.270.028.575.493.649.1七十六点七93.253.416.583.493.451.4七十九点五68.8 ↑ 2. 267.3（*）68.0多目标基线[25]MapillaryIDDCC87.765.929.073.291.547.975.793.353.017.282.892.249.3七十九点六67.3 ↑ 0. 766.8 ↓ 0. 567.0Multi-Dis。MapillaryIDDCC88.670.929.675.894.749.2七十六点一92.852.817.083.194.248.5七十七点四69.3 ↑ 2. 766.5 ↓ 0. 867.9设置方法测试集平坦构造对象性质天空人类车辆MiouGC + I⭢M-T基线88.471.031.072.492.037.474.766.7Multi-Dis。MTKTMapillary89.289.872.174.021.730.473.874.194.093.634.852.675.979.465.970.6GC + M⭢M-T基线91.654.713.976.590.948.377.564.8Multi-Dis。MTKTIDD91.291.554.656.112.912.377.776.192.590.950.351.478.679.265.465.49081⭢(a) 输入（b）地面实况（c）城市。基线（d）IDD基线（e）MT基线（f）Multi-Dis。（g）MTKT图5：GTA5Cityscapes + IDD设置中的定性结果。（ a）来自Cityscapes和IDD的测试图像;地面实况分割图;（c）在Cityscapes目标上训练的单目标基线，（d）在IDD目标上训练的单目标基线，（e）多目标基线，（f）提出的Multi-Dis的结果。及（g）建议的MTKT。与基线相比，这两个提出的新域名特别是在第一个测试中，使用Mapillary作为新的测试域，MTKT的表现比多目标基线高出+3。9%。在该设置中特别值得注意的是在人类类上的性能：虽然我们在对Mapillary的域适应的主要结果中观察到约50%的IoU（例如，在选项卡中。1）、多目标基线和Multi-Dis的直接传递结果。下降到38%以下;不同的是，MTKT设法以52获得类似的性能。8%的IoU。这个实验暗示了MTKT更好地推广到新的未知领域的能力。5. 结论这项工作解决了新的问题，无监督适应多个目标领域的语义分割。我们讨论的挑战，这种UDA设置提出的分布对齐和联合学习。的得到两个新的框架：多鉴别器方法扩展了单靶UDA以处理成对域比对;多目标知识转移方法通过多教师/单学生蒸馏机制缓解了多领域对抗性学习的不稳定性。在驾驶场景的背景下，我们提出了四个实验设置，不同类型的源-目标差距和目标域的数量。我们的方法在这四种设置上优于所有基线，这是现实世界应用的代表。进一步的实验还表明，我们的框架可以结合到最先进的伪标记策略，并且所提出的学习方案有助于推广到以前看不见的数据集。因此，这项工作有助于最近的研究线领域适应更实际的用例。出于同样的目标，未来的研究方向可能会考虑更复杂的源域和目标域的混合，利用几个标记和未标记的数据集。城市景观IDD9082引用[1] 我在博图。随机梯度下降的大规模机器学习在COMPSTAT的程序。2010. 5[2] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan Yuille. DeepLab：使用深度卷积网络、atrous卷积和完全连接的CRF进行语义图像分割。IEEE Transactions on Pattern Analysisand Machine Intelligence（TPAMI），2018年。5[3] 陈子良，庄靖宇，梁晓丹，林亮。对抗性Meta适应网络的混合目标域适应在IEEE/CVF计算机视觉和模式识别会议论文集（CVPR），2019。2[4] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在IEEE计算机视觉和模式识别会议（CVPR）上，2016年。二、五[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。 IEEE 计算机视觉与模式识别会议论文集（CVPR），2009年。5[6] 吉米·巴·迪德里克金玛Adam：随机最佳化的方法。国际学习代表会议（ICLR），2015年。5[7] 贝南·戈拉米，普里蒂什·萨胡，奥格尼扬·鲁多维奇，孔斯坦蒂诺斯·布斯马利斯，和弗拉基米尔·帕夫洛维奇.无监督多目标域自适应：信息理论方法。 IEEETransactions on Image P

下载后可阅读完整内容，剩余1页未读，立即下载