无监督域自适应与面向语义分割的领域泛化方法的评估与比较

46 浏览量更新于2023-10-16 收藏 807KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

499经验推广研究：无监督域自适应与面向语义分割的领域泛化方法法布里齐奥·J埃因霍温理工{f.j.piva，d.c.d.geus，g.dubbelman} @ tue.nl[45]第九届中国国际纺织品展览会图1. 最先进的域泛化（RobustNet [9]），无监督域自适应（ProDA [45]）和完全监督[6]方法在未知数据集WildDash [44]，IDD [37]和KITTI [1]上的定性结果。基线模型和RobustNet仅在Cityscapes [10]上进行训练，ProDA在Cityscapes的标记数据和BDD-100 K [42]和Mapillary Vistas [25]的未标记数据上进行训练，而完全监督模型则在相应的“看不见的”数据集上进行训练。利用未标记数据的ProDA方法始终表现最好，表明可以通过使用未注释的示例来改进泛化摘要对于自动驾驶车辆和移动机器人来说，在现实世界中安全地野生的场景理解模型应该在可能遇到的许多不同场景中表现良好。实际上，这些场景并没有全部出现在模型的训练数据中，导致性能不佳。为了解决这个问题，当前的训练策略试图利用无监督域自适应（UDA）来利用额外的未标记数据，或者使用域泛化（DG）来使用有限的可用标记数据来减少然而，从目前的文献中还不清楚这些方法中的哪一种允许更好地遗传来自野生的看不见的数据。因此，在这项工作中，我们提出了一个评估框架，其中国家的最先进的UDA和DG方法的泛化能力从这次评估中，我们发现利用未标记数据的UDA方法在泛化方面优于DG方法，并且可以在看不见的数据上提供与要求所有数据都被标记的完全监督训练方法相似的性能。我们表明，语义分割性能可以提高到30%的先验未知数据，不使用任何额外的标记数据。1. 介绍图像中的每个像素都需要分类的语义分割是自动驾驶和移动机器人等应用的有用计算机视觉任务。当应用于安装在这样的移动代理上的摄像机的图像时，它可以为它们提供可操作的信息。然而，最先进的语义分割方法都是基于深度神经网络（DNN）的，对于深度神经网络，在所有真实世界条件下表现良好通常是具有挑战性的，即，野外为了解决这个问题，已经引入了几种方法，旨在提高这种DNN的泛化能力，使得它们在所有成像条件下都表现良好。然而，所有这些方法都是在不同的环境中进行研究的，这使得很难进行公平的比较，并为给定的应用程序确定为了解决这个问题，在这项工作中，我们对公平条件下不同方法的泛化能力进行了实证研究，并提供了关键见解和外卖信息。语义分割网络通常在与它们训练的数据相似的图像上表现得然而，当他们遇到在不同条件下捕获的图像时，例如，在不同的天气条件下，使用其他照明或改变摄像机特性，其性能会降低[16，40]。这是prob-看不见的数据IDDWildDashKITTI500任务方法语义分割结构训练领域验证域编码器解码器标记未标记UDAProDA [45]ResNet-101 [14]DeepLab v2 [6]GTA V [29][31]第三十一话城市景观[10]城市景观[10]城市景观[10]城市景观[10]DSP [12]ResNet-101 [14]DeepLab v2 [6]美国汽车协会[2]ResNet-101 [14]VGG-16 [35]DeepLab v2 [6]DeepLab v2 [6]DG[18]第十八话ResNet-50 [14]ResNet-101 [14]VGG-16 [35]DeepLab v3+[7]DeepLab v3+[7]DeepLab v3+[7]GTA V [29]城市景观[10]n.an.a[31]第25话：我的世界，我的世界[25]第29话，我的世界RobustNet [9]ResNet-50 [14][21]第二十一话[32]第三十二话DeepLab v3+[7]DeepLab v3+[7]DeepLab v3+[7]表1. 语义分割架构和训练设置通常用于顶级性能的UDA和DG方法。这表明UDA和DG方法通常使用非常不同的网络架构，训练数据和评估数据，使得不同任务的方法之间的直接比较非常困难。lematic在野外部署语义分割网络时，因为车辆或机器人将捕获的数据是否与训练数据相似是先验一个明显的解决方案是收集更多的，可能是异质的[23]，训练数据，在尽可能多的不同条件下捕获。然而，特别是对于语义分割，获得每个像素的标签是昂贵和耗时的[10]。此外，无法保证收集的数据集包含具有部署期间可能遇到的所有条件的图像。作为增加训练数据集的替代方案，重要的研究集中在寻找允许深度学习模型更好地推广到不属于训练数据的环境的方法。在高层次上，我们可以确定两个专注于以不同方式改进深度学习模型泛化的任务：a）领域泛化（DG）和b）无监督领域自适应（UDA）。DG方法采用一个或多个标记的数据集，并应用技术生成一个模型，该模型在训练期间未看到的多个数据集上表现良好[9，18]。UDA方法假设它们可以从部署模型的所谓目标环境中访问未标记的因此，他们在单个标记数据集和来自目标环境的未标记图像上联合训练模型，目标是在来自该目标环境的其他图像上实现良好的性能[2，45]。一些UDA方法还表明，它们也可以在看不见的环境中提高性能，但到目前为止还没有广泛探索[28，30]。尽管DG和UDA都旨在显式或间接地提高泛化能力，但尚不清楚两者中的哪一个实际上导致对未知数据的更好泛化，以及在什么条件下。为了找出这一点，应该在尽可能平等的情况下由于多种因素，目前很难根据文献进行这样的公平比较，如1、不同颜色具体而架构差异会极大地影响性能（蓝色）; b）每个任务使用不同的训练设置，UDA方法主要关注从合成数据到真实数据的适应，即使有大量的真实世界数据可用于执行真实到真实的适应[25，42，44]（粉红色）;以及c）UDA方法不被评估用于泛化任务，即，它们只测量目标数据集的性能，并且通常不报告未看到的数据的分数（绿色）。为了解决这个问题，在这项工作中，我们提出了一个评估框架，在这个框架中，方法使用规范化的体系结构在真实世界的标记和未标记数据上进行训练，并专门在看不见的数据集上进行评估，以正确评估泛化能力。我们提出的评估框架，我们进行了彻底的定量比较DG和UDA方法，并评估其泛化能力在各种条件下。最重要的是，我们发现在UDA中对未标记的数据进行分类，大大提高了目标域之外的泛化性能。为了提供更多的见解，我们还评估了选择特定训练数据集的影响，以及用于训练的标记和未标记数据的比例总结一下，这项工作的贡献是：• 我们提供了一个新的评估框架，语义分割模型可以进行测试，以推广到野外看不见的数据。• 使用这个框架，据我们所知，我们是第一个提供定量比较DG和UDA方法的语义分割，正确评估其相对性能，并提供建议，他们的使用。• 通过这种比较，我们发现未标记数据是实现对未看到数据的泛化的重要资源，其性能与完全监督模型相当。这项工作的代码是公开的1。可以注意到，a）方法不是我们训练使用相同的语义分割网络架构，1https://fabriziojpiva.github.io/empirical-generalization-study/501XYDDDDDD ddLLX Y X ×YDDD2. 相关工作无监督域自适应（UDA）是指训练一个模型的过程，该模型能够将学习到的知识从标签可访问的域转移到注释不可用的域。在过去的几年中，用于语义分割的UDA方法已经显示出令人印象深刻的结果[2，19，45]，特别是通过杠杆化多种策略的组合，可以涉及数据增强[2，8，20，22，24，41]，特征对齐，[3，17，19，20，28，33，36]，和/或自我监督学习[2，12，19，20，28，39，45]。无论训练策略如何，UDA方法都强烈关注自适应设置，其中合成生成的数据集（如GTA V [29]或SYNTHIA [31]）表示标记的域，并且需要适应真实世界的数据集（如Cityscapes[10]）作为未标记的目标域。虽然我们认为这些基准测试具有挑战性，但值得注意的是，这些设置1）假设未标记域是模型将被部署的唯一域，放弃了模型可能遇到其他先验未知域的可能性，以及2）强烈关注使合成适应真实数据，而不考虑其他场景，如真实到真实的适应，尽管有许多带有注释的真实图像的数据集可用。为了正确评估泛化到不可见图像的能力并利用真实数据集的可用性，我们提出的评估框架对训练期间未看到的多个数据集进行评估，并且仅关注真实世界的数据。用于语义分割的领域泛化（DG）方法最近大幅增加，其目标是在来自一个或多个标记数据集的数据上训练模型，并让它在训练期间未看到的各种数据集上表现良好。这些方法主要在特征级操作，结合数据增强[9，18，26，43]，通过创建输入图像的增强版本来抑制风格相关特征[9，26]，或将网络过度暴露于多种风格[18，43]，鼓励网络学习域不变特征。无论涉及的方法，这些方法只使用来自标记域的数据，因此它们无法利用可以从来自未标记域的数据中提取的丰富信息我们认为，这是DG方法的主要缺点之一出于这个原因，我们允许在我们的评估框架中使用未标记的示例，并且我们评估了访问未标记数据对网络泛化能力的好处，即，关于UDAUDA和DG方法的比较。以前比较UDA和DG方法用于计算机视觉任务的研究大多是调查[34，38，47]，其中不同的理论方面，如问题定义，培训战略和相关的研究领域进行了说明。这些调查的主要缺点之一是缺乏实际比较，其中UDA和DG模型使用共同的框架进行评估，以评估其对现实世界场景的适用性。与此相一致，最近的一项研究提出了一种以实用方式比较UDA和DG方法的设置[13]，但它专注于临床医学并解决了时间数据集转移的影响，即，当数据的分布随时间逐渐改变时。在这项工作中，相反，我们比较了UDA和DG方法用于语义分割的计算机视觉任务，使用一个通用的实用框架，特别是用于评估这些模型在训练过程中未看到的域上的泛化能力，独立于随时间推移可能发生的分布变化特别是，我们评估了DG和UDA方法之间存在的上述差异的影响：1）利用网络中未标记数据的影响，这发生在UDA中，但不适用于DG，2）评估UDA方法对未知领域的影响，这通常不适用于UDA方法，但却是DG的主要目标。3. 问题定义在这项工作中，我们解决了在具有挑战性的现实世界条件下应用语义分割的问题，即，在野外假设没有足够大且多样的可用标记数据集来在所有现实条件下产生良好的性能，我们专注于使用有限的标记数据以及未标记数据来训练语义分割为了正式定义这个问题，我们引入以下符号。记法。设为输入图像，并且设为它们对应的用于语义分割的逐像素地面实况。一个标记域l被定义为联合分布P（，）上，它通常由多个-三重子域1、…n. 一个数据集代表一个范围，来自一个或多个（子）域的样本的DOM子集。分别地，未标记域是其中逐像素地面实况不可用于训练的域，表示为nl，并且未看见域u是其中输入图像和地面实况两者在训练期间不可用ing.泛化的目标。当在移动代理中部署神经网络时，由传感设备捕获的图像是否落入域l、nl或u是先验未知的。因此，为了使系统在所有情况下都表现良好，重要的是语义分割网络在所有域上都表现良好不仅在通常评估的训练域l和nl 上，而且特别是在看不见的域u上，如图1所示。二、502DDDDDDDDDDDDDD--{}D图2. 表征空间中领域的概念说明。每个域可以被看作是占据了表示空间的特定子空间。两个域之间的距离通常被称为它们的域间隙，数据集可以被视为随机样本，由彩色点可视化，来自一个或多个域。泛化的目标是在标记的域l（蓝色）和可能的未标记的域nl（绿色）上训练模型，使得模型在看不见的域u（粉红色）上也表现良好。从概念上讲，模型的包络（灰色）理想情况下应该包含所有域。(a)（b）第（1）款图3. Cityscapes和Mapillary的强度直方图。Cityscapes在直方图中显示了一个清晰的峰值，表明许多图像具有相似的风格。Mapillary的分布更加均匀，表明没有优势风格。重新发送未标记的域N1。根据定义，这种未标记的数据仅由UDA方法利用。为了评估泛化能力，我们选择多个其他数据集作为未见过的域u，在此基础上，被执行。在这些未知域u上的性能越好，网络的泛化能力就越好。在实践中，标记数据的可用性结构域D1可以变化。因为这些变量的水平数据集的缩写：Cityscapes（CS）[10]，BDD-100K（BDD）[42]，Mapillary Vistas（MAP）[25]，WildDash（WILD）[44]，IDD（IDD）[37]，KITTI（KITTI）[1].表2. 每个实验的数据集和指标。提出的性能指标，可见和不可见的mIoU平均值，分别在训练域的数据集和未见过域的数据集DG和UDA。鉴于上述符号和这些任务的描述，在第二节。2，我们注意到DG方法在训练过程中只使用标记的域l，并在u上进行评估，这对它们来说是不可见的。相比之下，UDA方法在训练期间使用标记的域l和未标记的域nl鉴于UDA方法通常在nl的看不见的分裂上进行评估，我们现在评估其他看不见的域u，以评估其泛化能力。4. 实验4.1. 实验概述这项工作的主要目标是彻底评估和比较DG和UDA方法的语义分割的泛化能力。此外，我们感兴趣的是所使用的数据对最终性能的影响。为此，我们进行了以下实验：1. 定量比较UDA与DG 为了进行适当的比较，我们提出了一种训练设置，其中UDA和DG方法在相同的标记数据集Dl上训练。此外，我们选择多个数据集来表示-数据集内图像条件的变化通常会影响在该数据集上训练的网络的泛化能力，我们还希望异构标记训练数据的可用性对UDA和DG方法的性能产生影响因此，我们以两种不同的配置进行该实验：A) 同构数据集作为标记域。这个实验考虑的情况下，只有一个简单的，同质的标记数据集可用，在实际环境中往往是这种情况。该数据集由在相似位置捕获的图像组成，具有相似的条件和照明属性。B) 异构数据集作为标记域。在这个实验中，有一个标记的数据集，它由在许多不同条件下捕获的图像组成，来自许多不同的子域。2. 使用未标记数据的影响。为了研究利用未标记数据来实现可概括的语义分割的效果，我们进行了一个实验，其中我们改变了性能最佳的UDA方法的可用未标记数据的数量。为了设置基线，我们用相同的图像增量部分训练具体而言：• 从实验1.A开始训练性能最佳的UDA方法，l未标记部分增加 0、25、50、75、100%nl。• 在l上训练全监督分割模型以递增的比例聚集在一起0、25、50、75、100%的数据集，但现在使用他们的标签。该实验旨在提供实现对未知领域的泛化所需的未标记数据量的见解，以及如何将其与使用相同数量的图像进行监督训练进行比较。训练领域未知域实验域数据集训练测试#图像训练测试度量计算名称DlCS列车。分裂CS值分裂2975500avg.超过百万1A、2CS、BDD、MAPVal. 分裂看到的mIoU平均值DnlBDD列车。分离MAP列车。分裂BDD值分割MAP值分裂70001800010002000DlMAP列车。分裂MAP值分裂180002000avg.超过百万1BCS、BDD、MAPVal. 分裂看到的mIoU平均值DnlBDD列车。分裂CS训练。分裂BDD值拆分CS值分裂700029751000500Du- WILD VAL. 分裂3404852avg.超过百万503DDDDDDDD4.2. 评价方案为了定量地比较不同的泛化和自适应方法，我们需要为标记和未标记的训练域以及未知域选择数据集，如第3节所定义。有了这些数据集，这些数据集在下面描述，并在表中总结2，使用表1中报告的性能指标对模型进行训练和评估二、4.2.1数据集对于我们的评估协议，我们需要几个数据集，它们都包含类似的类别。在自动驾驶的背景下，有多个数据集可用：Cityscapes[10]是一个城市街道场景数据集，收集了德国周边几个城市的数据。 BDD-100 K[42]还包含城市场景的图像，但随后在美国的不同地点拍摄。同样，IDD[37]从印度的几个城市收集了大量的城市场景。另一方面，Mapillary Vis- tas[25]是一个非常多样化的数据集，包含来自世界各地不同条件下的街景。类似地，WildDash[44]由来自世界各地的大量图像组成，包括高危险场景。它的目的是衡量语义分割模型的鲁棒性最后，KITTI[1]是一个相对较小的数据集，具有非常相似的图像，在德国的同一城市周围捕获4.2.2培训领域根据第二节中描述的六个数据集，4.2.1，我们需要选择在训练期间将被用作标记域l和未标记域nl标记域。正如在第二节中所解释的。4.1，我们的目标是在两个高级别设置中进行实验，其中A）标记域由同质数据集组成，B）标记域是异构数据集。考虑到数据集的属性，我们选择Cityscapes [10]作为实验1.A中l的均匀数据集，因为它的图像是在非常相似的条件下捕获的对于实验1.B，我们选择Mapillary Vistas [25]作为实验1.B中l的异构数据集，因为它包含在许多不同条件下在许多不同位置捕获的图像。为了支持我们的选择，我们对每个数据集中图像的像素强度进行直方图分析。我们期望，使用相同的相机设置和类似的照明条件捕获的均匀数据集将在某些像素强度值处显示出清晰的峰值。另一方面，具有在许多不同条件下捕获的图像的异构数据集应该具有更均匀的分布。因此，该直方图应给出数据集同质性的粗略指示。我们承认存在用于此目的的更先进的技术，但我们认为这超出了范围，因为我们仅使用这些直方图作为辅助工具。从图中描绘的直方图。3，我们发现Cityscapes的直方图在某些强度值周围显示出明显的峰值，而Mapillary Vistas图像具有更均匀的像素强度分布。这支持了我们选择Cityscapes作为同质数据集和MapillaryVistas作为异质数据集的决定我们参考补充材料，了解有关这些直方图以及其他数据集直方图的更多信息。未标记的域。在实验1.A中，其中Cityscapes被标记为域l，我们选择BDD-100 K和Mapillary Vistas的训练分割作为未标记的训练域nl。我们选择BDD-100 K和Map-illary，因为它们一起包含比Cityscapes更多样化的图像，现在可以通过UDA方法来提高泛化能力。在实验1.B中，nl由BDD-100 K和Cityscapes的训练分裂组成，这两个数据集都是同质的。映射到标记的数据集D1，Mapillary Vistas。4.2.3看不见的领域对于所有实验，不可见域u由以下组成：WildDash、IDD和KITTI的验证分割的组合。请注意，这些仅在测试期间使用，而不在培训期间使用。我们选择这些数据集是因为它们共同代表了驾驶系统在部署过程中遇到的现实且具有挑战性的图像流：它们包括在不同条件下捕获的多个环境中的图像最后，一个好的广义模型应该在这两种类型的数据集上都表现良好。4.3. 方法选择在我们的评估中，我们的目标是包括表现最好的最先进的方法，用于域泛化和无监督域适应。为了只选择性能最佳且可适当重现的方法，我们设定了以下要求：1）该方法的实现应该是公开可用的，提供训练和评估脚本，2）该方法不应该要求训练在公布的代码中不可用的外部网络，3)所述方法应该在其研究领域的标准基准中获得最新的结果，以及4）再现所报告的结果不应该导致超过5%的性能下降。适合这些标准的方法使用其原始代码进行调整，以便它们都使用规范化的架构进行语义分割504DDDDDD×× ××模型的编码器和解码器（即，[14][15][16][17][18][19][1 最终选择的模型是 UDA 的ProDA [45]和SAC [2]，DG的WildNet [18]和RobustNet[9]。请注意，我们的比较并不意味着以任何方式取消我们的目的仅仅是找出在什么情况下应该使用什么类型的补充材料中提供了关于这些方法的选择过程和调整的4.4. 基线为了进一步补充定量比较，并提供信息基线，我们还训练了以下全监督分割模型：单数据集训练。为了在我们的评估协议中使用的所有数据集中提供额外的见解，并评估模型通过仅在对于单个标记数据集，我们使用标准交叉熵损失在每个单独的数据集上分别训练完全监督模型，并在所有数据集上对其进行评估。通过这样做，我们可以确定什么类型的数据集可以用于在看不见的数据上实现良好的结果，而无需使用任何自适应/泛化技术。我们在第二节中简要第5.1条标签域唯一训练。这是一个完全监督的模型，只在标记域l的数据集上训练。我们认为DG和UDA方法有效，只有当他们超过这个基线。多数据集训练。我们在多个数据集上训练全监督具体而言：1. 我们在用作标记域l和未标记域nl的数据集上训练模型，所有标记都与使用相同数据集l和nl训练的UDA进行比较。 DG和UDA方法的目标是达到可比的性能，但使用显著-标签较少的训练数据。2. 我们在所有数据集上联合训练模型，u，以查看“oracle”性能是什么，即，训练完全监督模型时的性能用于评估的数据集。3. 我们在为Dl，Dnl和Du提出的所有数据集上训练模型，以作为4.5. 实现细节如前所述，DG和UDA方法的文献中目前报告的结果不具有可比性，因为这些方法使用不同的语义分割架构，并且在不同的数据集上进行训练和测试（图11）。①的人。为了解决这个问题，我们的实验旨在进行归一化比较，其中每个方法都在相同的数据集上进行训练和测试对于所有实验，所有模型均在相同的19个班级上进行培训和评估，即，这19个类通常在Cityscapes数据集上进行评估。对于MapillaryVistas，我们将类标签映射到Cityscapes定义，如[15]所示。硬件和网络架构。在我们的实验中，我们使用Py-Torch [27]实现了所有方法，在两个NVIDIA A6000GPU上训练它们，每个GPU具有48 GB内存。由于架构的异质性，我们调整了所有方法的代码，因此所有网络都使用相同版本的DeepLabv 2 [6，45]，并在ImageNet [11]上预训练ResNet-101骨干[14]。补充材料中提供了更多细节。超参数。我们使用超参数集运行所有选定的候选项，以实现其最佳mIoU性能。完全监督模型，如前所述是DeepLabv2模型，使用动量为0的SGD [5]优化器进行训练。9，初始学习率为2。5 10−4，衰减为0的多项式时间表。9，和一个标准的交叉熵损失[4]。此外，所有基线模型都是在896个随机作物上训练的512（WH）像素，对于N d180k次迭代，其中Nd是用于训练的数据集的数量，并且使用早期停止，即，如果在20个连续时期内没有性能改进，则停止训练。5. 结果在本节中，我们提供了第2节中列出的实验结果4.1.但首先，为了a）提供我们评估框架中使用的不同数据集的见解，b）表明DG或UDA方法对于更好的泛化是必要的，我们简要讨论了第二节4.45.1. 单数据集训练在选项卡中。4，我们报告了在我们的评估框架中使用的每个数据集上单独训练的完全监督模型的性能。当查看此表时，可以立即清楚地看到MapillaryVistas和WildDash在所有数据集上都具有最佳的整体性能，正如平均IoU所反映的那样。这是意料之中的，因为我们发现这些数据集包含了在许多不同条件下拍摄的最多样化的图像（另见图1）。3），使得用于评估的图像更有可能与训练集中的图像相似。在该表中，相同的数据集--这些数字表示如果网络可以访问来自用于评估的域的标记数据，则可以实现的mIoU可以看出，在绝大多数情况下，每个数据集的最佳结果是以蓝色突出显示的结果505DD任务方法训练领域DlDnlCS可见域BDD地图看到的mIoU平均值野生未知域IDDKITTI不可见mIoU平均值仅标记域（基线）CSN.A.69岁。8四十三239岁850块9三十二9四十三5四十九6四十二0UDAProDA [45]美国汽车协会[2]CSCSBDD，MAPBDD，MAP74岁4↑+4。668岁4 ↓-1。4五十三8↑+10。651岁4↑+8。251岁9↑+12。1四十五3↑+5。5六十岁。0↑ +9。155. 0 ↑+4。150块9↑+18。144. 2↑+11。355. 7↑+12。251岁0↑+7。561岁6↑+12。052岁9↑+3。3五十六1↑+14。1四十九4↑+7。3WildNet [18] w/class平衡CSN.A.七十6↑+0。8四十六岁。1↑+2。9五十六3↑+16。6五十七7↑+6。844. 1↑+11。250块4↑+6。9四十七3 ↓-2。3四十七3↑+5。369岁。3↓-0。4四十五4↑+2。1五十三9↑+14。2五十六2↑+5。3四十二3↑+9。4四十九4↑+5。851岁0↑+1。5四十七6↑+5。6WildNet [18] w/o类平衡CSN.A.DGRobustNet [9]支持类平衡CSN.A.74岁6↑+4。8四十七9↑+4。755. 0↑+15。3五十九1↑+8。2三十八岁。1↑+5。250块8↑+7。352岁8↑+3。3四十七2↑+5。2RobustNet [9] w/o类平衡CSN.A.七十4↑+0。644. 4↑+1。251岁4↑+11。755. 4↑+4。5三十七1↑+4。2四十八7↑+5。2四十九6↑+0。0四十五1↑+3。1完全支持。训练领域CS、BDD、MAPN.A.七十三。1 ↑+3。3六十岁。3↑ +17。1五十七8↑+18。063岁7↑+12。8五十三2↑+20。4五十六7↑+13。2五十六5↑+6。955. 5↑+13。5完全支持。未知域WILD，IDD，KITTIN.A.四十五2 ↓-24。6四十三7↑+0。5四十三8↑+4。044. 2 ↓-6。7四十七7↑+14。8五十七1↑+13。650块1↑+0。651岁6↑+9。6完全支持。所有域CS、BDD、MAP、WILD、IDD、KITTIN.A.七十8↑+1。1五十八3↑+15。1五十八8↑+19。062. 6↑+11。7五十九1↑+26。266岁。5↑+23。063岁3↑+13。863岁0↑+21。0表3. 当标记的结构域1是均匀的时的定量比较。报告的增量（绿色和红色）相对于基线（第一行）。最高mIoU值突出显示如下：大胆，考虑所有方法;并加下划线，仅考虑UDA和DG方法。验证培训CSBDD地图野生IDDKITTImIoU平均值非对角线mIoU平均值CS69岁。8四十三239岁8三十二9四十三5四十九6四十六岁。541岁8BDD51岁1五十四441岁0四十三351岁8四十七2四十八1四十六岁。9地图六十岁。1五十四655. 0四十八255. 052岁8五十四3五十四1野生五十六451岁4四十九3五十六5五十六0四十六岁。952岁852岁0IDD四十二8四十二1三十八岁。7三十七268岁941岁8四十五2四十5KITTI29岁9二十七岁2二十四岁123岁1二十七岁2四十八9三十1二十六岁3表4.在单个数据集上单独训练的完全监督网络的结果。这意味着，当评估图像与训练图像不相似时，性能下降。这正是我们在引言中所描述的缺乏泛化能力的问题，而DG和UDA方法的目标就是解决这个问题。有趣的是，我们也可以看到一些情况下，蓝色突出显示的数字不是最好的结果。具体而言，1）在MapillaryVistas上的训练在BDD-100 K和KITTI上产生的结果略好于在这些数据集上的训练，2）在Cityscapes上的训练也会在KITTI上产生更好的性能。我们假设，对于案例1，Mapillary Vistas训练只是产生了非常好的结果，因为数据集很大而且变化很大。对于案例2，我们预计Cityscapes图像看起来与KITTI非常相似，这意味着训练和评估条件相似。此外，Cityscapes包含的训练图像比KITTI多得多，进一步提高了性能（见表1）。2）的情况。然而，总的来说，显然缺乏需要解决的普遍性，以允许在野外成功应用，例如，用UDA或DG方法。5.2. 定量比较UDA与DG总体调查结果。我们将选定的最先进的UDA和DG方法应用于我们的评估框架，如第2节所述4，并在Tab.3和Tab。五、注意Tab。3报告了具有同质标记结构域l的设置的结果，并且Tab. 5具有异质标记结构域。因为我们感兴趣的是模型对未知领域的泛化能力，所以未知的mIoU avg。是最相关和最重要的指标。乍一看，这两个选项卡。3和Tab。5显示ProDA [45]，一种UDA方法，在看不见的mIoU平均值上显著优于所有其他改善基线，506DD平均mIoU分别为+14.1和+4.7点。令人惊讶的是，这种性能也与在所有训练域上训练的完全监督基线相当，甚至更好，实现了等同于在所有训练数据集完全标记的情况此外，值得注意的是，UDA方法ProDA和SAC比领域泛化方法更有效地泛化到未知领域。这是一个有趣的发现，因为UDA方法不是被设计为在看不见的域u上表现良好，而是在看到的未标记的域nl上表现良好。我们期望UDA方法的良好性能是由于它们可以访问未标记的数据，这允许它们使用特征对齐和自训练等技术，如第2节所述二、节中5.3，我们进一步分析了利用未标记数据部分的影响在图1中，我们展示了异构训练域设置的最佳性能方法的一些定性结果，以证明mIoU的增加在实际分割质量方面意味着什么。在该图中，我们观察到ProDA始终工作良好，不考虑看不见的领域，这也得到了定量分析的支持结果均质vs异质标记结构域。尽管大多数结果对于具有a）的设置是相同的同质标记的结构域和b）异质标记的结构域，也存在显著的差异。具体地说，我们注意到，DG方法遭受显着下降时，标记域是异构的泛化性能（表。5），与仅在标记域上训练的基线相比（3）第三章。我们预计这是由DG方法所采用的技术引起的具体来说，他们尝试关注特定数据集的样式组件，并尝试增强或抑制它。然而，当应用于具有高统计变异性的数据集时（见图1）。3b），风格成分变得难以估计，损害了这些方法的学习过程。这不是ProDA和SAC的情况，因为它们的基础-507DDD任务方法培训Dl域DnlCS看到域BDD地图看到的mIoU平均值野生未知域IDDKITTI不可见mIoU平均值仅标记域（基线）地图N.A.六十岁。1五十四655. 0五十六6 四十八255. 052岁852岁0ProDA [45]地图BDD，CS67岁7↑+7。6五十八0↑ +3。455. 8↑+0。7六十岁。5↑ +3。9五十四8↑+6。6五十七5↑ +2。5五十八0↑ +5。2五十六8↑ +4。7UDA美国汽车协会[2]地图BDD，CS61岁4↑+1。4五十七3↑+2。7五十七9↑+2。9五十八9↑+2。3四十八4↑+0。1五十四2↓-0。855. 0↑+2。252岁5↑+0。5WildNet [18] w/ class平衡地图N.A.五十六3↓-3。8四十七1↓-7。5六十岁。5 ↑+5。4五十四6↓-1。9四十八0↓-0。250块5 ↓-4。541岁9 ↓-10。9四十六岁。8 ↓-5。2五十三2↓-6。9四十五8↓-8。8五十六0↑+1。051岁6 ↓-4。9四十五5↓-2。750块8 ↓-4。2四十二8 ↓-10。0四十六岁。4 ↓-5。6WildNet [18] w/o类平衡地图N.A.DGRobustNet [9]支持类平衡地图N.A.五十八1↓-1。950块5 ↓-4。161岁5↑+6。5五十六7↑+0。2四十七6↓-0。752岁1 ↓-3。0四十五9↓-7。0四十八5 ↓-3。5RobustNet [9] w/o类平衡地图N.A.五十三5↓-6。5四十六岁。8 ↓-7。8五十六0↑+0。952岁1 ↓-4。5四十二6↓-5。6四十九8 ↓-5。244. 4 ↓-8。4四十五6 ↓-6。4完全支持。训练领域CS、BDD、MAPN.A.七十三。1↑ +13。0六十岁。3↑ +5。7五十七8↑+2。763岁7↑+7。1五十三2↑+5。0五十六7↑+1。7五十六5↑+3。755. 5 ↑+3。5完全支持。未知域WILD，IDD，KITTIN.A.四十五2 ↓-14。9四十三7↓-10。9四十三8↓-11。244. 2 ↓-12。3四十七7↓-0。6五十七1↑+2。150块1 ↓-2。751岁6 ↓-0。4完全支持。所有域CS、BDD、MAP、WILD、IDD、KITTIN.A.七十8↑+10。8五十八3↑+3。7五十八8↑+3。762. 6↑+6。0五十九1↑+10。966岁。5↑+11。563岁3↑+10。563岁0↑+11。0表5. 当标记的结构域1是异质性时的定量比较。报告的增量（绿色和红色）相对于基线（第一行）。最高mIoU值突出显示如下：粗体，考虑所有方法;下划线，仅考虑UDA和DG方法。7060504030（0，0）（25，25）（50，50）（75，75）（100，100）（来自Dnl的标记数据%，来自Dnl的未标记数据%）图4. 标记和未标记数据量的影响。模型在标记的域D1以及未标记的域Dn1的部分（标记的或未标记的）上训练。学习机制不涉及任何风格相关成分的估计。因此，当标记域l是异构的时，我们建议使用UDA或标准监督学习而不是DG方法。此外，我们发现，最好的平均结果由ProDA在两个选项卡。5、Tab3是非常相似的，尽管标记的结构域l非常不同。这意味着标记什么训练数据集并不重要;更重要的是，网络可以访问异构网络，数据，无论是否被标记。5.3. 使用未标记数据在之前的实验中，我们发现，访问未标记的数据允许UDA方法应用技术来提高对未知领域的泛化能力，并且它们甚至可以与在相同数据上训练的完全监督方法相提并论这表明，仅仅收集和使用数据，而不必对其进行注释，是有很大好处的。为了进一步研究这些好处，我们研究了网络使用的标记数据和未标记数据的数量的影响。该分析的结果可以在图中看到。4.首先，虽然这不是这项工作的重点，但当我们考虑mIoUavg时。在所见的区域（米色条）上，该图显示具有100%未标记数据的ProDA与使用25%标记数据的完全监督模型这表明使用未标记数据的方法仍有改进的空间，因为存在相当大的差距。然而，在推广到看不见的领域方面，监督方法和ProDA之间的真正差距。可以观察到，模型的未看到的域（紫色条）的大部分泛化能力已经用未标记数据总量的25%实现。在25%的未标记数据中，ProDA的表现已经与在相同图像上以完全监督方式训练的模型非常相似，即，使用标签。我们甚至观察到，使用100%的未标记数据比使用100%的标记数据更好。由于记录未标记的数据与标记相比是不昂贵的，这表明当目的是泛化时，可以通过简单地使用UDA策略进行训练来避免大量的6. 结论在这项工作中，我们评估了几种最先进的语义分割训练策略，以评估它们在训练过程中泛化到不可见数据的能力。然而，仅仅基于文献是不可能进行公平比较的，我们提出了一个公平的评估设置，其中可以评估现有域泛化（DG）和无监督域自适应（UDA）方法的规范化实现从这个评估协议进行的实验中，我们发现UDA方法产生最好的泛化性能，我们表明，使用未标记数据的能力在实现这一目标中起着关键作用。此外，我们还证明了，当目的是推广到看不见的数据时，未标记的数据可以和标记的数据一样强大。由此，我们可以得出结论，使用UDA策略训练语义分割模型是非常可取的，这些模型需要在野外使用标记和大量未标记数据进行可靠和鲁棒的工作，特别是考虑到未标记数据比标记数据更容易和更便宜。致谢这项工作由荷兰科学研究组织（NWO）在高效深度学习（EDL）计划的背景可见域63.760.053.754.853.854.756.155.542.053.452.750.959.062.259.062.2未知域60.157.7mIoU平均值辅助辅助ProDA监督ProDA监督ProDA监督ProDA监督ProDA监督ProDA监督ProDA监督ProDA监督508引用[1] Hassan Alhaija ， Siva Mustikovela ， Lars Mescheder ，Andreas Geiger，and Carsten

下载后可阅读完整内容，剩余1页未读，立即下载