综合数据在城市空间遥感影像中的有效利用

145 浏览量更新于2023-10-13 收藏 1.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

综合数据在城市空间遥感影像中的有效利用Fatemeh Sadat Saleh1，2[0000−0002−3695−9876]，Mohammad SadeghAliakbarian1，2，3[0000−0003−3948−6418]，MathieuSalzmann4[0000−0002−8347−8637]，Lars Petersson2[0000−0002−0103−1904]，andJose M. 阿尔瓦雷斯5[0000−0002−7535−6322]1个ANU、2个Data 61-CSIRO、3个ACRV、4个CVLab、EPFL、5个NVIDIA{fname.lname}@ data61.csiro.au，mathieu. epfl.ch，josea@nvidia.com抽象。训练深度网络以执行语义分割需要大量的标记数据。为了减轻注释真实图像的手动工作，研究人员已经研究了可以自动标记的合成数据的使用不幸的是，在合成数据上训练的网络在真实图像上表现相对较差。虽然这可以通过域自适应来解决，但现有方法都需要在训练期间访问真实图像在本文中，我们介绍了一种完全不同的方法来处理合成图像，不需要在训练时看到任何真实图像我们的方法是建立在观察前景和背景类不受域转移以相同的方式，因此应区别对待。特别是，前者应该以基于检测的方式处理，以更好地考虑以下事实：虽然它们在合成图像中的纹理不是照片般逼真的，但它们的形状看起来很自然。我们的实验证明了我们的方法在Cityscapes和CamVid上的有效性，模型仅在合成数据上训练关键词：合成数据，语义分割，对象检测，实例级标注1介绍对于许多其他计算机视觉任务，深度网络已被证明在执行语义分割方面非常有效。然而，它们的主要缺点是它们需要大量的标记数据。特别地，获取用于语义分割的这样的数据是非常昂贵的。例如，一个Cityscapes图像的像素标记平均需要90分钟[7]。因此，社区中已经做出了重大努力，依靠计算机图形的进步来生成合成数据集[36，35，37]。尽管这种合成数据的真实性越来越高，但在合成图像和真实图像之间仍然存在显著的感知差异因此，最先进的语义分割网络的性能，例如[4，25，52，28]，这项工作得到了澳大利亚机器人视觉卓越中心的支持2F. Saleh，S.Aliakbarian，M.萨尔茨曼湖Petersson，J.阿尔瓦雷斯方法交通光交通签署人骑手车卡车总线火车摩托车-CLE自行车分割22.323.848.713.375.114.321.22.124.27.3基于检测26.742.552.228.576.219.631.66.918.19.8图1.一、真实Cityscapes图像（上图）和合成GTA5图像（中图）中不同类别的视觉比较背景类（前4列）比前景类（后3列）受域移位的影响小得多，前景类（后3列）在纹理上呈现明显可察觉的差异，但其形状保持逼真。（下）我们比较了语义分割网络（DeepLab）和基于检测的模型（Mask R-CNN）的准确性，两者都只在Cityscapes的前景类上训练合成数据注意，基于检测的方法通过利用形状产生比分割方法好得多的结果。在合成数据上训练并在真实图像上测试的结果仍然令人失望地低。虽然域自适应方法[6，19，20，51，27，5]可以通过明确考虑真实数据和合成数据之间的域偏移来提高这种性能，但它们需要在训练期间访问大量真实图像，尽管是因此，人们不能简单地在新的真实世界环境中部署一个在合成数据上离线训练的模型。在本文中，我们介绍了一种完全不同的方法来解决真实数据和合成数据之间的不匹配，基于以下观察：并不是所有的阶级都有相同类型和程度的感知差异。特别地，如图1所示。1，合成图像中背景类的纹理看起来比前景类的纹理更真实。尽管如此，合成图像中前景物体的形状看起来非常自然。因此，我们认为，这两种不同类型的类应区别对待具体来说，我们认为，语义分割网络非常适合处理背景类，因为它们的纹理现实主义。相比之下，我们期望对象检测器更适合于前景类，特别是考虑到现代检测器依赖于通用对象提案。实际上，当处理所有前景对象类的所有可能的纹理变化1我们区分前景类和背景类，主要是基于它们是否具有明确定义的形状和实例，或者它们是无形状的，并通过纹理或材料属性来识别。在本质上，这与[17]中的事物和材料的区别相对应。示例参见图1有效利用合成数据进行城市场景语义分割3图二、我们的合成VEIS环境的鸟瞰图将前景物体与背景区分开的主要信息源是形状。为了从经验上支持我们的主张，即检测器更适合于前期类别，我们分别训练了DeepLab [4]语义分割网络和Mask R-CNN [16]，在合成数据上执行对象检测，然后执行二进制分割和类别预测。在图的底部。1 ，我们比较了这两个模型在 Cityscapes的前景类上的平均交集（mIoU）。注意，除了摩托车之外，基于检测器的方法在所有类别上都优于语义分割网络。基于这一观察结果，我们开发了一个简单而有效的语义分割框架，可以在训练过程中更好地利用合成数据。本质上，我们的模型将Mask R-CNN产生的前景掩码与DeepLab语义分割网络的像素预测相我们在Cityscapes [7]和CamVid [3]上的实验表明，与仅在合成数据上训练语义分割网络相比，这在真实数据上产生了显着更高的分割准确率。此外，我们的方法优于最先进的域自适应技术[6，19，20，51]，在训练期间没有看到任何真实图像，并且可以通过使用无监督的真实图像进一步改进。此外，作为第二个贡献，我们介绍了一个虚拟环境中创建的Unity3D框架，称为VEIS（虚拟环境实例分割）。这是由于现有的合成数据集[37，36，35]不为标准真实数据集（如CityScapes）的所有前景类提供实例级分割注释。VEIS自动注释合成图像与实例级分割的前景类。它捕捉城市场景，如图。使用安装在虚拟汽车上的虚拟相机，从鸟瞰图示出图2，产生诸如图2的图像六、虽然不是很现实，我们表明，当使用基于检测器的方法，这些数据使我们能够提高语义分割性能，尽管它是只有很少的使用在一个标准的语义分割框架。我们将公开我们的数据和VEIS环境。4F. Saleh，S.Aliakbarian，M.萨尔茨曼湖Petersson，J.阿尔瓦雷斯2相关工作语义分割，即在像素级理解图像，已经被计算机视觉社区广泛研究[43，46，15，26，11，33，42，25，28，4，53，52]。至于许多其他任务，最新的技术依赖于深度网络[4，25，52，28]。不幸的是，与图像识别问题相比，获得具有像素级注释的用于语义分割的全监督数据是非常昂贵和耗时的。因此，研究了两种趋势以克服这种限制：弱监督方法和合成数据的使用。弱监督语义分割旨在利用较弱形式的注释，例如图像标签[23，30，32，34，40，41，49，48，29]，边界框[8，21]，涂鸦[2]和对象大小统计[31]，这些都是更便宜的。虽然在这一领域已经取得了很大的进展，大多数现有的方法只关注前景对象类和治疗的背景作为一个单一的实体。然而，具有关于不同背景类的详细信息在许多实际场景中是至关重要的，例如自动驾驶，其中一个或多个背景类可以是一个或多个背景类。需要区分，例如，从一片草地的道路。据我们所知，[39]构成了考虑弱监督语义分割的多个背景类的唯一方法。这是通过经由使用基于损失的训练的双流架构利用外观和运动两者来实现的。分类器热图上。虽然这种方法在细分市场上相当有效-对于背景类，与完全监督方法相比仍然存在巨大差距，特别是在前景类中。随着计算机图形学的发展，生成全监督合成数据已经成为弱监督学习的一个有吸引力的替代方案。这已经产生了几个数据集，如SYNTHIA[37]，GTA5 [36]和VIPER [35]，以及用于生成数据的虚拟环境[9]。不幸的是，尽管这种合成数据的真实性越来越高，但简单地在合成图像上训练深度网络以将其应用于真实图像仍然会产生令人失望的结果。该问题是由于真实数据和合成数据之间的域移位，并且具有因此，通过域自适应方法[6，19，20，51，27，5]来解决，其本质上旨在减少两个域的特征分布之间的差距。在[20]中，这是通过受[12，13]的方法启发的域对抗训练策略来实现的。这在[5]中进一步扩展，不仅可以对齐全局统计数据，还可以对齐特定于类的统计数据。领域对抗训练在[6]中与基于蒸馏概念的特征正则化器相结合[18]。在[51]中，引入课程样式学习以在整个图像和超像素上对准标签分布。相比之下，[19]和[27]依赖于具有周期一致性的生成方法来适应像素级和特征级表示。虽然这些方法优于简单地在合成数据上训练网络，而没有任何形式的适应，但它们都依赖于具有AC。在训练过程中，在没有监督的情况下使用真实图像。因此，他们不能直接部署到新的环境中，而无需经历新的培训阶段。有效利用合成数据进行城市场景语义分割5在这里，我们遵循正交方法来利用合成数据，基于前景和背景类受到合成图像和真实图像之间的不同感知失配的观察。因此，我们建议依赖于一个标准的语义分割网络的背景类，其纹理看起来相当逼真，并在基于检测的策略，为前景对象，因为，虽然他们的纹理看起来不那么自然，他们的形状是现实的。我们的实验证据表明，这优于国家的最先进的域适应策略。然而，正交域自适应，我们的方法也可以与域自适应技术结合使用。事实上，[45]也认为现代检测器依赖于形状并丢弃背景纹理，为对象检测任务引入了一种域自适应方法，该方法可能用于处理我们方法中的前景类。但我们认为，这超出了本文件的范围。3方法在本节中，我们将介绍我们的方法，以有效地使用合成数据在真实驾驶场景中进行语义分割。请注意，虽然我们专注于驾驶场景，我们的方法推广到其他语义分割问题。然而，合成数据通常更容易为城市场景生成。下面，我们首先考虑在训练期间无法访问任何真实图像的情况然后，我们引入一个简单的策略，利用无监督的真实图像的可用性。3.1基于检测的语义分割如上所述，并由图1B所示1、合成图像和真实图像中前地类和背景类的感知差异是不同的。事实上，合成图像中的背景类看起来相当逼真，呈现非常自然的纹理，而前景类的纹理看起来确实是合成的，但是它们的形状是逼真的。因此，我们建议使用语义分割网络来处理背景类，而不是使用基于检测的技术来处理前景类。下面，我们将更详细地描述这一点，然后讨论如何在真实图像上执行语义分割。处理前景类。为了处理后台类，我们使用基于VGG16的DeepLab模型，如图所示3.第三章。具体来说，我们使用具有大视场和膨胀卷积层的DeepLab [4]。我们在GTA5数据集[36]上训练这个模型，其中背景类看起来像照片一样逼真。之所以选择这个数据集，也是因为它包含了常用的真实数据集的所有类，例如Cityscapes和CamVid。为了训练我们的模型，我们使用由合成图像的两个w或k的请注意，网络在所有类上进行训练，包括6F. Saleh，S.Aliakbarian，M.萨尔茨曼湖Petersson，J.阿尔瓦雷斯图三.处理背景类。我们利用在合成GTA5 [36]帧上训练的DeepLab语义分割框架，具有相应的每像素注释。见图4。处理前台类。我们依赖于基于检测的Mask R-CNN框架，该框架在我们的具有实例级注释的合成VEIS数据上训练请注意，这些注释是自动获得的。前景预测和背景预测是相同的，但是，如稍后所解释的，前景预测大多被我们的方法丢弃。处理前景类。对于前景类，我们的目标是利用基于检测的方法，如第1节所述，该方法更强烈地依赖于对象形状而不是纹理，从而使合成数据的纹理真实性不那么重要。由于我们的最终目标是产生一个像素明智的分割的对象，我们建议依靠基于检测的实例级语义分割技术。请注意，一旦检测到对象，在其边界框内将其从背景中分割出来是比整个图像的语义分割相对更容易的任务。因此，纹理真实性在这里也不是至关重要的。为了解决这个任务，我们使用Mask R-CNN [16]，它满足我们的标准：如示于图在图4中，其依赖于初始对象检测阶段，随后是二进制掩模提取以及对象分类。由于现有的合成数据集不为标准真实数据集的所有前景类提供实例级分割，因此我们使用我们自己的合成数据训练Mask R-CNN，如第4节所述。我们使用[16]中描述的标准架构以及标准损失，其组合了检测，分割，分类和回归项。真实图像的预测。上述两个网络仅使用合成数据进行训练。在测试时，我们可以向每个网络提供真实图像以获得预测。然而，我们的目标是获得单个的、逐像素的语义分割，而不是两种单独的输出。为了实现这一点，如图所示5、我们将两种预测进行融合，从有效利用合成数据进行城市场景语义分割7图五.融合前景和背景预测。我们的方法将基于检测的前景预测与语义分割方法的结果相请注意，我们不需要在训练过程中看到任何真实图像屏蔽R-CNN。具体来说，给定Mask R-CNN预测，我们遵循受[22]的全景分割过程启发的策略，该策略构成了一种类似NMS的方法来组合实例片段。更确切地说，我们首先根据它们的置信度得分对预测的片段进行排序，然后从最有信心的片段开始迭代这个排序的列表如果当前段候选与先前段重叠，则我们移除重叠区域中的[22]的原始程序依赖于两个不同的阈值：一个用于丢弃低得分片段，另一个用于丢弃不重叠但太小的片段区域。这些阈值的值通过在真实图像上的网格搜索获得由于我们无法访问真实图像的地面实况注释，实际上在训练期间甚至无法访问真实图像，因此我们忽略这两种启发式方法来丢弃片段，因此在组合Mask R-CNN预测时考虑所有片段和所有非重叠片段区域。组合Mask R-CNN预测产生语义分割图，其仅包含前景类并且具有大量孔，其中没有发现前景对象为了获得最终的语义分割图，我们用DeepLab网络获得的预测来填充这些漏洞。也就是说，每个尚未分配给前景类的像素在DeepLab结果中的该像素位置处具有最高概率3.2利用无监督真实图像第3.1节中描述的方法在训练期间仅使用合成图像然而，在一些场景中，可以在训练时访问未标记的真实这实际上是域自适应技术所做的假设。为了将我们的方法扩展到这种情况，我们建议将通过第3.1节的方法获得的预测视为真实图像的伪地面实况准确地说，我们对这些预测做了一个小小的改变：在组合Mask R-CNN预测后留下的洞中，我们将DeepLab模型预测为前景类的像素分配给忽略标签，这样它们就不会用于训练。这是由如下事实激发的：如上所述，由标准语义分类器对前景类的预测是不可能的。8F. Saleh，S.Aliakbarian，M.萨尔茨曼湖Petersson，J.阿尔瓦雷斯图六、从我们的合成VEIS数据集自动获得的示例图像和相应的实例级分段网络不可靠。然后，我们使用产生的伪标签作为地面实况，从真实图像中训练DeepLab语义分割网络。正如我们的结果所示，由于我们的初始预测质量良好，这有助于进一步提高分割精度。4VEIS环境和数据集在本节中，我们将介绍我们的实例段虚拟环境a-（VEIS）和在我们的实验中使用的所得数据集。虽然已经有许多合成数据集用于城市场景中的语义分割任务[37，36，35]，但它们各自都存在一些缺点。特别是，GTA5 [36]没有实例级注释，因此不适合我们的目的。相比之下，SYNTHIA [37]和VIPER [35]确实具有实例级注释，但并不适用于常用真实数据集的所有前景类，例如Cityscapes。例如，SYNTHIA中缺少火车、卡车、红绿灯和交通标志，VIPER中缺少骑手、交通标志、火车和自行车。此外，[36，35]是使用商业游戏引擎Grand Theft Auto V（GTAV）获得的，其仅提供有限的自由度用于定制和控制要捕获的场景，因此难以获得大的多样性和良好的类平衡。在GTAV游戏中获得地面实况实例级符号也涉及相当复杂的过程[35]。环境为了缓解这些困难，我们使用了Unity3D [47]游戏引擎，其中可以手动设计具有常见城市结构的场景，并将表示前景类的免费3D对象添加到场景中。示例3D场景如图所示。2.访问源代码和手动构建场景都有助于自动生成注释，例如实例级像素级标签。具体来说，在开始生成框架之前，我们的框架会计算每个类的实例数量，然后为每个实例分配一个唯一的ID。然后，这些唯一的ID会自动为其对应的实例创建唯一的纹理和着色器。当数据生成开始时，原始纹理和着色器有效利用合成数据进行城市场景语义分割9自动创建的图像被渲染，从而允许我们同时实时捕获合成图像和实例级语义分割图。创建VEIS需要1天，1人。这是非常小的努力，考虑到VEIS允许我们访问几乎无限数量的带注释的图像，这些图像具有标准真实城市场景数据集的对象类，例如CamVid和CityScapes。如从图1中所示的样品可以看出。6，由VEIS生成的图像看起来不如[36，35]的图像真实。因此，正如我们的实验所证明的那样然而，在我们提出的基于检测的框架内使用这些图像使我们能够显着提高语义分割质量。这是由于这样一个事实，即虽然在纹理上不真实，但由VEIS生成的前景对象在形状上是真实的，并且我们的环境允许我们覆盖广泛的形状和姿势变化。请注意，原则上，我们可以使用其他开源框架来生成我们的数据，例如CARLA [9]，作为虚幻引擎4（UE4）的开源层实现[10]。然而，对于我们的调查来说，卡拉有点太先进了。它针对完整的自动驾驶管道，有三种不同的方法，包括标准模块化管道，基于模仿学习的端到端方法和基于强化学习的端到端由于我们的目标只是生成覆盖大量前景对象的合成图像，因此我们发现Unity3D已经足够并且更容易部署。VEIS数据集。使用我们的VEIS环境，我们从两种不同类型的场景生成图像：1）多类复杂场景，其中用不同类的各种对象合成类似城市的环境2）单类、简单场景，其中单个类的一个或多个对象被放置在具有背景项（例如，道路、人行道、建筑物、树、天空），并且捕获来自多个视图的图像。我们的VEIS数据集，然后包含30180帧从多类场景和31125帧从单类场景，总计61305帧与相应的实例级语义分割。请注意，实例级注释是在没有人为干预的情况下获得的该数据集的一些统计数据见表1。特别是，我们为大多数类使用了少量独特的3D对象，并在场景中重复它们，但在适用的情况下使用不同的姿势和清晰度。5实验在本节中，我们首先描述实验中使用的数据集，并提供有关我们的学习和推理过程的详细信息。然后，我们提出了我们的模型的结果，并将其与最先进的弱监督语义分割和域自适应方法进行比较。10F. Saleh，S.Aliakbarian，M.萨尔茨曼湖Petersson，J.阿尔瓦雷斯表1.我们合成数据的一些统计类#唯一实例3 6931 1 13 63 3 74数据集中的实例数101771 26101517655267073148760 268474508212071 50687676725.1数据集为了训练我们的模型和基线，我们使用了合成的GTA5数据集[36]和第4节中介绍的新VEIS数据集。此外，我们还提供了在合成SYNTHIA[37]和VIPER [35]数据集上训练的全监督模型的结果在测试时，我们在CityScapes [7]和CamVid [3]道路场景数据集的真实图像上评估模型。下面，我们简要讨论这些数据集的特征。GTA5 [36]是使用侠盗猎车手V视频游戏捕获的，包含24966张照片般逼真的图像，并带有相应的像素级注释。图像的分辨率为1920×1080，语义类别的类定义与Cityscapes数据集中的定义兼容。VIPER [35]是一个比GTA5稍微更新的数据集，也是使用侠盗猎车手V视频游戏获得的，但覆盖了更广泛的天气条件。它包含超过250K的高分辨率（1920×1080）视频帧，所有这些视频帧都带有地面实况标签，用于低级和高级视觉任务，包括光流，语义实例分割，对象检测和跟踪，对象级3D场景布局和视觉里程计。在我们的实验中，利用VIPER的模型使用该数据集的训练和验证集（超过180K帧）进行训练虽然VIPER比GTA5更大，但它的标签并不真正与Cityscapes兼容。例如，类骑手和墙是失踪;类杆已被纳入基础设施2;汽车的窗户没有标记为汽车不像在城市景观。这就解释了为什么我们的大多数实验都依赖于GTA5。SYNTHIA [37] 是另一个合成图像数据集，其中一个子集称为SYNTHIA-RAND-CITYSCAPES，旨在与Cityscapes兼容该子集包含9，400个具有像素级语义注释的图像。但是，有些类（如火车、卡车和地形）没有注释。至于VIPER，我们展示了在SYNTHIA上训练的全监督方法的性能。这是为了完整性，即使我们喜欢GTA5，因为它包含了所有的城市景观类。Cityscapes [7]是一个大规模的真实图像数据集，包含从50个不同城市的街道场景中收集的5000张图像的高质量像素级注释还有另一组具有粗略级别注释的图像。我们在500个验证图像上报告所有模型的结果。此外，在训练过程中依赖于无监督真实图像的方法，包括我们的方法，使用该数据集的22971个train/train-extra RGB帧进行训练2为了评估极点类别，我们将任何基础设施预测视为极点，这是这个稍微更广泛的类别中的主要标签。有效利用合成数据进行城市场景语义分割11CamVid [3]由超过10分钟的高质量30 Hz镜头组成。这些视频以960×720的分辨率拍摄，内部安装了摄像头一辆车四个序列中的三个是在白天拍摄的，第四个是在黄昏拍摄的。该数据集包含32个类别。在我们的实验中，在[3]之后，我们使用了11个类的子集该数据集分为367个训练图像、101个验证图像和233个测试图像。请注意，对于Cityscapes数据集，我们在测试集上进行评估，并且在无监督数据上进行训练时，使用训练+验证的RGB帧，而没有任何类型的注释。5.2实现细节如第3节所述，我们的方法使用两种类型的网络：DeepLab（大FOV）[4]用于语义分割，Mask R-CNN [16]用于实例级分割。下面，我们将简要讨论这些模型。DeepLab。为了使用合成GTA5数据集或具有伪地面实况的真实图像来训练我们的语义分割网络，我们使用了具有大视场和扩张卷积层的DeepLab模型。我们依赖于随机梯度下降，学习率从25 × 10 −5开始，每40 k次迭代减少因子为10，动量为0。9，权重衰减为0。0005和大小为1的小批量与最近的方法类似[39，4，25，52]，我们的语义分割网络的权重使用在ImageNet [38]上预训练的VGG-16分类器[44]的权重进行初始化请注意，由于GPU内存有限，我们在使用Cityscapes、GTA5、VIPER和SYNTHIA进行训练时，将它们的高分辨率图像降采样了2倍。面罩R-CNN。为了训练Mask R-CNN网络，我们利用由“Det et ect ron”fram or k [ 14]提供的简单方法。我们在我们的合成VEIS数据集上创建了一个具有64× 4d ResNeXt-101-FPN主干的end-to-endMask R-CNN模型，该模型在ImageNet我们使用大小为1的小批量并训练模型进行20万次迭代，从0.001的学习率开始，在10 万次迭代后将其降低到0.0001。5.3评价方法在我们的实验中，我们报告了以下方法的结果：GTA5 [6]：该基线表示由[6]的作者在GTA5上训练的DeepLab模型。我们直接报告[6]中提供的数字。GTA5：这对应于我们对上述基线的复制我们发现我们的实现产生的平均准确度比[6]中报道的高9.4%。因此，这是我们真正的基线。SYNTHIA ：这是指在 SYNTHIA [37] 数据集而不是 GTA5 上训练的DeepLab模型。VIPER：此基线表示在VIPER数据集上训练的DeepLab模型。VEIS：这相当于在我们的新数据集上训练DeepLab模型。注意，这里我们考虑了所有的类，包括前景类和背景类，12F. Saleh，S.Aliakbarian，M.萨尔茨曼湖Petersson，J.阿尔瓦雷斯对于语义分割，忽略实例的概念。GTA5+VEIS：这表示在GTA5和我们用于语义分割的新数据集上联合训练的DeepLab模型。GTA5+VEIS和假GT：对于该基线，我们使用GTA5+VEIS基线的结果来生成真实图像上的伪标签。然后，我们使用这些伪标签作为地面事实训练了另一个DeepLab网络。本质上，这对应于第3.2节中讨论的方法，但不以基于检测的方式处理前景类。我们的：这对应于我们在第3.1节中的方法，它依赖于GTA 5合成数据，并使用基于检测的前景类模型，结合DeepLab语义分割网络用于背景类。我们的和伪GT：这包括使用上面的方法（我们的）在真实图像上生成伪标签，并从这些伪标签中训练DeepLab模型，如第3.2节所介绍的。5.4实验结果现在，我们在Cityscapes和CamVid的真实图像上比较上面讨论的不同方法的结果此外，我们还将我们的方法与Cityscapes上最先进的弱监督语义分割和域自适应方法进行了比较。在表2中，我们提供了上述方法在Cityscapes上的结果前景类将突出显示。从本质上讲，我们可以看到GTA5比单独在数据集{SYNTHIA，VIPER，VEIS}上训练DeepLab更好，因为这些数据集不包含所有Cityscapes类{SYNTHIA，VIPER}，或者因为它们不太现实{VEIS}。用VEIS补充GTA5{ GTA5+VEIS}仅小幅度地改进结果，这也是因为非照片真实的VEIS图像。相比之下，在我们的方法（我们的）中联合使用这是因为我们处理前景类的基于检测的方式对照片真实感不太敏感，而是关注形状，这在我们的VEIS数据中看起来很自然事实上，我们的改进对于前景类特别显著。最后，虽然使用来自{GTA5+VEIS}基线的伪标签仅产生微小的改进，但它们在我们的框架内的使用提供了显着的准确性提升。一些定性结果如图所示。7.第一次会议。在表3中，我们将我们的方法与[39]的弱监督方法以及最先进的域自适应方法进行了比较。结果这些方法直接取自各自的论文。请注意，即使根本没有看到Cityscapes图像，我们的方法（我们的）也超过了所有这些基线。使用无监督的Cityscapes图像（我们的+伪GT）有助于进一步改善基线。为了证明我们的方法适用于没有域转移的情况，我们在Cityscapes上训练了它的两个组件，并在Cityscapes验证集上对其进行了评估（Fully Sup.表3）。这显著地提高了前景类（例如，人、汽车、卡车、公共汽车、火车、摩托车、自行车）。有效利用合成数据进行城市场景语义分割13表2.在合成数据上训练的模型的比较。所有结果均报告在Cityscapes验证集上。注意，ps-GT（伪GT）指示在训练期间使用未标记的真实图像。表3.与域自适应和弱监督方法的比较。所有方法都是在GTA5上训练的，除了[39]不使用合成图像，而我们使用GTA5作为背景类，VEIS作为前景。域自适应方法和Ours+Pseudo-GT在训练期间使用未标记的真实结果报告在Cityscapes验证集上。请注意，下面的所有模型都使用与我们相同的主干架构（DeepLab或FCN8）。方法路边。buil。壁栅栏杆灯标志蔬菜。陆地天空人乘用车货车客车列车电动机自行车Miou完全Sup。95.8 70.4 85.4 42.7 41.0 21.2 33.7 44.8 86.2 51.4 88.4 58.1 30.1 86.4 43.8 56.7 42.8 33.9 54.856.2完全Sup。我们95.6 70.1 86.1 43.8 41.4 16.6 31.3 43.3 85.9 52.0 89.6 67.0 29.9 87.7 61.8 72.7 53.1 50.8 60.560.0弱-Sup。[39]第三十九届75.9 1.5 41.714.115.3 6.34.47.7 58.4 12.6 56.2 16.2 6.1 41.2 22.7 16.6 20.4 15.7 14.923.6[20]第二十话70.4 32.4 62.114.95.4 10.9 14.2 2.7 79.2 21.3 64.6 44.1 4.2 70.4 8.07.30.03.50.027.1课程[51]74.8 22.0 71.76.011.9 8.4 16.3 11.1 75.7 13.3 66.5 38.0 9.3 55.2 18.8 18.9 0.0 16.8 14.628.9公路[6]85.4 31.2 78.6 27.9 22.2 21.9 23.7 11.4 80.7 29.3 68.9 48.5 14.1 78.0 19.1 23.8 9.4 8.3 0.035.9苏铁[19]85.2 37.2 76.5 21.8 15.0 23.8 22.9 21.5 80.5 31.3 60.7 50.5 9.0 76.9 17.1 28.2 4.5 9.835.4我们71.9 23.8 75.5 23.4 14.9 9.3 26.7 42.5 80.1 34.0 76.3 52.2 28.5 76.2 19.6 31.6 6.9 18.1 9.838.0我们的+伪GT79.8 29.3 77.8、24.2 21.6 6.9 23.5 44.2 80.5 38.0 76.2 52.7 22.2 83.0 32.3 41.3 27.0 19.3 27.742.5表4中的CamVid结果显示了类似的趋势，其中我们将我们的方法与利用CamVid图像和注释来训练模型的全监督技术、基于GTA 5的基线和最先进的弱监督方法进行了比较。我们的方法明显优于[39]的弱监督方法和在合成数据上训练的DeepLab语义分割网络事实上，在这个数据集上，它的性能优于一些依赖于注释CamVid图像进行训练的完全监督方法。5.5形状与存在域移位的纹理除了图1，我们的实验表明，形状比纹理前景类时，处理域移位更有代表性。为此，首先，我们训练了一个二进制VGG-16分类器，以确定前景对象的轮廓是来自真实数据还是合成数据。我们使用了VEIS数据集的合成数据和Cityscapes的真实数据。我们发现，这样的分类器是不可靠的，以区分这两个类，实现了70.0%的准确率，尽管我们尽最大努力训练它。请注意，这是比机会，因为合成轮廓是完美的，而真正的GTA5 [6]GTA5SYNTHIAVIPERVEISGTA5 +VEIS29.8 16.0 56.6 9.2 17.3 13.5 13.6 9.8 74.9 6.7 54.3 41.9 2.9 45.0 3.3 13.1 1.36.00.0二十一点九80.5 26.0 74.7 23.0 9.8 9.1 13.4 7.3 79.4 28.6 72.1 40.4 5.1 77.8 23.0 18.6 1.2 5.3 0.036.7 22.7 51.0 0.3 0.1 16.6 0.1 9.5 72.5 0.036.9 19.0 74.70.05.37.110.0 10.1 78.7 13.6 69.6 43.00.041.2 20.8 13.90.09.10.0 23.970.89.550.90.00.00.315.6 26.8 66.8 12.7 52.3 44.0 14.2 60.6 10.28.23.25.5 11.8 24.466.2 21.6 72.3 15.7 18.3 12.3 22.3 23.8 78.4 11.3 74.6 48.7 13.3 75.1 14.3 21.2 24.2 7.3 32.8GTA5+VEIS ps-GT 77.6 26.8 75.5 19.4 19.5 4.8 18.7 19.8 79.5 21.7 78.9 47.3 8.7 77.6 23.1 16.1 2.2 15.6 0.0 33.3我们的71.9 23.8 75.5 23.4 14.9 9.3 26.7 42.5 80.1 34.0 76.3 52.2 28.5 76.2 19.6 31.6 6.9 18.1 9.8 38.0我们的ps-GT 79.8 29.3 77.8 24.2 21.6 6.9 23.5 44.2 80.5 38.0 76.2 52.7 22.2 83.0 32.3 41.3 27.0 19.3 27.7 42.5路的方面想buil。壁围栏极光签署蔬菜陆地天空人骑手车卡车总线火车电机自行车Miou14F. Saleh，S.Aliakbarian，M.萨尔茨曼湖Petersson，J.阿尔瓦雷斯表4. 在CamVid上与完全监督和弱监督方法进行比较方法build.蔬菜天空汽车标志道路ped。篱笆杆边。骑车人MiouSegNet [1]68.7 52.0 87.0 58.5 13.4 86.2 25.3 17.9 16.0 60.5 24.846.4刘和他[24]66.8 66.6 90.1 62.9 21.4 85.8 28.0 17.8 8.3 63.547.2[25]第二十五话n/a52.0DeepLab-LargeFOV [4，50] 81.5 74.6 89.0 82.2 42.3 92.2 48.4 27.2 14.3 75.4 50.161.6扩张8 [50]82.6 76.2 89.9 84.0 46.9 92.2 56.3 35.8 23.4 75.3 55.565.3虚弱的Sup [39]第三十九届58.9 46.4 83.8 26.5 12.0 64.4 8.0 11.3 3.11.1十一点零29.7GTA566.6 53.9 61.4 70.4 32.8 80.9 28.2 24.4 14.6 57.1 0.044.6GTA5+VEIS73.6 54.2 77.9 66.2 33.6 77.3 26.1 16.0 3.344.4我们66.3 55.0 61.9 73.4 37.4 82.7 41.4 23.9 9.2 57.747.6我们的+伪GT72.3 55.2 72.6 73.1 37.4 83.9 39.9 33.2 1.248.8地面实况GTA5+VEIS Ours Ours ps-GT见图7。城市景观的定性结果手动获得我们对纹理化的前地面对象（但没有背景）进行了相同的实验，并且发现相同的分类器随后是成功的，准确率为95.1%。这表明纹理确实比形状更能指示数据域，因此支持我们的主张。作为第二个实验，我们在合成前景VEIS对象的轮廓上训练了多类分类器所得的分类器实现了81.0%的准确性的真实数据，与89.2%的合成样品的验证集。在纹理轮廓上训练相同的分类器，在真实数据上的准确率为83.7%，在合成数据上的准确率为94.2%换句话说，当在纹理数据上训练时，真实域和合成域之间存在更大的精度差距，从而进一步表明形状对域偏移更鲁棒。6结论我们已经引入了一种方法，通过以基于检测的方式处理前景类，有效地利用合成训练数据进行城市场景中的语义分割我们的实验已经证明，这超过了从合成数据和最先进的领域自适应技术训练标准的语义分割网络。然而，我们的方法是正交域适应。因此，在未来，我们将研究如何域适应可以纳入我们的框架。有效利用合成数据进行城市场景语义分割15引用1. Badrinarayanan，V.Handa，A.，Cipolla，R.：Segnet：一种深度卷积编码器-解码器架构，用于鲁棒的语义逐像素标记。arXiv预印本arXiv：1505.07293（2015）2. A.，A.， Russakovsk y，O.，我是V， Fei-Fei，L. ：What在：欧洲计算机会议Vision. pp. 549-565 02TheDog（2016）3. 布罗斯托，G.J.Fauqueur，J.，Cipolla，R.：视频中的语义对象类：一种高分辨率的查找方法。PATTERECOG NITIO NLETTERS30（2），884. Chen ， L.C. ，帕潘德里

下载后可阅读完整内容，剩余1页未读，立即下载