域随机化和金字塔一致性：无目标域数据的语义分割模型的领域泛化方法

42 浏览量更新于2023-10-16 收藏 1.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2100域随机化和金字塔一致性：不含目标域数据的岳翔宇1，张杨2，赵思成1，阿尔韦托·桑吉瓦尼-文森泰利1，库尔特·科伊策1，龚伯庆31加州大学伯克利分校，2中佛罗里达大学，3谷歌{xyyue，schzhao，alberto，keutzer}@ berkeley.edu，yangzhang4065@gmail.com，boqinggo@outlook.com摘要我们建议利用模拟的潜力，以领域泛化的方式对现实世界的自动驾驶场景进行语义分割。分割网络在没有任何目标域数据的情况下进行训练，并在未见过的目标域上进行测试。为此，我们提出了一种新的域随机化和金字塔一致性的方法来学习具有高泛化能力的模型。首先，我们提出了随机化的合成图像的风格的真实图像的视觉apeperencies使用辅助数据集，以有效地学习域不变的表示。其次，我们进一步加强金字塔的一致性，在不同的将 GTA 和 SYNTHIA 推广到Cityscapes、BDDS和Mapillary;并且我们的方法实现了优于现有技术的结果。值得注意的是，我们的推广结果与最先进的模拟到真实域自适应方法（在训练时访问目标域数据）所获得的结果相当，甚至更好。11. 介绍模拟已经激发了人们对训练深度神经网络（DNN）进行计算机视觉任务的兴趣[53，10，23，55]。这部分是由于社区此外，通过仿真生成的训练数据通常成本低且多样，特别有利于需要大量人工注释的任务（例如语义分割[19，57，18]）。最后，在自动驾驶的情况下，模拟可以补充在-1我们的代码可在https://github.com/xyyue/DRPC上获得。图1.域随机化和金字塔一致性使学习的语义分割网络对域的变化保持不变因此，语义分割网络可以推广到各种领域，包括真实场景的领域。通过合成罕见的事件和场景，例如建筑工地、车道合并和事故，充分覆盖真实数据。总之，仿真的承诺是，人们可以方便地从模拟环境中获取大量的标记和这种规模对于训练具有数百万参数的最先进的深度卷积神经网络（CNN）至关重要。然而，当我们从合成数据集学习语义分割神经网络时，其与真实世界场景的视觉差异通常会降低其在真实图像上的性能。为了减轻仿真和真实世界之间的域失配，现有的工作通常采用域自适应[19，18，57]，其目的是通过从源合成数据和目标真实域的（通常未标记的）数据不幸的是，这种设置以自动驾驶为例。汽车制造商几乎不可能事先知道车辆将在哪个领域（哪个城市、什么天气、白天或晚上）使用。在本文中，我们建议从域泛化方式[1，27，14，46]中利用模拟的潜力，而不需要访问任何目标地面实况aB不同风格的图片不同风格的图像裁剪卷积神经网络一B金字塔池化卷积神经网络. ..分割损失金字塔一致性损失2101领域数据的训练，但旨在推广到多个现实世界的目标领域。我们专注于自动驾驶场景的语义分割，但所提出的方法很容易适用于类似的任务和场景。我们的主要思想是随机标记的合成图像的风格的真实图像。我们进一步执行语义分割网络，以金字塔形式在这些领域中生成一致的预测我们的推测是，如果网络在训练阶段暴露于足够数量的域，它应该很好地插入相比之下，域自适应工作[19，57，18]可以被视为从单个源域外推到单个目标域。我们的方法包括两个关键步骤：域随机化和一致性强制训练，如图1所示。与[48，39]不同，我们不需要对模拟器进行任何控制来随机化源域图像。相反，我们利用最近先进的图像到图像转换[60]将源域图像转换为多个样式，每个样式称为辅助域。与操纵模拟器相比，这至少有三个优点。首先，它使我们能够从现实世界中选择辅助域。毕竟，我们的目标是在真实数据上实现良好的性能。其次，我们有一个更具体的预期，灰的外观随机图像，因为我们认为辅助域。最后，根据辅助域自然地对随机化的图像进行分组。最后一点有助于我们在第二步中设计有效的技术，以域不变的方式训练网络在我们方法的第二步中，我们训练了一个深度CNN，用于具有金字塔一致性损失的语义分割如果网络不仅适合合成源域，而且适合辅助域-具有真实图像风格的合成图像，则它可以在一定程度上对域变化保持不变，从而很好地推广为了确保不同训练域的性能一致，我们显式地正则化了网络我们发现，在平均池金字塔上而不是原始特征图上应用正则化是至关重要的，这可能是因为池金字塔为网络提供了一定的灵活性-金字塔允许网络在最细粒度的像素级别上产生一些错误，只要不同训练域的平均激活大致相同。据我们所知，这是第一个工作，探索域随机化的语义分割问题。实验表明，所提出的方法产生了强大的域不变的CNN训练使用合成图像。这些CNN模型可以很好地推广它的性能明显优于简单的仅源代码基线和新设计的网络[34]，后者通过混合批处理和实例规范化来减少网络我们的结果与通过访问训练中的目标数据获得的最先进的域自适应结果相当2. 相关工作我们现在讨论一些相关的工作，语义分割，域适应，域泛化，域随机化和数据增强。用于语义分割的领域自适应。直到[19，57]首次研究了语义分割中的域转移问题，大多数关于域自适应的工作都没有解决这个问题。基于图像分类的任务。在那之后，这个问题随后成为2017年视觉领域适应挑战赛（VisDA）的赛道之一[35]，并开始受到越来越多的关注。从那时起，对抗训练已被用于以下大多数工作[18，3，41，58]中的特征对齐。这些工作中的大多数都受到[13]中的无监督对抗主适应方法的启发，该方法与生成对抗网络具有相似的思想它们最重要的目标之一Zhang等人。 [57]通过在图像中全局和跨超像素对齐标签分布来执行分割自适应。最近，已经提出了一种通过类平衡自训练进行语义分割的无监督域自适应方法[63]。有关其他相关工作的简要调查，请参阅[56域泛化与域自适应相反，在域自适应中，网络在已知目标域和目标域中的图像上进行测试，尽管没有标签，在训练过程中可以访问，域泛化在看不见的域上进行测试[31，12]。目前的领域推广研究主要集中在图像分类问题上.图像数据很难手动划分为离散域，[15]设计了一个非参数公式和优化程序来发现训练和测试数据中的域。[28]采用最大均值离散性度量来调整不同域之间的[26]在训练过程中为每个训练域分配一个单独的网络副本，并使用共享参数进行推理。[27]通过在分割训练集上使用元学习方法来提高泛化性能。域随机化。域随机化（DR）是域自适应技术的一个补充类。Tobin等人 [46]引入了域随机化的概念。他们的方法随机改变纹理以及前景对象的颜色、背景图像、场景中的灯的数量、灯的姿态2102源图像（c）第（1）款（e）（f）第（1）款n辅助域结果图像图2.域随机化过程。顶部：来自源域的原始合成图像; Mid：由ImageNet类组成的辅助图像集：（a）大白鲨，（b）救护车，（c）气压计，（d）网球，（e）开罐器，（f）通气管，（g）网球;底部：与合成图像具有相同图像内容的风格化图像，同时具有ImageNet类的相应样式。摄像机位置等。其目标是通过生成具有足够变化的合成数据来缩小现实差距，使网络将现实世界的数据视为另一种变化。视觉域中的随机化已被用于将基于视觉的策略从模拟直接转移到现实世界，而无需在训练期间使用真实图像[39，46]。DR还用于进行物体检测和6D姿态估计[49，36，45]。上述所有DR方法都需要在仿真环境中修改对象。相反，我们提出了一种不同的DR方法，它与所有上述方法正交。数据增强。数据增强是用从数据集中的信息创建的类似数据补充数据集的过程，这在深度应用中无处不在。学习在处理图像时，它通常包括对现有图像应用旋转，平移，模糊和其他修改[4，51，42]，以允许网络更好地泛化[43]。在[25]中，提出了一种网络，通过合并来自同一类的两个或更多个样本来自动生成增强数据。在[47]中提出了一种贝叶斯方法，用于根据从训练集学习的分布生成数据。在[9]中，在学习的特征空间中使用简单的变换来增强学习具有更好泛化能力的表示。3.1. 域随机化与风格化请记住，目标域由真实图像组成，我们从Ima-geNet [8]中随机抽取K个真实类别来对合成图像进行风格化每个范畴称为一个辅助域。然后，我们使用图像到图像转换工作[60]将合成图像映射到每个辅助域。结果，训练集被增加到原始大小的K+1图2说明了这一过程和一些定性的结果我们可以看到，每个辅助域通过不同的真实世界元素对合成图像进行风格化。同时，在图像的大部分区域保留了原图像的语义内容一些关于风格转移的边缘保持方法[29]可能会产生更好的结果，并留给未来的工作。一种简单的方法是使用增强的训练集来训练CNN分割模型。用Dk，k=0，1，·· ·，K表示训练域，其中D0表示合成图像的原始源域，Dk，k >0表示辅助域。合成图像I0∈D0在辅助语中有K个程式化副本Ik∈Dkn n数据反例被认为是帮助数据增强-在[11]中。最近，AutoAugment被提出来从数据中学习增强策略[6]。我们在本文中提出的域随机化类型也可以域，但它们都共享相同的语义分割图Yn作为标签。用于训练分割网络f（·;f）的目标函数是：这被认为是一种数据增强。minθL：=1XXKZ⇣LYn，f（Ik;n）⌘、（1）3. 方法我们的方法的主要思想是双重的，如图1所示。第一部分是域随机化与风格化：将合成图像映射到多个辅助实域（参见。在训练阶段，目标域不是CNN模型的惊喜，而只是另一个真实域。第二部分是一致性强制训练：在域和图像内强制金字塔一致性nk=0其中，k表示网络的权重，L（·，·）是网络的最小值。一个. 的逐像素交叉熵损失，并且Z=（K+1）。D0. 是归一化常数。我们的实验（cf.第4节）显示网络使用此增强训练集D0D1···DK进行训练更好地推广到看不见的目标域，而不是使用单源域D0。两个因素可能导致这个结果：1）训练集的大小增加，（一）（b）第（1）款（d）其他事项（g）2103n金字塔池特征图金字塔池是说L1损失...金字塔池. . ....图3.跨域的金字塔一致性。在将来自不同领域的具有相同内容的图像输入神经网络后，我们在最后几层的激活图上施加金字塔一致性损失（以蓝色，绿色和红色显示）。2)训练集在风格上得到增强，特别是在更接近真实图像的风格上。尽管这种基线方法是有效的，但它无法跟踪训练集的多域结构我们通过以下方式对其进行改进。3.2. 一致性强化培训我们的目标是通过分割网络学习图像表示，该网络对于语义分割任务是域不变的然而，简单地用来自不同领域的图像（即，，方程式（1）、基线法）存在一些问题：a）来自不同领域的图像可能会驱使网络朝向不同的表示，使得训练过程不能很好地收敛; b）即使网络很好地适应了训练域，它也可能捕捉到每个人的特质，但在它们之间或新的目标域中插值失败。为了解决这些问题，我们通过一致性损失来正则化网络.直觉是，如果网络能够很好地泛化，它应该提取相似的高级语义特征，并对内容相同的图像进行类似的预测，而不考虑风格。一致性损失被简单地强加如下：其中，l_ind表示算子g_l（·;n）（e. G. 将隐藏层的激活映射到较小维度的向量的向量池（ veragepooling），gl（ln; n）表示在每个操作gl之后得到的目标（参见图1）。第3.2.1节和第3.2.2节详细说明），L1为“1”距离。我们认为，通过这样做，可以更好地引导网络为语义分割任务找到一个通用的和域不变的表示。算子gl（·;P）， l∈P的设计对算法的整体性能有重要影响明显的身份映射-所以在隐藏的激活上直接计算距离-在实验中不能很好地工作。原因之一是它严格要求网络在不同的训练域中给出相同的表示，而某些域可能比其他域更难拟合。3.2.1跨域的金字塔一致性我们发现，空间金字塔池[16，59，24]在我们的网络中充当非常有效的算子gl（·;l）， l∈P，这可能是因为它适应了网络表示的细微差异（2）至在多个尺度上加强一致性金字塔池以前曾用于监督视觉理解，主要作为骨干网络的一部分本文在分析了现有文献的基础上，R：=XXn，kl∈PλlL1⇣gl（In;n），gl（Ik;n）⌘、（二）相反，我们使用池化特征来定义训练网络的正则化损失。金字塔的一致性，我们认为是超过图像的不同风格，但与.........交叉熵损失2104nnnnnnl，kn nn相同的语义内容。到庄稼。当没有显著的填充时，图3展示了我们在训练域中的金字塔一致性方案。考虑一组图像层，则Ml，k具有形状C其中，k = hk/h。l×（λ·Hl）×（λ·Wl），In={Ik|k=0，1，. ..，K+1个不同样式中的K}个，同样注记Yn，记为Ml，k∈RCl×Hl×Wln我们对裁剪 l，kk，n特征图M，n和特征图MC，l，k的在层l处的输入In的特征图。然后，一个空间金字塔-在M1，k上进行中间池化操作。空间金字塔n作物结果是相同大小的映射，Pl，k，PCl，k∈n2 2nn池化操作被设计为在4个RCl×（1+ 2+ 4+ 8）下融合特征。回到Eq。（2），我们有一个vegl（Ik;k）=n不同的金字塔等级。首先，全球平均池-PCl，k，目标向量为g（I;k）=Pl，k.n一个人，就是一个人，一个人。Lnn放。每个其他金字塔级别将特征图均匀地分成子区域，并在-每个子区域。在我们的设计中，我们使用1×1，2×2，4×4和8×8作为金字塔池尺度，即金字塔池输出的空间大小后池化，我们挤压并连接输出张量，4. 实验和结果在本节中，我们描述了实验设置，并通过从合成数据中学习来展示语义分割泛化的结果并与其他方法进行了实验分析和比较。（2）张量Pl，k∈RCl×（1+2 + 4 + 8 ，这是很多l，k4.1. 实验设置比原始特征图M n更低维 . 为一对图像Ik，Ik0 ∈I，网络期望应该强调的是，我们的实验设置是n nn以便在深层L中具有类似的理解并因此具有类似的高级特征。请注意，Ml，k和Ml，k0相同太强了，容易-与域适应不同。自适应领域的目标是在一个特定的目标域上实现良好的性能，它需要在训练过程中未标记的目标域数据，n n可能导致性能下降为了节省计算，我们避免了成对项，而是使用P1，k（k=0，1，...，（K）作为损失的目标值。回到等式（2），我们有一个vgl（Ik;k）=Pl，k，目标是ing，并且（有时）使用一些标记的目标域图像进行验证。相比之下，我们的模型在没有任何目标域数据的情况下进行训练，并在看不见的域上进行测试n1 nP跨域平均值gl（In;n） =K+1kPn ，以及数据集。在我们的实验中，我们使用GTA [37]和SYN-[38]第38章：一个小秘密集合P={1}是网络的深层3.2.2图像内的金字塔一致性训练域之间的金字塔一致性损失可以引导网络学习风格不变的特征，以便它可以很好地推广到具有不同外观的不可见目标域然而，在许多情况下，风格并不是域之间的唯一区别。摄像机的视角和参数也会导致场景布局和尺度方面的系统域失配。以焦距参数为例。在不同的焦距下，相同的物体可能随着视场的变化而具有不同的尺度。为了缓解上述问题，我们建议进一步应用随机作物和完整图像之间的金字塔一致性这个想法是人为地随机化图像的比例，因此，引导网络对场景布局和比例引起的域间隙具有鲁棒性形式上，遵循第3.2.1节中的符号，大小为（H，W）的每个图像Ik首先以相同的高度-宽度比被随机裁剪，左上角在（hk，wk）处并且高度为hk。然后，裁剪被缩放回完整的图像大小，表示为Ck，最后馈送到网络。记为Ml，k和MCl，k∈RCl×Hl×WlImageNet [8]以及CycleGAN [60]中使用的数据集作为用于“风格化”源主图像的辅助域。我们考虑真实世界图像的三个目标域，其官方验证集用作我们的测试集：Cityscapes [5]、Berkeley Deep Drive Segmenta-tion（BDDS）[54]和Mapillary [33]。GTA是在计算机游戏中收集的具有像素语义标签的车辆自我中心图像数据集它包含24，966张图像，分辨率为1914×1052。有19个类与室外场景的其他语义分割数据集兼容，例如。城市景观。SYNTHIA是一个具有像素级语义注释的大型合成数据集。在我们的实验中使用了一个子集SYNTHIA-RAND- CITYSCAPES，其中包含9，400张带有与Cityscapes兼容的注释的图像Cityscapes包含从一些欧洲城市拍摄的以车辆为中心的城市街道图像。有5，000张图像带有像素级注释。图像的分辨率的2048×1024，并标记为19类。BDDS包含数千个真实世界的仪表盘视频具有精确像素注释的帧。它具有与Cityscapes兼容的标签空间，图像分辨率为1280×720。训练集、验证集和测试集包含n n分别为7，000、1，000和2，000张图像在层l处的图像Ik和裁剪Ck的特征图，n n分别为。用Ml，k表示Ml，k对应的部分Mapillary包含从以下地点收集的街道级图像：在世界各地注释包含66个对象nn2105一种责任感VS 一个辅助DOMAINS36343230表1.每个设计的性能贡献方法博士PCDPCIMiou城市景观BDDSMapillaryFCN30.0424.5926.63+Dr334.6430.1431.64+PCD3335.4731.2132.06+PCI3335.1230.8732.12所有33336.1131.5632.252826240 1 3 5 7 15辅助域图4.具有不同数量的辅助结构域的FCN 8 s-VGG 16的准确性。使用两个域集合A和B模型在GTA上进行训练，并在Cityscapes，BDDS和Mapillary上进行测试类，但在我们的实验中只使用了与Cityscapes和GTA重叠的19类它有一个包含18,000张图像的训练集和一个包含2,000张图像的验证集。验证。为了为特定的真实世界数据集 DR （例如Cityscapes）选择模型，我们从另一个真实世界数据集DR0（例如BDDS）的训练集中随机挑选500个图像作为验证集。这种交叉验证是为了模仿以下现实生活中的场景。当我们从一个随机化的源域训练还是以汽车制造商为例。制造商可能会收集洛杉矶和纽约的图像用于模型选择，而汽车也将在旧金山和许多其他城市使用。评价我们使用标准的PASCAL VOC交叉-联合，即在测试集上评估模型的性能。借条mean IoU（mIoU）是所有类别的所有IoU值的平均值为了度量模型M的泛化能力，我们提出了一个新的度量，1X为了更容易与大多数其他方法进行比较，我们使用VGG-16 [44]，ResNet-50和ResNet-101 [17]作为FCN骨干。网络中特征提取层的权重从在Ima-geNet上训练的模型初始化[8]。我们在最后5个层上添加跨域的金字塔一致性损失，λ=0。2，0。四，零。6，0。分别为8、1。图像内的金字塔一致性仅添加在最后一层上。该网络在PyTorch中实现，并使用Adam优化器[22]进行训练，基线模型的批量大小为32，我们的模型为8。我们的机器配备了 8 个 NVIDIA Tesla P40 GPU 和 8 个NVIDIA Tesla P100 GPU。4.2. 领域随机化总的来说，我们使用两组15个辅助域：A）10个来自ImageNet [8]，5个来自CycleGAN [60]，B）15个来自ImageNet，每个域对应于Cityscapes中的一个语义类。有关其他辅助域，包括作为辅助域的颜色增强，请参见补充材料为了评估我们的域随机化方法，我们进行实验，从GTA推广到Cityscapes，BDDS和Mapillary与FCN 8 s-VGG 16。我们在设置A和B中使用来自不同数量的辅助域的图像来增强训练集，并在图4中显示结果。从图中我们可以看出，精度随着辅助域的数量而精度最终随着辅助域的数量而饱和。这可能是因为1）15个辅助域在某种程度上足以覆盖外观域间隙，以及2）随着相同内容的图像数量的增加，为了数据规模和数据变化，网络更难收敛。4.3. 消融研究Gperf（M）=EB∈PmIoU（M，B）<$LmIoU（M，BI）L接下来，我们研究我们的方法中的每个设计如何影响整体性能。这些实验仍然其中B是从分布所有可能的真实世界域P，L是未见过的测试域的数量，在我们的实验设置中为3在我们的实验中，我们选择使用FCN [30]作为我们的语义分割网络。到从GTA到FCN 8 s-VGG 16的3次测试。表1详细说明了Cityscapes、BDDS和Mapillary的mIoU改进，每次都考虑一个因素：域随机化（DR）、跨域（PCD）和图像内（PCI）的金字塔一致性。DR是缓解域转移的通用方法在我们的例子中，它有助于提高城市景观-ABDDS-AMapillary-A城市景观-BBDDS-B马皮拉里-BMiou2106我们的图像地面实况基线图5.从GTA到Cityscapes，BDDS和Mapillary的概括的定性语义分割结果表2.从（G）TA和（S）YNTHIA到（C）结构景观、（B）DDS和（M）毛细血管的域泛化性能。VGG-16ResNet-50ResNet-101非适应我们非适应我们非适应我们G→C30.0436.1132.4537.4233.5642.53G→B24.5931.5626.7332.1427.7638.72G→M26.6332.2525.6634.1228.3338.05G性能27.0933.3128.2834.5629.8839.77S →C27.2635.5228.3635.6529.6737.58S →B24.3829.4525.1631.5325.6434.34S →M24.3932.2727.2432.7428.7334.12G性能25.3432.4126.9233.3128.0135.35Cityscapes、BDDS和Mapillary的性能分别从30.04提高到 34.64 、从 24.59 提高到 30.14 和从 26.63 提高到31.64PCD和PCI进一步增强了性能增益。通过整合所有方法，我们的完整方法最终分别在Cityscapes ，BDDS和Mapillary上达到36.11，31.56和32.25。图5展示了3个测试集上的语义分割结果的一些表3.与其他领域泛化方法的比较方法基底网MioumIoU↑非适应IBN-Net [34]ResNet-5022.1729.647.47非适应我们ResNet-5032.4537.424.974.4. GTA和SYNTHIA的推广然后，我们进行了广泛的实验，以评估我们提出的方法的泛化能力。具体来说，我们测试了2个源域，GTA和SYNTHIA;3种型号，具有不同的骨干网络，VGG-16，ResNet-50和 ResNet-101; 3 个测试集， Cityscapes 、 BDDS 和Mapillary;和2组辅助域（参见，第4.2节）。ResNet-50的实验是用辅助域集B进行的，而其余实验是用集A进行的。每个实验中的验证集和测试集来自不同的领域，例如：使用GTA助理GTAGTA城市景观2107表4.从GTA到城市景观的适应与FCN-8。网络方法火车w/TgtVal在TgtMioumIoU↑VGG-19非适应[第57话]3322.328.96.6非适应[20]第二十话33NA44.5NAVGG-16非适应[19]第十九话3321.127.16.0非适应苏铁[18]3317.935.417.5非适应LSD [41]3329.637.17.5非适应汽车旅馆[3]3321.935.914.0非适应丹麦[40]3324.928.83.9非适应I2I [32]33NA31.8NA非适应CBST-SP [63]3324.336.111.8非适应DCAN [52]3327.836.28.4非适应[第61话]3330.038.18.1非适应[50]第五十话33NA35.0NA非适应DAM [21]3318.832.613.8非适应我们7330.038.68.6非适应我们7729.836.16.3Cityscapes选择将在BDDS/Mapillary上评估的模型。计算每个模型的Gperf值，结果如表2所示。我们可以看到，无论数据集组合如何，所提出的技术都可以将不同模型的泛化能力提高5%至12%。然后，我们将我们的方法与唯一已知的、用于语义分割的最先进的领域泛化方法IBN-Net [34]进行比较，该方法在从GTA到Cityscapes的泛化设置下。从表3所示的比较中，我们可以看到我们的域泛化方法具有更好的最终性能。IBN-Net通过微调ResNet构建块来改进域泛化。我们的方法与他们的方法是互补的。4.5. 改编自GTA和SYNTHIA以上章节中的所有实验都是在域泛化设置中进行的，其中验证集和测试集来自不同的域。现在，我们进行更多的实验，使用域自适应设置和比较我们的结果与以前的国家的最先进的作品。由于以往的作品大多进行改编，表5.从SYNTHIA到城市景观的适应与FCN-8。网络方法火车w/TgtVal在Tgt上MioumIoU↑VGG-19非适应[第57话]3322.029.07.0非适应[20]第二十话33NA41.2NAVGG-16非适应[19]第十九话3317.420.22.8非适应汽车旅馆[3]3325.436.210.8非适应LSD [41]3326.836.19.3非适应CBST [63]3326.236.19.9非适应DCAN [52]3327.836.28.4非适应DAM [21]33NA30.7NA非适应[第61话]3324.934.29.3非适应我们7327.336.49.1非适应我们7726.835.58.7Cityscapes与VGG骨干网络，我们在表4和表5中展示了GTA→Cityscapes和SYNTHIA→Cityscapes的适配mIoU比较，在补充配对中留下了类比较细节里亚尔.我们可以看到，我们的方法在这两种情况下都优于最先进的方法此外，我们应该注意到，我们的方法（最后一行）的域泛化性能优于大多数其他技术的自适应性能。此外，由于我们的方法是目标领域不可知的，不需要来自目标领域的数据，从而具有更广泛的适用性。5. 结论在本文中，我们提出了一个领域推广方法，用于将语义分割网络从模拟推广到现实世界，而无需访问任何目标领域数据。我们建议使用辅助数据集对合成图像进行随机化，并在图像内和域之间执行金字塔一致性。最后，我们experimentally验证了我们的方法在各种实验设置，并显示出优越的性能比国家的最先进的方法，在域泛化和域自适应，这清楚地表明了我们提出的方法的有效性。谢谢。这项工作得到了NSF资助（1645964）和伯克利深度驱动中心的部分支持。我们感谢Kostadin Ilov提供系统帮助。2108引用[1] 尤格什·巴拉吉，斯瓦米·桑卡拉纳拉亚南，和罗摩·哲拉帕. Metareg：使用元正则化实现领域泛化.神经信息处理系统的进展，第1006-1016页，2018年[2] Konstantinos Bousmalis ，Alex Irpan， Paul Wohlhart，Yunfei Bai ， Matthew Kelcey ， Mrinal Kalakrishnan ，Laura Downs ， Julian Ibarz ， Peter Pastor ， KurtKonolige，et al.利用仿真和领域自适应提高机器人深抓取效率。 2018 年 IEEE 机器人与自动化国际会议（ICRA），第4243-4250页IEEE，2018年。[3] Yuhua Chen，Wen Li，and Luc Van Gool.道路：面向现实的适应城市场景的语义分割。在IEEE计算机视觉和模式识别会议论文集，第7892-7901页[4] Dan Ciregan，Ueli Meier和Jurgen Schmidhuber。用于图像分类的多列深度神经网络。2012年IEEE计算机视觉和模式识别会议，第36423649页，2012年。[5] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213[6] Ekin D Cubuk， Barret Zoph ，Dandelion Mane ，VijayVasude-van，and Quoc V Le.自动扩增：从数据中学习增强策略。arXiv预印本arXiv：1805.09501，2018。[7] Abhishek Das、Samyak Datta、Georgia Gkioxari、StefanLee、Devi Parikh和Dhruv Batra。具身问答。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第5卷，第6页，2018年。[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在 IEEE Conference on Computer Vision andPattern Recognition，第248-255页[9] Terrance DeVries和Graham W Taylor。特征空间中的数据集扩充。arXiv预印本arXiv：1702.05538，2017。[10] Alexey Dosovitskiy 、 German Ros 、 Felipe Codevilla 、Antonio Lopez和Vladlen Koltun。卡拉：一个开放的城市驾驶模拟器。在第一届机器人学习年会论文集，第1-16页[11] Tommaso Dreossi 、 Shromona Ghosh 、 Xiangyu Yue 、Kurt Keutzer、Alberto Sangiovanni-Vincentelli和Sanjit ASe- shia。反例引导的数据扩充。arXiv预印本arXiv：1805.06962，2018。[12] 庄乾、杨天宝、龚伯庆。学习属性等于多源域泛化。在IEEE计算机视觉和模式识别会议的Proceedings中，第87-97页[13] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督国际机器学习会议，第1180-1189页，2015年[14] Muhammad Ghifary ， W Bastiaan Kleijn ， MengjieZhang，and David Balduzzi.用多任务自动编码器进行对象识别的域泛化在IEEE计算机视觉国际会议论文集，第2551-2559页[15] 龚伯青，克里斯汀·格劳曼，费莎。重塑视觉数据集以适应领域。神经信息处理系统进展，第1286-1294页，2013年[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。在欧洲计算机视觉会议，第346-361页[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[18] Judy Hoffman ， Eric Tzeng ， Taesung Park ， Jun-YanZhu，Phillip Isola，Kate Saenko，Alexei A.埃弗罗斯和特雷弗·达雷尔。Cycada：周期一致的对抗域适应。在2018年的国际机器学习会议（ICML）上[19] Judy Hoffman，Dequan Wang，Fisher Yu，and TrevorDarrell.野生FCNS：像素级对抗和基于约束的适应。arXiv预印本arXiv：1612.02649，2016。[20] Weixiang Hong ， Zhenzhen Wang ， Ming Yang ， andJunsong Yuan.用于结构化域自适应的条件生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第1335-1344页[21] Haoshuo Huang，Qixing Huang，and Philipp Krahenbuhl.通过深度激活匹配进行域转移。在欧洲计算机视觉会议（ECCV）的论文集，第590-605页[22] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。[23] Eric Kolve、Roozbeh Mottaghi、Daniel Gordon、YukeZhu、Abhinav Gupta和Ali Farhadi。ai 2-thor：一个交互式的3d环境。arXiv预印本arXiv：1712.05474，2017。[24] Svetlana Lazebnik ， Cordelia Schmid ， and Jean Ponce.Be-yond功能包：用于自然场景类别识别的空间金字塔匹配。在IEEE计算机视觉和模式识别会议上，第2169-2178页[25] 约瑟夫·莱姆利，沙巴布·巴兹拉夫坎，彼得·科科伦。智能增强学习最佳数据增强策略。IEEE Access，第5858-5869页[26] DalLi，Yongxin Yang，Yi-Zhe Song，and Timothy MHospedales.更深、更广、更艺术的领域概括。在IEEE计算机视觉国际会议论文集，第5542-5550页[27] DalLi，Yongxin Yang，Yi-Zhe Song，and Timothy MHospedales.学习概括：元学习的主要推广。第三十二届AAAI人工智能会议，2018。[28] Haoliang Li，Sinno Jialin Pan，Shiqi Wang，and Alex CKot.领域泛化与对抗性特征学习。在2109IEEE计算机视觉和模式识别会议论文集，第5400-5409页[29] Shaohua Li ， Xinxing Xu ，Ligiang Nie ， and Tat-SengChua.拉普拉斯引导的神经风格转移。2017年ACM多媒体会议，第1716ACM，2017。[30] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页[31] Krikamol Muandet，David Balduzzi，and Bernhard Schoülk opf.通过变量特征表示的域泛化国际机器学习会议，第10-18页，2013年[32] Zak Murez、Soheil Kolouri、David Kriegman、Ravi Ra-mamoorthi和Kyungnam Kim。用于域适应的图像到图像arXiv预印本arXiv：1712.00479，13，2017。[33] Gerhard Neuhold，Tobias Ollmann，Samuel Rota Bulo，and Peter Kontschieder.街景语义理解的mapillary vistas数据集在IEEE计算机视觉国际会议论文集，第4990- 4999页[34] Pan Xinga

下载后可阅读完整内容，剩余1页未读，立即下载