领域自适应的语义图像分割模型

173 浏览量更新于2023-10-19 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6936语义切分李云生UC San Diegoyul554@eng.ucsd.edu陆渊微软luyuan@microsoft.comNunoVasconcelos UC圣地亚哥nvasconcelos@ucsd.edu摘要领域自适应的语义图像分割是非常必要的，因为手动标记与像素级标签的大型数据集是昂贵的和耗时的。前向域自适应技术要么在有限的数据集上工作，要么与监督学习相比产生不那么好的性能。在本文中，我们提出了一种新的双向学习框架的领域自适应分割。采用双向学习，图像平移模型和分割自适应模型可以交替学习，相互促进。此外，我们还提出了一种自监督学习算法来学习一个更好的分割自适应模型，并反过来改善图像翻译模型。实验表明，该方法在大边缘分割的领域自适应方面优于现有方法。源代码可在https://github.com/liyunsheng13/BDL上获得。1. 介绍图像语义分割[18]的最新进展是由在大型数据集上训练的深度神经网络驱动的。不幸的是，收集和手动注释具有密集像素级标签的大型数据集的成本非常高，因为需要大量的人力。计算机图形学的最新进展使得在具有计算机生成的注释的照片般逼真的合成图像上训练CNN成为可能[27，28]。尽管如此，真实图像（目标）和合成数据（源）之间的域不匹配削弱了模型的性能。域自适应解决了该域移位问题。具体来说，我们专注于困难的情况下，没有标签的目标域的问题这类技术通常被称为无监督自适应.传统的域自适应方法涉及最小化源和这份工作是李云生在微软云实习时完成的。&AI目标分布。两种常用的度量是一阶和二阶矩[2]，以及使用对抗方法学习距离度量[34，35]。这两种方法在分类问题上都取得了很好的成功（例如，[22][23][24][25][26][27][28]][29][29][29]][29][29][29]][29][29][29]][29]正如[37]中所指出的，它们的性能在语义分割问题上是非常有限的。最近，领域适应语义分割取得了很好的进展，分为两个连续的步骤。它首先利用图像到图像的翻译模型（例如，CycleGAN [38]），然后在分割模型的特征之上添加一个域，以进一步减少域间隙[12，36]。当通过前一步减小磁畴间隙时，后一步易于学习并且可以进一步减小磁畴偏移。不幸的是，分割模型非常依赖于图像到图像翻译的质量一旦图像到图像的转换失败，在接下来的阶段中就无法进行任何弥补。在本文中，我们提出了一个新的双向学习框架的图像语义分割领域自适应。该系统包括两个独立的模块：类似于[ 12，36 ]的图像到图像转换模型和分割自适应模型，但是学习过程涉及两个方向（即，“翻译到分段”和“分段到翻译”）。整个系统形成闭环学习。两种模式将相互促进，使差距逐渐缩小。因此，如何允许两个模块中的一个向另一个提供正反馈是成功的关键。在正向（即，“translation-to- segmentation”, similar to[与在真实数据上训练的分割模型不同，分割自适应模型在合成数据集和真实数据集上训练，但真实数据没有注释。在任何时候，我们都可以将具有高置信度的真实数据的预测标签视为对基础事实的近似6937标签，然后仅使用它们来更新分割自适应模型，同时排除具有低置信度的预测标签。这个过程被称为自监督学习，它比在现有方法中广泛使用的一次尝试学习更好地对齐两个域。最后，通过我们的反向学习，更好的切分自适应模型将有助于更好的翻译模型在向后方向上（即，“segmentation-to- translation”),为此，我们提出了一种新的感知损失，它强制每个图像像素与其翻译版本之间的语义一致性利用翻译模型中的约束，视觉外观中的间隙（例如，照明、对象纹理），可以进一步减少转换图像和真实数据集（目标）之间的因此，分割模型可以通过我们的前向方向学习进一步改进。从上述两个方向来看，平移模型和分割自适应模型相互补充，这有助于在将大规模渲染图像数据集SYNTHIA [28]/GTA 5 [27] 适配为真实图像数据集Cityscapes [5]方面实现最先进的性能，并大幅优于其他方法。此外，该方法对不同类型的骨干网具有通用性。总而言之，我们的主要贡献是：1. 本文提出了一个双向语义分割学习系统，它是一个交替学习分割自适应模型和图像翻译模型的闭环系统。2. 我们提出了一种自监督学习算法的分割自适应模型，它递增对齐源域和目标域的特征级别，基于翻译的结果。3. 我们引入了一个新的感知损失的图像到图像的翻译，监督翻译更新的分割自适应模型。2. 相关工作域适配。当将知识从虚拟图像转移到真实照片时，通常情况下，从训练到测试阶段存在一些差异。领域自适应旨在纠正这种不匹配，并在测试中调整模型以实现更好的泛化[24]。现有的领域自适应工作主要集中在图像分类上[30]。大量的工作旨在通过最小化域分布差异。最大平均离散度（MMD）损失[8]，计算表示的平均值，是两个域之间的常用距离度量。作为MMD的扩展，一些特征分布的统计量，如均值和协方差[2，21]被用来匹配两个不同的域。不幸的是，当离散度不是高斯分布时，仅仅匹配均值和协方差不足以很好地对齐两个不同的域。对抗学习[9]最近变得流行，另一种领域适应方法。它通过强制来自不同域的特征来欺骗伪随机数来减少域偏移[34]将是开创性的工作，它在两个域的高级特征之上引入了对抗性损失，除了对抗性损失，一些工作提出了一些额外的损失函数来进一步减少域移动，例如每个类的重新加权函数[4]，以及分离匹配的解纠缠表示[35]。所有这些方法都适用于简单和小的分类数据集（例如，MNIST [16]和SVHN [22]），并且可能在以下方面具有相当有限的性能：更有挑战性的任务，比如分割。用于语义分割的领域自适应。最近，更多的领域适应技术被提出用于语义分割模型，因为需要大量的劳动密集型工作来注释训练高质量分割网络所需的如此多减轻人类努力的一个可能的解决方案是在自动标记的虚拟数据上训练网络。例如，GTA 5 [27]和SYHTHIA[28]是两个流行的城市街道合成数据集，具有重叠的类别，与真实数据集类似的视图（例如，CITYSCAPE[5]，CamVid [1]）.域自适应可用于对齐合成数据集和真实数据集。引入语义分割的域自适应的第一项工作是[13]，它在特征级进行两个域之间的全局和局部对齐。当前域自适应[37]估计超像素的全局距离和标签，然后学习更精细像素的分割模型。在[33]中，多个鉴别器用于不同级别的特征以减少域差异。在文献[31]中，分别对前景类和背景类进行了处理，以分别减小域移位.所有这些方法的目标是直接对齐两个域之间的特征。不幸的是，视觉（例如，外观、规模等）合成数据和真实数据之间的领域鸿沟通常使得网络难以学习可转移的知识。受最近未配对图像到图像翻译工作进展的启发（例如，CycleGAN [38]，UNIT [17]，MUNIT [14]），从虚拟到现实数据的映射被视为图像合成问题。它可以帮助你-6938在训练分割模型之前减少领域差异。基于翻译的结果，Cycada [12]和DCAN [36]进一步在特征级别上对齐两个域之间的特征通过分别减少学习中的域偏移，这些方法获得了最先进的性能。然而，性能受到图像到图像翻译的质量的限制。一旦失败，下一步就什么都做不了了。为了解决这个问题，我们引入了一个双向学习框架，其中翻译和分割自适应模型可以在闭环中相互促进。有两个最相关的工作。在[6]中，分割模型也用于改进图像翻译，但不用于使源域适应目标域，因为它仅在源数据上训练。[39]还提出了一种迭代训练分割模型的自训练方法。然而，分割模型仅在源数据上进行训练，并且不使用任何图像转换技术。双向学习。这种技术首先被提出来解决神经机器翻译问题，例如[10，23]，它为语言对的两个方向训练语言翻译模型。与单向学习相比，它提高了性能，减少了对大量数据的依赖。双向学习技术也被扩展到图像生成问题[25]，它从自上而下和自下而上两个方向为分类和图像生成问题更相关的工作[29]提出了双向图像平移（即，source-to-target和target-to-source），然后分别在这两个域上训练两个分类器，最后融合分类结果。相比之下，我们的双向学习指的是翻译提高了分段和反义词的表现。所提出的方法是用来处理的语义分割任务。3. 方法给定具有分割标签YS的源数据集S（例如，由计算机图形生成的合成数据）和没有标签的目标数据集T（即，真实数据），我们想要训练用于语义分割的网络，其最终在目标数据集T上测试。我们的目标是使其性能尽可能接近在T上训练的模型，并使用地面真值标签YT。该任务是无监督的语义分割域适应。任务不容易因为视觉（例如，照明、比例、对象纹理等）科学与技术之间的领域鸿沟使得网络难以立即学习可转移的知识。为了解决这个问题，最近的工作[12]提出了两个独立的子网。一个是图像到图像翻译子网络F，它学习从S翻译图像在没有配对例子的情况下，另一个是Segmen-FMFM（a）：顺序学习（b）：双向学习图1：顺序学习与双向学习- 站自适应子网络M，其在具有相同标签YS到S的翻译结果F（S）和没有标签的目标图像T上训练两个子网络都是以图1（a）所示的顺序方式学习的。这样的两阶段解决方案有两个优点：1）F有助于减小视觉域间隙;2）当畴隙减小时，M易于学习，从而导致更好的性能。然而，该解决方案具有一些局限性。一旦F被学习，它就被固定了。没有来自M的反馈来提高F的性能。此外，M的一次尝试学习似乎只能学习有限的可转移知识。在本节中，我们提出了一个新的学习框架，可以很好地解决上述两个问题我们继承了分离子网络的方式，但采用了双向学习（在3.1节中），它使用闭环迭代更新F和M。此外，我们引入了自监督学习，以允许M在训练中自我激励（在第3.2节中）。网络结构和损失函数见第3.3节。3.1. 双向学习我们的学习包括图1（b）所示的两个方向。前向（即，F→M）类似于以前的顺序学习行为[12]。我们先训练使用来自T和S的图像的图像到图像的转换模型F。然后，我们得到平移结果S′=F（S）.请注意，F接下来，我们使用具有YS和T的S′来训练分割自适应模型M。学习M的损失函数可以定义为：<$M=λadv <$adv（M（S′），M（T））+<$seg（M（S′），YS），（1）其中，Sadadv是对抗性损失，它使S′的特征表示与T的特征表示（在S′、T被馈送到M之后获得）之间的距离尽可能小。语义分割度量语义分割的损失。由于只有S'有标签，我们只测量翻译后的源图像S'的准确性。向后方向（即，M→F）是新增加的。动机是使用更新的M来提升F。在[35，14] 在图像翻译网络中使用感知损失来改善翻译结果的质量，感知损失度量从关于对象识别的预训练网络获得的特征的距离。在这里，我们使用M来计算用于测量感知损失的特征。通过添加6939S0i−1我^^N另外两个损失：GAN损失和图像重建损失，用于学习F的损失函数可以定义为：ΔF=λGAN[ΔGAN（S′，T）+ΔGAN（S，T’）]不Tssl+λ重建 [美国]（S，F−1（S′））+FRecon（T，F（T′）]（二）(a) 步骤1（b）：步骤2公司简介（M（S），M（S′））+S每（M（T），M（T′），图2：自监督学习过程算法1网络的训练过程其中对称地计算三个损耗，即，S →T和T → S，以确保图像到图像的平移一致。 GAN损失的GAN在S′和T之间强制执行两个分布，它们彼此相似。 T′=F−1（T），其中F−1是F的逆函数，将图像从T映射到S。当图像从S′平移回S时，损失重建器测量重建误差。模糊度是我们提出的维持S和S′或T和T ′之间语义一致性的知觉损失。输入：（S，YS），（T，Tssl=N），M（0）输出：M（K）（F（K））对于k←1到K，使用等式2进行（双向学习）训练F（k）用等式1训练M（k）对于i←1到N，do（SSL）用M（k）更新T ssl再次用等式3训练M（k）也就是说，一旦我们获得了理想的分割适应，模型M，无论是S和S′，还是T和T′，都应该有相同的标签，即使S和S′之间或T和T′之间存在视觉间隙。3.2. 自监督学习用于改进M在前向（即，F→M）时，如果标签对于源域S和目标域T都可用，则全监督分割损失估计总是减少域差异的最佳选择但在我们的例子中，目标数据集的标签丢失了。自监督学习（Self-supervised learning，SSL）在半监督学习中得到了广泛的应用，特别是在数据集的标签不充分或有噪声的情况下。在这里，我们使用SSL来帮助推广分割自适应模型M。基于T的预测概率，我们可以得到一些高置信度的伪标签YT一旦我们伪标签，对应的像素可以根据分割损失直接与S对齐。因此，我们修改了用于学习M的整体损失函数（在等式1）为：<$M=λadv <$adv（M（S′），M（T））首尾相接S和T之间的磁畴间隙可以用等式1中所示的损耗来减小。该过程如图2（a）所示。然后，我们挑选目标域T中已经与S良好对齐的点来构造子集Tssl。在第二步中，我们可以很容易地将Tssl移动到S，并在分割损失的帮助下保持它们对齐由伪标签提供。该过程在图2（b）的中间示出。因此，T中需要与S对齐的数据量减少。我们可以与步骤1相同继续将剩余数据移位到S如图2（b）的右侧所示。值得注意的是SSL帮助对抗性学习过程专注于在每一步都没有完全对齐的其余数据，因为Eschadv很难改变来自S和Tssl的数据。3.3. 网络和损失函数在本节中，我们将介绍网络架构（如图3所示）、损失函数的细节和训练过程（如算法1所示）。网络主要是公司简介（M（S′），YS）+seg（M（TSSL），Y^T（三））的情况下，由两部分组成其中TsslT是目标数据集的子集，其中像素具有伪标签YT。它可以在开始时是空的当更好的分割自适应模型M在学习转换模型时，损失GAN和损失Recon（如图3和等式2所示）可以定义为：我们可以使用M来预测更高置信度的“标签，导致TSSL生长. 近期GAN（S，T）=EIT工作[39]也使用SSL进行分段适配。通过相反，我们工作中使用的SSL与对抗性反侦察（S，F−1（S′））=EISS[||F−1（（I′））−IS6940SSSS||1],学习，这可以更好地用于分割，其中IS和IT是来自源和目标的输入图像适应模型获取数据集。我是由F给出的平移图像。DF是我们使用插图（如图2所示）来解释此过程的原理。当我们第一次学习分割自适应模型时，Tssl为空，为了减少IT和I′之间的差别而增加的电流。对于重构损失，当F−1时，利用L1范数保持IS与F−1（I′）之间的圈一致性6941源预测自我监督学习翻译的源数据源概率Softmax源预测掩模源地面实况目标数据目标概率目标预测最大概率阈值预测目标地面实况S^SSSSSSS00不图像翻译模型分段自适应模型数据转发目标图像损失反向传播图3：网络架构和损失函数适应模型可以定义为PS=M（I′）。对于目标图像IT，我们需要定义如何为其选择伪标签映射yT。我们选择使用我们称为“最大概率阈值（MPT）”的常用方法地面实况M（1）（F（1））M2（1）（F（1））M（2）（F（2））M2（2）（F（2））将具有高预测置信度的像素称为IT。因此图4：双向学习是F的反函数。在这里，我们只显示两个损失我们可以将y^T定义为y^T=argmaxM（IT），以mT计=N[argmaxM（IT）>threshold]。因此一个方向，定义类似。GAN （S，T′），Recon（T，F（T′））可以IT的分段损失可以表示为：C如图3所示，感知损失补偿器连接（M（T），Y^）=−1mhwHWlogPhwc，翻译模型和分段自适应模型。当我们学习翻译的感知损失时，segsslTHWH，W不c=1[c=yT]T模型中，我们不是只保持IS和它的翻译结果I′之间的语义一致性，而是在每个重构中增加一个由λ加权的项，以保持IS和它对应的重构F−1（I′）之间的语义一致性。有了新的术语，翻译模型可以更稳定尤其是重建部分。定义为：其中PT 是M的目标输出。我们在算法1中给出了训练过程。训练过程由两个循环组成。外环主要是通过正向和反向学习翻译模型和分段自适应模型内部循环主要用于IM-λper（M（S），M（S′））=λperEIS||M（IS）−M（（I′））||1个以上完成SSL进程。在下一节中，我们将λ/重建EIS[||M（F−1（（I′）−M（IS）||第1页]介绍如何选择学习的迭代次数F，M，以及如何估计SSL的MPT。由于对称性，可以以类似的方式定义Δ（M（T），M（T′））（在等式2中示出）当分割自适应模型被训练时，它需要具有损失自适应adv的对抗学习和具有损失自适应seg的自监督学习（如等式3所示）。对于对抗性学习，我们添加了一个CMDM来减少源和目标概率之间的差异，如图3所示。可以将Vadv定义为：adv（M（S′），M（T））=EI4. 讨论为了了解双向学习和自我监督学习对提高M的有效性，我们进行了一些消融研究。我们使用GTA5 [27]作为源数据集，Cityscapes [5]作为目标数据集。翻译模型是CycleGAN [38]，分割自适应模型是DeepLab V2[3]，具有主干ResNet101 [11]。以下所有实验均使用+EISS[1−DM（M（I′））].相同的型号，除非另有说明。在这里，我们首先提供在分割损失估计使用交叉熵损失。为源图像IS，ISseg可以被定义为：C以下消融研究和表格。 M（0）是开始双向学习的初始模型，并且仅使用源数据进行训练。M（1）是用源和目标拉塞格（M（S′），YS1）=−HWΣΣH，Wc=1[c=yhw]logPhwc，对抗性学习的数据对于M（0）（F（1）），使用翻译模型F（1）来翻译源数据，然后基于翻译学习分割模型M（0）。源数据目标数据S6942我其中yS是IS的标签图，C是类的数量，H和W是输出概率图的高度和宽度。PS是分段的源概率源数据。M（k）（F（k））（k=1，2和i=0，1，2）是指算法1中外循环第k次迭代和内循环第i次迭代的模型.69431130022N表1：双向学习GTA5→ Cityscapes模型mIoU表3：阈值的影响GTA5 → Cityscapes车型门槛Miou表4：NGTA5→城市景观模型像素比 Miou男（0）33.6M（1）（F（1）） 0.9545.7M（1）66%40.9男（1）40.91M（1）（F（1））0. 946.80男（1）（女（1））男（0）（一）（F（1））41.1（一）1M（1）1（F（1））0. 846.40男（1）（女（1））M0 （女）42.7M（1）（F（1））0.745.9男（1）（女（1））（二）（二）1 2M0 （女）43.3M（1）（F（1）） −44.9男（1）（女（1））4.1. 无SSL的双向学习我们展示了在没有SSL的双向学习系统中训练的模型所获得的结果在表1中，M（0）是我们的基线模型，它给出了mIoU的下限我们发现模型M（1）和M（0）（F（1））之间的性能相似，与M（0）和约1相比，两者都实现了超过7%的改进。6%进一步改善-10.90.80.70.60.50.40.5 0.6 0.7 0.8 0.9预测置信度765432100.6 0.7 0.8 0.9 1预测置信度项由M（1）（F（1））给出。这意味着分割自适应模型和翻译模型可以独立工作。并且当组合在一起时（这基本上是双向学习的一次迭代），它们可以彼此互补。我们进一步表明，通过连续训练双向学习系统，在这种情况下，M（1）（F（1））用于向后方向代替M（0），新的性能可以得到更好的性能。模型M（2）（F（2））.4.2. 使用SSL进行双向学习在本节中，我们将展示SSL如何进一步提高分割自适应模型的能力，并反过来影响双向学习过程。在表2中，我们示出了基于算法1通过两次迭代（k=1，2）给出的结果。在图4中，我们示出了分割结果和由最大概率阈值（MPT）（其为0）给出的相应掩码图。9 .第九条。在图4中，白色像素是预测置信度高于MPT的像素，黑色像素是低置信度像素。当k=1时，当模型M（1）（F（1））被更新时，图5：像素比率与预测置信度之间的关系其优于第一次迭代中的结果。从图4所示的分割结果中，可以进一步证实我们的发现，最重要的是，随着我们提高分割性能，分割自适应模型可以给出更可靠的预测，这可以通过掩码图中增加的白色区域来观察。这给了我们在算法1中使用掩码映射来选择SSL过程的阈值和迭代次数的动机。4.3. 超参数学习我们将描述如何选择阈值以过滤出具有高置信度的数据以及算法1中的迭代次数N。当我们选择阈值时，我们必须在两个倍数之间进行平衡。一方面，我们希望尽可能多地预测具有高置信度的标签（在图4中表示为白色区域）。另一方面，我们要避免引入太多的噪音所造成的不正确的（一）0预测，即阈值应尽可能高。到M2（F（1）），mIoU可以提高4. 百分之五我们可以发现，对于每个类别，当IoU低于50时，可以从M（1）（F（1））到M（1）（F（1））。它可以证明我们前面的分析部分3.2使用SSL时，目标域可以被保留，并且其余数据可以通过对抗学习过程被进一步对齐。当k=2时，我们首先将M（0）替换为M（1）（F（1））开始反向运动如果没有SSL，44. 3，这与表1中所示的结果相比是更大的改进。它可以进一步证明我们在第4.1节中关于分段自适应模型在向后方向上所起的重要作用的讨论此外，我们可以从表2中发现，尽管在第二次迭代开始时，mIoU从47下降。2到443、诱导SSL的同时，mIoU可提升至48。5布莱。我们给出了预测置信度（M中每个像素的最大类概率）与所选像素与所有像素之间的比率（即，图4中所示的所有白色区域的百分比），然后在图5的右侧示出斜率。我们可以找到预测置信度从0增加到0的时间。五比零。9时，该比率几乎线性地减小，并且斜率几乎保持不变。但从0。九比零。99，比例下降得更快。根据观察结果，我们选择反射点0。9作为阈值，作为所选标签的数量和质量之间的权衡。为了进一步证明我们的选择，在表3中，我们示出了在Al-出租m 1中当K = 1和N = 1时使用不同阈值对MK的自监督学习的分割结果。作为另一种选择，我们也考虑软阈值而不是硬阈值，即每个像素都被加权像素比像素比6944220101表2：双向学习与自监督学习GTA5→城市景观k=1K=2Miou男（0）69.0十二点七六十九点五九点九十九点五二十二点八三十一点七十五点三七十三点九十一点三六十七点二五十四点七二十三点九五十三点四二十九点七4.6十一点六26.1三十二点五三十三点六男（1）女（1）八十九点一42.082.0二十四点三十五点一二十七点四三十五点七二十四点六八十一点一三十二点四78.057.6二十八点七分76.0二十六点五36.04.0二十五点七二十四点九四十二点七分男（1）女（1）九十一点二四十七点八84.0三十四点八二十八点九分三十一点七三十七点七36.084.040.4七十六点六五十七点九分二十五点三八十点四三十一点二四十一点七2.8二十七点二三十二点四46.8男（1）女（1）91.4四十七点九八十四点二三十二点四26.0三十一点八三十七点三分33.0八十三点三三十九点二七十九点二五十七点七二十五点六81.3三十六点三三十九点七2.6三十一点三三十三点五47.2男（2）（女（2））八十八点二四十一点三八十三点二二十八点八分二十一点九三十一点七三十五点二二十八点二83.026.2八十三点二57.627.0七十七点一二十七点五三十四点六二点五二十八点三36.144.3男（2）（女（2））九十一点二四十六点一八十三点九三十一点六20.6二十九点九三十六点四三十一点九85.0三十九点七八十四点七五十七点五二十九点六八十三点一三十八点八分四十六点九二点五二十七点五38.247.6男（2）（女（2））九十一点零四十四点七分八十四点二三十四点六27.6三十二36.036.085.043.683.0五十八点六三十一点六八十三点三三十五点三四十九点七第3.3节二十八点八分35.6四十八点五最大类概率。我们在最下面一行显示结果。所有结果都证实了我们的分析。当阈值低于0时。9、未校正的预测成为影响SSL性能的关键问题我们将阈值提高到0。95，SSL过程对可以使用的像素数更敏感。当我们使用软阈值时，结果仍然较差。这可能是因为涉及大量的标签噪声，并且通过向噪声标签分配较低的权重不能很好地减轻不良影响。因此，0. 9在下面的实验中似乎是阈值的好选择。对于迭代次数N，我们也根据预测的标签选择适当的值当N增加时，分割自适应模型变得更强，导致更多标签用于SSL。一旦SSL的像素比率停止增加，这意味着分割自适应模型的学习收敛并且几乎没有改进。我们肯定会增加K的值来开始另一次迭代。在表4中，我们展示了阈值为0的一些分割结果。9，因为我们增加了N的值。我们可以发现，随着N的增加，mIoU变得更好。当N=2或3时，mIoU几乎停止增加，并且像素比率保持不变。这可能表明N=2是一个很好的选择，我们在工作中使用它。5. 实验在本节中，我们比较了我们的方法和最先进的方法之间获得的结果网络架构。在我们的实验中，我们选择使用DeepLab V2 [3]与ResNet 101 [11]和FCN-8 s [18]与VGG 16 [32] 作为我们的分割模型。它们是用ImageNet预训练的网络初始化的[15]。我们为分割自适应模型选择的卷积层类似于[26]，它有5个卷积层，内核为4×4，通道号为{64，128，256，512，1}步幅为2。对于每个卷积层，除了最后一个是由0参数化的泄漏ReLU [20]。二是遵循。对于图像平移模型，我们遵循CycleGAN [38]的架构，具有9个块，并添加分割自适应模型作为感知损失。训练当训练CycleGAN [38]时，图像被随机裁剪为452×452的大小，并训练20个epoch。对于前10个epoch，学习率为0。0002，并且在10个时期之后线性地减小到 0 我们在等式 3 中设置 λ GAN=1 ， λrecon=10，并设置λ per=0。1，对于感知损失，每次重建的λ = 10。当训练分割自适应模型时，使用长边为1，024，并保持该比例。不同的参数用于DeepLab V2 [3]和FCN-8 [18]。对于使用ResNet 101的DeepLab V2，我们使用SGD作为优化器初始学习率为2。5×10−4，并在幂为0的情况下使用“poly”学习率策略减少。9 .第九条。对于使用VGG 16的FCN-8，我们使用Adam作为优化器，动量为0。九比零。九十九。初始学习率为1×10- 5，并随着“步进”学习率策略而降低步长为5000，γ = 0。1.一、对于DeepLab V2和FCN-8 s，我们使用相同的训练器，使用Adam优化器进行训练， DeepLab V2 的初始学习率为1×10−4，FCN-8 s的初始学习率为1×10−6动量设为0。九比零。九十九。我们设置λ adv= 0。ResNet101为001，FCN-8 s为1×10−4。数据集。正如我们之前提到的，两个合成数据集源数据集和Cityscapes [5]用作目标数据集。对于GTA 5 [27]，它包含24，966张分辨率为1914×1052的图像，我们使用GTA 5和Cityscapes数据集之间的19个对于SYN-THIA [28]，我们使用SYNTHIA-RAND-CITYSCAPES集合包含 9 ， 400 张分辨率为 1280×760 的图像和Cityscapes的16个常见类别[5]。对于Cityscapes [5]，它分为训练集，验证集和测试集。训练集包含2，975幅分辨率为2048×1024的图像。我们只使用训练集作为目标数据集。因为测试的基本事实标签由于缺少有效集，我们不得不使用包含500幅图像的验证集作为我们实验中的测试集。与最新技术水平的比较。我们比较了我们的方法和最先进的方法之间的结果，两个不同的骨干网：ResNet101和VGG16。我们对两个任务进行比较：“GTA5 to Cityscapes”和“SYNTHIA toCityscapes”。在表5中，我们呈现了任务“GTA5”上的路人行道建筑壁围栏极T形灯T形符号植被地形天空人骑手车卡车总线火车摩托车自行车6945自适应结果。6946路人行道建筑壁围栏极T形灯T形符号植被地形天空获得人骑手车卡车总线火车摩托车自行车表5：从GTA5到Cityscapes的比较结果GTA5→城市景观Oracle方法mIoU[11]第VGG 16[32]60.3苏铁[12] 86.735.680.119.817.538.0 39.9 41.582.727.973.664.91965.0 12.0 28.64.531.1 42.0四十二点七分2019 - 05 - 21 10：00：00 00：00 00：00 00：007.229.5 32.5 41.4DCAN[36] 85.0 30.8 81.3 25.8 21.2 22.2 25.4 26.6 83.4 36.7 76.2 58.9 24.9 80.7 29.5 42.9 2.50 26.9 11.6 四十一点七CLAN[19] 87.0 27.1 79.6 27.3 23.3 28.3 35.5 24.2 83.6 27.4 74.2 58.6 28.0 76.2 33.1 36.7 6.7 31.931.4 四十三点二我们的91.044.784.234.627.630.236.036.085.043.683.058.631.683.335.349.73.328.835.648.5[第37话]74.9 22.0 71.7 6.0版本十一点九 8.4 16.3 11.1 75.7 13.3 66.5 38.0 九点三 55.2 18.8 18.9 0.0 16.8 16.6 二十八点九分加拿大中央银行[39] 66.7 26.8 73.7 14.8 九点五 28.325.9 10.1 75.5 15.7 51.6 47.2 6.2 七十一点九 3.7二、二5.418.9 32.4 三十点九苏铁[12] 85.2 37.2 76.5 21.8 15.0 23.8 22.921.5 80.5 31.3 60.7 50.5 九点零 76.9 17.1 28.2 4.59.8 0 35.4DCAN[36] 82.3 26.7 77.4 23.720.5 20.430.3 15.9 80.9 25.4 69.5 52.6 11.1 79.6 24.9 21.2 1.30 17.0 6.70 三十六点二CLAN[19] 88.0 30.6 79.2 23.420.5 26.1 23.0 14.8 81.6 34.5 72.0 45.8 七点九80.5 26.6 29.90.0 十点七 0.0三十六点六我们的89.240.981.229.119.214.229.019.683.735.980.754.723.382.725.8 28.02.325.719.941.3表6：SYNTHIA与CityscapesSYNTHIA→城市景观Oracle方法路侧builWalfenc极T形接t-sigve天空pers骑车总线motBICMiouResNet101[11][33]第三十三话79.237.278.8---9.910.578.280.553.519.667.029.521.631.345.971.7CLAN[19]81.337.080.1---16.113.778.281.553.421.273.032.922.630.747.8我们86.046.780.3---14.111.679.281.354.127.973.742.225.745.351.4[13]第十三话11.519.630.84.40.020.30.111.742.368.751.23.854.03.20.20.620.2VGG 16 [32][第37话]65.226.174.90.10.510.73.53.076.170.647.18.243.220.70.713.129.059.5CBST[39]69.628.769.512.10.125.411.913.682.081.949.114.566.06.63.732.435.4DCAN[36]79.930.470.81.60.622.36.723.076.973.941.916.761.711.510.338.635.4我们72.030.374.50.10.324.610.225.280.580.054.723.272.724.07.544.939.0到城市景观”与ResNet101和VGG16。我们可以观察到主干在所有域自适应方法中的作用，即ResNet101比VGG16获得了更好的结果。在[37，33，19]中，他们主要关注不同对抗损失函数的特征级对齐。但是仅仅在特征层面上工作是不够的，即使其中最好的结果[36]仍然比我们的结果差 5%Cycada [12] （我们使用ResNet101运行其代码）和DCAN [36]使用翻译模型，然后使用分割自适应模型来进一步减少视觉域间隙，并且两者都实现了非常相似的性能。与Cycada [12]相比，我们使用类似的损失函数，但使用新提出的双向学习方法，可以实现6%的改进。CBST [39]提出了一种自训练方法，并进一步提高了空间先验信息的性能。为了公平起见，我们展示了仅使用自我训练的结果。如果是VGG16，我们可以得到10。4%的改善。因此，我们可以发现，没有双向学习，自我训练的方法是不足以达到良好的性能。在表6中，我们展示了ResNet101和VGG16在任务“SYNTHIA to Cityscapes”上的适配结果。 SYNTHIA之间的领域差距和 Cityscapes 的规模比 GTA5 和Cityscapes大得多，它们的类别并不完全重叠。由于为ResNet101选择的基线结果[33，19]仅使用13个类别，因此我们还列出了13个类别的结果以进行公平比较。我们可以从表6中发现，随着do-main差距的增加，Cityscapes的适应结果与表5中的结果相比要差得多。考试-事实上，像“道路”、“人行道”和“汽车”这样的类别由于预测置信度较低，这一问题将对SSL但是我们仍然可以比[37，39，36，33]给出的大多数其他结果至少好4%与上限的性能差距。我们使用带有地面真值标签的目标数据集来训练分割模型，该模型与我们使用的主干相同，以获得上限结果。对于对于ResNet101具有13个类别和VGG16具有16个类别的对于我们的方法，虽然性能差距为16。至少，与其他方法相比，它已大大减少。然而，这意味着仍然有很大的空间来提高性能。我们把它放在未来的工作中。6. 结论在本文中，我们提出了一个双向学习方法与自监督学习的分割适应问题。我们通过大量的实验表明，当模型进行双向训练时，对真实数据集的分割性能可以得到改善，并在不同网络的多个任务中达到最先进的结果。确认这项工作部分由NSF奖项IIS- 1546305和IIS-1637941资助。走丁LeHTn对R奥尔比凯循环6947引用[1] G. J. Brostow，J. Shotton，J. Fauqueur和R.西波拉基于运动点云结构的分割与识别在ECCV（1），第44-57页，2008年。2[2] F. M. 卡鲁奇湖波尔齐湾 Caputo，E. Ricci和S. R. 布尔奥。自动拨号：自动域对齐图层。在ICCV，第5077-5085页，2017年。一、二[3] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deep

下载后可阅读完整内容，剩余1页未读，立即下载