自我激励的金字塔课程：非对抗性方法的跨领域语义分割

182 浏览量更新于2023-10-13 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6758构建跨领域语义分割的自我激励金字塔课程：非对抗性方法青莲1、丰茂吕1、立新段1、伯庆公21电子科技大学2谷歌{lianqing1997，lxduan}@ gmail.com，fengmaolv@126.com，boqinggo@outlook.com摘要我们提出了一种新的方法，称为自我激励的金字塔-mid课程域适应（PyCDA），以促进语义分割神经网络从合成源域到真正的目标域的适应。我们的方法借鉴了一个洞察力连接两个现有的作品：课程领域的适应和自我培训。受前者的启发，PyCDA构造了一个包含目标域各种属性的金字塔这些属性主要是关于目标域图像、图像区域和像素上通过强制分割神经网络观察这些属性，我们可以提高网络对目标域的泛化能力。出于自我训练的动机，我们通过诉诸语义分割网络本身来推断这一金字塔的属性。与先前的工作不同，我们不需要维护任何额外的模型（例如，逻辑回归或鉴别器网络）或解决通常难以优化的最小最大我们报告了从GTAV和SYNTHIA到Cityscapes的自适应的最新结果，这是无监督域自适应中的两个流行设置，用于语义分割1。1. 介绍语义分割的目标是为图像的每个像素分配在过去的几年里，社区已经做出了大量的努力来解决这个问题[23，1，41，3，21]，导致复杂和高性能的深度卷积神经网络作为主要解决方案。然而，收集和标记用于训练此类网络的图像是一项非常令人生畏的工作[6]。为了减轻沉重的注释负担，一个有前途的替代方案是采用照片般逼真的模拟器来有效地收集和标记训练数据。Richter等人[28]使用GTAV游戏引擎来帮助用户注释，1代码可在https://github.com/lianqing11/pycda(a) 合成图像与无标签像素明智的地面实况注释。(b) 有和没有适应的真实图像的分割结果。图1：用于语义分割的无监督域自适应。当我们适应一个使用合成图像训练的分割模型时，通过显式域自适应技术可以显着改善从而在仅49小时内（每个图像大约7秒）标记了2.5万个合成城市场景图像的数据集合成（源）域和真实（目标）域之间的明显视觉失配（参见图然而，当将在源域上训练的模型应用于目标域的真实图像时，（图3和4为了更好地利用合成IM-6759为了解决真实场景的语义分割问题，我们提出了一种新的领域自适应方法，该方法通过在两个先前的工作之间建立一种有趣的联系：课程领域适应[39，38]和自我训练[43]。这种联系自然会导致自我激励的金字塔课程和一种新的训练算法，用于语义分割网络的跨域适应。与领域自适应中流行的对抗训练方法[4，18，40，35，27，5，17，19，33]相比，我们的方法产生的结果与他们的结果相当或更好，但重量更轻，不需要学习额外的判别网络，更容易优化，不需要解决任何最小最大问题。更重要的是，它超越了原始的课程调整[38]和原始的自我培训方法[43]。特别是，我们认为自我培训的课程领域适应的角度。它们共享相同的算法格式。一方面，自我训练在两个子任务之间改变：1）估计目标域的像素的伪标签，以及2）通过使用源标签和伪目标标签两者来更新分割网络的权重。另一方面，课程改编首先是1）建构课程，即，以类标签在图像（或图像区域）上的频率分布的形式推断目标域的属性，然后2）使用源标签和目标域的属性来更新网络的权重。由于这种类比，我们可以将自训练中的伪标签更有趣的是，这两项工作的第二步在数学上具有完全相同的形式-频率分布/伪标签与网络预测的可微分函数之间的交叉熵损失紧接着，我们的方法遵循上述类比。我们将自训练中的伪标签添加到课程中，作为关于目标域图像的最精细属性层。在此基础上，我们构建了一个金字塔，其中一个层包含一定大小的图像区域。这种金字塔设计类似于原始的课程域适配工作，其中分别在全局图像和一些超像素上对频率分布进行计数-换句话说，简单的双层金字塔。除了通过伪标签来丰富原有课程外，我们还从两个方面进行了改进。一种是用小的正方形区域替换超像素以显著地节省计算成本。另一种是通过语义分割网络本身来推断目标域属性-平方区域和完整目标域图像上的标签分布在训练阶段的每次迭代中，我们从网络对目标域图像的逐像素预测中推断出这些属性我们的主要贡献是双重的。一个是我们提供了一种新的见解，将自适应分割网络的自我训练[43]和课程适应方法[39，38]联系起来。另一个是，受连接的启发，我们提出了一种新的自激励金字塔课程的语义分割网络的域适应。大量的实验表明，它优于[43]或[38]单独。此外，它与最先进的对抗适应方法相当或更好，而不需要维护额外的判别器网络或仔细调整最小最大问题的优化过程。2. 相关工作语义分割语义分割是在像素级为图像分配标签的任务，在许多任务中起着至关重要的作用，包括自动驾驶，疾病检测等。在下文中，我们简要回顾了一些工作，重点是基于CNN的方法。在强大的深度神经网络[16]的驱动下，像素级预测任务取得了很大的进展，主要是在用像素级softmax [23]替换分类中的softmax层的设计之后。为了扩大感受野和特征分辨率，[1，2，3，41]的方法采用扩张卷积。为了利用不同的上下文信息和多个特征，一些人将扩张卷积扩展到金字塔[1，2，3]或用多个大小调整它的大小[41]。域适应。传统机器学习中的一个基本假设是，i.i.d.来自同一个底层分布。然而，这并不总是在现实世界中的场景，导致显着的性能下降时，训练和测试数据存在分布不匹配。域自适应的目的是纠正这种不匹配，使模型推广到测试域。域自适应主要用于计算机视觉中的图像分类问题[8，9，15，14，13，24，25]。最近的工作开始研究深度神经网络，包括学习域不变模型[13，32，12]和目标特定模型[30，11]。用于语义分割的域适应。近年来关于领域自适应的研究主要从两个方面进行。一是基于课程学习策略。Zhang等人首先学习解决目标领域中的简单任务，然后使用它们来正则化语义分割[39，38]。Dai等人通过模拟不同雾密度的雾图像构建课程[7]。在这项工作中，我们还将自我训练[43]视为一种课程式的主要适应方法。另一种工作是减少特征空间或输出空间中的域偏移，并试图寻求更好的方法来对齐中间层中的两个域[4，18，40，35，27，42，5，17，19，33，26]。在[18]中，Hoff-man et al.将全局和局部对齐方法与6760不不不不不类直方图金字塔课程全池顶层目标图像8×8合并预训练中间层4×4合并中层1×1合并源图像底层更新分割网络图2：我们的自我激励金字塔课程领域适应（PyCDA）细分方法概述域对抗训练损失。在[5]中，Chen et al.进一步提出了一种由目标域中的软伪标签引导的全局和类特定的特征对齐方法。在[35]中，Tsai et al.建议在结构化输出空间级别对齐这两个域。在[4，40]中，他们专注于在主适应中，给出源域（S）的基础事实标签{Ys}，但是学习者不能访问目标域（T）的标签。CDA[38]通过最小化以下目标函数来学习语义分割网络：利用空间信息来帮助鉴别器更好地将域着色。在[26，42]中，他们专注于求解-min Σ Σ ΣL（Ys，Ys）+λC（pk，p（k））（1）解决领域s∈St tt∈Tk∈P1适应在[17，27，33]中，他们提出通过在像素级直接将源图像转换为目标图像来学习域自适应分割网络我们建议读者参阅[38，第5节]以获得更全面的审查。3. 方法在本节中，我们首先揭示了课程领域适应（CDA）[38]与自我适应之间的联系。其中，第一项对源域图像（s∈S）上的逐像素交叉熵损失求和，第二项的每个被加数是目标域图像（t∈T）上的两个标签分布之间的交叉熵损失，这两个标签分布指示图像t或其区域中的每个类别的比例，并且集合P1收集目标图像t的所有标签分布。作为具体示例，通过下式计算目标域图像It上的期望标记分布p。适应性培训（ST）[43]。这种联系自然导致了本文的训练算法，称为p0（c）=1千瓦ΣHWHYt（i，j，c），c，（2）自我激励金字塔课程领域适应（Py，CDA），用于语义分割任务。3.1. CDA与St由It∈RH×W表示目标域图像，并且i=1j=1并且由分段网络预测的属性p（0）（其可以以与上述类似的方式从网络预测Y（t）获得）被假定为匹配期望的la。bel分布p0. 在此示例中，标签分布Yt ∈RH×W×C表示一个语义的相应输出不在全图像上捕获全局属性。其他人分段网络，其中H、W和C分别为即输入图像的高度、宽度和可能类别的数量。大多数神经分割网络在图像区域内计算的图像捕获目标域图像的局部特性。准确的读者可能会赢得-如何估计期望的性质pk，k∈ P1，在t t在输出层采用逐像素softmax函数证明了Y<$t（i，j）∈RC是满足c的概率向量Y<$t（i，j，c）=1，<$i，j且Y<$t（i，j，c）≥0，<$i，j，c. 类似地，由Is和Ys表示源域图像，并且网络的相应预测在无人监管的情况下-实践，因为目标标签在无监督域自适应中实际上是未知的;我们在下面解释。CDA的名称源于以下由易到难的课程。与逐像素预测相比，获得这些标签分布相对容易6761不不不特别是当图像是关于共享公共对象和空间布局的城市场景时。Zhang等人[38]训练单独逻辑回归模型和支持向量机器来估计这些分布pk，k∈ P1。在这小区域。Zhang等人在他们的原始CDA工作[ 38 ]中采用非重叠超像素，这引起额外的计算开销。我们用重叠的正方形代替超像素。而像素方块t t然而，在本文中，我们以自我训练的方式通过分割网络本身。自训练（ST）[43]将目标域图像的未知标签视为潜在变量。它在以下之间交替：1）推断潜在目标标签的值，以及2)更新网络的权重。第二步骤基本上解决了以下问题：不跟踪对象边界，它们的方形形状使快速当我们推断它们的标签分布时，GPU计算如下所示。此外，由于正方形足够小，它们中的大多数各自覆盖相同类别的像素在实验中，我们使用了4×4的正方形PyCDA中金字塔的中间层为8×8目标域属性的自动机推理。在Σ Σ ΣminL（Y，Y）+λC（Y（i，j），Y（i，j）），以便估计目标域的伪标记Yt（i，js s ttpixel（i，j），我们使用简单的阈值方法。去-s∈St∈T（i，j）∈P2由c注解←arg maxcY∈t（i，j，c），我们有其中，P2是目标图像It的像素的集合，其伪标签{Yt（i，j）}被推断，其他像素具有空标签，因为在这些像素处的网络预测是无效的。Yt（i，j）=.cifYt（i，j，c）>0. 5否则为空（三）位置可能低于某个阈值。两者之间的联系。CDA和ST的目标函数非常相似。唯一的区别是-其中，P1和P2是前两个参数。其中Y（t）是分段网络在训练迭代时的输出我们说一个像素在这一步中幸存下来，并将把它添加到金字塔课程的底层，如果它的伪t t标签不为空。或者，可以使用自定进度的在全局目标域映像上选择标签分布It和它的一些局部区域，并且后者是由ST中的第一步骤伪标记的I t的像素。如果策略设计[43]以估计伪标签。我们采用类似的策略来决定每个像素正方形属于哪个用（i，j）表示正方形我们将这两个集合合并，即， P1∪ P2？他们看起来确实像00tt（例如，这个正方形左上角的坐标相互补充。多亏了CDA我们推测最细粒度的像素级伪标签P2可以是我们取网络预测的平均池通过细粒度IM的标签分布增强。Y（i，j，c）←mean（Y（i，j，c））（4）年龄区域和最粗粒度的完整图像。由于ST，我们合理地期望可以导出标签分布正方形0 0（i，j）∈平方t从分割网络本身，而不需要求助于任何附加的模型（例如，逻辑回归或[38]中使用的SVM）。根据这一推理路线，我们设计了以下方法。3.2. 自我激励金字塔CDA（PyCDA）我们提出了一个自我激励的金字塔课程的域适应（PyCDA）的语义分割任务。该想法忠实地遵循上述见解，即，我们将CDA和ST中分别使用的两个集合P1∪P2合并然后对池化值Ysquare（i0，j0，c）进行阈值化，确定正方形的标号，即，在等式中用Y平方代替Yt。（三）、在实现过程中，我们通过在GPU上添加一个平均池化层，网络像素正方形的该标签可以被转换为独热向量，并被视为该正方形上的标签最后，我们想要估计整个目标域图像上的标签分布。Zhang等人[38]给出了这个子任务的几个候选方法，我们使用最多的t t活泼地该并集产生具有至少三个层的金字塔：像素在底层，小的图像区域在中间，完整的图像在顶部。请注意，此金字塔是为目标域映像而不是源域映像构建的。类似于CDA，我们将推断顶层完整图像上的标签分布和中间层小图像区域的标签分布，或者更具体地说，独热向量与ST类似，我们希望将伪标签分配给一些底层像素。请参考图2，以了解所提出的PyCDA方法的概述。超像素与像素正方形。在描述主要方法之前，我们首先讨论如何将图像划分为6762在这项工作中计算效率高尤其是，没有垫-对于哪个目标域图像，我们将所有源域图像的标签分布的平均值传递给它如[38]的实验所示，这实际上产生了与从源域学习逻辑回归模型相当的结果，这可能是因为城市场景的图像对于城市场景之外的目标域，期望替代的复杂算法来可靠地估计目标域图像的标签分布。PyCDA。我们现在准备好呈现所提出的PyCDA方法的总体目标函数：6763(a) 版gta(b) Synthia图3：GTAV [28]和SYNTHIA [29]数据集的样本图像1minΣL（Y，Y）+λ1Σ. 00Σ他们使用对抗训练来拉近信息来源|S| s∈SSs|不|Ct∈Tpt，pt和目标域在要素级别（ROAD [4]）上λ2 Σ.kkΣ功能和像素（FCAN [40]，CyCADA [17]），+|P|C（t，k）∈PYt，Yt、（五）输出映射（OutputAdapt [35]，CLAN [26]），以及将对抗学习与熵最小化（AD-2000）相通风口[36]）。相比之下，我们的PyCDA方法，以及其中λ1和λ2是预定义的折衷参数，并且P={（t，k）|t ∈ T，k ∈ P1∪ P2}表示标号dis-CDA [38]和ST [43]通过位置调整神经网络。测试内部正则化。广告之间的区别贡献（分别，伪标签）在方形区域上（相应地，像素）。注意，在Eq.在等式（5）中，第二项是在目标图像上的标签分布上定义的交叉熵损失，并且最后一项考虑目标域的像素和平方区域。在实验中，我们设置λ1=1，λ2=0。5并调谐其它自由参数（例如，学习速率）。金字塔课程的效果。我们已经描述金字塔课程，其由顶部的全局目标域图像、底部的像素和其间的像素正方形组成。从CDA的角度来看[38]，顶层图像上的标签分布在宏观上提示网络如何更新其预测，而中层像素正方形上的标签分布在微观上指示网络在哪里更新。底层像素的伪标签为网络提供了更从ST的角度来看[43]，中间层像素正方形可以被视为共识投票的一种方式，使得可以比在孤立像素处对预测进行阈值化更可靠地估计（正方形的）伪标签。目标域图像上的标签分布就像类上的先验，扮演着与[43]中的类平衡公式类似的角色。4. 实验在本节中，我们对语义分割任务的模拟到真实的无监督域自适应进行了广泛的实验。我们比较了几个国家的最先进的方法，建议Py- CDA。大多数对抗性训练方法和我们的方法对于实际应用是重要的，因为最小最大对抗性问题通常难以优化并且必须维护附加的鉴别网络。请注意，我们只比较从单个模型获得的结果，而不使用任何集成策略。4.1. 实验装置我们遵循先前作品的实验设置[38，4，40，43]并使用标准基准设置（即， “GTAV to Cityscapes” and“SYNTHIA to Cityscapes”) in the• Cityscapes[6]是一个流行的数据集，用于对语义分割模型进行基准测试。图像被收集起来在现实世界中被车载摄像机拍摄。该数据集关注城市场景，覆盖德国和周边国家的50个城市。其官方数据部分在训练集中有2，975张图像，在验证集中有500张图像，在测试集中有总共有19类语义标签与GTAV兼容，16类与SYNTHIA兼容。• GTAV[28]是一个大规模数据集，其中包含从附近收集的24，966个合成城市场景图像一款名为《侠盗猎车手V》（Grand Theft AutoV，简称GTA或GTAV）的游戏。我们认为所有的19个语义类的GTAV的适应城市景观。• SYNTHIA[29]是另一个合成图像数据集，并提供了一个特定的子集，称为SYNTHIA。6764TP+ FP+FN表1：从GTAV调整到Cityscapes的比较结果（以%计）除了CDA之外，所有先前的方法都在训练中使用Cityscapes的整个训练集-因此他们的模型比我们的模型看到更多的目标图像-并且不会遗漏一个单独的验证集用于模型选择。与其他不同的是，FCAN直接使用原始图像大小。OutputAdapt（ResNet-101）使用ImageNet [31]和MS COCO[22]预训练模型。网络方法路 sdwk 建筑壁围栏极光签署蔬菜特伦河天空 PSN 骑手车卡车总线火车 Moto 自行车Miou来源[32]25.9 10.950.53.312.2 25.4 28.6 13.0 78.3 7.3 63.9 52.1 7.9 66.3 5.27.80.913.7 0.724.9仅来源（我们的）56.0 12.271.68.517.8 19.5 14.5 3.1 73.2 3.8 46.0 38.8 4.4 70.7 15.1 2.52.21.40.124.3CDA [38]72.9 30.074.9 12.1 13.2 15.3 16.8 14.1 79.3 14.5 75.5 35.7 10.0 62.1 20.6 19.0 0.019.3 12.0 31.4ST [43]83.8 17.472.1 14.32.916.5 16.0 6.8 81.4 24.2 47.2 40.7 7.6 71.7 10.2 7.60.511.1 0.928.1VGGCBST [43]66.7 26.873.7 14.89.528.3 25.9 10.1 75.5 15.7 51.6 47.2 6.2 71.9 3.72.25.418.9 32.4 30.9-16汽车旅馆[4]85.4 31.278.6 27.9 22.2 21.9 23.7 11.4 80.7 29.3 68.9 48.5 14.1 78.0 19.1 23.8 9.48.30.035.9CyCADA [17]85.2 37.276.5 21.8 15.0 23.8 22.9 21.5 80.5 31.3 60.7 50.5 9.0 76.9 17.1 28.2 4.59.80.035.4[26]第二十六话88.0 30.679.2 23.4 20.5 26.1 23.0 14.8 81.6 34.5 72.0 45.8 7.9 80.5 26.6 29.9 0.010.7 0.036.6高级[36]86.8 28.578.1 27.6 24.2 20.7 19.3 8.9 78.8 29.3 69.0 47.9 5.9 79.8 25.9 34.1 0.011.3 0.335.6PyCDA（我们的）86.7 24.880.9 21.4 27.3 30.2 26.6 21.1 86.6 28.9 58.8 53.2 17.9 80.4 18.8 22.4 4.19.76.237.2来源[43]70.0 23.767.8 15.4 18.1 40.2 41.9 25.3 78.8 11.7 31.4 62.9 29.8 60.1 21.5 26.8 7.728.1 12.0 35.4ResNet ST [43]90.1 56.877.9 28.5 23.0 41.5 45.2 39.6 84.8 26.4 49.2 59.0 27.4 82.3 39.7 45.6 20.9 34.8 46.2 41.5-38CBST [43]86.8 46.776.9 26.3 24.8 42.0 46.0 38.6 80.7 15.7 48.0 57.3 27.9 78.2 24.5 49.6 17.7 25.5 45.1 45.2PyCDA（我们的）92.3 49.284.4 33.4 30.2 33.3 37.1 35.2 86.5 36.9 77.3 63.3 30.5 86.6 34.5 40.7 7.917.6 35.5 48.0来源[35]75.8 16.877.2 12.5 21.0 25.5 30.1 20.1 81.3 24.6 70.3 53.8 26.4 49.9 17.2 25.9 6.525.3 36.0 36.6仅来源（我们的）73.8 16.066.3 12.8 22.3 29.0 30.3 10.2 77.7 19.0 50.8 55.2 20.4 73.6 28.3 25.6 0.127.5 12.1 34.2汽车旅馆[4]76.3 36.169.6 28.6 22.4 28.6 29.3 14.8 82.3 35.3 72.9 54.4 17.8 78.9 27.7 30.3 4.024.9 12.6 39.4ResNet 输出适配[35]86.5 36.079.9 23.4 23.3 23.9 35.2 14.8 83.4 33.3 75.6 58.5 27.6 73.7 32.5 35.4 3.930.1 28.1 42.4-101FCAN [40]-------------------46.6[26]第二十六话87.0 27.179.6 27.3 23.3 28.3 35.5 24.2 83.6 27.4 74.2 58.6 28.0 76.2 33.1 36.7 6.731.9 31.4 43.2高级[36]87.6 21.482.0 34.8 26.2 28.5 35.6 23.0 84.5 35.1 76.2 58.6 30.7 84.8 34.2 43.4 0.428.4 35.3 44.8PyCDA（我们的）90.5 36.384.4 32.4 28.7 34.6 36.4 31.5 86.8 37.9 78.5 62.3 21.5 85.6 27.9 34.8 18.0 22.9 49.3 47.4RANDCITYSCAPES，与Cityscapes配对。该子集包含9，400个图像，这些图像自动标记有12个对象类别，一个空类和一些未命名的类。在[38]之后，我们手动将四个未命名的类与Cityscapes中的对应类对齐，形成SYNTHIA和Cityscapes之间的16个公共类。在这项工作中，我们考虑包含真实图像的Cityscapes作为目标域，而GTAV和SYNTHIA分别被用作源域（来自两个域的样本图像如图所示）。（3）第三章。由于Cityscapes官方测试集的groundtruth标签不公开，因此严格遵循[38]，我们将官方验证集作为最终评估的测试集IoU，我们还报告这些IoU的平均值（即，mIoU）在所有类上。请注意，在实验中，我们在将图像馈送到分割网络之前调整了图像的大小，因此在运行评估代码时，我们将输出分割掩码调整回实作详细数据。由于现有的最先进的方法使用不同的基础分割网络作为其骨干，我们采用以下方法进行更广泛的比较： 1)FCN 8 [23]与VGG-16 [34]; 2）ResNet-38 [37];和3）PSP-Net [41]与ResNet-101 [16]。所有基础网络都在ImageNet上进行了预训练[31]。关于数据预处理，我们首先将图像调整为相同的宽度（1024），同时保持原始的纵横比。在训练过程中，我们随机种植区域，500张图片都是从官方随机抽取的培训在城市景观：培训验证5005002475在此工作：培训（无标签）确认测试他们到网络。在测试过程中，我们将整个图像（其宽度为1024）馈送到网络。在评估过程中，我们将输出分割掩码的大小调整回原始图像大小（2048×1024），以计算设置为验证，其余2，475张图像用作来自目标域的未标记训练数据。评价我们直接使用与Cityscapes一起发布的评估代码，其中PASCAL VOC交叉-联合（IoU）[10]用作评估指标。具体来说，对于每个类，我们有IoU=TP，其中TP、FP和FN是真在整个测试集上分别为正、假正和假负像素。除了每个类之外6765mIoUs。关于训练管道，我们首先在源图像中训练模型，迭代30000然后，我们使用PyCDA框架对模型进行微调，再进行30000次迭代。训练是优化的SGD，动量为0.9。使用验证数据，我们将初始学习率设置为0.016，并在微调阶段将其降低十倍。在测试阶段，我们应用adabn [20]来改变批量归一化层的均值和方差，这些层是在两个do图像上计算的6766表2：从SYNTHIA到Cityscapes的比较结果（%）。mIoU* 表示13个类别的平均IoU，不包括标记有 * 的类别。除了CDA之外，所有先前的方法都在训练中使用Cityscapes的整个训练集-因此他们的模型比我们的模型看到更多的目标图像-并且不会遗漏一个单独的验证集用于模型选择。网络方法路sdwk 建筑墙 * 围栏 * 杆 *光签署蔬菜天空 PSN骑手车总线麦克伊克勒bcycl Miou mIoU*来源[4]4.711.662.310.70.022.84.3 15.3 68.0 70.8 49.76.4 60.5 11.82.64.325.428.7仅来源（我们的）50.1 20.049.40.00.016.30.00.0 69.9 54.2 43.9 4.7 43.1 6.10.10.122.426.3CDA [38]57.4 23.174.70.50.614.05.34.3 77.8 73.7 45.0 11.0 44.8 21.21.920.329.735.4VGG-16ST [43]CBST [43]汽车旅馆[4]0.269.677.714.528.730.053.869.577.51.612.19.60.00.10.318.925.425.80.911.910.37.813.615.672.282.077.680.381.979.848.149.144.56.314.516.667.766.067.84.76.614.50.23.77.04.532.423.823.935.436.227.840.441.8[26]第二十六话80.4 30.774.7---1.48.0 77.1 79.0 46.5 8.9 73.8 18.22.29.9-39.3高级[36]67.9 29.471.96.30.319.90.62.6 74.9 74.9 35.4 9.6 67.8 21.44.115.531.436.6PyCDA（我们的）80.6 26.674.52.00.118.1 13.7 14.2 80.8 71.0 48.0 19.0 72.3 22.5 12.118.135.942.6来源[35]55.6 23.874.6---6.1 12.1 74.8 79.0 55.3 19.1 39.6 23.3 13.725.0-38.6仅来源（我们的）55.6 22.768.64.30.123.05.69.1 77.2 75.9 54.7 8.7 81.5 23.98.48.833.038.5ResNet 输出适配[35]84.3 42.777.5---4.77.0 77.9 82.5 54.3 21.0 72.3 32.2 18.932.3-46.7-101[26]第二十六话81.3 37.080.1---16.1 13.7 78.2 81.5 53.4 21.2 73.0 32.9 22.630.7-47.8高级[36]85.6 42.279.78.70.425.95.48.1 80.4 84.1 57.9 23.8 73.3 36.4 14.233.041.248.0PyCDA（我们的）75.5 30.983.320.80.732.7 27.3 33.5 84.7 85.0 64.1 25.4 85.0 45.221.232.046.753.3在训练过程中，仅将主函数转换为目标域上的均值和方差。4.2. Results我们报告了从GTAV到Cityscapes的无监督域自适应结果，与表1中现有的最先进技术相比。请注意，除了CDA之外，所有先前的方法都在训练中使用Cityscapes的整个训练集-实现他们的模型比我们的模型看到更多的目标图像-并且不会遗漏用于模型选择的单独验证集。与其他人不同，FCAN直接与原始高分辨率图像一起工作。OutputAdapt（ResNet- 101）使用ImageNet[31]和MS COCO [22]预训练模型。我们得出以下意见。首先，所有域自适应方法显著优于相应的这样的结果清楚地证明了明确使用结构域适应技术来改善从合成图像到真实图像的转移的益处。此外，将我们的完整方法（PyCDA）与现有方法在mIoU方面进行比较，PyCDA产生了迄今为止从GTAV 到 Cityscapes 的最佳结果请注意，第二好的FCAN是一个两阶段的方法，在图像像素级上进行风格转移，然后进行特征的对抗训练。风格转移阶段运行非常慢，每张图像消耗大约一到两个小时。PyCDA与图像风格转移和对抗训练都是正交的，因此如果我们将风格转移应用于这两个领域的图像，我们的结果可以进一步改善与分布匹配方法（ FCN-wild [18] ， ROAD [4] ，OutputAdapt [35]和FCAN [40]）相比，PyCDA特别擅长优势类，如同时，PyCDA在分类小对象方面优于CBST [43]表3：PyCDA的消融研究（以mIoU%计）。实验设置版gtaSynthiaVGG-16 Res-101 VGG-16 Res-101源仅24.3 34.222.4 33.0顶部28.0 42.028.7 40.7CDA [38]29.7-31.4-底部32.6 40.631.3 41.0ST [43]28.1-23.9-顶部+底部34.946.235.144.8顶部+像素方块35.446.335.445.6top +超像素35.246.335.245.9PyCDA37.247.435.946.74.3. 关于“SYNTHIA to Cityscapes”的问题为了进一步验证PyCDA的有效性，我们还使用SYNTHIA作为源域进行实验。具有VGG-16的FCN 8和具有ResNet-101的PSP-Net用作骨架以评估不同的方法。此设置的IoU结果总结见表2。从结果中，我们可以清楚地看到，当使用不同的主干时，我们的PyCDA再次大幅优于现有的最先进技术，并且还可以得出与“GTAV到城市景观”设置中4.4. 消融研究为了分析PyCDA的有效性，我们使用上述两种设置进行消融研究，即，分别以GTAV和SYNTHIA作为源请注意，PyCDA将课程领域自适应（CDA）与自我训练（ST）连接起来，并且可以将其视为一个6767(a) 输入图像（b）地面实况（c）改编自GTAV（d）改编自SYNTHIA图4：目标域上的一些定性分割结果（a）显示目标图像，并且它们对应的地面实况分割掩模在（b）中示出。(c)以及（d）显示分别从我们的自GTAV和SYNTHIA适配的PyCDA模型获得的分割结果。由从像素（底部）到全图像的标签分布（顶部）的多个级别构造的金字塔在这种情况下，我们通过比较其消除不同水平的对应物来评估PyCDA具体地，我们将“顶部+底部”和“顶部+像素正方形”分别表示从表3中，我们可以看到，无论是在像素级还是在像素正方形级，将CDA与ST连接都在很大程度上优于CDA和ST，这证明了将两种方法连接起来的有效性。PyCDA同时考虑像素和像素方块，得到了相当大的幅度的进一步提升。超像素与像素正方形。如第3节所讨论的，生成超像素是耗时的（每个图像约3.6秒为了避免计算开销，我们在PyCDA中切换到像素正方形如表3所示，使用像素正方形的mIoU性能实现了与使用超像素的mIoU性能相当的结果。4.5. 定性比较GTAV和SYNTHIA人们可能想知道合成图像的两个源域如何彼此不同，以及这种差异会对真实图像的目标域造成什么影响。图3示出了两个域的一些示例图像。虽然GTAV图像以车辆为中心，但SYNTHIA中有更多在图4中，我们分别给出了通过我们的 PyCDA 模型从 GTAV 和SYNTHIA获得的一些定性结果。总的来说，GTAV改造的PyCDA的分割效果较好特别是对于占主导地位的“公路”级。该观察还可以通过基于GTAV训练的Py-CDA模型的“道路”的优良IoU（90.5%，表1）来验证考虑到所有这些结果，我们认为GTAV在视觉外观和空间布局方面比SYNTHIA更接近真实的自动驾驶场景。5. 结论我们提出了一种新的方法，称为自我激励的金字塔-mid课程领域适应（PyCDA）像素级的语义分割。PyCDA提供了一种新的洞察力视角，它将自我训练与分段网络和课程领域适应相结合。更具体地，PyCDA基于每个真实图像中不同大小的像素正方形的金字塔来构建课程该课程是自我激励的，因为金字塔上的标签分布来自于先前迭代的相同网络。通过形成这样一个金字塔的像素广场，我们能够更好地保存和捕捉局部信息的对象出现在不同的尺度。在两个基准设置（即，“GTAV to Cityscapes” and鸣谢。国家自然科学基金项目（批准号：2000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 61772118）。6768引用[1] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。Deeplab：使用深度卷积网络、无纹理卷积和全连接crf进行语义图像分割。IEEE Transactions on Pattern Analysis andMachine Intelligence，40（4）：834-848，2018。一、二[2] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 2[3] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。一、二[4] Yuhua Chen，Wen Li，and Luc Van Gool.道路：面向现实的适应城市场景的语义分割。在CVPR，2018年。二三五六七[5] Yi-Hsin Chen ， Wei-Yu Chen ， Yu-Ting Chen ， Bo-Cheng Tsai，Yu-Chiang Frank Wang，and Min Sun.不再歧视：道路场景分段器的跨城市适应。InICCV，2017.二、三[6] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，R

下载后可阅读完整内容，剩余1页未读，立即下载