基于区分性面片表示的领域自适应方法改进语义分割

98 浏览量更新于2023-10-16 收藏 1.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1456基于区分性面片表示的结构化输出域自适应蔡怡萱1孙基赫1塞缪尔·舒特1曼莫汉·钱德拉克1，21NEC美国实验室2加州大学圣地亚哥分校摘要预测语义分割等结构化输出依赖于昂贵的每像素注释来学习卷积神经网络等监督模型然而，在一个数据域上训练的模型如果没有用于模型微调的注释，可能无法很为了避免劳动密集型的注释过程中，我们开发了一个域适应方法，以适应源数据的未标记的目标域。我们建议通过构建一个聚类空间来发现多个模式的补丁输出分布，从而学习以这种表示为指导，我们使用对抗学习方案来推动聚类空间中目标补丁的特征表示此外，我们表明，我们的框架是补充现有的领域适应技术，并实现了一致的改进语义分割。在具有各种设置的众多基准数据集上展示了广泛的消融和结果，例如合成到真实和跨城市场景。1. 介绍随着大规模注释数据集的可用性[8]，深度学习对许多计算机视觉任务产生了重大影响，例如对象识别[14，21]，检测[11]或语义分割[3]。不幸的是，当在与标记的训练数据不同的测试域上进行评估时，学习的模型可能不会泛化[45]。无监督域自适应（UDA）[10，32]已被提出来缩小由源域（其中标记数据可用）和目标域之间的不匹配所UDA通过仅利用来自目标域的未标记数据来规避昂贵的数据注释过程。沿着这条路线，已经开发了许多UDA方法，并成功地应用于分类任务[1，10，23，24，32，40，41]。Google Cloud AI。图1.我们的方法旨在通过以下方式改善输出分布对齐：1）从源补丁注释发现补丁模式，以构建聚类空间并投影到特征空间，以及2）从目标补丁表示（未填充符号）到源分布（实心符号）的补丁对齐。UDA对于像素级预测任务（如语义分割）更为重要，因为注释的成本非常高。语义分割领域自适应的一种突出方法是通过对抗学习进行分布对齐[13，10]，其中对齐可能发生在不同的表示层，例如像素级[16，48]，特征级[16，17]或输出级[39]。尽管有这些努力，发现数据分布的所有模式是领域适应的关键挑战[38]，类似于生成任务也面临的困难[2，26]。对抗训练中的一个关键步骤是使用卷积神经网络[19，16，39]将补丁分类到源或目标域。然而，判别器没有被监督以捕获数据分布中的几种模式此外，对于语义分割的任务，重要的是捕获和适应高度结构化的输出空间的高级模式。在这项工作中，我们提出了一个无监督域adap-1457在语义分割的结构化输出空间中显式地发现许多模式，以学习两个域之间更好的匹配，最终导致更好的域对齐。我们利用源域中可用的像素级语义注释，但不是直接在输出空间上工作[39]，我们的适应分两个阶段进行。首先，我们从源域中提取补丁，使用它们的注释图表示它们，并通过应用K均值聚类来发现主要模式，该聚类将补丁分组为K个聚类（图1中的步骤A）。源域中的每个补丁现在可以被分配到一个真实聚类或模式索引。然后，我们引入了一个K路分类器，预测每个补丁的聚类或模式索引，这可以在源域中监督，但在目标域中没有。其次，与输出空间对齐[39]不同，我们的方法称为补丁级对齐（图1中的步骤B），在投影到已经发现各种补丁模式的聚类空间之后，在K维概率向量空间上操作。这与在像素级[48]、特征级[16]或输出级[39]上操作的在聚类空间上学习的梯度可以通过聚类或模式索引分类器将梯度反向传播到语义分割网络。在实验中，我们遵循[16]的设置并执行像素级道路场景语义分割。我们在各种设置下进行了实验，包括合成到真实（GTA5 [30]，SYNTHIA [31]到Cityscapes[7]）和跨城市（Cityscapes到Oxford RobotCar [25]）适应。我们提供了一个广泛的消融研究，以验证每个组件在拟议的框架。我们的方法也是对现有域自适应技术的补充，我们通过结合输出空间自适应[39]，像素级自适应[15]和伪标签重新训练[50]来证明我们的研究结果表明，学习的representations提高分割结果一致，并实现国家的最先进的性能。我们的贡献总结如下。首先，我们提出了一个结构化预测的对抗适应框架，该框架明确地试图发现和预测输出补丁的模式。其次，我们证明了我们的方法的互补性集成到三个现有的域适应方法，都可以从中受益。第三，我们广泛地分析了我们的方法，并展示了语义分割的各种领域适应基准的最新结果。12. 相关工作我们讨论了图像分类和像素级结构化预测任务的无监督域自适应方法，并致力于学习解纠缠表示。1该项目的网页在www.example.com上，网址为：http：//www.example.com/adapt-seg。www.nec-labs.com/图像分类的UDA。UDA方法已经被开发用于通过对齐源域和目标域之间的特征分布来进行分类。传统方法使用手工制作的特征[9，12]来最小化跨域的差异，而最近的算法利用深度架构[10，40]来学习域不变特征。一种常见的做法是采用对抗学习[10]或最小化最大平均差异[23]。通过设计不同的分类器[24]和损失函数[40，41]以及距离度量学习[36，37]，已经开发了几种变体。此外，其他最近的工作旨在通过像素级传输[1]和最大分类器差异[33]来增强特征表示语义分割的UDA。结合图像分类的实践，研究了像素级预测的领域自适应方法。[16]介绍了通过调整全局特征表示来适应合成图像，以解决道路场景图像的语义分割问题。此外，特定类别的先验，例如，从源域提取对象大小和类分布，并将其作为约束传送到目标分布。而不是设计这样的约束，[46]应用SVM分类器来捕获超像素上的标签分布作为训练适应模型的属性。同样地，[6]提出了一种通过为目标数据分配伪标签的类域对抗对齐。最近，提出了许多方法来改进自适应分割，并且可以分类如下：1）输出空间[39]和空间感知[5]自适应旨在对齐全局结构（例如，场景布局）; 2）像素级自适应合成目标样本[15，27，43，47]，以减少训练期间的域间隙分割模型; 3）伪标签重新训练[34，50]生成目标图像的伪地面真值，以微调在源域上训练的模型。虽然与我们最相关的方法来自第一类，但它们不处理固有的域间隙，例如相机姿势。相比之下，所提出的补丁级对齐能够匹配补丁在不同的图像位置跨域。我们还注意到，其他两个类别或其他技术，如鲁棒损失函数设计[49]与这项工作的贡献正交。在第4.3节中，我们展示了我们的补丁级表示可以与其他本地自适应方法集成，以进一步提高性能。学习分解的表征。学习潜在的解纠缠空间已经导致更好地理解许多任务，例如面部识别[29]，图像生成[4，28]和视图合成[22，44]。这些方法使用预定义的因素来学习图像的可解释表示。[22]提出学习相对于各种图像变换被解开的图形代码，例如，1458图2.我们补丁级对齐的概述对于我们的方法，类别分布投影到补丁分布，通过一个聚类空间，通过发现K补丁模式在源域中构建对于目标数据，我们然后在这个K维空间中使用对抗学习来对齐跨域的补丁相比之下，请注意，输出空间自适应方法只有一个直接对齐类别分布的步骤，而不考虑源数据中的多个模式。姿势和照明，用于渲染3D图像。类似地，[44]通过编码器-解码器架构从单个图像合成3D对象，该架构基于旋转因子学习潜在表示最近，AC-GAN [28]开发了一种生成对抗网络（GAN），该网络具有基于给定因素（如图像标签和属性）的辅助虽然这些方法在使用指定的因素和学习一个解开的空间来帮助目标任务方面取得了很好的结果，但它们专注于处理单个域中的数据出于这方面的研究，我们建议学习判别表示补丁，以帮助域适应任务。为此，我们利用可用的标签分布，并自然地利用它们作为一个解开的因素，在我们的框架中，不需要像传统的方法中的任何因素。3. 结构化输出在本节中，我们描述了预测结构化输出的框架：一种对抗性学习方案，通过使用补丁的区别性输出表示来对齐跨域的分布。3.1. 算法概述给定源图像和目标图像I s，I t∈RH×W×3，其中只有源数据用每像素语义类别Y s进行注释，我们试图学习在两个域上工作的语义分割模型G。既然目标-main是未标记的，我们的目标是将目标数据的预测输出分布Ot与源分布Os对齐，这类似于[39]。然而，这种分布不知道补丁的局部差异，因此在对抗学习期间不能发现不同的模式集。为了解决这个问题，与[39]相反，我们将补丁的类别分布投影到已经发现各种补丁模式的聚类空间（即，K簇）的基础上的注释源域。对于目标数据，我们然后采用对抗学习来对齐K维空间中跨域的补丁级分布。3.2. 面片级对齐如图2所示，我们寻求在集群空间中对齐补丁的方法，该集群空间提供了一组不同的补丁模式。也可以将该过程视为通过聚类来自源域的地面实况分割注释来学习补丁的原型输出表示在下文中，我们将介绍如何构建聚类空间并学习区分性补丁表示。然后，我们使用学习的补丁表示来描述对抗对齐详细架构如图3所示。修补程序模式发现。为了发现模式并学习判别特征空间，通常提供类别标签[35]或预定义因子[28]作为监督信号。但是，将类成员资格分配给1459图3.所提出的网络架构由生成器G和分类模块H组成，用于通过1）由补丁分类损失Ld监督的补丁模式发现和2）使用对抗性损失Ladv的补丁级对齐来学习有区别的补丁表示。在投影空间中，实心符号表示源表示，未填充的符号是拉到源分布的目标表示图像的单个块可以应用图像块的无监督聚类，但是不清楚构造的聚类是否将以语义上有意义的方式分离块在这项工作中，我们利用每个像素的注释在源域中构建一个空间的语义补丁表示。为了实现这一点，我们使用标签直方图的补丁。我们首先从源图像中随机采样补丁，在补丁上使用2 × 2网格来提取空间标签直方图，并将它们连接到得到一个2×2×C维向量。其次，我们对这些直方图应用K-means聚类，从而分配每个地面实况标签补丁具有唯一的聚类索引。我们将为地面真值标签映射Ys中的每个补丁找到聚类成员资格的过程定义为Γ（Ys）。把这个聚集的空间用于训练隔离区-在源数据上的分段网络G中，我们在预测输出Os的顶部添加一个分类模块H，它试图以预测所有位置的聚类成员关系Γ（Ys）我们通过softmax 函数将学习的表示为 Fs=H （G （ Is））∈（0，1）U×V×K，其中K是簇的数量在这里，空间地图上的每个数据点Fs对应于输入图像的一个块，并且我们通过Γ（Ys）获得每个块的组标签。然后，构建聚类空间的学习过程可以被公式化为交叉熵损失：Σ ΣK模式。为此，我们利用Fs和Ft之间的对抗损失，其中Ft以与上述相同的方式生成。注意，块级特征F现在从类别分布O变换到由K维向量定义的聚类空间然后，我们在对抗目标中制定补丁分布对齐ΣLadv（Fs，Ft;G，H，D）=E[1ogD（Fs）（u，v，1）]（2）u，v+E[log（1−D（Ft）（u，v，1））]，其中D是用于分类特征表示F是来自源域还是目标域的向量。学习目标。我们将（1）和（2）整合到最小-最大问题中（为了清晰起见，我们放弃了除优化变量之外的所有损失参数）：min maxLs（G）+λdLd（G，H）（3）G、 H和D+λadvLadv（G，H，D），其中，Ls是用于学习结构化预测的监督交叉熵损失（例如，语义分割），λ3.3. 网络优化Ld（Fs，Γ（Ys）;G，H）= −u，vk∈KCE（u，v，k），（1）为了解决方程中的优化问题。（3），我们遵循训练GAN的程序[13]，交替两个步骤：1) 更新CNOD，以及2）更新网络其中CE（u，v，k）=Γ（Y）（u，v，k）log（F（u，v，k））。 G和H，同时固定的。Ss对抗性结盟。接下来的任务是将目标补丁的表示与源域中构建的集群空间对齐，理想情况下与更新鉴别器D。我们训练那些D来分类特征表示F是来自源域（标记为1）还是来自目标域（标记为14600）。关于（3）中D的最大化问题等价于最小化二进制交叉熵损失：ΣLD（Fs，Ft;D）=− log（D（Fs）（u，v，1））（4）u，v+log（1 − D（F t）（u，v，1））。更新网络G和H。这一步的目标是使用优化的D将目标分布推得更接近源分布，同时使用G和H在主要任务上保持良好的性能。因此，（3）中的最小化问题是两个监督损失函数与对抗损失的组合，其可以表示为将源标签分配给目标分布的二进制交叉熵函数：Σ所有实验的K= 50固定。请注意，我们首先只使用损失Ls训练模型10K次迭代，以避免最初的噪声预测，然后使用所有损失函数。补充材料中提供了超参数的更多细节，4. 实验结果我们评估了所提出的框架，域自适应的语义分割。我们首先进行广泛的消融研究，以验证我们的算法的关键组成部分。其次，我们证明了所提出的方法可以与各种域自适应技术集成，包括输出空间自适应[39]，像素级自适应[15]和伪标签重新训练[50]。这表明，我们学习的补丁级表示是对广泛的领域适应策略，并提供LG， H=Ls+λdLd−λadvu，vlog（D（F t）（u，v，1））。（五）额外的好处。最后，我们提出了一个混合模型，该模型在以下方面对最先进的方法表现良好：我们注意到，更新H也通过反向传播影响G，从而增强了G中的特征表示。此外，我们在训练阶段只需要H，因此与输出空间自适应方法相比，推理的运行时间不受影响。3.4.实现细节网络架构。生成器由网络G和一个分类模块H组成.为了公平的计算，我们遵循[39]中使用的框架，该框架采用DeepLab-v2 [3]和ResNet-101架构[14]作为我们的基线网络G。为了在输出预测O上添加模块H，我们首先使用自适应平均池化层来生成空间图，其中图上的每个数据点具有与提取的补丁的大小相对应的期望感受野。然后，将该池化图馈送到两个卷积层中，并产生具有通道号K的特征图F。图3说明了所提出的架构的主要组件。对于判别器D，输入数据是一个K维向量，我们利用类似于[41]的3个全连接层，使用Leaky ReLU激活和通道编号{256，512，1}。实施详情。我们使用PyTorch工具箱在具有12 GB内存的单个Titan X GPU为了训练判别器，我们使用Adam优化器[20]，初始学习率为10- 4，动量设置为0.9和0.99。为了学习生成器，我们使用随机梯度下降（SGD）求解器，其中动量为0.9，权重衰减为5×10−4，初始学习率为2。5×10−4。对于所有网络，我们使用多项式衰减，幂为0.9，如[3]中所述在训练过程中，我们选择λ d=0。01，λ adv=0. 0005和许多基准数据集和设置。4.1. 评估的数据集和指标我们评估了我们的域适应方法在各种设置下的语义分割，包括合成到真实和跨城市。首先，我们将合成GTA5 [30]数据集调整为包含真实道路场景图像的Cityscapes [7同样，我们使用SYNTHIA [31]数据集，它与Cityscapes图像有更大的域差距。对于这些实验，我们遵循[16]将数据分为训练集和测试集。作为另一个具有高度实际影响的例子，我们将我们的方法应用于在不同城市和天气条件下捕获的数据，方法是将具有阳光图像的 Cityscapes 适应包含雨天场景的 OxfordRobotCar [25]数据集。我们在Oxford RobotCar数据集中手动选择了10个标记为“下雨”的序列我们顺序地对895幅图像进行采样以进行训练，并使用每像素语义分割地面真值作为测试集对271幅图像进行注释以进行评估。注释的地面实况在项目页面上公开提供。对于所有实验，交集对并集（IoU）比率用作评估度量。4.2. 消融研究和分析在表1中，我们进行了消融研究，并分析了GTA 5到Cityscapes场景中拟议的贴片水平对齐，以了解我们框架中不同损失函数和设计选择的影响。损失函数。在表1中，我们展示了所提出的方法的不同步骤，包括没有自适应的模型，使用区分性补丁特征和最终补丁级对齐。有趣的是，我们发现，1461图4.补丁级表示的可视化我们首先使用t-SNE显示我们的方法的特征表示，并与没有建议的补丁级对齐的基线进行比较此外，我们在集群空间中显示补丁的例子在每个组中，源域和目标域之间的补丁表1.使用ResNet-101网络对GTA 5到Cityscapes的拟议损失函数进行消融研究。GTA5 →城市景观方法损失函数mIoU无适配Ls36.6鉴别特征Ls+Ld38.8补丁级对齐Ls+Ld+Ladv41.3没有任何对齐（LS+LD）的面片表示已经提高了性能（从36.6%提高到38.8%），这表明学习的特征表示提高了识别和泛化能力。最后，提出的补丁级对抗对齐将mIoU提高了4.7%。学习空间的影响。K-均值提供附加信号以分离不同的贴片图案，同时在该群集空间中执行对准。在没有聚集损耗Ld的情况下，将难以跨两个域对准贴片模式。为了验证它，我们运行一个实验，只使用L s和L adv，但删除L d，性能降低了1。9%与我们的方法相比（41。3%）。这表明了学习由K均值过程监督的聚类空间的重要性。集群编号K的影响。在图5中，我们研究了用于构建补丁表示的聚类数K的影响，表明性能对K具有鲁棒性。然而，当K太大时，例如，大于300，会造成补丁模式之间的混淆，增加训练难度。为了保持效率和准确性，我们在整个实验中使用K=50特征表示的可视化。在图4中，我们展示了我们方法的聚类空间中补丁级特征的t-SNE可视化[42]，并与没有补丁级自适应的方法进行了结果表明，在聚类空间中进行自适应，图5.我们的方法相对于GTA5到Cityscapes上不同数量的集群K的性能嵌入到组中，并且源/目标表示很好地重叠。此外，我们提出了示例源/目标补丁具有高相似性。4.3. 领域自适应方法的改进通过提出的补丁对齐学习补丁表示增强了特征表示，并与各种DA方法相结合，我们通过结合输出空间自适应（Ou），像素级自适应（Pi）和伪标签重新训练（Ps）来证明。我们的研究结果表明在所有情况下都有一致的改善，1.8%至2.7%的GTA5到城市景观，如表2所示。输出空间自适应。我们首先考虑跨域对齐全局布局的方法，如[5，39]所示。我们提出的聚类预测网络H和相应的损失Ladv可以简单地添加到[39]中。由于这些方法只对齐全局结构，因此添加我们的方法有助于更好地了解局部细节并提高分割质量。像素级自适应。我们利用CyCADA [15]作为像素级自适应算法，并从源图像中生成目标域中的合成图像。为了训练我们的模型，我们将合成的样本添加到带有建议的补丁级对齐的标记训练集中。注意，由于合成样本共享相同的像素级1462自适应输出对齐之前的目标图像地面实况图6.GTA5-to-Cityscapes的示例结果我们的方法通常生成具有更多细节的分割（例如，人行道和杆），同时与输出空间自适应方法相比产生较少的噪声区域[39]。表2.使用ResNet-101网络将我们的补丁级对齐与GTA 5-to-Cityscapes上现有的域适配GTA5→城市景观（19类）表3.使用ResNet-101网络将我们的补丁级对齐与SYNTHIA-to-Cityscapes上现有的域自适应SYNTHIA→城市景观（16类）方法基地+贴片对齐∆方法基地+贴片对齐∆不进行适应36.641.3+4.7不进行适应33.537.0+3.5（Ou）tput SpaceAda.41.443.2+1.8（Ou）tput SpaceAda.39.539.9+0.4（Pi）xel级Ada。42.244.9+2.7（Pi）xel级Ada。35.837.0+1.2（Ps）eudo-GT41.844.2+2.4（Ps）eudo-GT37.438.9+1.5（Fu）sion44.546.5+2.0（Fu）sion37.940.0+2.1注释作为源数据，它们也可以在我们的聚类过程和（3）中的优化中考虑。伪标签再训练。伪标签重新训练是提高域自适应[50]或半监督学习[18]中分割质量的自然方法。端到端可训练框架[18]使用对抗方案来识别可自学习的区域，这使得它成为整合我们的补丁级对抗损失的理想候选者。结果和讨论。对于GTA 5-to- Cityscapes和SYNTHIA-to-Cityscapes，将所提出的斑块级比对与上述三种DA方法相结合的结果分别显示在表2和表3我们可以观察到，在所有情况下，添加补丁级对齐都有所改善。作为参考，我们还展示了将补丁级对齐添加到普通分割网络（无自适应）的增益。即使将这三种DA方法，即，融合（Fu），所提出的补丁对齐进一步改善了结果显着（≥2。0%）。注意，包括片对齐的所有DA方法的组合，即，Fu + Patch-Alignment在这两种情况下都实现了最佳性能。作为比较点，我们也尝试将像素级自适应与输出空间对齐（Pi + Ou）相结合，但性能比我们差0.7%，即，Pi + Patch-对齐，显示采用补丁级对齐的优势在表3中的SYNTHIA-to-Cityscapes上，我们发现Pi和Ps不如Ou有效，可能是由于源域中输入数据的质量较差，这也解释了组合模型（Fu）的较低性能这也表明，直接组合不同的DA方法可能不会逐步提高性能。然而，添加所提议的补丁对齐在所有设置中一致地改进4.4. 与现有技术方法的我们已经验证了所提出的补丁级对齐是补充现有的域自适应方法的语义分割。在下文中，我们将我们的最终模型（Fu + Patch-Alignment）与各种场景下的最先进算法进行比较，包括合成到真实和跨城市的情况。合成到真实的案例。我们首先在表4中展示了将GTA5适应Cityscapes的实验结果。我们使用两种不同的架构，即，VGG-16和ResNet-101，并通过特征自适应[16，46]，像素级自适应[15]，伪标签重新训练[50]和输出空间对齐[5，39]与最先进的方法进行比较。我们表明，该框架提高了现有的方法，ODS的平均IoU为两个架构，分别为2.5%和5.1%。在表5中，我们呈现了使SYN-THIA适应城市景观的结果，并且与现有技术相比观察到类似的改进此外，我们在图6中显示了视觉比较，更多结果见补充材料。跨城案件在不同城市和条件下的真实图像之间进行适应是一个重要的场景，1463路人行道建筑壁围栏极光签署蔬菜地形天空人骑手车卡车总线火车姆比凯e自行车表4.将GTA5改编为Cityscapes。第一组和第二组分别采用VGG-16和ResNet-101网络GTA5→城市景观方法mIoU[16]第十六话 70.4 32.4 62.1 14.9 5.4 10.9 14.2 2.7 79.2 21.3 64.6 44.1 4.2 70.4 8.07.3 0.0 3.50.027.1电话：+86-510 - 88888888传真：+86-510 - 8888888ST [50] 83.8 17.4 72.1 14.3 2.9 16.5 16.0 6.881.4 24.2 47.2 40.7 7.6 71.7 10.2 7.6 0.5 11.1 0.9 二十八点一澳门金沙城中心[50] 66.7 26.8 73.7 14.8 9.528.3 25.9 10.1 75.5 51.6 47.2 6.2 71.9 3.7 2.25.4 18.9 32.4 30.9CyCADA [15] 83.538.3 76.4 20.6 16.5 22.226.2 21.9 80.4 28.7 65.7 49.4 4.2 74.6 26.6 2.0 8.0 0.0 三十四点八输出空间[39]87.3 29.8 78.6 21.118.2 22.5 21.5 11.0 79.671.3 46.8 6.5 80.123.0 26.9 0.0 10.6 0.3 35.0我们的（VGG-16）87.335.7 79.5 32.014.5 21.5 24.8 13.7 80.4 32.070.5 50.5 16.9 81.020.8 28.14.1 15.54.1三十七分五无适应75.8 16.8 77.2 12.5 21.0 25.5 30.1 20.1 81.3 24.6 70.3 53.8 26.4 49.9 17.2 25.9 6.5 25.336.0 36.6特征空间[39] 83.7 27.6 75.5 20.3 19.9 27.4 28.3 27.4 79.0 28.4 70.1 55.1 20.2 72.9 22.5 35.78.3 20.6 23.0 39.3公路[5] 76.3 36.1 69.6 28.6 22.428.6 29.3 14.8 82.335.3 72.9 54.4 17.8 78.9 27.7 30.3 4.0 24.9 12.6 39.4输出空间[39] 86.5 25.9 79.8 22.1 20.0 23.6 33.1 21.8 81.8 25.9 75.9 57.3 26.2 76.3 29.8 32.1 7.229.5 32.5 41.4我们的（ResNet-101）92.3 51.9 82.1 29.2 25.124.533.8 33.0 82.4 32.882.2 58.6 27.2 84.3 33.4 46.3 2.229.5 32.346.5表5.SYNTHIA适应城市景观的结果第一组和第二组分别采用VGG-16和ResNet-101网络mIoU和mIoU平均值分别为16和13个类别。SYNTHIA→城市景观方法路侧构建壁fenc极光签署蔬菜天空pers骑手车总线姆比克BIKMioumIoU*[16]第十六话11.5 19.6 30.84.40.0 20.30.111.7 42.3 68.7 51.23.854.03.20.20.620.222.1[第46话]65.2 26.1 74.90.10.5 10.73.73.076.1 70.6 47.18.243.2 20.70.713.129.034.8跨城市[6]62.7 25.6 78.3---1.25.481.3 81.0 37.46.463.5 16.11.24.6-35.7ST [50]0.214.5 53.81.60.0 18.90.97.872.2 80.3 48.16.367.74.70.24.523.927.8输出空间[39]78.9 29.2 75.5---0.14.872.6 76.7 43.48.871.1 16.03.68.4-37.6我们的（VGG-16）72.6 29.5 77.23.50.4 21.01.47.973.3 79.0 45.7 14.5 69.4 19.67.416.533.739.6不进行适应55.6 23.8 74.69.20.2 24.46.112.1 74.8 79.0 55.3 19.1 39.6 23.3 13.7 25.033.538.6特色空间[39]62.4 21.9 76.3 11.5 0.1 24.9 11.7 11.4 75.3 80.9 53.7 18.5 59.7 13.7 20.6 24.035.440.8输出空间[39]79.2 37.2 78.8 10.5 0.3 25.19.910.5 78.2 80.5 53.5 19.6 67.0 29.5 21.6 31.339.545.9我们的（ResNet-101）82.4 38.0 78.68.70.6 26.03.911.1 75.5 84.6 53.5 21.6 71.4 32.6 19.3 31.740.046.5实际应用等我们选择一个具有挑战性的情况下，天气条件是不同的（即， sunny v.s. 在两个城市的城市景观适应牛津RobotCar。所提出的框架在9个类别上实现了平均72.0%的平均IoU，显着提高了10.1%的无适应模型。为了与输出空间自适应方法[39]进行比较，我们运行了作者发布的代码，并获得了69.5%的平均IoU，比所提出的方法低2.5%补充材料中提供了进一步的结果和比较。5. 结论在本文中，我们提出了一个域自适应方法通过补丁级对齐的结构化输出。我们建议通过构造来学习补丁的判别表示在源块的聚类空间中，采用对抗学习策略使目标块的分布更接近源块的分布。补丁级对齐，我们的方法是互补的各种域适应方法，并提供了额外的改进。我们进行了广泛的消融研究和实验，以验证所提出的方法在语义分割的众多挑战下的有效性，包括合成到真实和跨城市的场景，并表明我们的方法与以前的方法相比表现良好。引用[1] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域适应与生成对抗网络。在走inge对e1464CVPR，2017年。一、二[2] Tong Che ， Yanran Li ， Athul Paul Jacob ， YoshuaBengio，and Wenjie Li.模式正则化生成对抗网络。在ICLR，2017。1[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义CoRR，abs/1606.00915，2016。一、五[4] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成对抗网络进行可解释的表示学习。在NIPS，2016年。2[5] Yuhua Chen，Wen Li，and Luc Van Gool.道路：面向现实的适应城市场景的语义分割。在CVPR，2018年。二、六、七、八[6] Yi-Hsin Chen，Wei-Yu Chen，Yu-Ting Chen，Bo-ChengTsai，Yu-Chiang Frank Wang，and Min Sun.不再歧视：道路场景分段器的跨城市适应。InICCV，2017. 二、八[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。二、五[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei.Imagenet：一个大规模的分层图像数据库。CVPR，2009。1[9] Basura Fernando 、 Amaury Habrard 、 Marc Sebban 和Tinne Tuytelaars。使用子空间对齐的无监督视觉域自适应。InICCV，2013. 2[10] Yaroslav Ganin ， Evgeniya Ustinova ， Hana Ajakan ，PascalGermain ， HugoLarochelle ， FrancoisLa violette ，MarioMarc- hand，and Victor Lempitsky.神经网络的领域对抗训练。InJMLR，2016. 一、二[11] 罗斯·格希克。快速R-CNN。在ICCV，2015年。1[12] 龚伯清，袁氏，费莎，克里斯汀·格劳曼。用于无监督域适应的测地线流核CVPR，2012。2[13] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成性对抗网。在NIPS，2014。1、4[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在CVPR，2016年。一、五[15] Judy Hoffman ， Eric Tzeng ， Taesung Park ， Jun-YanZhu，Phillip Isola，Kate Saenko，Alexei A.埃弗罗斯和特雷弗·达雷尔。苏铁：周期一致的对抗域适应。在ICML，2018。二五六七八[16] Judy Hoffman ，Dequan Wang，Fisher Yu，and TrevorDarrell.野生FCNS：像素级对抗和基于约束的适应。CoRR，abs/1612.02649，2016。一、二、五、七、八[17] Haoshuo Huang，Qixing Huang，and Philipp Krahenbuhl.通过深度激活匹配进行域转移在ECCV，2018。1[18] 洪伟智、蔡怡萱、刘彦婷、林彦宇、杨明萱。半监督语义分割的对抗学习。在BMVC，2018年。71465[19] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiA Efros. 使用条件对抗网络的图像到图像翻译。在CVPR，2017年。1[20] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议。5[21] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的Im-agenet分类NIPS，2012年。1[22] 特哈斯湾Kulkarni，Will Whitney，Pushmeet Kohli，and Joshua B.特南鲍姆深度卷积逆图网络。2015年，在NIPS中。2[23] 龙明生，曹跃，王建民，迈克尔·乔丹.使用深度适应网络学习可转移特征。ICML，2015。一、二[24] Mingsheng Long ， Han Zhu ， Jianmin Wang ， andMichael I Jor-dan.无监督域自适应残差传输网络。在NIPS，2016年。一、二[25] Will Maddern ， Geoffrey Pascoe ， Chris Linegar ， andPaul Newman. 1年，1000公里：牛津机器人汽车数据集。国际机器人研究杂志（IJRR），36（1），2017。二、五[26] 卢克·梅兹，本·普尔，大卫·普法，还有贾沙·索尔-迪克斯坦.展开的生成对抗网络。在ICLR，2017。1[27] Zak Murez、Soheil Kolouri、David Kriegman、Ravi Ra-mamoorthi和Kyungnam Kim。用于域适应的图像到图像在CVPR，2018年。2[28] Augustus Odena，Christopher Olah，and Jonathon Shlens.辅助分类器gans的条件图像合成ICML，2017。二、三[29] Scott Reed，Kihyuk Sohn，Yuting Zhang，and HonglakLee.学习用多方面的相互作用来解开变化的因素。InICML，2014. 2[30] 斯蒂芬河 Richter， Vibhav Vineet ，Stefan Roth ， andVladlen Koltun.玩数据：来自电脑游戏的地面真相在ECCV，2016年。二、五[31] German Ros、Laura Sellart、Joanna Materzynska、DavidVazquez和Antonio M.洛佩兹SYNTHIA数据集：用于城市场景语义分割的合成图像的大型集合。在CVPR，2016年。二、五[32] Kate Saenko Brian Kulis Mario Fritz和Trevor Darrell使视觉类别模型适应新领域。ECCV，2010年。1[33] 斋藤国明，渡边康平，牛久义孝，原田达也.非监督域自适应的最大分类器差异。在CVPR，2018年。2[34] Fatemeh S

下载后可阅读完整内容，剩余1页未读，立即下载