纹理风格转移算法在语义分割中的应用

113 浏览量更新于2023-10-23 收藏 2.03MB PDF 举报

语义分割

合成数据

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12975学习纹理不变表示的语义分割领域自适应明仁金贤边延世大学{myeongjin.kim，hrbyun}@ yonsei.ac.kr摘要由于为语义分割注释像素级标签是费力的，因此利用合成数据是一种有吸引力的解决方案。然而，由于合成域和真实域之间的域差距，这是具有挑战性的模型训练与合成数据推广到真实数据。本文考虑到两个域的根本区别在于纹理，提出了一种自适应目标域首先，我们多样性的合成图像的纹理风格转移算法。生成的图像的各种纹理防止分割模型过拟合到一个特定的（合成的）纹理。然后，我们通过自我训练对模型进行微调，程式化源数据翻译的源数据目标数据Ls#$分割网络分割输出直接监督目标纹理。我们的结果达到了最先进的性能，我们通过大量的实验分析了在风格化数据集上训练的模型的属性。1. 介绍到目前为止，许多研究都涉及语义分割。对于有监督的语义分割，需要大量的标记数据进行训练。然而，对于逐像素地面实况标签的手动注释是极其费力的。例如，每张图像需要90分钟来为Cityscape [5]数据集制作地面实况标签。为了降低注释成本，GTA5[20] 和SYNTHIA [21]提出。由于这些数据集是由计算机图形生成的，因此图像和像素级注释是自动生成的。然而，由于合成域和真实域之间的域间隙，用合成数据训练的模型很难推广到真实数据。域自适应通过减少域间隙来解决上述问题。一种方法是像素级自适应。像素级自适应使用像CycleGAN[29]这样的图像平移算法来减少两个域之间的视觉外观差距。因为合成的IM-图1：学习纹理不变表示第我们将风格化图像和翻译图像都视为源图像。红线表示源图像的流程通过对风格化源数据的分割损失，模型学习纹理不变表示。该模型通过对抗性损失，减小了特征空间的分布间隙。年龄被转化为真实领域的风格，模型可以更容易地学习真实领域的表示。尽管CycleGAN在一定程度上缩小了两个域之间的视觉差距，但克服根本差异，即纹理，仍然具有挑战性。在图2中，第二列显示了CycleGAN的翻译结果。尽管翻译后的图像得到了Cityscapes因此，模型过拟合合成纹理的可能性仍然存在。为了克服这一限制，我们提出了一种方法来适应目标域的纹理。首先，我们通过使用样式转换算法生成纹理多样化的源数据集。每个源图像丢失合成纹理并获得随机纹理。由于纹理的变化增加，在纹理上训练的模型多样化鉴别器L% v12976图2：纹理比较。原始GTA 5 [20]图像（第一列），由CycleGAN [29]（第二列）和样式交换[4]（第三列）生成的图像。引导数据集学习纹理不变表示。然后，我们使用自训练对模型进行微调，以获得目标纹理的直接监督。我们的方法在GTA 5到Cityscapes基准测试中实现了最先进的性能通过大量的实验，我们分析了在风格化数据集上训练的模型的属性，并比较了我们和基于CycleGAN的方法之间的差异。我们的贡献如下：1. 针对语义分割的领域自适应问题，我们设计了一种自适应领域纹理的方法2. 我们在GTA 5到Cityscapes基准上实现了最先进的性能。3. 通过大量的实验，我们分析了在风格化数据集上训练的模型的属性。4. 我们比较了我们的基于风格转换的方法和以前的基于CycleGAN的方法，以减少合成域和真实域之间的域间隙。2. 相关工作2.1. 语义切分领域适应在不同领域之间传递知识。假设两个数据集具有相似但不同的分布。让一个具有较大的体积，更容易收集的作为源域和目标域的其他。领域自适应的目标是将从源领域学习到的知识转移到目标领域。在域自适应的一些设置中，非监督设置是最流行的，其可以访问源域的输入数据和地面实况标签，但只能访问目标域的输入数据。无监督域自适应的目标是合理地使用完全标记的源域，以提高在未标记目标域上的性能。由于注释语义标签是最费力的过程，语义分割的领域适应最近得到了很多关注。像素级自适应。合成图像和真实图像之间存在视觉差距，如纹理和光照。像素级自适应使用CycleGAN[29]等图像转换算法将合成源图像转换为目标样式。由于减少了视觉间隙，模型更容易对目标域的表示进行编码。自我训练。最近，一些作品采用自训练（ST）进行语义分割的领域适应[30，16]。一般来说，ST适用于标记的训练数据是稀缺的。在无监督域自适应中，由于目标域的标签不存在，因此应用ST是非常有吸引力的。[16]这是一种简单的自我训练方法。在ST阶段，[16]基于先前模型[16]使用像素级自适应和自我训练。在消融研究中，ST方法训练的模型比仅使用像素级方法训练的模型具有更大的优势。考虑到两个域之间的根本区别是纹理，ST的强大性能，它得到了目标纹理的直接监督，这意味着以前的方法使用像素级自适应不能充分编码目标纹理。基于这一观察，我们提出了一种方法，是优化的编码目标域2.2. 风格迁移从纹理合成[7]到[8]，人们对风格转换进行了大量的研究。基于风格（纹理）和内容可以分离的观察，建模特征统计使得将一幅图像的内容和另一幅图像的纹理合成图像成为我们的目的是，使用不同的纹理作为正则化防止模型过度拟合到一个特定的纹理，使分割模型学习纹理不变的表示。2.3. 纹理和形状根据最近的研究[9]，人类识别是基于形状的，但ImageNet [6]预训练的CNN的cri是基于纹理的为了克服纹理依赖性，[9]使用AdaIN生成风格化的ImageNet（SIN）[14] 风格转换算法风格化的ImageNet失去了自然纹理，得到了各种随机纹理。由于在SIN上训练的模型不能基于局部纹理预测结果，因此必须考虑输入的整体结构。[9]通过实验证明，在SIN上训练的CNN更像人类一样依赖形状，12977(a) 样式（b）内容（c）AdaIN（d）PhotoWCT（e）样式交换图3：风格化的结果。形状相关模型在分类和检测任务方面更好受此启发，我们将此方法应用于语义分割任务的域自适应，其中纹理是合成域和真实域之间的根本差异。3. 方法在本节中，我们将介绍一个生成纹理多样化数据集的过程和一种适应目标纹理的方法。我们首先使用样式转换算法Style-swap [4]使原始源数据集的纹理多样化，并使用图像转换算法CycleGAN [29]转换原始源数据集然后，我们的模型经历了两个训练阶段。阶段1：我们用纹理多样化的数据集训练分割模型，以学习纹理不变的表示。阶段2：基于纹理不变表示，我们将模型微调到目标域3.1. 风格化GTA 5/SYNTHIA先前的作品[13，16]使用图像平移方法Cy-cleGAN[29]来减少合成域和真实域之间的视觉间隙图像平移算法虽然为了克服这一局限性，我们采取了一种更基本的方法，即戏剧性地去除合成纹理。受[9]的启发，我们生成了风格化的GTA5和风格化的SYNTHIA。StylizedImageNet [9]由快速AdaIN [14]风格转移算法生成。虽然AdaIN在推理上是有效的，但它以某些波形模式极大地扭曲了内容图像与分类任务不同，语义分割任务需要精确的像素级注释。因此，我们不能使用AdaIN。真实感风格转换算法[15]是另一种选择，它在风格化步骤之后使用平滑步骤来保留原始图像的精确结构。然而，由于平滑过程是基于原始内容图像的，最终的结果保留了原始的合成纹理。由于我们的目的是使用风格转移算法来去除合成纹理，因此它是不合适的。最好能应用照片级真实感算法我们的要求有三个方面。首先，足够的风格化效果重新移动合成纹理，同时不会过多地扭曲原始图像的结构第二，由于大的图像分辨率和大体积的合成数据集，风格化过程应该是时间有效的。第三，要产生多样化的风格化效果，它应该能够传递各种风格。考虑到上述条件，我们选择Style-swap [4]。我们在图3中展示了不同方法的风格化结果。对于样式数据集，我们使用了由艺术图像组成的Painter by Numbers数据集。考虑到GTA 5和SYNTHIA数据集的体积，我们使用第一个分割，其中包含11，026张图像。风格化的数据集具有与原始数据集相同的图像数量，即一对一映射。如图4所示，风格化的图像大大失去了合成纹理，并获得各种随机纹理。由于每个纹理来自不同风格的图像，因此这种纹理的多样性导致模型对纹理不变表示进行编码。换句话说，模型可以学习形状相关的表示。3.2. 阶段1第一阶段的目标是使用纹理多样化数据集学习纹理不变我们使用Style-swap [4]的风格化图像和CycleGAN[29]的翻译图像来训练分割模型。在每次迭代中，由于语义的限制，风格化或翻译的输入被交替转发。在使用风格化图像学习纹理不变表示的同时，翻译后的图像引导模型朝向目标风格。除了纹理正则化之外，我们还使用输出级对抗训练[23]来进一步对齐两个不同域之间的特征空间。阶段1的过程如图1所示。3.3. 阶段2第二阶段的目标是，基于学习的纹理不变表示，微调分割网络的工作目标域为此，我们采取了自我培训的方法。按照[16]的过程，我们使用在Stage12978不SS图4：原始图像和风格化图像的示例。1.在对目标训练图像的预测中，我们将置信度高于阈值（0.9）的预测设置为伪标签。然后，我们使用生成的伪标签和翻译的源图像对模型进行微调现在模型直接由目标域的纹理监督自我训练。在第二阶段，为了直接监督目标域模型可以学习针对tar优化的表示LST（It）=−公司简介假的yh，w，clogP（h，w，c）（五）获取域。我们迭代地应用这个过程3.4. 培养目标h，wt tc=1分割模型训练。由于地面实况标签仅在源域中可用，因此分段损失被定义为：公司简介其中，伪像素指示目标的每个像素是否训练集是否为伪标签。4. 实验数据集。 GTA5 [20]是一个包含24，966个数据集的数据集Lseg（Is）=−yh，w，clogP（h，w，c）（一）S sh，wc=1在给定目标图像的情况下，利用最小二乘法计算视频游戏中的合成图像，1914×1052分辨率语义标签与Cityscapes数据集分为19个类。对于SYNTHIA [21]，我们使用SYNTHIA-RAND-Ladv（It）=−Σh，wlogD（P（h，w，c））（2）CITYSCAPES分区，包含9，400张1280×760分辨率的图像。我们使用Cityscapes数据集对13个常见类进行了验证。其中Is和It是来自源域和目标域。 P（h，w，c）和P（h，w，c）是Cityscapes [5]是一个数据集，包含5，000张分辨率为2048×1024的我们使用St源图像和目标图像的最终特征。yh，w，c是源域C是类的数量，D是一个完全卷积码。因此，分段网络的总损失函数定义为：L（Is，It）=Lseg（Is）+λadv Ladv（It）（3）鉴别器训练。该方法获取源和目标特征，并对它是来自源域还是目标域进行分类。Σ2，975张训练图像和500张验证图像。网络架构。我们使用DeepLab-v2 [2]模型与ResNet-101 [11]和VGG-16 [22]，它们在ImageNet [6]上进行了预训练。对于这种情况，我们采用与[19]类似的架构。该网络由5个卷积层组成，核大小为4 ×4[2019 - 02 - 16 00：02：00]【2019 - 02 00：00】训练细节。我们使用Pytorch库在单个GTX 1080 Ti上实现了我们的实验。为了优化分割模型，我们使用SGD方法。动量设定为0.9。初始学习率为1。0×10−4为第1阶段。由于程式化数据集的变化，LD（P）=−h，w（（1−z）logD（P（h，w，c））（四）高学习率使得训练不稳定。因此，我们设置了比采用相同的先前作品更小的值。12979不+zlogD（P（h，w，c））其中，如果要素来自源域，则z=0，并且z=1如果特征来自目标域。建筑[23，18，25，1，16]。相同的学习率用于阶段2中的微调。对于学习率方案，我们采用了文献[2]中提到的多项式过程.为了优化网络，我们使用Adam来优化12980GE.y表1：GTA5到Cityscapes的结果GTA5→城市景观基础模型法[23]第二十三话八十六点五36.0七十九点九二十三点四二十三点三二十三点九三十五点二十四点八分八十三点四三十三点三七十五点六五十八点五27.6七十三点七三十二点五三十五点四三点九30.1二十八点一四十二点四[18]第十八话27.1七十九点六二十七点三二十三点三二十八点三三十五点五二十四点二八十三点六二十七点四七十四点二五十八点六28.0七十六点二33.1三十六点七6.7三十一点九三十一点四四十三点二[25]第二十五话二十一点四82.0三十四点八26.2二十八点五35.623.0八十四点五35.1七十六点二五十八点六30.7八十四点八三十四点二四十三点四0.4二十八点四三十五点二四十四点八ResNet101VGG16BDL[16]91.0四十四点七分八十四点二三十四点六27.6三十二36.036.085.043.683.0五十八点六三十一点六八十三点三三十五点三四十九点七第 3.3节二十八点八分35.6四十八点五俄罗斯联邦[17] 88.5三十五点四七十九点五二十六点三二十四点三二十八点五三十二点五十八点三八十一点二40.0七十六点五58.1二十五点八八十二点六30.3三十四点四第3.4节二十一点六二十一点五四十二点六[24]第二十四话五十一点九82.1二十九点二25.1二十四点五三十三点八33.0八十二点四三十二点八八十二点二五十八点六二十七点二八十四点三三十三点四四十六点三二、二二十九点五三十二点三四十六点五美国[3]43.082.1三十分五二十一点三30.3三十四点七二十四分85.3三十九点四七十八点二63.0二十二点九八十四点六三十六点四43.05.5三十四点七三十三点五四十六点四我们的92.955.085.334.231.134.940.734.085.240.187.161.031.182.532.342.90.336.446.150.2[23]第二十三话八十七点三29.878.6二十一点一十八点二二十二点五二十一点五十一点零七十九点七二十九点六七十一点三46.8六点五80.123.0二十六点九分0.0十点六0.335.0[18]第十八话30.6七十九点二二十三点四二十点五26.123.0十四点八分八十一点六三十四点五七十二点零四十五点八七点九八十点五二十六点六二十九点九0.0十点七0.0三十六点六[25]第二十五话二十八点五七十八点一27.6二十四点二20.7十九点三八点九七十八点八二十九点三六十九点零四十七点九五点九七十九点八二十五点九34.10.0十一点三0.335.6BDL[16]89.2四十点九八十一点二29.1十九点二十四点二29.019.6八十三点七三十五点九八十点七五十四点七二十三点三八十二点七二十五点八28.02.3二十五点七十九点九四十一点三俄罗斯联邦[17] 83.413.077.820.4十七点五二十四点六二十二点八九点六81.3二十九点六七十七点三四十二点七分十点九分76.0二十二点八十七点九5.7十四点二2.0三十四点二[24]第二十四话三十五点七七十九点五32.0十四点五二十一点五二十四点八十三点七八十点四32.0七十点五五十点五十六点九八十一点零20.8二十八点一4.1十五点五4.1三十七分五DRPC[28]84.6三十一点五七十六点三二十五点四十七点二二十八点二二十一点五十三点七八十点七二十六点八七十四点九47.5十五点八七十七点一二十二点二二十二点七1.7 8.99.736.1我们的92.554.583.934.525.531.030.418.084.139.683.953.619.381.721.113.617.712.36.5四十二点三表2：SYNTHIA到Cityscapes的结果。SYNTHIA →城市景观基础模型法RO侧BuiT形接t-siveSK每骑车总线莫BIKMio[23]第二十三话84.342.777.54.77.077.982.554.321.072.332.218.932.346.7CLAN[18]81.337.080.116.113.778.281.553.421.273.032.922.630.747.8[25]第二十五话85.642.279.75.48.180.484.157.923.873.336.414.233.048.0[16]第十六话86.046.780.314.111.679.281.354.127.973.742.225.745.351.4SIBAN[17]82.524.079.416.512.779.282.858.318.079.325.317.625.946.3[24]第二十四话82.438.078.63.911.175.584.653.521.671.432.619.331.746.5MaxSquare[3]82.940.780.12.818.282.582.253.118.079.031.410.435.648.2我们92.653.279.21.67.578.684.452.620.082.134.814.639.449.3[23]第二十三话78.929.275.50.14.872.676.743.48.871.116.03.68.437.6CLAN[18]80.430.774.71.48.077.179.046.58.973.818.22.29.939.3[25]第二十五话67.929.471.90.62.674.974.935.49.667.821.44.115.536.6VGG 16 SIBAN[17]70.125.780.93.87.272.380.543.35.073.316.01.73.637.2[24]第二十四话72.629.577.21.47.973.379.045.714.569.419.67.416.539.6DRPC[28]77.530.778.610.616.175.276.544.115.869.914.78.617.641.2我们89.848.678.90.04.780.681.736.213.074.422.56.532.843.8学习率为1。0×10−4，动量为0.9和0.99。我们将λadv设为0.001。输入的大小调整为1024 ×512。与最先进的模型进行比较。作为如表1所示，我们的方法在GTA5到Cityscapes上优于所有以前的最先进的方法。BDL [16]将训练过程迭代六次，并以较大的幅度优于其他模型。如表5所示，我们的模型仅用两次分段训练迭代就超越了BDL的性能。这些结果表明，我们的方法（首先学习纹理不变表示，然后微调到目标纹理）比简单的自训练方法更有效对于SYNTHIA和Cityscapes，我们比较了表2中13个类别的性能评估方法。我们的方法在道路和人行道等类中表现出出色的性能，这些类在输入信息中占用很大的面积路的方Dbuil。.壁围栏极L.T形灯HTT形符号GN蔬菜陆地天空S.pers.骑手车R卡车总线火车Tor电机e自行UMiou12981年龄由于大面积类将更多地受到纹理的影响，我们的基于纹理的方法优于其他在这些类。结果还报告了我们在小型类（如t-light，t-sign和person）上的性能低于其他方法。尽管纹理是合成畴与真实畴之间的根本区别，但它不是引起畴隙的唯一因素。布局间隙也是一个重要的因素，我们没有在本文中处理。这种布局差距带来了跨域的形状分布的差异。在《SYNTHIA》中，T光、T标志和人物的描绘比《GTA 5》和《城市风景》要小得多。由于形状是更决定性的因素比纹理小面积类，我们的形状相关的表示，这是适合SYNTHIA如[26]中所示，也定量地显示，域间隙是-12982SYNTHIA和Cityscapes之间的域差距远远大于GTA5和Cityscapes之间的域差距，特别是对于t-light和t-sign。其他方法使用额外的技术，如类比先验[25]，以减少布局间隙。类的性能比较。我们通过一项类消融研究为上述声明提供了依据。在表3中，IoU来自大型（纹理敏感）和小（纹理不敏感）类在第1阶段。在风格化数据集上训练的模型在大面积类中的表现优于在翻译和原始数据集上训练的模型，例如图5：CycleGAN生成不当原道路和人行道。在其他大面积类别中，由于道路和人行道具有相似的布局分布，因此纹理对于这些类别是特别重要的因素。另一方面，Original在t-light和t-sign方面优于其他方法。[26]显示，当同时使用合成和真实数据时，与其他类别相比，t-light和t-sign的性能显着提高。这意味着纹理不是这些类的决定性因素，清晰的原始图像更有助于提高在实域中的性能。表3：大小班的消融研究。SYNTHIA →城市景观基础模型源类型RO侧T形接t-si程式化87.744.11.05.8ResNet101翻译84.640.61.35.0原创[23]79.237.29.910.5程式化86.136.40.31.7VGG16翻译75.631.903.6原创[23]78.929.20.14.85. 讨论5.1. 与基于CycleGAN的方法的比较在本节中，我们比较了我们的方法和基于CycleGAN的方法之间的差异首先，CyCADA [13]使用CycleGAN来减少合成域和真实域之间的视觉差距。然而，虽然CycleGAN在图5 中，对于GTA5 到Cityscapes （第一行），Cycle-GAN在天空中生成类似植被的伪影，以匹配Cityscapes 对于 SYNTHIA到Cityscapes （第二行），CycleGAN模糊了人物以匹配Cityscapes尽管CycleGAN的另一方面，因为Style-swap基于本地补丁传输样式，所以Style-swap其次，与我们的方法类似，DRPC [28]使用循环GAN来随机化源图像。在图6中，我们展示了nal images（第一列）、CycleGAN生成的图像（第二列）和Style-swap生成的图像（第三列）。使用[28]中使用的ImageNet类作为辅助域生成图像。图7显示了图6中的裁剪图像。在图7中，CycleGAN匹配辅助域另一方面，样式交换使纹理多样化。这是我们的方法与DRPC的最大区别。由于合成域和真实域之间的主要区别不是颜色而是纹理，因此我们的基于纹理的方法比DRPC更适合于合成到真实任务中的随机化。此外，我们的方法在计算上比DRPC更有效。由于训练CycleGAN是一个非常昂贵的过程，DRPC只使用15个辅助域。另一方面，由于Style-swap不需要为每种样式进行额外的训练，因此它可以更容易地处理许多样式。因此，我们的风格化数据集由11，026种风格组成。此外，DRPC使用跨域金字塔一致性（PCD）损失来学习风格不变特征。由于这种损失，需要与域的数量成线性比例的计算由于DRPC使用16个域，它需要至少16倍的内存和计算能力。虽然DRPC使用了16个域，但可能需要考虑更多的域以获得更多的风格不变表示，这需要不切实际的计算，特别是当输入另一方面，我们的方法需要一个固定的计算量，无论样式的数量。5.2. 消融研究我们在表4中的第1阶段进行了消融研究。我们根据对抗性损失的用法将表格分为两部分。在第一部分中，原始源仅意味着仅使用原始GTA 5图像训练分割网络仅风格化源代码和仅翻译源代码使用gener-D.HTGN12983源图像ImageNet类DRPC我们图6：与DRPC的程式化比较。图7：与DRPC的纹理比较从图6的相应图像中裁剪图像。[29]第29话：一个人，一个人。表4：第1阶段的消融研究。活泼地结果显示模型仅在程式化源数据集优于其他像素级方法[27，10]第二部分显示了输出级对抗训练的结果[23]。与第一部分相比，整体性能有所改善。结果表明，使用两种类型（风格化源和翻译源）交替转发图像比只使用风格化源图像更好这是因为，在通过风格化图像学习根据结果，我们选择在第1阶段使用风格化源和翻译源我们还进行了表5中第2阶段的消融研究。结果显示，在阶段2的第三次迭代中，分割模型收敛。因此，我们对表1、2中的所有结果进行三次迭代。GTA5 →城市景观方法mIoU原创36.6[27]第二十七话源代码41.0美国[10]程式化来源仅42.5Original source + Adv loss [23]41.4翻译源+高级损失[16] 42.7程式化源+Adv损失43.2程式化/翻译的来源+广告损失44.65.3. 稳健性测试为了验证在风格化数据集上训练的模型的纹理不变性，我们在扰动验证上测试模型12984表5：第2阶段的消融研究。在阶段2-X中，X表示自我训练的迭代次数。GTA5 →城市景观方法Miou阶段144.6阶段2-148.6阶段2-250.2台2-350.2被各种噪音扭曲的布景。如果该模型是纹理不变的，那么它将比其他依赖纹理的模型对噪声具有更好的鲁棒性我们生成嘈杂的Cityscapes验证集的噪声不会扭曲原始图像对象的形状按照[12]的方法，我们将高斯，脉冲，射击和斑点噪声添加到验证集。表6和图8中的结果表明，我们的模型比在原始合成图像上训练的AdaptSegNet [23]对各种噪声更加鲁棒表6：原始和噪声验证集的结果。方法[23]第二十三话仅程式化来源原始42.442.5高斯22.235.1冲动20.932.6枪24.938.2散斑32.541.1(a) 原始图像（b）具有高斯噪声的(c)AdaptSegNet（d）Ours（e）Ground Truth图8：具有高斯噪声的验证图像的结果。5.4. 定性结果为了定性地证明我们的模型的纹理不变性，我们在图9中的程式化源数据集中展示了具有各种纹理的图像的分割结果。结果表明，我们的模型是鲁棒的纹理变化。图9：不同纹理图像的结果。来自风格化GTA 5的图像（左列）和分割结果（右列）。6. 结论本文提出了一种适应目标纹理的方法.使用风格转换算法，我们生成风格化的GTA5/SYNTHIA。风格化数据集的各种纹理作为正则化器，使分割模型学习纹理不变表示。我们定性地证明了我们的模型在具有各种纹理的图像上的纹理不变性，定量地证明了我们的模型在噪声验证集上的纹理不变性。基于纹理不变表示，我们使用自训练来获得目标纹理的直接监督。实验结果表明，我们的方法的有效性，实现了新的国家的最先进的性能在GTA5到Cityscapes基准。此外，我们还分析了纹理在不同类别中的影响。此外，我们比较了我们的风格转移为基础的方法和CycleGAN为基础的方法在减少合成和真实域之间的纹理差距7. 确认这项工作得到了韩国国家研究基金会的支持，由韩国政府资助（第2010号）。NRF-2019R1A2C2003760）。12985引用[1] 张伟伦、王惠波、彭文孝、邱伟臣。关于结构：跨域调整结构信息以促进语义分割。在IEEE计算机视觉和模式识别会议论文集，第1900-1909页4[2] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2017。4[3] 陈明昊，薛宏阳，蔡登。最大平方损失的语义分割的主适应。arXiv预印本arXiv：1909.13589，2019。5[4] 田启晨和马克施密特。快速的基于补丁的任意风格转移。arXiv预印本arXiv：1612.04337，2016。二、三、七[5] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 32131、4[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。二、四[7] Leon Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络进行纹理合成。神经信息处理系统的进展，第262- 270页，2015年2[8] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议论文集，第2414-2423页，2016年。2[9] Robert Geirhos，Patricia Rubisch，Claudio Michaelis，Matthias Bethge ， Felix A Wichmann ， and WielandBrendel. imagenet训练的cnn偏向于纹理;增加形状偏差可以提高准确性和鲁棒性。 arXiv 预印本 arXiv ：1811.12231，2018. 二、三[10] Rui Gong，Wen Li，Yuhua Chen，and Luc Van Gool.Dlow：适应和泛化的域流。在IEEE计算机视觉和模式识别会议论文集，第2477-2486页，2019年。7[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。4[12] Dan Hendrycks和Thomas Dietterich基准神经网络的鲁棒性常见的腐败和扰动。 arXiv 预印本 arXiv ：1903.12261，2019。8[13] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu 、 Phillip Isola 、 Kate Saenko 、 Alexei A Efros 和Trevor Darrell。Cycada：周期一致的对抗性结构域适应。arXiv预印本arXiv：1711.03213，2017。三、六[14] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。进行中-IEEE International Conference on Computer Vision ，第1501-1510页，2017年。二、三[15] Yijun Li ， Ming-Yu Liu ， Xuting Li ， Ming-HsuanYang，and Jan Kautz.一个封闭形式的解决方案的照片真实感图像风格化。在欧洲计算机视觉会议（ECCV）的会议记录中，第453-468页，2018年。3[16] 李云生，陆远，努诺·瓦斯康塞洛斯。语义分割领域自适应的双向学习在IEEE计算机视觉和模式识别会议论文集，第6936-6945页，2019年。二三四五七[17] Yawei Luo ， Ping Liu ， Tao Guan ， Junqing Yu 和 YiYang。区域自适应语义分割的重要性感知信息瓶颈。arXiv预印本arXiv：1904.00876，2019。5[18] 罗亚伟，郑良，关涛，于俊青，杨毅。让我们仔细看看Domain Shift：语义一致域适应的类别级对手。在IEEE计算机视觉和模式识别会议论文集，第2507-2516页，2019年。四、五[19] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。arXiv预印本arXiv：1511.06434，2015。4[20] Stephan R Richter ， Vibhav Vineet ， Stefan Roth ， andVladlen Koltun.播放数据：从电脑游戏中得到的真相。欧洲计算机视觉会议，第102-118页。施普林格，2016年。一、二、四[21] German Ros，Laura Sellart，Joanna Materzynska，DavidVazquez，and Antonio M Lopez.Synthia数据集：用于城市场景语义分割的大量合成图像。在IEEE计算机视觉和模式识别会议论文集，第3234-3243页，2016年。1、4[22] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。4[23] Yi-Hsuan Tsai，Wei-Chih Hung，Samuel Schulter，Ki-hyukSohn ， Ming-HsuanYang ， andManmohanChandraker.学习适应语义分割的结构化输出空间。在IEEE计算机视觉和模式识别集，第7472-7481页，2018年。三四五六七八[24] 蔡怡萱，孙奇赫，塞缪尔·舒特，曼-莫汉·钱德拉克。经由区别性表示的结构化输出的域适应。arXiv预印本arXiv：1901.05427，2019。5[25] Tuan-Hung Vu ， Himalaya Jain ， Maxime Bucher ，Matthieu Cord，andPatrickPe'rez. Advent：用于语义分割中的域适应的深度entrop y在IEEE计算机视觉和模式识别会议论文集，第2517-2526页四五六[26] 马格努斯·伦宁格和乔纳斯·昂格尔Synscapes：一个用于街道场景解析的照片真实感合成数据集。arXiv预印本arXiv：1810.08705，2018。五、六[27] Zuxuan Wu ， Xintong Han ， Yen-Liang Lin ， MustafaGokhan Uzunbas，Tom Goldstein，Ser Nam Lim，andLarry S12986戴维斯Dcan：用于无监督场景适应的双通道对齐网络。在欧洲计算机视觉会议（ECCV）的会议记录中，第518- 534页，2018年。7[28] Xiangyu Yue ， Yang Zhang ， Sicheng Zhao ， AlbertoSangiovanni-Vincentelli ， Kurt Keutzer ， and BoqingGong.域随机化和金字塔一致性：无需访问目标域数据的仿真到真实的泛化。 arXiv 预印本 arXiv ：1909.00889，2019。五、六[29] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。在IEEE计算机视觉国际会议论文集，第2223- 2232页，2017年。一、二、三、七[30] Yang Zou ， Zhiding Yu ， BVK Vijaya Kumar ， andJinsong Wang.通过类平衡自训练进行语义分割的无监督域自适应。在欧洲计算机视觉会议（ECCV）的会议记录中，第289-305页，2018年。2

下载后可阅读完整内容，剩余1页未读，立即下载