没有合适的资源?快使用搜索试试~ 我知道了~
Yiheng Zhang†, Zhaofan Qiu†, Ting Yao‡, Chong-Wah Ngo§, Dong Liu†, and Tao Mei‡{yihengzhang.chn, zhaofanqiu, tingyao.ustc}@gmail.comcscwngo@cityu.edu.hk, dongeliu@ustc.edu.cn, tmei@jd.com96210转移和规范化预测用于语义分割 �0† 中国科学技术大学,中国合肥 ‡ 京东AI研究,中国北京 § 香港城市大学,中国九龙0摘要0语义分割通常需要大量具有像素级别注释的图像。鉴于专家标注的成本极高,最近的研究表明,使用具有计算机生成注释的照片逼真的合成数据(例如计算机游戏)训练的模型可以适应真实图像。尽管取得了这一进展,但在没有对真实图像的预测进行约束的情况下,模型很容易在合成数据上过拟合,因为存在严重的域差异。在本文中,我们新颖地利用语义分割的内在属性来缓解模型转移中的这种问题。具体而言,我们提出了一种预测转移正则化器(RPT),以无监督的方式将内在属性作为约束来规范模型转移。这些约束包括不同级别图像形成中的基于图像块、基于聚类和基于上下文的语义预测一致性。由于转移是无标签和数据驱动的,因此通过选择性地涉及图像区域的子集来解决预测的鲁棒性问题。我们进行了大量实验证实了RPT在将在GTA5和SYNTHIA(合成数据)上训练的模型转移到Cityscapes数据集(城市街景)时的提升。当将RPT集成到基于对抗的分割框架中时,我们报告了迄今为止最好的结果:从GTA5/SYNTHIA转移到Cityscapes时的mIoU分别为53.2%/51.7%。01. 引言0语义分割旨在为图像的每个像素分配语义标签。利用CNNs[18, 22, 42, 45,46],在这一基本任务上已经取得了显著的进展[6, 7, 30,36]。然而,现有方法的一个缺点是需要大量的像素级别注释,例如在VOC [15]中。0� 本工作在京东AI研究中进行。0COCO [28]和Cityscapes[11]数据集,用于模型训练。在像素级别上对语义进行标注是昂贵且耗时的。例如,Cityscapes数据集由5000个高质量的像素级别注释图像组成,据报道,对单个图像的注释需要超过1.5小时。另一种选择是利用合成数据,这些数据在3D引擎(例如SYNTHIA [41])和3D电脑游戏(例如GTA5[40])中广泛可用。这些数据的真实语义可以自动生成,无需手动标注。然而,在合成数据与真实图像不同的情况下,域差距可能很难弥合。无监督域自适应通常被认为是解决域差距问题的一种有吸引力的方法。现有的方法包括通过在域之间转移图像来缩小差距[14, 32,50],以及通过对抗机制学习域不变表示[13, 31,49]。在本文中,我们认为源域中的模型过拟合是域不匹配的主要原因。如图1(a)所示,虽然全卷积网络(FCN)通过正确标记像素完美地分割合成图像,但直接将该模型部署到真实图像上会产生较差的结果。本文不是利用目标域中的训练样本进行模型微调,而是探索无标签约束来缓解模型过拟合问题。这些约束在语义分割的背景下是内在且通用的。图1(b) �(d)说明了正在研究的三个无标签约束。前两个约束,即基于图像块和基于聚类的一致性,分别在图像块中的像素之间和在共享相似视觉属性的图像块聚类之间引导分割。最后一个准则,即空间逻辑,基于图像块之间的空间关系对标签的预测进行上下文化。基于这些准则,我们提出了一种新颖的预测转移正则化器(RPT),用于将在合成数据上训练的模型转移到真实图像的语义分割。Source DomainTarget Domainroadbuildingon top ofroadroadon top ofbuildingbuildingGood PredictionBad PredictionGood PredictionBad PredictionGood PredictionBad Prediction96220FCN0FCN0(a) 在合成图像上训练的FCN (b) 基于补丁的一致性 (c) 基于聚类的一致性 (d) 空间逻辑0图1. (a)在合成数据上训练的全卷积网络在两个域上的预测示例;(b) �(d)我们研究的三个评估标准,即基于补丁的一致性、基于聚类的一致性和空间逻辑。本文的主要贡献在于探索无标签数据驱动的约束条件,用于将模型转移到目标域以弥合域差距。这些约以约束,以将过拟合的源模型转移到目标域中像素的适当标注。具体而言,在最低级别的导类别作为像素预测置信度较低的像素的本地提示,在训练过程别的正则化,以探索聚类级别和上下文级别的预测一致性。尽管正则化项时,它们表现出令人印象深刻的性能,优于几种最先进es数据集上进行语义分割。02. 相关工作0基于CNN的语义分割。作为最具挑战性的计算机视觉任务之一,语义分割受到了广泛的研究关注。随着深度学习和卷积神经网络(CNN)的兴起,全卷积网络(FCN)[30]成功地作为一种利用CNN进行密集语义预测的有效方法。在FCN之后,各种方案,从多路径特征聚合和细化[16, 27, 36, 38,56, 58]到多尺度上下文提取和集成[5, 6, 17, 39, 51, 53,59],在利用上下文信息进行语义分割方面取得了巨大成功。后处理技术,如CRF [6]和MRF[29],可以进一步应用于考虑标签的空间一致性并改善FCN的预测。考虑到这些方法通常依赖于具有像素级注释的数据集,这些数据集非常昂贵和费力,研究人员还努力利用弱形式的注释,如图像级标签[34,37]、边界框[12]、涂鸦[2]和统计信息[35],进行语义分割。计算机图形技术的发展提供了一种利用带有自由注释的合成数据的替代方法。本文旨在研究应用计算机生成的合成数据上学习的语义分割模型的转移方法,以弥合域差距。0利用合成数据将模型转移到未标记的真实数据上。0语义分割的域自适应。为了减轻在收集像素级注释方面的昂贵标注工作的问题,研究了语义分割的域自适应。FCNWild[20]是早期的作品之一,试图通过对抗训练从全局和局部两个方面对不同域中的特征进行对齐。Curriculum[55]提出了一种课程式学习方法,以弥合合成数据和真实数据之间的域差距。随后,类似于图像识别和目标检测中的域自适应[3, 33, 52],在[14, 32, 47,57]中利用了视觉外观级别和/或表示级别的自适应来完成此任务。[14,32]执行了图像到图像的转换,将合成图像转移到外观级别的真实域中。从表示级别自适应的角度来看,AdaSegNet[47]提出在分割图上应用对抗学习,以适应结构化输出空间。FCAN[57]同时使用两个级别的自适应,最小化合成图像和真实图像之间的外观差距,并鼓励网络学习域不变的表示。已经有几种其他策略[4, 9, 10, 19, 23, 25,61]用于跨域语义分割。例如,ROAD[10]设计了一个目标引导的蒸馏模块和一个空间感知的自适应模块,用于真实风格和分布方向。在CyCADA[19]中,将源域的标签转移到目标域作为额外的监督。在[9]中,利用虚拟3D环境中的深度图作为几何信息来减少域偏移。[23, 25,61]将目标预测视为学习适用于目标域图像的模型的指南,采用自监督学习。[4]提出了一种域不变结构提取框架,将图像的结构和纹理表示解耦,并提高了分割的性能。0总结。前面提到的大多数方法主要通过在训练期间弥合域差异来研究语义分割的域自适应问题。我们的工作与众不同之处在于,我们寻求基于语义分割任务的内在和通用属性对目标域中的预测进行额外的正则化。这种解决方案为该任务制定了一种创新和有前景的研究方向。96230补丁 裁剪 补丁 分割 分割 结果 主导类别的概率 主导类别0(a)不受惩罚的情况0道路0建筑物0(b)受罚的情况0交通标志0植被0栅栏0图2.优化中不受惩罚(a)或受罚(b)的像素示例。(a)对于不受惩罚的情况,一些像素对与主导类别不同的类别非常自信。(b)对于受罚的情况,区域内的大多数像素对主导类别预测的概率相对较高。03. 预测转移的正则化器0我们首先介绍语义分割的预测转移正则化器(RPT)。定义了三个评估分割质量的标准。评估结果被用来指导源域中学习模型在目标域中的语义分割转移。03.1. 基于补丁的一致性0这个想法是强制一个补丁中的所有像素在语义标签的预测上保持一致。这里,一个补丁被定义为将具有相似视觉外观的相邻像素分组的超像素。我们采用简单的线性迭代聚类(SLIC)[1],它在通过采用k-means算法生成超像素时既速度又内存高效。给定目标域的一幅图像xt,SLIC将图像分割成N个超像素{S i | i =1,...,N}。每个超像素S i = {p j i | j = 1,...,Mi}由具有相似外观的Mi个相邻像素组成。我们假设所有或大多数像素将被标注为相同的语义标签。这里,超像素的主导类别ˆ yi被定义为该超像素中所有像素中预测标签最多的类别。由于SLIC只考虑视觉线索,一个超像素通常包含多个不同语义标签的区域。简单地将所有像素都纳入网络优化可能会导致优化偏斜的风险。为了解决这个问题,从基于补丁的正则化中屏蔽出一部分像素。具体而言,在超像素S i中,像素p j i ∈S i根据主导类别ˆ y i的预测概率被分为两组:(a)Pseg(ˆ y i | p j i)<= λpc表示概率小于或等于预先设定的阈值λ pc的情况。0植被0汽车 建筑物 道路0人0自行车0图3.使用t-SNE可视化的七个超像素聚类的特征空间。每个聚类给出了主导类别。0定义的阈值λ pc。换句话说,像素p ji以相对较高的概率被预测为与主导类别不同的标签。这组像素应该被豁免规范化。(b)P seg(ˆ y i | p j i)>λpc表示p ji相对于被预测为主导类别具有较高的置信度。在这种情况下,主导ˆ yi被用作引导这些像素预测的线索。因此,目标图像x t的基于补丁一致性规范化的损失项被制定为:0L pc(x t)= 0i,j I(P seg(ˆ y i | p j i)>λ pc)logPseg(ˆ y i | p j i),(1)0其中I(∙)是一个指示函数,通过阈值设定选择性地屏蔽像素以免受优化影响。图2显示了被屏蔽(即未受惩罚)和参与(即受到惩罚)优化的超像素的示例。03.2. 基于群集的一致性0除了补丁,我们还强制要求在视觉上相似的补丁群集之间的标签预测一致性。具体而言,群集级别的规则化对具有相似视觉特性的超像素施加约束,使其预测群集主导类别作为其标签。为此,超像素进一步分组成群集。通过在ImageNet数据集[42]上预训练的ResNet-101[18]提取超像素的特征表示。用于聚类的特征向量是通过对res 5 c层的超像素区域的特征图进行平均池化生成的。通过k-means算法将目标域图像的所有超像素分为K =2048个群集。群集级主导类别 ˜ y k通过在群集内的超像素之间进行多数投票来确定。图3通过t-SNE[48]可视化了七个群集的示例以及相应的主导类别。由于聚类是不完美的,因此预计会有一些超像素被错误地分组。LSTMLSTMLSTMLSTMLSTM...LSTMLSTMLSTMLSTMLSTMLSTM...LSTM????Lsl(xt) =�i,jI(Plogic(ˆyi|Si)<λsl)logPseg(ˆyi|pji) ,(3)Ladv(Xs, Xt) = −Ext∼Xt[log(D(xt))] −Exs∼Xs[log(1 − D(xs)] .(4)96240预计一些超像素将被错误地分组。将 P seg(˜ y k | p ji),其中 p j i ∈ S i ∈ C k,表示为将像素 p j i的群集级主导类别预测为标签的概率。与基于补丁的一致性规则化类似,对于群集级别类别的置信度较低的像素在网络优化过程中不会受到惩罚。因此,目标图像 x t的群集级一致性规则化的损失项定义为:0L cc(x t)= 0i,j,S i ∈ C k I(P seg(˜ y k | p j i)>λcc)logP seg(˜ y k | p j i),0(2)其中 λ cc是一个预定义的阈值,用于判断是否应该将像素从规则化中屏蔽。03.3. 空间逻辑0用于目标域分割的一个有用线索是语义标签之间的空间关系。例如,一个类别为 sky 的超像素很可能位于另一个标记为building 或 road的超像素的顶部,而不是反过来。这些关系预计在源域和目标域中是不变的。其背后的支持性假设在[4]中引入,即图像的高级结构信息对于语义分割是有信息量的,并且可以在域之间轻松共享。因此,空间逻辑的动机是保留在源域中学习到的空间关系到目标域。形式上,我们利用LSTM编码器-解码器架构来学习超像素之间的垂直关系,如图4所示。该架构的主要目标是根据上下文信息推测序列中被屏蔽段的类别。然后,产生的概率可以用来评估被屏蔽段中预测类别的逻辑有效性。假设我们有一个预测序列 Y,其中 Y = {y 1,y2,...,y T-1,y T} 包括从预测图中切片的 T个超像素预测。令 y t ∈ R C +1 表示序列中第 t个预测的独热向量,y t 的维度,即 C +1,是语义类别的数量加上一个符号作为标识符以识别被屏蔽的预测。通过在原始序列 Y中屏蔽具有相同语义类别的连续预测的段,生成馈入LSTM编码器的屏蔽预测序列 ˆ Y。LSTM编码器将屏蔽预测序列 ˆY嵌入到序列表示中。附加在编码器顶部的LSTM解码器然后推测被屏蔽段的类别并重构原始序列Y。为了学习上述空间逻辑,通过源域的标签监督,优化编码器-解码器架构的交叉熵损失。接下来,优化的模型可以用于从空间逻辑的角度估计每个预测的有效性。对于目标图像 x t,我们首先切片预测图0预测序列0屏蔽的预测序列0解码预测序列0屏蔽一个段落0空间逻辑概率0序列重构损失0图4. 用于学习预测图中空间逻辑的LSTM编码器-解码器架构。0将图像划分为由垂直相邻的超像素组成的几列。每列超像素的补丁级主导类别被组织成一个预测序列。对于列中的超像素 S i,当该超像素的预测在输入序列中被屏蔽时,LSTM编码器-解码器测量空间逻辑概率 P logic (ˆ y i | S i )。一旦该概率低于阈值 λ sl,我们认为该预测是不合理的,并通过分割网络惩罚 ˆ y i的预测。空间逻辑正则化的损失计算如下:0其中 P logic ( ∙ )表示来自LSTM编码器-解码器架构的预测。04. 带有RPT的语义分割0提出的预测转移正则化器(RPT)可以很容易地集成到大多数现有的语义分割领域自适应框架中。在这里,我们选择了基于对抗学习的广泛采用的框架,如图5所示。该框架中的原则相当于通过欺骗学习到的源域和目标域表示来指导两个域中的语义分割。具体而言,给定源域中的训练集 X s = { xi s | i = 1 , . . . , N s } 和目标域中的训练集 X t = { x i t | i =1 , . . . , N t } ,对抗损失 L adv是平均分类损失,其公式如下:96250源域0目标域0FCN0FCN源标签0基于补丁的一致性0基于聚类的一致性0空间逻辑0对抗学习0图5.带有RPT的基于对抗学习的语义分割自适应框架。共享的FCN通过对抗损失学习到两个域之间的不变表示。源域的预测通过监督标签进行优化,而目标域的预测通过RPT损失进行正则化。0其中 E 表示对图像集合的期望。鉴别器 D通过区分源域和目标域的表示来最小化这个损失,而共享的全卷积网络(FCN)则被训练成欺骗领域鉴别器。在语义分割过程中,将最终特征图中每个空间单元的感受野对应的图像区域视为一个独立的实例,这些实例的表示在不同领域中应该是不变的。因此,我们采用了一个完全卷积的领域鉴别器,其输出是特征图中每个空间单元对应的图像区域的领域预测。由于源域中有训练标签可用,损失函数基于像素级别的分类损失 L seg。相比之下,由于目标域中缺乏训练标签,目标域的损失函数基于以下三个正则化项定义:0L rpt ( X t ) = E x t �X t [ L cc ( x t ) + L pc ( x t ) + L sl ( x t )] . (5)0在这里,我们经验性地将RPT中的每个损失视为相等。因此,分割框架的整体目标将Ladv、Lseg和Lrpt整合为:0min FCN {−ε min DLadv(Xs, Xt) + Lseg(Xs) + Lrpt(Xt)}, (6)0其中ε = 0.1是用于调整不同损失尺度的权衡参数。05. 实现0训练策略。我们提出的网络是在Caffe[24]框架中实现的,权重由SGD优化器训练得到。我们使用扩张的FCN[6]作为我们的主干网络,该网络源自ImageNet预训练的ResNet-101,并且后面跟随一个PSP模块[59],除非另有说明。对抗学习的域鉴别器来自FCAN[57]。在训练阶段,由于GPU内存的限制,图像被随机裁剪为713×713。同时使用随机水平翻转和图像缩放进行数据增强。为了使0为了使训练过程稳定,我们使用带注释的源域数据预训练FCN。在预训练阶段,采用“poly”策略,其幂固定为0.9,初始学习率为0.001。动量和权重衰减分别为0.9和0.0005。每个小批量包含8个样本,最大训练迭代次数设置为30K。使用源域预训练的权重,我们通过微调整个适应性框架来进行域自适应,该框架配备了我们提出的RPT。初始学习率为0.0001,总训练迭代次数为10K。其他训练超参数保持不变。根据[26],我们从Cityscapes的官方训练集中随机选择了500张图像作为通用验证集。超参数(λpc = λcc = λsl =0.25,ε =0.1)都是在该集合上确定的。超像素的复杂性。RPT高度依赖于超像素提取的质量。为了提高鲁棒性,理想情况下应该排除具有复杂内容的超像素进行模型训练。这里的“复杂”是指超像素中语义标签的分布。在我们的情况下,我们根据在超像素中被预测为占主导地位类别的像素比例与超像素中的像素数进行复杂性度量。较大的值意味着预测的一致性较高,因此在正则化中涉及相应的超像素较为安全。经验上,RPT只对前50%的超像素进行正则化。这个经验性的选择将在下一节中进一步验证。RPT的状态更新。在网络优化过程中,分割预测Pseg、超像素主导类别ˆyi和聚类主导类别˜yk逐渐变化。迭代地更新这些“状态”计算量很大,因为重新分配超像素和聚类的类别(例如ˆyi和˜yk)需要来自目标域整个训练集的语义预测。考虑到这些预测在训练过程中只会轻微变化,我们首先在优化之前计算这些状态,并在迭代开始时固定这些状态。然后,在训练过程中均匀地更新预测或状态Nsu次。06. 实验06.1. 数据集0实验在GTA5 [40]、SYNTHIA [41]和Cityscapes[11]数据集上进行。所提出的RPT在GTA5和SYNTHIA(源域)以及Cityscapes(目标域)上进行训练。GTA5由24,966张尺寸为1914×1052的合成图像组成。这些图像是由现代电脑游戏《侠盗猎车手V》(GTA5)生成的,用于渲染城市场景。这些图像的像素带有与Cityscapes标签兼容的19个类别的注释。类似地,SYNTHIA由分辨率为1280×760的合成城市场景图像组成。根据[4, 9, 21, 25,47],我们使用子集SYNTHIA-DVRPT133.039.348.736.142.950.4RPT233.439.950.037.944.251.7RPT333.540.050.039.144.652.6510152025303540Number of training iterations (k)42444648505254w\o RPTRPT1RPT2RPT3State UpdatemIoU (%)05101520253035404550Percentage of filtered complex superpixels (%)49.849.95050.150.250.350.4mIoU (%)FCN32.3+ABN√39.1FCNadv (+ADV)√√47.2+PCR√√√49.0+CCR√√√√49.6RPT1 (+SLR)√√√√√50.4RPT3√√√√√√52.696260表1.RPT在GTA5到Cityscapes的语义分割领域适应中的平均IoU表现。0方法 ResNet-50 ResNet-1010基线 30.1 35.7 45.7 32.3 39.1 47.20(a)状态更新0(b)过滤复杂超像素0图6. RPT3训练期间的两个分析实验的有效性(a)状态更新;(b)RPT1中被过滤的复杂超像素的百分比。0RAND-CITYSCAPES拥有9,400张图像,这些图像的标签与Cityscapes一致,用于实验。Cityscapes由5,000张分辨率为2048×1024的图像组成。这些图像被分为三个子集,分别用于训练、验证和测试,大小分别为2,975、500和1,525。这些图像的像素被注释为19个类别。在实验中,训练子集被视为目标域的训练数据,假设像素级注释对RPT是未知的。另一方面,目标域的测试数据来自验证子集。[4, 25,47]中也采用了相同的设置。因此,将GTA5作为源域,Cityscapes作为目标域(即GTA5到Cityscapes),评估了RPT的性能,指标为每个类别的交并比(IoU)和所有类别的平均IoU。06.2. RPT的评估0RPT在基于FCN的六种不同网络架构上进行了实验,这些网络架构基于ResNet-50或ResNet-101作为骨干网络。特别地,我们采用自适应批归一化(ABN)替换了FCN原始版本中BN的均值和方差,从而得到了名为FCN+ABN的网络变体。请注意,BN层首先在源域中进行学习,然后在应用于目标域时被ABN替换。此外,利用对抗训练(ADV),还训练了另一种变体FCN+ABN+ADV,以学习域不变的表示。我们首先验证了RPT中状态更新次数Nsu的影响。表1总结了GTA5到Cityscapes的语义分割领域适应中六种网络变体的影响。所有网络都在ImageNet数据集上进行了预训练,然后注入了RPT。超像素0表2.RPT在GTA5到Cityscapes的语义分割领域适应中每个设计的贡献。0方法 ABN ADV PCR CCR SLR SU mIoU0脚本,RPTn,指的是状态更新的次数(请参见表1以获取确切数字)。基线是通过对相应的网络架构进行领域适应的语义分割来获得的,但没有RPT。总体而言,RPT在没有正则化的情况下改善了基线。改进在网络的各个变体中始终得到观察,并且与状态更新次数成比例,但计算成本增加。RPT3取得了最佳性能(mIoU =52.6%),比相同网络(FCN+ABN+ADV)的基线提高了5.4%。图6(a)显示了在不同次数的状态更新期间训练过程中mIoU的性能变化。训练从在源域中学习模型开始。然后在目标域的训练过程中均匀地进行三次状态更新,例如在超像素和聚类级别上分配主导类别。尽管在每次状态更新后的训练开始时性能下降,但mIoU逐渐改善,并最终收敛到比上一轮更高的值。图6(b)显示了当逐渐增加被排除在学习之外的复杂超像素的百分比时的性能趋势。如图所示,mIoU的值不断增加,直到过滤掉50%的超像素。在剩余的实验中,我们将RPT的设置固定为涉及50%的超像素进行正则化。06.3. 消融研究0接下来,我们进行消融研究,评估不同设计组件的性能影响。我们分别评估RPT中的三个正则化项:基于补丁的一致性正则化(PCR),基于聚类的一致性正则化(CCR)和空间逻辑正则化(SLR)。表2详细说明了每个组件对整体性能的贡献。FCNadv通过考虑自适应批归一化和对抗学习(ABN+ADV),将mIoU从32.3%提升到47.2%。结果表明了缩小合成数据与真实图像之间的领域差距的重要性。目标域中的三个正则化项分别引入了1.8%、0.6%和0.8%的改进。此外,通过增加网络优化过程中的状态更新次数,观察到额外的2.2%的改进。FCNWild [20]70.432.462.1 14.95.410.9 14.2 2.779.2 21.3 64.644.14.270.48.07.30.03.50.027.1Learning [44]88.030.578.6 25.2 23.5 16.7 23.5 11.6 78.7 27.2 71.951.319.5 80.4 19.8 18.3 0.920.818.437.1ROAD [10]76.336.169.6 28.6 22.4 28.6 29.3 14.8 82.3 35.3 72.954.417.8 78.9 27.7 30.3 4.024.912.639.4CyCADA [19]79.133.177.9 23.4 17.3 32.1 33.3 31.8 81.5 26.7 69.062.814.7 74.5 20.9 25.6 6.918.820.439.5AdaptSegNet [47]86.536.079.9 23.4 23.3 23.9 35.2 14.8 83.4 33.3 75.658.527.6 73.7 32.5 35.4 3.930.128.142.4CLAN [31]87.027.179.6 27.3 23.3 28.3 35.5 24.2 83.6 27.4 74.258.628.0 76.2 33.1 36.7 6.731.931.443.2Conditional [21]89.249.070.7 13.5 10.9 38.5 29.4 33.7 77.9 37.6 65.875.132.4 77.8 39.2 45.2 0.025.535.444.5SSF-DAN [13]90.338.981.7 24.8 22.9 30.5 37.0 21.2 84.8 38.8 76.958.830.7 85.7 30.6 38.1 5.928.336.945.4ADVENT [49]89.433.181.0 26.6 26.8 27.2 33.5 24.7 83.9 36.7 78.858.730.5 84.8 38.5 44.5 1.731.632.445.5I2I Adapt [32]85.837.580.2 23.3 16.1 23.0 14.5 9.879.2 36.5 76.453.47.482.8 19.1 15.7 2.813.41.735.7Stylization [14]86.944.584.7 38.8 26.6 32.1 42.3 22.5 84.7 30.9 85.967.028.1 85.7 38.3 31.8 21.531.324.647.8DCAN [50]85.030.881.3 25.8 21.2 22.2 25.4 26.6 83.4 36.7 76.258.924.9 80.7 29.5 42.9 2.526.911.641.7DISE [4]91.547.582.5 31.3 25.6 33.0 33.7 25.8 82.7 28.8 82.762.430.8 85.2 27.7 34.5 6.425.224.445.4FCAN [57]88.937.982.9 33.2 26.1 42.8 43.2 28.4 86.5 35.2 78.065.922.8 86.7 23.7 34.9 2.724.041.946.6FCTN [54]72.228.474.9 18.3 10.8 24.0 25.3 17.9 80.1 36.7 61.144.70.074.58.91.50.00.00.030.5CBST [61]89.658.978.5 33.0 22.3 41.4 48.2 39.2 83.6 24.3 65.449.320.2 83.3 39.0 48.6 12.520.335.347.0PyCDA [26]92.349.284.4 33.4 30.2 33.3 37.1 35.2 86.5 36.9 77.363.330.5 86.6 34.5 40.7 7.917.635.548.0MLSL [23]89.045.278.2 22.9 27.3 37.4 46.1 43.8 82.9 18.6 61.260.426.7 85.4 35.9 44.9 36.437.249.349.0Curriculum [55]72.93074.9 12.1 13.2 15.3 16.8 14.1 79.3 14.5 75.535.71062.1 20.619019.31231.4Penalizing [60]-------------------38.1Effective [43]79.829.377.8 24.2 21.66.9 23.5 44.2 80.5 38.0 76.252.722.2 83.0 32.3 41.3 27.019.327.742.5MaxSquare [8]89.340.581.2 29.0 20.4 25.6 34.4 19.0 83.6 34.4 76.559.227.4 83.8 38.4 43.6 7.132.232.545.2Bidirectional [25]91.044.784.2 34.6 27.6 30.2 36.0 36.0 85.0 43.6 83.058.631.6 83.3 35.3 49.7 3.328.835.648.5FCNadv+RPT188.737.085.2 36.6 27.7 42.6 49.1 30.0 86.9 37.6 80.766.827.5 88.1 30.3 39.5 22.528.053.050.4FCNadv+RPT389.243.386.1 39.5 29.9 40.2 49.6 33.1 87.4 38.5 86.064.425.1 88.5 36.6 45.8 23.936.556.852.6FCNadv+RPT3+MS 89.744.886.4 44.2 30.6 41.4 51.7 33.0 87.8 39.4 86.365.624.5 89.0 36.2 46.8 17.639.158.353.2ImageGround TruthFCNFCNadvFCNadv+RPT396270表3. 在GTA5 →Cityscapes适应上与最先进的无监督域自适应方法进行比较。请注意,基准方法分为五组:(1)通过对抗学习进行表示级域自适应[10, 13,19, 21, 31, 44, 47];(2)通过图像转换进行外观级域自适应[14, 32];(3)外观级+表示级自适应[4, 50, 57];(4)自学习[23, 26, 54,61];(5)其他方法[8, 25, 43, 55, 60]。0Method 路面 人行道 建筑物 墙 隔离栅 杆 灯牌 植被 地形 天空 人 骑车人 车辆 卡车 公交车 火车 摩托车 自行车 mIoU0图7.GTA5-Cityscapes适应的语义分割结果示例。给出了原始图像、它们的真值和FCN adv +RPT 3 不同阶段的比较结果。0从RPT 1到RPT3。图7显示了在不同设计组件逐步集成时,五个图像的语义分割逐渐改善的情况。06.4. 与最新技术的比较0我们与几种无监督领域自适应的最新技术进行比较,从GTA5 →Cityscapes。广义上,我们可以将基准方法分为五类:(1)通过对抗学习进行表示级领域自适应[10, 13, 19, 21, 31,44, 47];(2)通过图像转换进行外观级领域自适应[14,32];(3)外观级+表示级自适应[4, 50,57];(4)自学习[23, 26, 54, 61];0(5)其他方法[8, 25, 43, 55, 60]。在GTA5 →Cityscapes适应上的性能比较总结如表3所示。FCN adv+RPT3以52.6%的mIoU达到了最新的最佳性能。受到所提出的正则化的益处,FCN adv +RPT 3的性能优于SSF-DAN[13]和ADVENT[49],这两者也采用了类似的对抗机制,分别提高了7.2%和7.1%。性能还优于最近提出的FCAN [57]和Stylization[14],它们利用了一种在RPT中没有考虑的新颖外观转换模块。与迄今为止最佳报告结果MLS[23]相比,我们提出的模型仍然领先3.6%的性能。通过进一步与多尺度(MS)方案集成,即FCN adv +RPT 3+MS,mIoU提升到53.2%,其中19个类别中有9个达到了迄今为止的最佳报告性能。0为了验证RPT的泛化性能,我们还使用相同的设置在SYNTHIA → Cityscapes上进行测试。按照之前的工作[23, 26, 49,61],性能以mIoU@16和mIoU@13的形式报告,不考虑不同类别的数量。性能比较总结如表4所示。类似地,FCNadv +RPT 3 +MS以mIoU@16 = 51.7%和mIoU@13 =59.5%的最佳性能。性能比PyCDA提高了5%和6.2%。Learning [44]80.129.177.52.80.426.8 11.1 18.0 78.1 76.748.215.2 70.5 17.48.716.736.1-ROAD [10]77.730.077.59.60.325.8 10.3 15.6 77.6 79.844.516.6 67.8 14.57.023.836.2-AdaptSegNet [47]84.342.777.5---4.77.077.9 82.554.321.0 72.3 32.218.932.3-46.7CLAN [31]81.337.080.1---16.1 13.7 78.2 81.553.421.2 73.0 32.922.630.7-47.8Conditional [21]85.025.873.53.43.031.5 19.5 21.3 67.4 69.468.525.0 76.5 41.617.929.541.2-SSF-DAN [13]84.641.780.8---11.5 14.7 80.8 85.357.521.6 82.0 36.019.334.5-50.0ADVENT [49]85.642.279.78.70.425.9 5.48.180.4 84.157.923.8 73.3 36.414.233.041.248.0DCAN [50]82.836.475.75.10.125.8 8.0 18.7 74.7 76.951.115.9 77.7 24.84.137.338.4-DISE [4]91.753.577.12.50.227.1 6.27.678.4 81.255.819.2 82.3 30.317.134.341.5-CBST [61]53.623.775.0 12.50.336.4 23.5 26.3 84.8 74.767.217.5 84.5 28.415.255.842.548.4PyCDA [26]75.530.983.3 20.80.732.7 27.3 33.5 84.7 85.064.125.4 85.0 45.221.232.046.753.3MLSL [23]59.230.268.5 22.91.036.2 32.7 28.3 86.2 75.468.627.7 82.7 26.324.352.745.251.0Curriculum [55]57.423.174.70.50.614.0 5.34.377.8 73.745.011.0 44.8 21.21.920.329.7-Penalizing [60]----------------34.240.3MaxSquare [8]82.940.780.3 10.20.825.8 12.8 18.2 82.5 82.253.118.0 79.0 31.410.435.641.44
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功