没有合适的资源?快使用搜索试试~ 我知道了~
126350Stuff和Things的差异化处理:一种简单的语义分割无监督域适应方法0Zhonghao Wang 1,Mo Yu 2,Yunchao Wei 3,Rogerio Feris 2,Jinjun Xiong 2,Wen-mei Hwu1,Thomas S. Huang 1,Honghui Shi 4,101 C3SR,UIUC,2 IBM研究,3 ReLER,UTS,4 俄勒冈大学0摘要0本文考虑了在语义分割中无监督域适应问题,通过减轻源域(合成数据)和目标域(真实数据)之间的域偏移。最先进的方法证明进行语义级别的对齐有助于解决域偏移问题。基于以下观察:不同域的图像中的stuff类别通常具有相似的外观,而things(即对象实例)具有更大的差异,我们提出通过不同策略改进语义级别的对齐:1)对于stuff类别,我们为每个类别生成特征表示,并从目标域到源域进行对齐操作;2)对于thing类别,我们为每个单独的实例生成特征表示,并鼓励目标域中的实例与源域中最相似的实例对齐。这样,thing类别内的个体差异也将被考虑以减轻过度对齐。除了我们提出的方法,我们还揭示了当前对抗性损失在最小化源域和目标域之间的分布差异时通常不稳定的原因,并展示了我们的方法如何通过最小化最相似的stuff和instance特征来帮助缓解这个问题。我们在两个无监督域适应任务中进行了大量实验,即GTA5 → Cityscapes和SYNTHIA →Cityscapes,并取得了新的最先进的分割准确性。01. 引言0语义分割[28]能够在像素级别上理解图像场景,这对于许多实际应用,如自动驾驶,至关重要。最近深度学习[25]方法在大型训练数据集上生成特征,显著加速了语义分割[3, 4,45, 5, 18, 19, 7, 39]的进展。0Stuff:“树” Instance:“车”0合成数据特征的特征真实数据的特征0Instance:“车” Stuff:“树”0图1. 提出的Stuff Instance Matching (SIM)结构的示意图。通过将最相似的stuff区域和things(即实例)进行差异化处理,我们可以更准确地从源域适应特征到目标域。08, 21,31]。然而,以像素级别进行数据注释的成本在时间和金钱方面都很高。具体而言,在广泛使用的Cityscapes[10]基准数据集中注释一张图像平均需要1.5小时;对于注释所有5000张图像,总共需要7500小时。这样的注释成本相当沉重,考虑到在收集的数据上训练深度神经网络通常只需要几十小时。为了解决高成本注释的问题,提出了语义分割的无监督域适应方法[32,33]。在这些方法中,通过对未标记的目标域进行适应,将在源域数据集上进行分割注释的模型进行调整。源域数据集可以是合成数据,例如来自视频游戏,因此几乎不需要人力。然而,这些方法面临域偏移问题。现有方法通过最小化特征提取器[36,14]提取的特征在源域和目标域之间的分布差异来解决该问题。为此,通常使用GAN [13]架构组成的方法126360在这种情况下,生成器和判别器组成的生成对抗网络被广泛应用。生成器从输入图像中提取特征,判别器区分特征是来自哪个领域。判别器可以以对抗的方式引导生成器生成更接近源领域特征分布的目标领域特征。在以前的生成对抗网络方法中,对抗损失本质上是关于生成特征是否来自源领域的二元交叉熵。我们观察到,对于分割任务来说,这样的全局训练信号通常是弱的。首先,物体区域和场景区域之间的对齐需要不同的处理,但是对抗损失缺乏这样的结构信息。例如,物体区域通常在图像中缺乏外观变化,而物体可以在同一图像中具有多样的外观。因此,全局对抗损失在不进行差异化处理的情况下,将物体和场景特征进行全局对齐是次优的。其次,全局生成对抗网络结构只适应两个领域之间的特征分布,并不一定将目标领域特征适应到源领域特征的最可能空间。因此,随着语义头部从源领域中聚集更多的特征,特征生成器越来越难以将目标领域特征准确地适应到源领域特征。这导致目标领域图像的性能下降,如图2所示。本文提出了一个物体和实例匹配(SIM)框架来解决上述困难。首先,我们对待物体区域和物体实例之间的对齐采用不同的指导。关键思想如图1所示。源图像中的多个物体区域通常是相似的,因此不同领域的物体可以直接与它们的全局特征向量对齐。而同一物体的多个实例(例如,汽车类别)在源图像中可能是多样的。因此,我们将目标图像中的实例与源图像中最相似的实例对齐。其次,我们处理GAN训练框架的不稳定性,我们应用L1损失来明确地最小化目标领域物体和物体特征与最相似源领域对应物的距离。通过这种方式,适应性在更准确的方向上进行处理,而不是仅仅使用对抗性交叉熵损失进行粗略的分布匹配,即使在语义头部通过更长的训练迭代聚集源领域特征之后。如图2所示,我们将GTA5[32]数据集到Cityscapes[10]数据集的输出空间对抗自适应[37]与添加了SIM模块的模型进行比较。我们成功解决了在更长的训练迭代中性能下降的问题,只需稍微增加一些计算量。0图2.从GTA5数据集自适应到Cityscapes数据集的验证集上的mIoU比较。蓝线对应于输出空间对抗自适应策略[37]。橙线对应于输出空间对抗自适应与我们提出的SIM结构相结合。模型性能每5000次迭代进行一次测试。0最后,我们提出使用自监督学习策略改进SIM框架。具体而言,我们使用高置信度的预测分割结果来训练分割模型,并增强对物体类别和场景类别的对齐。我们在两个无监督领域自适应任务上评估了所提出的方法,即从GTA5到Cityscapes的自适应和从SYNTHIA到Cityscapes的自适应,并在两个任务上取得了最新的性能。02. 相关工作0在深度学习方法的兴起和取得巨大进展之后,分类中的领域自适应问题得到了广泛研究[43]。然而,语义分割问题中的领域自适应更具挑战性,因为它本质上是一个涉及结构化上下文语义自适应的像素级分类问题。这个任务的典型做法是将在合成数据集[32,33](源领域)上训练的语义分割模型适应到真实图像数据集[10](目标领域)上。领域自适应任务的关键思想是对齐源领域和目标领域之间的特征分布,以便模型可以利用从源领域学到的知识在目标领域上执行任务。我们通常将当前的方法分为三类:图像级转换、特征级转换和标签级转换。图像级转换是指改变图像的外观,使得源领域和目标领域的图像更加相似。这些方法[26, 41,44]通常将图像的颜色、光照和其他样式因素从一个领域转移到另一个领域,或者从两个领域转移到一个中性领域。在[26]中,Li等人使用CycleGAN[46]和感知损失来保留语义信息的局部性,进行非配对的图像转换。在[44]中,Zhang等人提出了一种外观自适应网络,可以在两个领域之间相互转移图像的外观,使得图像的外观倾向于领域之间的相似性。ℒ"#$%ℒ"#$&SHSHIMSMGAℒ'()ℒ"*+ℒ,-"ℒ"#$𝑐 𝑤ℎℒ'()+∩………ℒ,-"ℒ"*+……𝑛𝑊𝐻𝑛𝑊𝐻𝑛𝑊𝐻𝑐 𝑤ℎ𝑐 𝑤ℎi,h,w126370目标图像0源图像0共享0语义头(SH)0全局适应(GA)0判别器0实例匹配(IM)0源标签0目标伪标签0人0样本0物体匹配(SM)0道路0样本0真实标签0预测标签0结构概述0图3.框架。1)整体结构如左图所示。实线表示Eqn(12)中的第一步训练过程,虚线与实线表示Eqn(13)中的第二步训练过程。蓝线对应源域数据的流向,橙线对应目标域数据的流向。∩是Eqn(4)中定义的操作;+是Eqn(11)中定义的操作,仅在第二步训练过程中有效。2)具体模块设计如右图所示。h,w和c表示特征图的高度、宽度和通道数;H,W和n表示语义头输出图的高度、宽度和类别数。对于SH,输入的真实标签图监督语义分割任务,语义头还生成一个通过∩和+操作连接的预测标签图。对于SM和IM,灰色虚线分别表示Eqn(6)和(8)中定义的匹配操作。0不变。Choi等人[9]提出了一种基于GAN的自我集成数据增强方法用于域对齐。0特征级别的转移是指匹配源域和目标域之间提取的特征分布。虽然特征提取器[36, 14,17]可以提取任务特定的特征,但由于域漂移,从目标域和源域提取的特征存在差异,这对模型在目标域数据集上的性能产生负面影响。因此,使用GAN[13]结构来最小化特征分布差异是域自适应中的常见做法。Sankaranarayanan等人提出了一种图像重构框架[35],使得两个域的重构图像彼此接近,从而通过反向传播将特征拉近。Tsai等人提出了一个简单的端到端输出空间域自适应框架[37]。Wu等人提出了一个通道级特征对齐网络[41],用于关闭CNN特征图中通道的均值和标准差差距。Chang等人提出了一个用于提取适应性域不变结构的框架[2]。0标签级别的转移是指根据从源域学到的知识为目标域数据集提供伪标签,以帮助适应任务。这遵循一种自监督学习框架[22],其中没有人工努力用于标记目标域数据。0获取数据集。Zou等人[47]提出了一个平衡类别的自训练框架。Li等人[26]提出了一个联合自学习和图像转移框架用于适应。3. 背景0定义我们遵循无监督语义分割框架进行域自适应任务,即给定一个带有图像和像素级语义注释(xsi,ysi)的源域数据集和一个只包含图像(xti)的目标域数据集,我们计划训练一个模型,可以为目标域图像预测像素级标签(ˆyti)。我们用N表示类别数。语义分割和对抗自适应深度学习文献中广泛讨论了语义分割任务[3, 4, 45,5],并且通过利用特征提取器网络F提取图像特征和分类头C将特征分类为语义类别,形式化地解决了问题。我们使用交叉熵损失在公式(1)中使用带注释的源域数据集对模型进行像素分类任务的监督。0LSseg(fsi) = −0k∈Ny(h,w)i log(S(C(fsi)(h,w))(k))0(1)其中,fsi=F(xsi),xsi∈Xs,Xs是源域图像数据集,h和w是特征图的高度和宽度,y是地面实况标签,S是softmax函数。LsCi = LsGi ∩ LsPi(4)̸(5)(6)(7)tk(8)126380然而,由于域偏移问题,直接将在源域上训练的模型应用于目标域上会导致性能下降。因此,我们在输出空间上引入了传统的GAN结构[37],以全局地最小化源域和目标域之间的特征分布差异。在这里,特征提取器F和分类头C充当生成器G,即G=C◦F。判别器D通过优化公式(2)中的对抗目标函数来判别生成器G生成的输出。我们通过优化公式(2)中的对抗目标函数来消除源域和目标域之间的特征分布差异。0min GLadv(G, D) = −0xti∈XT log(1 − D(S(G(xti)))) (2)0而判别器通过优化公式(3)中的判别器目标函数来区分特征来自哪个域。0min DLd(G, D) = −0xti∈XT log(D(S(G(xti))))0−0xtj∈XS log(1 − D(S(G(xs j)))) (3)04. 提出的方法0我们方法的关键思想是过去的经验应该对当前的训练过程有所帮助。具体到我们的任务,过去的经验应该同时帮助源域到目标域的特征级别转移和标签级别转移。首先,我们提出了一个物体和实例匹配(SIM)框架来减少类内域偏移问题。其次,我们提出了一个自监督学习框架,结合我们提出的SIM结构,实现标签级别的转移,进一步提升性能。整体框架如图3所示。04.1. 物体和实例匹配(SIM)0首先,我们讨论背景类别(如道路、人行道、天空等)的匹配过程。这些类别通常覆盖图像的大部分区域,并且缺乏外观变化,因此我们只提取它们的图像级别的物体特征表示。对于每个源域图像,我们通过选择与地面实况标签在公式(4)中匹配的预测标签来访问正确分类的标签映射。0LsPi = argmaxk∈N(C(fsi)(k))0其中,LsCi是正确分类的标签映射,LsGi是地面实况标签映射,LsPi是预测的标签映射,i∈{1..|XS|}。我们对属于这些标签的特征进行平均。0在图像的宽度和高度上与背景语义类别相同作为每个背景类别的物体表示,如公式(5)所示。0Ab(L, f) =0|0h,w δ(L(h,w) − b) f(h,w)0max(�, |0h,w δ(L(h,w) − b))0Sbj = Ab(LsCi, fsi) where j = i mod w,0如果Ab(LsCi, fsi) ≠ 00其中Sbj是类别b的第j个源域语义特征样本,b ∈B(背景类别),i ∈{1..|XS|},w是每个类别要存储的特征样本数量,δ是Diracdelta函数,�是正则化项。对于每个目标域图像,我们最小化每个背景类别的物体表示与最近的类内源域物体特征表示之间的距离。因为目标域图像的地面真值未提供,我们使用预测的标签图生成每个背景类别的物体特征表示。当模型在目标域上训练时,我们通过最小化公式(6)中定义的损失函数来调整背景类别的物体特征表示。0Lstf = |0i0|0b min j0|Ab(LtPi, fti) − Sbj|10其中i ∈ {1..|XT|},b ∈ LtPi ∩B。其次,我们讨论前景类别(如汽车、人等)的实例匹配过程。由于地面真值没有提供实例级别的注释,我们通过在标签图L中找到每个前景类别的不连通区域来生成前景实例掩码。这将把类内语义区域粗略地分割成多个实例,因此可以相应地生成一张图像的各种实例级特征表示,如公式(7)所示。Rk = {rk1, rk2, ..., rkm} = T (L, k)0I(r, f) =0|0h,w r(h,w) f(h,w)0max(�, |h,w r(h,w)|)0其中rk i是属于类别k的连接区域的第i个(i ∈{1,..,m})二值掩码,k ∈K(前景类别),T是从标签掩码L中找到类别k的不连通区域的操作,I是生成实例级特征表示的操作。源域实例特征样本可以在算法1中生成。因此,目标域实例特征可以通过最小化公式(8)中的损失函数将其拉近到最近的类内源域实例特征样本。0Lins = |0i0|0k ∈ K01 ≤ Rtk ≤|0最小j0|I(rt, fti) − Skj|10其中i ∈ {1..|XT|},而Rtk = T (LtPi, k)。̸LTseg(f t) = −�i,h,w�k∈Nˆy(h,w)ilog(S(C(f ti )(h,w))(k))✶LtPi̸=ˆyti(LtPi) = ✶LtPi̸=ˆyti(ˆyti).(11)(13)126390算法1:实例级源域特征样本0结果:Sk0z = 10; # 图像中的最大类别实例数目ck = 0,�k∈ K; # 实例特征计数器对于xsi ∈ XS do0对0Rsk = T (LsCi, k)如果Rsk ≠ �则Rsort = sortRsk按面积降序排序for l ∈ {1..min(z,|Rsort|)} do0j = ck mod z � wck = ck + 1 Skj = I(Rsort[l], fsi) end end end end04.2. 带有SIM的自监督学习0因为模型只在带有地面真值注释的源域上进行训练,所以特征和softmax输出是为了优化源域分割损失函数而生成的,但忽略了目标域分割监督。然而,两个域的地面真值标签的分布也存在差异,这对模型在目标域上的性能产生了负面影响。因此,我们提出了一个自监督学习框架,结合我们的特征匹配方法来缓解这个问题。首先,我们按照第3节和第4.1节中描述的框架,使用源域图像XS和地面真值注释YS以及目标域图像XT来训练一个模型。然后,我们使用训练好的模型在训练集图像XT中对预测标签的置信度较高的像素给出伪标签,如公式(9)所示。ˆyti = argmax k ∈ N � [ S ( C (fti )) ( k ) > ykt ] ( C ( fti ) ( k ) ) (9)0其中�是一个函数,如果条件为真,则返回输入,否则返回一个不关心的符号,ykt是类别k的置信阈值。然后,我们将目标域图像中的语义分割损失添加到公式(10)中,以及其他损失,重新训练我们的模型。0(10)通过伪标签监督模型生成与特定类别对应的特征,这些特征应该普遍地适应于与之相对应的源域内类别特征。因此,L t P i通过公式(11)进行增强,该公式定义了L t Pi的杂物特征适应损失和实例特征适应损失:0�选择满足条件的输入位置。04.3. 训练过程0我们采用两步训练过程来提高生成器G在目标域数据集上的语义分割任务的性能。首先,我们在没有自监督学习模块的情况下训练模型,并使用G和D在对抗训练策略中优化公式(12)中的目标函数:0min G,D L step 1 = min G ( λseg L S seg + λadvL adv +0λci ( Lstf + Lins )) + min D λD LD , (12)0其中λ是损失的权重参数。其次,在第一步训练中,将伪标签提供给目标域训练数据集,并重新初始化和重复训练过程以优化公式(13)中的损失函数。0min G,D L step 2 = min G ( λseg ( L S seg + L T seg ) +λadv L adv +0λci ( ˜Lstf + ˜Lins )) + min D λD LD ,0其中˜Lstf和˜Lins根据公式(11)预测的ˆytis进行增强。05. 实现05.1. 网络架构0分割网络。我们采用在ImageNet上预训练的ResNet-101模型[14],只使用5个卷积层{conv1,res2,res3,res4,res5}作为骨干网络。由于内存限制,我们不使用多尺度融合策略[42]。为了生成更好质量的特征图,我们遵循[3, 42,37]的常见做法,并将最后两层的特征图的分辨率扩大两倍。为了扩大视野,我们在res4和res5中使用了空洞卷积层[42],步长分别为2和4。对于分类头,我们在res5上应用了一个ASPP模块[4],其中λseg =1。鉴别器。根据[37],我们使用5个卷积层,内核大小为4×4,步长为2,通道数分别为{64, 128, 256, 512,1}。在相邻卷积层之间使用了0.2的负斜率的leakyReLU[24]层。由于训练过程中的小批量大小,我们不使用批量归一化层[20]。唯一的鉴别器是在res5上的ASPP头部上采样的softmax输出上实现的,其中λadv = 0.001和λD = 1。126400表1. GTA5适应Cityscapes的最新结果比较0GTA5 → Cityscapes0方法0道路0人行0建筑物0墙0栅栏0电线杆0灯0标志0植被0地形0天空人0骑车人汽车0卡车0公交车0火车0摩托车0自行车0mIoU0Wu等人[40] 85.0 30.8 81.3 25.8 21.2 22.2 25.4 26.6 83.4 36.7 76.2 58.9 24.9 80.7 29.5 42.9 2.5 26.9 11.6 41.7 Tsai等人[37] 86.536.0 79.9 23.4 23.3 23.9 35.2 14.8 83.4 33.3 75.6 58.5 27.6 73.7 32.5 35.4 3.9 30.1 28.1 42.4 Saleh等人[34] 79.8 29.3 77.8 24.221.6 6.9 23.5 44.2 80.5 38.0 76.2 52.7 22.2 83.0 32.3 41.3 27.0 19.3 27.7 42.5 Luo等人[29] 88.5 35.4 79.5 26.3 24.3 28.5 32.518.3 81.2 40.0 76.5 58.1 25.8 82.6 30.3 34.4 3.4 21.6 21.5 42.6 Hong等人[16] 89.2 49.0 70.7 13.5 10.9 38.5 29.4 33.7 77.9 37.665.8 75.1 32.4 77.8 39.2 45.2 0.0 25.5 35.4 44.5 Chang等人[2] 91.5 47.5 82.5 31.3 25.6 33.0 33.7 25.8 82.7 28.8 82.7 62.4 30.885.2 27.7 34.5 6.4 25.2 24.4 45.4 Du等人[12] 90.3 38.9 81.7 24.8 22.9 30.5 37.0 21.2 84.8 38.8 76.9 58.8 30.7 85.7 30.6 38.1 5.928.3 36.9 45.4 Vu等人[38] 89.4 33.1 81.0 26.6 26.8 27.2 33.5 24.7 83.9 36.7 78.8 58.7 30.5 84.8 38.5 44.5 1.7 31.6 32.4 45.5Chen等人[6] 89.4 43.0 82.1 30.5 21.3 30.3 34.7 24.0 85.3 39.4 78.2 63.0 22.9 84.6 36.4 43.0 5.5 34.7 33.5 46.4 Zou等人[47]89.6 58.9 78.5 33.0 22.3 41.4 48.2 39.2 83.6 24.3 65.4 49.3 20.2 83.3 39.0 48.6 12.5 20.3 35.3 47.0 Lian等人[27] 90.5 36.3 84.432.4 28.7 34.6 36.4 31.5 86.8 37.9 78.5 62.3 21.5 85.6 27.9 34.8 18.0 22.9 49.3 47.4 Li等人[26] 91.0 44.7 84.2 34.6 27.6 30.236.0 36.0 85.0 43.6 83.0 58.6 31.6 83.3 35.3 49.7 3.3 28.8 35.6 48.50我们的(ResNet101)90.6 44.7 84.8 34.3 28.7 31.6 35.0 37.6 84.7 43.3 85.3 57.0 31.5 83.8 42.6 48.5 1.9 30.4 39.0 49.20Du等人[12] 88.7 32.1 79.5 29.9 22.0 23.8 21.7 10.7 80.8 29.8 72.5 49.5 16.1 82.1 23.2 18.1 3.5 24.4 8.1 37.7 Li等人[26] 89.240.9 81.2 29.1 19.2 14.2 29.0 19.6 83.7 35.9 80.7 54.7 23.3 82.7 25.8 28.0 2.3 25.7 19.9 41.30我们的(VGG16)88.1 35.8 83.1 25.8 23.9 29.2 28.8 28.6 83.0 36.7 82.3 53.7 22.8 82.3 26.4 38.6 0.0 19.6 17.1 42.405.2. 训练细节0我们使用Pytorch工具箱和单个GPU来训练我们的网络。使用随机梯度下降(SGD)来优化分割网络。我们使用Nesterov的方法[1],动量为0.9,权重衰减为5×10^-4。0为了加快收敛速度,我们设置初始学习率为2.5×10^-4,并以0.9的幂次多项式衰减。对于鉴别器网络,我们使用Adam优化器[23],动量为0.9和0.99。初始学习率设置为10^-4,并应用相同的多项式衰减规则。06. 实验06.1. 数据集0Cityscapes[10]数据集由5000张分辨率为2048×1024的高质量像素级注释图像组成。这些街景图像被注释为19个语义标签以进行评估。该数据集分为训练集、验证集和测试集,分别包含2975、500和1525张图像。我们只在验证集上评估我们的模型,这与之前的工作[15, 30]一致。GTA5[32]数据集包含24966张分辨率为1914×1052的合成图像,这些图像都是从游戏《侠盗猎车手V》中截取的。为了适应有限的GPU内存,我们遵循[37]的方法,将GTA5图像调整为分辨率为1280×720。该数据集与Cityscapes数据集共享了用于评估的所有19个类别。SYNTHIA[33]数据集包含9400张分辨率为1280×760的图像,具有像素级注释。与[29, 37, 12, 26]类似,我们进行评估。0我们在Cityscapes验证集上评估我们的模型,该数据集与SYNTHIA数据集和Cityscapes数据集共享13个类别。Cityscapes图像在训练阶段和测试阶段都被调整为1024×512。06.2. GTA5到Cityscapes0首先展示我们的结果并与之前的最新技术进行比较;然后讨论我们模型中每个模块的有效性;最后讨论我们提出的SIM模块的超参数选择。整体结果。我们在表1中将我们的方法与当前最新技术进行了性能比较。为了公平比较,我们列出了使用resnet-101 [14]和VGG16[36]作为骨干的模型的性能。我们的方法在任何骨干下都达到了最新的性能。模块贡献。我们在表2中展示了每个模块对我们模型整体性能的贡献。如果纯粹在源域数据集上训练,模型在Cityscapes验证集上可以达到36.6的mIoU。然后,我们按照[37]的工作,在输出空间上添加全局对抗训练,使用方程(2)中的对抗损失和方程(3)中的鉴别器损失,mIoU提高到41.4。如第2节所述,图像级适应也是减小数据分布差异的关键因素。因此,利用外部转移的源域图像数据集,其外观更类似于目标域图像数据集,是有帮助的。我们采用了[26]中使用CycleGAN[46]结构将GTA5图像的风格适应到目标域图像风格的转移GTA5图像。+ SIM✓✓✓46.2+ SSL✓✓✓✓49.2λci0.10.050.010.0050.001mIoU43.444.246.245.445.5w10502008001600mIoU45.246.246.145.345.0of Cityscapes images. This further improves the mIoU to44.9, which serves as the baseline for our works.Then, we add our SIM module to the training framework.The background classes include road, sidewalk, building,wall, fence, vegetation, terrain and sky. The foregroundclasses are all the rest classes used for evaluation. With thebest setting for the SIM module where λci = 0.01 and w,the number of semantic source domain feature samples tobe stored, is 50, the mIoU improves to 46.2 by optimizingthe Eqn (12). In this setting, we empirically set the max-imum source domain instance features of each class to bestored to 10 for each image, and the feature of the instancecovering larger area is to be stored with higher priority. Wealso adapt 10 instance features at maximum for each classfrom the target domain to the source domain. This is be-cause instance feature representations of small regions ornoise regions may be too many for storage and adaptation.Finally, we retrain our model with the combination ofSIM and the self supervised learning (SSL) frameworkgiven the pseudo-labeled target dataset by the training step1. When generating the pseudo labels for the target dataset,we choose the confidence threshold for each class respec-tively. We first follow Eqn (9) to give pseudo labels foreach pixel by setting yt = 0 for each image in the targetdataset. Then, we generate a confidence map correspondingto the pseudo label map where the confidence is the maxi-mum item of the softmax output in each channel so that thepseudo label at each pixel is associated with a confidencevalue. After this, we rank the confidence values belong-ing to the same class across the whole target dataset. If themedian confidence value is below 0.9, then the confidence126410表2.从GTA5数据集到Cityscapes数据集的自适应消融研究。AA代表对抗性自适应;IT代表图像转换;SIM代表语义和实例匹配;SSL代表自监督学习。0方法 AA IT SIM SSL mIoU0仅源域 36.6 + AA[37] � 41.4 + IT[26] � � 44.90仅目标 65.10表3. λ ci 的选择对要存储的语义特征样本数量为50(w =50)的影响0表4. λ ci 的选择对要存储的语义特征样本数量(w)的影响,给定λ ci = 0.010该类别的阈值设置为中位数置信度值;否则,设置为0.9。通过设置新的 y kt,我们按照公式(9)生成带有目标数据集中不关心标签的伪标签,从而可以通过优化公式(13)进行模型重新训练。这将将mIoU提高到49.2。我们在图4中提供了显示我们方法改进的可视化结果。超参数分析。这主要涉及 λ ci的设置,即语义匹配损失和实例匹配损失的权重,以及w,我们提出的SIM模块要存储的语义特征样本的数量。对于其他模块的超参数,我们遵循[37]设置 λ seg = 1,λ adv= 0.01和λ D = 1来控制变量。首先,我们讨论了在 w = 50的情况下 λ ci 的影响,如表3所示。我们用不同的 w 测试了λ ci 的影响。这里我们只展示了 w = 50的结果,这是达到最佳性能的设置,以提供对 λ ci选择影响的直观理解。我们认为 λ ci不应设置得太大或太小。如果太大,与图像级别或实例级别语义类别对应的特征将被拉得太近,以至于这些目标域特征也会非常接近,从而缺乏类内特征差异。这可能会恶化特征提取器的场景理解能力,从而对我们模型的整体性能产生负面影响。另一方面,如果 λ ci太小,匹配损失将无法在很大程度上帮助模型减小源域和目标域之间的特征差异。如表3所示,当 λ ci = 0.01时,即适当的较大值,模型达到了最佳性能。其次,我们展示了 w的选择,即要存储的语义特征样本的数量,如表4所示。由于模型在训练阶段始终在更新,因此无法访问所有具有新更新模型的源域特征样本是不可行的。因此,我们存储了一定数量的由最近更新的模型生成的特征样本。这些特征样本的数量 w 应该平衡以下因素:1)w应该足够大,以便有足够的源域特征样本进行匹配;2)w不应太大,否则存储的源域特征样本将不是最新的。通过我们的实验,w = 50 取得了最佳性能。06.3. SYNTHIA到Cityscapes0我们评估了源域和目标域之间共享的13个类别的mIoU,参考文献为[29, 37, 12,26]。我们对所有后续实验使用在第6.2节中讨论的取得最佳性能的相同超参数。我们将我们的模型与先前的模型进行比较。126420目标图像 仅源域 真实标签 AA+IT 我们0图4. 分割结果的可视化。'仅源域','AA+IT'和'Ours'分别对应于表2中的mIoU为36.6,44.9和49.2的模型。0表5. 将SYNTHIA适应到Cityscapes的最新结果的对比。0SYNTHIA → Cityscapes0方法0道路0人行道0建筑物0灯光0标志0植被0天空0人0骑车人0汽车0公交车0摩托车0自行车0mIoU0Luo等人[29] 82.5 24.0 79.4 16.5 12.7 79.2 82.8 58.3 18.0 79.3 25.3 17.6 25.9 46.3 Tsai等人[37] 84.3 42.7 77.5 4.7 7.0 77.9 82.554.3 21.0 72.3 32.2 18.9 32.3 46.7 Du等人[12] 84.6 41.7 80.8 11.5 14.7 80.8 85.3 57.5 21.6 82.0 36.0 19.3 34.5 50.0 Li等人[26]86.0 46.7 80.3 14.1 11.6 79.2 81.3 54.1 27.9 73.7 42.2 25.7 45.3 51.40我们的模型(ResNet101) 83.0 44.0 80.3 17.1 15.8 80.5 81.8 59.9 33.1 70.2 37.3 28.5 45.8 52.10表6.从SYNTHIA数据集到Cityscapes数据集的自适应消融研究。AA代表对抗性自适应;IT代表图像转换;SIM代表语义和实例匹配;SSL代表自监督学习。0方法 AA IT SIM SSL mIoU0仅源域为38.6 + AA[37] � 45.9 + IT[26] � � 46.00+ SIM � � � 47.1 + SSL � � � � 52.10仅目标为71.70表5中的最新结果。我们的模型还在从SYNTHIA数据集到Cityscapes数据集的自适应中达到了最新的最优结果。表6显示了每个模块的贡献。如果仅在源域上进行训练,模型可以达到38.6的mIoU。通过添加对抗性训练模块并利用转移的源域图像,模型可以达到46.0的mIoU。我们注意到利用转移图像的改进并不明显,我们推测这是因为源域和目标域之间的布局差距很大。通过0添加我们的SIM模块后,mIoU提高到47.1。在使用与第6.2节中描述的相同伪标签策略对我们的模型进行重新训练后,我们的模型达到了52.1的mIoU。07. 结论0我们提出了一种用于从合成数据集到真实图像数据集的无监督领域自适应语义分割的物体和实例匹配(SIM)模块。我们(1)考虑了物体区域和事物实例之间的外观差异,并因此在适应过程中对它们进行了不同的处理;(2)明确地最小化了源域和目标域之间最接近的物体和实例特征的距离,这使得适应过程更加准确,并在更长的迭代中稳定了GAN训练过程。通过将我们的SIM模块与自训练相结合,我们的模型在这个任务上达到了最新的最优结果。0致谢:本工作部分得到IBM-Illinois认知计算系统研究中心(C3SR)的支持,该中心是IBM AI HorizonsNetwork的研究合作伙伴
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功