没有合适的资源?快使用搜索试试~ 我知道了~
无监督域自适应中的简单低级统计数据对齐提高语义分割性能的方法
4085FDA:用于语义分割的Yanchao Yang加州大学洛杉矶分校视觉实验室yanchao. cs.ucla.edu加州大学洛杉矶分校视觉实验室soatto@cs.ucla.edu摘要我们描述了一个简单的方法,无监督域自适应,从而减少源和目标分布之间的差异,通过交换低频频谱的一个与其他。我们在语义分割中说明了该方法,其中密集注释的图像在一个域中很多(例如, 合成数据),但在另一种情况下难以获得(例如,真实图像)。当前最先进的方法是复杂的,一些需要对抗性优化以使神经网络的主干对离散域选择变量不变我们的方法不需要任何训练来执行主对齐,只是一个简单的傅里叶变换及其逆变换。尽管它的简单性,它实现了国家的最先进的性能在当前的基准测试,当集成到一个相对标准的语义分割模型。我们的结果表明,即使是简单的程序也可以忽略数据中的无意义的变异性,而更复杂的方法则难以消除这些变异性。11. 介绍无监督域自适应(UDA)是指调整使用来自一个分布(源)的注释样本训练的模型,以在未给出注释的不同(目标)分布上操作例如,源域可以由合成图像及其相应的像素级标签(语义分割)组成简单地在源数据上训练模型不会在目标数据上产生令人满意的性能,因为协变量会发生变化。在某些情况下,低级统计数据中感知上不重要的变化可能导致训练模型的性能显著恶化,除非执行UDA。最先进的UDA方法为给定任务(例如语义分割)训练深度神经网络(DNN)模型,并添加辅助损失,以使模型1代码可在:https://github.com/YanchaoYang/FDA对于源/目标域的二进制选择不变。这需要进行艰苦的对抗训练。我们探索了这样一个假设,即源分布和目标分布之间的低级统计数据的简单对齐可以提高UDA中的性能,而无需进行语义分割的主要任务之外的任何训练我们的方法如图所示1:简单地计算每个输入图像的(快速)傅立叶变换(FFT),并且在重构图像以用于训练之前,经由逆FFT(iFFT),使用源域中的原始注释,将目标图像的低电平频率替换到源图像中。为了测试我们的假设,我们使用在源上训练的模型在目标数据上的性能作为一个典范(上限),我们使用了一个最先进的对抗训练模型[19]。我们期望这种简单的、“零射击”的低水平统计数据对齐将改善基线,并希望接近典范。然而,该方法实际上在语义分割方面优于paragon。我们并不认为这意味着我们的方法是执行UDA的方法,特别是对于语义分割之外的一般任务。然而,这种简单的方法优于复杂的对抗性学习的事实表明,这些模型在管理低水平的伤害变异性方面并不有效。傅立叶域自适应需要选择一个自由参数,即要交换的光谱邻域的大小(图中的绿色方块)。1)。我们测试各种大小,以及一个简单的多尺度方法组成的平均结果从不同的域大小。我们的方法的动机源于观察到低电平频谱(幅度)可以显著变化而不影响高电平频谱的感知。某个物体是车辆还是人不应取决于传感器的特性、或照明器的特性、或其他低水平的可变性来源。然而,这样的可变性对频谱具有重大影响,迫使基于学习的模型与其他讨厌的可变性一起“学习它”。如果这种变异性没有在训练集中表示,模型就不能泛化。然而,在这方面,4086图1. 光谱转移:在不改变语义内容的情况下将源图像映射到目标“样式”。随机采样的目标图像通过将源图像的频谱的低频分量与其自身的频谱的低频分量交换来提供样式结果3 .第三章。有一些可变性的来源,我们在一开始就知道,这些来源不能提供手头任务的信息。图像的分类解释是不变的,如果我们操纵全球光度统计。颜色图的任何单调重新缩放(包括非线性对比度变化)是已知的干扰因素,并且可以在一开始就被消除这一点尤其重要,因为网络似乎不能很好地在不同的低级统计数据之间传输[1]。虽然可以归一化对比度变换,但在没有规范参考的情况下,我们的傅立叶变换是记录它们的最简单方法之一。更广泛的一点是,已知的滋扰可变性可以在一开始就处理,而不需要通过复杂的对抗训练来学习它。在下一节中,我们将更详细地描述我们的方法,然后在标准UDA基准点中对其进行经验测试。在此之前,我们将我们的工作放在当前文献的背景下。1.1. 相关工作语义分割受益于DNN架构的不断发展[26,50,5,53,41]。这些通常在具有密集像素级注释的数据集上进 行 训 练 , 例 如 Cityscapes [9] , PASCAL [11] 和MSCOCO [24]。手动注释不可扩展[52],并且捕获代表性成像条件增加了挑战。这激发了人们对使用合成数据的兴趣,例如来自GTA5 [33]和SYNTHIA [34]的数据。由于域的转移,在前者上训练的模型往往表现得更好。在后者上很差。域自适应旨在减少两个分布之间的偏移[32,10,46]。一种常见的差异度量是MMD(最大均值差异)及其内核变量[15,27],由CMD(中心矩差异)[51]扩展到高阶统计量[3,30]。不幸的是,即使MMD被最小化,也不能保证两个数据集是对齐的,这是由于这些度量的表达能力有限。用于域适应的对抗学习[14,44,39,21]使用经过训练的最大化源和目标表示之间的混淆,从而减少域差异。高级特征空间中的对齐[27,16,36,38,31]可能会对语义分割产生反作用,这与图像级分类不同[20,28,37],因为复杂的表示和稳定对抗训练的困难。我们利用图像到图像的转换和风格转换[54,25,49,8]来改进语义分割的域自适应。Cycada [19]在像素级和特征级对齐表示。DCAN [47]通过多级特征的通道对齐来保留空间结构和语义。为了便于图像空间对齐,[4]提出了域不变结构提取来解开域不变和域特定表示。[6]使用密集深度,在合成数据中很容易获得。[17]在源和目标之间生成中间样式图像。CLAN[29]在全局对齐中执行局部[52]提出了课程式学习,以调整图像的全局分布4087和界标超像素上的局部分布 BDL RGB图像,即,对于单通道图像x,我们有:[23]采用双向学习,其中分段学习图像变换网络利用了图像变换网络,H W−j2π<$m+n<$工作还有应用于输出空间的判别器[6,43],以对齐源和目标分割。本文介绍了一个Transformer网络和鉴别器在F(x)(m,n)=h,wx(h,w)eH W ,j2=−1(一)多个级别在计算上要求很高,并且在对抗框架内训练更具挑战性。相比之下,我们的方法不使用任何图像转换网络来生成训练图像,也不使用判别器来对齐像素/特征级分布。在我们的方法中训练的唯一网络是用于语义分割的主要任务。我们使用一个全卷积网络,输出像素级(log)似然。注意,在当前工作[48]中,以相位保持作为约束训练的Transformer网络也生成保持源图像中的语义内容的领域自适应和半监督学习(SSL)密切相关。当域对齐时,未监督域自适应变为SSL。CBST [55]和BDL[23]使用ADVENT [45]最小化了像素预测的熵和熵图的对抗性损失。逐像素熵的计算不依赖于任何网络,并且不需要开销。我们采用熵最小化来正则化分割网络的训练受[42,22,12]的启发,我们还对用不同谱域大小训练的不同模型的输出进行平均,这促进了多频带传输,如下面详细讨论的。2. 方法我们首先描述简单的傅立叶对齐,它不需要任何训练,然后描述我们用来训练整个语义分割网络以利用傅立叶对齐的损失。2.1. 傅立叶域自适应在无监督域自适应(UDA)中,我们给出源数据集Ds={(xs,ys)<$P(xs,ys)}Ns,其中这可以使用[13]中的FFT算法有效地实现因此,F−1是将频谱信号(相位和振幅)映射回图像空间的傅里叶逆变换此外,我们用Mβ表示掩码,其值为零,除了β∈(0,1)的中心区域:Mβ(h,w)=1(h,w)∈[−βH:βH,−βW:βW](2)这里我们假设图像的中心是(0,0)。注意β不是以像素为单位测量的,因此β的选择不取决于图像大小或分辨率。给定两个随机采样的图像xs<$Ds,xt<$Dt,傅立叶域自适应可以被形式化为:xs→t=F−1 ( [Mβ<$FA ( xt ) + ( 1−Mβ ) <$FA(xs),FP(xs)])(三)其中源图像FA(xs)的振幅的低频部分被目标图像xt的振幅的低频部分替换。然后,xs的修改后的光谱表示,其相位分量不变,被映射回图像xs→t,其内容与xs相同,但将类似于来自Dt的样本的外观。该过程如图所示其中掩模Mβ以绿色示出β的选择:从等式中可以看出。(3),β=0将使xs→t与原始源图像xs相同。当β=1时。0,则xs的振幅将被xt的振幅所取代。图2示出了β的影响。我们发现,当β增加到1时。0时,图像x s→t接近目标图像x t,但也表现出可见的伪影,如从图1中的放大区域可以看出。二、我们设β≤0。十五岁然而,在表1中,我们显示了β的各种选择的效果以及所得模型的平均值,类似于简单的多尺度合并方法。2.2. FDA用于语义分割给定自适应源数据集Ds→t,2,我们可以通过最小化以下交叉熵损失来训练具有参数w的语义分割网络φwxs∈RH×W×3i i i=1S是彩色图像,y∈RH×W是w s→ts w s→t与xs相关的语义映射。类似地,Dt={xt}NtLce(φ ;D)=−φyi,log(φ(xi))φ。(四)i i=1i是目标数据集,其中地面实况语义标签都缺席了。通常,在Ds上训练的分割网络在Dt上测试时会有性能下降。在这里,我们提出了傅立叶域自适应(FDA),以减少两个数据集之间的域间隙。设FA,FP:RH×W×3→RH×W×3是一个非线性系统的傅里叶变换F的振幅和相位分量由于FDA将这两个领域联系在一起,UDA成为一个半监督学习(SSL)问题。SSL的关键是正则化模型。我们使用作为一个标准的处罚的决策边界,在未标记的空间中的跨集群。2Ds→t的基数应为|Ds|× |Dt|,这是很大的,所以我们在线随机生成Ds→t给定的FFT的效率。Σ4088ββm我我图2. 域β的大小的影响,如图所示。1,其中频谱交换:增加β将减小畴隙,但会引入伪影(见放大插图)。我们调整β,直到变换图像中的伪影变得明显,并在一些实验中使用单个值。在其他实验中,我们在多尺度设置中同时保持多个值(表1)。图3.用于鲁棒熵最小化的Charbonnier惩罚,针对参数η的不同值可视化。假设分类分离,这可以通过惩罚穿越数据点密集区域的决策边界来实现,这可以通过最小化用φw来预测,就好像它们是地面真理一样。在没有正则化的情况下,这种实践是自引用的,因此我们关注正则化。As observed in [42], the mean teacher improves semi-supervised learning performance by averaging the modelweights, which provides regularization in the learning pro-cess.在这里,我们建议使用多个模型预测的平均值来正则化自学习。然而,我们没有像[21]中那样使用相同的损失一次训练多个模型,而是在FDA过程中直接训练具有不同β的多个模型φw,而不需要显式地强制模型发散。我们实例化M=3分割网络φ w,m= 1,2,3,这些都是使用(6)从头开始训练的,平均值对于特定目标图像Xt的预测可以通过下式获得:yt=argmax1φw(xt)。(七)目标图像上的预测熵。然而,正如所指出的在[45]中,这在低熵区域中是无效的。 在-ikMMβmi我们使用一个鲁棒的加权函数来实现熵最小化,而不是设置一个任意的阈值来对像素施加惩罚,即Σ注意,网络的输出是softmax activa。因此,平均值仍然是K个类别的概率分布。使用由M个模型生成的伪标签,我们可以训练φw以使用L(φw;Dt)=βρ(− <$φw(xt),log(φw(xt))<$) (5)恩泰我其中ρ(x)=(x2+0. 0012)η是Charbonnier罚函数[2]。当η > 0时,它对高熵预测的惩罚大于低熵预测。5如图所示。3.第三章。将其与适配的源图像上的分割损失相结合,我们可以使用以下总体损失从头开始训练语义分割网络φw:L ( φw;Ds→t , Dt ) =Lce ( φw;Ds→t ) +λentLent(φw;Dt)(六)自我监督训练(或者更准确地说,自我监督训练失败后:Lsst(φw;Ds→t,Dt)= Lce(φw;Ds→t)+λentLent(φw;Dt)+Lce(φw;Dt)(八)其中D t是用伪标签yt' s增广的D t。由于我们的培训需要在FDA的操作不同的β 我们将使用不同分割网络的平均预测的自监督训练称为多带传输,(MBT)。我们的FDA语义分割网络的完整训练过程包括使用Eq从头开始对M个模型进行一轮初始训练。(6),以及使用Eq.(8),我们将在下一节中详细说明。4089βββ3. 实验3.1. 数据集和培训详细信息我们评估所提出的方法在两个复杂的合成到真实的无监督域自适应任务,其中我们在合成域(源)中有丰富的语义分割标签,但在真实域(目标)中为零。两个合成数据集是GTA5 [33]和SYNTHIA [34];真实域数据集是CityScapes [9]。GTA5:由24,966张在视频游戏中拍摄的合成图像组成,原始图像大小为1914×1052。在训练过程中,我们 将 图 像 大 小 调 整 为 1280×720 , 然 后 随 机 裁 剪 为1024×512。原始的GTA5提供了33个类的像素语义注释,但是3.2. FDA单量表我们首先在任务GTA5→CityScapes上使用单尺度测 试 所 提 出 的 FDA 方 法 。 我 们 实 例 化 三 个DeepLabV2分割网络φ w,其中β=0。010 05,0。09,并分别使用Eq.(六)、我们设置λ ent=0。005且η=2。所有实验均为0。 我们在Tab中的CityScapes验证集上报告了语义类的平均交集联合得分1,其中T=0表示从头开始训练正如我们在Tab中的第一部分所看到的1、在FDA操作中用不同β训练的分段网络保持相似的这证明了FDA在使用等式1训练时关于β(六)、我们使用与CityScapes相同的19个类,此外,网络φw简单地使用Eq训练。与其他最先进的方法相比,SYNTHIA:也与其他SOTA方法一致,我们使用SYNTHIA-RAND-CITYSCAPES子集,该子集具有9,400个原始分辨率为1280×760的注释图像。在训练过程中,图像被随机裁剪为1024×512。同样,16个公共类用于训练,但是评估是在遵循标准协议的16个类和13个类的子集上执行的。CityScapes:是在驾驶场景中收集的真实世界语义分割数据集。我们使用训练集中的2,975张图像作为训练的目标域数据。我们测试了500个带有密集手动注释的验证图像。CityScapes中的图像被简单地调整为1024×512 , 没 有 随 机 裁 剪 。 两 个 域 适 配 场 景 是GTA5→CityScapes和SYNTHIA→CityScapes。请注意,在所有实验中,我们通过等式进行FDA(3) 在我们进行均值减法之前,对范围[0,255]内的训练图像进行处理,因为我们采用的FFT算法对于非负值在数值上是稳定的。分割网络φw:我们使用两种不同的架构进行实验,以显示FDA的鲁棒性,DeepLabV 2 [5]具有ResNet 101[18]主干,FCN-8 s [26]具有VGG 16 [40]主干。我们对两个网络使用与[23]相同的初始化。同样,分割网络φw是我们方法中唯一的网络。训练:我们的训练是在GTX 1080 Ti GPU上进行的;由于内存限制,在我们所有的实验中,批量大小都设置为1为了使用SGD使用ResNet 101训练DeepLabV 2,初始学习率为2.5e-4,并根据“poly”学习率调度器进行调整,对于具有VGG 16的 FCN-8我们也像[23]中那样应用早期停止。亚当的动量是0.9和0.99。β=0。09(4) (β=0. 09,λent=0),即,没有熵损失,[19]第1944章:恶魔与基于两阶段图像转换的对抗域自适应相比,FDA展示了更好的可变性管理,在对抗域自适应中,图像Transformer从一个域训练到另一个域,并且训练器以区分两个域。3.3. 多波段传输(MBT)我们可以使用为目标域生成的伪标签应用自训练(SST),以进一步提高单个网络的性能。然而,正如预期的那样,收益是相当微不足道的,从选项卡中的第二部分可以看出。1,条目(β=0.09,SST)。SST 后 的 相 对 改 善 仅 为 0.9% , 与 第 一 节 中 的(β=0.09,T=0)相比然而,当我们在第一节中分析使用不同β这意味着对不同φw的预测取平均值 通过简单地对第一轮(MBT,T=0)的预测进行平均,我们得到了比第一轮(β = 0)的最佳表现者更显著的3.9%的相对改善。09,T=0)。这在表3和表4的第三和第四部分中的后续自我监督培训轮次中也得到了一致的观察。1.一、3.4. 使用MBT进行自我监督训练我们可以将从MBT(T=0)生成的伪标签视为地面真值标签,以使用(八)、然而,这是自我参照的,不能期望起作用。为了正则化,我们还对每个预测的置信度值应用阈值。更具体地说,对于每个语义类,我们接受预测的置信度在前66%或以上0.9. 在Tab中的第三和第四部分1、我们列出4090ββββββ =0。09β =0。09实验Miouβ=0.01(T=0) 88.8 35.4 80.5 24.0 24.9 31.3 34.9 32.0 82.635.674.459.431.081.747.11.221.144.61β=0.05(T=0) 90.745.080.4 24.6 22.631.8 30.339.4 81.433.8 72.6 57.6 29.1 83.236.96.620.634.944.6β=0.09(T=0) 90.842.780.828.126.631.8 32.8 29.1 81.631.276.2 56.9 27.7 82.8 25.344.1 15.3 21.145.01苏铁[19]86.7 35.680.1 19.8 17.5 38.0 39.9 41.5 82.7 27.9 73.6 64.9 19 65.0 12.0 28.64.531.142.0四十二点七分β=0.09(λent=0)90.0 40.579.4 25.3 26.7 30.6 31.9 29.3 79.428.8 76.5 56.4 27.5 81.7 27.745.1 17.0 23.844.64β=0.09(SST) 91.6 52.481.2 26.8 22.7 31.6 33.3 81.129.2 73.8 57.2 27.1 82.5 23.844.4 15.4 21.9 34.7 45.42MBT(T=0)91.3 44.282.2 32.1 32.8 35.7 30.4 83.235.7 76.3 59.8 31.746.16.923.246.77β=0.01(T=1) 92.3 51.482.3 30.5 24.5 31.2 36.9 82.439.7 76.6 57.6 28.5 82.3 27.947.05.521.747.03β=0.05(T=1) 92.2 50.981.5 27.2 27.3 32.5 35.8 35.7 81.337.1 76.3 58.6 30.0 83.045.16.723.840.046.8β=0.09(T=1) 91.0 46.980.3 25.3 21.1 30.1 35.5 80.838.9 79.1 58.5 31.2 82.4 29.446.09.124.246.71MBT(T=1)92.5 52.082.4 30.3 25.6 32.4 38.3 82.541.0 78.6 59.4 30.6 83.7 28.448.36.424.048.14β=0.01(T=2) 92.1 51.582.3 26.3 26.8 32.6 36.9 81.740.7 78.2 57.8 29.1 82.8 36.149.0 13.9 24.548.77β=0.05(T=2) 91.6 49.781.1 25.2 22.7 31.5 35.0 80.838.2 77.5 58.9 31.3 83.050.5 20.8 26.447.86β=0.09(T=2) 91.6 50.681.0 24.4 26.0 32.2 35.3 36.5 81.333.1 74.5 57.8 31.2 82.949.77.026.147.03MBT(T=2)92.5 53.3 82.3 26.5 27.6 36.4 40.5 38.8 82.2 39.8 78.0 62.6 34.4 84.9 34.1 53.12 16.8 27.7 46.4 50.45表1. GTA5→CityScapes任务的消融研究。 第一部分(T=0)示出了分割网络φw在使用等式(1)从头开始训练时的性能。(六)、请注意,随着β的变化,每个φw的性能保持相似,而性能最好的条目(下划线)在三个单独的网络中均匀分布当对不同φw的预测进行平均(MBT(T=0))时,mIOU在所有组成部分上都有所即使在使用等式(1)的第一轮(T=1)和第二轮(T=2)自监督训练之后也是如此。(八)、还要注意的是,简单地执行自监督训练而不求平均值(MBT),(β=0.09(T=0))的改进是微不足道的(β=0.09(SST))。在第一轮SST(T=1)和第二轮SST(T=2)之后每个φw然而,如果我们检查每一个通过SST(T= 0,1,2),我们看到,从头开始的训练回合(T=0)是φw,其中在第一轮SST(T=1)中成为表现最差的,最后,在第二轮SST(T=2)之后,Wβ =0。01成为比φw评分更高的最佳执行者. 我们推测较小的β将产生较少的变化(伪影),因此,与具有较大β的源数据集相比,经适配的源数据集D s→t具有较少的机会覆盖目标数据集。然而,当伪标签用于进一步对齐两个域时,D s→t将施加较小的偏差,因为其中心更接近目标数据集并且方差更小。我们在图中对此进行了说明4.第一章 此外,该观察为我们提供了对集合β的参考,即如果我们只执行单尺度FDA,我们可能希望使用相对较大的β,然而,对于MBT,我们可以逐渐提高φw的预测权重,图4. 如果从头开始训练,较大的β可以更好地推广,但当与自我监督训练相结合时会导致更多的偏差。对熵图的结构化输出进行简单训练。通过使用多波段传输应用SST,我们的方法实现了最佳性能(FDA-MBT)。请注意,BDL [23]也在对抗中执行SST更小的β3.5. 基准β设置,我们的方法实现了4.0%的改善,BDL。我们的方法的优点也证明了在VGG骨干表的第二部分。二、GTA5→CityScapes:我们在表1中报告了我们方法二、同样,我们可以观察到,使用ResNet 101的单尺度FDA(FDA)通过实例化图像Transformer和训练器[19,43,17,29],优于在激活熵最小化的情况下,单尺度FDA(FDA-ENT)实现了与[4,45]相似的性能,其结合了空间先验或更复杂的对手。SYNTHIA→CityScapes:根据[23]中的评估协议,我们报告了使用VGG16主干的16个类和使用ResNet101主干的13个类的方法定量比较见表1。3 .第三章。再次注意,我们的方法使用不同的骨干实现了最佳性能,并且分别比第二执行者BDL [23]高出2.1%和3.9%φ4091骨干方法MiouAdaStruct[43] 86.5 25.9 79.8 22.1 20.0 23.6 33.1 21.881.825.9 75.9 57.3 26.2 76.3 29.829.5 32.5 41.4DCAN[47]85.0 30.8 81.3 25.8 21.2 22.2 25.483.436.7 76.2 58.9 24.9 80.7 29.5 42.926.9 11.6 41.7DLOW[17] 87.1 33.5 80.5 24.5 13.2 29.8 29.582.6 26.7 81.8 55.9 25.3 78.0 33.5 38.7 0.022.9 34.5 42.3苏铁[19]86.7 35.6 80.1 19.8 17.5 38.0 39.9 41.582.7 27.9 73.6 64.9 19 65.0 12.0 28.6 4.531.1 42.0 42.7[29]第二十九话:一个人87.0 27.1 79.6 27.3 23.3 28.3 35.5 24.283.627.4 74.2 58.6 28.0 76.2 33.1 36.731.9 31.4 43.265.1ABStruct[4] 91.5 47.5 82.5 31.3 25.6 33.0 33.782.728.8 82.7 62.4 30.8 85.2 34.5 6.425.2 24.4 45.4高级工程师[45]89.4 33.1 81.0 26.6 26.8 27.2 33.583.9 36.7 78.8 58.7 30.5 84.8 38.5 44.5 1.731.6 32.4 45.5BDL [23]91.0 44.7 84.2 34.6 27.6 30.2 36.0 36.085.043.6 83.0 58.6 31.6 83.3 35.3 49.728.8 35.6 48.5FDA90.0 40.5 79.4 25.3 26.7 30.6 31.979.4 28.8 76.5 56.4 27.5 81.7 27.7 45.1 17.0 23.8 29.6 44.6FDA-耳鼻喉科90.8 42.7 80.8 28.1 26.6 31.8 32.8 29.181.631.2 76.2 56.9 27.7 82.8 25.321.1 30.2 45.0FDA-MBT92.5 53.3 82.4 26.5 27.6 36.4 40.6 38.982.339.8 78.0 62.6 34.4 84.9 34.127.7 46.4 50.45CBST[55]66.7 26.8 73.7 14.8 9.5 28.3 25.975.515.7 51.6 47.2 6.2 71.9 3.7 2.25.418.9 32.4 30.9SIBAN[28] 83.4 13.0 77.8 17.5 24.6 22.8 9.681.329.6 77.3 42.7 10.9 76.0 17.9 5.714.22.034.2苏铁[19]85.2 37.2 76.5 21.8 15.0 23.8 22.9 21.580.531.3 60.7 50.5 9.0 76.9 17.1 28.2 4.59.8035.4[45]第四十五话:一个人 86.9 28.7 78.7 28.5 25.2 17.1 20.3 10.980.026.4 70.2 47.1 8.4 81.5 26.0 17.2 18.911.71.636.160.3DCAN[47]82.3 26.7 77.4 23.7 20.5 20.4 30.3 15.980.9 25.4 69.5 52.6 11.1 79.6 24.9 21.2 1.30 17.0 6.70 36.2[29]第二十九话88.0 30.6 79.2 23.4 20.5 26.1 23.081.634.5 72.0 45.8 80.5 26.6 29.9 0.010.70.036.6LSD[37]88.0 30.5 78.6 25.2 23.5 16.7 23.5 11.678.7 27.2 71.9 51.3 19.5 80.4 19.8 18.3 0.920.8 18.4 37.1BDL [23]89.2 40.9 81.2 29.1 19.2 14.2 29.0 19.683.735.9 80.7 54.7 23.3 82.7 25.825.7 19.9 41.3FDA-MBT86.1 35.1 80.6 30.8 20.4 27.5 30.082.1 30.3 73.6 52.5 21.7 81.7 24.0 30.5 29.9 14.6 24.0 42.2表2. GTA5→CityScapes的定量比较。每个主干下的分数代表上限(在源域上进行训练和测试)。FDA:我们的方法具有单一尺度; FDA-ENT:同样是单一尺度,但具有熵正则化; FDA-MBT:具有多个尺度和自我监督训练的FDA请注意,我们的方法在不同的主干上始终实现更好的性能主干方法mIoU塞尔维亚[28] 82.5 24.0 79.4- -16.5 12.7 79.282.8 58.3 18.0 79.317.6 25.9 46.3[29]第二十九话 81.3 37.0 80.1- -16.1 13.7 78.281.5 53.4 21.2 73.022.6 30.7 47.8ResNet101[18] ABStruct[4] 91.7 53.5 77.1- -6.27.678.481.2 55.8 19.2 82.317.1 34.3 48.871.7 AdvEnt[45] 85.6 42.2 79.7-- -5.4 8.180.484.1 57.9 23.8 73.314.2 33.0 48.0BDL [23] 86.0 46.7 80.3-- -14.1 11.679.281.3 73.7 42.225.7 45.3 51.4FDA-MBT 79.3 35.0 73.2-- -19.9 24.061.782.6 61.4 31.1 83.938.4 51.1 52.5[45]第45话 71.9 6.3 0.3 19.9 0.6 2.674.974.9 35.4 9.6 67.84.115.5 31.4DCAN[47] 70.8 1.6 0.6 22.3 6.7 23.076.973.9 41.9 16.7 11.510.3 38.6 35.4[37]第37话:我的世界80.1 29.1 77.5 2.8 0.4 26.8 11.1 18.078.176.7 48.2 15.2 70.58.716.7 36.159.5ROAD[7] 77.7 30.0 77.5 9.6 0.3 25.8 10.3 15.677.6 79.8 44.5 16.6 67.8 14.57.023.8 36.2GIO-Ada[6] 78.3 29.2 76.9 11.4 0.3 26.5 10.8 17.281.7 81.9 45.8 15.4 68.0 15.97.530.4 37.3BDL [23] 72.0 30.3 74.50.10.3 24.6 10.2 25.280.580.0 72.7 24.07.544.9 39.0FDA-MBT 84.2 35.1 78.06.10.44 27.0 8.5 22.177.2 79.6 55.5 19.9 74.8 24.9 14.3 40.7 40.5表3. SYNTHIA → CityScapes的定量比较。每个骨架下的分数表示上限。对于VGG,我们对16个子类进行了评估,对于ResNet101,根据文献中的评估协议对16个类中的13个进行了评估。未计算的类被替换为我们的方法在不同的主干上始终实现比其他方法更好的性能3.6. 定性结果我们直观地比较了第二个执行者BDL [23],他使用与我们相同的分段网络主干正如我们可以看到从图。5,我们模型的预测看起来噪音小得多,就像第一排的道路一样。不仅更光滑,而且我们的方法还可以保持精细4092像第五排的柱子。此外,我们的方法在稀有类上表现良好,例如,第二排的卡车,以及第三和第四排的自行车。我们认可这两个单尺度FDA的泛化能力,并通过我们的多波段传输正则化SST4093图5. 目视比较。从左到右:来自CityScapes的输入图像,地面真实语义分割,BDL [23],FDA-MBT。请注意,FDA-MBT的预测通常更平滑,例如第一行和第四行的路,第三行的墙。此外,FDA-MBT在精细结构上实现了更好的性能,例如,第五排的柱子。4. 讨论我们已经提出了一种简单的方法,域对齐,不需要任何学习,可以很容易地集成到一个学习系统,将非监督域自适应到半监督学习。一些注意力需要专门用于适当的正则化的损失函数,为此,我们提出了一个熵regularizer与各向异性(Charbonnier)加权。自监督训练中的自参考问题通过多带传输方案来解决,该方案不需要具有复杂模型选择的学生网络的结果表明,我们的方法不仅改进了基线,这是预期的,但实际上超过了目前的最新技术,这是相当多的参与,尽管它的简单性。这表明,由于低水平统计而导致的一些分布失调(已知会对不同领域的泛化造成严重破坏)可以很容易地用快速傅立叶变换捕获此外,实信号的频谱的逆傅里叶变换被保证是实的,因为人们可以容易地表明,虚部被取消给定的斜对称的被积函数;因此,使用我们的方法进行了主适配的图像仍然驻留在真实图像空间中。对影响图像域的干扰变化的鲁棒性仍然是机器学习中的一个难题,我们并不认为我们的方法是最终的解决方案。然而,我们表明,在某些情况下,可能没有必要学习我们已经知道的东西,例如图像的低级统计数据可以变化很大,而不会影响底层场景的语义。这样的预处理可以替代复杂的体系结构或费力的数据扩充。在未来,我们希望看到我们的方法在其他主要适应任务上的应用。确认研究由ARO W 911 NF-17-1-0304和ONR N 00014 -19-1-2066支持。4094引用[1] Alessandro Ruple,Matteo Rovere,and Stefano Soatto.深度网络中的关键学习期。在2019年国际学习代表会议上。2[2] Andres Bruhn和Joachim Weickert。 朝向最终的运动估计:将最高精度与实时性能相结合。在第十届IEEE计算机视觉国际会议(ICCVIEEE,2005年。4[3] Fabio Maria Cariucci,Lorenzo Porzi,Barbara Caputo,Elisa Ricci和SamuelRotaBul o`。自动拨号:自动域对齐图层。2017年IEEE国际计算机视觉会议(ICCV),第5077-5085页IEEE,2017年。2[4] 张伟伦、王惠波、彭文孝、邱伟臣。关于结构:跨域调整结构信息以促进语义分割。在IEEE计算机视觉和模式识别会议论文集,第1900-1909页二六七[5] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834-848,2017。二、五[6] 陈玉华、李文、陈晓然和吕克·凡古。从合成数据中学习语义分割:一种几何引导的输入输出自适应方法。在IEEE计算机视觉和模式识别会议上,第1841-1850页,2019年。二、三、七[7] Yuhua Chen,Wen Li,and Luc Van Gool.道路:面向现实的适应城市场景的语义分割。在IEEE计算机视觉和模式识别会议论文集,第7892-7901页7[8] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim,and Jaegul Choo. Stargan:用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议论文集,第8789-8797页2[9] Marius Cordts , Mohamed Omran , Sebas
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功