没有合适的资源?快使用搜索试试~ 我知道了~
1基于自监督的Fei Pan Inkyu Shin Francois Rameau Seokju Lee In So Kweon KAIST,韩国{feipan,dlsrbgg33,frameau,seokju91,iskweon77}@ kaist.ac.kr摘要基于卷积神经网络的方法在语义分割方面取得了显著的进展。然而,这些方法严重依赖于劳动密集型的注释数据。为了应对这一限制,从图形引擎生成的自动注释数据被用来训练分割模型。然而,从合成数据训练的模型很难转移到真实图像。为了解决这个问题,以前的工作已经考虑了直接调整模型从源数据到未标记的目标数据(以减少域间差距)。然而,这些技术没有考虑目标数据本身之间的大的分布间隙(域内间隙)。在这项工作中,我们提出了一个两步自监督域适应方法,以最大限度地减少域间和域内的差距。首先,我们进行了模型的域间自适应,从这个自适应,我们分为一个容易和困难的分裂使用基于熵的排名功能的目标域。最后,为了减少域内差距,我们提出了一种自监督适应技术,从容易的子域到困难的子域。在大量基准数据集上的实验结果表明,该方法对现有的最先进的方法是有效的。源代码可以在https://github.com/feipan664/IntraDA.git上找到。1. 介绍语义分割的目的是将图像中的每个像素分配到语义类。最近,基于卷积神经网络的分割模型[13,33]取得了显着的进展,导致计算机视觉系统中的各种应用,例如自动驾驶[14,31],机器人[15,23]和疾病诊断[35,32]。训练这样的分割网络需要大量的注释数据。然而,收集具有像素级注释的大规模数据集用于语义分割,图1:我们提出了一种用于语义分割的两步自监督域自适应技术。以前的作品只适应从源域到目标域的分割模型我们的工作还考虑了自适应从干净的地图到噪声地图的目标域。由于它们昂贵且劳动强度大,因此心理治疗是困难的最近,从模拟器和游戏引擎[19,20]渲染的具有精确像素级语义注释的照片级真实感数据已被用于训练分割网络。然而,由于跨域差异,从合成数据训练的模型很难转移到真实数据[11]。为了解决这个问题,已经提出了非监督域自适应(UDA)技术来对齐标记源数据和未标记目标数据之间的分布偏移。对于语义分割的特殊任务,基于对抗学习的UDA方法在图像[16,11]或输出[26,25]级别对齐特征方面表现出效率。37643765最近,[28]提出的逐像素输出预测的熵也用于输出水平对齐。其他方法[38,37]涉及为目标数据生成伪标签,并通过迭代自训练过程进行细化。虽然许多模型考虑了单源单目标适应设置,但最近的工作[18,34]提出了解决多源域的问题;它侧重于多源单目标适应设置。最重要的是,以前的工作主要考虑从源数据到目标数据(域间差距)的适应模型。然而,从现实世界收集的目标数据具有多样的场景分布;这些分布是由各种因素引起的,例如移动物体、天气条件,这导致目标中的大间隙(域内间隙)。例如,图1所示的目标域中的噪声图和干净图是由相同模型对不同图像进行的预测。虽然以前的研究只集中在减少域间的差距,域内的差距的问题已经吸引了相对较低的关注。在本文中,我们提出了一个两步域自适应方法,以尽量减少域间和域内的差距。我们的模型由三个部分组成,如图2所示,即1)域间自适应模块,用于缩小标记的源数据和未标记的目标数据之间的域间差距,2)基于熵的排名系统,用于将目标数据分成容易和困难的分裂,以及3)域内自适应模块,用于闭合易分割和硬分割之间的域内间隙(使用来自易子域的伪标签)。对于语义分割,我们提出的方法在基准数据集上与最先进的方法相比具有良好的性能。此外,我们的方法优于以前的域适应方法的数字分类。我们工作的贡献。首先,我们引入目标数据之间的域间差距,并提出了一个基于熵的排名函数,将目标域分为容易和困难的子域。其次,我们提出了一个两步自监督域自适应方法,以最大限度地减少域间和域内的差距。2. 相关作品无监督域自适应。非监督域自适应的目标是对齐标记源数据和未标记目标数据之间的分布偏移。最近,基于对抗的UDA方法在学习领域不变特征方面表现出了很强的能力,即使是对于语义分割等复杂任务也是如此[28,4,26,25,21,11,17]。用于语义分割的基于对抗的UDA模型通常涉及两个网络。一个网络被用作生成器来预测输入图像的分割图,可以来自源或目标。给定来自生成器的特征,第二个网络充当预测器来预测域标签。生成器试图欺骗伪随机数,以便对齐来自两个域的特征的分布偏移。除了特征级对齐之外,其他方法尝试在 图 像 级 或 输 出 级 对 齐 域 偏 移 。 在 图 像 级 别 ,CycleGAN [36]在[11]中应用于构建用于域对齐的生成图像。在输出层面,[25]提出了一个端到端模型,涉及分配转移的结构性输出对齐。最近,[28]利用分割输出的逐像素预测的熵虽然所有以前的研究都只考虑对齐域间间隙,但我们的方法进一步最小化了域内间隙。因此,我们的技术可以与大多数现有的UDA方法相结合,以获得额外的性能增益。熵的不确定性不确定性测量与无监督域适应有很强的联系。例如,[28]提出直接最小化模型输出的目标熵值或使用对抗学习[25,11]来缩小语义分割的域差距。此外,模型输出的熵[29]被用作跨域传输样本的置信度度量[24]。我们建议利用熵来排序目标图像,将它们分为两个容易和困难的分裂。课程领域适应。我们的工作也与课程领域适应有关[22,31,7],首先处理简单的样本。对于有雾场景理解的课程领域适应,[22]提出将语义分割模型从无雾图像适应到合成的轻雾图像,然后适应到真实的重雾图像。为了推广这个概念,[7]通过引入未标记的中间域将域差异分解为多个较小的差异然而,这些技术需要额外的信息来分解域。为了应对这一限制,[31]专注于学习图像的全局和局部标签分布,作为在目标域中正则化模型预测的第一个任务。相比之下,我们提出了一个更简单的和数据驱动的方法来学习容易的目标样本的基础上的熵排名系统。3. 方法令S表示由一组图像<$RH×W×3及其相关的地面实况C类分割图<$R(1,C)H×W组成的源域;类似地,令T表示包含一组未标记图像的目标域高×宽×3。在本节中,一个两步自我监督做-3766除其他帧内帧内Ss图2:提出的自监督域自适应模型包含域间生成器和自适应器{G_inter,D_inter},以及域内生成器和插值{G_intra,D_intra}。该模型由三个部分组成,即(a)域间自适应,(b)基于熵的排名系统,(c)域内自适应。在(a)中,给定源和未标记的目标数据,训练D_inter以预测样本的域标记,而G_inter被训练来骗过德·因特{G inter,D inter}通过最小化分割损失L seg和对抗性最小化来优化。中间的. 在(b)中,使用基于熵的函数R(It)将所有目标数据分离成易分裂和硬分裂。一个引入超参数λ作为分配到易分裂中的目标图像的比率在(c)中,域内适配是用于缩小易裂和难裂之间的差距来自Ginter的易分裂数据的分割预测充当伪标签。给定具有伪标签的易分割数据和硬分割数据,Dintra用于预测样本是来自易分割还是硬分割,而Gintra用于混淆Dintra。{G帧内和D帧内}使用域内分割损失Lseg和对抗性损失Ladv。主要适应语义分割。第一步是域间自适应,Σ每个C维向量Σ(h,w,c)SC在像素(h,w)关于共同的UDA方法[28,25]。然后,生成目标数据的伪标签和预测熵图,使得目标数据可以被聚类到一个在C类上是离散分布。给定Xs利用其地面实况注释Ys,通过最小化交叉熵损失以监督方式优化GinterΣΣ简单和困难的分裂。 具体来说,一个基于熵的排名-聚类系统用于将目标数据聚类为易分裂和难分裂。 第二步是域内适配器-国际赛格 (Xs,Ys)=−Y(h,w,c)log(P(h,w,c))。 (一)h,w C这是一个简单的操作,它包括将带有伪标签的简单分割与硬分割对齐,如图2所示。 该网络由域间生成器和判别器{G inter,D inter}以及域内生成器和{Gintra,Dintra}.3.1. 域间自适应一个样本Xs∈RH×W×3是来自源区域及其相应的映射Y.每个条目Y(h,w)=为了缩小源和目标之间的域间差距get domains,[28]提出利用熵映射来对齐特征的分布偏移 [28]的结论是,经过训练的模型往往会对源图像产生过度自信(低熵)的预测,而对目标图像产生不自信(高熵)的预测。由于它的简单性和有效性,[28]在我们的工作中被采用来进行域间适应。生成器G_inter 将目 标图 像X_t 作为 输入 并产 生分 割图P_t=G_inter(X_t);美国(h,w,c)S关于YsC提供像素(h,w)的标记作为一个-熵映射It被公式化为:Σ热载体。 网络Ginter将Xs作为输入,生成损耗LPYL3767t ttI(h,w)=−P(h,w,c)·log(P(h,w,c))。(二)C3768不帧内te日|X|不为了对齐域间间隙,训练D_inter以预测熵图的域标签,而训练G_inter以欺骗D_inter;通过以下损失函数实现G_inter和D_inter3.3.域内自适应由于没有注释可用于容易分割,因此直接对齐容易分割和困难分割之间的间隙是不可行的。但我们建议利用来自LadvΣ(X,X)=−log(1−D(I(h,w)Ginter作为伪标签。给一张图片从容易分裂兴趣测试h,w除其他S(三)X te,我们将X te转发到G inter,并获得预测图P te=G inter(X te)。 而P te是一种“软分割+log(Dinter(I(h,w),其中Is是Xs的熵图。损失函数Ladvmapvector.在伪标记的辅助下,对G帧内进行了优化通过最小化交叉熵损失:seg除其他和L_inter被优化以将分布移位对准为在源数据和目标数据之间切换。然而,仍然需要一种有效的方法,该方法可以最小化帧内干扰。畴隙为此,我们建议把L分段 (Xte)=(h,w,c)-Ptelog.G内(XteΣ)(h,w,c).(五)将目标域分成容易和困难分割,并进行域内适配。3.2.基于熵的排序从现实世界中采集的目标图像由于各种天气条件、运动物体和阴影而具有不同的分布在图2中,一些目标预测图是干净的1,而另一些则非常嘈杂,尽管它们是从相同的模型生成的。由于目标图像之间存在域内间隙,因此直接的解决方案是将目标域分解为小的子域/分裂。h,w C为了弥合易分裂和难分裂之间的域内差距,我们对两个分裂都采用熵图上的对齐将来自硬分割的图像Xth作为生成器G的输入,以生成分割图Pth=G(Xth)和熵图Ith。 为了关闭域间间隙,训练域内CXD帧内以预测I te和I th的分裂标签:I te来自容易分裂,并且I th来自硬分裂。G被训练来欺骗D内部。 优化G帧内和D帧内的对抗性学习损失被公式化为:然而,由于缺乏目标标签,这仍然是一项具有挑战性的任务。为了构建这些分裂,我们利用熵图来确定内部副词(Xte,XthΣ)=− log(1 −Dh,w帧内 (I(h,w)(六)目标预测。 发电机G除其他瞄准目标+log(D intra(I(h,w)。图像Xt作为输入以生成Pt和熵图It。在此基础上,我们采用了一种简单而有效的排名方法,即:最后,我们的完整损失函数L由所有损失函数组成:1R(Xt)=HWΣΣI(h,w,c),(4)国际赛格中间的内分段内部副词 、(7)h,w C我们的目标是根据下式学习目标模型G:这是熵图It的平均值。给定R(Xt)的得分排序,引入超参数λ作为比率,将目标图像分为容易和困难的图像。G*= argminG内minmaxL.GinterD interGintraD intra(八)分裂令Xte和Xth分别表示分配给容易分割和困难分割的目标图像。为了进行区域分离,我们定义λ = |Xte|得双曲余切值.|X te|是容易分裂的基数,|X t|是整个目标图像集的基数。 为了评估的影响,我们对如何优化表3中的λ进行了消融研究。注意我们不引入超参数作为分离的阈值。原因是阈值取决于特定的数据集。然而,我们选择了一个超参数作为比率,这对其他数据集表现出很强的1预测图干净意味着预测是自信和平滑的。L不L= L+L+L+L3769由于我们提出的模型是两步自监督方法,因此很难在一个训练阶段最小化L因此,我们选择在三个阶段将其最小化。首先,我们训练模型的域间自适应,以优化Ginter和Dinter。第二,我们生成目标伪la-利用G_inter对所有目标图像进行分类,并基于S(X_t)对所有目标图像进行排序。最后,我们训练域内自适应以优化G帧内和D帧内。4. 实验在本节中,我们介绍了语义分割的域间和域内自适应3770表1:Cityscapes验证集的语义分割结果,模型在GTA 5(a),SYNTHIA(b)和Synscapes(c)上训练。所有结果都是基于ResNet-101的模型生成的。在(a)和(b)的实验中,AdvEnt[28]被用作域间自适应和域内自适应的框架。在(c)的实验中,AdaptSegNet [25]被用作域间自适应和域内自适应的框架。(b)中的mIoU表示13个类的平均IoU,不包括具有mIoU的类。(a) GTA5 →城市景观方法道路人行道建筑墙栅栏杆灯标志蔬菜地形天空人乘用车载重汽车巴士火车mbikeMiou不适应[25]75.816.877.212.521.025.530.120.181.324.670.353.826.449.917.225.96.525.336.036.6道路[5]76.336.169.628.622.428.629.314.882.335.372.954.417.878.927.730.34.024.912.639.4[25]第二十五话86.536.079.923.423.323.935.214.883.433.375.658.527.673.732.535.43.930.128.142.4[28]第二十八话84.225.277.017.023.324.233.326.480.732.178.757.530.077.037.944.31.831.436.943.1[第28话]89.936.581.629.225.228.532.322.483.934.077.157.427.983.729.439.11.528.423.343.8我们90.637.182.630.119.129.532.420.685.740.579.758.731.186.331.548.30.030.235.846.3(b) SYNTHIA→城市景观方法道路人行道建筑墙栏杆灯标志蔬菜天空人乘用车总线mbike自行车MioumIoU*不适应[25]55.623.874.69.20.224.46.112.174.879.055.319.139.623.313.725.033.538.6[25]第二十五话81.739.178.411.10.325.86.89.079.180.854.821.066.834.713.829.939.645.8[28]第二十八话73.529.277.17.70.227.07.111.476.782.157.221.369.429.212.927.938.144.2[第28话]87.044.179.79.60.624.34.87.280.183.656.423.772.732.612.833.740.847.6我们84.337.779.55.30.424.99.28.480.084.157.223.078.038.120.336.541.748.9(c) Synscapes →城市景观方法道路人行道建筑墙栅栏杆灯标志蔬菜地形天空人乘用车卡车公共汽车火车自行车Miou不进行适应81.840.676.123.316.836.936.840.183.034.884.959.937.778.420.420.57.827.352.545.3[25]第二十五话94.260.985.129.125.238.643.940.885.229.788.264.440.685.831.543.028.330.556.752.7我们94.060.084.929.526.238.541.643.785.331.788.266.344.785.730.753.029.536.560.254.24.1. 数据集在语义切分实验中,我们采用了从合成域到真实域的自适应设置。为了进行这一系列测试,将包括GTA5 [19]、SYNTHIA [20]和Synscapes [30]在内的合成数据集用作源域,将真实世界数据集Cityscapes [6]用作目标域。在给定标记的源数据和未标记的目标数据的情况下训练模型。我们的模型在Cityscapes验证集上进行了评估。• GTA5:合成数据集GTA5 [19]包含24,966张分辨率为1914×1052px的合成图像和相应的地面实况注释。这些合成图像是从基于洛杉矶城市风景的视频游戏中收集的。自动生成的地面实况注释对于训练,我们只考虑与Cityscapes数据集兼容的19个类别[6],与以前的工作类似。• SYNTHIA :SYNTHIA-RAND-CITYSCAPES [20]用作另一个合成数据集。它包含9,400个完全注释的RGB图像。培训期间时间,我们考虑16个常见类别,城市景观数据集。在评估过程中,使用16类和13类子集来评估性能。• Synscapes:Synscapes [30]是一个真实感合成数据集,由25,000个完全注释的RGB图像组成,分辨率为1440×720px。与城市景观一样,地面实况注释包含19只猫-egories。• Cityscapes : 作 为 从 真 实 世 界 收 集 的 数 据 集 ,Cityscapes [6]提供了3975张具有精细分割注释的图像。2975张图片来自用于培训的城市景观培训集。来自Cityscapes评估集的500张图像用于评估我们模型的性能。评价 使用PASCAL VOC交集-并集度量对每个类别的语义分割性能进行评估,即, IoU= TP/( TP+FP+ FN) [9],其中TP、FP和FN是真阳性、假阳性和假阳性的数量负像素。执行续费在GTA5→Cityscapes和SYNTHIA→Cityscapes的实验中,我们利用3771帧内帧内表2:GTA5 →Cityscapes的自我训练和域内适应模型mIoU[25]第二十五话AdvEnt +域内自适应45.1v2[3]使用ResNet-101主干。总的来说,我们提出的方法达到46。平均IoU为3%。与Ad-vEnt相比,我们的方法的域内自适应导致2。平均IoU提高5%为了突出所提出的域内自适应的相关性,我们与分割AdvEnt自我训练(λ= 1. 0)45.5seg帧内 和对抗适应损失Ladv在Ta-我们的46.3Ours +entropy normalization47.0表2.基线AdvEnt [28]达到43。8%的MIOU。通过使用AdvEnt +域内自适应,seg帧内 =0,则得到45。1%,显示了表3:针对sepa的超参数λ的消融研究将目标域分为容易和困难的分裂。用于域内对齐的对抗学习。由ap-使用AdvEnt+自我训练,λ =1。0(所有伪用于自我训练的标签),这意味着Ladv=0,GTA5 →城市景观λ0.00.50.60.670.71.0Miou43.845.246.046.345.645.5AdvEnt [ 28 ]的框架,用于训练用于域间适配的Ginter和D inter; G inter的主干是ResNet-101架构[10],具有来自ImageNet [8]的预训练参数;输入数据是标记的源图像和未标记的目标图像。用于域间自适应G_inter的模型被训练70,000次迭代。训练后,使用Ginter为Cityscapes训练集的所有2,975张图像生成分割和熵图然后,我们利用R(It)来获得所有目标图像的排名分数,并基于λ将它们分成容易和困难的分裂。我们对λ进行了消融研究,以优化表3中的参数。对于域内自适应,Ginter具有与Ginter相同的架构,并且Dintra与Dinter相同;输入数据是具有容易分割的伪标签的2,975个Cityscapes训练图像Gintra使用ImageNet的预训练参数进行训练,Dintra从头开始,类似于AdvEnt。除了以前除了上述实验,我们还进行了Synscapes→Cityscapes的实验。为了与AdaptSeg-Net [25]进行比较,我们在实验中应用AdaptSegNet的框架进行域间和域内适配。与[28]和[25]类似,我们利用conv4和conv5的多级特征输出进行域间自适应和域内自适应。为了训练Ginter和Gintra,我们应用具有学习率的SGD优化器[2]为2. 5× 10- 4,动量0。9,权重衰减10−4用于训练Ginter和G intra。亚当优化器[12],10- 4的学习速率用于训练D inter和D intra。4.2. 结果GTA 5 在表1 (a)中,我们比较了我们的方法与Cityscapes验证集上其他最先进方法的分割性能[25,5,28]。为了公平比较,基线模型采用DeepLab-我们达到45。mIoU的5%,强调了使用伪标签。最后,我们提出的模型达到46。mIOU的3%(自我训练+域内对齐)。诚然,复杂的场景(包含许多对象)可能被归类为“硬”。为了提供更具代表性的“排名”,我们采用了一种新的归一化方法,将平均熵与目标图像中预测的稀有类的数量分开。对于Cityscapes数据集,我们将这些罕见的类定义为熵归一化有助于将具有许多对象的图像移动到容易分割的位置。通过使用归一化,我们提出的模型达到47。0%的mIoU,如表2所示。我们提出的方法也有局限性的一些类。在图3中,我们提供了我们的技术的分割图的一些可视化。从我们使用域间对齐和域内对齐训练的模型生成的分割图比仅使用域间对齐训练的基线模型AdvEnt更准确。图4中可见属于“硬”分裂的一组代表性图像在域内对齐之后,我们产生(d)列中所示的与(c)列相比,我们的模型可以转移到更困难的目标图像。超参数λ的分析我们在GTA5→Cityscapes的实验中进行了寻找超参数λ的适当值的研究。在表3中,不同的δ值用于设置域分离的决策边界。当λ=0时。67,即,的比率|X te|到|X t|约为2/3,模型达到46。3的mIoU是Cityscapes验证集上的最佳性能。合成体。我们使用SYNTHIA作为源域,并在表1中列出了Cityscapes验证集上提出的方法和最先进方法的评价结果[25,28]。为了进行公平的比较,我们还采用了与ResNet-101架构相同的DeepLab-v2。我们的方法在16类和13类损耗LL37722图3:GTA5→Cityscapes的评估结果示例。(a)和(d)是来自Cityscapes验证集的图像和相应的地面实况注释。(b)是域间自适应的预测分割图[28]。(c)是我们的技术预测的地图。基线根据表1(b)中的结果,我们提出的方法已经实现了41。7%,48。分别为16级和13级基线的平均IoU的9%。如表1所示,我们的模型在汽车和摩托车类上比现有技术更准确。原因是我们应用了域内自适应来进一步缩小域间隙。同步扫描我们目前使用Syncapes数据集发现的唯一工作是[25]。因此,我们使用AdaptSeg- Net [25]作为我们的基线模型。为了提供一个公平的比较,我们只考虑在我们的实验中使用香草GAN。通过域间和域内自适应,我们的模型达到了54。mIoU的2%,高于表1(c)中所示的AdaptSegNet。4.3. 讨论理 论 分 析 比 较 表 1 中 的 ( a ) 、 ( b ) , GTA 5 对Cityscapes比SYNTHIA对Cityscapes更有效。我们认为原因是GTA5与Cityscapes的街景图像比其他合成数据集更相似。我们还提供了一个理论分析。设H表示假设类,S和T是源域和目标域。 理论从[1]建议将期望误差限制在目标定义域<$T(h):<$h ∈ H,<$T(h)≤ <$S(h)+1dH(S,T)+ Λ,其中<$S(h)是源域上的期望误差,dH(S,T)=2 sup|Pr S(h)−Pr T(h)|是域发散的距离,并且Λ在正常情况下被认为是常数。因此,在我们的情况下,T(h)是由S(h)和dH(S,T) 我们提出的模型是通过使用域间和域内对齐一起最小化dH(S,T)如果dH(S,T)具有高值,则第一级的上界域间自适应影响我们的熵排名系统和域内自适应过程。因此,我们的模型在大的域间隙中效率较低。相对在有限条件下,模型的性能受dH(S,T)和dS(h)的影响。首先,源和目标域的较大发散导致dH(S,T)的较高值。误差的上限更高,因此我们的模型将不太有效。其次,当模型使用小神经网络时,CoS(h)将非常高。在这种情况下,我们的模型也会不那么有效。数字分类。我们的模型还能够应用于数字分类任务 。 我 们 考 虑 了 MNIST→USPS , USPS→MNIST 和SVHN→MNIST的适应性转移。我们的模型使用训练集进行训练:MNIST有60000张图像,USPS有7291张图像,3773图4:GTA5→Cityscapes硬分割的熵图示例。(a)是城市景观训练集的硬图像。(b)以及(c)是来自仅通过域间自适应训练的模型的预测熵和分割图[28]。(d)是改进的预测分割结果的硬图像从我们的模型。表4:数字数据集之间自适应的实验结果模型MNIST →USPSUSPS →MNISTSVHN →MNIST源仅82.2± 0. 869.6± 3。867.1± 0。6ADDA [27]89.4± 0. 290.1± 0。876.0± 1。8CyCADA [11]95.6± 0。296.5± 0。190.4± 0。4我们95.8±0.197.8±0.195.1±0.3标准SVHN,73257张图像。建议的模型进行评估的标准测试集:MNIST与10000图像和USPS与2007年的图像。在数字分类任务中,Ginter和Gintra用作具有相同架构的分类器,其基于LeNet架构的变体在域间自适应中,我们利用CyCADA [11]的框架来训练Ginter和Dinter。在排名阶段,我们利用Ginter生成所有目标数据的预测,并使用R(Xt)计算其排名得分。对于λ,我们采用λ=0。8在所有实验中我们的域内自适应网络也是基于CyCADA [11]. 在 表 4 中 , 我 们 提 出 的 模 型 在MNIST→USPS上达到95.8±0.1%的准确度,在USPS→MNIST上达到97.8±0.1%的准确度,在SVHN上达到95.1±0.3→MNIST。我们的模型优于基线模型Cy-CADA [11].5. 结论在本文中,我们提出了一个自我监督的域自适应,以尽量减少域间和域内的差距同时。我们首先使用现有方法中的域间自适应来训练模型。其次,我们产生目标图像的熵图,并使用一个基于熵的排序函数来分割目标域。最后,我们进行域内适应,以进一步缩小域差距。我们在交通场景中对真实图像进行了大量的合成实验我们的模型可以与现有的域适应方法相结合。实验结果表明,该模型的性能优于前适应算法。致谢本研究得到了博世(中国)投资有限公司资助的“协作汽车共享传感”项目的部分支持。这项工作也得到了韩国研究奖学金计划的部分支持,该计划通过韩国科学、信息通信技术和未来规划部资助的韩国国家研究基金会(NRF)进行(2015H1D3A1066564)。3774引用[1] Shai Ben-David , John Blitzer , Koby Crammer , andFernando Pereira.域适应的表示分析。在NeurIPS,第137-144页,2007中。7[2] 我 在 博 图 。 随 机 梯 度 下 降 的 大 规 模 机 器 学 习 在COMPSTAT’2010的Proceedings施普林格,2010年。6[3] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义PAMI,40(4):834-848,2017年。6[4] 陈明昊,薛宏阳,蔡登。 最大平方损失的语义分割的主适应。在ICCV,第2090-2099页,2019年。2[5] Yuhua Chen,Wen Li,and Luc Van Gool.道路:面向现实的适应城市场景的语义分割。在CVPR中,第7892-7901页,2018年。五、六[6] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。5[7] Shuyang Dai,Kihyuk Sohn,Yi-Hsuan Tsai,LawrenceCarin,and Manmohan Chandraker.使用未标记的域桥适应极端变化。arXiv预印本arXiv:1906.02238,2019。2[8] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在CVPR,第248-255页中。Ieee,2009年。6[9] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge : ARetrospective.IJCV,111(1):98-136,2015. 5[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。6[11] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu、Phillip Isola、Kate Saenko、Alexei Efros和TrevorDarrell。CyCADA:Cycle-consistent adversarial domainadaptation。在ICML,第1989-1998页,2018年。一、二、八[12] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。6[13] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在CVPR,第3431-3440页,2015年。1[14] Pauline Luc,Natalia Neverova,Camille Couprie,JakobVer-beek,and Yann LeCun.预测语义分割的未来。在ICCV,第648-657页,2017年。1[15] 安德烈斯·米利奥托菲利普·洛特斯和西里尔·斯塔奇尼斯利用cnns背景知识的精准农业机器人在2018年IEEE机器人和自动化国际会议上,第2229-2235页IEEE,2018年。1[16] Zak Murez、Soheil Kolouri、David Kriegman、Ravi Ra-mamoorthi和Kyungnam Kim。用于域适应的图像到图像在CVPR中,第4500-4509页,2018年。1[17] Kwanyong Park , Sanghyun Woo , Dahun Kim ,Donghyeon Cho,and In So Kweon. 为不成对的视频到视频翻译保留语义和节奏一致性。在第27届ACM国际多媒体会议论文集,第1248-1257页,2019年。2[18] Xingchao Peng,Qinxun Bai,Xide Xia,Zijun Huang,Kate Saenko,and Bo Wang.用于多源域适应的矩匹配。在ICCV,第1406-1415页,2019年。2[19] 斯 蒂 芬 河 Richter , Vibhav Vineet , Stefan Roth , andVladlen Koltun.播放数据:从电脑游戏中得到的真相。在Bastian Leibe、Jiri Matas、Nicu Sebe和Max Welling的编辑中,ECCV,LNCS第9906卷,第102- 108页。118.施普林格国际出版社,2016年。一、五[20] German Ros,Laura Sellart,Joanna Materzynska,DavidVazquez,and Antonio M Lopez.Synthia数据集:用于城市场景语义分割的大量合成图像。在CVPR中,第3234-3243页,2016年。一、五[21] 斋藤国明,渡边康平,牛久义孝,原田达也.非监督域自适应的最大分类器差异。在CVPR中,第3723-3732页2[22] Christos Sakaridis , Dengxin Dai , Simon Hecker ,andLuc Van Gool.用于语义浓雾场景理解的合成和真实数据的模型自适应在ECCV中,第687-704页,2018年。2[23] Alexey A Shvets , Alexander Rakhlin , Alexandr AKalinin,and Vladimir I Iglovikov.使用深度学习的机器人辅助手术中的自动器械分割。2018年第17届IEEE机器学习与应用国际会议(ICMLA),第624-628页。IEEE,2018年。1[24] Jong-Chyi Su , Yi-Hsuan Tsai , Kihyuk Sohn , BuyuLiu,Subhransu Maji,and Manmohan Chandraker.主动对抗域适应。在WACV,第739-748页,2020中。2[25] Yi-Hsuan Tsai,Wei-Chih Hung,Samuel Schulter,Ki-hyukSohn , Ming-HsuanYang , andManmohanChandraker.学习适应语义分割的结构化输出空间。在CVPR中,第7472-7481页,2018年。一、二、三、五、六、七[26] Yi-Hsuan Tsai , Kihyuk Sohn , Samuel Schulter , andManmo-han Chandraker.经由区分性补丁表示的结构化输出的域自适应在ICCV,第1456- 1465页,2019年。一、二[27] Eric Tzeng,Judy Hoffman ,Kate Saenko,and TrevorDarrell.对抗性判别域自适应。在CVPR中,第7167-7176页,2017年。8[28] Tuan-Hung Vu , Himalaya Jain , Maxime Bucher ,Matthieu Cord,andPatrickPe 'rez. Advent:用于语义分割中的域适应的Ad versarialentropy最小化在CVPR中,第2517-2526页,2019年。二、三、五、六、七、八[29] Keze Wang,Dongyu Zhang,Ya Li,Ruimao Zhang,and Liang Lin.用
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功