没有合适的资源?快使用搜索试试~ 我知道了~
基于类平衡自训练的Yang Zou1,Zhiding Yu2,B.V.K.Vijaya Kumar1,王劲松31卡内基梅隆大学,匹兹堡,PA 15213,美国{yzou2@andrew,kumar@ece}. cmu.edu2NVIDIA,Santa Clara,CA 95051,USAzhidingy@nvidia.com3General Motors R D,Warren,MI 48092,USAjinsong.wang邮件gm.com抽象。最近的深度网络在各种语义分割任务上实现了最先进的性能。 尽管有这样的进步,但这些现代化的软件功能实际上“将面临挑战”,其中标记的训练/源数据和看不见的测试/目标数据之间存在相关差异。在实际应用中,这种差异常常被称为“自适应”,并且可能导致性能显著降低,这不能通过进一步增加表示能力来容易地补救。无监督域自适应(UDA)试图在没有目标域标签的情况下克服这样的问题在本文中,我们提出了一种新的UDA框架的基础上,迭代自训练(ST)的过程,其中的问题被制定为潜在变量损失最小化,并可以解决交替生成伪标签的目标数据和重新训练模型与这些标签。在ST之上,我们还提出了一种新的类平衡自训练(CBST)框架,以避免大类对伪标签生成的逐渐支配,并引入空间先验来细化生成的标签。综合实验表明,所提出的方法实现了国家的最先进的语义分割性能在多个主要的UDA设置。1介绍语义分割是一项核心的计算机视觉任务,其目标是将标签密集地分配给输入图像中的每个像素。在过去的十年中,大量的努力已经投入到这一领域[1,5,6,9,10,13,20,38,39,44,45],随着深度表示学习的最新进展,取得了相当大的进展[15,19,31]。主要开放基准数据集[10]上的竞争导致了许多更强大的模型,这些模型往往过拟合基准数据。虽然基准性能的边界已经被推到了新的极限,但这些模型在实际应用中经常遇到挑战,例如自动驾驶,其中需要感知模块的普遍良好性能这是因为基准数据集通常表示同等贡献。YangZou,ZhidingYu,B.V.K. Vijaya Kumar,王2路人行道建筑壁围栏极交通灯交通SGN植被地形天空人骑手车卡车总线火车摩托车自行车图1:所提出的用于非监督域自适应的迭代自训练框架的图示。左:算法工作流程。右图:改编前后的《都市风景》都出现了语义分割现象。偏向于特定环境,而测试场景可能遇到由许多因素引起的大的域差异,包括地理位置、照明、相机、天气条件等的改变。在这种情况下,即使是功能强大的模型的性能也经常急剧下降,并且这种问题无法通过进一步建立模型功率来轻松解决[9,16,17]。一种 提 高 工 作 效 率 的传统方法是收集和注释覆盖更多样化场景的数据。然 而, 密集的 注释 图像是 耗时和 劳动 密集型 。例 如,每 个Cityscapes图像平均需要大约90分钟来注释[10]。为了克服该限制,人们努力从渲染场景中有效地生成密集注释的图像,例如Grand TheftAuto V(GTA5)[24]和SYNTHIA [26]。然而,模拟/真实域之间的大的外观差距显着降低了综合训练模型的性能。鉴于上述问题,在本文中,我们专注于语义分割的无监督域自适应的挑战性最近,无监督域自适应已被广泛探索用于分类和检测任务。使用基于对抗训练的方法来匹配源和目标特征的分布是一个主要趋势[3,9,12,17,29]。特别地,这些方法旨在最小化域对抗损失以减少源和目标特征分布之间的全局和类差异,同时通过最小化任务特定的损失来保持源域任务的良好性能。基于类平衡的自训练语义分割算法3基于对抗训练的领域自适应方法最近取得了然而,在这项工作中,我们表明,类似的,甚至更好的自适应性能,可以通过采取替代方式,而不使用对抗训练。我们的方法不是试图通过混淆域判别器来适应,而是将特征空间对齐和任务本身统一在一个单一的统一损失下,这在第4节中给出。在单一统一损失下,我们将全局和类特征对齐作为统一任务的一部分,而不是单独考虑特征匹配和分类任务。传统的具有手工特征的自训练方法是一种常见的半监督学习方法,可以更好地学习源数据和目标数据的决策边界。通常这些方法不考虑特征分布匹配。但结合CNN,自训练成为一种强大的域自适应方法,不仅可以学习更好的决策边界,还可以找到匹配的源和目标分布的特征空间。本质上,由softmax交叉熵损失引导的自训练中的特征学习不仅鼓励源特征和目标特征的全局接近度,而且鼓励类特征对齐。基于CNN的自训练方法与基于对抗训练的全局和类特征对齐方法[9,17]具有相同的目标,但它试图通过更简单和更优雅的方式解决域自适应。基于自训练的语义分割领域自适应技术还处于发展阶段。我们提出了一个典型的基于CNN的自训练(ST)框架,用于语义分割中的领域自适应,其工作流程如图所示,以GTA5→ Cityscapes为例。ST通过交替地生成对应于大选择分数的一组伪标签(即,softmax概率),然后基于这些伪标记和标记的源数据对网络进行微调。应该提到的是,ST假设具有较大预测概率的目标样本具有更好的预测精度。视觉(例如,外观、规模等)源域和目标域之间域间隙通常在类之间不同。这可能导致网络学习每个类的可转移知识的难度不同。例如,不同的国家可能具有不同的构造视图和平面图,但是关系和发展是相似的。因此,我们需要预先训练的模型来学习建筑和工厂的可转移知识,而不是交通灯和车辆的知识。此外,源域的类分布不均衡、源域分布与目标域分布的差异也会导致不同类之间知识传递的难度不同这导致针对目标域中的各种类别的不同预测置信水平。由于ST选择具有大置信度的伪标签,因此它倾向于偏向容易转移的类而忽略其他类,并且具有较差的自适应性能。总之,在这项工作中,我们专注于基于自训练的适应方法的我们的贡献如下。YangZou,ZhidingYu,B.V.K. Vijaya Kumar,王4– 在深度网络的基础上,我们引入了一个自训练(ST),具有用于分割的自定进度学习适应框架。我们将其表述为混合整数非线性规划形式的损失最小化问题,可以以端到端的方式解决。域不变特征和分类器都期望被学习。– 为了解决ST中伪标签的类不平衡问题,我们提出了一种新的类平衡自训练(CBST)适应语义分割。CBST算法利用类间置信度归一化来选择和生成类分布均衡的伪标签– 此外,我们观察到,一个交通场景有自己的空间结构,并引入空间先验(SP)的概念。我们将空间先验到建议的自我训练,导致类平衡的自我训练与空间先验(CBST-SP)。由空间先验加权的概率分数用于伪标签生成度量。– 我 们 全 面 评 估 了 我 们 的 方 法 在 适 应 大 规 模 渲 染 图 像 数 据 集SYNTHIA/GTA 5,真实图像数据集,城市景观,并实现了最先进的性能,优于其他方法的大幅度。此外,我们测试我们的方法在跨城市的适应设置,城市景观NTHU数据集,并实现国家的最先进的性能。2相关作品深度学习的革命激发了人们对基于深度神经网络的语义分割的广泛兴趣。Long等人[20]提出了一种用于像素级分类的完全卷积网络最近,一些研究人员提出了强大的分割网络,如ResNet-38,PSPNet等。[38、39、44]。无监督域自适应已经在计算机视觉中被广泛研究,主要用于分类和检测任务。在深度神经网络时代,主要的自适应思想是通过以端到端的方式最小化源和目标特征分布之间的差异来学习域不变特征[11,12,14,21,32,35,37]。其中,有几种方法利用最大平均差异(MMD)及其核变量,以达到目标的特征分布差异最小化。最近,人们越来越关注利用基于对抗学习的方法来减少源域和目标域之间的差距[14,21,36,37]。无监督域自适应的另一个重要策略是基于自我训练[4,47],它在视觉和自然语言处理中有许多应用[22,25,40,47]。Tang等人。[33]提出了一种自适应方法,通过以一种简单到困难的方式学习标记的源样本和具有伪标签的目标数据,将对象检测模型从图像转移到视频。Chen etal. [7]提出了一个自适应框架,通过使用协同训练的思想,慢慢地将其训练集Bekker [2]等人解决了噪声标签问题。如[43]中所指出的,解决分类的方法不能很好地转化为语义分割问题。所以最近域适应为基于类平衡的自训练语义分割算法5语义分割已经成为一个热门话题。一些研究人员已经专注于利用对抗学习来最小化特征空间的域间隙。[9,17]提出了像素级对抗域自适应方法,以减少特征空间中的域间隙。基于域对抗训练,[28]引入了一个检测边界附近样本的批评网络和一个可以为目标域生成判别特征的生成器。[43]提出了一种课程自适应方法,以将目标域中的预测标签分布正则化,以遵循源域中的标签分布。解决域自适应问题的另一个可能的方向是利用样式转换技术将带注释的源域图像样式化为目标域图像。遵循这一思想,基于风格转移网络Cycle-GAN [46],[16]提出了一种将周期一致性损失与对抗性损失相结合的周期一致性自适应框架,以最小化像素级和特征级域间隙。3预赛3.1用于监督域自适应的如果源和目标中的相同任务的标签可用,则执行域适应的最直接方式可能是在两个域上监督微调模型。对于具有softmax输出的语义分割网络,自适应问题可以被公式化为最小化以下损失函数:ΣS ΣNminLS(w)=−W⊤s,nΣTΣNlog(pn(w, Is))−⊤t,nlog(pn(w, It))(1)s=1 n=1t=1 n=1其中Is表示由s = 1,2,.索引的源域中的图像,S,ys,n是第n个像素(n = 1,2,…N),并且w包含网络权重。ρη(w,Is)是包含像素η处的类别概率的softmax输出。类似的定义适用于It,yt,n和pn(w, It)。3.2用于无监督域适应的在无监督域自适应的情况下,目标地面实况标签不可用。微调分割模型的另一种方法是将目标标签视为可以学习的隐藏变量。因此,该问题可以用公式表示如下:ΣS ΣNminLU(w,y)=−w,y⊤s,nΣT ΣNlog(pn(w, Is))−⊤t,nlog(pn(w,It))(二)s=1 n=1S. t. i∈{e(i)|e(i)∈RC},t,nt=1n=1whereereyiindicatethetofargetlabels,Cisthenumberofclasseseses,anddede-hotvector. 通过在Eq中对Los进行优化,(2)在期望值为Y的情况下,yyyyYangZou,ZhidingYu,B.V.K. Vijaya Kumar,王6yyshouldapproximathee n deryingtruetargetgrundtruth.Domainadapta-tion 可以类似于Eq。 (一). 我们把这种训练策略称为自我训练。4提出方法4.1自我培训(ST),自定进度学习联合学习模型和优化未标记数据上的伪标签自然是困难的,因为不可能完全保证遗传算法的正确性。一个最好的方法是通过自定进度的课程学习来制定一个“一旦模型被更新并更好地适应目标域,该方案就会以较低的置信度探索剩余的伪标签。为了纳入课程学习,我们考虑以下经修订的自我培训公式:ΣS ΣNminLST(w,y)=−w,y⊤s,nlog(pn(w, Is))s=1 n=1ΣT ΣN−Σ⊤t,nΣl 〇 g(pn(w,It))+k|yt,n|1(三)t=1 n=1S. t. i∈{{e(i)}| e(i)∈RC}∪0},∠t,nk > 0其中将ys,n指定为0导致在模型训练中忽略该伪标签,并且L1正则化用作负稀疏提升项以防止忽略所有伪标签的平凡解决方案。k是控制被忽略的伪标签的量更大的k鼓励选择更多的伪标签进行模型训练。为了最小化等式中的损失(3)、我们采取以下备选块坐标下降算法:– a)Fix(最小化)并最小化Eq中的损失。 3withrespecttoyt,n.– b)Fixyt,nand doptimize theeobjective in Eq.3withespecttow.我们将a)的一个步骤之后的b)的一个步骤称为一轮。在这项工作中,我们提出了一种自训练算法,其中步骤a)和步骤b)交替重复多轮。直观地,步骤a)从目标域中选择最有信心的伪标签的某一部分,而步骤b)在给定步骤a)中选择的伪标签的情况下训练网络模型图1说明了GTA5 →Cityscapes的域适应示例中的所提出的求解步骤b)导致具有随机梯度下降的网络学习。然而,求解步骤a)需要非线性整数规划,给定y基于类平衡的自训练语义分割算法7t,ny=离散变量优化给定k >0,步骤a)可以重写为:ΣT最小−yΣN 公司简介Σy(c)lo g(pn(c|w,I(t))+k|yt,n|1t=1 n=1 c=1(四)Σ(1)(C)Σ(一)(一) Ct,n=k >0yt,n,...yt,ne{{e |e∈R}∪0},∠t,n由于不需要在电子视频或zero视频上执行随机选择,因此可以经由以下求解器来优化伪标签配置:1,如果c = arg max pn(c| w,I t),(c)*t,nCpn(c| w,I t)>exp(−k)(五)0,否则与具有学习域不变分类器的手工特征的传统自训练适应不同,基于CNN的自训练不仅可以学习域不变分类器,还可以学习域不变特征。softmax损失隐含地试图减少特征空间中的域差异。此外,自训练也有缺失值(伪标签)问题,类似于EM算法。所提出的交替优化方法可以学习模型的权重,而无需事先观察目标域标签。人们可能会注意到,所提出的框架类似于[33]和其他几个相关的工作。然而,所提出的方法提出了一个更广义的模型,自我训练和自定进度的学习,在这个意义上,伪标签生成统一与课程学习在一个单一的学习框架。更重要的是,就具体应用而言,上述自训练框架揭示了用于适配语义分割模型的相对新的方向。我们将证明,与许多目前主要基于对抗训练的最先进方法相比,基于自我训练的方法可以带来4.2班级均衡自我训练(CBST)如第1节所述,视觉域间隙和类别分布的差异会导致类别之间的域转移难度不同,从而导致目标域中易于转移的类别的预测置信度相对较高。由于ST生成对应于大置信度的伪标签,因此出现了模型倾向于偏向于这些最初良好转移的类并且忽略训练过程中的其他硬类的问题因此,ST难以在多类别分割适应问题中表现良好。为了克服这个问题,我们提出了以下类平衡YangZou,ZhidingYu,B.V.K. Vijaya Kumar,王8y=exp(−k)cexp(−k)c自我训练框架,其中类置信水平被归一化:ΣS ΣNminLCB(w,y)=−w,y⊤s,nlog(pn(w, Is))s=1 n=1ΣT ΣN−ΣC Σy(c)lo g(pn(c|w,It))+kcy((c)(六)t,nt=1 n=1 c=1t,nS. t. y(1),., y∈{{e(i)}|e(i)∈RC}∪0},∠t,nt,n= yt,nt,nkc>0,c其中每个kc是确定类c中所选伪标签的比例的单独参数。如可以观察到的,正是kc之间的差异为伪标签选择引入了不同水平的类间偏差,并且解决了类间平衡的问题。类平衡的自我训练的优化流程与Eq.(3)除了伪标签生成。同样,我们可以将伪标签优化的步骤重写为:ΣT最小−ΣN ΣCy(c)lo g(pn(c|w,It))+kcy((c)yt=1 n=1 c=1t,nt,n(七)S. t. y(1),., y∈{{e|e∈RC}∪0},∠t,nt,n= yt,nt,nkc>0,c注意,等式中的损失函数(7)不能通过方程的求解器来平凡地最小化。(三)、相反,优化Eq.(7)要求以下类别均衡求解器:1,如果c = arg max pn(c| w,It),(c)*t,npn(c|w,I t)exp(−kc)0,否则exp(−kc)>1个(八)从等式(8)中,可以看出等式(8)中的伪标记生成 (6)不再依赖于输出pn(c| w,I t),但取决于归一化输出pn(c|w,It)。使用该归一化输出的伪标签分配具有向具有相对低分数但具有高类内置信度的类平衡的益处。因此,kc应该以exp(−kc)编码每个类别的响应强度的方式设置,以平衡不同的类别。此外,对于CBST,仅当所有平衡响应小于1时,才过滤任何像素的伪标签也可以有多个类,其中pn(c|w,I(t)> 1。在这种情况下,选择具有最大平衡响应的类别。4.3自定进度学习策略设计yΣΣΣC基于类平衡的自训练语义分割算法9在ST中k的确定从前面的部分,我们知道k播放在过滤出概率小于k的伪标签中起关键作用。为了控制每轮中所选伪标签的比例,我们基于以下策略设置k我们在每个像素处取最大输出概率,并且以降序对跨所有像素位置和所有目标图像的这样的概率进行排序。然后我们设置k,使得exp(−k)等于在round(p*T*N)处排名的概率,其中p是[0, 1]之间的比例数。在这种情况下,伪标签优化会产生p×100%最可信的伪标签用于网络训练。上述策略可以在算法1中总结。算法1:确定ST中的k输入:神经网络P(w)、所有目标图像It、所选伪标签的部分p输出:k1 对于t=1到T,做2PIt= P(w,It)3MPIt = max(PIt,轴=0)4M =[M,矩阵到向量(MP,t)]5 端6 M =排序(M,order=降序)7 lenth = length(M)×p8 k =-log(M[lenth])9 返回k我们设计了自定进度的学习策略,以便为每个额外的回合引入更多的伪标签。特别地,我们从20%开始p,并且在伪标记生成的每一个附加轮中凭经验向p添加5%。最大部分设定为50%。kcinCBST的定义kcinCBST的概率被简单地定义。虽然CBST似乎引入更多的参数比ST,我们提出了一个策略,很容易确定kc,并有效地编码类明智的置信水平。注意,算法2通过对预测为c类的所有像素上的c类概率进行排序来确定kc,并设置kc,使得exp(-kc)等于在round(p*Nc)处排序的概率,其中Nc表示预测为c类的像素的数量。这样的策略基本上采取的概率排名为p×100%,分别来自每个类别,作为阈值化和置信度归一化的参考。比例变量p及其递增策略的定义与ST完全相同。10 YangZou,ZhidingYu,B.V.K. Vijaya Kumar,王4.4合并空间先验为了在街道场景的情况下适应模型,我们可以利用空间先验知识。交通场景具有共同的结构。例如,天空不太可能出现在底部,道路不太可能出现在顶部。如果源域和目标域中的图像视图相似,我们相信这些知识可以帮助调整源模型。因此,我们引入空间先验,类似于[30],通过计算源域中的类频率,然后使用70× 70高斯内核进行平滑特别地,我们使用qn(c)来指示像素n处的类别c的频率。获得类后算法二:CBST中k c的测定输入:神经网络f(w)、所有目标图像It、所选伪标签的部分p输出:kc1 对于t=1到T,做2PIt= P(w,It)3LPIt = argmax(P,轴=0)4MPIt = max(P,轴=0)5对于c=1至C,则6MPc,It= MPIt(LPIt== c)7Mc =[Mc,矩阵到向量(MPc,It)]8端9 端10 对于c=1至C,则11Mc=排序(Mc,order=降序)12透镜c,th=长度(Mc)× p13kc = -log(Mc [lenc,th])14 端15 返回kc图2:GTA5基于类平衡的自训练语义分割算法11i=1频率,我们还通过要求ΣN对其进行归一化qn(c)=1。图2示出从GTA5数据集计算的空间先验的热图,其中黄色指示较高能量,蓝色指示较低能量。为了将空间先验合并到所提出的CBST中,我们将softmax输出与空间先验相乘,并将所得的势视为伪标签生成中的选择度量:ΣS ΣNminLSP(w,y)=−w,y⊤s,nlog(pn(w, Is))s=1n=1ΣTΣN−ΣC Σy(c)lo g(qn(c)pn(c|w,It))+kcy((c)(九)t=1 n=1 c=1t,nt,nS. t. n∈{{e |e ∈RC}∪0},t,nkc>0,c我们将上述算法称为CBST-SP。 工作流程和自定进度学习策略与CBST相同,但潜在的qn(c)pn(c| w,I t)被用来替换pn(c| w,It)在CBST中。应注意,并入空间先验并不改变网络训练,因为qn(c)可从l〇 g(·)中取出作为constants。5数值实验在本节中,我们提供了一个全面的评估建议的方法通过在三个基准数据集上进行实验。 我们首先考虑从Cityscapes转移到NTHU数据集的跨城市适应案例[9]。在[9]之后,我们选择Cityscapes的训练集作为源。NTHU数据集包含来自4个不同城市的400个1,024×2,048:罗马、里约、东京和台北。我们还考虑了两个具有挑战性的问题:从SYNTHIA[26] 到 Cityscapes [10] , 从 GTA5 [24] 到 Cityscapes 。 我 们 使 用 SYNTHIA-RAND- CITYSCAPES子集,包括标记的9,400张760× 1280图像。GTA5数据集包括从GTA5捕获的带注释的24,9661,052× 1,914张Cityscapes的验证集被视为目标域。实施细节我们使用FCN 8 s-VGG 16 [20]作为我们在SYNTHIA到Cityscapes和GTA5到Cityscapes中的基础网络,以与其他使用该数据库的数据进行公平比较。为了使我们能够通过更好的模型ResNet-38[ 39 ]来评估hod在跨城市环境中,我们通过CBST与ResNet-38展示了最先进的性能。 这些网络在ImageNet上进行了预训练[27]。SGD已被MXNET用于训练所有模型[8]。我们使用NVIDIA Titan XP。在GTA5到Cityscapes和Cityscapes到NTHU的CBST和CBST-SP实验中,我们使用硬样本挖掘策略,该策略根据目标预测部分挖掘最少的预测类挖掘类是最差的5个类,最高优先级为yΣ1 YangZou,ZhidingYu,B.V.K. Vijaya Kumar,王市方法Road SW构建TLTS蔬菜 天空PR Rider汽车巴士摩托车是说源扩展-前端[9]77.7二十一点九83.50.110.7 78.9 88.1 21.610.067.2 30.46.10.638.2GCAA [9]79.5二十九点三84.50.022.2 80.6 82.8 29.513.071.7三十七分五25.9 1.042.9罗马DeepLab-v2 [34]83.9 34.3 87.7 13.0 41.922.480.8 38.139.15.350.9[34]83.934.2 88.3 18.8 40.2 86.2 93.1 47.8 21.7 80.9 47.8 48.3 8.653.8来源Resnet-3886.0 21.4 81.5 14.3 47.4 82.9 59.8 30.820.983.1 20.240.05.645.7St85.9 20.284.315.0 46.4 84.9 73.5 48.584.6十七点六46.26.748.9CBST87.1 43.9 89.7 14.8 47.7 85.4 90.3 45.4 26.6 85.4 20.5 49.8 10.353.6源扩展-前端[9]69.0三十一点八77.04.73.771.8 80.8 38.28.061.2三十八点九11.5第3.4节38.5GCAA [9]74.2四十三点九79.02.47.577.8 69.5 39.310.367.9四十一点二27.9 10.942.5里约DeepLab-v2 [34]76.6 47.3 82.5 12.6 22.5 77.9 86.5 43.019.874.5三十六点八29.4十六点七48.2[34]76.2 44.7 84.69.325.5 81.8 87.3 55.3 32.7 74.3 28.943.027.651.6来源Resnet-3880.6 36.081.8 21.0 33.1 79.0 64.721.073.1三十三点六22.57.845.4St80.1 41.4 83.8 19.1 39.1 80.8 71.2 56.3 27.7 79.9 32.736.4十二点二50.8CBST84.3 55.2 85.4 19.6 30.1 80.5 77.9 55.2 28.6 79.737.6 11.552.2源扩展-前端[9]81.2二十六点七71.78.75.673.2 75.7 39.314.957.6 19.01.633.839.2GCAA [9]83.4 35.4 72.812.3 12.7 77.4 64.3 42.721.564.1 20.88.940.342.8东京DeepLab-v2 [34]83.4三十五点四72.812.3 12.7 77.4 64.3 42.721.564.1 20.88.940.342.8[34]81.5 26.0 77.8 17.8 26.8 82.7 90.9 55.8 38.0 72.14.224.550.849.9来源Resnet-3883.8 26.4 73.06.527.0 80.5 46.6 35.622.871.34.210.5 36.140.3St83.1 27.7 74.87.129.4 84.4 48.5 57.2 23.3 73.322.7四十五点八44.6CBST85.2 33.6 80.48.3 31.1 83.9 78.2 53.24.427.0四十七点零48.8源扩展-前端[9]77.2 20.976.05.94.360.3 81.4 10.911.054.9三十二点六15.35.235.1GCAA [9]78.6二十八点六80.013.17.668.2 82.1 16.89.460.4 34.026.5九点九39.6台北DeepLab-v2 [34]78.6二十八点六80.013.17.668.2 82.1 16.89.460.4 34.026.5九点九39.6[34]81.7 29.5 85.2 26.4 15.6 76.7 91.712.571.5 41.147.3二十七点七49.1来源Resnet-3884.9 26.080.18.3 28.0 73.9 54.4 18.926.871.6 26.048.2 14.743.2St83.1二十三点五78.29.625.4 74.8 35.9 33.275.2三十二点三52.2 28.844.6CBST86.1 35.2 84.2 15.0 22.2 75.6 74.9 22.7 33.1 78.058.0三十点九50.3表1:Cityscapes→ NTHU数据集类,其部分小于0。百分之一。其他更多细节在补充文件中提供。5.1小偏移:跨城市适应NTHU数据集包含与Cityscapes共享的13个类。我们遵循与[9]相同的协议来使用10倍交叉验证。报告每个类的IoU(Intersection-over- Union)和mIoU(mean IoU)。表1示出了结果。我们的CBST与最先进的技术相比具有卓越或有竞争力的性能5.2大转变:从合成到真实的适应从SYNTHIA到 Cityscapes我们遵循与其他作品相同的评估协议[17,43],我们选择SYNTHIA和CITYSCAPES之间的16个公共类作为我们的有效标签。另一种设置仅考虑13类,不包括墙、围栏和杆[34]。表2报告了结果。mIoU* 是13个类的平均IoU,不包括具有 * 的类。以FCN 8 s-VGG 16为基础模型,与其他方法相比,我们的CBST具有很好的性能。CBST配备了更好的基础网络ResNet-38,实现了1.7的卓越性能与ST相比,使用FCN 8 s-VGG 16的CBST基于类平衡的自训练语义分割算法13方法基底网路 SW 构建墙 * 围栏 * 杆 * TLTS Veg. 天空PR骑手 车 总线 电机 自行车Miou mIoU*来源[17]扩张-前端6.417.7 29.71.20.015.10.07.230.3 66.8 51.11.547.33.90.10.017.420.2[17]第十七话[41个]11.5 19.6 30.84.40.020.30.111.7 42.3 68.7 51.23.854.03.20.20.620.222.1来源[43]FCN8s-VGG165.611.2 59.68.00.521.58.05.372.4 75.6 35.19.023.64.50.518.022.027.6Curr. [43][20个]65.2 26.1 74.90.10.510.73.53.076.1 70.6 47.18.243.2 20.70.713.129.034.8源仅FCN8s-VGG1624.1 19.1 68.50.90.316.45.710.8 75.2 76.3 43.215.2 26.7 15.05.98.525.730.3甘大[20个]79.1 31.1 77.13.00.222.86.615.2 77.4 78.9 47.014.8 67.5 16.36.913.034.840.8源仅DeepLab-v2 [34]55.6 23.8 74.6−−−6.112.1 74.8 79.0 55.319.1 39.6 23.313.725.0−38.6MAA[34个]84.3 42.7 77.5−−−4.77.077.9 82.5 54.3 21.0 72.3 32.2 18.9 32.3−46.7源仅FCN8s-VGG1617.2 19.7 47.31.10.019.13.09.171.8 78.3 37.64.742.29.00.10.922.626.2St[20个]0.214.5 53.81.60.018.90.97.872.2 80.3 48.16.367.74.70.24.523.927.8CBST69.6 28.7 69.512.10.125.4 11.9 13.6 82.0 81.9 49.114.5 66.06.63.732.435.436.1源仅ResNet-3832.6 21.5 46.54.80.126.5 14.8 13.1 70.8 60.3 56.63.574.1 20.48.913.129.233.6St[39]第三十九届38.2 19.6 70.23.90.031.9 17.6 17.2 82.4 68.3 63.15.378.4 11.20.87.532.236.9CBST53.6 23.7 75.012.50.336.4 23.5 26.3 84.8 74.7 67.2 17.5 84.5 28.415.2 55.8 42.548.4表2:SYNTHIA →Cityscapes方法基底网路SW 构建 壁围栏 极TLTS Veg.地形 天空 PR 骑手 车卡车总线火车 电机 自行车Miou来源[17]扩张-前端31.9 18.9 47.77.43.116.0 10.41.0 76.513.058.9 36.01.067.19.53.70.00.00.021.2[17]第十七话[41个]70.4 32.4 62.1 14.95.410.9 14.22.7 79.221.364.6 44.14.270.48.07.30.03.50.027.1来源[43]FCN8s-VGG1618.16.864.17.38.721.0 14.9 16.8 45.92.464.4 41.6 17.5 55.38.45.06.94.313.822.3Curr. [43][20个]74.9 22.0 71.76.011.98.4 16.3 11.1 75.713.366.5 38.09.355.218.818.90.016.816.628.9来源[16]FCN8s-VGG1626.0 14.9 65.15.512.98.96.02.5 70.02.947.0 24.50.040.012.11.50.00.00.017.9CyCADA [16][20个]85.2 37.2 76.5 21.8 15.0 23.8 22.9 21.5 80.531.360.7 50.59.076.917.128.24.59.80.035.4来源[16]扩张的ResNet-26 42.7 26.3 51.75.56.813.8 23.66.9 75.511.536.8 49.30.946.73.45.00.05.01.421.7CyCADA [16][第四十二届]79.1 33.1 77.9 23.4 17.3 32.1 33.3 31.8 81.526.769.0 62.8 14.7 74.520.925.66.918.820.439.5来源[28]ResNet-5064.5 24.9 73.7 14.82.518.0 15.9074.916.472.0 42.30.039.58.613.40.00.00.025.3ADR [28][第十五条]87.8 15.6 77.4 20.69.719.0 19.97.7 82.031.574.3 43.59.077.817.527.71.89.70.033.3来源[23]DenseNet67.3 23.1 69.4 13.9 14.4 21.6 19.2 12.4 78.724.574.8 49.33.754.18.75.32.66.21.929.0[23]第二十三话[18个国家]85.8 37.5 80.2 23.3 16.1 23.0 14.59.8 79.236.5 76.4 53.47.482.819.115.72.813.41.735.7来源[34]deeplab-V275.8 16.8 77.2 12.5 21.0 25.5 30.1 20.1 81.324.670.3 53.8 26.4 49.917.225.96.525.336.036.6[34][18个国家]86.5 36.0 79.9 23.4 23.3 23.9 35.2 14.8 83.433.375.6 58.5 27.6 73.732.535.43.930.128.142.4源仅FCN8s-VGG1664.0 22.1 68.6 13.38.719.9 15.55.9 74.913.437.0 37.7 10.3 48.26.11.21.810.82.924.3St[17个]83.8 17.4 72.1 14.32.916.5 16.06.8 81.424.247.2 40.77.671.710.27.60.511.10.928.1CBST66.7 26.8 73.7 14.89.528.3 25.9 10.1 75.515.751.6 47.26.271.93.72.25.418.932.430.9CBST-SP90.4 50.8 72.0 18.39.527.2 28.6 14.1 82.425.170.8 42.6 14.5 76.95.912.51.214.028.636.1源仅ResNet-3870.0 23.7 67.8 15.4 18.1 40.2 41.9 25.3 78.811.731.4 62.9 29.8 60.121.526.87.728.112.035.4St[39]第三十九届90.1 56.8 77.9 28.5 23.0 41.5 45.2 39.6 84.826.449.2 59.0 27.4 82.339.745.6 20.9 34.8 46.2 41.5CBST86.8 46.7 76.9 26.3 24.8 42.0 46.0 38.6 80.715.748.0 57.3 27.9 78.224.549.6 17.725.545.145.2CBST-SP88.0 56.2 77.0 27.4 22.4 40.7 47.3 40.9 82.421.660.3 5
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功