没有合适的资源?快使用搜索试试~ 我知道了~
1436UM-Adapt:使用对抗性跨任务蒸馏的无监督多任务自适应Jogendra Nath Kundu Nishank Lakkakula R.Venkatesh Babu视频分析实验室,印度科学研究所,印度网址:jogendrak@iisc.ac.in,nishank974@gmail.com,网址:www.example.com,venky@iisc.ac.in摘要针对人类水平的泛化,需要探索具有更大可移植性的自适应表示学习方法。大多数现有的方法依赖于解决任务的可转移性和跨域适应,导致有限的推广。在本文中,我们提出了UM-Adapt -一个统一的框架,以有效地执行无监督域适应空间结构的预测任务,同时保持在多任务设置中的各个任务的平衡性能为了实现这一点,我们提出了两个新的正则化策略:a)基于轮廓的内容正则化(CCR)和b)利用跨任务蒸馏模块的任务间一致性。此外,避免了传统的ad-hoc域优化,我们重新利用跨任务蒸馏损失作为能量函数的输出,以对抗性地最小化输入域差异。通过大量的实验,我们证明了从合成到自然环境的领域转换下,多个任务的学习表征的超普适性UM-Adapt在ImageNet分类上产生了最先进的迁移学习结果,并且在PASCAL VOC2007检测任务上具有相当的性能此外,所得到的半监督框架在NYUD和Cityscapes数据集上的表现优于当前的全监督多任务学习。1. 介绍深度网络已被证明在广泛的计算机视觉问题中非常成功。 它们不仅在基于分类或识别的任务中表现出色,而且还为复杂的空间结构预测任务[8](如语义分割、单目深度估计等)提供了相当的性能改进。然而,在将这些模型部署到目标环境中之前,它们的通用性是主要关注点之一,因为图1.一个示意图来理解跨任务蒸馏的含义。绿色箭头显示源示例的跨任务传输的一致性。然而,红色和紫色箭头示出了由于输入域移位而导致的目标样本的跨任务转移的差异(黄色箭头)UM-Adapt的目标是最大限度地减少这种差异作为代理,以实现适应在空间结构的共同潜在的表示。模型表现出令人担忧的数据集或域偏差[4,28]。为了有效地解决这个问题,研究人员已经开始关注无监督域自适应方法[6]。在没有目标注释的完全无监督设置中,有效方法之一[12,57]是在潜在特征级别最小化域差异,以便模型提取域不可知和特定于任务的表示。虽然这些方法在基于分类或识别的任务中非常有效[56],但它们对于全卷积架构的适应产生了次优性能,这对于空间预测任务特别重要[62]。 遇到的主要问题之一是,在这种情况下,与矢量化形式相比,空间结构化的高维潜在表示[29]。此外,保持空间规则性,避免模式崩溃[49]成为一个重大挑战,同时旨在适应完全无监督的环境。虽然我们的目标是人类水平的性能,但有必要探索可扩展的学习方法,这些方法可以产生通用的图像表示,并具有跨任务和数据域的改进的传输能力。多任务学习-任务1输出分布合成域(源)空间结构潜分布自然域(目标)UM-适应任务2输出分布跨任务蒸馏1437ing [38,24]是该方向的新兴研究领域,其目标是通过联合训练关于若干互补任务的模型来实现任务无关的视觉表示[17,36]。一般来说,这种网络难以训练,因为它们需要明确的注意力来平衡每个单独任务的性能。此外,这些方法仅解决最终目标的单个方面(即,跨任务的一般化),而忽略了跨数据域的一般化的其它重要方面。在本文中,我们专注于空间预测任务的多任务适应,提出有效的解决方案,上述具体困难。为了有效地提供最佳的性能,跨任务的泛化和输入域转移,我们制定了一个多任务自适应框架,称为UM-Adapt。为了在无标记对抗适应[56]过程中有效地保留空间规律性信息,我们提出了两种新的正则化技术。出于这样一个事实,即输出表示共享一个共同的空间结构相对于输入图像,我们首先介绍了一种新的基于轮廓的内容正则化过程。此外,我们形式化了一个新的想法,利用跨任务协同作为一个重要的线索,以进一步规范的多任务适应过程。考虑在两个不同任务上训练的基本模型,任务A和任务B。我们是否可以使用任务A的监督来学习任务B的输出表示,反之亦然?这种方法是可行的,特别是当考虑中的任务具有一些共同特征时(即,跨任务输出的空间结构的一致性)。根据这一推理,我们引入了一个跨任务蒸馏模块(见图1)。该模块基本上由称为任务传输网络的多个编码器-解码器架构组成,这些架构被训练为从作为输入的其余任务的组合中取回作为输出的特定任务的表示。这样一个框架背后的首要动机是有效地平衡所有考虑的任务的性能为了直观地理解跨任务蒸馏的有效性,让我们考虑基本模型的特定训练状态,其中任务A的性能比任务B的性能好得多这里,任务转移网络(其被训练为使用基本模型任务A预测作为输入来输出任务B表示)将在任务B上产生改进的性能,这是主要的基本任务A性能的结果这导致了基本任务B的表现和通过任务转移网络获得的任务B表现之间的明显差异。我们的目标是最大限度地减少这种差异,这反过来又作为一种规则化,鼓励在所有任务中平衡学习。在单任务域适应方法[56,29]中,通常采用ad-hoc鉴别器来最小化域差异。然而,在存在跨任务蒸馏模块的情况下,这种方法使整个训练管道高度复杂化。因此,避免这种方向,我们建议设计一个统一的框架,以有效地解决不同的目标,即a)在所有任务之间实现平衡的性能,以及b)在无监督的设置中执行域自适应。从基于能量的GAN [64]中获得灵感,我们重新利用任务转移网络,将转移差异视为能量函数的输出,以在完全无监督的环境中最小我们在本文中的贡献如下:• 我们提出了一个简化的,但有效的无监督多任务适应框架,利用两个新的正则化策略; a)基于轮廓的内容正则化(CCR)和b)使用跨任务提取模块来开发任务间相干性。• 此外,我们通过有效地利用跨任务蒸馏损失作为能量函数,采用了一种新的以在完全无监督的设置中逆向地最小化输入域差异。• UM-Adapt在ImageNet分类上产生了最先进的迁移学习结果,并且与在PASCAL VOC 2007检测任务中,即使使用较小的 主干 网也 可 以。 由此 产 生的 半监 督 框架 在NYUD和Cityscapes数据集上的表现优于当前最先进2. 相关工作域适应。最近的深度网络自适应方法专注于通过优化与高阶统计分布相关的距离函数来最小化域差异[6]。遵循对抗性判别方法的作品[55,56,10,11]利用生成对抗网络[14]的动机来弥合域差距。最近的域自适应方法,特别是针对空间结构的预测任务,可以大致分为两个子分支,即。a)像素空间自适应和b)特征空间自适应。在像素空间自适应[1,19,2]中,目标是训练图像转换网络[67],该网络可以将目标域的图像转换为类似于源域的图像。另一方面,特征空间自适应方法侧重于在某些潜在特征级别最小化各种统计距离度量[15,36,53,21],主要是在完全共享的源和目标域参数设置中[45]。然而,非共享设置显示出改进的自适应性能,这是由于在考虑中学习两个域的专用滤波器参数[56,29]。但是,完全非共享的设置会带来其他困难,例如在没有配对监督的情况下由于输出不一致而导致的模式崩溃[22,67]。因此,我们认为,1438不→seg不M(x)segSSC深度N→分段Resnet-50till Res-RES-5区块正态不深度→深度合成(xs)不C正常N→深度深度Mt(xtResnet-50till Res-厄塞格不正常→正常不→正常正常θ:仅Res5CN自然(x)seg不可训练参数不正态RES-5区块不水深不厄塞格SSSS基本模型架构:水深跨任务蒸馏模块用作能量函数:能源能源能源图2.概述了所提出的用于多任务自适应的UM-Adapt架构。蓝色和粉红色背景宽通道分别表示合成域和自然域的数据流在右边,我们展示了所提出的跨任务蒸馏模块的图示,该模块后来被用作对抗适应的能量函数(第3.3.2节)。最佳策略是在部分共享的架构设置中为目标域分别调整最小可能的参数[29]。作为来自目标域P(Xt)的样本,为了模拟无监督设置,我们限制对相应的特定任务产出,即y深度∈ Y深度,t tyseg∈Yseg和ynormal∈Ynormal。注意,对象-多任务学习。多任务学习[3]已经被应用于在计算机视觉文献[38]中应用了很长一段时间,用于考虑各种任务[27,8,9,16,43]。为了实现这一点,一个简单的方向是制定一个多任务损失函数,它衡量每个任务的相对贡献期望制定技术,其根据当前学习状态或迭代自适应地修改各个任务的相对权重Kendall等人[24]提出了一种原则性的方法,利用联合似然公式来基于单个任务中的固有不确定性导出任务权 重 。 Chen 等 人 [65] 提 出 了 一 种 梯 度 归 一 化(GradNorm)算法,可以在深度多任务模式中自动平衡训练可以容易地将tive扩展到半监督设置,考虑仅对来自目标域的几个输入样本的输出注释的可用性。3.1. UM Adapt体系结构如图2所示,基础多任务自适应架构是从标准CNN编码器-解码器框架中激发的。从源域Xs到空间结构化潜在表示的映射函数表示为Ms(Xs)。在此之后,三个不同的具有上卷积层的解码器[30]被用于所考虑的三个任务,(见图2)即,Ydepth=Cdepth◦Ms(Xs),Yseg=Cseg◦Ms(Xs),以及S s通过动态调整梯度幅度来实现ELS。另一组工作集中在利用多任务学习技术的进步来学习任务不可知的广义视觉表征[61,45]。3. 方法在这里,我们定义了无监督多任务适应的符号和问题设置。考虑源输入图像样本xs∈Xs以及相应的输出Y_n或r_m_l=C_n 或r_m_l_M_s(X_s)。最初整个建筑师-在对源域数据进行全面监督的情况下训练True。为了有效地平衡所有任务的性能,我们引入了跨任务蒸馏模块,如下所示。3.1.1跨任务蒸馏模块该模块旨在通过传递函数返回某个任务的表示,该传递函数将所有其他任务的组合表示作为输入。考虑对于不同的任务,∈Y深度,y分段∈Y分段T作为所有任务的集合,即不 ={t1,t2,.,t k},其中ks s s s和y正规∈Y正规的三个互补的集合是要考虑的任务总数。 对于一个partic-S s任务,即,分别为单眼深度、语义分割和表面法线。我们可以完全访问源图像和输出对,因为它是从合成图形环境中提取的。UM-Adapt的目标是估计最可靠的基于任务的预测,我们将任务ti记为Yti 作为预测的基础-在T i输出头处的模型。我们将任务特定的损失函数表示为Lti(.,. ),载于本文件其他章节。这里,任务转移网络表示为N →ti,其取组合集合O ti={Ytj | t j∈ T − {t i}} as未知目标域输入,xt∈Xt。考虑到nat-输入表示和相应的输出是de-共享1439RES-5区块C轮廓Ms(xs)Resnet-50till Res-4f轮廓预测算法CCRSSNSSSSSSK我a) 基于轮廓的内容正则化(CCR)xscon.S/* 参数设置 */θ base:基础模型参数{θ Ms,θ Tt1,...,θ Tt对于m次迭代,对于任务t i; i = 1,2,., 凯多Lti=Lti(Yti,Yti)+αLti(Yt i→ti,Yti)Dist.s s s sθi:=argminLtiGT控制器基地θ基Dist.算法一:基于跨任务蒸馏损失的全监督源数据的基模型训练算法。图3.(a)拟议的国家责任框架概述(b)在每个任务的输出图上计算的轮廓图与输入RGB图像的轮廓图的一致性的证据。记为Y→ti =N→ti(O ti)。N →ti的参数,θ s→t 通过优化任务转移损失函数获得。ti(Y-ti,Yti)表示,并且保持冷冻在毛皮中。用于无监督自适应的学习算法直到Res-4f块才更新任务特定解码器中的其它层和初始共享Mt3.2. 基于轮廓的内容正则化(CCR)空间内容不一致性对于集中于逐像素密集预测任务的无监督域自适应而言是一个严重的问题[19,29]。为了解决这个问题,[29]提出了一个特征一致性框架(FCF),其中作者采用循环特征重建设置来预S s训练的其他阶段。 但是,一个人可以喂饱猎物--通过任务转移网络对基本模型进行转换,以实现任务ti的另一种估计,表示为Y→ti 为在冻结的Resnet-50(直到Res-4f)编码器的Res-4f激活映射处提供诸如语义轮廓的空间结构化内容然而,空间的大小--N→ti(Oti),其中Oti ={Y}tj |不∈T−{t}}。Fol-将Res-4f功能激活(即,20×16)效率低下s ssji据此,我们将任务ti的蒸馏损失定义为Lti(Y→ti,Yti). 在优化底座参数的捕捉相关的空间规律,以减轻轮廓对齐问题。S s模型,该蒸馏损失被用作重要的一个。在所有任务目标之间实现有效平衡(参见算法1)。在这里,我们的目标是最大限度地减少个别任务的直接和间接预测(通过其他任务)之间的差异。所提出的学习算法不允许任何单个任务主导训练过程,因为执行最少的任务将表现出更高的差异,因此将在进一步的训练迭代中被与一般知识-蒸馏框架-工作[18],可以认为Y→ti=N→ti(Oti)类似于教师网络的输出,并且Yt→ti =N→ti(Oti)作为学生网络的输出。这里的目标是优化基本模型的参数,有效地利用蒸馏损失,这又加强了各个任务性能之间的一致性。3.1.2用于目标域适配的在部分共享的自适应设置之后,专门针对目标域样本引入单独的潜在映射网络,即M t(X t)(见图2)。与 AdaDepth [29] 内 联 , 我 们 使 用 源 域 对 应 物 Ms(Resnet-50编码器)的预训练参数初始化Mt,以便以良好的基线初始化开始在此之后,仅针对额外编码器分支M_t更新Res-5块(即,θres_5)参数。注意为了解决上述问题,我们提出了一种新的基于轮廓的内容正则化(CCR)方法。如图3a所示,我们引入了一个浅(4层)轮廓解码器Ccontour,以仅重建给定输入图像的轮廓图,其中使用标准轮廓预测算法获得地面实况[60]。这种内容正则化损失(均方损失)表示为作为LCCR在本文的其他部分假设大多数基于图像的轮廓与轮廓对齐,则可以将轮廓与图像对齐任务特定的输出地图之旅,我们认为,编码的功能(Res-5c激活)必须保留的轮廓信息,在对抗训练,以提高适应性能。这清楚地使得CCR优于现有的基于图像重构的正则化方法[1,40,50],通过简化附加引入的解码器架构,而没有生成不相关的基于颜色的外观的负担。C轮廓在固定输出变换Ms(Xs)和对应的地面实况轮廓对上训练,即 LCCR(Yon. ,GT con. )的情况。然而,不喜欢FCF规则-化[29],C轮廓的参数在对抗学习,因为预期输出轮廓图独立于M s或M t变换。因此,LCCR被视为能量函数的输出,其为之后,对于Mt(Xt)最小化以桥接差异,在自 适应 期间 ,在 分布 P(Ms( Xs)) 和 P(Mt(Xt))之间,如算法2所示。b)从以下获得的等高线图输入图像深度图法线图分割图ŷ1440SGG∗SNiNiGtNi/* 参数设置 */θres5:从Ms初始化的Mt的Res5参数θ→t:地面实况任务输出图上完全训练的N→ti(即θs→)的参数,Yti对于n次迭代do对于m步do对于任务t i; i = 1,2,., 凯多/* 更新Mt3.3.2对抗性跨任务蒸馏为了形式化一个统一的框架,以有效地解决多任务适应作为一个整体,我们计划将任务转移网络,N→ti作为能量函数,以对抗性地最小化域差异。根据基于能量的GAN的类比[64],任务-传输网络首先被训练以获得基于地面实况任务的源元组的低能量(即, (O ti,Y ti))最小化目标样本的能量S sLti=Lti(Y→ti,Yti)和高能量的相似元组从目标前,Gt t∗iires5:=不词典(即, (O t,Y t )). 这是通过最小化我不是a r gminLi+λLCCR(Y∈con. ,GT con. )θres5LD 如算法2中所定义。 相反,可训练的更新Mt的参数,以将低能量分配给对于任务t i; i = 1,2,., 凯多/* 更新能量函数N→ti*/预测的目标预测元组,如由Lti强制执行的(参见算法2)。 与之前介绍的CCRLti =Lti(Y→ti,Yti)−Lti(Y→ti,Yti)正则化,θ表示-Ds s t tres5θθ→t :=argminL我不是我记作Lti+λLCCR . 我们使用不同的优化器,θN→ti每个任务的能量函数, 因此,θres5 是操作-算法二:UM-Adapt-(Adv.)的训练算法尤 蒂基于能量的对抗性跨任务蒸馏。在UM-适应-(noAdv.) 我们不更新测试应答网络的参数,即,θN→ti =θN→ti(参见第3.3.2节)。3.3. 无监督多任务自适应在无监督自适应中,总体目标是最小化源和目标输入分布之间的差异然而,最小化P(Yti)和P(Yti)之间的差异可能克服差异。即使在完全无人监督的环境中,也可以在所有任务中获 得 平 衡 的 表 现 我 们 将 该 框 架 表 示 为 UM-Adapt-(Adv.)在本文的其他部分。请注意,由于编码器-解码器设置的结果,由于压缩的潜在表示,任务传输网络仅在充分正则化的基础事实输出映射这使得N→ti 学习更好地近似预期的跨任务能量流形,即使没有负面的例子(目标样本)[64]。在算法1中使用这种类比来有效地将冻结的任务传输网络视为能量传输网络s tt t函数,以实现所有地面实况Ysi之间的推论 和预测Yi与匹配P(Yti)和P(Yti)相比,更好对全监督源域样本执行任务。福尔-在此之后,我们计划制定UM-Adapt的消融,正如以前的一些方法中所提出的那样[54]。 旨在-为了获得最佳性能,UM-Adapt侧重于将目标预测与实际地面实况地图显示相匹配,而所提出的跨任务提取模块提供了有效实现这一目标的手段。3.3.1UM-Adapt基线(UM-Adapt-B)现有文献[37,29]显示了分层特征级别的同时适应的功效,同时最大限度地减少了多层深度架构的域差异。受此启发,我们设计了一个单一的神经网络,它可以将潜在表示的联合分布和最终的特定于任务的结构化预测图与相应的真实联合相匹配分布如图2所示,预测的联合分布表示通过P(Mt(Xt),Y(depth,Y(norrmal,Y(seg)),其中,我们在算法2中抑制了N→ti的参数更新。我们将该框架表示为UM-Adapt-(noAdv.)在本文的其他部分 该修改优雅地完全简化了无监督自适应算法,因为它最终仅保留θ res5作为可训练参数的最小集合(其中N-t的冻结参数为θ s-t)。4. 实验为了证明所提出的框架的有效性,我们评估三个不同的公开可用的基准数据集,分别为室内和室外场景。此外,在本节中,我们讨论了我们的适应设置的细节和对标准评估度量的结果分析,以与现有技术进行公平比较。4.1. 实验环境t t t与真实分布匹配,P(Ms(Xs),Y深度,Y法线,Y分段),我们遵循编码器-解码器架构,由Liana等人提出。[30 ]第30段。 解码器架构是s s s常见的对抗性歧视策略[29](见补充-更多细节)。我们将在本文的后续章节中将此框架表示为UM-Adapt-B重复三次,形成C深度,C正常和Csegre。分别为。然而,采用最终基于任务的预测层θND1441不GDist.表1.定量比较UM-Adapt框架的不同消融,并与现有技术进行比较,以进行NYUD-v2的深度估计。第二列指示在训练期间使用的监督目标样本的量。方法辅助核算错误↓Accura cy ↑(γ=1时。第二十五章)rellog10RMS δ γδ γ2δ γ3Saxena等人[五十一]7950.349-1.214 0.4470.7450.897Liu等[33个]7950.230 0.095 0.824 0.6140.8830.975Eigen等人[9]第一章120K 0.215-0.907 0.6110.8870.971Roy等人[47个]7950.187 0.078 0.744---Laina等人[30个]96K0.129 0.056 0.583 0.8010.9500.986同时多任务学习多任务基线00.270.095 0.862 0.5590.8520.942UM-Adapt-B(FCF)00.218 0.091 0.6790.670.8980.974UM-Adapt-B(CCR)00.192 0.081 0.754 0.6010.8770.971UM-Adapt-(noAdv.)- 100.181 0.077 0.743 0.6230.8890.978UM-适应-(noAdv.)00.178 0.063 0.712 0.7810.9170.984UM-适应-(高级)00.175 0.065 0.6730.7830.920.984Wang等人[58个]7950.220 0.094 0.745 0.6050.8900.970Eigen等人[八]《中国日报》7950.158-0.641 0.7690.9500.988Jafari等人[23日]7950.157 0.068 0.673 0.7620.9480.988UM-Adapt-S7950.149 0.067 0.6370.7930.9380.983表2.对UM- Adapt框架的不同消融进行定量比较,并与现有技术进行比较,以在NYUD-v2的标准测试集上进行表面正态估计。方法辅助核算错误↓准确度↑是说中值 11.25o 22.5◦30◦Eigen等人[八]《中国日报》120k22.215.338.66473.9PBRS [63]79521.7414.7539.37 66.25 76.06冲浪[59]79520.712.247.368.976.6[42]第四十二话30k19.011.848.471.579.5同时多任务学习多任务基线025.818.7329.65 61.69 69.83UM-Adapt-B(FCF)024.616.4937.53 65.73 75.51UM-Adapt-B(CCR)023.814.6742.08 69.13 77.28UM-Adapt-(noAdv.)- 1022.315.5643.17 69.11 78.36UM-适应-(noAdv.)022.215.3143.7470.18 78.83UM-适应-(高级)022.215.2343.68 70.45 78.95UM-Adapt-S79521.213.9844.66 72.11 81.08根据标准要求,将上述两种材料制成复合材料。我们使用BerHu损失[30]作为深度估计任务的损失函数,即L深度(.,. )的情况。根据Eigenet al. [8],每个单元法向量上的元素点积像素位置被认为是表面法线估计的损失函数,L法 线(.,. )的情况。类似地,对于分段,即L分段(. . ),基于分类的交叉熵损失是用加权方案来实现的,以平衡梯度从不同的类取决于他们的覆盖范围。我们还考虑了半监督设置(UM-Adapt- S),其中训练从训练的无监督版本UM-Adapt-(Adv.).为了更好地泛化,交替批次的标记(优化监督损失,Lti)和未标记(优化非监督损失,L i +λLCCR)目标样本用于更新网络参数(即,θres5)。数据集。对于室内场景的表示学习,我们使用公开可用的NYUD-v2 [52]数据集,该数据集已广泛用于监督多任务预测。1442表3. UM-Adapt框架的不同消融的定量比较与现有技术的比较用于NYUD-v2的标准测试集上的语义分割。方法辅助核算平均IOU 平均准确度像素精度PBRS [63]7950.332--Long等人[35]第三十五届7950.292 0.4220.600Lin等[32个]7950.406 0.5360.700Kong等人[26日]7950.445-0.721[31]第31话7950.438--同时多任务学习多任务基线00.0220.0630.067UM-Adapt-B(FCF)00.1540.2950.514UM-Adapt-B(CCR)00.1630.3080.557UM-Adapt-(noAdv.)- 100.1890.3450.603UM-适应-(noAdv.)00.2140.3640.608UM-适应-(高级)00.2210.3660.619Eigen等人[八]《中国日报》7950.3410.4510.656Arsalan等人[39]第三十九届7950.3920.5230.686UM-Adapt-S7950.4440.5360.739深度估计、语义分割和表面法线估计。数据集的处理版本由1449个样本图像组成,标准分割为795个用于训练,654个用于测试。当在半监督设置中适应时,我们使用所有3个任务(795个训练图像)的相应地面实况图用于超级训练。损失CNN采用大小为228×304的输入,并遵循各种缩放和翻转的增强[9],并输出三个任务特定的地图,每个地图的大小为128×160。对于合成的对应物,我们随机使用100,000个sam-来自PBRS [63]数据集的pled合成渲染以及相应的干净地面实况图(用于所有三个任务)作为源域样本。为了证明UM-Adapt的通用性,我们考虑了两个不同的任务,语义分割和深度估计的户外场景数据集。对于合成源域,我们使用公开可用的GTA5 [46]数据集,该数据集由24966张图像组成,具有相应的深度和分割地面实况。然而,对于真实的户外场景,广泛使用的KITTI数据集不具有与合成对应物兼容的语义标签另一方面,自然图像Cityscapes数据集[5]不包含地面实况深度图。因此,为了制定同时多任务学习问题并执行与现有技术的公平比较,我们考虑在KITTI[8] 上 进 行 本 征 测 试 分 割 以 比 较 深 度 估 计 结 果 和Cityscapes验证集,以在单个UM-Adapt框架中对我们的室外分割结果进行基准测试。对于半监督设置,我们为交替的KITTI和Cityscapes小批量提供相应的地面实况地图进行监督。在这里,网络的输入和输出分辨率被认为是分别为256×512和128×256培训详情。首先,我们分别针对室内(PBRS)和室外(GTA5)场景,在合成任务标签地图上训练一组任务转移网络。因为在-1443s ss表4.UM-Adapt框架消融的定量比较与现有技术的比较,用于在KITTI数据集的特征测试-分割[9方法目标图像监督错误↓relsq.rel RMSrms(log10)Eigen等人[9]第一章充分0.203 1.548 6.3070.282Godard等人[13个国家]双目0.148 1.344 5.9270.247Zhou等[第六十六话]视频0.208 1.768 6.8560.283AdaDepth [29]没有0.214 1.932 7.1570.295同时多任务学习多任务基线UM-适应-(noAdv.)UM-适应-(高级)没有不不0.3810.280.272.081.991.988.4827.7917.8230.410.3460.336UM-Adapt-S少样本0.2011.725.8760.259门数据集,我们只训练以下两个任务转移网络;N→seg(Y深度,Y法线)和N→深度(Yseg),考虑到表面法线和深度估计的事实。与其他任务对相比,信息的相关性更高。同样对于户外,我们选择仅有的两个任务转移可能的组合N→seg(Y深度)和表5.在Cityscapes数据集的验证集上对UM-Adapt框架的消融与现有技术的语义分割进行定量比较方法图像监控平均IOU[20]第二十话00.271CDA [62]00.289华盛顿特区[55]00.376苏铁[19]00.348[54]第五十四话00.424同时多任务学习多任务基线UM-适应-(noAdv.)UM-适应-(高级)0000.2240.4080.420UM-Adapt-S5000.544从PBRS到NYUD(见表1、2和3)的比较清楚地表明CCR对于结构化预测任务的适应的优越性根据这一推断,所有后来的消融(即UM-适应-(noAdv.),UM-Adapt-(Adv.)和UM-Adapt-S)仅使用CCR作为内容正则化器。利用冻结任务转移网络的梯度→深度segs产生了对UM-Adapt-B的明显改进,如N(Ys)的情况。在此之后,两个独立的基础模型使用具有不同优化的算法1(α= 10)在合成源域上进行全监督训练。[25]每个人都有自己的责任。在获得冻结的完全训练的源域网络之后,C轮廓网络如3.2节中所讨论的那样进行训练,并且在其进一步用作正则化器期间保持冻结。NYUD数据集中所有三个任务的表1、2和3。这突出了有效利用任务间相关性信息以适应多任务学习框架的思想的重要性。为了量化多个任务转移网络对采用单个这样的网络的重要性,我们设计了另一个消融设置,表示为UM-Adapt-(noAdv.)1、只利用N→seg(Y深度,Y法线),用于适应NYUD,如重新4.2. UM-Adapt框架的评价我们已经进行了彻底的消融研究,以确定所提出的UM- Adapt框架的不同组成部分的有效性。我们报告的结果标准的基准指标遵循文献中的每一个单独的任务,有一个公平的比较,对国家的最先进的方法。考虑到同时多任务学习的困难,我们已经在本节的所有表格中清楚地分离了基于单任务或多任务优化方法的现有UM-Adapt的消融研究。 作为一个多任务的基线,我们报告的自然样本的标准测试集上的性能,直接推断冻结的源域参数,而无需适应。除了语义分割的结果外,其他两个回归任务(即,深度估计和表面法线预测)足够强以支持使用多任务学习实现第一级泛化的想法。然而,UM-Adapt的主要重点是通过无监督域自适应实现第二级泛化。在这方面,为了分析所提出的CCR正则化(第3.2节)对FCF [29]的有效性,我们在第3.3.1节定义的UM-Adapt-B框架上进行了实验。报告的无监督adap的基准数字在表1、2和3中移植。 接下来,我们报告一个比较建议的基于能量的跨任务蒸馏框架(第3.3.2节)之间,即 a)UM-Adapt-(Adv.)和a) UM-适应-(noAdv.). UM-Adapt-(Adv.)显示出相对于另一个对应物的最小改进,UM-Adapt-(noAdv.)被发现是显着稳定和更快,因为它不包括参数更新的任务转移网络在适应过程中。与之前的比较结构化预测工程. 最后,通过UM-Adapt框架的最佳变体,即,UM-适应-(高级)提供了与以前的完全监督方法相当的性能(见表1和表3)。必须考虑UM-Adapt所面临的明确挑战,以与一次专注于单个任务的现有技术相比,同时平衡统一架构中的多个任务的性能。这清楚地表明了所提出的方法对实现 跨任务和数据 域的泛化半监督 变体UM-Adapt-S在与其他完全监督方法进行比较时能够实现最先进的多任务学习性能,如表1,2和3所示。请注意,在单个UM中对来自KITTI的深度估计和来自Cityscapes的语义分割的适应性1444图像多任务基线UM-Adapt-(高级)UM-Adapt-S图4.UM-Adapt不同消融的定性比较,即a)多任务基线,b)UM-Adapt-(Adv.)c)UM-Adapt-S。由于输入范围差异(跨城市[4])以及同时多任务优化设置中的挑战,Adapt框架是一项更艰巨的任务即使在这种剧烈的情况下,与表4和表5中报告的其他无监督单任务自适应方法相比,UM-Adapt也能够在深度估计和语义分割方面实现合理的性能。与先前的多任务学习作品的比较。 表6和表7分别在NYUD测试集和CityScapes验证集上比较了UM-Adapt与最近的多任务学习方法[24,65]。它清楚地突出了UM-Adapt-S所实现的最先进的性能,作为所提出的跨任务并行化框架的结果表6.使用ResNet作为基础模型的NYUDv2上的测试误差方法辅助核算深度均方根呃。(m)隔离区呃。(100-IoU)正常错误。(1-|)|)Kendall等人[24日]30k0.702-0.182GradNorm [65]30k0.66367.50.155UM-Adapt-S7950.63755.60.139表7.在Cityscapes上验证mIOU,其中所有方法都同时进行分割和深度估计训练方法语义(平均IOU)Kendall等人[24](不确定。重量)51.52Liu等[34个]52.68UM-Adapt-S54.4学习表征的可转移性。一UM-Adapt的首要目标之一是学习通用的视觉表示,它可以展示跨任务和数据域的改进的可移植性。为了评估这一点,我们在大规模表示学习基准上进行了实验。遵循Doersch等人的评价方案。[7],我们设置UM-Adapt用于ImageNet [48]分类和PAS-CAL VOC 2007检测任务的转移学习。 基础干线至Res5表8.迁移学习在新的看不见的任务上的结果方法骨干分类ImageNet top5检测PASCAL 2007运动分段[41个]ResNet-10148.2961.13示例[7]ResNet-10153.0860.94反相+色谱+质谱[7] ResNet-10169.3070.53UM-Adapt-SResNet-5069.5170.02块从我们的UM-Adapt-(Adv.) 变体(PBRS对NYUD的适应)用于分类和检测任务。对于ImageNet分类,我们在输出Res5块后随机训练初始化的全连接层。类似地,对于检测,我们使用Faster- RCNN[44],具有3个不同的输出头,用于Res 4块后的对象pro-prism,分类和定位。我们分别微调所有网络权重以进行分类和检测[7]。表8中的结果清楚地突显了我们学习的表示的优异的迁移学习性能,即使对于具有较小骨干网的新的看不见的任务。5. 结论拟议的UM-适应框架解决了两个重要方面的广义特征学习公式化的问题,作为一个多任务的适应方法。虽然多任务训练确保任务不可知表示的学习,但无监督域自适应方法提供了投射到公共空间结构化潜在表示的域不可知表示。利用跨任务一致性作为保持空间规律性的重要线索的想法可以在涉及全卷积架构的许多其他场景辅助任务设置的开发是一个有待探索的方向。鸣谢。这项工作得到了CSIR研究金(Jogendra)和RBCCPS,IISc的赠款的我们还要感谢Google印度的旅行资助。1445引用[1] Amir Atapour-Abarghouei和Toby P Brecket。使用合成数据的实时单目深度估计,通过图像风格转换进行局部自适应。在CVPR,2018年。 二、四[2] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在CVPR,2017年。2[3] 瑞 奇 · 卡 鲁 阿 纳 多 任 务 学 习 。Machine learning , 28(1):41-75,1997. 3[4] Yi-Hsin Chen , Wei-Yu Chen , Yu-Ting Chen , Bo-Cheng Tsai,Yu-Chiang Frank Wang,and Min Sun.不再歧视:道路场景分段器的跨城市适应。InICCV,2017.1、8[5] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。6[6] 加布里埃拉·楚卡视觉应用程序的域适应:全面调查。arXiv预印本arXiv:1702.05374,2017。一、二[7] Carl Doersch和Andrew Ziss
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功