没有合适的资源?快使用搜索试试~ 我知道了~
多任务学习中的跨任务注意机制及其在场景理解中的应用
2329密集多任务学习的跨任务注意机制伊万·洛佩斯·因里亚ivan. inria.frTuan-HungVu Valeo.ai,Inriatuan-hung.vu邮件valeo.com拉乌尔·德沙雷特·因里亚raoul. inria.fr摘要多任务学习近年来已成为一种很有前途的解决复杂场景的全面理解通过适当的设计,多任务模型不仅可以节省内存,而且还有利于任务之间互补信号在这项工作中,我们共同解决了2D语义分割,和两个几何相关的任务,即密集的深度,表面法线估计以及边缘估计显示其在几个数据集上的好处。我们提出了一种新的多任务学习架构,该架构通过相关引导注意和自我注意来利用成对的跨任务交换,以增强所有任务的平均表示学习。我们在三个多任务设置上进行了广泛的实验,显示了我们的建议在合成和真实基准测试中与竞争性基线相比的优势。我们还将我们的方法扩展到新的多任务无监督域自适应设置。我们的代码可在https://github.com/cv-rits/DenseMTL上获得1. 介绍深度神经网络架构[12,14]和高效优化技术[1,16]的最新进展不断提高场景理解任务的准确性,展示了自主应用的巨大潜力尽管如此,大多数文献都集中在推动单个任务的性能,无论是语义任务,如分割[4,13]和检测[32],还是几何任务,如深度/法线估计[19,10]。很少有人关注联合语义和几何理解的更全面目标,而在实践中,这在机器人和自动驾驶等关键应用中是可取的。在这些系统中,我们期望在所有任务之间具有协同作用,即.任务应该在一个统一的系统中一起处理,而不是分开处理。可以说,促进这种协同作用可以为所有相关任务带来互利例如,深度图中的破坏性变化可以用信号通知分割图中的语义边界;而某些语义类的像素,图1:MTL框架概述。语义分割、深度回归和法线估计三个任务共用一个编码器E.特定于任务的解码器S、D 和 N通 过 基 于 注 意 力 的 机 制 在 “ 多 任 务 交 换 块 ”(mTEB)中交换信息例如为此,多任务学习(MTL)[3,17,26]已经成为一种有前途的解决方案,因为它试图学习一个在所有任务上平均表现出色的统一模型。一种常见的MTL设计是在任务之间共享大量参数,同时为单个任务保留某些私有参数;通过共享参数交换信息,使得协同流成为可能。最近的一些作品[2,27,33]专注于促进任务交互的新多模态模块。这种MTL模型的一个重要优点是由于共享部分而具有内存效率。在这项工作中,我们采用相同的原则,并设计我们的模型与共享的编码器和专用的任务解码器。最近的MTL方法提供了不同的解决方案,以改善跨任务交换或提取的信息,通常称为多模态提取。PAD-Net[33]和MTI-Net[27]已经证明了自我注意力[29]对MTL的有效性,即一种机制,用于自发现其他任务的每个任务特定特征的最关注信号。因此,ATRC[2]主张更好地看待成对任务相似性,以指导多模态蒸馏。我们部分遵循与ATRC相同的方向,我们的相关性引导的注意力,其中我们使用特定于任务的特征之间的相关性来指导交换消息的构建。此外,我们提出了一个统一的机制,结合了两个不同的关注,相关性-2330pqPTU⭢⭢引导注意力和自我注意力,通过一个可学习的通道加权方案。总之,我们为MTL提出了一种新的多模态蒸馏设计 , 依 赖 于 成 对 的 跨 任 务 注 意 力 机 制 ( 创 造 的xTAM,第3.1节)组合到一个多任务交换块(创造的mTEB,第3.2.1节)。我们解决三个关键任务的户外场景理解:语义分割、稠密深度估计和表面法线估计。 在多个基准测试的广泛实验中,我们提出的框架优于竞争对手的MTL基线(第4.2节)。通过我们新的多任务模块,我们还报告了Cityscapes上语义分割的改进,其中自我监督深度作为辅助任务[13]。从经验上讲,我们在一组新的MTL无监督域自适应(MTL-UDA,第4.5节)中展示了我们提出的多任务交换的优点,优于所有基线。2. 相关工作多任务学习。在神经网络的早期,Caruana[3]引入了具有硬参数共享的多任务学习的思想,即一些参数在所有任务之间共享,一些专用于单独的任务。本着同样的精神,UberNet[17]具有深度架构,可以共同解决大量的低、中、高层任务。Zamir等人[36]进行了一项大规模的研究,在400万张室内场景图像上进行了26项任务,研究了任务之间的依赖性和可转移性虽然这些开创性的工作显示了多任务学习的巨大潜力,但他们确实注意到了一些挑战,最值得注意的是负迁移现象,当联合学习时,这种现象会降低某些任务的性能[17,15]。一些作品[15,5]的理由,负迁移是由于多任务损失的不平衡,并引入机制来随后对这些单独的损失项进行加权。Kendall等人[15]建议通过估计每个任务的同方差不确定性来加权多个损失。Chen等人[5]介绍了GradNorm,这是一种有助于动态调整梯度幅度的算法,以便平衡不同任务的学习速度。随后,Sener和Koltun[24]将多任务学习视为多目标优化,其目标是找到帕累托最优解决方案。跨任务机制。与我们的工作更接近的是专注于改善跨任务交换或蒸馏的方法[33,37,27,2];主要思想是每个任务都可以从其他任务的不同但互补的信号中受益。受视觉注意力在感知任务中的成功启发[34,29,8],PAD-Net[33]使用注意力机制在多模态fea中提取信息具体特点。PSD[38]通过graphlet挖掘和传播补丁式的亲和力,而不是我们用注意力机制来建模交互。Bruggemann等人。[2]介绍了ATRC,以增强基于不同类型和注意力水平的四种关系上下文类型的多模态提取与ATRC类似,我们的方法还利用成对任务相似性来细化特定于任务的特征。然而,不同的是,我们主张通过可学习的权重方案将成对相似性与跨任务自我注意力相结合,以学习补充原始任务特定特征的细化残差。最近的努力寻求标签效率的学习范式,以训练模型的城市场景的理解。托西等[26]介绍了基于知识提炼和自我监督训练的实时多任务网络。Hoyer等人。[13]提出了一种新的架构和不同的策略,以改进具有自监督单目深度估计的语义分割。[13]中的一个发现是PAD-Net[33]的MTL模块补充了其他自我监督策略,并进一步提高了分割性能。在这方面,我们研究了我们提出的模块在这个特定的设置所带来的效果。3. 方法在多任务学习中,目标是优化一组n个任务:iT1,...,在寻求一个普遍的良好表现时-而不是倾向于一个单一的任务。我们的模型采用一个输入图像并进行n次预测。通常,这是通过共享编码器和单独的任务特定解码器来实现的.在这里,我们引入了一种新的机制,通过特征交换来增强跨任务对话,建立在每个解码器由于其单独的监督而发现独特但互补的特征的直觉上[36]。我们在第3.1节中制定了一个双向跨任务注意力机制模块,称为xTAM,输入一对特定于任务的特征并返回两个方向特征。然后,我们在第3.2节中介绍了我们用于场景理解的完整MTL框架,包括我们的多任务交换块(mTEB,见图1)①的人。3.1. xTAM:双向跨任务注意机制基于最近展示任务交互的工作[25],我们的模块试图捕获共享的成对任务知识,同时保留它们的专有(非共享)知识。我们的直觉是,我们可以利用标记为i,j的任务对的特征,并从它们的相关矩阵中自我发现它们之间的相互作用。真的。 在MTI-Net[27]中, Vandenhende等人扩展了PAD-相互作用:ij和jI. 图2示出Net的多尺度解决方案,以更好地提取多模态信息。Zhang等人。[37]建议聚合所有任务的亲和图,然后我们的xTAM组件提取任务之间的知识,将任务特征pfi,fjq作为输入,并返回另一个任务i的方向特征。e.pfji,fijq.2331⭢⭢“⭢D⭢⭢“⭢ ⭢⭢⭢俄.西?DCcorrelation-guided attention(绿色)toi,来自任务j的对任务i有贡献的特征。第二,自我关注⭢⭢⭢?C空间向上-样品空间下采样项目项目提取物掩模通道孔图2:双向跨任务注意力(xTAM)。 我们通过discov实现任务对(i,j)之间的信息流,每个方向特征,fji和f伊什季.仅xTAM朱伊在这里详细介绍。 它依赖于两种注意力机制。 一是(紫色)以覆盖来自R信号j的互补信号selfj。最好的颜色。为了便于讲话,我们描述方向xTAMji注意力特征xtaskji通过乘以相关性其中,任务j帮助任务i,但强调xT AM bein n具有投影的j特征的矩阵Cj∈i双向的,由xTAM ji和xTAM ij两者组成。xtaskji3.1.1方向性跨任务注意(xTAMji)。在这里,考虑i作为我们的主要任务,j作为次要任务,我们试图估计来自任务j的可以对i有贡献的特征。我们利用两个跨任务注意力:(i)相关性引导的注意力,其目标是利用跨任务空间相关性来引导提取次要任务对主要任务的贡献特征,以及(ii)对次要任务的自我关注,以自我发现对主要任务有益的互补信号在图中,两种注意力的可视化分别用绿色和紫色表示。2所示的序列。注意,每个注意力对主要任务i的贡献不同其中V P Vs2f j,P V为1x1投影,s为上采样算子。自我关注。 我们还使用了空间注意力[33]我们称之为相反,下面的机制(紫色块图。2)仅从j中提取特征,并且旨在从fj中提取与预测任务i相关的私有信息:selfji是 我 们 的 自 我 关 注 特 征 。 其 中 是 元 素 乘 法 , σ 是sigmoid函数。Ff和Fm都是卷积层,它们由目标任务i监督,以学习从其中提取相关信息。或者基于共享的j和i知识的识别,或者基于特征fj.自我关注的特点是自我ji被定义为独家J知识我们使用1x1卷积层(图中的灰色块)。2)尺寸兼容性。相关引导注意力。 为了引导功能,我们依赖于来自Ff的特征与由Fm提供的动态掩模之间的逐点相乘。方向性特征。为了构造最终的方向有限元-任务特征的空间相关性(图雷斯夫朱伊为歼i互动,两个注意力为主见图2)。在实践中,我们将缩减的fi和fj特征投影到d维子空间上,如[29]中所示,使得K P Qsfi,QPKs2fj,其中s是缩减算子,s是比例因子,并且P Q,P K分离1x1卷积。然后,通过对矩阵乘法K TQ应用softmax并使用d进行归一化来获得空间相关矩阵ji:特征图被组合为:f ji“rdiagpα1,...,α cq ∈ xtask ji,self jis,(4)其中,. 是通道级级联操作,α1.. c是可学习的标量,用于对c个通道进行加权的xtaskji.所有α1.. c初始化为0;学习将自适应地调整每个通道的加权。直觉上,跨任务交换首先只从自我注意开始,然后CjiTQstec.(一)逐渐调整α1。c值以包括来自相关性引导的注意力的一些贡献。 这个首字母-化策略对于稳定训练非常重要,特别是其中d是特征尺寸[29]。直觉上,ji具有高值,其中来自i和j的特征高度相关2332⭢⭢在这里我们结合了不同类型的注意力。总的来说,双向xTAM块由两个否则,我们使用低值来加权特征,定向块,xTAMj关于xTAM;它同时从. 随后,我们得到了我们的相关指导对于每个p任务对。伊什季fjfj i菲伊杰i,jq2333upqpq⭢|吉吉你说呢俄.西吉吉⭢吉吉3.1.2讨论我们的xTAM设计不同于现有的多模态蒸馏模块[33,27,2]。虽然PAD-Net[33]和MTI-Net[27]只考虑跨任务自我注意力来提取多模态信息,但ATRC[2]对成对任务相似性进行建模,这与我们的相关引导注意力有着相似的精神。与之不同的是,我们的xTAM学习使用可学习的加权方案自适应地结合跨任务自我注意力和相关引导注意力。值得注意的是,采用MTI-Net[27]的多尺度策略或具有ATRC[2]的其他成对模块与我们的xTAM正交。通过系统地将这些策略与xTAM相结合,可能会有潜在的改进。然而,我们集中在这里给xTAM的设计和应用程序的广泛研究,我们离开这样的组合为未来的调查。3.2. 多任务学习框架。Depth,N normal.我们首先描述我们的3.2.1多任务交换块(mTEB)。我们的块可以在解码器的任何阶段插入,将输入任务特定的特征作为输入,这里是f S,f D,f N,并输出细化的特征,这里是fS,fD,fN。 的块由每个任务对的一个双向xTAM模块(第3.1节)组成,每个模块返回两个融合到输入任务特征的方向特征考虑到i是主要任务,我们沿着通道维度连接n'1个方向特征f jijPTztiu,对任务i有贡献。然后用F处理连接的特征图(在图1中描绘为方块)。3):1x1卷积,然后是批量归一化[14]和ReLU激活。投影特征然后通过元素加法与主任务库特征fi融合表示,导致最终的细化特征f:“fiFirfji|jPTztius,(5)其中. 是通道级级联操作。实际上,xTAM方向特征结合在构成多模态残差,原始特征fi.通过设计,细化特征具有与输入任务特定特征相同的尺寸尽管可以在解码器中的几个级别插入mTEB我们的实验表明,整体的最佳选择是有一个单一的块之前的最后一层。图3:我们的跨任务MTL框架。我们联合预测语义分割(S,蓝色),深度(D,橙色)和表面法线(N,绿色)。所有任务共享编码器(E),并具有专用解码器(如图所示)。我们的跨任务注意力模块被插入到“多任务交换块”(mTEB)(第3.2.1节)中这里,使用三个xTAM模块来提取方向特征对,其中每个模块表示3.2.2训练为了训练我们的框架,我们使用多尺度多任务对象,定义为在解码器的两个或更多个阶段应用的任务损失的线性组合:在任何mTEB之前,以及在全分辨率输出上。虽然我们没有明确地引入损耗来鼓励跨任务蒸馏,但xTAM和mTEB的设计隐含地使这成为可能。补充资料中有更多细节4. 实验从一个任务到另一个任务的互补信号,例如, f DS封装提取的深度信息(D)以改进分割任务(S)。多模态方向特征被组合在方形块中,从而产生用于细化的多模态残差任务特定的损失(以红色显示)在我们的mTEB之前和之后应用。我们专注于语义和几何估计任务,因为它们对于场景理解,特别是户外环境至关重要。图3概述了具有唯一编码器E的MTL框架,并示出了在三任务设置中三个不同任务解码器(S、D和N)之间发生的交互:分割,我们目前的结果和消融研究,我们提出的框架。虽然密集的多任务学习文献缺乏统一的基准设置,但我们努力在评估中具有综合性,将4个任务合并为3个任务集,并在4个数据集上进行评估,具有4个基线–第4.1节描述了我们的实验和多任务设置。对我们的贡献的评价是三方面的。首先,在第4.2节中,我们的MTL提案在三个任务集上进行评估:'S-D'(分割+深度)、'S-D- N '(+法线)和'S-D-N-E'(+边缘)。在第4.3节中,我们阐述了mTEB中融合的位置和选择以及xTAM中相关性引导注意力的替代F2334Lp qp q为““t“tř{p ′ q p′ q{P´´´“´´LL`ˆ`ˆˆˆ“t其次,在第4.4节中,我们展示了我们的多任务策略在学习自监督深度回归时最大化语义分割第三,在第4.5节中,我们进一步扩展和评估我们的MTL无监督域自适应框架。4.1. 实验装置4.1.1常见的设置。数据集。我们利用两个合成数据集和两个真实数据集 : [22][23][24][25][26][27][28][29][2 在 Cityscapes中,我们通过半全局匹配使用立体声的深度。 表面法线标签是根据深度图估计的[35]。最后,NYUDv2提供了我们用于超级视觉的地面实况语义边缘图。我们在VKITTI 2上训练了14个类的语义分割,在NYUDv 2上训练了40个类,在Syn- thia和Cityscapes上训练了16个类。在VKITTI 2和Synthia中,我们执行随机80/20分割。在Cityscapes和NYUDv2上,我们使用官方分割并在1024 512和1024 512加载图像。576 448人。在VKITTI 2上将其缩放至1024 320,在Synthia上缩放至1024 512。基线。我们遵循最近的调查[28],并将我们的性能与单任务学习网络(STL)进行比较,其中每个任务都由专用网络单独预测,以及使用共享编码器和特定任务解码器的朴素多任务学习PAD-Net[33]是比MTL更具竞争力的基线。我们解决了PAD-Net的两个变体:(i)[33]中使用的原始模型和(ii)[13]中引入的更强模型(“3-ways PAD-Ne t”)。为了寻找空气的比较,请注意,我们-通过最好的再培训,调整每个基线以适应我们的设置。细节在supp。架构所有网络都有一个共享的ResNet-101 [12]编码器,使用ImageNet [7]初始化,以及根据任务集的适当数量的解码器。STL、MTL和PAD-Net基线的解码器来自调查[28]。在Vise表面法线训练中,我们使用[11]的方法:Nn<$1cos n<$,n,其计算估计的n个法线向量与地面真实n个法线向量之间的余弦为cos n<$,n n<$nn。使用我们的任务平衡策略。单任务指标。我们为每个任务报告一个标准度量:用于语义分割的平均交集(mIoU)、用于深度回归的以米为单位的均方根误差(RMSE)、用于表面法线估计的以度为单位的平均误差(mErr)、以及用于语义边缘估计的F1得分(F1)。4.1.2多任务设置。任务平衡。我们观察到任务损失权重严重影响多任务模型的性能,类似于[28],尽管我们也注意到权重主要随着损失函数及其相互作用而变化,而对数据或模型的影响要小得多。 这是相当合理的-知道梯度与损失项幅度成比例。因此,如[28]中所述,我们对每个唯一的任务集应用网格搜索,并对所有方法使用相同的最佳权重集。 对于TS,D,我们得到W S我们得到wS100,wD 1,wN 100,然后选择TS, D, N, E,wS100,wD 1,wN 100,wE 50 .重要的是,这种搜索是在MTL基础上完成的-确保我们不以任何方式支持我们的方法。MTL指标。同样,我们的目标是提高模型在一组任务T上的整体性能,我们使用[28]编写的Δ T度量来测量。后者测量给定多任务模型与指定单任务学习(STL)模型的性能相比的相对性能:Tpfq“1NIT1gimibibi,其中mi和bi分别是模型f和STL模型的任务i上的度量,gi是改进的度量方向,即,gi当我们坚持[13]的三种方式PAD-Net 我们的模型,我们-当更高时是更好的R,而当更低时是更好的R。使用Atrous空间金字塔池化[4],然后是具有跳过连接的四个上采样块[21]。培训详情。 我们训练所有模型进行40k次迭代,将梯度范数裁剪设置为10,并将学习率降低0。30k步,如[13]。我们使用Adam优化器[16]训练MTL模型,β为10。9和β20。98;学习率设置为2。0 e 4用于骨干,和3.对于所有解码器,0e4。在其他模型中,我们使用SGD优化器,将骨干和解码器的学习率设置为1。0和1。0e 2,分别为[13]。动量为0。9和重量衰减5。0e 4。我们报告三次运行的平均值和标准差监管我们使用交叉熵进行语义分割S和边缘估计E[2]。BerHu的损失[18]被应用于深度回归的逆归一化值,如LDpdq“,Tosuper-4.2. 主要结果表1(室外)和表2(室内)报告了我们在4个数据集和3个多任务设置上的主要实验:'S - D ',' S - D -N '和' S - D - N - E '.在几乎所有的设置中,我们的跨任务注意力机制都优于基线。从表1中可以看出,在具有完美分割和深度标签的合成Synthia数据上,我们的模型优于所有基线的幅度高达5。在' S - D '中为69个SD,最多为5个。在' S - D -N '中有75个字符在实际的Cityscapes数据中,具有立体深度伪标签,我们的模型仅在'S-D'设置中优于3-waysPAD-Net在' S - D - N '中。 PAD-Net对MTL基线的改进证实了自我注意机制的好处[33]。在多任务学习的不同背景下重新审视[13]中介绍的2335pqpqp q pqp q pqp q pq`ÞÑÞÑ我们观察到3路PAD-Net的性能在PAD-Net上有显著的飞跃,这两种模型仅在解码器设计上有所不同由此可见解码器在MTL中的重要性。此外,最佳的整体性能(即,三角形金属-rics)与最佳的个人任务表现相吻合,这显示了一起处理多个任务的好处令人惊讶的是,在“S-D- N”设置中在addi- tion的SDNfSDN度量,我们报告了一个部分增量测量SDNfSDN。这使我们能够分别比较fSD和fSDN, 我们记录到的差距高达+3.23点之间的SDS-fSDN和SDS-fSD,显示的好处,注入额外的几何线索的形式,表面法线,以帮助其他两个任务。我们注意到,我们的报告遵循同样的观察,苏丹f在所有数据集上使用SDN在表2中,我们报告了NYUDv 2的室内结果,它具有额外的边缘标签,因此报告我们的方法在3个任务集中优于所有基线部分增量度量分别强调了法线和边缘估计的优势。使用边缘信息的与“S - D- N "相比,”S-D- N - E“中的SDN +7.52 vs+6.49),但也导致更好的个人S/D/N指标。这多任务特征融合。考虑尺度为1的单个mTEB,我们替换等式中的原始添加融合算子。(5)具有级联或乘积,并且表4a中的报告结果示出了该选择影响总体增量度量。我们注意到,差距在其他数据集上有所不同,尽管“add”和“prod”始终是最好的。相关引导注意力。虽然我们最初的xTAM设计(参见第3.1节)使用空间注意与方程。(1)对于跨任务相关性引导的交换,文献中存在其他实践[27]。因此,在表4b中,我们将注意力的选择替换为等式4b。(1)使用空间注意力、信道注意力或两者。结果表明,通道的注意力或两者都是效率较低的,在这里,并在较高的实现复杂度。在补充材料中,我们表明,为了达到最佳性能,在xTAM中,最好结合相关引导注意和自我注意。4.4.用于分割的我们现在通过关注语义分割来评估我们的多任务策略-通常被视为场景分析的核心任务。在表5中,我们报告了在“Cityscapes "上使用两个任务(语义+深度)的性能训练,其中与先前的结果不同,我们使用具有 Monodepth 2 [10] 的 S 自 监 督 monocular D epthE stimation(S),如“3-way”[13]。在后者中,建议的策略是使用显示了我们的框架从更好的额外线索中受益PAD-Net的多任务模块(PAD-Net” in场景理解。图4显示了Cityscapes数据集的定性结果。这是明显的,当看薄元素(例如,行人、自行车等。)和对象轮廓。视觉效果与定量分析相当一致。更多的结果在补充。4.3.消融研究我们报告了在“S-D”和“S-D- N”设置下对VKITTI 2数据集的跨任务蒸馏模块的消融我们使用我们的模块的不同组合来评估我们的方法,改变交换块的位置和数量(表3),改变使用的融合类型(表4a)或使用的注意力类型(表4b)。多任务交换。在表3中,我们报告了我们的MTL框架与mTEB的变化(参见表3)。第3.2.1节),其中尺度s是从输入分辨率下采样的数量。我们观察到,对于单个块(上部分,表3),如果块被放置在解码器的早期(即,比例4),而不是在解码器中较晚(即,标度1)。这遵循了直觉,即后期特征更具有任务特定性,因此更适合跨任务蒸馏。使用几个模块(下半部分,表3)显示出略微有益,并且以显著更多的参数为代价柱)。表5)。 我们类似地进行,但是用我们的mTEB替换上述模块(下文中,“3-路mTE B“)。有关深入的技术细节,请参阅[13]注意,“3-ways PAD-Ne t“和“3-ways mTE B“都不尽管如此,表5显示使用我们的模块,即。3-waysmTEB,achievee esbestresults(3. 20mIoU)。这显示了我们的多任务模块的增加的好处。4.5. UDA的MTL无监督域自适应(UDA)是处理源域(其中我们有标记数据)和目标域(其中只有未标记数据可用于训练)之间分布变化的研究路线在这里,我们将我们的实验扩展到新的MTL非监督域自适应设置(MTL-UDA),其目标是在目标域中的所有任务上平均表现良好。我们认为,任务交换是有益的MTL-UDA,因为语义和几何相关的任务表现出不同的行为和敏感性的域的变化,并被证明是互补的。我们利用典型的合成到真实场景:辛西娅城市景观和VKITTI 2城市景观,报告结果的' S - D '集。虽然语义分割由于颜色的变化而降级,但深度估计更多地受到场景组成和传感器的变化的影响2336方法STL[28]MTL[28]PAD-Net[33][13]第十三话67.43美元。155.379美元。05569.83美元255.166美元。063+03.760。7770.87美元154.917美元。014+06.850。2477.50元174.289美元。028+17.600。13一罪同定71.27美元。215.108美元。076+05.370。8372.27美元。254.949美元。072+07.580。5679.93美元。54.218美元。082+20.060。92STL[28]MTL[28]PAD-Net[33][13]第十三话84.53美元065.720美元。02787.73美元。125.720美元。029+01.890。2188.43美元。125.571美元。058+03.630。4596.13美元。154.013美元。051+21.780。54一罪同定87.83美元。215.714美元。033+02.000。2788.67美元。155.543美元。043+04.090. 2996.87美元063.756美元。013+24.460. 14STL[28]MTL[28]PAD-Net[33][13]第十三话67.93美元066.622美元。02070.43美元。126.797美元。520+00.520。3270.23美元。256.777美元。010+00.520。2775.00美元106.528美元。063+05.910。44一罪同定70.93美元。156.736美元。023+01.340. 2870.67美元。066.755美元。018+01.000。1775.50元106.491美元。081+06.560。61+07.61美元。04七十六点零八分。146.407美元。013+04.96美元。0874.95美元106.649美元。003我们+30.700。0597.53美元063.089美元。006+27.47美元。1697块103.423美元。025我们+23.83美元。9882.99美元。384.056美元。076+21.040。5280.53美元434.161美元。022我们三角洲净现值%Merr. °法线方向p q pq‘‘塞姆塞格河mIoU %深度计均方根误差m三角洲标准差%塞姆塞格河mIoU %深度计均方根误差m三角洲标准差%19.61美元。1218.51美元10+05.45美元。7219.28美元。09+05.620. 4315.54美元14+20.29美元。8414点30分15+24.92美元。8723点14分6822点半68+02.540. 8022点16分70+04.09美元。8315.54美元56+27.25美元。9014.44美元52+33.00美元。7344.10美元0143.60美元01+01.30美元。1843.52美元00+01.120. 1141.84美元05+06.09美元。3740.05美元33+08.15美元。22表1:两组的MTL性能。 我们报告单个任务指标,但寻求最佳的整体性能,w.r.t. STL除了我们还报告了“S-D- N”中的C-SD, 关于SDN的通知苏丹f强调了表面法线估计的重要性。我们强调最好的和第二好的。‘‘‘方法塞姆塞格河mIoU %深度计均方根误差m三角洲标准差%塞姆塞格河mIoU %深度计均方根误差m三角洲标准差%法线方向Merr. °三角洲塞姆塞格河mIoU %深度计均方根误差m法线方向Merr. °三角洲边缘F1%三角洲净现值%净现值%SDNE%STL[28]38.70美元10 0.635美元。013idemidem36.90美元26idemidemidem54.90美元00MTL[28]39.44美元34 0.638美元。004 +1.630。3739.90美元41 0.642美元。003+1.89美元。6736.07美元。09 +1.760。5339.70美元35 0.636美元。00136.10美元。12 +1.880。33 55.11美元15 +1.500。20PAD-Net[33]三十五点半840.659美元。004 -5.36美元8336.14美元。300.660美元。006-4.32美元6836.72美元08-2.97美元4336.19美元。240.662美元。00536.58美元06-2.92美元3754.79美元07 -2.24美元26[13]第十三话39.47美元。160.622美元。001 +2.90美元。2340.28美元30 0.619美元。004+4.16 0。5035.35美元。09 +3.93 0。2740.16美元28 0.614美元。01035.25美元09+4.14 0。65 59.66美元16 +5.27美元。49我们38.93美元35 0.604美元。004 +3.54 0。2140.28美元41 0.598美元。002+5.80 0。6533.72美元14+6.49 0。5040.84美元37 0.593美元。00433.38美元。19+7.52 0。27 61.12美元。24+8.47美元。12表2:在三组任务上评估的NYUDv2结果。 我们为每个集合报告一个delta度量,如表1所示,并提供部分度量SDNSDpfSDNq和SDNSDNpfSDNEq来比较集合之间的差异,并强调在框架中插入额外任务的好处。我们强调这样一个事实,即使对于其他任务,边缘估计也可以验证边缘估计的好处。输入图4:Cityscapes在“S-D- N”设置中的定性MTL结果. 第一行显示输入图像及其分割、深度和正常地面实况。我们的模型的分割结果总体上更好,特别是在边界区域与3路PAD-Net和Ours相比,PAD-Net的曲面法线更模糊。法线深度分割城市景观VKITTI2Synthia[33]第十三届全国政协委员地面实况我们2337ÞÑ``你好mTEB天平4 32 1‘‘参数Ó#M添加塞姆塞格河mIoU %深度计均方根误差m三角洲标准差%参数Ó#M添加塞姆塞格河mIoU %深度计法线方向RMSE m mErr.°三角洲净现值%消融‘塞姆塞格河深度计法线方向RMSE m mErr.°三角洲净现值%mIoU %0.0096.88美元。303.604美元。02025.81美元。330.0097.38美元。023.491美元。04114.50美元。5730.51美元。98康卡特产品公司97.43美元063.315美元。09914.83美元。4331.08美元。6197.63美元063.139美元。02414.34美元。4932.90美元。81✓3.09✓3.09✓0.7797.32美元063.556美元。02926.50美元。2997.24美元。033.476美元。01827.15美元。1697.07美元063.468美元。01627点11分122.322.329.2697.43美元043.559美元。02414.51美元。5030.12美元。7997.49美元083.353美元。02514.45美元。4831.43美元。7697.47美元063.244美元。03514.57美元。5131.89美元。92加上97.53美元。063.089美元。00614.44美元。5233.00美元。73(a) 融合操作0.7797.00美元103.423美元。02527.47美元。169.2697.53美元。063.089美元。00614.44美元。5233.00美元。73价格 3.8697.09美元。033.369美元。02227.99美元。1811.5897.53美元023.080美元02514.47美元。5733.02美元。90空间97.43美元063.315美元。09914.83美元。4331.08美元。61价格4.6397.01美元。023.377美元。00827.88美元。06十三点八九97.39美元023.136美元。04614.81美元。7732.13美元。3997.08频道243.585美元。04715.03分。5128.70美元92✓ 价格7.7297.05美元。033.369美元。01027.97美元。08二十三点十五分96.82美元233.307美元。06615.39美元。6530.08美元。39表3:VKITTI 2上的消融改变了mTEB的位置。上半部分显示我们的街区是都是97.33美元。113.352美元。06814.85美元。4830.42美元。51(b) 类型的注意当位于解码器的后面时更有效(即,表4:VKITTI 2上的消融。我们比较不同的特征。使用更多的块会导致以更多参数为代价的小幅提升('Param.'列费伦特融合算子方程。(5)在4A中,而─表示蒸馏段的尺寸)。注意xTAM的输入选择,在4b。方法■ 路■ swalk ■ build. ■ 墙■栅栏■杆■灯■标志■蔬菜■天空■ 人■ 自行车■ 自行车mIoU %[13]第十三话***- 我的天啊*我是说*71.163路PAD-Net [13个国家]97.2179.3890.5047.6849.6851.1749.4164.6591.40 93.8572.4146.9292.66 80.17 42.4366.3969.743周mTEB我们97.6282.2992.4446.5254.7659.8260.9473.1392.2294.5576.4058.4994.26 85.1471.7074.36表5:使用Cityscapes的语义分割。我们插入PAD-净蒸馏块或mTEB:“3路PAD-Net”或“3路mTEB”,分别在[13]的架构中。* 我们只报告mIoU,因为[13]没有发布他们在全集上训练的模型权重。架构调整。我们采用基于输出级DA对抗训练的简单多任务域自适应(DA)解决方案[30,31,23]。作为输出级技术人员,niques不改变基本的MTL架构,它允许不同的,STL目标STL源67.93美元0606.62200. 02-0235.63美元。6713.79美元。二十八岁77.10美元。1006.62美元。02- 0258.77美元0611.99美元。34-正确理解我们的MTL设计是否有利于适应。对于每个任务,一个小的神经网络与主MTL模型联合训练,作为对抗游戏中的双方。虽然鉴别器试图告诉输入数据来自哪个域,但MTL模型试图通过使源和目标域的输出不可区分来欺骗所有鉴别器,这最终有助于对齐源/目标。完整的网络和培训详见补充材料。基线调整。 我们使用相同的基线, 并引入补丁鉴别器来对齐处理后的输出预测图。我们使用STL-UDA模型-由单个任务解码器和一个输出类型组成-作为测量增量度量的基线我们在混合批次中对源数据和目标数据训练所有方法,其中包含来自任一域的两个实例。结果在表6中,结果显示使用我们的多任务交换显著提高了所有场景和指标的性能。与MTL结果一起,我们报告了STL源,仅在源上训练,以及STLoracle,在标记的目标上训练。在Synthia Cityscapes中,我们的方法非常显著地优于幼稚MTL-UDA基线38。1个SD,8个。在VKITTI2 Cityscapes中获得34分SD,也符合最佳个人任务指标。一个在-MTLta rg et70.430. 1206.79美元。52-7
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功