在线知识提取的多任务学习方法及其在计算机视觉中的应用

169 浏览量更新于2023-10-15 收藏 772KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2359面向多任务学习的在线知识提取GeethuMiriamJacobV ishalAg arw al B joürnStengerRakutenInstitute of Technology，Rakuten Group，Inc.{geethu.jacob，vishal.agarwal，bjorn.stenger} @ rakuten.com摘要多任务学习（MTL）在计算机视觉任务中得到了广泛的应用。我们训练骨干网络学习不同任务的共享表示，例如语义分割，深度和法线估计。在许多情况下，负迁移，即。目标域中的性能受损，导致MTL准确性低于训练相应的单任务网络。为了缓解这个问题，我们提出了一种在线知识学习方法，其中单任务网络与MTL网络进行模拟训练，以指导优化过程。我们建议有选择地训练层，为每个任务使用自适应特征蒸馏（AFD）损失与在线任务加权（OTW）计划。这种逐任务的特征提取使得MTL网络能够以与单任务网络类似的方式进行训练在NYUv2和Cityscapes数据集上，我们分别显示出比基线MTL模型提高了6.22%和9.19%，优于最近的MTL方法。我们在烧蚀实验中验证了设计选择，包括使用在线任务加权和自适应特征蒸馏损失。1. 介绍多任务学习（MTL）有助于扩展现实世界的应用，其中需要同时解决多个任务。MTL已广泛用于计算机视觉领域[1，2，3，4，5，6，7，8，9，10，11，12，13]，NLP [14，15，16]和语音识别[17，18]。具体来说，我们专注于逐像素的预测任务，如SEMANIC分割，深度估计和表面法线估计从图像。大多数现有的MTL技术依赖于分支架构，其中大多数参数在所有任务之间共享，只有少数参数专门分配给每个任务。这样的共享网络架构是存储器高效的，并且增加了推理速度。然而，MTL模型往往表现出更差的性能相比，相应的单任务模型。这个问题被称为其中一个任务中的性能改进导致另一个任务的性能下降。已经提出了许多技术来缓解这个问题，包括任务加权[10，19，20]，特征融合[1，2]，特征选择[1，20]，[21]，[22]，[23]，[24]，[25]，[26]，[27]，[28]，[29]，9、23、24]。视觉变换器（ViT）已经成为许多任务的成功技术，例如图像分类[25，26]，对象检测[3，27]和像素预测问题，例如深度估计[28，29]和语义分割[30]。最近已经提出了用于多任务场景理解的基于变换器的技术[31，32，33]。由于它们在不同任务中的出色性能，我们还使用了一个基于ViT的MTL架构，该架构具有共享的主干和特定任务的头部，可以同时学习多个任务当应用于多任务学习时，知识蒸馏方法已经显示出有希望的结果[8，9]，其中当前最先进的方法使用预先训练的模型作为教师模型。Zhou等人提出了一种在线蒸馏方法[34]用于学习轻量级模型，其中执行增强器和轻型网络的同时训练通过同步训练，助推器网络在整个训练过程中通过提示丢失来传输知识并指导轻量级模型。受此启发，我们提出用多个单任务网络训练MTL网络，其中单任务网络在整个训练过程中指导MTL网络。这导致减少推理时间和内存需求，同时实现可比的准确性，以单任务模型。所提出的方法与其他知识蒸馏方法[8，9]的区别在于，与使用预先训练的模型相比，在自适应特征蒸馏（AFD）和在线任务加权（OTW）的帮助下同时训练单任务和多任务模型。AFD组件在训练期间的每次迭代中选择性地将特征知识从单任务模型提取到多任务模型。自适应特征提取的想法是由观察到的共享骨干的不同层对每个层的贡献不同而2360STLMTL图1：模型概述。多个单任务模型与多任务模型同时训练。特定任务损失用于训练单个任务（Li）和单个任务（M i）的任务头，）和多任务模型（Li）.一种自适应特征提取损失（AFD）算法在单个模型和多任务模型的中间特征之间使用在推理时，仅使用MTL模型任务[21]。由于单任务模型和MTL模型是一起训练的，因此可以相对于单任务模型来监控每个任务的MTL模型的训练。除了特征加权之外，我们还引入了在线任务加权（OTW）方案，其中权重基于每次迭代时单任务和多任务模型的损失值总体框架如图所示。1.一、总之，本文的贡献是（1）一种新的单任务和多任务模型的同时训练策略与在线知识蒸馏，（2）使用从单任务和多任务损失值计算的任务权重我们在两个公共数据集上的实验中证明了这种方法的有效性，并评估了消融研究中的2. 先前工作我们的方法主要探讨了使用视觉转换器的多任务学习（MTL）的帮助下，在线知识蒸馏。在这里，我们讨论多任务网络和知识蒸馏的相关工作。多任务学习。多任务学习（MTL）的目的是利用相关任务的训练数据中的信息来学习共享表示[1，19，35，36，37、38、39、40]。最近的一篇调查论文讨论了多任务学习的各种方法[41]。在计算机视觉中，MTL已被用于广泛的任务，包括图像分类[36]，面部标志定位[39]，场景理解任务[19]。几种用于场景理解的MTL技术提出如任务加权方案估计用于组合每个任务的损失函数的合适权重[6，7，10，11，19，20]。基于梯度的方法，如Grad-Norm [4]，改变任务的梯度大小以规则化训练。PCGrad [42]修改梯度，以便将任务梯度投影到具有冲突梯度的任何其他任务的梯度的法向平面上。这有助于减轻负迁移，常见于MTL [4，42]。[1，2]中采用的另一种方法是首先训练单独的单任务模型，然后融合中间特征以获得更好的泛化。基于注意力的方法，[20]，以及其他特征加权方法[21，43]，它们计算每个任务的特征层的重要性。最近，一些不同的加权方案的任务损失已经推出。Guo等[5]观察到任务难度的不平衡可能导致对较容易的任务的不必要的强调，从而导致困难任务的进展较慢。为了使模型能够动态地优先考虑权重较大的困难任务，提出了动态任务优先化类似地，Kendallet al.[19]在训练过程中，使用模型输出的任务相关同方差不确定性来权衡Sener等人[10]制定MTL作为一个多目标优化任务，并提出帕累托优化使用弗兰克-沃尔夫算法学习损失的权重。在[20]中计算了基于每个任务的损失进展的动态权重作为DWA的扩展第一阶段对所有任务使用相等的权重，2361Σ。L=L+LAFDMTLSTLMTL第二阶段基于任务级损失和总体损失来计算权重，并且第三阶段使用基于前两个每次迭代中损失梯度的大小被视为[6]中的任务权重。低梯度幅度表示正确地学习任务，并且可以减小对应的权重。另一方面，大的梯度幅度表明对任务的突然训练，需要进一步关注。其他工作提出了交叉亲和模式[44]或使用graphlet [22]的模式结构，并在任务之间传播它们一些最近的作品[23，24，45，22，33]分阶段执行多任务学习，其中多任务网络首先用于初始预测，其中的特征用于获得其他任务的预测。我们提出了一种基于在线知识蒸馏的任务加权策略，其中MTL网络被鼓励有类似的STL网络的损失。知识蒸馏（KD）。我们的工作与知识蒸馏有关[46，47，48，49，50]。 Hinton等人[46]表明集成网络的知识可以提取到神经网络中，从而有助于以较低的推理时间实现更好的性能。罗梅罗等人[47]通过引入知识蒸馏的各种提示损失扩展了这项工作。知识蒸馏也被用于各种MTL技术中。Parisottoet al.[51]，Clarketal.[52]使用深度强化学习和模型压缩来训练单个网络，该网络使用知识提取来学习执行多个任务。[34]中提出了火箭发射，它同时训练一个较轻的网络和一个大的（助推器）[34]中的工作提出了使用知识仿真联合训练booster和lighter网络，用于模型压缩。在本文中，我们提出了在线知识蒸馏训练的多任务网络，具有类似的计算和内存需求的单任务网络。我们还设计了基于单个任务的损失值和MTL的任务KD方法最近被证明在场景理解任务的多任务学习中表现良好[8，9，53，54]。KD-MTL [8]和多教师知识库-辅助任务的KD训练多任务模型，我们的方法训练单任务和多任务网络联合。视觉变形金刚。变换器已经被提出用于图像分类[25，26]、视觉问答（VQA）[55，56]、对象检测[3]、27]、语义分割[30，57]和深度估计[28，29]。带有转换器的多任务模型已经在自然语言处理领域被提出。最近，基于transformer的方法已被引入多模态任务，涉及语言和视觉[12，13]。这与最近的工作[33，31，32]同时进行虽然方法[33]结合了多尺度聚合和自我注意力消息传递以高分辨率产生特定于任务的预测，但方法[31]在变压器中使用特定于任务的查询和跨任务注意力模块进行多任务学习。与此同时，[32]探索了将多任务转换器推广到看不见的领域的问题基于Transformer模型的成功，提出了一种多任务学习的骨干知识提取训练方法，并重点研究了3. 方法我们的框架，如图。1，由一个多任务网络组成，该网络具有共享的Vision Transformer（ViT）[25]骨干和N个任务的单独头。该架构还包括具有单个头和ViT骨干的单任务网络，具体到一个任务。我们提出了一种训练策略，在该策略中，我们在Nt个任务上同时训练单任务模型和多任务模型。单任务网络在整个训练过程中指导多任务网络的优化。多任务网络权重通过中间特征上的补偿损失与单任务网络相关联。通过最小化以下损失函数，以端到端的方式训练模型：NtLation [53]分两个阶段进行训练，其中第一阶段训练单任务模型，第二阶段通过从每个单任务模型的倒数第二个特征层中提取知识来方法[54]使用我STLi=1+λiΣ，（1）一种自我升华的损失，其中L是表示第i个任务MTL的同一网络。自我协调的知识单任务网络Li是特定于任务的损失，在[9]中提出了融合网络，其中学生从异构的预先训练的教师学习。一些工作建议从同一多任务网络的其他任务的初始预测中提取信息，以单个尺度[23]或多个尺度[24]。与这些论文相比，它们采用预先训练的模型或使用预测多任务网络的第i个头端（第二，3.2)和LAFD去注意自适应知识蒸馏损失（sec.3.3.1）单任务和多任务网络的特征损失权重λ i，i= 1，2，.，在每个任务的每次训练迭代中，基于单任务和多任务模型的损失值计算（第二节）。3.3.2）。2362×××MTLMTLMTLMTLSTL××××∼ ×∼×STL....iSTL图2：任务头详细信息。（a）分类头和（b）回归头的结构细节。来自Transformer编码器的补丁嵌入以及类/回归查询通过两个Transformer层传递。分类头上采样并获取嵌入的argmax，而回归头通过MLP传递嵌入并上采样它们以获得预测。可以设置为128）是连同N个补丁嵌入一起传递到具有两个Transformer层的回归头的查询嵌入的数量，每个补丁嵌入具有维度E计算来自Transformer层的输出查询和补丁的标量乘积（输出维度，N 补丁 Nreg）并通过MLP块。我们在MLP块中使用一系列线性层，最后一个线性层的输出维度取决于任务。深度估计的输出维度是N块1，而表面法线估计的输出维度是N块3。输出将被上采样并重新整形为图像大小。3.2.特定任务损失考虑到任务的不同性质，我们使用特定于任务的损失函数。我们使用交叉熵损失进行语义分割（L1），L1损失进行深度估计，[58]（L2）和表面的余弦相似性损失正态估计（L3），类似于[7，8，20]。3.1.模型架构多任务（Li）和单任务（Li）网络预训练的ViT-tiny [25]模型用作Transformer模型的骨干。多任务模型包括一个共享的骨干网与N个头，和单模块，每个单元有自己的独立的骨干网络和一个单一的头。将输入图像划分为16 - 16像素的P块。每个补丁通过补丁嵌入网络映射并传递到ViT编码器。将尺寸为W H的图像划分为面片后，面片网格的尺寸为W/16W贴片H/16H贴片。将补丁传递到线性嵌入网络，并且将N补丁=W补丁 H补丁嵌入输入到单任务和多任务网络的Transformer编码器。作为视觉场景理解系统的一部分，我们考虑多个像素的分类和回归任务。我们采用Mask Transformer [30]的设计来进行像素分类任务（图1）。第2（a）段）。语义分割是逐像素分类任务的示例。设E为传递到Transformer层的补丁和令牌的嵌入大小从ViT编码器（维度为N块 E）主干提取的块被传递到逐像素分类头。类查询（维度N类 E）与补丁嵌入一起引入，并传递到两个Transformer层。数量使用相同的损失函数进行训练。3.3. 在线知识提炼多任务学习中的一个众所周知的挑战是“负迁移”。为了缓解这个问题，我们提出了在线知识蒸馏.这背后的直观想法是，多个单任务模型的优化在训练阶段指导多任务模型。在每次迭代中，将单任务Transformer编码器的特征知识我们提出了两个组件的在线蒸馏，自适应特征蒸馏（AFD）和在线任务加权（OTW）。为了给我们的MTL网络提供一个良好的起点，我们使用了单任务模型的热身训练阶段，每个阶段有5个时期。3.3.1自适应特征提取提出的在线知识蒸馏的第一个组成部分是自适应特征蒸馏（AFD），一种用于共享主干模型的中间特征的方法我们从多任务网络的共享骨干中对中间特征进行在线加权知识蒸馏令L表示共享Transformer编码器中的层数，ωl是第i层的可学习参数类查询的数量（Ncls）被视为类的数量分类任务。计算类查询和补丁嵌入的标量积（输出维度，课题lth我层. AFD损失LAFD定义为：Npatch×Ncls）。然后对输出进行上采样和整形CLSLAFD=0.. fMTL（l）−Ntωlfii=1（l）.（二）与输入图像大小相同。像素标签估计为N类映射的argmax逐像素深度和表面法线预测被公式化为回归任务。我们使用与分类头类似的设计，见图2（b）。令Nreg（empiri-其中，fMTL（l）是从共享MTL主干的第l层提取的特征，fi（l）是来自第i个单任务模型的第l每个任务的STL特征与MTL特征的对齐程度L2Σ到图像大小。我们得到N类映射，l=12363我不i=1我不STLMTLSTL不j=1exp（Tt）Σ图3：在线任务加权（OTW）的图示，显示了MTL和STL网络的平滑任务损失函数（a）无OTW的在线蒸馏，（b）有OTW的在线蒸馏。示出了特定迭代（t = 15K）处的损失函数值，其中STL损失值高于任务1的MTL损失值，而对于任务2和任务3，STL损失保持低于MTL损失。任务3在此时间步具有最大的差异，从而产生最大的任务权重。在线任务加权减少MTL和STL损失之间的差距。由参数ωl决定。AFD功能确保MTL网络的特征空间与STL网络的特征空间对齐。这个函数确保了从STL特征的跨任务学习.使用相同的优化器和调度器来学习参数ωl以及网络参数。请注意，我们停止了来自AFD函数的梯度反向传播到STL网络，如[34]中所建议的。否则，STL网络性能可能会受到MTL参数的影响。因此，我们将单个任务张量（fi）ing [46].大的结果是为不同的任务更均匀地分配权重 N t是softmax函数中的任务数，并确保Ntλ i=Nt。根据经验，我们设置= 0。1.一、OTW在训练中的效果如图3所示图显示了训练过程中特定于任务的STL和MTL函数损失。使用在线任务加权，减少了训练期间MTL和STL损失之间的差异从计算图中，同时计算AFD函数。3.3.2在线任务加权（OTW）其次，我们提出了在单任务和多任务网络的同时学习过程使用任务特定损失的线性组合来训练多任务网络，其中任务权重基于多任务模型相对于单任务模型的性能。让多任务模型在任何迭代中都有损失，4. 结果该方法在两个公共数据集NYUv2[59]和Cityscapes[60]上进行了评估。NYUv2数据集[59]包含1，449个密集标记的图像，这些图像是使用RGBD传感器从各种室内场景中收集的。这些图像是从435，103个视频帧中手工挑选出来的，以确保场景内容的多样性。我们使用与原始工作相同的训练和测试分割，并评估三个学习任务的性能：语义分割（13个标签），深度估计和表面法线估计。t（t）和单个任务损失Li（t）对于第 Cityscapes [60]数据集包含高分辨率第i个任务。迭代t时第i个任务的任务权重计算为多任务与单任务损失之比的温度缩放softmax函数：Mi用于语义分割和深度估计的街景图像它分别包含2，975张用于训练的图像和500张用于测试的图像。这些图像是从视频剪辑中稀疏采样的此数据集用于评估性能（t）iLi（吨）两个任务：语义分割（7个标签）和深度λi（t）=NtT， m =MTL。（三）估计NtmjtLi（t）对于多任务损失大于相应的单任务损失的任务，给予更高的权重。表示控制任务权重的温度项，4.0.1实作详细数据。我们使用MTAN代码库中提供的NYUv2和Cityscapes的预处理数据集[20]。STL2364××n，m表1：与在3任务NYUv2数据集上实现的SOTA的比较性能评估的国家的最先进的方法和所提出的方法，实施ViT-tiny架构。最后一列显示了平均性能改进。Sem等Segm.深度估计表面法线预测方法mIoU↑ pAcc↑ abs↓ rel↓11<$↑22.5<$↑30<$↑平均值↓中位数↓↑单任务51.29 72.23 0.4423 0.178934.88 55.19 63.27 31.65 21.144.19基线（MTL）50.47 73.20 0.4431 0.1904 29.98 50.83 59.94 33.20 23.87 0DWA [20] 51.5873.760.4137 0.1743 32.56 53.49 62.03 32.33 22.25 4.79等级标准[4] 51.28 73.63 0.4179 0.1757 33.17 53.83 62.33 32.26 22.02 4.67UW [19] 51.21 73.64 0.4126 0.1724 32.27 52.97 61.59 32.50 22.46 4.57沪ICP备16006666号-1十字绣[1] 47.98 71.14 0.4310 0.1824 31.46 51.86 60.55 33.17 23.35 0.58KD-MTL [8] 51.07 73.820.41020.1717 32.47 53.31 61.87 32.35 22.29 4.92OKD-MTL 51.9973.75 0.41120.170133.58 54.74 63.20 31.82 21.506.22我们使用在Ima-geNet [61]上微调的ViT-Tiny [25]模型作为骨干网络。在将图像作为输入传递到ViT之前，将其调整为384 384像素输入的补丁大小为 16 × 16 ，嵌入维数 E 为 192 。我们使用AdamW优化器[62]和OneCycleLR sched-scheme [63]训练所有模型。初始学习率设置为10−3，每个数据集的模型训练200个epoch。4.0.2基线模型我们将我们的方法与以下基线进行比较。首先，我们考虑一个单任务基线，在这个基线中，我们分别为每个任务训练网络，使用特定于任务的主干和特定于任务的头部。其次，我们使用多任务基线，其中所有任务共享相同的Vision Transformer [25]骨干网络，但具有单独的任务特定头。我们使用统一的任务损失作为基线。我们比较了几种最近的多任务学习方法，包括任务加权方案，如表2：与已实现的SOTA 2任务Cityscapes数据集的比较。性能评估的国家的最先进的方法和建议的方法，实施ViT-tinyarchitecture。最后一列显示了平均性能改进。Sem等Segm.深度估计方法mIoU↑ pAcc↑ abs↓ rel↓ rel↑单任务74.93 93.03 0.0092 0.1422 7.56DWA [20]、RLW [7]和不确定性加权（UW）[19]、特征融合方法（如十字绣网络[1]）、基于梯度的方法（如Gradnorm [4]）和基于知识提取的技术KD-MTL[8]。与[8]中的评估类似，我们在所有方法中使用相同的骨干和特定于任务的头部进行公平比较。为了单独评估所提出的在线知识蒸馏方案的性能，我们与以前使用CNN而不是变压器的方法进行了比较。我们还比较了CNN模型上MTAN基线[20]的性能与[7，8]中的实验类似，我们将这些方法与MTAN （DeepLabV 3-MTAN）以及基线CNN（DeeplabV 3 [64]）进行了比较。MTAN [20]基线比较没有使用Transformer模型进行，因为它们需要CNN层与transformer层的融合。4.0.3评估指标在NYUv2 和Cityscapes中，语义分割通过平均交集（mIoU）和像素精度（pAcc）进行评估。对于表面法线预测，我们使用所有像素的预测和地面实况之间的平均和中值角度距离。我们还测量角度预测误差在11以内的像素的百分比。25度22度5度和30度。对于深度预测，我们计算绝对误差和相对误差作为评价指标。方法相对于基线的性能计算如下[7]：基线（MTL）72.12 92.76 0.0110 0.1575 0NtNnpn，mBDWA [20] 73.90 93.46 0.0092 0.1432 7.17=1<$1<$（−1）（M n，m−M n，m）×100%。不nGradNorm [4] 73.65 93.35 0.0099 0.1483 4.65UW [19] 74.86 93.72 0.0095 0.1413 7.19N Nn=1m=1Bn，m（四）[7] 2019 - 06 - 29 0.0092 0.1396 7.69十字绣[1] 71.09 92.56 0.0101 0.1551 2.02KD-MTL [8] 73.81 93.35 0.0098 0.1418 5.96这里，Nt是任务的数量，Nn是第n个任务的矩阵的数量 Mn，m和MB表示OKD-MTL 75.40 93.97 0.0091 0.1360 9.19目前的方法和基准，分别为公制m任务n。符号通过pn，m控制，设置为1M2365不表3：在具有DeeplabV 3和DeeplabV 3-MTAN主干的3任务NYUv 2数据集上与实现的SOTA的比较在DeeplabV 3和DeeplabV 3-MTAN架构上实现的最先进方法和所提出方法的性能评估。每个体系结构的最后一列显示了平均性能改进。Sem等Segm.DeepLabV3主干深度估计SN预测DeepLabV 3-MTAN主干Sem等Segm.深度估计SN预测方法mIoU↑pAcc↑绝对值↓rel↓平均值↓中位数↓∆↑mIoU↑pAcc↑绝对值↓rel↓平均值↓中位数↓∆↑单个任务49.5772.880.50520.196227.1522.110.1548.6972.870.62280.234426.4121.070.15基线48.1172.380.47920.185928.6323.60046.2572.010.53140.215128.2823.590DWA [20]48.2172.290.47030.181728.5423.540.8146.5872.230.53370.207927.7923.101.39GradNorm [4]48.1472.490.48160.184228.5423.590.1446.7672.260.53040.207227.8123.111.64华盛顿大学[19]48.1772.390.47730.184428.5223.430.4246.7272.050.53510.213628.2323.620.36RLW [7]48.3972.430.47560.187128.6723.570.1846.2471.640.53710.205028.0323.570.48十字绣[1]48.2072.860.47890.183428.5723.870.11-------KD-MTL [8]48.7873.070.46050.184128.0823.041.9647.3572.500.51480.203127.6622.943.04OKD-MTL49.0672.910.48800.188327.0421.522.4548.3072.580.49570.197127.3622.335.18表4：NYUv2的组件消融研究在这个实验中，我们比较了具有不同关键组件的模型：在线知识蒸馏（OKD），自适应特征蒸馏（AFD）和在线任务加权（OTW）。模型OKDAfDOTWmIoU↑绝对值↓rel↓平均值↓中位数↓∆↑STL---51.290.44230.178931.6521.144.19基线（MTL）---50.470.44310.190433.2023.870OKD-MTL-AFD✓ ✓-51.600.41250.173531.4321.365.75OKD-MTL-OTW✓-✓51.230.42000.177031.8021.544.96MTL-预训练-AFD- ✓-51.180.42040.177131.8221.504.94OKD-MTL-AFD-OTW✓ ✓ ✓51.990.41120.170131.8221.506.22表5：AFD组件（左）和超参数（右）的消融研究。我们比较了具有不同AFD配置的模型：仅用于最后一层的AFD（AFD-最后一层）、相等加权（AFD-相等）、软最大加权（AFD-软最大）、选择/跳过策略（AFD-选择/跳过）和用于中间特征上的知识蒸馏的所提出的随机初始化（AFD-我们的）。右表示出了对不同T值的消融研究（等式10）。（3）第三章。型号↑T↑AFD最后一层4.890.013.11AFD-相等5.280.055.55AFD软件5.680.106.22AFD-选择/跳过4.390.305.32AFD-我们6.221.002.11如果较高的值表示较好的性能，则为其它情况。更大的平均值表示相对于基线的更大改进。用于语义分割、深度和表面法线估计的度量的数量是2（m/oU，pAcc）、2（abs，rel）和4<<（m/oU ，pAcc）。5μg，30μ g，平均值，中位数）。4.1. 比较方法我们重新实现了先前方法的一个子集，并将CNN替换为ViT-tiny模型[25]以进行公平比较。DWA [20]、Gradnorm [4]、UW [19]和RLW [7]是任务加权方案。相应的任务权重被计算并用于损失函数中，类似于我们提出的OTW函数。Cross- Stitch [1]执行单个任务网络特征的融合。在每个块中执行该特征融合。虽然原始方法结合了卷积层，但我们采用Transformer编码器的层来形成块。在十字绣网络实现中，我们使用单任务网络特征的线性组合，使用可学习的参数。4.2. NYUv2和Cityscapes数据集表1显示了NYUv2数据集的结果。最后一列显示了每种方法相对于基线的性能。所提出的方法比基线提高了6.22%。第二好的执行方法是KD-MTL [8]，提高了4.92%。表2显示了Cityscapes数据集的结果。我们的方法比基线提高了9.19%。随机损失加权（RLW）方法[7]紧随其后，提高了7.69%。2366我不不×4.3. 消融研究我们还分析了CNN模型上提出的在线搜索框架表3显示了使用DeepLabV3 [64]主干的性能。我们还展示了以流行的MTAN模型为骨干的各种方法的性能[20]。训练配置未更改为[7，8，20]。与Transformer模型类似，所提出的在线蒸馏方法对于CNN模型（有和没有MTAN）也表现最好，比基线提高了2.45%和5.18%表4显示了在NYUv2数据集上测量的不同组分的贡献。我们评估了各种组件，包括自适应特征提取（AFD），预训练的AFD和在线任务加权（OTW）。在该表中，其他行显示了我们的方法使用不同组件的性能。行“MTL-pretrained-AFD”指示具有从预训练模型获取的单个任务的特征的离线知识蒸馏。AFD和OTW的组成部分分别比MTL基线提高了5.75%和4.96%。离线知识训练，“MTL-pretrained-AFD”，提供了4.94%的提高。AFD和OTW的结合产生了最大涨幅为6.22%。我们评估了NYUv2数据集上自适应知识蒸馏的不同特征加权方法，见表5。第一行仅在倒数第二层上应用特征缩放，类似于[8]。可学习的权重（AFD-最后一层）应用于STL网络的建模。所提出的方法使用可学习的权重，随机初始化，特征蒸馏（AFD-我们）。每个层的权重上的softmax函数（AFD-softmax）可确保跨任务的逐层权重被归一化。选择/跳过策略（AFD-选择/跳过）仅从一个任务中提取知识，这由softmax加权的argmax决定。在等权重方法（AFD-相等）中，ωl被设置为1，其中MTL特征的提取在所有任务中被平等地执行。如表5所示，AFD-等同提供了MTL基线5.28%的改善。AFD-softmax和AFD-select/skip技术分别提高了5.68%和4.39%。AFD-我们的表现最好的比较加权技术。我们还显示了对NYU数据集参数的消融研究，其中per-degree对于= 0是最好的。1.一、图4显示了在NYU数据集上训练的5层网络的ω值的变化。每个箱形图中的红星显示100个epoch后的最终值。有趣的是，层的贡献对于每个任务是不同的对于语义分割任务，贡献如下图4：ω的消融研究。具有5层DeeplabV2骨架的ω的箱形图。图中显示了100个时期内每个任务的值的变化，最终值以红星表示。第2层、第4层和第5层的最大。来自第3层和第1层的信息分别对于深度和表面法线任务是最重要的。讨论在线知识蒸馏能够训练多任务网络，其精度和推理时间与STL网络相似。ViT-tiny架构的单任务网络每个包含26M参数，而多任务模型使用33M参数。单任务和多任务网络在三个任务上的同时训练涉及111 M（33 M +3 26 M）参数，在单个V100 GPU上需要大约6小时。MTL模型只有33M个参数，与使用单独的STL模型相比，大小减少了57%，推理时间减少了60%。在V100 GPU上运行ViT-tiny模型，对单个图像的推断大约需要2 ms请注意，训练需要NtSTL网络以及MTL网络，因此在训练期间花费的资源与MTL网络之间存在权衡。推论5. 结论我们提出了一个多任务学习框架，使用在线知识蒸馏，演示了共同学习场景理解任务。我们同时训练单任务和多任务网络，并使用单任务网络的中间特征的知识蒸馏此外，我们引入了一种新的在线任务加权，ING计划分析单任务和多任务的网络损失。实验表明，在基线网络上的两个基准数据集上的改进，实现了与单任务模型相当的准确性。2367引用[1]Ishan Misra等人“十字绣网络多任务学习”。在：CVPR中。2016年，页3994-4003。[2]袁高等 “Nddr-cnn ： Layerwise feature fusing inmulti-taskcnnbyneuraldiscriminativedimensionality reduction”. 在： CVPR 中。 2019年，页3205- 3214。[3]Nicolas Carion等人“使用变压器进行端到端对象检测”。In：ECCV. 2020年，第页。213-229[4]赵晨等 Gradnorm ：Gradient normalization for adaptiveloss balancing in deep multitask networks. 在： ICML 。2018年，页794-803[5]Michelle Guo等.“多任务学习的动态任务优先级”。In：ECCV. 2018年，页270-287[6]Ankit Jha等.“AdaMT-Net：基于自适应权重学习的多任务学习模型用于场景理解。在：CVPR研讨会。2020年，第页。706-707[7]林白炯，叶飞扬，张宇。“A Closer Look 见：arXiv：2111.10603（2021）。[8]Wei-Hong Li 和 Hakan Bilen 。在： ECCV 研讨会。2020年，第页。163-176[9]Sihui Luo et al. In：ECCV. 2020年，第页。631-646[10]Ozan Sener 和 Vladlen Koltun 。在： NeurIPS 。2018年，页525-536[11]Jae-Han Lee，Chul Lee，and Chang-Su Kim. In：ICCV. 2021年，第122页。5107-5116[12]Ronghang Hu和Amanpreet Singh。“联合：多模式多任务学习与统一的 trans-former” 。见：arXiv：2102.10772（2021）。[13]Jiasen Lu et al. 12合1：多任务视觉和语言表征学习。在：CVPR中。2020年，第页。10437-10446[14]Ronan Collobert和Jason Weston“自然语言处理的统一架构：深度神经网络与多任务学习。在：ICML。2008年，第页。160-167[15]董大祥等在： IJCNLP 。 2015 年，第页 1723-1732年。[16]Minh-Thang Luong等人见：arXiv：1511.06114（2015）。[17]黄瑞婷等“使用具有共享隐藏层的多语言深度神经网络进行跨语言知识转移”。在：ICASSP中。2013年，第页七三零四七三零八[18]Michael L Seltzer和Jasha Droppo。“深度神经网络中的多任务学习用于改进音素识别”。在：ICASSP中。2013年，第页6965- 6969[19]Alex Kendall Yarin Gal和Roberto Cipolla “Multi-task learning using uncertainty to weigh losses 在：CVPR中。2018年，页7482-7491。[20]Shikun Liu ， Edward Johns ， and Andrew JDavison.“端到端的多任务学习与注意力”。在：CVPR中。2019年，页1871-1880年。[21]Ximeng Sun et al. In：NeurIPS33（2020）.[22]Ling Zhou等“多任务学习的模式结构扩散”。在：CVPR中。2020年，第页。4514- 4523[23]Dan Xu等. Pad-net：Multi-tasks guided prediction-and-distillation network for simultaneous depthestimation and scene parsing.在：CVPR中。2018年，页675-684[24]Simon Vandenhende，Stamatios Georgoulis，andLuc Van Gool. In：ECCV. 2020年，第页。527-543[25]Alexey Dosovitskiy等人一张图片值16x16字：Transformers for Image Recognition at Scale”。载于：ICLR（2021）。[26]Hugo Touvron等人“训练数据高效的图像转换器amp;通过注意力蒸馏”。在：ICML。第139卷。2021年7月，pp. 10347-10357[27]Zhiqing Sun et al.“Rethinking transformer based setprediction for object detection”. In ： ICCV. 2021年，第122页。3611-3620[2

下载后可阅读完整内容，剩余1页未读，立即下载