任务切换网络：一个高效的多任务学习的统一编码器/解码器架构

143 浏览量更新于2023-10-13 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8291C用于多任务学习的孙国磊1、托马斯·普罗布斯特1、丹达·帕尼·保德尔1、尼古拉·波波维奇1、梅涅拉奥斯·卡纳基斯1、贾格鲁蒂·帕特尔1、登新·戴1、2、吕克·范古尔11瑞士苏黎世联邦理工学院计算机视觉实验室2MPI for Informatics，德国vision.ee.ethz.ch摘要我们介绍了任务切换网络（TSN），一个单一的统一的编码器/解码器的高效的多任务学习的任务有条件的架构。多个任务通过在它们之间切换来执行，一次执行一个任务。TSN具有恒定数量的参数，而与任务数量无关。这种可扩展但概念上简单的方法避免了现有工作中任务特定的网络组件的事实上，我们第一次证明，多任务可以用一个单一的任务条件解码器执行。我们通过联合训练的任务嵌入网络学习任务特定的条件反射参数来实现这一点，鼓励任务之间的建设性实验验证了我们的方法的有效性，实现国家的最先进的结果，两个具有挑战性的多任务基准，PASCAL-Context和NYUD。我们对学习任务嵌入的分析进一步表明了与最近文献中研究的任务关系的联系。1. 介绍计算机视觉的概念是自动执行人类视觉系统可以完成的任务。甚至人工神经网络（ANN）也是从生物神经系统（如人脑）中获得灵感而设计的。与最成功的人工神经网络相反，大脑及其视觉皮层可以执行多种任务- 例如对象、部件和边界检测或深度和方向预测-没有任何困难。能够执行大量这样的任务已经允许人类有效地进行复杂的活动。实际上，像自动驾驶、医疗保健、农业、制造业这样的现实应用，不能仅仅通过追求完美来解决单个任务。不用说，能够执行多个任务的系统不仅具有有效的潜力，而且具有更高的效率(a) 单任务（b）多任务(c)TC多任务(d)我们的TSN图1：多任务学习的解决方案。（a）每个任务都是通过训练一个单独的网络来解决的，即，对每个任务使用独立的编码器-解码器对。(b)一般的多任务解决方案是建立在共享编码器和维护单独的解码器为每个任务。(c)任务条件（TC）多任务解决方案[15，24]建立在共享编码器的部分参数（也存在特定于任务的模块）上，并为每个任务使用单独的解码器。（d）在所提出的任务切换网络（TSN）中，共享单个编码器-解码器对的所有参数，并且小的任务嵌入网络促进不同任务之间的切换。最好用彩色观看。它在内存使用、计算和学习速度方面是足够的，但它也可以从互补任务中受益。为了解决多任务学习（MTL），已经提出了不同的解决方案。基于编码器的方法[18，27，23]通过增强架构的表示能力来关注编码器，使得可以对共享信息和任务特定信息进行编码，而基于解码器的方法[47，44]主要在解码器部分探索技术，以更好地细化特定任务的编码器特征。基于优化的方法[6，17，37]从优化角度明确针对任务干扰或负迁移一般来说，这些方法遵循图1所示的结构。第1段（b）分段。最近，MTL的另一个方向出现了，称为任务条件（TC）多任务[24，15]，如图所示。第1段（c）分段。它们在MTL模型中执行单独的传递，并为每个任务激活一组特定于任务的模块。特定任务模块8292用于使网络适应相应的任务。由于此设置具有许多实际用例[15，24]，因此我们提出的TSN也遵循它并每次执行一个任务。尽管取得了有希望的结果，但现有的方法[44，24，15]不能很好地与数量成比例因为它们需要大量任务特定的参数（模块）。这可以在图中看到。图1（b）和（c），其中任务特定的解码器或模块（在编码器中）随任务的数量缩放。另外，即使任务特定模块最小化任务之间的不利交互，它们也最小化积极交互，即，电感偏置[5]。基于此，我们提出了任务切换网络（TSN）。TSN在所有任务之间共享所有参数，并且不需要任何任务特定的模块（参数）。因此，我们的网络很简单，并且具有独立于任务数量的恒定大小，同时仍然支持任务交互。我们认为，我们的动机也与神经生物学中广泛接受的观点一致，即视觉皮层没有针对不同任务的单独模块[20，26]。更具体地说，我们的任务切换网络通过在它们之间切换来解决多个任务-一次执行一个任务，并遵循任务条件单编码器单解码器架构。如图在图1（d）中，任务切换通过采用小网络从任务编码学习任务特定嵌入来完成，并且解码器的行为通过将其调节在那些嵌入上来适应。在实践中，我们只对解码器（U-Net）进行条件化，希望编码器学习“思维空间”的概念这样，编码器特征也可以被重用以有效地串行执行多个任务，这在基于编码器的调节中是不可能的[24，15]。有趣的是，任务嵌入网络提供了对任务之间关系的一些见解。在训练期间，每个任务的潜在嵌入与其到每个解码器层中的调节参数的对应映射虽然在任务关系和多任务学习的研究中仍然存在许多开放性问题[40]，但我们观察到我们的任务嵌入结构类似于[48]中报告的任务关系。总之，在这项工作中，我们研究了没有任务特定参数的多任务网络，并研究了效率，优化和准确性方面的行为。我们的主要贡献如下。• 我们介绍了任务切换网络，一个高效而简单的多任务学习架构。• 我们证明，条件一个单一的共享解码器可以胜过多解码器的方法，即使在异构的任务，如分割和回归。• 我们采用一个小型的嵌入式网络来学习任务调节、促进优化和提供对任务之间关系的洞察。2. 相关作品多任务学习（MTL）。 MTL涉及同时学习多个任务，同时对模型参数施加共享影响。潜在的益处是多方面的，并且包括训练或推断的加速、更高的准确性、更好的表示以及更低的参数或更高的效率。关于MTL的架构、优化和其他方面的全面调查可以在[7]中找到。许多MTL方法通过一个前向传递执行多个任务，使用共享中继[18，3，23，43，22，8]，串扰[27]或预测蒸馏[47，50，51，44]架构。MTI-Net [44]最近的工作遵循这个方向，并提出利用多尺度特征之间的任务交互。MTL方法的另一个流基于任务条件网络[15，24]，其执行单独的前向传递并为每个任务激活一些任务特定的模块以及共享如[15]中所述，此设置对于许多真实世界的设置都很有用。因此，我们遵循这个方向，并提出TSN。与调节共享编码器形成鲜明对比，如[24，15，31，2，52，41]中所做的那样，我们反而学习无条件编码器，并且对于所有任务仅调节一个统一解码器。据我们所知，我们的网络是第一个MTL方法，它不需要特定于任务的分支到多个解码器，而是为所有任务共享所有网络参数和条件反射策略。在MTL的上下文中，[41]提出了一种启发式的特征掩蔽，以诱导每个任务的部分共享子网络。另一方面，可以通过引入特定于任务的投影[52]，残余适配器[31，32]，注意力机制[24]或参数化卷积[15]来调制特征，而原始骨干网络在所有任务之间共享在域适应[21]，图像生成[4，16]，风格转移[13]和超分辨率[46]的背景下成功应用自适应规范化策略，我们探索了MTL实例规范化（IN）[42]后的任务条件仿射投影。受[16]的基于样式的生成器的启发，仿射参数从表示一个期望的任务。请注意，[30]的并发工作提出了一个新的任务CompositeTasking，基于任务条件BatchNorm（BN）[14]，通过融合任务任务关系和嵌入。关于任务之间的关系的知识对于机器学习的许多方面是至关重要的，包括多任务、转移或Meta学习。包括Zamir et al.[48]，许多最近的作品揭示了这样的任务关系8293τFnnX ×T →YYTXD{}∈ Tn[||| |∈∈ TττDTMbτ迁移学习和多任务[10，38，39，9，49]通过计算。基于任务可以被有意义地分类的假设，该结构可以是网络具有最少数量的参数，同时限制相对性能下降Δτ，如下所示。在高维空间中使用任务嵌入来表示minf∈Fθ，θ|、|,空间然而，这种嵌入主要在元学习文献中进行了探索[1，35，19]，很少从多元和迁移学习的角度进行探索[49]。注意S.T.E（I，yτ）Dττ ∈ T。[lτ（f（I，τ），yτ）]≤（1+∆τ）l¯S，（一）元学习的任务嵌入[1，35，19]确实是我们相信，更详细地研究任务关系、嵌入和多任务学习之间的联系是值得的[7]，我们认为我们的工作是朝着这个方向迈出的一步。3. 问题公式化我们开始正式介绍多任务学习问题的网络架构的角度来看。在我们的公式中，我们考虑顺序多任务，即解决一个任务，每个正向传递，在最近的MTL技术[24，15]。首先，我们将给出多任务网络和数据集的正式定义。定义3.1（多任务网络）给定一组要在图像上执行的任务=[0，1]h×w×3。对于单纯y的情况，令输出类型=[0，1]h×w×c对于所有任务都相等。我们将f θ：定义为具有参数θ的多任务网络，其在给定图像上一次执行一个给定任务τ。此外，设θ为集合参数集为θ的所有多任务网络。定义3.2（多任务数据集）让我们将多任务数据集表示为τ=（In，yτ）N，任务为τ，并且yτ作为与图像In的任务τ相关联的地面实况。现在，我们可以将MTL的目标定义为找到一个具有少量参数的多任务网络，该网络能够以接近或优于单任务基线的精度解决所有任务我们通过相对性能下降来衡量这一目标的实现。定义3.3（相对性能下降）给定评估任务τ性能的指标mτ，我们将相对于基线mb的相对性能下降定义为虽然这基本上是一个架构搜索的问题，可以使用神经架构搜索[11]或组合优化[40]来解决，但我们从共享参数的分析中开发了我们的解决方案我们的目标是学习一个函数，只要稍微滥用一下符号 f（In，θs，θτ，τ）=yτ，对于所有n[1，N]和τ.这里，θs表示跨所有任务的共享参数，而θτ表示任务特定参数。设θ表示2、参数T（|不|）任务，由θ= θs <$θτ。（二）τ∈T除了学习特定于任务的调节参数之外，现有MTL方法[31，2，15，24]还在分支到它们各自的输出头之后学习一个或多个特定于任务的卷积层。这对于满足不同任务的输出类型也是必要的为了分析的简单性，我们假设所有任务的参数的数量是常数，并且我们有条件，|≈c，ξ τ ∈ T。|≈ c, ∀ τ ∈ T.（3）组合等式2和Eq。3，我们得到|= T c −（T − 1）|θs|.|.（四）从等式4，很明显，T任务MTL方法的参数总数与共享参数θs的数量呈负相关。在单任务设置的极端情况下，其中每个任务由单独的网络解决，而不共享任务之间的任何参数，总参数由θ=Tc给出。因此，现有方法寻求增加共享参数θs的数量，同时减少任务干扰[18，52，24]并保持所有任务的性能在本文中，我们追求一个具有挑战性的目标：在所有任务之间共享尽可能多的网络部分，直到所有参数都共享，并且网络变得独立。任务数量T的bdent，∆τ（mτ，mb）=sτmτ−mτ，其中sτ∈ {−1，1}表示值越大越好，反之亦然。现在我们可以将问题陈述形式化如下。问题3.4（参数有效的MTL）给定任务集的标记图像T的验证集，具有相应的损失函数lτ和单任务基线的预期验证损失l¯S，我们希望找到一个多任务θτ=，τ∈ T ⇒c=|θs|为|θ|.（五）接下来，我们将解释实现此目标的解决方案。4. 方法在本节中，我们首先详细介绍所提出的任务我们使用我们的网络进一步解释任务嵌入学习。8294CA∈×≤一C.U··一J一一图2：任务切换网络概述。我们的网络通过使用条件解码器在任务之间切换来执行多任务。遵循U-Net [33]，我们的编码器获取图像In并提取不同层的特征Fi作为第二输入，我们的网络采用任务编码向量vτ，选择要执行的任务τ一个小任务嵌入网络将每个任务映射到一个潜在嵌入1τ，使用模块[16]沿着蓝色路径调节解码器层的通过以自下而上的方式调节和组合编码器特征Fi和解码器特征Oi来计算输出。4.1. 任务交换网络如引言中所述，我们在所有网络参数都应共享的前提下设计任务切换网络，以便为问题3.4提供有效的解决方案。然而，如图所示。1、文献中MTL技术中的参数共享仅限于编码器和部分解码器，而忽略了共享完整解码器的潜力。此外，现有技术的方法[24，15]通过激活任务特定模块来切换任务。为了避免这样的额外的参数为每个任务，我们引入任务切换，通过采取任务条件作为一个额外的输入到网络。为此，我们将每个任务τ与任务条件vτRd相关联。因此，我们模型的输入是一对图像和任务编码向量，即（In，vτ），其表示图像In上的传导任务τ。我们的骨干编码器获取图像In并提取不同层处的特征Fi具有几个完全连接层的小任务嵌入网络将每个任务映射到潜在嵌入lτ，其被使用卷积层的核大小为（7 × 7），层2到层5分别表示主干的conv2 x到conv5 x（[12]中的符号）。层1到层5的输出是F1到F5。从层j到层j+ 1，编码器特征图的空间分辨率减少一半。对于解码器，我们遵循与U- Net [33]类似的结构，收集从第5层到第1层的特征具体地，在层j（j4），来自编码器的对应特征图Fj首先通过条件卷积模块，然后连接来自层j+ 1的特征（在上采样之后），并且最后通过的另一实例。对于最高层（j= 5），特征图仅通过模块一次，因为不存在更高层。如图2、基于表示特定任务的嵌入向量1 τ，将输入特征模块变换为新特征。令〇j是解码器从层j的输出，其由下式给出：O=A（[U（Oj+1），A（Fj，1τ）]，1τ），其中j≤4，，，（6）A（F，l），对于j= 5使用类似于j τ的模块来调节解码器层StyleGAN [16].然后通过调节和组装编码器特征Fi和解码器特征Oi沿着特征金字塔自下而上来计算输出。在我们的讨论中，密集预测任务（即，边缘检测和语义分割），如果没有具体说明，则在[24，15]之后考虑在下文中，我们描述了我们的网络的架构细节。4.1.1网络架构如图2，我们的网络基于简单的U- Net架构[33]。编码器是一个基于ResNet [12]的骨干，在ImageNet [34]上预先训练，遵循现有的MTL方法[24，15]。假设层1表示第一个连接。其中[，]表示沿着信道维度的两个特征向量的级联，并且（）是上采样操作，其在图1中被省略。2中所示。来自解码器层1的输出特征O1如前所述，不同的任务可以共享一个公共的卷积层（即由所有任务共享的单个头），或者具有单独的卷积层（不同的头用于不同的任务）。为了避免特定于任务的参数，我们选择所有任务都使用单个头。为此，我们简单地选择输出通道的数量作为不同任务所需的最大通道数量。[28]第28话最后的结局8295一C一E∈R∗一∈∈∈∈A∈ RNΣmτm，τb，τm，τb，τ∈TτT（x*W−µ）∈一CC→CC√MTL中的流行基准）作为示例，边缘检测、部分分割、语义分割、法线和显著性检测之间所需的输出通道的数量分别为1、7、21、3和1。因此，我们选择了21个输出通道，这适合语义分割。对于其他任务，我们简单地沿着通道进行自适应平均池化，以获得与相应任务匹配的预测。跨任务共享一个头的优雅之处在于，完全使用一个单一而整洁的网络我们的实验事实上支持了这一观点-表1：任务切换性能。我们的TSN在单任务和多任务基础线上具有竞争力，并且型号尺寸大大减小。当所有参数通过我们的任务嵌入模块（INs+TE）共享时，观察到最佳性能。方法边↑SemSeg↑部件↑常态↓Sal↑∆m%↓#参数单任务71.364.355.316.362.9-88.7M多解码器72.255.455.516.859.14.3243.9M我们的（BN）71.655.954.116.760.04.3817.7M我们的（IN）70.762.854.616.863.11.4317.7M我们的（IN+TE）70.664.255.016.363.30.3018.3M因为我们发现，只有一个人，才能有一个共同的命运。v|vττ.d，如果τ1=τ2=， vτ，τ∈Rd，（9）对于不同的任务使用不同的头。在下文中，我们描述了任务切换网络的两个关键组成部分，这有助于调节。条件卷积模块。该模块（图2中的框）的目标是将来自编码器的特征表示（由所有任务共享）调整为服务于期望任务的新特征。如上所述，为了进行任务τ，通过嵌入网络变换对应的任务条件向量vτ以获得任务特定的本征向量lτ，然后将其传递给模块[16]受启发。设x1×c1×h×w表示输入到模块的特征，其中c1、h和w分别表示通道数、特征图的高度和宽度。模块然后工作如下。首先，x由卷积层x=x处理W与滤波器权重W，生成x1×c2×h×w。同时，lτ由两个具有权矩阵Wγ的全连通层进行变换Rd×c2和WβRd×c2，形成后续AdaIN的归一化系数γR1×c2和βR1×c2。F或特征x∈，AdaIN执行以下归一化，AdaIN（x，β，γ）=γ（x−µ）+β，（7）σ2其中β和σ2是x的均值和方差，它们是根据实例归一化计算的统计量[42]。总之，模块A执行以下操作120，否则12和高斯随机向量vτ（0d，diag（1d）） [16]。结果报告见§5.1。5. 实验概况. 根据现有的工作[24，15]，我们将MTL实验集中在密集预测任务上。特别是，我们使用PASCAL-Context [28]数据集，其中包含总共10，103张图像，用于边缘检测（Edge），语义分割（SemSeg），人体部位分割（Parts），表面法线（Normals）和显着性检测（Sal）的五项任务。我们进一步评估和比较了我们在NYUD数据集[37]上的方法，该数据集由1，449张室内场景图像组成，并带有边缘检测、语义分割、表面法线和深度估计（深度）四项任务的注释。评价指标。我们使用标准评估指标，如下[24，15，45]。具体来说，为了评估每个任务的预测性能，我们使用最佳数据集F-测量（odsF）[25]进行边缘检测，使用平均交集（mIoU）进行语义分割，人体部位分割和显着性，使用平均误差（Error）进行表面法线，使用均方根误差（RMSE）进行深度。为了与多任务方法m进行比较，我们将相对于所有任务的单任务基线b的相对性能下降（参见定义3.3）进行∆=1∆（p得双曲余切值.），其中p和p是用于多任务方法m的任务τ的度量和用于A（x，1τ）=1τWγ√σ2+ lτWβ。（八）单任务基线B。网络配置。我们使用ResNet-18骨干和§4.1中介绍的架构来实现我们任务嵌入网络。回想一下，每个任务与唯一的任务条件向量vτRd相关联，并且TSN通过将不同的vτ馈送到任务嵌入网络来在任务之间切换，如图2的左侧所示。嵌入式网络：RdRd学习将任务τ嵌入到潜在空间lτ=（vτ）中，由此等式1的AdaIN系数每个模块生成7个。原则上，这些向量的初始化有许多选择。具体地，我们研究嵌入维度d，其中正交vτ（二进制向量）由下式给出：实验，除非另有说明。任务嵌入网络包含8个宽度为d的全连接层。我们的方法在PyTorch中实现[29]，并在NVIDIA GPU上进行了实验。5.1. 消融研究模块共享研究。我们将我们的方法与表1中的各种基线进行比较。所有方法都使用相同的网络架构，并使用相同的超参数进行训练，以确保公平的比较。所有的细节不8296(a) Zamir等人 [48]（b）Ours（c）Dwivedi et al. [10]（d）Song等人。 [39]第三十九届图3：任务嵌入关系。我们在Taskonomy数据集的一个小子集上用20个任务训练我们的网络后，分析了我们的任务嵌入的相似性[48]。来自我们学习的嵌入（b）的任务亲和度的分层聚类揭示了与通过比较方法（a，c，d）发现的关系的有趣的相似性。表2：任务嵌入策略的影响。所设计的任务嵌入对于任务编码vτ以及嵌入网络C的维度d的不同选择是鲁棒的。类型D边↑SemSeg↑部件↑常态↓Sal↑∆m%↓正交5070.863.655.216.363.40.3210070.664.255.016.363.30.3015070.564.354.916.363.20.3825070.563.854.816.463.10.75高斯5070.864.155.116.363.00.3010070.363.254.416.563.11.2215070.763.654.816.363.40.44表3：网络架构的影响。所设计的任务嵌入对各种骨干是鲁棒的。骨干方法边↑SemSeg↑部件↑常态↓Sal↑∆m%↓ResNet-18单任务71.364.355.516.362.9-我们70.664.255.016.363.30.30ResNet-34单任务72.768.658.716.064.4-我们71.867.658.016.164.30.99ResNet-101单任务74.270.762.115.865.0-我们73.370.961.015.964.50.93所考虑的基线如下。单任务意味着每个任务都是用一个单独的网络训练的，如图所示。第1（a）段。多解码器表示简单的多任务解决方案，其中编码器是共享的，但解码器是任务特定的。我们进一步比较我们的架构没有任务嵌入（TE）网络，通过使用特定于任务的批处理（BN）和实例（IN）规范化。我们看到，共享公共编码器但使用不同解码器的多解码器模型表现不佳，这与MTL文献[15]一致。此外，它有大量的参数（4390万）。另一方面，特定于任务的BN的性能仅略差于多解码器，模型尺寸小得多。有趣的是，特定于任务的IN比特定于任务的BN执行得好得多。针对任务特定的BN和IN的结果表明，通过解码器中的仿射变换来简单地使特征适应不同的任务能够为多任务学习提供合理的性能。我们的方法，与任务嵌入网络共同学习（仿射变换）系数的AdaIN，优于任务特定的IN的平均性能下降1.13∆m.它表明，通过任务嵌入联合学习归一化系数比为每个任务单独学习它们更好。我们还观察到，在训练过程中，我们的方法比特定于任务的IN和BN收敛得更快而且我们的方法只在-将模型的大小增加一点，因为我们模型中的任务嵌入网络C任务嵌入网络。我们研究了任务条件向量vτ的两种不同选择的影响，如§4所述。结果示于表2中。对于正交编码，我们观察到我们的方法的性能对于嵌入维数d是鲁棒的，同时在d= 100处表现最佳。高斯编码的执行同样好的正交对应的维数低于100，并倾向于稍差以上。我们推测，在高斯编码下，两个任务的任务条件向量之间的距离是随机的（近或远），这是不可取的。然而，这项研究表明，我们的条件反射对这些超参数是鲁棒的。在实验中，我们对PASCAL-Context数据集（5个任务）选择了维数为100的正交编码.对于NYUD数据集（4个任务），我们使用120维（可被4整除）。更多网络架构。在[24，15]之后，我们研究了我们的方法对更多网络架构（ResNet-34和ResNet-101）的鲁棒性。结果示于表3中。正如预期的那样，当使用更大的网络时，所有任务的绝对性能都会提高。此外，我们的方法执行接近相应的单任务基线不同的骨干。请注意，单任务基线的参数是我们的5倍。事实上，我们的方法在各种网络中实现了类似的低平均性能下降（Δm%），证明了其在减少任务之间的负干扰方面的鲁棒性和有效性。5.2. 与最先进技术的PASCAL-Context的最新比较如表4所示。我们将我们的方法与8297SemSeg零件法线边Sal||Ijτijτiτj表4：与现有技术的比较。我们的TSN优于不同的多解码器的PASCAL上下文的方法，只有一个单一的解码器和少得多的参数。方法边↑SemSeg↑部件↑常态↓Sal↑∆m%↓#参数单任务71.364.355.516.362.9-88.7MRA系列[31]72.055.154.617.058.75.2151.7M平行RA [32]72.155.955.017.058.64.8150.8MRCM [15]72.356.655.816.759.33.6251.7M我们70.664.255.016.363.30.3018.3M任务条件（TC）多任务方法：串联残差适配器（串联RA）[31]、并联残差适配器（并联RA）[32]和RCM[15]，因为这些方法遵循与先前提到的MTL相同的方向。为了公平比较，在我们的设置中实现了串联RA和并联RA。性能RCM是通过使官方实现适应我们的设置（U-Net架构）来获得的。我们观察到，相对于我们的单任务基线，我们的方法在平均性能下降方面在现有方法中实现我们报告了每个方法的参数数量，并表明我们的方法使用的参数最少的比较方法。具体而言，我们的方法优于RCM 3.32%，并且仅使用18.3M参数，而RCM为51.7M。事实上，我们在§3中的主要动机是由有效的参数利用驱动的。图4，我们可以看到每个方法的参数θm的数量如何与任务数量T成比例。通过设计，我们的TSN具有与T无关的恒定参数。另一方面，可以使用其它方法（RCM、多解码器等）。与T成线性比例。例如，当T= 9时，我们的方法仍然有18.3M个参数，而RCM的84.0M个参数和单任务的159.6M个参数表明，这些方法显然不适用于需要许多任务且资源有限的实际情况。我们进一步验证了我们的方法在NYUD数据集。结果示于表5中。同样，我们观察到，我们的方法明显优于现有的方法，这进一步证明了所提出的任务切换网络的一般有效性。定性比较如图所示。六、表5：与现有技术的比较。在NYUD数据集的四个任务上，我们的TSN优于比较方法，具有优越的参数效率。方法边↑SemSeg↑常态↓深度↓∆m%↓单任务67.726.626.274.0-RA系列[31]68.518.929.084.110.39平行RA [32]68.523.129.084.27.25RCM [15]68.723.228.482.16.14我们67.925.926.172.70.03图4：模型参数缩放。虽然TSN中的参数的数量与T无关，但对于比较的MTL方法，它以线性方式缩放。SemSeg零件法线边缩放(a) Pascal-contextSemSeg边法线深度(b) 纽约大学图5：任务嵌入相似性。我们观察到类似的任务-5.3. 任务关系学习任务嵌入网络与MTL目标联合自然会提出问题，如果学习的任务嵌入携带一些有意义的信息的任务关系。为了从经验上分析这个问题，我们计算两个任务之间的任务亲和力，如下所示：L|lτA（τ，τ）= 1−l是的（十）我们在图中可视化了我们发现的PASCAL-Context和NYUD数据集的亲和力。图5示出了图5的示例，以及分层聚类的图示。我们做了两个有趣的观察。首先，在嵌入中，2D和3D任务之间似乎有明显的区别，NYUD中的深度和法线接近，而法线与两个数据集中的分割任务其次，在PASCAL中，簇层次结构似乎是相关的SemSeg边缘法线深度8298图6：定性结果。我们将我们的模型与基线（特定于任务的IN）进行了可视化比较。任务干扰被观察到在基线中，检测到的边缘可能存在于显着性预测。我们的方法解决了这个问题，并在高级任务，如语义分割，零件和显着性检测中优于基线。最好用缩放。与我们进一步研究了Taskonomy [48]数据集的20个任务上的任务嵌入，该数据集旨在寻找任务关系。在图3中，我们将我们发现的任务关系与Zamir等人建立的任务关系进行了比较。，以及最近的两种方法[39，10]。有趣的是，发现的“任务经济学”之间似乎有惊人的相似之处。虽然不是完美的，但我们大致观察到2D和3D任务聚集在一起的趋势，以及低级别（例如：去噪、修复）。请注意，我们的方法建立任务关系比比较方法更有效[48，39，10]。具体地说，这些方法需要具有为各个任务训练的单独模型（即，20个单独的模型用于20个任务）。然后，Taskonomy [48]中提出的方法在不同任务之间进行转移学习以找到任务相似性，而RSA [10]和DEPARA [39]都在从一定数量的图像中提取的深度特征之间进行成对比较。然而，我们的方法只使用一个统一的模型，并获得了任务的相似性，通过简单地计算任务嵌入之间的我们假设我们的嵌入隐含地在嵌入空间中的任务之间传递知识，以提供表1和表4中令人印象深刻的结果。如果两个任务需要相似的特征，则有利的是在条件反射中共享某些模式，并且因此在嵌入空间中更靠近地定位在一起。从实验结果中，我们可以看到，嵌入网络的有限容量进一步鼓励了这种行为5.4. 讨论测试时间参数。在表4和表5中，我们报告了TSN的参数数量。然而，当涉及到最大化内存和计算效率时，我们可以通过计算AdaIN参数并将它们与模型一起存储。在这种情况下，参数的数量从18.3M下降到17.7M，对应于表1中的IN基线的大小。从这个角度来看，我们的任务嵌入可以被解释为MTL的额外归纳偏差。架构我们选择了U-Net架构来简化，与ResNet-18骨干一起展示任务切换网络的想法，以及它与最近的MTL方法的行为和性能。TSNs原理的应用使用其他更强大或更有效的架构，骨干，解码器，或condi- tioning策略留给未来的工作。6. 结论在本文中，我们介绍了第一种方法的多任务学习，只使用一个单一的编码器和解码器架构。通过设计，我们的任务切换网络的- fer一个实质性的优势，在简单性和参数的效率。这是通过在所有任务之间共享完整的网络参数集并使用条件网络来学习特定于任务的潜在向量（嵌入）来实现的，该潜在向量然后使解码器适应相应的任务。实验结果表明，本文提出的任务切换策略通过与所有任务共同学习任务嵌入，提高了多任务学习的性能，并通过任务嵌入的视角为多任务学习提供了一个新的视角。我们的实验进一步验证了所提出的框架的实用性和效率，在公平的比较下，该框架在具有少得多的参数的标准基准数据集我们还展示了有趣的发现任务关系使用学习任务嵌入。总之，我们相信，进一步研究的概念，任务嵌入多任务学习将是一个有趣的话题，为未来的工作。确认这项工作得到了Specta AI的部分支持。基线我们基线我们8299引用[1] A.放大图片作者：Michael Lam，A.放大图片作者：Ravichandran，Subhransu Maji，Charless C. Fowlkes，Stefano Soatto，还有佩罗纳。 Task2vec：元学习的任务嵌入。ICCV，2019。3[2] Hakan Bilen和A.维达尔迪普遍表征：面孔、文本、猫和猫品种之间缺失的联系。arXiv，2017. 二、三[3] 菲利克斯 ·JS.Bragman ， RyutaroTanano ，Se'bastienOurselin，D. Alexander和M.卡多索用于多任务cnn的随机过滤器组：学习专家和通才卷积核。ICCV，2019。2[4] A. Brock，J. Donahue，and K.西蒙尼扬用于高保真自然图像合成的大规模gan训练。arXiv，2019年。2[5] 瑞奇 · 卡鲁阿纳多任务学习。Machine learning ， 28（1）：41-75，1997. 2[6] Z. Chen ， Vijay Badrinarayanan ， Chen-Yu Lee ， andAndrew Rabinovich. Gradnorm：梯度归一化，用于深度多任务网络中的自适应损失平衡。arXiv，2018年。1[7] M.克劳肖使用深度神经网络的多任务学习：一个调查。Arxiv，2020年。二、三[8] C.作者声明：John W.多任务自监督视觉学习。ICCV，2017年。2[9] Kshitij Dwivedi ， Jiahui Huang ， Radoslaw MartinCichy，and Gemma Roig.对偶图相似性：任务迁移学习中初始化选择的一般框架。Arxiv，2020年。3[10] Kshitij Dwivedi和Gemma Roig。有效任务分类迁移学习的表示相似性分析。CVPR，2019年。三六八[11] 高元、白浩平、杰泽群、马佳一、贾奎、刘伟。Mtl-nas：面向通用多任务学习的任务无关神经架构搜索。2020 年 IEEE/CVF 计算机视觉和模式识别会议（CVPR），第11540-11549页，2020年。3[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。4[13] X. Huang和Serge J.贝隆吉实时任意样式传输，具有自适应实例规范化。ICCV，2017年。2[14] S. Ioffe和Christian Szegedy。批量归一化：通过减少内部协变量偏移来加速深度网络训练。arXiv，2015. 2[15] Menelaos Kanakis，David Bruggemann，Suman Saha，Sta- matios Georgoulis，Anton Obukhov，and Luc VanGool.在没有任务干扰的情况下重新参数化卷积以用于增量多任务学习。 ECCV，2020年。一、二、三、四、五、六、七[16] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR，2019年。二、四、五[17] Alex Kendall、Yarin Gal和R.西波拉多任务学习使用不确定性来权衡场景几何和语义的损失CVPR，2018年。1[18] Iasonas Kokkinos Ubernet：使用不同的数据集和有限的内存训练通用卷积神经网络，用于低，中，高层次的视觉。在CVPR，2017年。一、二、三[19] L. Lan，Zhenguo Li，X. Guan和P.王.任务嵌入和共享策略的Meta强化学习arXiv，2019年。3[20] WuLi，V. Pi e¨ ch和C. 吉尔伯特知觉学习与初级视皮层自上而下的影响自然神经科学，7：651-657，2004。2[21] 李阳浩，王乃艳，J.石，侯晓迪，刘洁英.自适应批量归一化，用于实际领域自适应。模式识别。，80：109-117，2018. 2[22] Shikun Liu，Edward Johns，and A.戴维森端到端的多任务学习与注意力。CVPR，2019年。2[23] Y.卢，Abhishek Kumar，翟双飞，于成，T. Ja- vidi和R.费里斯多任务网络中的完全自适应特征共享及其在个人属性分类中的应用。CVPR，2017年。一、二[24] Kevis-Kokitsi Maninis ， Ilija Radosavovic ， and IasonasKokkinos.专注于多个任务的单一任务。在CVPR，2019年。一、二、三、四、五、六[25] David R Martin，Charless C Fowlkes，and Jitendra Ma-lik.学习使用局部亮度、颜色和纹理线索检测自然图像边界。TPAMI，26（5）：530-549，2004. 5[26] 贾斯汀·N.J. McManus，W.Li和C.吉尔伯特初级视皮层的自适应 Proceedings of the National Academy ofSciences，108：9739- 9746，2011. 2[27] I. Misra，Abhinav Shrivastava，A. Gupta，和M。赫伯特多任务学习的十字绣网络。CVPR，2016年。一、二[28] Roozbeh Mottaghi，Xianjie Chen，Xiaobao Liu，Nam-Gyu Cho ， Seong-Whan Lee ， Sanja Fidler ， RaquelUrtasun，and Alan Yuille.背景在野外物体检测和语义分割中的作用。CVPR，2014。四、五[29] Adam Paszke，S.放大图片作者：A. Lerer，J. 布拉德-伯里，G。Chanan，T. Killeen，Z. Lin，N.吉梅尔辛湖作者： Anti g a ， AlbanDesmaison ， AndreasKopf ， E.Yang，ZachDe-Vito，Martin Raison，Alykhan Tejani，Sasank Chilamkurthy，B. Steiner，Lu

下载后可阅读完整内容，剩余1页未读，立即下载