没有合适的资源?快使用搜索试试~ 我知道了~
多任务学习中的动态任务优先级划分Michelle Guo[0000−0002−6574−6669]、Albert Haque[0000−0001−6769−6370]、黄德安[0000−0002−6945−7768]、Serena Yeung[0000−0003−0529−0628]、Li飞飞美国斯坦福大学计算机科学系抽象。 我们提出了多任务学习的动态任务优先级。这允许模型在训练期间动态地优先考虑困难任务,其中困难与性能成反比,并且困难随时间变化。与课程学习相比,容易的任务优先于困难的任务,我们提出了几项研究显示优先考虑困难的任务的重要性我们观察到,任务难度的不平衡会导致不必要地强调较容易的任务,从而忽视和减缓困难任务的进展。受这一发现的启发,我们引入了动态任务优先化的概念,以通过自适应地调整最佳工作量来自动优先处理更困难的任务,以减少任务的损失。一个dditiona-lation的研究显示的任务层次结构的影响,或任务排序,当明确编码在网络架构。我们的方法优于现有的多任务方法,并在COCO和MPII数据集上展示了与现代单任务模型的1介绍孩子们可以有效地管理学校的多个科目。这种多任务处理能力通常是可能的,因为一个人花更多的时间和精力在他们认为更有挑战性的主题上,而不是他们认为容易的主题[1]。通过分配与每个主题的复杂性和难度成比例的心理资源,人类可以提高学习的有效性和效率这个想法得到了任务管理和认知工作负荷文献的支持[4,5]。与人类一样,计算模型也可以通过对多个任务进行联合训练来执行多任务学习。多任务学习在几种应用程序中很普遍,包括计算器[6-8 ]、图形处理器[ 9 - 13 ]、空间处理器[ 14 - 16 ]和程序处理器[ 17 - 20 ]。一些新的工作[21]跨多个输入域模态训练单个模型。然而,当多个任务被提交给一个模型时,容易的任务可能会主导学习,而更难的任务则会阻碍学习。我们提出了以下问题:当我们训练一个多任务模型时,我们是否应该调整从简单任务和困难任务中学习的量?2M. Guo,中国古猿A. Haque、D. Huang,S.杨湖飞飞人体姿态估计迭代任务优先级准确度(PCKh)人物检测迭代任务优先级平均精度图1:动态任务优先级。在两个同时进行的任务上训练的单个模型的示例:(顶部)姿态估计和(底部)人检测。对于每个任务:(图像)输入带有相应任务特定标签的图像。(Line图)随时间变化的动态任务优先级和性能 X轴表示训练迭代次数;y轴表示任务优先级和模型性能。机器多任务处理的一个关键挑战是任务优先级:决定将哪些资源分配给哪些任务。这些资源可以采取梯度幅度、参数计数或更新频率的形式。当任务的难度不同时,任务的优先级划分尤其具有挑战性。在传统的多任务学习[22]中,模型继续在简单任务上投入相同的细节水平,即使在掌握它们之后。完善这些简单的任务会浪费宝贵的资源。因此,与较容易的任务相比,可能需要额外学习的具有挑战性的任务学习得不快并且表现不佳课程学习试图通过在较难的任务之前学习简单的任务来区别对待容易和困难的任务[23]。由Bengio等人定义。[24],当前学习将单个任务划分为更简单的子任务,这些子任务以增加难度的方式呈现给模型。课程学习的一个关键假设是,所有任务的潜在分布是相同的,但熵随时间增加[24]。然而,当在不同的任务上定义多任务问题时,这个假设被打破了任务不共享相同的分布,例如姿态估计对分类)。由于课程学习持有这一假设,课程学习的结论不能应用于一般的,可以说是更常见的,多任务设置的任务不是一个单一的任务的子集。捐款. 在本文中,我们提出了动态任务优先级的多任务学习。在类似于[1- 3 ]的示例中,我们的模块化单元将多任务学习中的动态任务优先级划分3优先考虑困难的任务和例子。我们将其比作类不平衡的问题,这通常通过硬负挖掘来解决[25,26]。我们的贡献是双重的:1. 我们提出了一个全面的分析,以更好地理解任务优先级的问题,在两个示例级和任务级。我们的分析结果表明,更多的学习资源应分配给困难的任务,而不是更容易的任务。2. 我们提出了一个统一的框架,可操作上述见解:我们的方法动态调整任务级损失系数,不断优先处理困难的任务。这使用学习进度信号来自动计算任务权重的时变分布。从经验上讲,我们使用COCO [27]和MPII人体姿势数据集[28]评估我们的分类,分割,检测和姿势估计方法2相关工作我们在多任务学习方面的工作与课程学习有关,这是由Elman [29]提出的,旨在改善具有恒定底层分布的多个任务子集的训练,首先从较小和较简单的任务开始。这已经在许多作品中得到证明[30,31,23]。例如,在[32]中,Zaremba和Sutskever提出了两个通过课程进行自我调节的标准然而,一旦从不同的任务(即,数据或标签来自不同的分布),就像在我们的环境中一样,课程学习的假设不再成立[24],这些预先选择的进度标准可能很难在我们的情况下,跨任务的底层分布可以是显著不同的(例如,G. ,domainadaption[33- 35 ])。为了解决不同的任务,有两种方法:(i)通过使用任务级权重来向任务分配不同的先验,或者(ii)构造网络架构以利用任务间关系,如在任务层次结构中常见的。2.1任务加权任务加权。多任务学习模型对任务权重敏感[36]。任务权重通常被定义为用于组合多个损失目标的混合或缩放系数。任务权重通常通过广泛的超参数调谐(例如,[38]第三十七章:我的世界此外,任务权重在整个训练过程中通常是静态的,可能会将训练资源转移到不必要的任务或示例[39]。在[36]中,作者根据每个任务的不确定性自动导出权重,但他们没有考虑任务难度。最近的方法尝试根据规定的标准或归一化要求(诸如GradNorm [40])动态地调整或归一化任务权重。这些动态技术有时被称为自定进度的学习方法。4M. Guo,中国古猿A. Haque、D. Huang,S.杨湖飞飞自主学习。自定进度学习[41]是一种自动化的课程学习方法,其中课程由模型的能力决定,而不是通过外部人类监督来固定[42]。在[43]中,作者提出通过任务权重的正则化器自动选择特定于任务的损失权重。然而,任务是更大任务的子集,因此不代表不同的任务集合在[44]中,作者在学习任务排序和实例级排序之间交替它类似于我们的工作,但假设特定于任务的模型可以在单个迭代中训练(即,无梯度下降),因此其对更深层次神经网络的有效性尚不清楚。我们相信自动加权是正确的研究方向,但任务权重必须选择,以更好地适应多任务设置。从进步信号中学习 在[31]中,Graves et al. 使用准确性度量作为学习进度信号,以找到任务课程学习的随机策略该学习进度信号用于通过课程主动选择教学大纲,使得其最大化总体进度。从进度信号中学习在强化学习任务中是常见的,其用作用于累积学习的新的学习信号的指示[46-49 ]。RoutingNetworks[50]采用多代理方法来根据任务和奖励动态选择不同的网络子模块。神经结构搜索[51]需要这是更进一步的步骤,并且以设计整个网络架构为目标,使用准确性作为进展(奖励)信号来训练代理。本工作使用预测增益的变体[52],重新制定监督学习任务,在训练期间动态计算任务权重/优先级2.2任务间关系在这项工作中,我们共同预测分类,人分割,人检测,和人类姿势标签。这些任务对于理解图像中的人类非常重要。Mask R-CNN [53]是一种流行的方法,能够预测分割,检测和人体姿势标签。我们的工作不同之处在于,我们通过利用任务间的难度水平来同时预测所有任务硬参数共享。硬参数共享共享隐藏层-在所有任务上执行,但是维护单独的任务特定输出模块(例如,在损耗之前的单个全连接层)。它是多任务学习最常用的方法之一。动机是可以通过使用相关任务中包含的域信息来提高泛化能力[22]。硬参数共享在图像分类[54]、对象检测[55,39]、语义分割[53]和面部分析[56]中已经成功。在[57]中,作者使用序列到序列模型的硬共享。与每个任务的单个模型相比,硬参数共享可以降低过拟合[58]的风险,偶尔会导致性能提高[37,59]。然而,硬参数共享有两个主要缺点。首先,必须结合特定任务的损失目标,要求特定任务的权重。选择这些权重可能是困难且昂贵的[60]。其次,在网络架构中的某个点,硬共享方法使用单个共享表示,然后将其馈送到多个任务子模块[39,61,53,62,8,57]。这多任务学习中的动态任务优先级划分5不导致关键层:负责学习必须满足所有下游目标的表示的层。这一层的负担可能使其难以优化[22]。任务层次结构。多任务学习受益于多个相关任务[63,64],因为它们可以相互加强并提高整体表现[23,65]。利用任务间关系的一种方法是制定任务层次结构[66]。在这些层次化的多任务模型中,越来越复杂的任务在相继更深的层中被预测。这在自然语言处理社区中取得了可喜的成果[10]。在Søgaard和Goldberg [67]的工作中,他们开发了一个模型,其中词性标签在较低层进行监督,而语言推理[68]和机器翻译[69]等高级语言任务则在后面的层进行监督反馈网络[70]通过学习在时间上展开的网络的不同深度处的不同函数来展示学习隐式层次结构的功效。虽然任务层次结构不是我们在本文中的主要贡献,我们研究了嵌入在网络架构中的明确的任务层次结构的适用性。我们将多个计算机视觉任务按层次结构排列,按难度排序。3方法我们引入了动态任务优先级的多任务学习。与[43]中提出的自定进度的多任务损失相比,它为更容易的任务分配了更多的权重,我们的方法优先考虑困难的任务。与[43]不同的是,我们的方法不使用任务损失来确定相对任务难度。相反地,我们使用更直观和现实的指标来动态地确定任务的优先级:进度信号-也称为关键绩效指标(KPI)。这是强化学习文献[52,31]中常见的想法,我们将其应用于多任务设置。3.1基于难度在本小节中,我们定义了优先级的概念,并讨论了如何根据难度动态调整它。有两个用例:(i)示例级优先级和(ii)任务级优先级。准备工作。 我们将我们的算法定义在一个 有序的任务集 T ={T1,…不|不|{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}我们定义难度D/−1,其中是一个性能指标,如准确性。令t表示从T中的任务集中考虑的当前任务索引。任务T1,…,不|不|根据难度D(Tt)排序。不失一般性,8t2|不|我们有D(Tt)≥ D(Tt+1)。这是一个k-specificlos(e. 例如,在一个实施例中, 对于由Lt(·)确定的目标Tt(·),由于一些示例可能不包含针对T中的所有可能任务的基础事实标签,因此我们使用δt,i,2 {0,1}来表示针对examplei,taskTt的基础事实数据的可用性。在(0)中定义了maskedtaskloslt(·),其中,该值是存储器组件的整数倍,该值是最大输出输出的模型点6M. Guo,中国古猿A. Haque、D. Huang,S.杨湖飞飞不不不示例i,并且yi是任务Tt的基础事实,例如i。Lt(·)= 1XNδt,iLt(pi,yi)(0)X|不|λtLt(1)Nt不i=1t=1在标准多任务学习设置中,使用混合参数λ t组合多个损失,如(1)所示。直观地,λt表示任务权重(即,相对重要性/缩放)。关键绩效指标。 对于每个任务Tt,我们选择由t2 [0,1]表示的关键性能指标(KPI)。KPIt应该是有意义的度量,诸如准确度或平均精度(AP),包括用于回归任务(例如,其中成功由某一误差阈值定义)。我们计算t是一个指数移动平均线¯(τ) =(τ)+(1−)¯(τ−1)其中是训练t t t迭代次数,并且2[0, 1]是折扣因子。的较大值优先最近的例子。我们稍后讨论t不必是可微的。最后,令γ〇彡0表示示例级聚焦参数,并且γ1,…γt彡0表示任务级聚焦参数。 这些聚焦参数γ0,… γt不是应用于损失的实际权重(即,不是混合参数),而是调整简单示例和任务被降低权重的速率示例级优先级。我们现在描述如何识别困难的示例。考虑使用交叉熵(CE)的二进制分类(CE(pc)=− log(pc)其中pc=p,如果y=11-p,否则(二)当2{-1,+1}d不表示该路由选择器,并且p2=0,1}是该模型的后softmax输出(即,概率),对于类y= 1。CE的一个显着的属性是,容易分类的例子将有pc&0。5.在[39]中,作者提出了Focal Loss作为一种在训练过程中降低较容易的示例权重并专注于较难的示例的方法其定义为:FL(pc;γ0)=−(1−pc)γ0log(pc)(3)当γ0是一个非常简单的函数时,我们可以找到它。 当FL(·)被定义用于分类时,我们可以将其扩展到回归任务。考虑对于一些示例i的实值误差度量ei。如果ei2[0, 1],则可以使用FL(ei;γ0)一种归一化方案是通过诸如图像大小的常数来缩放ei我们在L*(·)=FL(pc;γ0)中找到了一个k-性能损失函数,其中一个简单的例子是由于它的不同而不同。 L*(·)的损失有效地计算了六个示例级权重,因为困难的示例现在对总体损失贡献更大。作为这意味着在备份过程中,您将获得更多的“权重”。 这与我们的整体动机一致:我们希望动态地调整训练过程,使得学习资源不被不断地分配给简单的 示例。任务级优先级。 与示例级优先级类似,如果KPI&t0. 5,我们可以假设任务Tt对于模型是容易的。如果给定任务的准确度或精确度可能达到99%,则应考虑到这一点多任务学习中的动态任务优先级划分7不总不不不当你把失去的和更困难的任务结合起来的时候为了平衡容易和困难的任务,我们通过计算任务难度D(Tt)= FL(¯ t;γt)来提高可计算的任务难度L *(·)。我们的动态任务优先级损失(LDTP)是:X|不|LDTP(·)=L* (·)= FL(¯t;γt)L*(·)(4)t=1总结到目前为止,我们的损失LDTP使用学习进度信号(即,(t)自动计算任务级和示例级的优先级这些优先级在整个训练过程中是不同的。梯度。在KPI t是可微分的情况下,例如交集-并集损失层[71]或KPI近似[72],可以正常计算梯度。在KPI t不可区分的情况下,具有以下期望值的LDTP(·)的确定为:@X|不|h@LDTP(·)=@x@xt=1ih@L*(·)FL(¯t;γt) +@x我FL(¯t;γt)L*(·)(5)将FL(t; γt)视为常数会导致第二项的值为零。作为结果, LDTP(·)导致该状态和具有如在Eq中所示的k个k个k。1.一、可以使用第一或第二优化方法[73]来优化最终LDTP(·)。3.2网络体系结构的隐式优先级这项工作的中心主题是优先考虑从困难的例子和任务中学习,其中难度是通过一些进展信号来衡量的。我们在§3.1中提出的损失处理了训练阶段的优先级。然而,网络架构也可能间接地影响任务优先级。为了更好地理解这种效应(如果有的话),我们进行了一系列的消融研究,以衡量任务层次的影响。任务层次结构。 任务层次结构是指任务的某种任意排序,通常由任务间的关系驱动。这种排序可以通过底层网络架构来表现自身。在这项工作中,我们的实验与不同任务之间的相对困难的基础上的任务层次结构考虑具有任务排序T1、T2、…不|不|.当放置在层次结构中时,任务Tt在被馈送到下一个任务Tt+1之前被处理。相比之下,未布置在任务层级中的多任务模型(诸如硬参数共享)将并行处理任务,其中所有任务T1、T2、…不|不|消耗相同的学习表示φ(x),其中x是输入并且φ是任意函数(例如,神经网络)。通常,在p(x)之后没有与[23]不同的是,我们的任务层次不是多阶段的;所有任务都在单遍中计算。网络架构。 为了在架构级别对任务层次进行编码,我们在不同层之间强制单向前馈连接8M. Guo,中国古猿A. Haque、D. Huang,S.杨湖飞飞图2:多任务学习架构的比较。蓝色阴影表示不同的任务特定层。灰色矩形表示骨干块,Mt表示任务特定的子模块,X是输入。(a)硬参数共享:多任务学习的标准方法,T=2。 (b)UberNet [37],T = 2。(c)在我们的消融研究中使用的任务层级,T = 4。一个神经网络(见图2)。 给定输入x和任务层次结构T,输入x被馈送到我们称为骨干的神经网络模块中。主干由|不|子模块,我们称之为骨干块,表示为B1,B2,…B|不|.对于课程中的每个任务T1,骨干块B1馈送任务特定模块M1(例如,反卷积[74],逐点卷积)。一般来说,备份块Bi是指存储器的备份块B i +1。为了在主干块之间传递特征,在块之间插入过渡层。这种结构是堆叠的|不|在网络体系结构中创建一个模型,该模型对由任务层次结构T指定的任务排序进行编码(参见图2c)。对于任何任务Tt和任何输入x,通过任务层级的进展由以下递归关系定义,其中φ是学习的表示:φ0=x和φt=(Mt◦Bt)(x)(6)其中Bt(x)=(Bt−1◦ Bt−2... ◦ B1)(x)和◦表示函数组合。一种这样的层次结构是对任务进行排序,使得D(Tt)≥ D(Tt+1),8t 2|不|,其中任务难度D(t)= FL(¯ t; γt),在§2.1中定义。结果是一个层次结构,其中更困难的任务在更容易的任务之前处理。总结如下:在任务层次结构中,来自较低级别任务的输出作为输入提供给较高级别任务。这与硬参数化(图2a)形成对比,其中该硬参数化与架构中的“低级别”不一致。UberNet(图2b)由一个层次结构组成,但特定于任务的子模块仍然共享一个关键层。多任务学习中的动态任务优先级划分94实验这项工作的目标是在多任务学习过程中动态地优先考虑困难的任务我们的实验有三个方面:1. 我们进行了分析,以显示任务级优先级的重要性。2. 我们提出了两个消融研究来衡量:(i)明确的优先级从我们的动态任务优先化和(ii)来自任务层次的隐式优先级。3. 我们将我们提出的方法与标准计算机视觉任务和数据集上现有的单任务方法进行数据集。 我们评估我们的方法对四个核心的计算机视觉任务:分类,分割,检测和姿态估计。我们使用COCO 2017数据集[27]和MPII人体姿势数据集[28]。为了使用这些数据集提供的完整标签集,我们专注于人类理解任务,其中图像中最多存在一个将图像限制为零或一个人的原因是为了使任务之间的信息流更简单。扩展到多个人是一个使用更复杂的特定任务解码器模块的问题。无论如何,我们的方法可以通过类似于本发明的方法扩展到多个人[75- 77 ]。评估指标。 使用前1分类准确度评估分类。对于分割和检测,我们使用标准COCO指标[27],主要是平均精度(AP)。我们用途:AP、AP 50、AP 75、AP S、AP M和AP L,其中下标是指阳性检测的最小重叠阈值。交并(IoU)是小[S](面积322)、中[M](322≥面积962)和大[L](面积962)对象的阈值为50%至95%的度量,增量为5%<<对于姿态估计,我们使用标准MPII度量:正确关键点百分比(PCKh)度量[78]。PCKhmetricacu ntsorsi m a g a b a se m a g a b a se m a se d e d e r s im a g a se d e d e e d e d e r se e d e r s i m a g a g a b a g a g a b e d e d e ed e d e e d e d e e d e d e e d e d e e d e d e e d e e d e d e e d e d e e d e d ee d e d e e d e e d e e d e d e e d e e d e e d e d e e d e d ee如果预测的二维姿态坐标在地面实况姿态坐标的3/4像素内,则预测被认为是正确的。公差与真实头颈长度成正比。实现细节和超参数可以在附录B中找到。4.1任务级优先级我们的第一个实验是评估不同的任务加权方案,包括我们的动态任务优先级的方法。我们训练了一个单一的硬参数共享模型(图2),以同时预测分类,分割,检测和姿态估计标签,但使用了不同的加权/优先级机制。加权方案之间的唯一区别是任务权重网络体系结构由单个共享骨干(即,DenseNet [79]),最后一层被馈送到多个特定于任务的层。基线。表1表明,我们的加权方案可以优于其他多任务学习加权方案。我们评估了以下内容:10M. Guo,中国古猿A. Haque、D. Huang,S.杨湖飞飞1.001.001.000.750.500.25CLS检测姿势分段0.750.500.25CLS检测姿势分段0.750.500.25CLS检测姿势分段0.00分段姿势检测CLS0e+001e+052e+053e+05迭代优先1.00.50.00.00分段姿势检测CLS0e+001e+052e+053e+05迭代优先1.00.50.00.00分段姿势检测CLS0e+001e+052e+053e+05迭代优先1.00.50.0(a)优先考虑简单(固定)(b)优先考虑困难(固定)(c)动态(我们的)图3:任务级优先级方案的比较。(顶部;线图)验证集上每个任务的性能。越高越好。X轴表示训练步骤的数量。(底部;方形图块)的优先级训练中的每一项任务较深的颜色表示较高的优先级。– 均匀:每个任务加在一起产生一个单一的标量损失值。– 优先排序容易:分类的权重为0.97,所有其他的权重为0.01。– 优先级排序困难:姿势估计的权重为0.97,所有其他的权重为0.01。– 手工制作:姿态估计、检测、分割和分类分别被赋予0.4、0.3、0.2和0.1的权重(通过网格搜索选择)。– 损失指数化:未加权损失输出的幂为1.2。这假设较大的损失幅度指示更困难的任务。通过网格搜索选择1.2的幂。– Homoscedastic Uncertainty[36]:使用与损失幅度相关的不确定性来自动加权不同的任务。– 自定进度[43]:任务权重是可学习的参数,并且被正则化以鼓励在早期的训练迭代中选择简单的任务我们的方法,动态优先级,自适应地调整任务级的优先级,通过了培训过程。这在图3c中是显而易见的。最初,姿势被赋予最高优先级,并且随着时间的推移,模型缓慢地增加检测和分割的优先级。请注意,这与我们最终提出的方法略有不同,在§4.3中进行了评估。我们的最终模型将任务级优先级与示例级优先级相结合,而表1和图3c中的模型仅应用任务级优先级。4.2消融研究我们的消融研究包括两部分:(i)分析我们提出的动态任务优先化方法和(ii)分析任务层次结构的效果。动态任务优先级:聚焦参数γ。为了更好地理解任务级聚焦参数和示例级聚焦参数之间的相互作用γ0,…γt,我们在表2中提供了消融研究。在这个实验中,我们在所有四个任务上训练了一个硬参数共享模型的差值任务性能任务性能任务性能多任务学习中的动态任务优先级划分11确定硬优先级(LR计划)89.4472.8482.6456.09手工制作90.6278.0676.8050.28损失指数化88.8573.9967.6842.52[36]第三十六话88.5973.5665.0148.72焦点损失(γ= 1)88.8070.7765.0554.04[43]第四十三话89.7674.4678.1849.34动态优先级-简单90.2068.0076.2032.90动态优先级-硬(我们的)91.0578.8379.3156.11表1:任务级优先级方案的比较 字母表示分类(C)、分割(S)、检测(D)和姿态估计(P)任务。LR计划是指学习率计划(见附录B)。方法C顶部-1S AP50D AP50P AP50FL(γ0 =1)74.074.082.049.1FL(γ0 =2)71.871.869.947.4DTP(γ 1..., γt=1)91.178.879.356.1DTP(γ 1..., γt=2)88.876.568.454.3FL+DTP(γ 0,…γt=1)88.977.885.952.7FL+DTP(γ 0,…γt=2)88.476.782.454.9表2:示例级和任务级聚焦参数的影响 FL表示焦点损失[39],应用于示例级加权。DTP表示我们在任务级权重上的动态任务优先级损失。γ〇表示示例级聚焦参数,并且γ1,… γt表示任务级聚焦参数。运行是包含或排除示例级或任务级权重。我们还改变了聚焦参数值。指数地增加聚焦参数将更容易的示例和任务标记为不重要。随着γ0的增大,分类和分割的性能下降。令人惊讶的是,当γ 0从1.0增加到2.0时,检测和姿态估计AP在FL和FL+DTP上改进。直观地,这使得姿态估计比分类和分割更困难(即,姿态估计是多回归任务)。较大的γ0迫使模型专注于检测和姿态估计,但不幸的是以分类和分割性能为代价。任务层次:任务排序的效果 本文重点研究了人脸分类、人脸分割、人脸检测和人体姿态估计等问题。枚举可能的任务顺序的结果为4!=24方法C顶部-1S AP50D AP50P AP50均匀90.1478.5775.2947.72优先考虑简单88.6962.4567.3645.48优先考虑困难89.9275.8065.8655.96优先考虑简单(LR计划)88.3261.2964.6847.7212M. Guo,中国古猿A. Haque、D. Huang,S.杨湖飞飞1.021.000.980.9612341.751.501.251.000.750.5012341.21.11.00.912341.21.11.00.91234层次结构中的位置(a) 分类层次结构中的位置(b) 分割层次结构中的位置(c) 检测层次结构中的位置(d) 姿势估计图4:任务排序对绩效的影响 x轴表示层级中的位置(例如,1:第一任务,4:最后一个任务)。每个条形/方框表示中间的50%。y轴表示如果将任务Ti放置在层次结构中的指定位置,则与使用Ti在第一位置。如果y >= 1。0,这意味着任务Ti在该位置处的表现优于任务Ti位于课程开始处的模型。例如,在(a)中,分类任务在被放置在其他任务之前时倾向于执行得更好。黑点表示离群值,定义为大于1。距离四分位数间距5。完整结果表见附录A。排列我们进行了一个实验,训练和评估了24个模型,每个模型都有不同的任务排列。虽然这是一个详尽的搜索,但本实验的目标不是找到最佳排序,而是确定这样的排序是否对性能有影响。我们使用一个密集连接的卷积网络[79]作为任务层次结构的主干(见图2c)。分类模块由线性层组成分割模块由一个小的全卷积网络[80]组成,并输出一个分割掩码。对于检测和姿势模块,我们使用逐点卷积来回归参数化边界框和2D身体部位位置的向量。排序实验的分析如图4所示。很明显,一些任务在层次结构中的不同位置上执行得更好图4a示出了当将分类放置在层次结构的开始第一层,见图2c)。当放置在层次结构的较后层中时,分段展示了显著改进的性能(参见图4b)。当被放置在位置3处的任务层级网络的中心时,分段性能被提升1。25英里。检测(图4c)对其在层级中的位置相当稳健。姿态估计(图4d)也看起来对其位置是稳健的,但是高方差可能被证明是不确定的。多任务学习的任务层次到目前为止,我们的实验表明,任务层次结构确实会影响性能-特别是对于分类和分割的情况(见图4)。我们现在提出以下问题:任务层次结构与现有的多任务方法(如硬参数共享)相比如何?基线。我们评估了常用的硬参数共享模型[22],其中多个任务头从网络末端附近的单个关键此外,我们评估了UberNet [37]架构相对变化相对变化相对变化相对变化多任务学习中的动态任务优先级划分13模型C顶部-1S AP50D AP50P AP50[22]第二十二话91.0578.8379.3156.11UberNet [37]89.7677.8180.0655.47任务层次结构91.1680.2680.9262.40表3:与COCO上的任务层次结构的比较 字母表示分类(C)、分割(S)、检测(D)和姿态估计(P)任务。多任务学习从视觉上看,这些基线如图2所示我们简要讨论每种多任务方法的实验配置:– 硬参数共享[22]。DenseNet [79]用作共享模型。共享模型的输出特征图被馈送到各个任务模块(即,读出功能或解码器)。– UberNet[37]. 我们通常使用D e ns e N e tash e“t r un k“。 Eachd e ns eblock输出到批处理规范化[81]层,该层分支为任务模块。每个层输出特定于任务的特征。– 任务层次结构。 我们还使用DenseNet作为主干。每个密集块输出到不同的任务模块。本实验选择的排序是最佳排序,如图4所示:分类、分割、检测和姿态估计。UberNet [37]是硬参数共享的一种变体,是一种用于并行联合训练多个任务的统一架构。当训练一个或两个任务时,他们展示了最先进的单任务模型的竞争力。然而,当扩展到几个任务时,性能会恶化[37]。我们相信他们的观察结果可以归因于任务难度。这导致了我们的工作和UberNet之间的关键区别:我们的方法学习按任务难度排序的任务层次结构中的表示,而UberNet学习标准的深度学习特征层次结构[82]。结果表3比较了硬参数共享、UberNet和我们的任务层次结构。每个基线包含相同的骨干和解码器模块。正如1中所示,在这个任务层次研究中,我们也观察到了迁移学习的效果。我们的任务层次结构优于硬共享和UberNet,并且在姿势估计方面有很大的优势分类和检测表现出相当的性能,略有改善我们的任务层次结构的分割精度。需要提醒的是,从我们在第3节中对任务难度的定义来看,任务表现是难度的代表。图4中的结果表明姿态估计和检测比分类和分割明显更困难。这从表2中的定量结果中显而易见,表2分析了我们的动态任务优先级,图4和表3也表明任务层次结构确实强加了优先级的概念姿态估计是最困难的任务,而分类是最容易的。因此,我们采用以下层次结构:首先是分类,其次是检测,第三是分割,最后是姿态估计。14M. Guo,中国古猿A. Haque、D. Huang,S.杨湖飞飞CocoMPII任务方法AP AP50AP75 精度AP50分类DenseNet [79]---89.8-分类我们的方法---91.5-分割简体中文[CN]51.983.655.5--分割我们的方法49.483.250.7--检测RetinaNet [39]49.483.757.0--检测我们的方法52.580.253.1--姿态估计高尔夫[83]59.9---43.9姿态估计我们的方法62.4---45.8表4:单任务与我们的多任务动态任务优先级模型我们比较了我们的动态任务优先级模型(同时在所有四个任务上训练)与单任务方法的单个实例。4.3与单任务模型的在分析了我们提出的动态任务优先化方案的独立效果和任务层次结构的间接效果之后,我们现在将这两种技术见解结合到一个单一的统一模型中。在这个实验中,我们训练了一个配备了动态任务优先级的单一模型。它在分类、分割、检测和姿态估计方面进行联合训练。 我们将我们的模型与现有的最先进的单任务模型进行了比较,例如RetinaNet [39],FCN[80]和stackedhorglasnettworks[83]。为了使我们的模型的部件计数尽可能接近每个单任务模型,我们使用相同的特定于任务的表4示出了结果。对于检测任务,RetinaNet [39]证明APS、 APM和APL分别为11.8、45.6和70.8。我们的方法证明了12.78、40.6和70.5的APS、APM和APL虽然我们的方法在较小的对象上表现更好,但RetinaNet在中型和大型对象上的表现优于我们的方法我们可以看到,我们的方法,这是同时训练的分类,分割,检测和姿势的任务,是能够竞争的结果与国家的最先进的模型。5结论在这项工作中,我们提出了多任务学习的动态任务优先级我们的方法鼓励模型从困难的例子和困难的任务中学习。消融研究分析了我们提出的方法所产生的显式优先级和嵌入在网络架构中的任务层次所产生的隐式优先级的影响。总之,我们证明了用动态任务优先级训练单个多任务模型可以实现与现有单任务模型竞争的我们相信,我们的研究结果提供了有用的见解,无论是单任务和多任务学习方法的应用和研究多任务学习中的动态任务优先级划分15引用1. Coviello,D.,Ichino,A.,佩尔西科,N.:时间分配和任务处理。美国经济评论(2014)2. Kenny,J. Fluck,A. Jetson,T.,等:重视学术工作:基于时间的学术工作量模型的开发和实施。Aus-tralianUniversesities3. Kenny,J.D.,Fluck,A.E.:机构中学术工作量模型的有效性:员工的视角。高等教育政策与管理杂志4. Bellotti,V.,Dalal,B.,很好NFlynn,P.,博布罗D.G.Ducheneaut,N.:什么是To-Do:任务管理的研究,面向个人任务列表管理器的设计。在:计算机系统中的人为因素会议。(2004年)5. Kember,D. :我将保留工作负载的数据,以及影响数据对其工作负载的感知的因素。高等教育研究(2004年)6. 杨,Y.,Hospedales,T.:深度多任务表征学习:张量因子化方法。2016年《ArXiv7. Jou,B.,Chang,S.F.:多任务视觉识别的深度交叉残差学习。在:多媒体会议。(2016年)8. 米斯拉岛Shrivastava,A.,Gupta,A.,Hebert,M.:多任务学习的十字绣网络在:CVPR中。(2016年)9. Luong,M.T.,Le,Q.V.,萨茨克弗岛Vinyals,O.,Kaiser,L.:多任务序列到序列学习。05 The Fall(2015)10. Hashimoto,K.,Xiong,C.,鹤冈,Y.,Socher,R.:联合多任务模型:为多个nlp任务生长神经网络。2016年《ArXiv11. Dong,D.,吴,H.,他W Yu,D.,Wang,H.:多语言翻译的多任务学习。在:ACL。(2015年)12. 科洛伯特河Weston,J.:自然语言处理的统一架构:设计一个带有多个线程的网络任务。 In:ICML. (2008年)16013. 奥根斯坦岛Ruder,S.,Søgaard,A.:不同标签空间上成对序列分类任务的多任务学习。ArXiv(2018)14. 吴志,Valentini-Botinhao,C.,Watts,O.,King,S.:深度神经网络采用多任务学习和堆叠瓶颈特征进行语音合成。在:ICASSP中。(2015年)15. Seltzer,M.L.,Droppo,J.:深度神经网络中的多任务学习,用于改进音素识别。在:ICASSP中。(二零一三年)16. Huang,J.T.,李杰,Yu,D.,邓湖Gong,Y.:使用具有共享隐藏层的多语言深度神经网络进行跨语言知识传输。在:ICASSP中。(2013年)730417. Jaderberg,M.,Mnih,V.,Czarnecki,W.M.,Schaul,T.,Leibo,J.Z.,Silver ,D.,Kavukcuoglu ,K.:无监 督辅助任务 的强化学习。 2016年《ArXiv》18. Rusu,A.A.,北卡罗来纳州拉比诺维茨Desjardins,G.,Soyer,H.,Kirkpatrick,J.,Kavukcuoglu,K.,帕斯卡努河Hadsell,R.:渐进神经网络。2016年《ArXiv》19. 德文角Gupta,A.,Darrell,T.,Abbeel,P.,Levine,S.:多任务和多机器人转移的学习模块化In:ICRA. (2017年)20. Fernando,C. Banarse,D.,布伦德尔角Zwols,Y.,D Rusu,A.A.,Pritzel,A.,Wierstra,D.:Pathnet:进化通道在超级神经网络中的梯度下降。ArXiv(2017)16M. Guo,中国古猿A. Haque、D. Huan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功