没有合适的资源?快使用搜索试试~ 我知道了~
10685使用特权任务宋玉茹1昝楼2善友2,3 *杨二坤4*王飞5陈倩2张长水3王晓刚2、61加州大学圣地亚哥分校2商汤科技研究院3清华大学清华大学人工智能研究院北京国家信息科学技术研究中心4西安电子科技大学5中国科学技术大学6香港中文大学yus027@ucsd.edu,{louzan,youshan,qianchen}@ sensetime.com,erkunyang@gmail.comwangfei91@mail.ustc.edu.cn,zcs@mail.tsinghua.edu.cn,xgwang@ee.cuhk.edu.hk摘要多目标多任务学习旨在通过适当地利用所有任务的相关性和冲突来提高所有任务然而,在实际实践中,用户可能对某些任务具有偏好,并且其他任务简单地用作特权或辅助任务以辅助目标任务的训练。因此,特权任务在用户的最终任务评估中具有较少的优先级,甚至没有优先级。基于此,我们提出了一种特权多重下降算法来仲裁目标任务和特权任务的学习具体地说,我们引入了一个特权参数,使优化方向不一定遵循特权任务的梯度,但concentrates更多的目标任务。此外,我们还为目标任务引入了一个优先级参数,以控制优化方向偏离优先任务的可能性。以这种方式,可以通过对目标任务和特权任务之间的梯度进行加权来更积极地确定优化方向,并且因此在统一的多任务学习上下文下更突出目标任务的性能在合成数据集和真实数据集上的大量实验表明,该方法可以在不同偏好的目标任务下实现通用的Pareto解。1. 介绍除了设计强大的模型结构[32,46,35,13,34]和信息任务损失[19,48,5,44,52],多任务学习(MTL)[50,38]易于提高性能*通讯作者。和效率,并日益引起人们的研究兴趣。MTL的范例已被证明在许多计算机视觉问题上优于单任务学习(STL),例如属性识别[51],场景理解[24]和自动驾驶[9]。为了利用任务相关性,当前的MTL方法主要遵循软参数或硬参数共享原则。在软参数共享中,任务被单独聚合,这些任务之间的交叉对话[28]通常用于鼓励共享知识。然而,设计串扰的复杂性是特定于特定问题集的,并且不能很好地扩展到许多任务。相比之下,硬参数共享利用独特的主干来追求任务的直接共享表示[1,2],以及任务特定的子网络。因此,硬参数共享是能够减少参数的大小成比例的任务数,并促进推理速度在测试过程中。虽然任务之间的参数是以一种很难的方式共享的,但如何平衡所有任务仍然是MTL的问题规避这一困难的任务平衡超越了任务的天真统一加权[51]。找到多个任务的适当权重的现有启发式方法包括网格搜索、探索任务不确定性[10]和梯度归一化[6]。最近的前卫方法是将MTL视为多目标优化(MOO-MTL)[33]。它提出了寻找帕累托前沿,只允许共同改善的任务,而不是牺牲任何个人。任务权重在学习过程中动态评估。目前的MTL方法平等地对待所有任务,并且关注推理期间所有任务的平均性能。然而,在实践中,用户可能只需要监视一些目标任务的性能,而不是10686低特权高特权LUPT解决方案Pareto目标任务性能图1:特权任务学习(PTL)赋予一些任务可调整的权限,以协助目标任务。当特权参数较低或为零时,权衡较少或不偏向目标任务。当特权参数高时,在训练期间优先考虑目标任务所有任务。对于这种情况,一个自然的解决方案是只学习目标任务。然而,这种做法忽略了其他任务的潜在好处。相比之下,我们的目标是包括MTL上下文中的所有任务,但非目标任务仅作为特权任务1,以帮助目标任务的训练,并且与用户的性能评估无关。一些文献还将辅助任务称为特权任务。然而,他们要么专注于为目标任务设计辅助任务[29],要么没有考虑任务之间的内在冲突和竞争[45]。冲突可能自然地存在于目标任务和特权任务之间,或者甚至在目标任务本身内。MOOMTL的现有变体也优先考虑这个问题[22,27,26]。然而,偏好向量通常定义在损失空间中。设计这些向量需要帕累托前沿上的个体损失幅度的先验信息。在实践中,用户经常无法提供帕累托前沿的近似值。在本文中,我们将目标任务和特权任务(PTL)的学习转换为统一的多目标优化问题[33],以同时管理目标任务和特权任务之间的相关性和冲突。我们在梯度空间中考察任务优先级,而不是考虑损失空间,并提出了一种特权多重梯度下降算法(P-MGDA)来放大目标任务的性能。具体地说,对于每个小批量,我们引入一个特权参数,使下降方向不一定遵循特权任务的梯度通过这种方式,我们可以灵活地调节目标任务和特权任务之间的冲突或竞争。此外,我们还鼓励优先条款,以规范对目标任务的方向修正。这样,当目标任务和特权任务只合作时,我们仍然可以保证一致的执行1我们将我们的方法命名为特权任务,这是由先前的工作[40,25,39]所激发的,该工作研究了使用特权信息(LUPI)来提高训练的学习,并且在推理过程中也不参与。利用特权任务。我们的方法,特权任务学习(PTL),引入了在梯度空间上工作的参数,这样我们就可以控制它们来实现通用的帕累托临界点,以满足用户的偏好,如图1所示。我们优化我们提出的P-MGDA一个有效的混合块坐标下降(CD)算法。在合成数据集和真实数据集上的大量实验验证了我们的PTL的有效性结果表明,PTL是能够找到的解决方案,不仅在所有的任务,但特别是对目标任务的整体满意的性能2. 相关工作多任务学习中的辅助学习最近的回顾,如[37],提供了对MTL设置中辅助任务的广泛而详细的调查辅助任务的构成方式多种多样在PAD-Net [43]中,来自网络的中间辅助输出被训练以帮助主要任务。主任务的特征空间直接建立在辅助任务的特征空间Du等提出,为了使MTL有效,主要任务和构建的辅助任务之间应该存在相似性[15]。他们提出的方法基于任务梯度,使用余弦相似性来测量主任务和辅助任务之间的相似性。[45]提出的辅助任务的权重平衡通过在学习过程中利用类权重来驱动正迁移并抑制负迁移,并利用来自辅助任务的有用信息。而在我们的设置中,特权任务和辅助任务具有相同的位置。带偏好的多目标优化。在[33]提出的关键框架之后,MOOMTL的扩展大多试图扩展帕累托前沿。在Pareto-MTL [22]中,参考向量用于指导MOO搜索,这导致一组在所有任务之间具有不同权衡[27]改进了Pareto-MTL,并严格求解了偏好特定的Pareto解,这些解正好位于参考向量上。在[26]中,在Pareto解附近找到了连续解.我们的框架还可以通过调整优先级和特权参数来满足用户的偏好。学习使用特权信息(LUPI)。LUPI [40,25,39]假设每个示例对应于一个常规特征和一个额外的特权特征,因此可以使用特权特征来提高训练模型的性能[47,36,49,41]。然而,特权特征在推断期间不涉及或甚至不可用。我们将我们的方法命名为特权任务,但在问题设置上有显着差异在LUPI中,常规特征和特权特征都服从同一个任务;在我们的PTL中,示例对应于多个并且可能不同的任务,并且特权任务是为了提升目标任务。特权任务性能10687Σ.Σ我我i作为θ,并且I在训练步骤τ处更新的θ作为θ(τ)。| |α2MθMM的界(MGDA-UB)αmθm,通过计算对于所有任务t和1(θ,θt),. . ,T(θ,θt)=v,d2θ3. 再论多目标MTL我们将MTL的多目标优化问题形式化如下[33]。假设有M个任务的索引设置为。表示网络的共享参数-(例如,MOO-MTL [33]和Pareto-MTL [22])通过考虑MTL问题的对偶问题,采用min 1Σαm2,s.t. Σα= 1,α ≥0。(三)m∈Im∈I但我们将在下文中省略τ。每个任务t都有自己的任务特定网络,参数为θt,t∈ I。MTL网络的整个参数集为{θ,θt,t∈ I}。输入空间为X,任务t的输出空间为Yt,t∈ I.数据集就在那里-最佳解d*的Eq。(1)最优解(1)Eq。(3)满足d*=Σαm*θm,s.t. Σαm* =1,αm* ≥0。(四)前{x,y1,y2,. . . ,yT},其中N是m∈Im∈I我我我我 i ∈[N]tt数据集。每个任务的损失函数为l(θ,θ)。当使用共享参数θ工作时,任务特定的参数在符号中,将省略参数θt为了避免计算参数梯度的耗时操作,[33,22,14]找到了一个上∈I我们的目标是找到合适的加权向量ct,用公式表示标量损失,t∈Ictt,使得它Σm∈IαmZmZMm是共享的组件,任务特定的损失,联合优化,以学习期间最多。为了缓和任务冲突,我们通过考虑向量 化 损 失 来 绕 道 而 行 , ( 1991 , 1992 , . . . ,CNOT),利用多目标优化的现有框架。最基本的概念--问题是找到所有目标的帕累托最优解[12],定义如下。定义1(MTL的帕累托最优性)。(一). 解θ优于a。解θ<$if θt(θ,θt)≤θt(θ<$,θt)4. 具有任务优先级的特权MGDA我们基于以下考虑扩展MGDA。尽管找到帕累托解的有效性,MTL问题可以有许多最佳的权衡任务之间,但单一的解决方案获得的MOOMTL可能不服务,甚至违反用户的特定偏好。为了缓解这种情况,我们进一步考虑特权任务的存在,它服务于以协助目标任务的训练,并且不太一致,1(θ′,θt), . . ,θT(θ′,θt). (b). 解θ为如果不存在支配θ的解θ,则称为帕累托最优。多重梯度下降算法(MGDA)[12,17]不是求解帕累 托 最 优 点 , 而 是 通 过 利 用 Karush-Kuhn-Tucker(KKT)条件转向必要的帕累托临界点。如在[17,33,22]中,最小化问题min.v+1d2Σ,s.t. 其中,m ∈ I.(一)在推理阶段。因此,在学习期间允许特权任务适度地休息。这些潜在恶化的特权任务由索引集p表示。并且目标任务由索引集合t表示。假设存在Mt个目标任务和Mp个特权任务。去-目标任务和特权任务总数量是Mt+ Mp,可以互换地写为M。考虑问题(1)中的不等式约束,则d∠≤v。(5)保证下降量不小于满足以下引理1。引理1.[17,33,22]设(d,v)为问题的解(1)、1. 如果θ是帕累托临界的,则d=0且v=0。2. 如果θ不是帕累托临界,则v.这适用于目标任务和特权任务。但当任务冲突或竞争出现时,特权任务可以放宽这一限制,优先考虑目标任务。我们巩固和证明这个想法如下。4.1. 执行特权任务v≤−(1/2)d20M(二)我们引入松弛变量ξi在等式中≥0(5)对于∇ℓθ ≤v,∀m ∈I换句话说,问题(1)的解是0,因此没有同时改进所有任务的方向,或者该解导致改进所有任务的下降方向。然后,最近的多目标MTL方法中间表示。10688特权任务,可以在培训和灵活协调任务冲突。所得到的下降方向可能会增加特权任务的损失函数,因为ξj可能足够大并且v+ξj为正。为了避免特权任务的不必要牺牲,我们设置了正则化参数C1≥0的上限。10689Σ∇∇Σ∈I∇ − ∇≥ΣΣΣ2附加术语,j∈Ipβij(θi(θ)−θj(θ)),其中j∈Ip松弛下降模型在Eq. (六)其中,d∠≤v+ξj,且∠j∈Ip.(六)在相应的对偶问题中,我们对特权任务的系数有新的约束,0≤αj≤C1,j ∈ Ip.(七)C1控制权限范围,由用户决定。在具有两个任务学习的简单情况下,仅存在一个目标任务lt和一个特权任务lp。斜纹αl+αlp1t2p布里α1ltαl2p(a) 为特权任务而缓慢下降。β12(lt−lp)Mm=1 αmθm(θ)被简化为仅ltdα1lt+α2lp斜纹布两个比例梯度α1lt+α2lp。C1设置α2的上限,即在训练期间对特权任务的最大可能考虑。因此,C1确定下降方向与的梯度的接近程度目标任务,如图2的上面板所示。大α1ltα2βlpC1为α2提供了空间,从而提高了训练过程中特权任务的比例,而小C1则限制了特权任务的参与,使任务的优先级更高相应的任务4.2. 优先方向校正Eq.的简并性(6)当目标和特权任务之间没有冲突时发生,因为特权任务的损失上升将仅是多余的。为了一致地开发特权任务,我们进一步要求仅对目标任务进行较大的改进,而忽略特权任务。这样的请求是由额外的不等式约束。换句话说, ⟨∇θℓi(θ), d⟩ ≤其中,δ∈I。这将引入AD-i∈It≥(b) 方向校正对目标任务进行优先级排序。图2:几何解释。(一).特权参数在可控范围内使下降方向偏向目标任务。(b).方向校正进一步将下降方向推向目标任务。总之,这说明了PTL的理论有效性。以下约束使得αi,ip足够大,如βij≤αj,j ∈ Ip.(十)i∈It再次,我们参考两个任务学习的说明性分析-模型的分解, 如图2所示。在这种情况下对偶问题,其中βij0代表乘数对于等式中的每对不等式约束(八)、我们Σi∈ItΣj∈Ipβij(θi(θ)−θj(θ))简单为我可以把这个术语解释为对下降的方向,甚至将优化转向目标任务其中 d∈θi (θ),d∈≤θiθj ( θ),d∈+ηi j ,ηi∈It,j∈Ip. (八)然而,优先于特权任务的每个目标任务可能会过度收缩可行集。为了适当地放松这个约束,我们还引入了可学习的松弛变量ηij≥0,它可以通过参数进行正则化β12(1t1p)。 更大的β12对应于更大的cor。为实现目标任务的方向而努力。这种校正由C2界定,并且因此根据用户偏好可调节。4.3. 理论分析随着特权任务的松弛下降和向目标任务的方向校正,PTL模型总结如下C20。 类似地,对β ij的附加约束将是在对偶问题中引入为最小v+C1d,v,ξ,η·ξjj∈Ia+C2 ·ηiji∈Ipj∈Ia+1d2,βij≤ C2,i ∈ It,j ∈ Ip.(九)S.T.其中,ξθξi(θ),dξ ≤v对于i∈I p,αi<Σβij可能是这样的情况。10690θiθjd中的系数<$θ<$i为负。在这种情况下,d其中,ξj≥0,ξj∈Ip,⟨∇、(θ),d(θ),d IJ将不是任务梯度的凸组合。到为了避免MGDA方法的崩溃,我们进一步努力ηij≥ 0,i ∈ I t,j ∈ Ip.(十一)10691ΣΣ←∇ ∇ΣΣ我T21pIJJpi∈Itj∈Ipηij+ ξj0<1J2IJJα,βpΣ不Σ2 ∗ ∗∗ΣminQii α2+ Qjj α2+ 2 Qijαi αj通过拉格朗日乘子,PTL问题的对偶问题形式化如下算法一:特权任务下的学习;初始化;minα,β12∥m=1αmθm(θ)+对于m1到Mdo计算任务特定梯度:Mθmlm(θ,θ)βij(θi(θ)−θj(θ))2,i∈I j∈I更新任务特定参数:θm=θm−θmlm(θm,θ)不S.T.Σαm∈Ip=1,0≤α≤C,j∈I,(十二)端计算共享渐变:的t,p]求解方程(14):α,β=HYBRIDSOLVER(θ)0≤βij≤C2,i∈It,j∈Ip,β≤α,j∈I.i∈It更新共享参数:θ=θ−r·([t,p]α+tβ1p−pβT1t)其中α∈RM,β∈RMt×MP. 根据引理1,我们其中α∈RM,β∈RMt×MP. 我们使用x=[α,ββα]。βˆ也可以证明方向d确实可以改善是β的向量化,其满足β1p=Aβ,1Tβ=目标任务,同时可控地保持特权任务改善或下降,如定理1。定理1. 根据引理1,设(d*,v*,ξ *,η*)为问题(11)的解。1. 如果d∞=0,则解是Pareto临界的;βP。Q是从任务梯度的内积和它们的减法计算的半正定矩阵。Q的明确表示见补充资料。这个问题与单类支持向量机(OC-SVM)的对偶问题在形式上有着密切的联系。一2. 如果d*0, 然后 目标 任务 和 隐私-这种优化的有效方法是坐标-遗留任务满足−d2−C1Σj∈IC2ξj*−自然下降(CD)方法(或分解方法[7])。Σ Σ ∗∗p将下降:它沿着工作中的几个坐标迭代优化i∈It,=−d2−C1Σξj−C2ΣΣηij,的优化。由于α上的约束αT1=1,我们应用[8]中B的选择方法。 对于β,随机se-j∈Iti∈Itj∈Ip(十三)坐标的选择已被证明是有效的j∈Ip,=−d−C−C+ξ。j∈Ipi∈Itj∈Ip[3]的文件。在我们的情况下,子问题可以在下面的(15)和(16)中公式化定理1可以与引理1类似地证明。详细的证明是指补充材料.请注意,我们没有使用参数上的梯度,而是使用了图中的共享中间表示上的梯度。αi,αj+2(Qikαixk <$∈{αi,αj}+Qjk αj) xkPTL用于效率。在续集中,我们继续用新的混合坐标下降方法或“HybridSolver”来解决对偶问题(12)。我们的学习算法是S.T.αi+αj =1−xk<$∈{αi,αj}αk,在算法1中总结。4.4. 优化在本节中,我们描述了我们解决对偶问题(12)的方法。为了简洁的公式化,让普雷特 =[,θm(θ),]∈Rd×Mt,m∈It,且p=minβ0≤αj≤C1,i∈It,βij≤ αj≤ C1,i ∈ Ip.JQiiβ2+2 ΣQi kβixk(十五)[,⋯⋯ (θ),]∈Rd×Mp,m∈I. 那么方程(11)可以是ix∈{β}θm p(16)重写为min¨[,]α+β1S.T. 0≤βi≤min(C2,αk−Σβjk),βi∈{βjk}.-β1¨,(十四)选择工作集B会影响转换速度。M1JM每次设置B。每次迭代解决一个子问题2pˆJ10692S.T.αT1 = 1, βT1t≤ αp,0 ≤αp≤ C1,0 ≤β≤ C2。gence. 已经提出了一些线性支持向量机的算法正如在[8]中所讨论的,固有的线性约束10693∈×OC-SVM的对偶问题中存在的问题由于线性约束可能导致子问题已经是最优的,因此变量无法更新[3]。为了缓解这一问题,作者提出了两级CD方法的OC-SVM。但在我们的例子中,线性约束仅部分适用于α。我们引入以下混合CD算法来解决该问题。要点是,当沿α优化时,我们ap-(a)LinScalar(b)MOOMTL利用文献[8]中的两层CD加速优化,当沿β方向优化时,我们使用文献[3]中的对偶CDl1xl1x利用它的成功。选择方法详见补充资料。求解对偶问题Eq.在补充材料中的算法2中总结了公式(145. 实验结果在本节中,我们将评估我们的算法(c)ParetoMTL(d)PTLMNIST及其变体[31,42]、CelebA [23]和CI-FAR 100[21]。我们比较以下算法:l1xl1x• STL:单任务学习,其中任务一次训练• t-MOOMTL:只学习目标任务;• MOOMTL:为多目标优化问题找到一个Pareto最优解[33];• GradNorm:使用[6]提出的归一化;• 不确定性:使用不确定性加权[10];• Uniform Scaling:等权重任务的线性标量化;• Pareto-MTL:将多目标优化问题分解为一组具有不同权衡偏好的受约束子问题[22]。5.1. 合成数据我们用[22]中的合成数据分析了我们的模型。存在两 个 要 最 小 化 的 非 凸 目 标 , 如 等 式 ( 1 ) 所 示 。(17),其中xRn.我们的算法可以生成具有不同偏好的Pareto前沿的子集,如图3所示。帕累托-MTL[22]也可以在Pareto上生成分布式解决方案前面MOOMTL [33]未能将解集扩展到任何期望的区域,而线性标量化(Lin-Scalar)仅找到极端解。l(x)=1−e−x−√12,图3:合成数据集性能。(一).目标任务和特权任务的线性标量化的获得的解(b).给出了MOOMTL.(c)。得到的解决方案的Pareto-MTL。(d)。从PTL在目前的工作中获得的解决方案。X轴是目标任务的损失,y轴是特权任务的损失。建议的PTL成功地产生了一组广泛分布的Pareto解决方案,可以牺牲特权任务的基础上用户的喜好。合成实施例的细节可见于第5部分。5.2. 多MNIST和多时尚数据集和任务描述在Multi-MNIST数据集中,每个图像都有两个数字。在Multi-Fashion数据集中,每个图像都有两个时尚图标。在多MNISTFashion数据集中,每个图像的左侧有一个数字,右侧有一个时尚图标我们遵循[31]生成三个数据集。有两个任务:1)对左上图像进行分类,以及2)对右下图像进行分类。我们使用第一个任务作为目标任务,另一个任务作为特权任务。每个数据集包含60,000张训练图像和10,000张测试图像。目标是交叉熵损失。网络架构骨干网是一个改进的LeNet [42]。我们的网络从两个卷积层与5 - 5内核和1个像素的步幅。这两层分别有10和20个通道。50通道的全连接层附加卷积层,然后是两个10通道全连接层。n21(17)l(x)=1−e−x+√12。2连接层,每个任务一个我们添加一个2×2最大池在每个卷积层之后的2n层,并使用ReLU作为非线性函数。 目标任务l2 xl2 xl2 xl2 x10694PTL(我们的)帕累托-MTLPTL(我们的)帕累托-MTLPTL(我们的)帕累托-MTL图4:Multi-MNIST、Multi-Fashion和Multi-FashionMNIST的结果。X轴是目标任务的精度,y轴是特权任务的精度。总结在表1中。表1:Multi-MNIST及其变体的性能方法MultiMNIST时尚FashionMNISTSTL97.23%80.93%93.80%GradNorm [6]96.27%78.86%百分之九十点四三不确定性[10]96.47%79.26%89.80%MOOMTL [33]97.26%80.14%92.26%帕累托-MTL [22]91.92%82.75%百分之九十五点零七PTL(我们的)97.80%86.71%96.09%PTL 在 Multi-MNIST 、 Multi-Fashion 和 Multi-MNISTFashion上将最先进结果的准确性由于PTL能够对目标任务进行优先级排序,因此这种改进是我们理论分析所预测的.图4显示了在当前方法下目标任务和特权任务之间的权衡。 PTL可以生成-在用户指定的不同C1和C2 虽然Pareto-MTL [22]也实现多种解决方案,其整体性能无法与我们的竞争.我们的方法也保持了最好的性能为多MNIST和多时尚的特权任务,这可能是由于相互有利的任务设置。5.3. 更多任务现在,我们研究我们提出的方法PTL在更多的数据集上的综合有效性,这些数据集具有各种任务类型和任务数量。我们随机选择一半的任务作为目标任务,其余的任务作为特权任务(如果没有明确说明的话)。城市景观。Cityscapes [11]是一个用于道路场景理解的大型数据集,标记有来自20个类的实例和语义分割。该数据集由2,975张训练图像和500张验证图像组成1,525个图像在在线评估服务器上进行测试。我们的恩-编码器基于DeepLabV3 [4]。我们使用ResNet101 [18]作为基本特征编码器,然后是Atrous空间金字塔池(ASPP)模块[4]以增加上下文感知。并以语义切分为目标任务。CelebA CelebA数据集[23]包括用40个属性注释的200K人脸每个属性都是一个二进制分类任务,因此可以将其修改为40路MTL问题。我们把最难的23个任务作为目标任务来划分目标特权任务集,剩下的任务是特 权 任 务 。 在 [33] 之 后 , 我 们 使 用 没 有 最 终 层 的ResNet-18 [18]作为共享表示函数。由于有40个属性,我们添加了40个单独的2048 x 2维全连接层作为特定于任务的函数。最终的二维输出通过一个2类softmax函数得到二进制属性分类概率。我们使用交叉熵作为特定于任务的损失。CIFAR-100。在[21]之后,我们将CIFAR- 100数据集[21]分成20个任务,其中每个任务都是一个5向分类问题。共享架构有四个卷积层,具有3x3卷积和32个过滤器,然后是批量归一化和一个ReLU。有20个特定于任务的FC层。我们报告所有20个任务的测试精度。PASCAL。PASCAL数据集[16]包括11540个图像的20个分类标签。我们将数据集修改为20路MTL问题。从所有任务中随机选择10个目标任务,剩余10个任务为特权任务。我们使用SENet-101作为共享架构[20],每个任务都有一个二进制分类的头。ImageNet-100.我们从ImageNet [30]数据集中随机选择100个类,以形成100路MTL分类问题。我们随机选择50%的任务作为目标任务,其余50%的任务作为特权任务。我们使用ResNet-50 [18]作为主干,其头部用于二进制类,10695−表2:不同任务类型的目标任务的平均表现(↑表示预测准确度,↓表示误差)。城市景观↑CelebA↓CIFAR-100PASCAL↑ImageNet-100↑#任务任务类型2密集分割40二进制属性20多类20二进制属性100二元分类tMOOMTL64.35%百分之二十八点五五17.76%81.30%78.31%不确定性[10]-13.46%20.65%--MOOMTL [33]百分之六十五点九五13.94%19.86%77.13%75.90%PTL(我们的)66.75%11.94%百分之十六点七二83.56%79.46%每项任务的能力。结果 如表2和图5所示,我们的算法 平均可以将所有数据集的SOTA结果提高1.4%,这意味着在MTL中包括特权学习的功效在我们的实验中,任务的数量范围从2到100,这表明我们的算法在不同规模的适用性对于CelebA数据集,我们观察到tMOOMTL的性能非常低。我们推断是由于硬任务之间的激烈竞争0.900.850.800.750.700.650.600.550.50CIFAR1000.830.820.810.800.790.780.77CIFAR100在目标任务集内。但是PTL方法可以-竞争并显著提高性能。 此外,我们的实验包括共享-0.70 0.75 0.80 0.85目标任务(a) C1的效果。0.760.780.800.820.84目标任务(b) C2的影响。ResNet-18、ResNet-50、ResNet-101和SENet-101。这表明,我们的算法是有效的各种神经架构和大小。图6:CIFAR100数据集上的消融研究。1e4到1,性能在C2=0附近达到峰值。82错误为16。百分之十八总的来说,它表明,对于特权任务适当的松弛下降量有助于目标任务的执行,以及额外的A19A21A23A25A8A11一个1个2个任务UniScaleA18MOOMTLGradNorm我们的不确定性A7A6A3A22520 A115105A0T5A39T3 T2动作校正可以进一步改进目标任务的学习。6. 结论我们提出了特权任务框架的学习,该框架概括了MOO-MTL算法,该算法是自适应的。A27A28A31A32A33A34A36A37T7 T8能够根据用户该模型由特权任务的松弛下降和向目标任务的方向校正我们严格证明(a) CelebA(b) CIFAR-100使用KKT条件的PTL的有效性和亲-图5:单个目标任务的预测误差。方程中参数C1和C2影响的烧蚀研究(14)。为了示出方程中的参数C1和C2(14),我们使用CIFAR100数据集进行消融研究。 这10个目标任务是从以下随机选择的20个5向分类问题,剩余的10个任务被用作特权任务。为了研究C1,我们将C2设置为0,即没有针对C1的方向校正。特权任务在调查C2期间,C1被设置为0.1这突出了方向校正的影响。我们报告目标任务的平均误差和特权任务结果示于图6中。当C1从0增加到1时,性能在C1=0附近达到峰值。17错误为16。百分之五十二当C2从提供了模型的说明性分析。新的混合块坐标下降法可以有效地解决对偶问题。PTL可以在合成和真实世界数据集上实现最先进的性能。在此模型下进一步分析任务相关性和冲突的影响将是有益的。对该模型与ε-Pareto最优之间关系的理论改进可能是未来的发展方向。确认本课题由国家重点研究发展计划(2004)资助。2018AAA0100701)和NSFC 61876095。山友是北京市博士后科研工作基金资助项目MOOMTL我们的单尺度不确定度,C2= 0UniScaleMOOMTLtMOOMTLT4不 确定我们T1252015105T6T9特权任务MOOMTL我们的单标度不确定度,C1= 0.1我们的,C2=特权任务T010696引用[1] 乔纳森·巴克斯特。归纳偏差学习模型J. 第国际Res. ,12(1):149-198,Mar. 2000. 1[2] 瑞奇·卡鲁阿纳多任务学习。 Machine Learning,28(1):41-75,1997. 1[3] 张凯威,谢卓瑞,林志仁。大规模l2损失线性支持向量机 的 坐 标 下 降 法 。 Journal of Machine LearningResearch,9(45):1369-1398,2008. 五、六[4] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。CoRR,abs/1706.05587,2017。7[5] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议,第1597-1607页。PMLR,2020年。1[6] Zhao Chen,Vijay Badrinarayanan,Chen-Yu Lee,andAn-drew Rabinovich. GradNorm:梯度归一化,用于深度 多 任 务 网 络 中 的 自 适 应 损 失 平 衡 。 第 80 卷 ,ProceedingsofMachineLearningResearch , 第794PMLR。一、六、七[7] 张志忠、许志伟、林志仁。支持向量机的分解方法分析。IEEE Transactions on Neural Networks,11(4):10035[8] 周鸿祎、林品彦、林志仁。线性单类SVM和SVDD的双坐标下降方法。SIAM International Conference on DataMining(SDM),2020年五、六[9] S. Chowdhuri,T. Pankaj和K. Zipser Multinet:用于自动驾驶的多模式多任务学习。2019年IEEE计算机视觉应用冬季会议(WACV),第1496-1504页,2019年。1[10] R. Cipolla,Y.Gal和A.肯德尔使用不确定性来权衡场景几何和语义损失的多任务学习2018年IEEE/CVF计算机视觉和模式识别会议,第7482-7491页一、六、七、八[11] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的城市景观数据集。2016年IEEE计算机视觉和模式识别会议(CVPR),2016年6月。7[12] 让·安托万·德·西·德·里。多目标优化的多重梯度下降算法 Comptes Rendus Mathematique , 350 ( 5-6 ) : 313-318,2012年3月。3[13] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. arXiv预印本arXiv:2010.11929,2020。1[14] Shangchen Du,Shan You,Xiaojie Li,Jianlong Wu,Fei Wang,Chen Qian,and Changshui Zhang.同意或不同意:梯度自适应集成知识提取空间神经信息处理系统的进展,33,2020。3[15] 杜云舒,Wojciech M.西丹·恰尔内茨基Jayaku-mar,Razvan Pascanu和Balaji Lakshminarayanan.使用梯度相似性调整辅助损失,2018年。2[16] Mark Everingham 、 Luc Van Gool 、 Christopher K IWilliams 、 John Winn 和 Andrew Zisserman 。 PascalVisual Object Classes ( VOC ) 挑 战 。 InternationalJournal of Computer Vision,88(2):303-338,2010. 7[17] Jo¨rgFli e geandBenarFuxS vaite r. 多目标优化的最速下降法运筹学的数学方法,51(3):479-494,2000。3[18] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在2016年IEEE计算机视觉和模式识别会议(CVPR),第770- 778页,2016年。7[19] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。1[20] 杰 虎 , 李 申 , 孙 刚 。 挤 压 - 激 发 网 络 。 CoRR ,abs/1709.01507,2017。7[21] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。技术报告,2009年。六、七[22] Xi Lin,Hui-Ling Zhen,Zhenhua Li,Qing-Fu Zhang,and Sam Kwong. Pareto多任务学习In H. Wallach,H.Larochelle、A. B e ygelzime r、F. d'Alch e´-Buc、黑腹拟杆 菌 E.Fox 和 R. Garnett , 编辑 ,Advances in NeuralInformation Processing Systems , 第 32 卷 , 第 12060-12070页。Curran Asso- ciates,Inc.,2019. 二三六七[23] Z Liu,P Luo,X Wang和X Tang。深度学习在野外面临在2015年IEEE国际计算机视觉会议(ICCV),第3730-3738页,2015年。六、七[24] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网 络 。 在2015 年 IEEE计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第3431-3440页,2015年。1[25] Da vidLopez-Paz , Le' onBottou , BernhardScho¨lk opf ,andVladimir Vapnik.统一蒸馏和特权信息。在第四届学习表征国际会议上,2016。2[26] Pingchuan Ma,Tao Du,W.马图西克多任务学习中的高效连续帕累托探索。ArXiv,abs/2006.16434,2020。2[27] Debabrata Mahapatra和Vaibhav Rajan。多任务学习与用户偏好:帕累托最优化中的梯度下降控制上升。2020. 2[28] I. Misra、A.什里瓦斯塔瓦A. Gupta,和M。赫伯特多任务学习的十字绣网络。2016年IEEE计算机视觉和模式识别会议(CVPR),第3994-4003页,2016年。1[29] Taylor Mordan,Nicolas THOME,Gilles Henaff,andMatthieu Cord. 用Rock重温多任务学习:用于视觉检测的深残差辅助块。In S
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功