没有合适的资源?快使用搜索试试~ 我知道了~
MetaBalance:平衡多任务推荐中的辅助任务梯度幅度
2205MetaBalance:通过调整辅助任务的梯度幅度来改进多任务推荐云鹤美国德克萨斯农工大学yunhe@tamu.edu耿骥Meta AI美国gji@fb.com摘要薛锋MetaAI美国xfeng@fb.com郭云松Meta AI美国yunsong@fb.com关键词成成Meta AI美国cc6@fb.com美国德克萨斯农工大学caverlee@tamu.edu在许多个性化推荐场景中,目标任务的泛化能力可以通过在多任务网络上与该目标任务一起使用附加辅助任务来学习来提高。然而,这种方法经常遭受严重的优化不平衡问题。 一方面,一个或多个辅助任务可能具有比目标任务更大的影响力,甚至支配网络权重,导致目标任务的推荐准确性更差。另一方面,一个或多个辅助任务的影响可能太弱而不能帮助目标任务。更具有挑战性的是,这种不平衡在整个训练过程中动态变化,并且在同一网络的各个部分之间变化我们提出了一种新的方法:MetaBalance通过直接操纵它们的梯度来平衡多任务网络中的共享参数的辅助损失具体地,在每次训练迭代中,并且对于网络的每个部分自适应地,辅助损失的梯度被小心地减小或放大,以具有更接近目标损失的梯度的幅度,防止辅助任务太强而主导目标任务或太弱而不能帮助目标任务。此外,梯度幅度之间的接近度可以灵活调整,以使MetaBalance适应不同的场景。实验表明,我们提出的方法实现了8.34%的显着改善NDCG@10在两个真实世界的数据集上的最强基线。我们的方法的代码可以在这里找到1CCS概念• 计算方法学→多任务学习;·信息系统→推荐系统。1https://github.com/facebookresearch/MetaBalance* 大部分工作是在第一作者在Meta AI实习时完成本作品采用知识共享署名国际协议(Creative Commons AttributionInternational)授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9096-5/22/04。https://doi.org/10.1145/3485447.3512093多任务学习,辅助学习,个性化推荐,基于顺应性的优化ACM参考格式:云鹤、薛峰、程程、耿冀、郭云松、詹姆斯·卡弗里。2022. MetaBalance:通过调整辅助任务的梯度幅度来改进多任务推荐。 在ACM Web Conference2022(WWW '22)的会议记录中,2022年4月25日至29日,虚拟活动,法国里昂。ACM,美国纽约州纽约市,11页。https://doi.org/10.1145/3485447.35120931引言个性化推荐的准确性通常可以通过相关辅助信息的迁移学习来提高。例如,亚马逊和eBay等电子商务平台的主要任务是预测用户是否会购买商品。该购买预测任务可以受益于从辅助信息(如用户已经点击了哪些物品URL以及用户已经将哪些物品放入购物车)传递关于用户偏好的知识。实现这种迁移学习的常见方式是将该辅助信息公式化为辅助任务(例如,预测用户是否将点击URL)并与目标任务一起优化它们(例如,购买预测)。 通过这种方式,知识可以通过多任务网络的共享底层从辅助任务转移到目标任务,如图1(a)所示。 通过辅助信息的增强,目标任务可以获得比孤立训练目标任务更好的性能。 由于引入这些辅助任务的动机往往是纯粹协助目标任务,在本文中,我们专注于只有目标任务的性能是感兴趣的情况。除了购买预测之外,许多其他推荐sce- narios [1,3,9,11,20在社交推荐中[9,21,33],知识可以从社交网络中转移,以通过与辅助任务(如预测用户之间的连接或信任)同时训练目标任务来改进为了更好地估计在线广告中的点击后转化率(CVR),可以引入相关信息,如查看后点击率(CTR)和查看后点击转化率(CTCVR)作为辅助任务[22]。另一个例子是,可以从产品评论文本中学习用户和项目嵌入,WWWYun He,Xue Feng,Cheng Cheng,Geng Ji,Yunsong Guo,and JamesCaverlee2206设计为辅助任务,以提高预测电子商务平台评分的目标[35]。然而,在个性化推荐中从辅助任务转移学习的一个关键挑战是梯度幅度的显著不平衡的可能性,这可能对目标任务的性能产生 如前所述,这种迁移学习通常在多任务网络上进行,该多任务网络通常由具有共享参数的底层和若干任务特定层组成。在训练中,每个任务都有一个相应的损失,每个损失相对于多任务网络的共享参数都有一个相应的梯度这些梯度的总和(针对目标任务和辅助任务)影响共享参数的更新方式。因此,梯度越大,该梯度对共享参数的影响就越大。因此,如果辅助损失的梯度比目标损失的梯度大得多,则共享参数将受到该辅助任务的最大影响,而不是目标任务。因此,目标任务可能会因以下原因而无法完成:辅助任务A转移目标任务转移辅助任务B任务特定层任务特定层任务特定层共享底层(a) 多任务网络中辅助任务的学习转移到目标任务的改进(b) (c)一部分的不平衡辅助任务,导致性能变差另一方面,如果辅助梯度远小于目标梯度,参数(例如,MLP层)共享参数(例如,嵌入层)然而,这个辅助任务的影响可能太弱而不能帮助目标任务。这种梯度大小的不平衡在工业推荐系统很常见:图1(b)和1(c)突出显示了阿里巴巴的两个例子,它们分别展示了目标任务梯度如何被辅助任务主导,以及一些辅助任务的梯度如何如此之小,以至于它们只能微弱地告知目标任务。那么,我们如何克服这种梯度失衡呢?一种简单且常用的方法是通过网格或随机搜索来调整任务损失(或梯度)的权重然而,这种固定的任务权重并不是最佳的,因为梯度幅度在整个训练过程中动态变化,并且不平衡可能在共享参数的不同子集之间变化,如图1所示。此外,调整多个辅助任务的权重是耗时的。在本文中,我们提出MetaBalance作为一种新的算法和灵活的框架,从梯度幅度的角度来适应辅助任务,以更好地协助目标任务。具体来说,MetaBalance有三种策略:(A)加强目标任务的主导地位-在每次训练迭代中,幅度大于目标梯度的辅助梯度将被小心地减少;(B)加强弱辅助任务的知识转移-幅度小于目标梯度的辅助梯度将被小心地扩大;(C)MetaBalance在同一次迭代中采用(A)和(B)。在缺乏足够的先验知识的情况下,应用哪种策略被视为数据驱动的问题,其中最佳策略可以基于目标任务的验证集的性能来经验性地选择此外,MetaBalance具有三个关键特征:(1) 辅助梯度可以在整个训练过程中动态平衡,并适应于共享参数的不同子集,这比任务丢失的固定权重更灵活(2) MetaBalance通过防止辅助任务过于强大而主导目标任务,从而确定目标任务的优先级图1:跨太平洋地区梯度幅度的不平衡从辅助任务中学习,以在阿里巴巴数据上进行推荐。幅度在整个训练过程中动态变化,不平衡在同一多任务网络的不同部分之间变化:在图1(b)中,辅助任务点击URL的梯度比目标梯度大得多;在图1(c)中,辅助任务添加到收藏夹的梯度比目标梯度小得多。任务或太弱,以帮助目标任务,这可以很容易地监测,通过选择三种策略之一(3) 下一个重要的问题是,辅助梯度幅度应该减小或增大多少?我们设计了一个放松因子来控制这一点,以灵活地使MetaBalance适应不同的场景。 放松因子也可以基于目标任务的验证数据集上的性能来经验地选择。总之,MetaBalance提供了一个灵活的框架,用于调整辅助梯度,以便从梯度幅度的角度更好地改进目标任务在两个阿里巴巴真实用户行为数据集上的大量实验表明了MetaBalance的有效性和灵活性。特别是,我们有四个目标观察:在验证集中选取最佳策略和松弛因子,MetaBalance能够显著提高目标任务的测试准确率,说明辅助知识能够通过MetaBalance更好地传递到目标任务中MetaBalance可以显着优于以前的方法,以适应辅助任务,以改善目标任务。例如,我们观察到在NDCG@10方面最强基线的8.34%的显著改善。MetaBalance中只有一个超参数(放松因子)需要调整,而不管任务的数量因此,MetaBalance只需要几次训练,这比调整任务损失的权重更有效,随着任务数量的增加,这可能是计算密集型的···MetaBalance用于改进多任务建议WWW2207总总总•阿罗勒G总 =总θL =θLtar+Laux,i(MetaBalance可以与Adam、Adagrad和RMSProp等几个流行的优化器很好地协作,这表明MetaBalance可以广泛应用于许多领域。2相关工作带有辅助任务的建议。在许多个性化推荐场景中,目标任务的测试准确率可以通过与辅助任务的联合学习来提高 在社交推荐中[9,21,33],有关用户偏好的知识可以从社交网络转移到改进推荐,而目标任务(如评级预测)与辅助任务(如预测用户之间的连接和信任)联合训练。为了提高点击后转换率(CVR)预测,Ma et al. [22]考虑用户操作的顺序模式,并引入查看后点击率(CTR)和查看后点击&转换率(CTCVR)作为辅助任务。为了增强音乐播放列表或书单推荐,预测用户是否会喜欢单个歌曲或书也可以用作辅助任务,并且与基于列表的推荐联合学习此外,Bansal et al.[1]设计预测项目元数据的辅助任务(例如,标签、流派)来改进作为目标任务的评级预测。 为了提高预测评级的目标,从产品评论文本中学习用户和项目嵌入也可以被设计为辅助任务[35]。辅助学习。在本文中,我们专注于从辅助任务转移知识,以改善目标推荐任务,这是辅助学习范式的一个例子。虽然多任务学习的目的是提高所有任务的性能,但辅助学习的不同之处在于,高测试准确性只需要一个主要任务,其他任务的作用是帮助推广主要任务。辅助学习在许多领域得到了广泛的应用在语音识别中,Toshniwal et al.[29]应用来自音素识别的辅助监督,梯度的大小。 在实验中,MetaBalance比这些基于梯度方向的方法表现出更好的泛化能力。多任务学习。多任务学习[26,32]用于通过联合训练来提高多个任务的学习效率和预测准确性。共享底部模型[32]是一种常用的结构,其中特定任务的塔网络接收来自共享底部网络的相同表示多任务平衡方法。 在多任务学习中,已经提出了平衡所有任务的联合学习的方法,以避免一个或多个任务对网络权重具有主导影响的情况[4,14,19,23,27]。虽然这些方法对目标任务没有特别的偏好(如本文所关注的),但我们在第A.1.2节(附录)中讨论了它们与MetaBalance的联系,并在第5节中进行了实验比较。3问题陈述我们的目标是通过在多任务网络上与目标任务一起训练辅助任务来提高目标任务的测试准确度,以便网络的共享参数收敛到目标任务的更鲁棒的特征在个性化推荐的上下文中,目标任务通常是预测用户是否将交互(例如, 购买或点击),这可以被公式化为二元分类问题。测试准确度是在前K个项目上测量的,前K个项目通过它们被用户与之交互的概率与用户实际与之交互的项目的地面实况集进行排名。令θ表示共享参数的子集例如,θ可以是共享底层网络中多层感知器的权重矩阵或偏置向量通过联合最小化目标任务损失Ltar与辅助任务损失Laux,i,i = 1,.,克:.KLtotal= Ltar+i=1场景的全局描述,以提高单场景深度估计的性能Mordan等人[24]第二十四话:我们假设我们通过梯度下降以学习率α更新θ t:如果它与作为辅助任务的深度预测和表面法线预测联合学习,则可以增强Liu等人[18]建议θt+1=θt−α<$Gt(二更)一个Meta辅助学习(MAXL)框架,自动其中t表示在小批量上的第t次训练迭代学习辅助任务的适当标签在NLP中,Trinh et al.[30]表明无监督辅助损失显著改善(t = 1,2. Gt是Lt相对于tθ的梯度LSTM的优化和推广辅助学习有TTT 。Kti=1基于梯度方向的辅助任务自适应方法。 在辅助学习中,已经提出了几种方法[7,17,34]来适应辅助任务,以避免它们主导或与目标任务竞争的情况,其中如果辅助梯度的方向与目标梯度的方向冲突,则辅助梯度将被向下加权或屏蔽。 我们将在附录(第A.1.1节)中详细介绍这些方法,并将其与建议的MetaBalance进行比较。特别地,Meta- Balance不惩罚具有冲突方向的辅助梯度,而是从视角增强目标任务的优势其中,Gtotal等于将目标损失和辅助损失的每个梯度相加。为了简化符号,我们有:Gtar(即,θtar):目标任务损失tar相对于θ的梯度。• Gaux,i(即,θLaux,i):第i个辅助任务损失Laux,i相对于θ的梯度,其中i = 1,2. K.• G如公式3和公式2所示,梯度的幅度越大,该梯度对更新θ的影响就越大。·提高会话语音识别的性能在计算机视觉领域,Liebel at al.[16]提出辅助任务,如Laux,i(也被应用于改进强化学习[12,17]。WWWYun He,Xue Feng,Cheng Cheng,Geng Ji,Yunsong Guo,and JamesCaverlee2208∥∥∥ ∥ ∃ ∈{}∥ ∥ ∃ ∈{}∥∥焦焦焦油焦油=Lθ∥G∥B.G.奥克斯岛焦辅助,1焦Gtt不4该方法梯度幅度的不平衡可能会对目标任务优化产生负面影响。一方面,如果Gaux,i(i 1,2. K)远大于Gtar时,目标任务将失去更新θ的优势,性能下降另一方面如果梯度下降(Gradient Descent)(第10行)。 由于步骤(3)和(4)是完全解耦的,MetaBalance有可能与最常用的优化器(如Adam和Adagrad)协同工作。MetaBalance从六个方面为辅助学习戈奥岛(i1,2. K)比Gtar小得多,相应的响应辅助任务可能变得不那么有影响力,以协助不奥克斯岛 比Gt大得多可能是自动-目标任务。 如图1所示,许多个性化推荐可能会受到这种不平衡的影响。因此,我们有动力这防止了一个或多个辅助任务对目标任务的支配。(战略A)(二更)提出了一种新的算法,从适应辅助任务不奥克斯岛 比Gt小得多可能是自动-梯度幅值的透视图。算法1MetaBalance的基本版本输入:θ1,Ltar,Laux,1,...,Laux,K,策略,其选自{Gaux ,i>Gtar,Gaux ,iGtar,(Gaux ,i>Gtar)机械放大,增强了相应辅助任务的知识迁移。(战略B)(3) (1)和(2)可以在必要时同时进行(战略C)(4) 该策略是基于目标任务在验证数据集上的性能来选择的,这是针对特定任务和数据集的经验最佳策略。或(C.G.奥克斯岛联系我们<焦油)}(5) 因为你不知道Gt可将其视为动态权重,∥输出:θT1:对于t = 1至T,奥克斯岛aux,i在第6行,MetaBalance可以在整个训练过程中动态平衡Gaux,i不焦油 =θLt(6) 如图1所示,梯度幅度的不平衡3:对于i = 1到K,do在同一网络的不同部分上变化(例如,的陶斯岛陶斯岛辅助梯度可能远大于目标梯度5:if(策略)then在MLP中,但在嵌入层中小得多因为6:GttGtMetaBalance可以很容易地应用到共享的aux,i← Gaux,i7:如果结束8:结束焦油陶斯岛参数分开(θ是算法1的输入),不同部分的训练可以分别自适应地平衡。(5)和(6)使MetaBalance比使用固定的更灵活9:Gt=Gt+Gt+的版本。. .Gt(元素加法)10点整:总焦油辅助,1不奥克斯,Kt+1t任务损失的权重使用Gtotal更新θ(例如,梯度下降:θGt)=θ−α然而,算法1中的该基本版本的缺点是:十一:总端同样明显的是:强制辅助梯度具有与目标梯度完全相同的幅度对于目标任务可能不是最佳的为了克服这种幅度缩放的不确定性,我们4.1自适应辅助梯度幅度设计一个松弛因子来控制神经网络的封闭性,∥to ∥Gt∥如上所述,G焦油和在下面的小节中。奥克斯岛焦油高,我,...,Gaux,K可能会对目标任务优化产生负面影响。 为了缓解这种不平衡,MetaBalance被提出来动态地和自适应地平衡辅助梯度的幅度,具有三个策略和一个松弛因子(将在下一小节中详细描述)。MetaBalance的基本版本在算法1中给出4.2调整幅值接近度接下来的问题是如何灵活调整Gaux,i和Gtar之 间 的幅 度 接 近度,以适应不同的场景? 我们设计了一个松弛因子r来控制这种幅度接近度,它被用在算法1的第6行中:包括四个步骤:(1) 在计算能量。在每次训练迭代中,我们首先Gt←(Gt阿斯塔纳)r+Gt(1−r)t taux,i奥克斯岛∥Gt∥奥克斯岛分别计算Gtar和Gaux,i(第2行和第4行)。(2) 实施战略。在第5行中,我们可以选择reduc-其中,如果r=1,则Gt奥克斯岛与地球上的设置幅度大于目标的辅助梯度Gt.如果0,则Gt奥克斯岛梯度,或扩大辅助梯度与较小的幅度,焦油r=aux,i保持其原始大小。越大研究,或者将两种策略结合起来。该策略可以r是,Δ GtΔ越接近Δ Gt Δ。因此,r平衡了基于目标任务。每个辅助梯度和目标梯度之间的幅度信息。(3) 平衡一下压力。接下来,Gt被归一化为ar对幅值接近度的影响如图所示。单位向量除以t奥克斯岛图2. 我们观察到目标梯度由然后重新缩放,当r=0时,辅助梯度的幅度要大得多,与Gt的大小相同通过乘以Gt(第6行)。(4)焦油t焦油图1(b)。相比之下,r = 1让所有梯度具有相同但更新参数。在此之后,Gtotal(第9行)是ob-非常小的幅度作为目标梯度在图2(d)。 之间通过对Gt平衡Gt图奥克斯角-两个极端,图2(b)(r = 0. 2)和图2(c)(r = 0. 第七章)(1)GG2:G4:G,。.. GWWWYun He,Xue Feng,Cheng Cheng,Geng Ji,Yunsong Guo,and JamesCaverlee2209总在一起。然后,Gt用于根据优化器以更温和的方式平衡梯度幅度,MetaBalance用于改进多任务建议WWW2210奥克斯岛焦奥克斯岛奥克斯岛B.G.焦或m奥克斯岛O(())L LL奥克斯岛焦奥克斯岛焦油焦油=β−m奥克斯岛焦油焦油焦油0∥ ∥ ∥∥∥ ∥ ∥∥←(t)r+G(a) MetaBalance,r = 0(b)MetaBalance,r = 0。2(c)MetaBalance,r = 0。7(d)MetaBalance,r = 1。0图2:放松因子r对UserBehavior-2017数据集上幅度接近度的影响在图例中购买预测)。Y轴是一个时期中所有小批量迭代的平均梯度幅度,其中以多任务网络的MLP层的梯度为例。使Gt更接近Gt,但不完全相同更重要的是,r实际上会影响每个辅助任务的权重。 我们可以进一步将算法1中的第6行重新表示为:4.3时间和空间复杂性分析在本节中,我们将展示MetaBalance不会显著增加训练多任务网络的时间和空间复杂度。假设加减乘除陶斯岛陶斯岛陶斯岛平方根取训练多任务网络的时间复杂度取决于网络的结构。其中wt是Gt的权重我们有:为了简单起见,假设MLP是多个MLP的共享层(1)i=(t焦油不–任务网络,θ是MLP中单层的权重矩阵,其中θ具有输入维度n和输出维度m。的时间其中,如果taux不我在这里更新θ的复杂性不是O(T(1+K)nmd)[2] ,其中T是r越高,waux,i越高小批量上的训练迭代次数,(1+K)是将是;然而,如果不奥克斯岛 r越大,目标任务的数量加上K个辅助任务,d是大小不奥克斯岛 肯定会.小批量的对于算法2中的MetaBalance,在每次训练迭代中,对于每个任务,r是一个超参数,下一个关键问题是如何选择这个R?中提出等式4,r影响每个辅助任务的权重没有托奥克斯不,itar时间复杂度为O(nmd)每个辅助任务的重要性的先验知识,Gt(第9行)的大小也是O(nmd)。标志性成就可概括目标任务,我们把r的设置作为一个数据驱动的问题,并认为r应仔细调整,以适应不同的情况。由于r仅用于反向传播,MetaBalance 的 时 间 复 杂 度 仍 然 是 T1+Knmd 。 因 此 ,MetaBalance不会显著减慢多任务网络的训练速度。因此没有任何损失的梯度,r不是可学习的参数本质上因此,我们将r视为一个超参数,它在验证数据集上进行请注意,所有辅助任务的相同r并不意味着它们将具有相同的权重或梯度算法2MetaBalance的完整版本输入:θ1,焦油,辅助,1,...,aux,K,移动平均中的松弛因子r,β,从{maux ,i>mtar,maux ,i}选择的策略<因为wt不仅由r决定,mtar,(maux,i >mtar)或(maux,i <(mtar)}由Gt和Gt(参见等式4)。因此,MetaBalance中只有一个超参数r这需要调整,这与任务的数量无关输出:θT1:初始化m0辅助,i=0相比之下,调整任务权重的计算复杂度2:对于t = 1至T,每增加一项任务,损失就会呈指数级增加此外,我们还观察到,MetaBalance实现了比t焦油4:mt=θLt=βmt−1+(1−β)Gt在我们的实验中调整任务权重5:对于i = 1到K,不最后,代替使用电流幅值t和t不奥克斯岛 =θL奥克斯岛∥Gtar ∥我在这里7:mt=βmt−1+(1−β)Gt在算法1中,遵循[23],我们应用奥克斯岛8:如果奥克斯岛奥克斯岛相应梯度的大小,以考虑(战略)9:GtGtmtarttM(1−r)训练迭代中所有梯度幅度之间的方差奥克斯岛奥克斯岛不奥克斯岛奥克斯岛mt= β <$mt −1+(1 − β)<$Gt中国(5)10:如果结束焦油焦油焦油11:结束陶斯岛t1奥克斯岛+(1−β)Gti = 1,.,(6)t总计t焦油t辅助,1图奥克斯角(元素加法)0 013:使用Gt更新θ(例如, θ t+1= θ t− α <$Gt)其中mtar=maux,i=0,β用于控制移动平均线的指数衰减率,其可以根据经验设置为0.9. 移动平均线使训练更加稳定,14:结束总总在实验中讨论最后,MetaBalance的完整版本如算法2所示。除了训练多任务网络的空间之外MetaBalance仅需要用于mtar,r,β和maux,i,.的额外空间maux,K,G←G埃夫联系我们策略A>策略B”模式,这表明加强目标任务的优势(策略A)比加强弱辅助任务的知识转移(策略B)更重要,并且将两种策略结合起来可以进一步改善两个数据集。因此,我们在其余的实验中应用策略C放松因素的影响 在策略C的基础上,进一步研究了松弛因子的影响。图3显示了在UserBehavior-2017数据集中NDCG@10和Recall@10随r的变化(在IJCAI-2015数据集中获得了类似的观察结果当r=0时,达到最差的NDCG@10和Recall@10P@20),并在10和20(R@10和R@20)回忆多任务网络。由于如何设计一个更好的多任务网络并不是本文的重点,我们直接采用(Vanilla-Multi),其中辅助梯度(Gt)保持其原始幅度(即,不像Vanilla-Multi那样平衡 在图1(b)中,我们观察到点击任务的梯度幅度(蓝色曲线)MLP层和矩阵分解层的组合作为比红色曲线大得多。因此,共享底层网络,被学术界[10]和Google [6]和Facebook [25]等行业我们构建MLP层作为特定于任务的塔,梯度可能由点击任务梯度主导,这解释了Vanilla-Multi的低目标任务性能(见表2)。每个任务。多任务网络如图6(附录)所示基线。我们将MetaBalance与10种基线方法进行了比较。相比之下,MetaBalance中的r=1意味着,非常接近于T如图2(d)所示,其中四条曲线基于梯度方向的方法,旨在调整辅助任务以改善目标任务,将在第 A.1.1 节 中 详 细 介 绍 , 包 括 : GradSimilarity[7] ,GradSurgery[34],OL-AUX[17]。平等对待所有任务的多任务平衡方法,将在第A.1.2节中详细介绍,包括:不确定性[14],GradNorm[4],DWA[19],MTAdam[23]和都缠绕在一起然而,r= 1会获得次优结果,如图3所示,这表明目标任务性能可能会受到较大r的负面影响。一个可能的原因是,大多数辅助梯度被减少到与目标梯度非常相似,因此共享参数的更新变得如此之小,以至于它对优化产生负面影响。MGDA[27].三个简单的基线。单损失:我们面具在两个极端之间,图2(b)(r = 0. 图2(c)(2https://tianchi.aliyun.com/dataset/dataDetail? dataId=47& userId=1越来越近了但并不完全相同,3https://tianchi.aliyun.com/dataset/dataDetail? dataId=649& userId=1r= 0。7实现了如图3所示的最佳性能。····r= 0。7)以更温和的方式平衡梯度幅度MetaBalance用于改进多任务建议WWW2212∗表1:策略选择数据集用户行为-2017IJCAI-2015(%)N@10R@10P@10N@10R@10P@10香草-多0.8201.2840.2910.8440.9650.437策略A(加强目标任务的优势0.9481.4870.3160.8580.9630.424策略B(加强弱辅助任务的知识转移0.9041.3840.3010.8180.9500.425策略C(同时采用策略A和策略B0.9901.5500.3390.9741.1640.509表2:实验结果用户行为-2017IJCAI-2015公制(%)N@10R@10P@10N@20R@20P@20N@10R@10P@10N@20R@20P@20单损0.8171.2650.2750.9941.8250.2080.8830.9350.4311.0221.3140.298香草-多0.8201.2840.2911.0742.1070.2370.8440.9650.4370.9921.3530.311权重调整0.9091.3780.3261.1652.1950.2630.8661.0130.4451.0371.4480.330不确定0.7241.1580.2660.9031.7390.2010.6950.8180.3650.8341.1860.266GradNorm0.9131.2920.2971.1472.0440.2370.8780.9530.4301.0351.3750.307DWA0.9151.4190.3091.1652.2320.2480.8991.0050.4421.0401.3720.312MGDA0.8451.3280.2921.0752.0580.2370.8091.1040.4391.1041.6730.350MTAdam0.8691.3820.3051.1122.1530.2470.8801.0150.4631.0711.5250.348梯度相似0.9231.4440.3081.1862.2700.2550.8170.9770.4271.0251.5290.336GradSurgery0.9361.4710.3191.2132.3710.2630.8760.9980.4451.0421.4340.327OL-AUX0.9311.4710.3111.1622.2240.2430.8040.9210.4130.9501.3120.295MetaBalance0.990公斤1.550公斤0.339磅1.258磅2.421米0.269米0.974磅1.164磅0.509米1.134磅1.5880.353改进5.77%5.32%3.96%3.66%2.09%2.08%8.34%14.68%百分之十点零一2.72%–0.86%我们在MetaBalance和最强基线之间进行双侧显著性检验(用下划线突出显示),其中 * 表示p值小于0.05。(%)1.601.401.201.000.8000.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.91松弛因子r图3:松弛因子r提高了模型的泛化能力,这与文献[5,32]中的观察结果例如,它们可以帮助目标任务纠正其优化方向,以实现更好的泛化能力。MetaBalance保持了目标梯度和辅助梯度之间的方向冲突,但减少了幅度远大于目标梯度的辅助梯度,这防止了辅助任务的支配,并显示出更鲁棒的个性化推荐性能。5.3RQ 2:与基线方法的比较表2显示了实验结果和MetaBalance在每个指标方面对最强基线的改进其中MetaBalance在两个数据集上的大多数指标上显著优于所有基线。MetaBalance与基于梯度方向的方法。首先,我们观察到MetaBalance优于GradSimilarity,OL-AUX和GradSurgery,这些都是为了通过调整辅助任务来提高目标任务。请记住,这些方法背后的相同思想是,目标梯度和一个辅助梯度的方向越不相似,该辅助任务的权重就越低。虽然这些基于梯度方向的方法在测试数据集上 的 性 能 比 MetaBalance 差 , 但 有 趣 的 是 , 它 们 实 际 上 比MetaBalance实现了更好的训练损失,其中图4中显示了一个示例,该示例表明它们比MetaBalance更容易过拟合因此,该观察揭示了与目标梯度具有不同方向的辅助梯度有时可能有助于此外,我们很好奇MetaBalance是否可以在考虑使用方向相似性来适应辅助梯度时进行增强。具体来说,在每次训练迭代中,我们首先通过MetaBalance放大或减小辅助梯度,然后根据其中一种基于梯度方向的方法再次放大或减小它们。表3中的结果表明,MetaBalance的性能在包括基于梯度方向的方法之后大部分下降,这表明简单地组合基于幅度和方向的方法可能相互干扰。 我们离开如何更好地考虑梯度幅度和方向,以适应辅助任务,以帮助目标任务在未来的工作。MetaBalance与多任务平衡方法。其次,可以理解的是,不确定性,GradNorm,DWA不如MetaBalance,因为它们对目标任务没有特殊的偏好。在DWA中,损失降低得越低,分配给该损失的权重就越高在GradNorm中,目标任务梯度幅度被正则化为类似于所有梯度的平均值NDCG@10召回@10WWWYun He,Xue Feng,Cheng Cheng,Geng Ji,Yunsong Guo,and JamesCaverlee2213(%)1.10.90.70.5N@10R@10(a) Adagrad(%)RMSPropRMSProp+MetaBalance1.31.10.90.70.5N@10 R@10(b) RMSProp图4:UserBehavior的培训损失-2017幅度,这可能不是目标任务优化的最佳幅度。在不确定性中,任务数据集的不确定性越高,分配给该任务损失的权重就越高。我们 还 将 MGDA [27] 作 为 最 具代 表 性 的 Pareto 方 法 之一与MetaBalance进行了比较。MGDA将多任务学习视为多目标优化问题,并找到满足Pareto最优性的解决方案。在MGDA中,共享参数仅沿着所有任务的梯度的共同方向更新,这可能不是目标任务的最佳优化方向。因此,目标任务不能保证在所有任务中得到最大的改进,如MGDA的Pareto最优解。相比之下,MetaBalance是一种专 门 为 提 升 目 标 任 务 而 设 计 的 方 法 。 如 表 2 所示 ,MetaBalance 在 大 多 数 指 标 上 都 明 显 优 于 MGDA 。 虽 然MTAdam最初不是为辅助学习设计的,但我们让目标任务作为MTAdam中的锚任务通过这种方式,MetaBalance和MTAdam共享相同的核心思想,即辅助梯度图5:与其他优化器的协作5.4RQ 3:与更多优化器协作如算法1和2所示,MetaBalance平衡梯度幅度,这些平衡的梯度用于更新遵循优化器规则的共享参数 表2中的结果表明,MetaBalance可以很好地与Adam协作。我们也很好奇MetaBalance是否可以与其他流行的优化器合作-与没有MetaBalance训练的多任务网络相比,目标任务的性能更高。 在图5中,我们观察到另外两个广泛使用的优化器- Adagrad [ 8 ]和RMSProp [ 28 ] -也可以通过使用Meta- Balance的平衡梯度来实现更好的性能。这个结果表明MetaBalance可以灵活地与常用的优化器协作。5.5RQ4:梯度幅值移动的影响在表4中,我们将MetaBalance的性能与变量(幅度变得更接近目标梯度。然而,表2nitudemt和mt(在等式5和6中)被替换为MetaBalance的表现明显优于MTAdam。的焦油奥克斯岛t t可能的原因是MetaBalance中的松弛因子可以控制幅度接近度,这使得MetaBalance比MTAdam更灵活。此外,Vanilla-Multi在两个数据集上的大多数指标上甚至不如Single-loss。 这表明,从辅
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功