多任务深度学习：平衡共享表示学习与任务冲突，提高泛化性能

185 浏览量更新于2023-11-29 收藏 1.26MB PDF 举报

多任务学习

泛化能力

身份认证购VIP最低享 7 折!

30元优惠券

3009→小脑袋能帮忙吗？理解和改进多任务泛化王玉燕，赵哲，戴波，克里斯托弗五十，林东，洪丽婵，李伟，埃德H。迟{yuyanw，zhezhao，bodai，cfifty，dongl，lichan，liwei，edchi}@google.com谷歌研究美国摘要多任务学习旨在同时解决多个机器学习任务，好的解决方案既具有可推广性，又具有帕累托最优性。多任务深度学习模型由一个共享表示和一个特定于任务的子网络组成，共享表示用于捕获任务的共性，特定于任务的子网络用于捕获每个任务的特性在这项工作中，我们提供了关于在多任务学习中最小化任务训练冲突和提高多任务泛化之间的权衡的见解，即。跨所有任务的共享表示的泛化能力这种权衡可以被看作是多目标优化和共享表示学习之间的紧张关系：作为一个多目标优化问题，需要足够的参数化来缓解约束解空间中的任务冲突;然而，从表示学习的角度来看，过度参数化特定于任务的子网络可能会给模型太多的“自由度”，并阻碍共享表示的泛化。具体来说，我们首先介绍了对多任务深度学习模型参数化效果的理解，并从经验上表明，在多任务泛化方面，更大的模型不一定更好。在减轻任务培训冲突与需要改进共享表示学习的通用性以实现跨多个任务的最佳性能。受我们的研究结果的启发，我们建议在训练过程中使用一个参数化不足的自辅助头与每个特定任务的子网络一起使用，这会自动平衡上述权衡。由于辅助头的大小很小，并在推理时间内被丢弃，所提出的方法产生最小的训练成本和没有额外的服务成本。我们在两个公共数据集上对所提出的自辅助进行了实验，并在为数十亿用户提供服务的最大工业推荐平台之一上进行了现场实验。实验结果表明，该方法能够有效地提高多任务模型中多任务间的预测性能.CCS概念• 机器学习方法;机器学习算法;多任务学习。本作品采用知识共享署名国际协议（Creative Commons Attribution International）授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9096-5/22/04。https://doi.org/10.1145/3485447.3512021关键词神经网络，多任务学习，Pareto前沿，辅助任务ACM参考格式：王玉燕，赵哲，戴波，克里斯托弗五十，林东，洪丽婵，李伟，埃德H。气。2022年小脑袋能帮忙吗？理解和改进多任务泛化。在ACM WebConference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。 ACM ，美国纽约州纽约市， 11 页。https://doi.org/10.1145/3485447.35120211介绍在许多机器学习应用中，有不止一个感兴趣的任务。例如，对象检测算法可能涉及预测对象的类别和位置[20];内容推荐系统可以优化短期转换率以及用户的长期满意度[55]。这些用例需要在给定一组公共特征的情况下预测多个目标，多任务学习非常适合解决这个问题[7]。在过去的几年里，多任务深度学习通过其在广泛应用中的成功而受到欢迎，包括自然语言处理[11]，计算机视觉[20，41]和在线推荐系统[4，33，34]。多任务学习问题通常需要从一个参数化模型类中学习，该模型类在不同的任务中共享一个参数子集[42]。这种共享架构的好处是多方面的。首先，它利用任务相关性与归纳偏差学习[6，7]。假设任务共享一个共同的假设类，学习跨任务的共享表示是有益的，特别是对于较难的任务或训练示例有限的任务[31，35]。其次，通过强制任务共享模型容量，它引入了正则化效应。第三，它提供了一种高度紧凑和高效的建模形式，可以更好地为大型在线系统训练和提供多个预测量。与此同时，多任务学习也带来了新的挑战，因为它经常受到任务训练冲突的影响对于优化来自潜在冲突任务的多个目标的单个模型，所有目标不太可能同时达到最优[34，45]。换句话说，多任务学习伴随着不同任务之间的内在权衡给定固定的模型容量，任务冲突可以通过计算多任务学习paradigm中的每个任务训练损失并将这些损失与它们各自的单任务对应物进行比较来量化。多任务和单任务模型之间的损失差异越大，任务冲突就越多[49]。在本文的其余部分，我们交替使用术语“任务训练冲突”和“任务冲突”。最近的研究集中在旨在减少任务训练冲突和提高多任务性能的模型和算法上[32，46，47]。其他工作有3010WWW专注于设计灵活的模型架构[42]和有效的优化算法[9，45]。在过去的几年里，大型模型在许多应用中取得了成功，吸引了大量的人气[15，48]。更大的模型，尤其是更大的特定任务子网络，在多任务学习场景中总是更好吗我们从理解这种参数化效应开始，并指出在最小化任务训练冲突和提高多任务泛化之间被忽视的具体来说，更大的特定任务子网络并不总是更好。一方面，与[49]类似，我们经验性地表明，通过增加参数化，多个训练对象可以减少冲突，这与多目标学习理论[43]相一致，即需要足够的参数化才能在受限的解决方案空间中正确处理任务冲突然而，另一方面，我们发现，过度参数化的任务特定的网络可以产生的解决方案，这是比那些来自较小的模型。这是因为过度参数化会减少多任务深度学习的归纳转移的好处，并可能导致每个任务的性能不佳。换句话说，虽然较大的任务特定网络在缓解任务冲突方面具有更大的灵活性，但它们也会减损良好的多任务概括。请注意，我们在这里讨论的多任务泛化与传统的泛化概念不同：它特别是在多任务学习的背景下，指的是跨多个任务的学习表征的泛化能力。受这些发现的启发，我们提出了一种简单而有效的方法来自动平衡最小化任务训练冲突和提高多任务泛化之间的权衡。它可以被看作是一种努力，以提高共享表征学习的泛化能力（在其余的工作中称为多任务泛化）。具体来说，我们建议在训练期间使用欠参数化的自辅助，即小容量的子网络，以及大型的特定任务的子网络它们实际上是主要任务特定子网络的副本，并学习相同的任务，但容量要低得多它们在推理过程中被丢弃因此，所提出的方法只会产生最小的额外训练成本，而不会产生额外的服务成本。我们发现这些欠参数化的自辅助引入了隐式正则化效应，提高了共享表征学习的泛化能力。实证结果验证了我们提出的方法在基准数据集和行业推荐平台。总结一下，我们的贡献是理解：我们提供了关于多任务学习中未充分探索的权衡的见解，这是最小化任务训练冲突和提高多任务泛化之间的紧张关系。具体来说，过度参数化特定任务的子网络可能会阻碍共享表征学习的泛化能力。改进：我们提出使用欠参数化的自辅助器来自动平衡权衡，通过非线性正则化共享表示学习。验证：通过在两个基准数据集和一个工业推荐平台上的实验，我们验证了所提出的方法在提高多任务泛化能力方面的有效性，从而提高了所有任务的性能。2相关工作多任务学习作为多目标优化。最小化多任务学习中的任务损失可以表示为多目标优化问题[45]，其中首次提出并研究了Pareto最优性的概念[43]。除了通常用于多任务学习问题的任务损失的线性加权之外，其他多目标优化方法的示例包括约束方法，目标规划[24]，指数加权和[3，51]，人口方法[44]，偏好诱导[12]等等[26，37]。还有关于多目标优化方法的研究，其中目标是非凸的[39]或帕累托边界是非凸的[19]。尽管多任务学习和多目标优化之间有着密切的联系，但它们也有着显著的差异。例如，多目标优化几乎没有考虑深度神经网络的非凸优化[53]，这是多任务学习问题的主要挑战[9]。最近的工作[28，45]的一个例子是将多梯度下降算法[14]应用于多任务学习，这是一种基于梯度的多目标优化方法。受这些探索的启发，我们的工作开始于实证研究多任务学习问题的帕累托前沿我们发现，权衡是一个函数的参数化，因为它会导致不同的训练和推广的困难。这在多目标优化文献中很少讨论基于我们的理解，我们提出了一种简单而有效的处理方法来自动平衡任务冲突缓解和联合学习多个任务的一般化好处。提高多任务深度学习的帕累托效率最近关于减少任务训练冲突和提高多任务深度学习的单任务性能的研究可以分为三个方面。第一行旨在开发模型架构中的灵活参数共享。示例包括软参数共享，鼓励相似任务更多共享，冲突任务更少[22，34，38]，自适应地决定在训练过程中共享哪些层[32，47]，或者在宏观层面上，决定哪些任务应该一起学习[46]。研究的第二条线集中于改进优化算法以更好地遍历损失表面。这些工作主要集中在自适应线性加权方法[9，16，25，52]上，这些方法可以找到比朴素线性加权方法更好的解决方案。第三条研究路线增加了辅助任务，以提高一个或多个主要任务的性能。它已被广泛应用于计算机视觉[54]，自然语言处理[2]和信息检索[29]。如果相关任务不可用，辅助任务也可以使用对抗性损失[18]，预测输入或过去标签[7，8]，伪任务增强[36]或学习表示[40]来构建。我们提出的参数化自辅助可以被看作是辅助任务学习的一个特例然而，与其典型的配方，我们的方法不需要特定的领域知识设计辅助任务。特别是，在我们的例子中，辅助任务是自我辅助的。它们处理相同的任务，但参数化不同。类似的概念体现在知识蒸馏[1，23]中，但我们的方法与多任务学习中的蒸馏不同[30]。而不是用一个更小的···3011{（）}iiii=X×→YL（··）Y×Y→（··）∈（）θL（）≤ L（）nˆˆi=1我其中，{w}t=1t∈{，.，T}是各个任务的权重请注意，Al-不1小脑袋能帮忙吗？了解和改进多任务泛化WWW在一个实施例中，当学习者（学生）网络学习较大（教师）网络的预测时它们的主要（和较大）对应物同时学习，在共享层内协作地构建可概括的特征表示3理解假设有T个任务共享一个输入空间X。每个任务都有提供了使用线性加权方法过参数化的多任务学习模型的理由。大型多任务模型，特别是大型任务特定子网络的另一个好处是它们在处理任务冲突方面的灵活性作为一个多目标优化问题，冲突反映为任务之间对有限模型容量的竞争因此，大型模型可以更好地处理任务它自己的任务空间{Yt}T。一个ni.i.d.的数据集的例子冲突，因为它提供了更大的解决方案空间。i=11Tnt大型特定任务子网络固有的挑战到输入和任务空间由xi，y，.给出，y1，其中y是第t个任务的标签，例如i。我们假设由θΘ参数化的多任务模型。θ = θsh，θ1，.，θT包括共享参数θsh和任务特定参数θ1，...，θT。令ft，：Θt是模型函数，t，：t tR+是第t个任务的损失函数该公式还包括更一般的多任务学习设置，其中不同的任务具有不同的输入，在这种情况下xi =（xi，...，xT）T其中xt是为了了解更大的特定任务网络是否会带来更好的多任务性能，我们对合成数据集进行了一系列研究。类似于Finn等人的设置[17]和Ma et al.[34]，我们生成一个多任务数据集，并将每个任务定义为从输入到正弦波组合输出的回归。为了引入任务冲突和任务相关性，我们让这两个任务共享一个小的频率子集和一个共享底部架构[42] 具有任务特定的子网络。的完整描述第t个任务的输入例如i.我我我设L<$t（θ）<$1。nLt（ft（xi;θsh，θt），yt）是经验损失对于tx和y表示容易的合成数据集和模型架构，-th任务，在这里我们放弃了对的符号。然后，多任务学习的优化可以被公式化为向量值损失函数的联合优化min（L）1（θ），. . ，L<$T（θ））<$.（一）一个θ不可能同时优化所有目标因此，（1）的解是一组代表不同权衡偏好的点。形式上说，如果tθa <$tθb，t且至少存在一个任务j，则称解θa支配解θb，使得不等式是严格的. 一个解θ称为帕累托最优，如果没有解θ′超过θ使得θ′优于θ。Pareto边界是所有Pareto最优解的集合对于线性加权法，最小化目标是从0增加到5，测试数据上的帕累托前沿也有所改善;然而，令人惊讶的是，随着隐藏层的增加（从5层到9层），帕累托边界迅速恶化。当增加共享层的数量、共享层和特定任务层的数量或改变层容量而不是深度时，我们也观察到类似的趋势。经验损失向量L<$（θ）<$的标量化。不wtLt（θ），尽管对于大多数现有的多任务学习来说算法中，线性加权方法只能识别（1）中帕累托前沿凸区域内的受益于大型特定任务子网络。在本节中，我们提出了使用大型多任务深度学习模型的两个主要原因，即：为使用线性加权方法提供理由;以及有效缓解任务训练冲突。已知线性加权方法只能获得位于Pareto边界凸区域的解[26]。因此，我们首先研究多任务模型的帕累托前沿的凸性。值得注意的是，当所有目标在各自的参数上都是凸的时，帕累托边界保证是凸的。建议我在1。假设对于所有任务t ∈ {1，. T}和Θ是凸的。则（L1（θ），.，问题（1）中的LT（θ）是凸的.当一些或所有目标都是非凸的时，我们发现过度参数化的多任务深度学习模型意味着凸或近凸的帕累托边界。讨论的细节以及命题1的证明可以在附录A.1中找到，(a) 基线。(b) 1-3隐藏层。（c）5-7个隐藏层。图1：合成数据的帕累托边界（a）：模型能力不断提高的基线帕累托边界。还报告了所有模型的最佳单任务性能（b）-（c）：将我们的方法与不同模型容量的基线进行比较。这个有趣的观察触及了在最小化任务训练冲突和提高多任务泛化之间被忽视的权衡。多目标优化理论表明，需要足够的模型容量来处理附录A.2. 图1a显示，由于隐藏层的数量WWW匿名作者3012（··）X×→R（·）（·）（·）不（·）不不任务冲突。然而，将多任务学习视为多目标优化问题是有限的。多任务学习是一个更普遍的问题，因为它利用参数共享和诱导转移[6]，这有利于学习的共享表示的泛化。过度参数化不可避免地会低估共享的好处，这可能会损害多任务的泛化，最终适得其反。4方法总结我们的见解，对于多任务学习，由小型任务特定子网络学习的解决方案可以很好地推广到多个任务，但会受到任务训练冲突的影响。大型任务特定子网络能够更好地缓解这些训练冲突，但遭受多任务泛化的损失。这些观察结果促使我们设计一种自动治疗方法，以实现两全其美。我们建议使用欠参数化的自辅助来自动平衡多任务深度学习模型的任务冲突缓解和泛化。通过为大型多任务模型中的每个任务添加一个参数化不足的小塔，我们希望享受大型和小型任务特定子网络的好处。我们提出的方法下流行的多任务架构，其中包括一个表示共享的所有任务与任务特定的层建立在共享的表示。每个任务t的模型族Ht表示为：ft（x; θsh，θt）= ft（h（x; θsh）; θt），θt，（2）其中h：ΘM是共享表示。现在，我们为每个任务构建一个自辅助塔，相同的任务标签，但不同的参数化，容量显著减少（图2）：fa（x;θsh，θa）=ft（h（x;θsh）;θa），ft，（3）图2：用于多任务学习的参数化不足的自辅助工具对我们在大型模型中，可以共享的内容也可以在大型任务特定的塔中很好地捕获，具有相同或甚至更小的训练损失;因此，多任务泛化和共享的好处可能会被牺牲。然而，在大型多任务模型中添加小塔改变了范式。通过用两个塔同时训练相同的任务--一个是完全参数化的，另一个是欠参数化的--多任务模型的共享表示h ; θ sh“被迫”学习适合完全参数化和欠参数化任务特定变换的表示。换句话说，当一个多任务模型有足够的容量时，它有的方式分配信息会牺牲模型t tt任务冲突与多任务泛化的好处其中上标表示辅助，θa的大小比原始的特定任务子网络θt小得多。经验损失定义为从分享表象开始。所提出的欠参数化自辅助作为隐式正则化，因为共享尽可能多地发生在共享层中。最初的任务- 是的塔娜塔有效地具有更多的能力来学习任务细节，L（θ）=t=1wt（Lt（θsh，θt）+γLt（θsh，θt））（4）更好地缓解冲突我们指出，自助动词与伪助动词有着相似的形式其中wt是任务t的权重，Meyerson和Miikkulainen提出的任务增强（PTA），1.nat该模型针对每个任务使用多个塔进行训练，并且Lt（θsh，θt）=ni=1Lt（ft（xi;θsh，θt），yi）（5）显示为有利于单任务和多任务设置。PTA和其他任务增强方法在理论上得到了以下方面的支持：是任务t的自辅助损失的辅助损失。在推理时，自辅助词被丢弃，只使用ft; θsh，θt作为任务t的预测。由于自辅助设备体积小，仅用于训练，因此它们产生的额外训练成本最小，并且在服务时没有额外成本。在第3节的合成数据集上，欠参数化的自辅助显著改善了所有参数化水平的测试数据集上的帕累托前沿（图1b和1c）。此外，对于较大的任务子网络，改进更大，这与我们的见解一致，即小辅助头可以提高较大模型的泛化能力。为什么小脑袋有帮助？参数化不足的自辅助能提高多任务泛化能力的事实并不令人惊讶Baxter[5]，这表明额外的任务可以导致隐式数据增强和更好的泛化。然而，我们建议使用欠参数化的自辅助，更多地依赖于小塔带来的隐式正则化，这导致了共享表示的更好的学习动态。与训练多个塔并显著增加参数化的PTA不同，参数化不足的自辅助器引起非常少的额外参数化，同时有效地平衡任务冲突的缓解与泛化改进。在第5.3节的消融研究中，我们证实了需要对自我辅助进行欠参数化，以提高多任务泛化能力。使用欠参数化的自辅助设备非常简单：任何塔fa（x;θsh，θa）明显小于原始塔小脑袋能帮忙吗？理解和改进多任务泛化WWW3013（）下一页（）下一页×ftx;θsh，θt就可以了。从这个意义上说，我们的方法几乎是模型不可知的，因为它是通用的，自适应的，可以应用于任何模型架构。例如，可以简单地使用共享表示h x; θsh上的单个全连接层作为自辅助塔（图3a）。如果共享层输出M的维数很大，我们可以通过池化进一步减少参数化（图3b）。对于多类分类任务，最后一层是softmax层，其大小等于类的数量C。在这种情况下，作为自辅助的单个全连接层引入了CM附加参数，如果C和M都很大，如在许多多任务应用中，则CM附加参数可能是相当大的量。相反，我们可以让自辅助设备是一个两层塔，瓶颈层的大小为b M，C（图3c），在此最后的结果是O（max（C，M））而不是O（CM）。(a) 单个全连接层。（b）合并。（c）瓶颈层。图3：欠参数化自辅助的示例架构。（a）：单个全连接层。（b）：平均汇集的单层。（c）：带瓶颈层的双层塔值得注意的是，所提出的用于多任务学习的欠参数化自辅助方法可以与先前的多任务学习增强相结合，例如不确定性加权[25]，梯度手术[52]和多目标优化算法[28，45]。5实验我们首先描述了实验的设置，包括数据集，架构和调优等。然后，我们展示了多任务场景的结果，这些场景涵盖了计算机视觉和推荐系统中的回归和分类任务，包括在工业内容推荐平台上的现场实验。最后，我们提出了消融研究，以测试“小头”作为自我辅助的需要，并提供更多的见解，以改善5.1实验装置5.1.1数据集、架构和调优。我们将在下面介绍用于每个应用程序的数据集和模型架构。更多细节可以在附录中找到。MultiMNIST 和 MultiFashionMNIST ： MultiMNIST 和MultiFashionMNIST数据集是通过扩展MNIST[27]和FashionMNIST [50]到多任务设置[28，45]。两从MNIST/FashionMNIST中随机选择32个图像然后一个放在左上角，另一个放在右下角，以4个像素的垂直和水平步幅彼此重叠。多任务学习问题是对每个组合图像的左上角（任务1）和右下角（任务2）的数字进行分类。我们采用LeNet架构[27]作为多任务模型。我们考虑三种不同的模型大小，共享隐藏层和特定任务隐藏层的数量不断增加（附录中的图11）。自辅助头的架构如图3a所示。关于架构和超参数的详细信息可以在附录A.3中找到。训练和测试数据以80/20随机分配。对于每种方法和每种模型大小，我们执行1000次运行以进行超参数调整。使用选定的超参数，我们然后执行另外1000次运行，任务权重wt从0到1变化，在测试数据集上评估它们中的每一个，绘制帕累托边界（即，来自1000次运行的帕累托最优解MovieLens：MovieLens 1M数据集1[21]记录了6000名用户对4000部电影的100万次评分为了制定多任务学习问题，我们首先通过为每个在原始数据集中没有评级的用户随机采样电影来增强数据集，并将这些示例标记为该用户未观看的电影。对于每个用户，未观看的电影数量与她观看的电影数量相同，给我们留下了200万个例子。然后，我们从增强数据集中抽取160万个示例作为训练数据，另外20万个示例作为测试数据。对于每个用户和电影对，我们构建一个二进制分类任务来预测用户是否观看电影（任务1），以及一个回归任务来预测用户对电影的评级（1-5）作为浮点值（任务2）。任务的设计以及模型架构类似于真实世界中的大规模推荐系统[13]。每个层的大小为200，带有ReLU激活。使用Adagrad优化器，批量大小为100。我们还在最后一个共享隐藏层上使用平均池（图3b）作为自辅助塔的输入。通过计算测试数据集上的手表预测的错误率和评级预测的均方误差（MSE）来衡量任务的性能对于每个基线方法，我们执行1000次运行以搜索最佳学习率;对于我们的自辅助方法，我们执行1000次运行以搜索学习率、自辅助权重γ和自辅助池长度的最佳组合（图3b）。我们固定每个方法的调优次数，以确保我们的方法不会过度调优，因为我们的方法有更多的超参数。然后，我们使用任务损失权重在0和1之间变化来执行另外1000次运行，在测试数据集上评估它们中的每一个，并绘制测试指标的帕累托边界。多任务泛化。提供了代码的链接附录A.4。1https://grouplens.org/datasets/movielens/1m/WWW匿名作者3014t=1.xt=1 .T1 0;（3）uncer-行业内容推荐平台：我们在服务数十亿用户的最大行业内容推荐平台之一进行对于当前正在平台上消费内容的每个用户，向她显示接下来要消费的内容列表推荐是基于用户过去与平台的交互以及内容特征和上下文特征从平台上的数亿内容池生成的内容推荐系统的建模框架类似于现有的两阶段架构[13]，其中候选生成网络之后是排名网络。总共有8个任务：4个任务预测平台上的用户满意度相关分数，表示为S1，S2，S3，S4;另外4个任务预测用户短期和长期的与满意度相关的行为，表示为E1，E2，E3，E4。我们尝试了排名网络，它是一个混合的-专家模型[34]。自辅助头的架构如图所示。3a. 该模型使用第二天数据的10%作为测试数据进行连续训练。对于二元分类任务，使用测试数据的AUC作为评估指标;对于回归任务，使用均方根误差（RMSE）。5.1.2基线方法。我们将我们的方法与最先进的多任务学习模型不可知方法进行比较。实验中的方法有：（1）自辅助：我们的欠参数化自辅助方法;（1）单任务基线（ST）：分别学习每个任务;（2）线性加权（MTL）：线性加权-（a）M-MNist小型模型。（b）M-Fashion小型模型。(c) M-MNIST介质模型。（d）M-Fashion中型模型。计算方法Lθ（θ）=不wtLt（θ），其中，{w=（w1，... （wT）| wt= ，wt≥，t}（e）M-MNIST大型模型。（f）M-Fashion大型模型。图4：MultiMNIST（M-MNIST）和Mul-2000污染加权（不确定性）：任务的学习不确定性被用作损失权重[25];（4）多梯度下降算法（MGDA-UB）：来自多目标优化的修改的多梯度下降算法[45];（5）梯度手术（PCGrad）：用于减轻任务冲突的梯度投影方法[52];（6）伪任务增强（PTA-F）：针对同一任务训练多个任务特定的子网络[36]，并且我们采用其中除了一个子网络之外的所有子网络在训练期间接收梯度更新的变体（5.2结果5.2.1MultiMNIST和MultiFashionMNIST.. 图4. 结果表明，对于小模型，我们的方法与最佳基线方法相比实现了相似的性能（图4a，4b），具有不同模型容量的tiFashionMNIST（M-Fashion）数据集。在任务冲突缓解和多任务泛化之间实现更好的折衷。5.2.2电影镜头图5a显示了两个任务的帕累托边界，表明我们的平均pooing方法显着提高了两个任务的性能。为了理解平均池化的有效性，图5b显示了我们的方法在不同输入维度下的自辅助头的性能。表1通过报告帕累托边界上的中点总结了数值结果我们发现，通过减少自辅助塔的参数化与平均池，我们可以进一步提高其性能。优于其他基线（图4c、4d）和大型模型（图4e，4f）。我们注意到，PTA在中小型模型上的表现明显比所有基线差，在大型模型上落后于自辅助（图6b），因此我们不在这里报告结果。作为旁注，不确定性重新加权（“不确定性”）是最强的基线，在我们的实验中始终优于其他基线。附录A.3中的表4总结了数值比较。我们还观察到，模型越大，我们的方法在基线上表现出的改进就越大。正如第3节中所讨论的，由于较大的模型引入了更多的泛化挑战，这些结果进一步表明了自辅助的有效性。表1：MovieLens数据集的数值结果。监视错误评级MSEMTL0.1720.387不确定0.1650.399MGDA-UB0.1680.385PCGrad0.1670.397自我保护0.1680.385自储-联营0.1610.377小脑袋能帮忙吗？理解和改进多任务泛化WWW3015(a) 自我辅助与基线。（b）平均汇集的影响图5：MovieLens数据集上的实验结果5.2.3行业内容推荐平台。在实验中，我们将自辅助和PTA-F与当前的生产设置（控制）进行了比较，其中每个任务都是用单个塔进行训练的。对于自辅助，我们采用图3a中的简单架构，神经元丢失率为0.2;对于PTA-F，我们应用了两个与原始任务特定塔相同大小的额外塔。离线评估结果。在表2中，我们报告了所有八个任务在100万步时离线评估指标的相对变化。对于AUC度量，正变化意味着更好的分类准确性;对于RMSE度量，负变化意味着更小的回归误差。我们看到PTA-F和我们的欠参数化自辅助方法在所有任务中的表现都优于当前的生产模型（控制）然而，我们的自辅助方法能够在4项任务上优于PTA-F，而PTA-F仅在1项任务上优于自辅助方法（表2a）。我们还计算了所有分类任务S1、S2、S3、S4、E1、E2的平均AUC以及两个回归任务E3、E4的平均RMSE。表2b结果表明，我们的方法在分类和回归任务上都取得了更好的整体性能。现场实验结果。我们在为数十亿用户服务的实时系统中进行了一系列A/B实验，以衡量我们方法的好处。一小部分用户流量被分成三组，其中当前生产模型（控制），PTA-F和我们的方法分别作为深度排名模型实验持续三周，在此期间，我们汇总了用户满意度指标和参与度指标。我们跟踪在显示推荐的页面上测量的页面特定指标，以及用于了解整体用户享受的站点范围指标。表3总结了现场实验结果。我们看到，虽然PTA-F和我们的自辅助方法都提高了页面特定的满意度和参与度指标，其中深度排名模型正在发挥作用，但我们的方法能够实现比PTA-F更大的改进。此外，我们的方法还提高了站点范围内的满意度和参与度指标，在95%的置信水平下都具有统计学显著性，而PTA没有。5.3消融研究在本节中，我们报告了（1）几项消融研究，这些研究证实了小尺寸股骨头作为自我辅助的必要性，以及（2）通过分析共享代表来理解改进的泛化。(a) 单任务性能。指标名称PTA-F自我保护（Ours）平均AUC+0.351%+0.416%平均RMSE-0.072%-0.153%(b) 分类（AUC）和回归（RMSE）任务的平均性能AverageAUC计算S1、S2、S3、S4、E1、E2上的平均AUC，Average RMSE计算E3、E4上的平均RMSE。表2：离线评估结果。与当前生产模型（控制）相比，每个任务都是用单个塔训练的，因此，这些变化被显示为 PTA-F：为每个任务添加2个与原始任务特定塔相同大小的额外塔;自辅助：神经元脱落率为0.2的自辅助。在测试数据上计算，并在100万个训练步骤中报告。指标名称PTA-F自我保护（Ours）页面特定满意度+0.15%*+0.17%*网站满意度+0.01%+0.06%**页面特定参与+0.13%*+0.15%*全站点参与0.00%+0.05%** p值0.05;* p值0.01。表3：活体实验结果。与当前生产模型（对照）相比，以百分比改进表示。5.3.1单任务学习的自我辅助为了了解自我辅助是否能独特地帮助多任务学习，我们在单任务设置中对常规MNIST数据集进行了实验，使用三种不同的模型大小，并增加了完全连接的ReLU层的数量。有关体系结构和超级参数的详细信息，请参见附录A.3。图6a显示，自辅助提高了小型模型的性能，但不会显著影响中型和大型模型。与上面的第5.2.1节相比，自辅助在较大的模型上具有更多的优势，这证实了自辅助的改进来自于改进的多任务泛化，而不是受益于单任务学习。5.3.2大脑袋作为自我辅助。我们进行了消融研究来测试“小脑袋”的需要：（1）完全消融自我辅助，并使用任务损失的线性加权作为训练目标（“MTL“）;（2）与原始任务子网络大小相同的大自我辅助（“大自我辅助“）;任务指标名称PTA-F自我保护（Ours）S1AUC+0.22%+0.33%+1.13%+0.12%+0.27%+0.12%-0.00%-0.09%+0.55%+0.33%+1.27%+0.12%+0.14%+0.12%-0.08%-0.18%S2AUCS3AUCS4AUCE1AUCE2AUCE3RMSEE4RMSEWWW匿名作者3016（·）（·）(a) 自辅助MNIST的分类精度(b) 与作为自辅助设备的大塔的比较。(a) 共享表示中非零神经元分数的直方图。(b) 共享表示中非零神经元值的直方图图6：消融研究。（ 3 ） Meyerson 和 Miikkulainen[36] 提出的伪任务增强（PTA），其中多个特定于任务的子网络针对同一任务进行训练，并且我们采用了其中除一个子网络之外的所有子网络在训练期间接收梯度更新的变体，据报道这在多任务学习（图6b显示了MultiMNIST上的帕累托边界，我们可以看到所提出的欠参数化自辅助（红色）获胜。这证实了“小脑袋”的必要性它还表明，除了PTA和其他任务增强方法中参数化不足的自我辅助并不能显著改善单任务学习（而PTA可以），这一事实进一步反映了我们方法的差异。此外，PTA-F和大型自辅助设备在训练过程中增加了更多的参数。相比之下，欠参数化的自辅助保持最小的参数化开销和很少的额外训练成本，同时在训练冲突和多任务泛化之间实现更好的平衡。5.3.3理解改进的泛化。为了从自辅助中收集更多关于改进的多任务泛化的见解，我们分析了共享模型架构的学习动态。更具体地说，我们研究激活神经元的分数的分布以及来自共享表示的激活神经元值，即， h; θsh在方程（3）中，这被认为与深度学习模型中的模型稳定性和预测变化相关[10]。图7显示了Mul-tiMNIST测试数据集（n=20000）上大小100的共享表示。在层密度（图7a）和激活神经元值分布（图7b）的直方图中存在明显的分离：在自辅助的情况下，共享表示平均具有更多的激活神经元，并且这些激活值的分布具有更长和更重的尾部。这些分析为自辅助塔共享表示的改进学习动力学提供了一些启示。在更密集的层和神经元值变化很大的情况下，共享表示可能位于由h;θsh诱导的更丰富的子空间中，这可能能够跨任务编码更多的信息因此，我们相信，我们观察到的增益从欠参数化的自辅助来自改善的共享表示的推广。图7：MultiMNIST测试数据集上共享表示层的分析。5.4讨论我们在三个多任务数据集上证明了我们提出的欠参数化自辅助方法的有效性，这些数据集涵盖了不同的应用，包括图像分类，公共推荐数据集和真实世界的大规模内容推荐平台。我们提出的方法是能够提高Pareto效率在现实世界中的多任务问题相比，现有的方法，与一个可以忽略不计的训练开销，没有额外的服务成本。它适用于不同的模型架构和不同类型的任务。消融研究表明，通过“小脑袋”作为自我辅助，除了脱落一些光的改进多任务泛化动力学的结果。此外，我们观察到我们的方法与高容量模型架构的最大好处正如第3节所讨论的，由于较大的模型为多任务学习引入了泛化挑战，因此该结果支持了我们在第4节中的见解，即参数化不足的自辅助有助于在任务冲突缓解和多任务泛化之间实现更好的平衡。我们还观察到，可以通过进一步减少自辅助的参数化来提高自辅助的性能诸如平均池化和添加瓶颈层之类的技术可以被视为超参数来优化模型性能。第六章结论在本文中，我们展示了在多任务模型中最小化任务训练冲突和提高多任务泛化之间的一个有趣的权衡。值得注意的是，就跨多个任务的性能而言，较大的模型不一定比较小的模型更好。从我们的研究结果中，我们提出了使用下参数化的自辅助自动平衡多任务泛化与减轻任务冲突，通过隐式正则化。通过在相同的任务上添加小容量的塔，大型模型能够学习更好地推广到多个任务的表示，同时保持灵活性和能力，以减轻训练期间的任务冲突。在基准数据集和真实大规模内容推荐平台上的实验结果表明，该方法在多任务应用中具有较好的效果.引用[1] Rohan Anil，Gabriel Pereyra，Alexandre Passos，Robert Ormandi，George EDahl，and Geoffrey E Hinton. 2018年大规模分布式神经网络训练小脑袋能帮忙吗？理解和改进多任务泛化WWW3017通过在线蒸馏。arXiv预印本arXiv：1804.03235（2018）。[2] Sercan Arik ， Mike Chrzanowski ， Adam Coates ， Gregory Diamos ，Andrew Gibiansky，Yongguo Kang，Xian Li，John Miller，Andrew Ng，Jonathan Raiman，et al.2017年。Deep Voice：实时神经文本到语音。第34届机器学习国际会议论文集-第70卷。JMLR。org，195[3] Timothy Ward Athan和Panos Y Papalambros。一九九六年。多目标最优化折衷解的加权准则法的注记。工程优化27，2（1996），155-176.[4] Trapit Bansal，David Belanger和Andrew McCallum。2016. Ask the Gru：深度文本推荐的多任务学习。第10届ACM推荐系统会议论文集。107-114[5] 乔纳森·巴克斯特。1998年学会学习的理论模型学会学习。斯普林格，71[6] 乔纳森·巴克斯特。两千归纳偏差学习模型Journal of Artificial IntelligenceResearch12（2000），149[7] 瑞奇·卡鲁阿纳一九九七年。多任务学习。机器学习28，1（1997），41[8] Rich Caruana和Virginia R De Sa。一九九七年。向主管推荐不好的功能：一些输入作为输出效果更好。神经信息处理系统进展。389-395.[9] Zhao Chen ，Vijay Badrinarayanan ，Chen-Yu Lee， and Andrew Rabinovich.2017. Gradnorm：梯度归一化，用于深度多任务网络中的自适应损失平衡。arXiv预印本arXiv：1711.02257（2017）。[10] ZheChen ， Yuyan Wang ， Dong Lin ， Derek Zhiyuan Cheng ， LichanHong，Ed HChi，and Claire Cui. 2020.超越点估计：从推荐系统中的神经元激活强度推断出增强预测变化。arXiv预印本arXiv：2008.07032（2020）。[11] 罗南·科洛伯特和杰森·韦斯顿

下载后可阅读完整内容，剩余1页未读，立即下载