多像素任务学习中的损失尺度平衡算法及其在MTL中的应用

176 浏览量更新于2023-10-14 收藏 2.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5107基于损失尺度平衡的多像素任务学习李载汉高丽大学jaehanlee@mcl.korea.ac.kr哲李东国大学chullee@dongguk.edu昌洙金高丽大学changsukim@korea.ac.kr摘要提出了一种新的损失加权算法，称为损失规模平衡（LSB），用于多任务学习（MTL）的pix-elwise视觉任务。MTL模型被训练为使用总体损失来估计多个逐像素预测，总体损失是个体任务损失的线性组合。提出的算法动态调整线性权重，有效地学习所有的任务。我们不是直接控制每个损失值的趋势，而是周期性地平衡损失规模--损失值与其重量的乘积。此外，通过基于先前的损失记录来评估每个任务的难度，所提出的算法在训练过程中更多地关注困难的任务。实验结果表明，该算法优于传统的加权算法的MTL的各种像素级任务。代码可在https://github.com/jaehanlee-mcl/LSB-MTL上获得。1. 介绍多任务学习（MTL）是一种机器学习技术，用于同时解决多个学习任务，同时利用任务之间的共性和差异。MTL可以提高学习效率和预测精度的相关任务，使用一个集成的模型，相比，单独的模型训练的多个任务独立。MTL的有效性已在理论和实验上得到证明[1随着深度学习的进步，MTL已被广泛应用于计算机视觉[14，19，32]，自然语言处理（NLP）[7，10，28]，强化学习[12，17，35]和语音识别[8，16，39]。在计算机视觉中，主要提出了使用卷积神经网络（CNN）的MTL模型。例如，已经开发了MTL模型以联合执行来自输入图像的深度估计、表面法线估计和语义分割的三个逐像素任务[25，46]。此外，已经研究了来自视频的联合深度和运动估计[6，44]以及多属性图像的分类[30，37]这些重新-搜索已经使用单个MTL模型推进了紧密相关任务的学习由于网络的大部分在任务之间共享，因此MTL模型在复杂性、推理时间和学习效率方面是有利的。为了开发有效的深度MTL算法，应该考虑两个因素：体系结构和训练方案。首先，架构应该被设计为通过为共享和特定于任务的目的适当地分配网络参数来学习跨任务和特定于任务的通过考虑各种因素，如CNN容量、数据类型和任务之间的关系，已经开发了许多架构[12，29，34]。第二，培训计划应阻止对特定任务的任何偏见[6，18，25]。由于MTL模型生成多个估计值，因此应定义相应的损失，然后将其合并以形成总体损失。由于每次损失在训练期间具有不同的规模，因此总体损失可能由特定损失主导。此外，损失可能在不同方向上变化，甚至在训练期间波动因此，重要的是平衡损失贡献，从而强制MTL有效地学习所有任务。在本文中，我们提出了一种新的损失加权算法，称为损失规模平衡（LSB），用于像素级计算机视觉任务的MTL（例如：深度估计和语义分割），其可以动态地调整权重以有效地学习所有任务。基于观察到平衡损失尺度（损失值与其权重的乘积）比直接控制每个损失值的趋势更有效，我们周期性地调整损失尺度以进行平衡。此外，通过使用以前的损失记录来评估每个任务的难度，所提出的算法可以更专注于困难的任务。实验结果表明，该算法能够有效地平衡损失尺度，提高任务的性能。所提出的LSB算法优于传统的加权算法。本文的主要贡献如下：• 我们建议平衡损失规模，而不是损失本身，以提高性能的MTL的像素视觉任务。• 我们进一步通过调谐损耗来改善性能5108D通过任务难度的评估来衡量。共享部件特定于任务的部件• 实验结果表明，该算法优于传统的一致，无论MTL架构，数据集和编码器的骨干。2. 相关工作�� 3��2��联系我们��3��2��1��3�� 2��1(a) STL(b) 全共享(c) 多解码器(d) 多列MTL架构：单个MTL模型应该通过考虑输入数据的一般和特定于任务的表示来提供对多个任务中的每一个的估计。因此，MTL架构应被设计为适当地分配有限的参数用于共享和特定于任务的目的。图1显示了三个典型的MTL架构，在比较与单任务学习（STL）。最简单的方法是在STL网络的末端添加多个估计层，如图1（b）所示。由于其在计算和存储空间方面的简单性和效率，全共享架构已被广泛用于多语言识别[16]、姿态估计和动作检测[13]、面部地标检测[47]、多分类[37]以及像素视觉。然而，它可能无法有效地学习特定于任务的表示，因为所有隐藏层在任务之间共享。图1（c）是由共享编码器和多个任务特定解码器组成的多解码器架构。该架构已用于计算机视觉[5，18，31]和NLP [7，26]应用程序。一些模型采用特征选择模块来将表示从共享编码器输出选择性地转移到任务特定的解码器。已经开发了用于为每个任务选择特征的各种技术：中间特征的线性组合[9]，多尺度融合[19]，不同深度的层的连接[14]和注意力模块[25]。最后，多列架构如图1（d）所示，其中为每个任务设计了编码器-解码器网络，并添加了用于跨网络共享特征的模块。因此，编码器参数是跨任务软共享的。该体系结构的主要问题是如何在任务之间有效地共享特征;已经尝试了特征的线性组合[29，33]、任务之间的单向转移[35]和蒸馏模块[43]。除了图1中的MTL体系结构之外，还开发了其他几种。在[12]中，以前的方法通过为不同的任务利用多个输入和输出层并采用许多卷积来扩展。图1.三重任务情况下MTL的典型架构对每项任务的性能都有重大影响[18]。这些权重可以手动确定[13，19，39，41]，然而，这需要关于个体损失函数的专业知识和广泛的试错。动态加权，调整权重的损失，在训练过程中，可以克服这个问题。最近的动态加权算法根据损失的不确定性[18]、损失的变化率[25]和损失的加权几何平均值[6]定期更新权重。在[40]中，尝试在损失之间实现帕累托GradNorm [5]还通过监测随时间推移的损失减少率来调整损失权重。然而，与所提出的算法不同，它需要访问关于共享网络参数的损耗梯度。因此，当任务以复杂的方式连接时，例如在图1（d）中的多列架构中，GradNorm可能需要高计算成本。因此，其仅应用于[5]中的图1课程学习[14，23，30，37]是MTL的另一种有效方法，从简单的任务开始，逐渐转向更困难的任务。在[30，37]中，任务的学习顺序是根据任务之间的相关性来确定的在[23]中，考虑了实例困难和任务困难。在[14]中，任务的难度被测量并用于与所提出的算法类似的学习时间表。然而，该算法不同于其他MTL算法的训练，因为它调整的基础上损失规模的权重。在[22]中，考虑了训练网络的损失尺度，但它仅关注单眼深度估计[15，20，21]。3. 该算法我们训练一个神经网络，以监督的方式执行多个任务。设f是网络，θ是它的参数。我们的目标是确定最佳参数连接它们的路径。在[48]中，设计了单编码器-多解码器架构，但是，与多列方法类似，特征被转移到θ*= argminθ角（I，ΣJ）∈D（f（I;θ），J）（1）为不同的任务补间图层。MTL模型训练：当训练MTL模型时，不同任务的损失通过反向传播彼此复杂地交互。这些损失的权重其中是由（I，J）对组成的训练数据集。I是输入信号，J表示多个任务的地面实况标签。此外，是估计值J^f（I; θ）和地面实况J之间的损失函数。5109^--k=1KnKKKΣKKK输入数据Estim atesD��N损失0.750.500.25整体损失，DD NN��10 20 3040期GT标签深度D表面法线N分割损失0.75(a) 同等权重图2. 三个任务的MTL模型的示意图。图2显示了三个任务的f的示意图0.500.2510二十三十40期涉及深度、法线和分段损失。一般来说，让Jk、Jk和k分别表示第k个任务的地面实况标签、其估计值和损失函数（1）中的总损失函数被定义为各个任务的损失函数的加权和，由下式给出n损失0.750.500.25(b) 手动选择（f（I;θ），J）=Σwk10 203040期其中wkk=1是第k个任务的权重，n是数量(c) 均衡损失标度图3. 三种加权方案的损失函数图。的任务。MTL中的wk可以采用固定加权或动态加权来确定在固定加权中，权重wk在整个训练中是固定的。最简单的方案称为等权重，即以相同的方式固定所有权重。在这种情况下，总体损失可能由特定损失主导，因为每个损失可能具有不同的规模。图3（a）示出了相等加权的示例，其中，与主要分割误差相比，深度误差和法线误差可能损失之间的这种不平衡可以通过如图3（b）中手动设置权重来减少，使得每个损失的贡献在开始时相等。然而，需要反复试验来找到这样的权重。此外，它不能反映训练期间的损失变化。在epoch被定义为周期。所提出的LSB算法有三个阶段。在第一阶段中，在没有关于损失的先验信息的情况下，人工设置权重。在第二个阶段，使用以前的损失记录来平衡损失规模。从第三个阶段开始，使用前两个阶段的损失记录来评估每个任务的难度。然后，培训重点放在困难的任务上。让 π1，π2，…πn是一组优先因素损失具体地，优先因子πk表示第k个损失函数k对总体损失函数的目标贡献率。因此，nπk=1。在应用中，可以明确地提供这些优先级因素。如果没有这样的规定，我们对每个k设置πk=1。还有，如图3（b）所示，分段损失比分段损失降低得更快。其他人，最终导致不平衡。设Lt为的平均损失nk在第t个周期上。然后，动态加权可以克服这些问题。通过在每个周期之后调整权重，可以在整个训练过程中均衡损失的贡献，如图1所示图3（c）. 让我们定义一个损失规模为产品的损失周期t内的平均损耗Lt由下式给出Lt=ΣwtLt（3）k=1价值和重量。在图3（c）中，自适应地确定权重以均衡所有任务的损失尺度。我们提出了一个复杂的动态加权算法，调整权重，以平衡损失规模，使MTL网络学习所有任务有效。注意，所提出的算法既不需要额外的网络参数，也不需要个别损失函数的专家知识。它只是在训练过程中监控损失规模的进展，并定期调整权重，只有轻微的计算开销，使训练后的网络可以更有效地承担所有任务。在这项工作中，一个培训其中wt是周期t中k的权重。它更新自在周期t开始时，wt−1到wt。第一期：没有前期亏损的记录。因此，可以采用如图4（a）中的相等加权。一般来说，我们通过以下方式w1=π k，1≤k ≤ n.（四）第二阶段：我们试图使第k个任务的损失规模与优先级因子πk成正比。假设��简体中文��N��ℓ��多任务学习模型5110KKKKKKKKΣwt Lt −1 = Σwt −1 Lt −1。（八）K损失1.61.20.8重量1.51.00.40.512345六个7期12345六个7期率1.0(a) 损失规模2.01.5(b) 权重图4. 所提出的LSB算法的三个阶段。对于每个k，π=1。如图4（b）所示，损失0.512345六个7期1.00.51234567期kn（c）损失减少率（d）损失等级可以通过将每个权重调整为与相应的损耗成反比来均衡比例。注意，在t（≥2）期间，前一个t-1期间的损失记录可用：Lt−1和Lt−1，其中1≤k≤n。图5. （7）中的加权规则的图示这个命题意味着总损失Lt−1是不-当权重t swt−1更新为wt时，k发生变化。因此，在本发明中，在周期t开始时，我们的目标是平衡损失规模k kwtLt 通过调整权重wt。但我们不权重的更新不改变k k k我知道损失了。为了解决这个问题，我们假设的LtL tL tL t总损耗，这使得更容易监控各时段的总损耗。图5显示了当为1=2=· · ·=n。（五）Lt−1Lt−1Lt−1Lt−1采用（7）中的加权规则三个损失函数D，1 2N，在图5（a）中产生不同的值，但是核心-如果所有的任务都是在N S时学习的，这是一个合理的假设在时间段T期间类似步调。我们试图训练MTL网络以尽可能地满足这一假设，如果周期足够短，它在一定程度上成立。任务k的损失规模wt Lt应有助于在图5（d）中的前两个周期之后，使用图5（b）中的权重来均衡响应损耗尺度此外，在图5（c）中，三个任务的损失减少率彼此相似，如（5）中所假设的，除了第二个任务。K K总损耗Lt期最后经过前两期，整体亏损π;根据优先级因子kw t L t= π k L t。（六）图5（d）中的并不像命题1所预测的那样在周期之间有很大的不连续性。对于所有t≥2，我们使用（7）中的加权规则。然而，在这方面，因此，权重wt由wt=πk Lt/Lt给出。由从第三阶段开始，将提供更多信息k k k假设在（5）中，我们有L t/L t=L t−1/L t−1。因此，所提出的算法使用关于损失函数k的特性。为了利用这些特性，我们修改了整体损失函数以前的损失记录wt=πkLt−1Lt−1K（七）当t≥3时，使用以下方案。第三阶段开始：利用前两期的亏损记录，我们量化了每项任务的难度。然后，我们通过分配更大的权重来关注更困难的任务其中t≥2且1 ≤k≤n。给他们.设dt表示任务k的难度系数（7）中的加权规则具有以下性质。1.提案对于t≥2，我们有nn周期t，其计算如下：.Lt−1/Lt−2ΣβKKk=1K Kk=1对于t3和1kn. 这里，β是超参数。假设β=1。然后，dt指示第k个损失k比总损失减小得更快还是更慢。如果dt>证据由式（7）可知，w tL t−1= π Lt−1。由于ΣnKKKk=1KK困难规模任务难度因素(c) > 3��ℓ��)��N N N��+的��=减肥规模等损标度(b) = 2+ NN +��简体中文=减肥减肥规模同等权重期间(a) = 1��=ℓNDℓℓ��DNL/L��−1L/L��−1DDL/L−1L/L−1NNℓ��N��ℓD D��ℓ��×个=×个=×个×个=×个=×个×个×个=×个==×个=×个×个=Dt=（九）KLt−1/Lt−2k=1难以对5111Kπ=1，K1，K下降较慢，这意味着任务kΣnwt Lt−1=Lt−1。然后，由（3）建立（8）相反，dt1意味着任务k相对容易。

下载后可阅读完整内容，剩余1页未读，立即下载