UberNet：一个用于低、中、高级视觉任务的通用卷积神经网络

189 浏览量更新于2023-10-16 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6129UberNet：使用不同的数据集和有限的内存训练通用卷积神经网络，用于低，中，高级视觉亚索纳斯·科基诺斯伦敦大学学院Facebook人工智能研究i. cs.ucl.ac.uk摘要在这项工作中，我们以端到端的方式训练了一个卷积神经网络（CNN），它在一个统一的架构中联合处理低级、中级和高级视觉任务。这样的网络可以像“瑞士刀”一样用于这项工作的主要贡献在于处理在扩展到许多任务时出现的挑战。我们介绍了一些技术，这些技术有助于（i）在依赖于不同训练集的同时训练深层架构，以及（ii）在有限的时间内训练许多（可能是无限的）任务。预算。这允许我们以端到端的方式训练统一的CNN架构，其联合处理（a）边界检测（b）正常估计（c）显著性估计（d）语义分割（e）人体部位分割（f）语义边界检测，（g）区域提议生成和对象检测。我们获得了具有竞争力的性能，同时在GPU上在0.7秒内联合处理所有任务。我们的系统将被公开。1. 介绍计算机视觉涉及许多任务，例如边界检测、语义分割、表面估计、对象检测、图像分类等等。虽然卷积神经网络（CNN）[32]已被证明在有效处理大多数视觉任务方面是成功的，但在当前的文献中，大多数作品都集中在单个任务上，并将CNN的所有力量用于最大化特定任务的性能。在我们的理解中，多个问题的联合处理不仅可以导致更简单和更快的模型，而且还将成为接触其他领域的催化剂。人们可以预期，这种一体化的使用单个网络来解决多个任务的问题最近已经在深度学习的背景下被追求。输入边界显著性法线检测语义边界分割人体部位图1：我们以端到端的方式训练一个CNN，它联合执行跨越低、中、高级视觉的任务;所有结果都是在每帧0.7秒内获得的。学习计算机视觉。在[50]中，CNN用于联合定位，检测和分类，[17]提出了一个联合解决表面法线估计，深度估计和语义分割的网络，而[20]训练系统用于联合检测，姿态估计和区域建议生成。最近[41]研究了在为互补任务训练的网络之间共享信息的影响，[6]提出了通过任务协同提高性能的任务间连接的引入，[47]提出了一种用于大量面部相关任务的架构。受这些作品的启发，在SEC。2我们引入了一个CNN架构，它通过使用一个共享的主干来联合处理多个任务，该主干可以馈送到许多特定于任务的分支。我们的贡献在于引入技术，使培训能够扩展到大量的任务。我们的第一个贡献使我们能够从包含不同任务的注释的不同数据集6130FSL一旦我们以广度为目标，这个问题就会出现，因为没有一个数据集包含所有可能任务的基本事实。如第3，我们使用样本相关损失，仅惩罚每个训练样本可用的地面真实值的偏差。我们将此损失函数与随机梯度下降相结合，并提出了反向传播的异步变体，该变体远离了所有任务的固定小批量的想法，而是仅在我们观察到与该任务相关的足够训练样本时才更新特定于任务的网络参数。这使我们能够执行端到端的CNN训练，同时将不同数据集的联合作为单个训练集。我们的第二个贡献解决了目前用于深度学习的图形处理单元（GPU）上可用的有限的算法。随着任务数量的增加，反向传播的内存需求可以在任务数量上线性增加，从而限制了可以处理的任务数量。我们以低内存复杂度深度学习的最新发展为基础[12，21]，开发了一种算法，使我们能够以独立于任务的内存复杂度执行端到端网络训练。这些技术使得将任务附加到CNN特别容易，只需要指定广告数据集和每个任务的损失函数我们的网络在以下任务上进行系统评估：（a）以─输入图像C1C2C3C4C5C6B1B2B3B4B51T1T1T1T1T1TE· · ·E1 1E· · ·E2 2E· · ·E3 3E· · ·E4 4E···E E· · ·E5 5 6 6L11↓ 12F. .LT.不FC1C2C3C4C5C6B1B2B3B4B51T1T1T1T1T1TE· · ·E1 1E· · ·E2 2E· · ·E3 3E· · ·E4 4E···E E· · ·E5 5 6 6L1L11 1↓ 12F. .LT..SLT..不不FSC1C2C3C4C5C6B1B 2B 3B 4B 51T1T1T1T1T1TE···E E···E E···E E···E E···E E· · ·E1 1 2 2 3 3 4 4 5 5 6 6L11F. .LT.不F图2：UberNet架构：通过连续的下采样操作形成图像金字塔，并对每幅图像进行捆绑权值的CNN处理;网络在连续层（C i）上的响应用批量归一化（Bi）处理，然后馈送到任务特定的跳过层（Et）;这些层在整个网络上组合，元检测（b）正态估计（c）显著性估计tit(d)语义部分分割(f)语义边界检测和（g）建议生成和对象检测。我们目前基于VGG的[51]系统在Titan-X GPU上的运行速度为每帧0.7该系统正在扩展以利用更新的模型，例如ResNet [24]和ResNeXt [55]架构;具有更广泛评估的代码、模型和补充材料将在http://www0.cs.ucl.ac.uk/staff/I.Kokkinos/ubernet/2. UberNet架构在图2中，我们展示了我们的网络架构。如[32，39，45，50]所述，我们使用对于本文中报告的所有实验，我们使用VGG-16网络[51]和来自层conv 1 2、conv 2 2、conv 3 3、conv 4 3、conv 5 3、fc 7池特征，这些特征被示为C1，. . .，图2中的C6（更多架构的结果请参考项目网站）。稍微修改一下[3，38]，我们用批量归一化[25]处理这些中间层，以便将中间神经元响应带入一个共同的范围。对于每个任务，我们使用单独的跳过层[23，29，50，56]工作层（）和分辨率（），并使用特定于任务的损失函数（t），而整个体系结构是端到端联合训练的。为了简单起见，我们省略了文中提到的插值和检测层其组合多个中间层的响应以形成网络输出。如在[29，56]中，我们通过在这些跳过层内应用线性运算来保持任务特定的内存和计算预算较低，并通过与学习的权重进行加法融合来我们为未来的工作留下了额外的特定于任务的卷积滤波器[18，42，43，49]或结构化的预测操作[8，10，30，37，57]。我们适当地放置插值层，以确保来自不同跳过层的结果具有相称的维度，并使用atrous卷积[10，45]来更密集地评估高级神经元。如[11，26，29，45]中所述，我们构建了一个图像金字塔，并通过具有共享权重的CNN传递图像的多分辨率版本-最高分辨率图像被设置为具有等于621像素的最小边，如[19]中所示，而其他层则连续下采样2倍。这种多分辨率处理被纳入网络定义中，允许端到端训练。与[11，29]一样，我们在单个尺度的输出和最终响应中都使用了损失层。6131BtB←←不不λ联系我们20不′不gw =γLf（w，w），y对于每个任务，我们使用特定于任务的损失，包括离散标签任务（语义分割，人体部位，显着性）的交叉熵损失，（语义）边界检测的多实例学习损失[29]，以及在正常估计的101损失惩罚之前的102用于物体检测，如[48]我们使用“区域建议网络”和“更快- RCNN”分支，为了简单起见，从图中省略。我们提供了有关体系结构的更多详细信息，异步SGDdw 0← 0，dw 1← 0，. . . ，dw T← 0c 0← 0，c 1← 0，. . . ，c T← 0对于m=1到N·#epochs do样本iU[1，N]{选取样本i包含基础事实的任务}T={0}{t：δt，i=1}对于t∈ T，如果t=0{S}，然后，在项目网站上对特定任务的选择进行分析。gw0=δt，iγtWLtfi（w0，wt），yi其他t0t t.Σ3. 使用不同数据集进行多任务训练在概述了我们的网络架构之后，我们现在转向以端到端的方式联合训练共享的CNN主干和特定于任务的层。即使早期的多任务CNN工作视觉[15，17，20]直接最小化反向传播的任务特定损失的总和，也没有数据集具有用于人类部分分割，正常估计和显着性估计等不同任务的常见注释解决这个问题的一种方法是通过利用特定领域的知识来估算缺失数据，例如通过使用边界框信息来约束语义分割[14，44]。然而，这对于任意任务可能是不可能的，例如，正态估计相反，我们简单地将没有任务特定基础事实的图像的任务丢失设置为零-这相当于交错任务，如[7]所示。我们的训练目标是每个任务的损失和应用于特定任务的正则化项的总和，以及共享层：ΣT我我t tW t tt0t ttend ifct←ct+1，dwt← dwt + gwt如果ct=Bt，则{updatepara m.如果我们已经看够了，wt←wt−<$λwt+1dwtct0，dwt0结束if结束for端表1：异步SGD的伪代码：对于任何任务，我们仅在观察到足够多的包含其基本事实的样本之后才更新其参数。以蓝色突出显示的是与SGD的主要差异。任务中我们确实有地面实况。缺点是，随机梯度下降（SGD）与标准的迷你可能成为问题，因为我们现在描述。考虑到我们用的是小批量尺寸B，普通任务k的SGD将导致以下更新规则：L（w0，1，.，T）=R（w0）+t=1γt（R（wt）+Lt（w0，wt）），（1）p =wp−<$（λwp+ dwp）， p ∈ {0，1，. . . ，T}（3）其中t索引任务，w0表示共享的CNN权重，wt是任务特定的权重，γt确定任务t的相对重要性，R（wt）=2wt是一个正则化，dw0 =1美元i∈Bt=1γtδt，iWLt.Σfi（w0，wt），yi、（四）Lt（w0，wt）是任务特定损失：1Σ。 iiΣdw= γδ1ΣN。ΣtBi∈Btt，iWtLt ft（w0，wt），yt、（五）Lt（w0，wt）=Ni=1δt，iLtft（w0，wt），yt.（二）其中，权重衰减项是由W2正则化而Wavelett（y，y）表示任务损失的梯度由方程式2我们使用i来索引训练样本，Lt用于重新在网络预测fi和第i个示例的基础事实yi之间得出任务特定损失，wt指示任务特定网络参数，δ t，i0，1指示示例i是否具有任务t的基础事实。使用此目标的优点是，它允许我们简单地将为不同任务构建的数据集合并，并训练一个联合解决所有任务的单个网络-设置δt，i=0允许图像i“不关心”任何不包含地面实况的t关于参数向量w∈。的差异在两个更新项之间的是公共干线参数w0影响所有任务，并且因此累积所有任务上相比之下，特定于任务的参数wt仅受δt，i=1的图像的影响。该方案的一个问题是，如果对于给定的小批量i∈Bδ t，i很小，则对w t的更新将使用噪声梯度，这反过来导致差的收敛行为。我们最初通过将小批量大小增加到50个图像而不是10个图像来解决这个问题，这部分地缓解了这个问题，但是在时间上效率非常低。更WB我我6132√√√√√√√重要的是，这不允许我们扩展到许多任务- 随着任务数量的增加，小批量大小需要相应地增加。相反，我们建议放弃为所有任务提供一个通用minibatch的想法，而是仅在观察到足够多的任务相关图像后才更新任务特定参数这可以使用表1中描述的算法来实现，该算法以流模式而不是以批处理来处理图像。每当我们处理一个包含任务的地面真值的训练样本时，我们递增特定于该任务的计数器，并将当前特定于任务的梯度添加到累积梯度总和。一旦任务计数器超过阈值，我们就更新任务参数，然后将计数器和累积梯度重置为零。任务参数更新变得解耦，导致异步更新方案.我们还注意到，在伪代码中，我们使用不同的特别是，对于检测任务，在[48]中，批量大小为2就足够了，因为每个图像包含数百个示例，而对于密集标记任务，例如语义分割，通常使用10，20甚至30的批量大小[10，56]。在我们的训练中，我们使用2的有效批量B p进行检测，10用于所有其他特定任务参数，30个用于共享CNN特征，w0. 我们-为共享CNN特征设置更大的批量大小允许它们的更新从包含多个任务的更多图像中吸收信息这避免了4. 记忆约束多任务训练现在我们来谈谈如何处理记忆力的限制，这在训练许多任务时都是一个主要问题。我们建立在内存高效反向传播的最新进展[12，21]，其中一个权衡计算内存，但不牺牲准确性;我们将这些进步适应多任务学习，并开发一种算法，其复杂性与任务数量无关。如图3、反向传播的常见实现在存储器中保持在前向传递期间计算的所有中间层激活;在反向传递中，每一层然后可以将其激活与反向传播的梯度组合，并将梯度发送到其自己的参数和下面的层。存储中间激活通过重用计算的激活信号节省了计算，但需要内存。如果我们考虑到每个层需要N字节的内存用于其激活和梯度信号，并且我们有LC层用于共享CNN主干，T任务，每个任务有LT层，则简单实现的内存复杂度将为GbGbyb78CbCb78LBG1G2G3G4G5G6AB7AB8C1C2C3C4C5C6I A1一个2一个3一个4一个5一个6Ga7嘎嘎嘎8Ca7Ca8L一Aa7Aa8图3：多任务训练的“vanilla”反向传播中的内存使用：查找操作由黑色箭头指示，存储操作分别由用于前向和后向传递的橙色和蓝色箭头指示。在前向传递过程中，每层将其激活信号存储在底部框中。在反向传递期间，这些激活信号与递归计算的梯度信号（顶部框）组合。相反，我们提出了一种算法，该算法权衡了计算时间与内存复杂性，适应[12，21]的工作，以利用我们的多任务设置的特殊性。在第一阶段，如图所示在图4（a）中，我们执行通过网络的公共干线的前向传递，并且存储仅层的子集的激活-对于深度LC的公共干线，存储LC激活，使LC层分开，而以灰色示出的其他中间激活一旦被使用就被丢弃这些存储的激活有助于在网络的更深层开始反向传播，就像计算的锚点一样：如图所示如图4（d，e）所示，任何子网络的反向传播需要激活其最低层，以及其最高层的梯度信号。由于子网的长度为LC，所以主干总共需要2个LC内存单元到目前为止，我们完全沿着[12，21]的路线-这些算法如何将整个多任务网络视为单个处理流水线，这意味着对于T个任务，每个任务的复杂性将增长为L C+TL T。虽然大大降低，但仍然可以-随着任务数量T的增长变得难以管理。然而，我们观察到，在不同任务的分支点（图中的第6层）之后，计算解耦：每个特定于任务的分支可以独立工作，如图所4（b，c），并将梯度信号返回到层6。这些梯度信号是在任务上累积的，因为我们的成本是特定于任务的损失的加性这意味着，一旦每个任务将其梯度信号传送到共享的CNN主干，就可以从内存中删除。对于任务特定的网络深度LT，记忆复杂度从L C+TL T降低到L C+ L T，变为2N（L C+TL T），如图所示。对于L C=6，L T=3，独立于任务的数量。6133−C1C2C3C4C5C6我一个3一个6一个5一个4一个2的1Cb7Cb8LBC1C2C3C4C5我C1C2C3C4C5我Cb7Cb8LBCb7Cb8LBCb7LBCb8Ca7L一Ca8(a) 低记忆正向传递(b) 低内存反向传播-任务aCa7L一Ca8(c) 低内存反向传播-任务b我C1 C3G3G4G5G6C4C5C6一个3一个4一个5C2Ca7L一Ca8(d) 低内存反向传播（4-6）G1G2G3C1C2C3我的1一个2C4C6C5Ca7L一Ca8(e) 低内存反向传播（1-3）图4：低内存多任务反向传播：对于公共主干，我们将激活的一个子集存储在存储器中，作为较小网络上反向传播的“锚”点。每个任务算法的这种修改使我们能够用我们的网络处理越来越多的任务，而不会遇到任何内存问题。使用12GBGPU卡，我们已经能够使用三层金字塔，最大图像大小为921x621，同时对所有网络层，金字塔级别和任务使用跳层连接对于我们目前的任务数量（7），如果没有内存效率选项，可能的最大维度将是321 x321-并且随着更多任务的使用，它只会减少。我们最初使用低分辨率图像或裁剪帧进行了几次实验，并在所有情况下目睹了检测性能的大幅恶化-即平均平均精度从78%下降到67 72%，显然是由于缺少上下文、分辨率差和对象裁剪导致的边界框失真。相比之下，我们的算法避免了空间分辨率和准确性的任何妥协，同时可扩展到任意数量的任务。除了减少内存需求外，我们还通过懒惰评估来减少计算时间：如果训练样本不包含某些任务的地面真值，则这些任务将不会为公共CNN主干贡献任何梯度项。因此，避免了在这种特定于任务的分支上的计算，这导致训练的大幅加速，并且可以帮助扩展到许多任务。5. 实验我们的实验评估有两个目标：第一个是表明，通用的UberNet架构介绍在第二节。2成功地解决了广泛的任务。第二个是探讨更多的任务纳入对个人的任务绩效的影响。关于个人任务性能，我们将主要结果与依赖于VGG网络的方法获得的结果进行了比较[51]。最近的作品，例如。检测[16]和语义分割[10]通过使用更深的ResNets [24]已经显示出改进，但我们认为网络的选择与本节的目标正交。此外，由于我们的系统所处理的任务众多我们在项目网站上提供了不同网络和特定任务选择的结果的广泛介绍，并在这里重点介绍主要的有趣结果。关于多任务性能，我们需要满足(a)一个共同的初始化，和（b）训练集的一个一致的初始化。一个共同的初始化需要我们为卷积标记任务和基于区域的对象检测任务提供参数为此，我们形成了一个特别地，我们使用[10]的网络进行语义分割C6G6一个6Ga7嘎嘎嘎8Ca7Ca8L一Aa7Aa8一个3C6BG7G8ByBCbCb78BLG6AB7AB8一个6一个36134方法地图F-RCNN，[48]VOC 2007++73.2F-RCNN，[48]MS-COCO + VOC 2007++78.8我们的，1-任务78.7我们的，2-任务80.1我们的，7-任务77.8表2：PASCAL VOC 2007测试集的平均精密度（AP）性能（%）网络[48]用于检测，转向（b），一致的训练集构造，我们注意到我们的多任务网络是用与我们想要解决的多个任务相对应的数据集尽管使用更大的特定于任务的数据集可以提高单个任务的性能，但我们只使用与特定任务相关的多任务数据集的子集来例如，人体部分分割需要将PASCAL验证集的一部分放在一边，因为它用于测试部分分割。这牺牲了其他任务的某些特定于任务的性能（例如，检测或语义分割），但便于我们的单任务和多任务训练结果之间的比较。每个数据集使用特定比例的图像，适度地支持高级任务;我们在补充材料中详细说明数据集。5.1. 实验评价目标检测：一个主要的问题是确保我们在目标检测方面具有高性能，因为它是主要的计算机视觉问题之一。我们通过验证我们可以复制[48]的结果来开始我们的实验，同时使用UberNet架构及其所有修改（差异在补充中详细说明在这里，我们使用了上面描述的COCO-D初始化，并在[48]的VOC 2007 ++数据集上进行训练，该数据集由VOC 2007和VOC 2012训练值集的并集组成。如表2的第一行“我们的1-任务”所示然后，我们测量通过联合分割和检测任务的训练获得的网络的性能，如第2节所述。5将作为我们所有后续实验的起点。我们观察到通过对检测和分割进行联合训练，性能的小幅提升，这表明用于语义分割的附加监督信号可以帮助提高检测子网络的性能语义分割：我们考虑的下一个任务是语义分割。尽管已经使用了非常广泛[10]对于最近的比较），我们只与最接近我们自己的方法进行比较，这反过来依赖于[9]的“深大视场（FOV）”架构。表3中报告的双任务架构的结果表明，我们实际上获得了与Deeplab Large-FOV相同的性能。这是非常令人惊讶的，因为对于这个双任务网络，如上所述，我们的起点是一个对于多任务网络性能，我们观察到，随着任务数量的增加，性能下降。尽管如此，即使不使用CRF后处理，我们也会达到一个强大的基线，例如[44]。剩余密集标记和回归任务：从表4-8中为剩余任务提供的结果中，我们观察到类似的行为。也就是说，当在单任务设置中训练时，UberNet架构具有可以直接竞争的性能，或者有时甚至超过最近为单个任务开发的可比较的最先进系统（在[1]中也独立地获得了这些任务中的某些任务的类似结果）。这可以归因于跳过层和多分辨率的使用，其最初在[29，56]中示出以实质上帮助边界检测。然而，当转向七任务架构时，相对于相应的单任务网络，我们通常会有适度但系统性的性能下降。这似乎与双任务网络的实验结果相反，也与多任务训练的一般原则相反，根据该原则，学习解决一项任务可以帮助其他任务的表现然而，我们认为这是可以预期的，因为（a）任务的多样性和（b）我们共同的CNN主干的有限参数我们将在下面更深入地探讨这一点，并在结论中评论可能的补救措施。平衡不同的任务：我们的网络在它所处理的一组任务上的性能取决于分配给等式中不同任务损失的权重。1.一、一个任务的大权重可能会使网络的内部表示偏向于特定任务，而忽略其他任务。为了研究这一点，我们特别关注正态估计任务，这是最有趣的任务之一从表8开始，我们报告了单任务训练案例的多个结果，通过在等式中为正常任务的权重γ t设置不同的值来获得1.一、由于这是在单任务设置中，γ只设置了然而，当移动到七个任务时，性能下降，但仍与[48]的强基线相当。这一点在下文所述的任务中也可以观察到。损失和正规化。我们观察到，γ显著影响性能。大的值导致与当前最先进技术竞争的结果，而低的权重导致与当前最先进技术竞争的结果。6135图5：我们网络的定性结果。前三行表示低级和中级、与类别无关的任务的输出;底部四行表示围绕PASCAL VOC的20个类别开发的高级任务的性能损害性能。现在转向多任务，在表9中，我们报告了当我们增加正常估计任务的权重时性能如何变化（γ=1是默认选项）。尽管语义分割和对象检测的联合训练最初提高了检测精度，但我们现在观察到，任务就像沟通的血管：提高正常的估计会损害其他任务，反之亦然。结果讨论：我们概述了可能的解释，我们的结果和相关的未来研究方向。首先，所发生的事情可以被理解为“灾难性遗忘”的目标检测S. 分割显著性人体部位输入S. 边界表面法线边界6136方法MiouDeeplab -COCO + CRF[44]70.4[29]第二十九话72.1Deeplab多量表-CRF[29]74.8我们的，1-任务72.4我们的，2-任务72.3我们的，7-任务68.7方法地图 MMF[22]第二十二话20.7 28.0高换低[5]47.8 58.7高换低通用报告格式[5]54.6 62.5我们的，1-任务54.3 59.7表 3 ：语义分割： PASCAL VOC2012 测试中的平均交点对并集（IOU）精度。表4：部件分割：数据集上的平均IOU准确度[13]。表5：语义边界检测：PASCAL VOC 2010验证集的平均AP性能（%）和平均最大F-测量评分[22]。方法MF[33]0.764FCN[34]0.793DCL[34]0.815DCL + CRF[34] 0.822我们的，1-任务 0.835我们的，7-任务 0.823方法是说中值11个国家。25○二十二岁5○30○[17]第十七话22.215.338.664.0 73.9VGG-MLP[2]19.812.047.970.0 77.8[53]第五十三话26.914.842.061.2 68.2我们的，1-任务γ=5021.415.635.365.9 76.9方法ODS OISAPHED融合[56]0.790 0.808 0.811多尺度[29]0.809 0.827 0.861[29]第二十九话0.813 0.831 0.866[29]第二十九话0.815 0.835 0.862我们的，1-任务0.791 0.809 0.849我们的，7-任务0.785 0.805 0.837表第六章：显著性估计：PASCAL-S上的最大 F 测量（MF）[35]。表7：边界检测：最大BSD数据集上最佳数据集比例、最佳图像比例和平均精度下的F测量值[40]。表8：正态估计：平均和中值角度距离（弧度）以及在[31]的地面真实值的11.25、22.5和30度内的像素百分比。检测边界显著性部分表面法线S. 边界S. 隔离区地图ODSOISAPMFMiou11个国家。2○二十二岁5○三十0○MF地图Miouγ=177.80.7850.8050.8370.82248.824.252.065.944.348.268.7γ=576.20.7790.8050.8360.82036.723.151.064.933.634.267.2γ= 5073.50.7720.8020.8300.81434.227.757.370.228.633.263.5表9：当针对七个任务进行训练时，用于正常估计损失的权重的影响：提高正常估计的代价是降低剩余任务的性能（对于所有任务来说，越高越好）。当我们重新训练以解决额外的任务时，原始任务的表现会下降。这个问题的补救措施可以包括使用原始模型输出作为监督信号[7，36，52]，或者如[28]中所提倡的，在更新共享参数时考虑其他任务的敏感性。其次，我们的网络除了使用更深的网络之外，我们还可以在跳过层的顶部添加非线性层，或者最后，另一个原因可能是任务的性质高度多样化-例如。正常估计和人体部分分割几乎没有共同之处。多任务学习需要一些任务相关性[4]，并且通常会追求一些相关的任务的自动识别，并且应该相互加强，例如。[27，46]。6. 结论在这项工作中，我们引入了两种技术，使我们能够以端到端的方式训练一个我们已经证明，可以有效地扩展到许多不同的任务，因为内存复杂性与任务的数量无关，并且在训练期间可以组合不相干的注释数据集这使我们能够训练一个可以在几分之一秒内解决多个任务的单一网络，并具有竞争力的性能。我们希望这些进展将使我们能够充分利用CNN在视觉中的多任务学习的好处我们将分享我们的系统方法平均IoUDeeplab L-FOV[54]51.78Deeplab L-FOV-CRF[54]52.95多尺度平均[11]54.91注意[11]55.17自动缩放[54]57.54我们的，1-任务我们的，7-任务51.9848.826137确认这项工作得到了FP 7-RECONFIG、FP 7- MOBOT和H2020-ISUPPORT欧盟项目的支持。感谢G。帕潘德里欧指出了低记忆反向传播，R. Girshick和P. - A. Savalle的代码是这项工作的种子，N。Paragios在这项工作中的支持引用[1] A. Bansal，X.陈湾，澳-地罗素，A. Gupta和D.拉玛南。 Pixelnet ： Towards a general pixel levelarchi-tecture. CoRR，abs/1609.06694，2016。[2] A.班萨尔湾Russell和A.古普塔。Marr修订：经由表面法线预测的2D-3D对准。在Proc. CVPR，2016中。[3] S. 贝尔角L. Zitnick，K.Bala和R.娘娘腔。内外网：用跳跃池和递归神经网络检测上下文中的对象。Proc. CVPR，2016.[4] S.本大卫任务相关性的概念产生可证明的多任务学习保证。M. 学习，2008年。[5] G. Bertasius，J. Shi和L.托雷萨尼高换低和低换高：从深度目标特征中进行有效的边界检测及其在高级视觉中的应用。在Proc. ICCV，2015中。[6] H. Bilen和A.维达尔迪使用循环多任务神经网络的集成感知。在Proc. NIPS，2016中。[7] R.卡鲁阿纳多任务学习。Machine Learning，28（1）：41[8] S.钱德拉和我Kokkinos基于深高斯crfs的快速，精确，多尺度语义图像分割推理在Proc. ECCV，2016中。[9] L. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crfs的语义图像分割。InProc. ICLR，2015.[10] L. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网、无环卷积和全连接的 crfs 进行语义图像分割。 CoRR ，abs/1606.00915，2016。[11] L. Chen，Y. Yang，J. Wang，W. Xu和A. L.尤尔。注意秤：尺度感知的语义图像分割。在Proc.CVPR，2015中。[12] T.陈湾，澳-地Xu，C. Zhang和C. Guestrin.训练具有次线性内存开销的深度网络。 CoRR ，abs/1604.06174，2016。[13] X.陈河，巴西-地Mottaghi，X. Liu，S.菲德勒河Urtasun和A.尤尔。检测你能检测到的：检测和使用整体模型和身体部位来表示对象。在Proc.CVPR，2014。[14] J. Dai，K. He和J. Sun. Boxsup：利用绑定盒来监督卷积网络进行语义分割。在Proc. ICCV，2015中。[15] J. Dai，K. He和J. Sun. 通过多任务网络级联的实例感知语义分割。在Proc. CVPR，2016中。[16] J.戴，Y. Li，K. He和J. Sun. R-FCN：通过基于区域的完全卷积网络进行对象检测。在 Proc.NIPS，2016中。[17] D. Eigen和R.费格斯。使用通用多尺度卷积架构预测深度、表面在Proc. ICCV，2015中。[18] G. Ghiasi和C.C. 福克斯用于语义分割的拉普拉斯在Proc. ECCV，2016中。[19] R. B.娘娘腔。快速R-CNN。在Proc. ICCV，2015中。[20] G.基奥沙里河B. Girshick和J.马利克使用r*cnn进行上下文动作识别。在Proc. ICCV，2015中。[21] A.格鲁斯利斯河穆诺斯岛Danihelka，M. Lanctot和A. Graves.通过时间的内存高效反向传播。CoRR，abs/1606.03401，2016。[22] B. 哈里哈兰山口阿尔韦湖 Bourd ev，S. 玛吉，还有J· 马利克从反向检测器的语义轮廓。InProc.ICCV，2011.[23] B. 哈里哈兰山口阿尔贝拉兹河。Girshick和J. 马力。用于对象分割和细粒度定位的超列。在Proc.CVPR，2015中。[24] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在Proc. CVPR，2016中。[25] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。在Proc.ICML，2015中。[26] A. Kanazawa、A. Sharma和D. W.雅各布斯局部尺度不变卷积神经网络。CoRR，abs/1412.5104，2014年。[27] Z.康，K. Grauman和F.煞学习在多任务特征学习中与谁共享。InICML，2011.[28] J. Kirkpatrick，R. Pascanu，N. C. Rabinowitz，J.快，G。Desjardins、A. A. Rusu，K. Milan ，J.Quan，T. 拉马略A. 格拉布斯卡-巴温斯卡，D. 哈萨比斯，C. Clopath，D. Kumaran和R.哈德塞尔克服神经网络中的灾难性遗忘。PNAS，2017.[29] I. Kokkinos使用深度学习突破边界检测的界限。6138ICLR，2016.6139[30] P. K raühenbuühl和V. 科尔顿具有高斯边势的全连通crfs的有效推理NIPS，2011年。[31] L.拉迪基湾Zeisl和M.波勒菲斯区分训练的稠密表面法线估计。在Proc.ECCV，2014中。[32] Y.勒昆湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。在Proc.IEEE，1998中。[33] G. Li和Y. Yu.基于多尺度深度特征的视觉显著性。在Proc.CVPR，2015中。[34] G. Li和Y. Yu.用于显著对象检测的深度对比度学习。在Proc. CVPR，2016中。[35] Y. Li，X.侯角，澳-地Koch，J. M. Rehg，和A. L.尤尔。显着对象分割的秘密。在Proc. CVPR，2014。[36] Z. Li和D.霍伊姆学而不忘。在欧洲计算机视觉会议- ECCV，第614-629页[37] G.林角，澳-地申岛D. Reid和A.范登亨格尔。用于语义分割的深度结构化模型的高效分段训练CVPR，2016年。[38] W. Liu，中国粘蝇A. Rabinovich和A. C.伯格。Parsenet ：看得更宽，看得更好。 CoRR ，abs/1506.04579，2015年。[39] J.朗，E. Shelhamer和T.达雷尔。用于语义分割的全卷积网络。在Proc.CVPR，2015中。[40] D.马丁角，澳-地Fowlkes，D.塔尔和J·马利克人类分割自然图像数据库及其在评估分割算法和测量生态统计中的应用。InProc. ICCV，2001.[41] I. Misra、A.什里瓦斯塔瓦A. Gupta，和M。赫伯特多任务学习的十字绣网络在Proc. CVPR，2016中。[42] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。CoRR， abs/1603.06937，2016。[43] H. Noh，S.Hong和B.韩用于语义分割的学习在Proc. ICCV，2015中。[44] G. 帕潘德里欧湖Chen，K.Murphy和A.L. 尤尔。用于语义图像分割的DCNN的弱和半监督学习在Proc. ICCV，2015中。[45] G. 帕潘德里欧岛Kokkinos，和P.萨瓦尔深度学习中的局部和全局变形建模：外延卷积、多实例学习和滑动窗口检测。在Proc.CVPR，2015中。[46] A. Pentina、V.Sharmanska和C. H.蓝伯特多任务的即时学习。在Proc.CVPR，2015中。[47] R. Ranjan，V. M.帕特尔和R。切拉帕Hyperface：一个深度多任务学习框架，用于人脸检测、地标定位、姿势估计和性别识别。 CoRR ，abs/1603.01249，2016。[48] S. Ren，K.赫利河B. Girshick和J.太阳更快的R-CNN：实现区域建议网络的实时对象检测。在Proc.NIPS，2015中。[49] O.龙内贝格山口Fischer和T.布洛克斯U-net：用于生物医学图像分割的卷积网络。在Proc.MICCAI，2015中。[50] P. Sermanet ， D.Eigen ， X.Zhang ， M. 马蒂厄河Fergus和Y.乐存。优势：使用卷积网络集成识别、定位和检测。InProc. ICLR，2014.[51] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。InProc. ICLR，2015.[52] S. Thrun和T. M.米切尔终身学习机器人。Roboticsand Autonomous Systems，15（1-2）：25[53] X. Wang，中国山杨D. F. Fouhey，和A.古普塔。设计用于表面法线估计的深度网络在Proc.CVPR，2015中。[54] F. Xia，P. Wang，L. Chen和A. L.尤尔。放大以看得更清楚：人体部分分割与自动缩放网络。在Proc. ECCV，2016中。[55] S. 谢河，巴西-地B. Girshick ，P. 多拉尔，Z。Tu和K. 他外深度神经网络的聚合残差变换。在CVPR，2017年。[56] S. Xie 和 Z. 涂。

下载后可阅读完整内容，剩余1页未读，立即下载