多任务学习中的调制模块及其在图像检索中的应用

122 浏览量更新于2023-10-13 收藏 901KB PDF 举报

图像检索

学习效率

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

多任务学习的调制模块及其在图像检索赵翔云1好香里2号沈晓辉3号小单两4号英武一号1西北大学2AIBee3字节跳动AI实验室4卡内基梅隆大学抽象。在许多计算机视觉任务中，已经广泛采用多任务学习来提高总体计算效率或提高单个任务的性能，假设这些任务是相互关联和然而，任务之间的关系在实践中是复杂的，特别是当涉及的任务的数量按比例增加时。当两个任务具有弱相关性时，它们可能在共享参数的联合训练期间竞争甚至分散彼此，并且因此破坏所有任务的学习。这将增加相消干扰，这降低了共享参数的学习效率，并导致低质量损失局部最优值w.r.t.共享参数为了解决这个问题，我们提出了一个通用的调制模块，它可以插入到任何卷积神经网络体系结构中，以鼓励相关任务的耦合和特征共享，同时通过添加较小的参数来分解不相关任务的学习配备该模块，可以强制不同任务的梯度方向对于那些共享参数是一致的，这有利于多任务联合训练。该模块是端到端可学习的，无需为特定任务进行特别设计，并且可以自然地同时处理许多任务。我们将我们的方法应用于两个检索任务，即CelebA数据集上的人脸检索[12]和UT-Zappos 50 K数据集上的产品检索[34，35]，并证明了其在准确性和存储效率方面优于1介绍多任务学习旨在通过同时联合学习多个任务来提高学习效率和提高单个任务的表现。随着基于深度学习的方法最近在各种计算机视觉任务中的流行，多任务学习通常被实现为统一卷积神经网络架构中的某些中间层中的参数共享[33，19]。然而，这样的特征共享仅在任务相互关联和互补时才起作用。当两个任务不相关时，它们可能在特征学习期间提供竞争甚至矛盾的梯度方向比如学习预测人脸属性部分工作是在赵祥云在Adobe Research实习时完成的，当时他接受了李浩翔和沈晓辉的建议。2X. Zhao，H.Li，X.Shen，X.Liang，Y.吴微笑张口年轻Fig. 1. 多任务学习中的冲突训练信号：当联合学习多个人脸属性的区别特征时，一些样本可能在更新共享模型参数时引入冲突的训练信号，例如“微笑”与“微笑”。“张开嘴”和“年轻”的不同由于网络被监督在一个任务中产生附近的嵌入，而在另一个任务中产生遥远的嵌入，因此共享参数会得到冲突的训练信号。它类似于物理学中的相消干涉问题，其中两个相同频率和相反相位的波相互抵消。这将使联合训练更加困难，并对所有任务的执行产生负面影响。虽然这个问题在文献中很少被发现，但许多现有的方法实际上都是为了减轻多任务学习中的破坏性干扰例如，在流行的多分支神经网络架构及其变体中，任务特定的分支是利用关于某些任务的关系的先验知识精心设计的通过这样做，人们期望共享参数的冲突较少的训练信号然而，很难将这些特定的设计推广到关系可能不同的其他任务，或者扩展到更多的任务，例如同时对超过20个面部属性进行分类，其中任务关系变得更加复杂并且研究得较少。为了克服这些限制，我们提出了一种新的调制模块，它可以插入到任意的网络架构，并通过端到端的训练学习它可以鼓励相关任务共享更多的特征，同时分离不相关任务的特征学习。在训练信号的反向传播中，它调制来自不同任务的梯度方向，以使这些共享参数更加一致;在前馈过程中，它将特征调制到任务特定的特征空间。由于它不需要任务之间的关系的先验知识一个相关的工作是[24]，它试图增加模型容量而不按比例增加计算。为了验证所提出的方法的有效性，我们应用神经网络中的调制模块来学习多个属性的特征嵌入，并在不同的检索任务上评估学习到的特征表示。特别是，我们首先提出了一个联合训练框架与几个嵌入式调制模块的学习多个人脸属性，并评估属性特定的脸检索结果CelebA数据集。此外，我们提供了深入的分析任务的关系和能力的建议模块，以促进相关的多任务学习的调制模块及其在图像检索中的应用3任务，同时解耦不相关的任务。实验结果表明，我们的方法的优势是更显着的更多的任务，显示其泛化能力，以更大规模的多任务学习问题。与现有的多任务学习方法相比，所提出的模块学习改进的特定于任务的功能，并支持一个紧凑的模型的可扩展性。我们进一步将所提出的方法应用于UT-Zappos 50 K数据集上的产品检索，并证明了其优于其他最先进的方法。总的来说，这项工作的贡献有四个方面：– 我们解决了多任务学习中不相关任务的破坏性干扰问题，这在以前的工作中很少讨论。– 我们提出了一种新的调制模块，是通用的和端到端的学习，自适应耦合相关的任务，同时解耦不相关的特征学习。– 与较小的任务特定的开销，我们的方法支持可扩展的多任务学习，而无需手动分组的任务。– 我们将该模块应用于多属性的特征学习，并证明了其在检索任务上的有效性，特别是在大规模问题上（例如，多达20个属性被联合学习）。2相关工作2.1多任务学习在许多先前的工作中已经观察到，多个相关任务的联合学习可以帮助提高它们中的每一个的性能，例如，通过面部对齐学习面部检测[19，37]，通过分割学习对象检测[4，2]，以及通过深度估计学习语义分割[15，29]。虽然这些作品主要研究什么相关的任务可以共同学习，以互惠互利，我们反而调查一个适当的联合培训计划，任何任务，而不假设他们的关系。许多研究工作致力于利用联合训练相关任务之间的相关性例如，Jou et al.[8]提出了深度交叉残差学习，以引入交叉残差连接作为网络正则化的一种形式，以实现更好的网络泛化。Misra et al.[14]提出十字绣网络，以结合来自多个特定任务网络的激活，以更好地进行联合训练。Kokkinos等人[9]提出UberNet通过在深度CNN中从不同阶段分支出特定于任务的路径来联合学习低级，中级和高级视觉任务大多数多任务学习框架（如果不是全部的话）涉及跨任务共享的参数和特定于任务的参数。在类似任务之外的联合学习中，期望自动发现在任务之间共享什么以及如何共享。沿着这条线最近的作品包括Lu et al.[13]，他们提出自动发现神经网络设计，以将类似的任务分组在一起; Yang等人[32]，他将这个问题建模为张量因式分解，以学习如何在任务之间共享知识;和Veit et al.[26]，他们提出共享所有神经网络层，但根据属性/任务不同地掩蔽最终图像特征。4X. Zhao，H.Li，X.Shen，X.Liang，Y.吴与这些现有的工作相比，在本文中，我们明确地识别的问题，破坏性的干扰，并提出了一个度量来量化。我们的观察进一步证实了它与学习特征质量的相关性。此外，我们提出的模块是端到端的学习和灵活的插入到现有的网络架构的任何地方因此，我们的方法可以进一步增强从Lu等人的算法学习的结构[13]以改善其次优的组内分支。与Yang等人的张量分解法相比。[32]，我们的模块是轻量级的，易于培训，并与一个小的和负责任的开销，包括额外的任务。条件相似的网络[26]与我们的方法在存储效率方面共享这种理想的可扩展性特征。然而，由于它们不考虑最终特征层以外的层中的相消干涉问题，因此我们根据经验观察到，对于许多任务，他们的方法在精度上没有很好地扩展（参见第4.2节）。2.2图像检索在这项工作中，我们评估我们的方法与应用程序的图像检索。图像检索在计算机视觉中已被广泛研究[17，25，27，28，7，16]。我们不研究图像检索中的效率问题，因为在许多以前的作品[28，11，7，16]。相反，我们专注于学习区分特定于任务的图像特征，以实现准确的检索。本质上，我们的方法与如何提取有区别的图像特征有关。在深度学习时代，特征提取是一个非常重要和基础的研究方向。从早期开创性的AlexNet [10]到最近开创性的ResNet [5]和DenseNet [6]，神经网络的有效性和效率得到了很大的提高。这条研究线的重点是设计更好的神经网络架构，这是独立于我们的方法。通过设计，我们的算法可以潜在地受益于更好的骨干架构。另一个重要的相关研究领域是度量学习[31，21，30，23]，其主要关注于设计优化目标以找到最大化类间距离同时最小化类内距离的度量它们通常等同于学习判别子空间或特征嵌入。其中一些已被引入深度学习作为损失函数，以更好地进行特征学习[22，3]。我们的方法是通过设计不可知的损失函数，我们可以潜在地受益于更复杂的损失函数，以学习更多的判别图像特征的所有任务。在我们的实验中，由于其简单性，我们使用三重态损失[22]。3我们的方法在本节中，我们首先确定多任务学习共享特征中的相消干扰问题，然后介绍我们的调制模块的技术细节来解决这个问题。3.1相消干涉尽管多任务神经网络可以有许多变体，涉及不同任务组合的学习，但基本技术是共享中间层。多任务学习的调制模块及其在图像检索中的应用5′fconv模块conv模块conv......这是什么？模块FC模块任务标签图二. 完全由我们提出的模块调制的神经网络：在测试中，网络将输入作为图像和任务标签，以提取用于指定任务的区分性图像特征。微笑Acc.开口Acc.年轻的Acc. 微笑/年轻的UCR微笑/开口UCR微笑+年轻+张开嘴（a）84.71%74.73%71.6%--微笑+年轻（b）百分之八十三点八五-74.71%22.1%-微笑+张开嘴（c）91.72%92.65%--43.71%三个独立的网络（d）百分之九十三点三二94.40%84.90%--采用拟定调制（e）94.03%95.31%86.20%50.63%52.77%使用拟定调制+Reg（f）94.94%95.58%87.75%--表1. 三个基于人脸属性的检索任务的准确度和UCR比较（详情见第4.1节）：该比较经验上支持了我们对破坏性干扰问题的分析以及可以从数据中学习合理的任务特定调制参数的假设针对不同任务，选择网络参数，并通过梯度下降法与来自不同任务的所有监督信号联合训练从该常见方案中提出的一个问题是，两个不相关或弱相关的任务可能在冲突或甚至相反的方向上拖动从不同任务因此，学习共享参数可能遭受公知的相消干涉问题。形式上，我们将θ表示为神经网络F在不同任务上的参数I作为其输入，并且f = F（I|θ）作为其输出。θ的更新遵循其梯度：L其中L是损失函数。θ=f、（1）在多任务学习中，θ将由来自不同任务的梯度更新。本质上，L指导θ的学习。在常见情况下，区别性损失通常鼓励fi和fi对于来自相同类别的图像Ii和Ij然而，在多任务学习中，Ii和Ij的关系在训练所有这些任务时，θ的更新方向可能会发生冲突，这就是相消干涉问题。更具体地说，给定来自任务t和t′的一小批训练样本，<$θt+<$θt′，其中<$θt/t′表示来自任务t/t的样本的梯度。两个任务的梯度会对彼此的学习产生负面影响，当At，t′=sign（θt，θt′）=−1。（2）相消干涉阻碍了共享参数的学习，并且6X. Zhao，H.Li，X.Shen，X.Liang，Y.吴sentially导致低质量损失局部最优w.r.t.共享参数多任务学习的调制模块及其在图像检索中的应用7经验证据我们验证了我们的假设，通过玩具实验，共同学习的多个基于属性的人脸检索任务。关于实验设置的更多细节可以在第4.1节中找到。直觉上，微笑属性与张嘴属性有关，而与致敬小5无关.如表1所示，当我们在不同任务之间共享神经网络的所有参数时，与训练三个独立的任务特定网络相比，联合训练任务时的结果会降低。联合训练微笑和年轻时的退化比联合训练微笑和张开嘴时的退化显著得多。这是因为即使两个任务是相关的，也总是存在来自一些训练样本的一些冲突梯度，并且显然当两个任务具有弱相关性时，冲突变得更加频繁，使得联合训练无效。为了进一步理解学习如何导致上述结果，我们遵循等式2通过查看一个训练时期中具有At，t’>0的小批次的比率来定量估计任务对的兼容性。因此，我们将此比率定义为更新遵从率（UCR），它衡量两个任务的一致性。越大UCR越高，联合训练中两项任务越一致如表1所示，在微笑和张嘴的联合学习中，我们观察到与微笑和年轻的联合学习相比更高的相容性，这解释了从（b）到（c）的准确性差异。(c)表1中将（e）与（b）和（c）进行比较，精度提高伴随着UCR提高，这解释了所提出的模块如何提高整体性能。随着我们提出的方法如下所述，我们观察到两个任务对的UCR增加。3.2调制模块大多数多任务学习框架涉及任务特定参数和共享参数。在这里，我们引入了一个调制模块作为一个通用的框架，以添加特定于任务的参数，并将其链接到相消干扰的缓解。更具体地说，我们建议使用任务t的任务特定投影矩阵Wt来调制特征图。如图2所示，该模块维护特征图的大小，以使其与网络架构中的向下层兼容下面我们将讨论这种设计如何影响反向传播和前馈传递。反向传播在反向传播中，当来自两个任务t和t’在共享参数θ上的梯度具有在冲突方向上的分量时，发生相消干涉，即，⟨∇θt,∇θt′⟩0.< 可以简单地推导出，所提出的对特征图的调制等效于用任务特定的掩码Mt/t’调制共享参数。利用所提出的调制，对θ的更新现在是Mtθt+Mt′θt′。由于任务特定的掩码/投影矩阵是可学习的，因此我们观察到训练过程将通过减小跨任务的平均梯度角来自然地减轻相消干扰，这被观察到导致共享参数的更好的局部最优。5这里的属性指的是从给定的面部图像的估计。8X. Zhao，H.Li，X.Shen，X.Liang，Y.吴不X=MNIMNCXX'MMNN层i第i+1CC任务tWt给定尺寸为M×N×C的特征映射x和调制投影矩阵W，我们有x′=W×x，（3）其是到下一层的输入。全投影矩阵将需要大小为MNC × MNC的Wt，这在实践中是不可见的，并且调制将退化为具有全投影矩阵的完全分离的分支。因此，我们首先简化Wt 以在每个通道内具有共享元素。对于任意 y ， W={wi ， j} ， {i ，j}∈{1，. . . ，C}′MNIΣCj=1xmnj*wi，j，（4）其中，x′、xmni和wij表示来自输入、输出特征图和Wt的元素分别为了简单起见，我们忽略订阅t。这里，W实际上是逐通道投影矩阵。如图2所示，我们可以通过将Wt简化为具有大小C的逐通道缩放向量Wt来形式上，W ={wc}，c ∈ {1，. . . ，C}。′MNC=xmnc （5）第一章其中x′并且X_mnc分别表示来自输入和输出特征图的元素。活泼地与逐通道缩放向量设计相比，我们凭经验观察到来自逐通道投影矩阵设计的总体改进是边际的，因此我们将主要讨论和评估更简单的逐通道缩放向量选项。这个模块可以通过添加特定于任务的线性转换来轻松实现，如图3所示。图三. 所提出的调制模块的结构，其通过关于每个任务的学习权重来适应特征。该模块可以插入任何层之间并维护网络结构。X多任务学习的调制模块及其在图像检索中的应用93.3培训通过反向传播与神经网络参数一起学习调制参数Wt在本文中，我们使用三重态损失[22]作为优化的目标。更具体地，给定来自不同任务的一组三元组（Ia，Ip，In，t）∈T，ΣL=[fa−fp<$2+α−fa−fn<$2）]+（6）不fa，p，n=F（Ia，p，n|θ，Wt））（7）其中α是正对和负对之间的期望距离裕度，Ia是锚样本，Ip是正样本，In是负样本，并且t是任务。当训练具有区分性损失的神经网络时，我们认为通过将调制模块引入神经网络，它将学习利用额外的旋钮来解耦不相关的任务并耦合相关的任务以最小化训练损失。在表1所示的玩具实验中，我们主要表明我们的方法可以超越完全独立的学习。减少了冲突的小，如表1所示的训练中的批次也验证了我们的设计。习得的W*隐含地捕捉了任务之间的关系我们得到了Ws，Wy和Wo分别代表微笑、年轻、张开的嘴那么元素差异Ws与Wo之间的关联度为Ws，o，Ws与Wy之间的关联度为Ws，y。Ws，o的均值和方差分别为0.18和0.03，而我们通过引入额外的正则化损失来编码关于任务的相关性的人类先验知识，我们假设，与年轻人相比，学习过的微笑的W与张开嘴的W更相似。我们将相关任务对正则化以具有类似的任务特定W，其中La=max（0，Wi−Wj2+β−Wi−Wk2）（8）其中β是预期裕度，i，j，k表示三个任务，并且任务对（i，j）被认为与任务对（i，k）相比更相关。Lα由超参数λ加权，并与训练中的样本上的上述三重态损失组合如表1所示，我们的方法的准确性增强了这种正则化损失，但差距只是边缘。这表明，在没有通过损失编码先验知识的情况下，学习的W可以以类似的方式隐式地捕获任务关系。另一方面，当任务数量增加时，手动定义所有成对关系是不切实际的，因此我们在大规模实验中忽略了这种正则化损失。4实验在实验中，我们评估了我们的方法在人脸检索和产品检索任务上的性能。10X. Zhao，H.Li，X.Shen，X.Liang，Y.吴名称操作输出大小conv13×3卷积148×148 × 32Block2 Conv-Pool-ResnetBlock73×73 × 64block3 Conv-Pool-ResnetBlock35×35 × 128区块4 Conv-Pool-ResnetBlock16×16 × 128区块5 Conv-Pool-ResnetBlock7×7 × 128FC全连接256表2. 我们的基本神经网络架构：Conv-Pool-ResnetBlock代表一个3×3的conv-layer，后面是一个stride 2的池化层，一个标准的残差块由2个3×3的conv-layer组成。4.1设置在这两种检索设置中，我们将任务定义为基于面部或产品的特定属性的检索两个数据集都有每个属性的逐图像注释为了定量评估的方法下的检索设置，我们随机抽样图像三元组从他们的测试集作为我们的基准。每个三联体由锚样本Ia、阳性样本Ip和阴性样本In组成。给定一个三元组，我们从Ip和In中检索一个样本，如果Ip是优选的，则认为它是成功在我们的方法中，我们提出的网络和测量图像对距离的特征的欧氏距离提取判别特征准确性度量是成功检索的三联体的比率。除非另有说明，否则我们使用表2中的神经网络架构来我们的方法，我们对其他最先进方法的重新实现，以及我们的基线方法。我们将提出的调制模块添加到从块 4 到最后一层的所有层，并使用ADAGRAD [1]在学习率为0的训练中进行优化。01.我们将所有添加的模块中的参数统一初始化为1。我们使用180的批量大小用于20个任务，168用于7个任务的联合训练。在每个小批处理中，我们为所有任务均匀采样三元组。我们的方法通常在40个epoch后收敛。4.2人脸检索数据集我们使用Celeb-A数据集[12]进行人脸检索实验。Celeb-A由超过200，000个面部图像组成，其中对与年龄、表情、装饰等相关的40个面部属性进行了二进制注释。我们选择了20个与面部外观更相关的属性，并忽略了眼镜和帽子等装饰周围的属性进行实验。我们还报告了40个属性的结果，以验证40个属性的有效性我们随机抽取了30000个三胞胎进行训练，10000个三胞胎进行测试。我们的基本网络架构如表2所示我们通过插入我们的梯度调制模块来增强它，并从头开始训练。多任务学习的调制模块及其在图像检索中的应用11研究方法：我们CSNITNFSN公司简介IB-25只是掩盖平均精度84.86% 72.81% 84.61% 69.4% 83.69% 75.47%76.32%数量基线参数3米3米3米3米3米3米3米数量附加参数10K3K51个月01 .一、3米128K10K微笑93.77% 75.59% 百分之九十三点三二78.83% 92.76% 82.91%87.64%阴影94.67% 92.83% 百分之九十二点二五85.39% 92.83% 88.02%86.41%光头91.83% 87.80% 90.70% 81.79% 89.47% 78.11%88.42%眉毛78.36% 63.94% 79.60% 66.19% 76.84% 66.00%72.10%胖乎乎百分之九十点二85.32% 87.29% 79.06% 88.66% 82.79%85.39%双下巴91.45% 85.61% 89.57% 81.15% 89.92% 83.08%87.19%高颧骨88.53% 71.25% 88.93% 74.57% 87.25% 76.53%82.80%山羊胡子94.47% 90.66% 94.06% 83.48% 94.17% 84.68%91.52%胡子93.41% 89.21% 93.23% 82.40% 93.21% 87.52%89.89%无胡须的93.84% 82.35% 93.69% 80.52% 百分之九十三点九八86.51%85.69%鬓角百分之九十五点二七百分之九十点九五94.88% 86.20% 95.04% 88.81%91.85%刘海百分之九十点二二71.91% 89.96% 69.96% 89.13% 78.75%80.34%板寸72.98% 63.31% 73.24% 61.70% 71.98% 62.33%65.47%波浪毛76.59% 59.34% 76.10% 59.49% 75.62% 64.04%65.11%后发线87.33% 75.63% 86.93% 72.02% 86.24% 百分之八十点一七79.94%眼袋85.90% 76.39% 85.93% 72.39% 84.64% 76.01%82.05%浓眉88.73% 79.22% 88.32% 74.52% 88.44% 80.50%80.50%年轻84.87% 60.61% 84.90% 61.55% 83.48% 73.05%66.23%椭圆面72.21% 64.33% 71.52% 63.54% 70.16% 62.10%65.10%张口位94.59% 87.32% 94.40% 72.71% 92.22% 89.03%86.59%表3. 20个人脸属性联合训练的准确率对比：与竞争方法相比，我们的方法在20个任务上以少得多的参数实现了最好的平均精度。12X. Zhao，H.Li，X.Shen，X.Liang，Y.吴微笑椭圆面阴影光头弧眉厚嘴唇的大鼻子微笑-51.56/48.47 67.70/26.33 67.82/32.30 52.32/45.40 54.83/49.49 58.72/45.25椭圆面51.56/48.47-67.36/26.94 64.99/35.29 57.86/50.13 57.74/49.32 54.98/46.64阴影67.70/26.33 67.36/26.94-91.67/30.54 66.87/26.48 72.51/28.25 69.90/29.99光头67.82/32.30 64.99/35.29 91.67/30.54-61.74/31.67 67.60/36.22 72.66/41.04弧眉52.32/45.40 57.86/50.13 66.87/26.48 61.74/31.67-58.86/51.13 50.34/41.43厚嘴唇的54.83/46.49 57.74/49.32 72.51/28.25 67.70/36.22 58.86/51.13-55.20/46.84大鼻子58.72/45.25 54.98/46.64 69.90/29.99 72.66/41.04 50.34/41.43 55.20/46.84-表4. 使用我们的方法（红色）和完全共享的网络基线（黑色）联合训练七个面部属性的不同任务之间的UCR比较：我们用我们的方法定量地证明了相消干扰的减轻。多任务学习的调制模块及其在图像检索中的应用13结果我们在表3中报告了我们对以下方法的评价：– 我们的：我们将建议的调制模块插入到表2中的网络的block 4，block 5和fc层，并与来自20个任务的所有训练三元组联合训练它– 条件相似网络（CSN），Veit et al.[26]：我们遵循来自作者的开源实现，用我们的网络架构替换网络架构，并与来自20个任务的所有训练三元组联合训练它;– 独立任务网络（ITN）：在这个强基线中，我们训练了20个任务特定神经网络，每个任务独立训练三元组;– 单个完全共享网络（FSN）：我们用所有训练三元组训练一个网络– 独立分支256（IB-256）：基于共享参数，我们添加具有特征大小256的任务特定分支。– 独立分支25（IB-25）：基于共享参数，我们添加特征大小为25的任务特定分支。– 唯一掩码：我们的网络是从独立分支模型中预训练的，共享参数是固定的，只学习模块参数。面属性：微笑椭圆面阴影光头弧眉厚嘴唇的大鼻子平均精度单个全共享网络78.39% 64.39% 79.55% 77.62%69.17%61.71% 68.88%71.38%独立特定任务网络百分之九十三点三二71.52% 百分之九十二点二五90.70%79.60%67.35% 84.35%82.72%CSN91.39% 68.41% 92.51% 百分之九十点七九77.53%65.79% 82.03%81.20%我们的（来自block5） 93.35% 70.47% 90.44% 88.79%77.12%66.36% 83.84%81.48%我们的（来自block4） 93.69% 71.44% 92.06% 90.66% 百分之八十 67.15% 84.26%82.75%我们的（来自block3） 93.83% 71.04% 93.28% 90.66%79.76%67.53% 84.76% 82.98%我们的（来自block2） 94.11% 71.94%92.5% 90.70%78.66%66.36% 84.10%82.62%通道投影(from块4）94.10% 71.98% 92.69% 90.58%78.95%66.78% 84.48%82.79%表5. 我们方法的消融研究：通过所提出的方法调制更多的层，性能通常得到改善;逐通道投影模块比默认的逐通道缩放向量设计稍微好一些。如表3所示，单全共享网络和CSN严重遭受相消干扰注意，当联合训练仅7个任务时，CSN比完全共享网络执行得好得多，并且与具有如表5所示的但是，它不能扩展到处理多达20个任务。由于大多数参数在最后一层之前都是在任务之间简单地共享的，因此CSN仍然受到破坏性干扰的影响。然后，我们将我们的方法与独立分支方法进行比较。独立分支方法在共享参数之上简单地添加特定于任务的分支的14X. Zhao，H.Li，X.Shen，X.Liang，Y.吴IB-25和IB 256的分支开始于表2中基线模型的末尾，即，不同的属性在FC层之后具有不同的分支如表3所示考虑到附加参数的数量，我们观察到，为了近似我们的方法的精度，该基线需要大约1。3M任务特定参数，是我们的100倍比较表明，我们的模块是更有效地利用额外的参数预算。任务：类闭合性别鞋跟平均准确率单一全共享网络78.95% 80.33% 69.22% 73.35%75.46%独立的特定任务网络92.01% 89.12% 79.10% 85.97%86.61%CSN [26]93.06% 89.37%78.0986.42%86.73%我们93.34% 90.57% 79.50% 89.27%88.17%表6. UT-Zappos 50 k上4个产品检索任务联合训练的准确性比较：我们的方法明显优于其他方法。与独立训练的特定任务网络相比，我们的方法以几乎少20倍的参数实现了略好的平均准确率。值得注意的是，我们的方法取得了明显的改善，为两个脸型相关的属性（胖乎乎的，双下巴）和所有三个胡子相关的属性（山羊胡子，胡子，鬓角），这表明，该方法不仅解耦无关的任务，但也自适应耦合相关的任务，以提高他们的学习。我们在图4中显示了一些重新评估结果的示例。我们在表4中报告了更新依从率（UCR）比较我们的方法显着提高了UCR在联合训练的所有任务对。这表明，所提出的模块是有效的，在减轻破坏性的干扰，通过引导梯度共享参数从不同的任务是更加一致的。为了进一步验证改进的来源是来自更好的共享参数，而不是简单的附加任务特定参数。我们保持我们的共享参数固定为使用强基线IB-256训练的参数，并且仅使调制模块可训练。如表3中的最后一列所报告的，结果不如我们的完整管道，这表明所提出的模块改进了共享参数的学习。为了验证我们的方法对40个属性的有效性，我们评估了我们的方法对40个属性，并获得平均85.75%，这是显着优于我们的基线IB-25的78.22%，具有相同的网络复杂性，但具有独立的分支。消融研究在表5中，我们评估了当我们将更多调制模块插入网络时性能如何演变。通过将所提出的模块添加到块N（N=5、4、3、2）之后的所有层，我们观察到性能通常随着更多的层被调制而增加。这与我们的直觉是一致的，即随着梯度在更多层中被调制，破坏性推理问题得到了更好的解决因为多任务学习的调制模块及其在图像检索中的应用15神经网络中的早期层通常学习在广泛的任务范围内共享的原始滤波器[36]，共享参数可能不会受到冲突更新的影响。因此，性能改进最终饱和。我们还在如第3.2节中所介绍的所提出的模块中用逐通道投影矩阵代替逐通道缩放向量进行我们观察到更复杂模块的边际改进，如表5的最后一行所示。这表明，潜在地在更多参数被调制的情况下，整体性能以额外的任务特定参数为代价而改善。它还表明，所提出的逐通道缩放向量设计是一种具有成本效益的选择。4.3产品检索数据集我们使用UT-Zappos 50 K数据集[34，35]进行产品检索实验。UT-Zappos50 K是一个大型鞋数据集，由从网络上收集的50，000多个目录图像组成。这些数据集有丰富的注释，我们可以根据鞋子的类型、建议的性别、鞋跟的高度和闭合机制来检索鞋子。我们在实验中共同学习这四个任务。我们遵循与Veit等人相同的训练、验证和测试集分割。[26]第二十六话三个人的故事结果如表6所示，我们的方法明显优于所有其他竞争方法。因为CSN手动初始化每个属性的1维掩码为非重叠，所以当两个任务相关时，他们的方法不能很好地利用它们的相关性。我们认为，天真地共享所有任务的功能可能会阻碍CSN的进一步改善，由于不同的任务之间的梯度差异在我们的方法中，建议的模块插入到网络中，并有效地利用不同任务的相关性。特别是对于脚跟任务，我们的方法获得了近3点的增益超过CSN。请注意，因为我们的网络架构比Veit等人使用的网络架构简单得多。[26]并且不在ImageNet上进行预训练。这些数字通常与他们论文中报告的数字不一致。5讨论5.1普遍适用性本文主要讨论多任务学习在图像检索中的应用，其中每个任务具有相似的网络结构和损失函数。通过设计，所提出的模块不限于特定的损失，并且应该适用于处理不同的任务和不同的损失函数。在一般的多任务学习中，每个任务可能有其专门设计的网络架构和自己的损失，例如人脸检测和人脸对齐[19，37]，学习对象检测和分割[4，2]，学习语义分割和深度估计[15，29]。来自不同任务的信号也可能是明显冲突的，并导致严重的破坏性干扰，特别是当联合学习任务的数量当发生这种严重的破坏性干扰时，可以添加所提出的模块来调制更新方向以及任务特定的特征。我们把它作为我们未来的工作，通过实验来验证这个假设16X. Zhao，H.Li，X.Shen，X.Liang，Y.吴CSN我们查询面按距离升序排列的面查询(a) 微笑CSN我们查询面按距离升序排列的面查询(b) 鬓角见图4。示例面部检索导致两个任务：使用分别用CSN和我们的方法联合训练的20个人脸属性的模型。一些排名不正确的面将以红色亮显5.2速度和内存大小的权衡类似的多分支架构，可以说是最多的多任务学习框架的作品，我们的方法共享的问题，运行时的速度和内存大小权衡推理。人们可以选择将所有特定于任务的特征图保存在内存中，以在一次通过中完成所有预测，或者通过网络从共享特征图迭代前馈然而，我们应该强调的是，我们的方法可以在存储中使用更紧凑的模型来实现更好的准确性。无论是一个单一的通过推理或迭代推理可以是可行的与我们的方法。由于大多数计算发生在推理的早期阶段，因此使用所提出的模块，我们的方法在前馈时间中仅增加了15%的开销block4之后的特征图比早期阶段的特征图要小得多，因此增加的内存占用对于20个任务来说也是可持续的。6结论在本文中，我们提出了一个多任务学习的调制模块。我们确定了破坏性的干扰问题，在联合学习的不相关的任务，并建议量化它与更新合规率。所提出的模块通过调制反向传播中的梯度方向来缓解这个问题，并通过利用相关任务来帮助提取更在CelebA数据集和UT-Zappos 50 K数据集上的实验验证了该方法的有效性和优越性。致谢本工作部分得到了美国国家科学基金会资助IIS-1217302、IIS-1619078、陆军研究办公室ARO W 911 NF-16-1-0138和Adobe协作基金的支持。多任务学习的调制模块及其在图像检索中的应用17引用1. Duchi，J.，Hazan，E.，辛格，Y.：在线学习和随机优化的自适应次梯度方法。Journal of Machine Learning Research12（Jul），21212. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的要素层次结构，以实现精确的对象检测和语义分割。计算机视觉与模式识别（2014）3. 哈德塞尔河Chopra，S.，LeCun，Y.：通过学习不变映射来降维。在：计算机视觉和模式识别，2006年IEEE计算机学会会议上。第2卷，第1735-1742. IEEE（2006年）4. 他，K.，Gkioxari，G.，Dollar，P.，Girshick，R.：面具R-CNN。在：IEEE计算机视觉国际会议（ICCV）（2017年10月）5. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：IEEE计算机视觉和模式识别会议的进展。pp. 770-778（2016年）6. Huang，G.，刘志，范德马滕湖，Weinberger，K.Q.：密集连接的卷积网络。IEEE计算机视觉与模式识别会议（CVPR）（2017年7月）7. Jegou，H.，Douze，M.，Schmid，C.：最近邻搜索的乘积量化。IEEE transactions onpattern analysis and machine intelligence33（1），1178. Jou，B.，Chang，S.F.：多任务视觉识别的深度交叉残差学习。In：Pro-2016年ACM多媒体会议pp. 998-1007 ACM（2016）9. 科基诺斯岛：Ubernet：使用不同的数据集和有限的内存，训练一个通用的卷积神经网络，用于低，中，2017年IEEE计算机视觉和模式识别会议（CVPR）10. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：Imagenet分类与深度卷积神经网络。在：神经信息处理系统的进展。pp. 1097-1105（2012年）11. Lin，K.，Yang，H.F.，Hsiao，J.H.，Chen C.S.：二进制哈希码的深度学习用于快速图像检索。在：IEEE计算机视觉和模式识别会议（CVPR）研讨会（2015年6月）12. 刘志，Luo，P.，王，X.，唐X：在野外深度学习人脸属性计算机视觉国际会议（ICCV）（2015）13. 吕，Y.，库马尔，A.，Zhai，S.，郑，Y.，Javidi，T.，Feris，R.：多任务网络中的完全自适应特征共享在：IEEE计算机视觉和模式识别会议（CVPR）（2017年7月）14. 米斯拉岛Shrivastava，A.，Gupta，A.，Hebert，M.：多任务学习的十字绣网络IEEE计算机视觉和模式识别会议论文集。pp. 399415. Mous a v i an，A.， Pirsi av ash，H.， Kosˇeck a´，J.：使用深度卷积网络的联合语义分割和深度估计在：3D视觉（3DV），2016年第四届国际会议上。pp. 611-619. IEEE（2016）16. Perronn in，F.，Liu，Y.，是桑切斯，J Poirie r

下载后可阅读完整内容，剩余1页未读，立即下载