自适应微调：一种用于迁移学习的方法，基于目标数据使用策略网络来选择微调层或预训练层，具有高效性和优越的性能

131 浏览量更新于2023-10-18 收藏 945KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4805SpotTune：通过自适应微调进行迁移学习Yunhui Guo1，2，Honghui Shi1，Abhishek Kumar†，Kristen Grauman3，Tajana Rosing2，RogerioFeris11IBM Research MIT-IBM Watson AI Lab，2加州大学圣地亚哥分校，3德克萨斯大学奥斯汀分校摘要迁移学习是一种允许源任务影响目标任务的归纳偏差的学习方法，广泛应用于计算机视觉领域。使用深度神经网络进行迁移学习的典型方法是使用来自目标任务的数据对在源任务上预训练的模型进行微调。在本文中，我们提出了一种自适应微调方法，称为SpotTune，它找到了最佳的微调策略，每个实例的目标数据。在SpotTune中，给定来自目标任务的映像，将使用策略网络以做出关于是否将图像通过微调层或预训练层的路由决定。我们进行了大量的实验，以证明所提出的方法的有效性。我们的方法优于传统的微调方法 12 出 14 个标准数据集。我们还比较了SpotTune与其他国家的最先进的微调策略，表现出优越的perfor-曼斯。在Visual Decathlon数据集上，我们的方法在没有花里胡哨的情况下获得了最高分。1. 介绍深度学习在许多计算机视觉任务中取得了显着的成功，但目前的方法通常依赖于大量的标记训练数据[22，15，16]。转移学习的目标是从相关的源任务转移知识，通常用于补偿目标任务中缺乏足够的训练数据[35，3]。微调可以说是在使用深度学习模型时最广泛使用的迁移学习方法。它从源任务上的预训练模型开始，并在目标任务上进一步训练它。对于计算机视觉任务，使用ImageNet预训练模型进行微调是常见的做法[20]。与从头开始训练相比，在目标数据集上微调预训练的卷积神经网络可以显着提高性能，同时减少目标标记数据需求[14，51，44，20]。这项工作是在郭云辉在IBM研究院实习时完成的[2] Abhishek Kumar现在就职于Google Brain。这项工作是他在IBM研究院时完成的图1：给定一个在源任务上预训练的深度神经网络，我们用目标任务的例子来解决在哪里微调其参数我们提出了一种新的方法，该方法根据每个训练示例来决定预训练模型的哪些层应该固定其参数，即，与源任务共享，以及应该微调哪些层以提高目标域中模型的准确性。在实践中实现深度网络微调的想法有几种选择。一种自然的方法是使用目标训练数据优化深度网络的所有参数（在使用预训练模型的参数初始化它们之后）。然而，如果目标数据集很小，参数数量很大，那么微调整个网络可能会导致过拟合[51]。或者，可以微调深度网络的最后几层，同时将剩余初始层的参数这是由目标任务中有限的训练数据和经验证据的结合驱动的，这些经验证据表明，初始层学习可以在各种计算机视觉任务中直接共享的低级特征。然而，在微调过程中冻结的初始层的数量仍然是一个人，4806这对于优化来说可能是低效的，尤其是对于具有数百或数千层的网络。此外，根据经验观察到，当前成功的多路径深度架构（诸如ResNets）[15] 表现得像浅层网络的集合[47]。目前尚不清楚将微调限制在最后一个相邻的层是否是最好的选择，因为集合效应减少了早期或中间层应该与常见的低级或中级特征共享的假设当前的方法还采用全局微调策略，即，冻结哪些参数与对目标任务中的所有示例进行微调。假设这样的决定对于整个目标数据分布是最优的，这可能不是真的，特别是在目标训练数据不足的情况下。例如，目标任务中的某些类可能与源任务具有理想情况下，我们希望这些决策是为每一层单独做出的（即，是否使用该层的预训练参数或微调参数），如图1所示。在本文中，我们提出了SpotTune，一种学习决策策略的方法该策略是从由轻量级神经网络的输出参数化的离散分布中采样的，轻量级神经网络决定预训练模型的哪些层应该在每个实例的基础上进行微调由于这些决策函数是离散和不可微的，我们依赖于最近的Gumbel Softmax采样方法[30，18]来训练策略网络。在测试时，该策略决定从一个层出来的特征是使用源预训练参数还是微调参数进入下一层。我们将我们的贡献总结如下：• 我们提出了一个依赖于输入的微调方法，自动确定哪些层微调每个目标实例。这与当前的细调方法形成对比，当前的细调方法在确定在深度神经网络中的何处进行细调（例如，微调最后k层）。• 我们还提出了一种全局变体的方法，约束所有的输入示例，以微调可以分布在网络中任何地方的同一组k这种变体导致最终模型中的参数更少，因为可以丢弃相应的预训练层集合。• 我们对所提出的方法进行了广泛的实证评估，并将其与几个竞争基线进行了比较。所提出的方法优于标准的微调12出14个数据集。此外，委员会认为，我们展示了与其他最先进的微调策略相比，SpotTune的有效性。在Vi- sual Decathlon Challenge[37]中，这是一个用于测试多域学习算法性能的竞争性基准，共有10个数据集，所提出的方法与最先进的方法取得了最高的分数2. 相关工作迁移学习。在计算机视觉中，迁移学习和领域自适应方法最近，基于深度神经网络的迁移学习在社区中受到了极大的关注[12，6，7，24，13]。在新数据集上微调预先训练的网络模型（如ImageNet）是深度学习背景下知识转移的最常见策略。已经提出了微调所有网络参数的方法[14]，仅微调最后几层的参数[28]，或者仅使用预先训练的模型作为固定的特征提取器，在顶部使用分类器，例如SVM [42]。Kornblith等[20]研究了其中的几个选项，以解决更好的ImageNet模型是否能更好地传递的问题。Yosinski等人[51]使用早期模型对网络底部、中间或顶部的特征可转移性的影响进行了研究，但尚不清楚他们的结论是否适用于现代多路径架构，如残差网络[15]或DenseNets [16]。Yang等人。[50]最近提出将关系图作为可转移表示来学习，而不是一元特征。与我们的工作密切相关的是，Li etal.[25]研究了几种正则化方案，这些方案显式地促进了微调模型与原始预训练模型的相似性。与所有这些方法不同的是，我们提出的方法自动决定最佳层集，以便在新任务的预训练模型中进行微调。此外，我们根据每个实例做出此决定。跨任务共享功能。在多任务设置中，知道哪些任务或参数是可共享的是一个长期的挑战[19，23，45，29]。早期的方法是为浅层分类模型设计的[52，17，36]，而最近的方法则使用深度神经网络解决了每个任务应该与谁共享特征的问题最近已经提出交叉缝合网络[33]和渐进网络[40]来学习共享和特定于任务的表示的最佳组合，分别用于联合多任务优化和终身学习这些方法依赖于每层的列间适配器，这需要更多的内存，并导致更多的计算成本。此外，他们学习每个任务的全局功能适配器，而SpotTune自适应路由每个输入示例的计算，这对提高准确性很重要。4807动态路由。我们提出的方法与条件计算方法有关[4，27，11]，其目的是在神经网络中动态路由信息，以提高计算效率。 Bengio等人[2]使用稀疏激活策略在每个示例的基础上选择性地执行神经网络单元。Shazeer等人[43]引入了一个稀疏门控专家混合层，其中可训练的门控网络确定用于每个示例的子网络（专家）的稀疏组合。 Wu ， Nagarajan 等人提出了 BlockDrop[49]，这是一种使用强化学习来动态选择执行残差网络的哪些层的方法，利用ResNet对层丢弃具有弹性的事实[47]。Veit和Belongie [46]使用Gumbel Softmax [18]研究了相同的想法，用于残余块的动态选择。我们的工作还探讨了基于Gumbel技巧的动态路由。然而，与以前的方法不同，我们的目标是确定神经网络中的参数，这些参数在学习过程中应该被冻结或微调以提高准确性，而不是为了提高效率而放弃层3. 该方法给定源任务上的预先训练的网络模型（例如，ImageNet预训练模型），以及一组在目标域中具有相关标签的训练示例，我们的目标是创建一个自适应微调策略，该策略决定每个训练示例的预训练模型的哪些层应该进行微调（适应目标任务），以及哪些层应该在训练期间冻结其参数（与源任务共享），以提高模型在目标域中的准确性。为此，我们首先在3.1节中概述我们的方法。然后，我们在第3.2节中展示了如何使用Gumbel Softmax采样来学习自适应微调策略最后，在第3.3节中，我们提出了我们提出的图像相关微调方法的全局策略变体，该方法约束所有图像遵循单个微调策略。3.1. SpotTune概述虽然我们的方法可以应用于不同的深度神经网络架构，但在下文中，我们将重点关注残差网络模型（ResNet）[15]。最近，已经表明ResNet表现为浅分类器的集合，并且对残差块交换有弹性[47]。这是我们的方法的理想属性，因为稍后我们将展示SpotTune动态交换预训练和微调的块以提高性能。考虑预先训练的ResNet模型中的第l个残差块：xl=Fl（xl−1）+xl−1。（一）为了决定是否在训练期间微调残差块，我们冻结原始块F1，并且创建一个新的可恢复的块F_1，它用F_1的参数初始化。在具有附加块F_1的情况下，如下计算SpotTune中的第1个残差块的输出xl=Il（x）Fl（xl−1）+（1−Il（x））Fl（xl−1）+xl−1 （二）其中，I1（x）是二进制随机变量，其指示残差块是否应当被冻结或微调，以输入图像为条件。在训练期间，给定输入图像x，在源图像上训练的冻结块F1任务保持不变，并且复制的块F#1，从Fl初始化，可以朝着目标数据集进行优化。因此，给定图像X可以共享冻结块Fl，这允许在图像X上计算的特征被冻结。要重用的源任务，或微调块Fl，允许X使用适配的特征。从具有两个类别（冻结或微调）的离散分布中采样II（x），其由轻量策略网络的输出参数化更具体地，如果II（x）= 0，则重新使用第1个冻结块否则，如果Il（x）= 1，则第l个通过优化F_1来微调残差块。图2展示了我们提出的Spot-Tune方法的架构，它允许每个训练图像都有自己的微调策略。在训练期间，策略网络与目标分类任务使用Gumbel Softmax采样进行联合训练，如我们将在下面描述的。在测试时，输入图像首先被馈送到策略网络中，策略网络的输出被采样以产生关于是否使图像通过微调或预训练的残差块的路由决策。然后通过相应的残差块路由图像以产生最终的分类预测。请注意，执行的残差块的有效数量与原始预训练模型相同。唯一的额外计算成本是由策略网络引起的，与原始预训练模型相比，该策略网络被设计为轻量级的（只有几个剩余块）。3.2. 使用Gumbel Softmax策略进行培训SpotTune决定是否冻结或微调每个训练示例的每个残差块然而，策略II（x）是离散的这一事实使得网络不可微，因此难以用反向传播来优化。有几种方法可以让我们在本文中，我们使用最近提出的GumbelSoftmax采样方法[30，18]来规避这个问题。Gumbel-Max技巧[30]是一种简单有效的方法，可以从分类分布参数{α1，α2，...，αz}，其中αi是不局限于单形的标量，z是范畴的数目。在我们的工作中，我们考虑了两个类别（冻结或微调），所以z=2，对于每个剩余块，α1和α2是对应于策略网络输出的标量。4808图2：我们提出的方法的说明。策略网络经过训练，为在源数据集上预先训练的ResNet中的每个块输出路由决策（微调或冻结参数）。在学习过程中，微调与冻结决策是基于Gumbel Softmax分布生成的，这使我们能够使用反向传播来优化策略网络。在测试时，给定输入图像，对于每个残差块，计算被路由，使得微调路径或冻结路径被激活。如果随机变量G=−log（−log（U）），U是从均匀分布中采样的，则称随机变量G具有标准Gumbel分布。UUnif[0，1]。基于Gumbel-Max技巧[30]，我们可以通过以下方式从由α i参数化的离散分布中抽取样本：我们首先抽取i.i.d样本Gi，...，Gz从Gumbel（0，1），然后生成离散样本如下：X= arg max[log αi+ Gi]。（三）我等式3中的arg max运算是不可微的。然而，我们可以使用Gumbel Softmax分布[30，18]，它采用softmax作为arg max的连续松弛。我们将X表示为独热向量，其中向量的非零条目的索引等于X，并使用softmax将X的独热编码放松为z维实值向量Y目标任务，策略网络与预训练模型联合训练，以找到最大化目标任务准确性的最佳微调策略。与[49]类似，我们一次为所有残差块生成所有冻结/微调决策，而不是依赖于预训练模型的中间层的特征更具体地，假设在预训练模型中存在L个残差块策略网络的输出是一个二维矩阵β∈RL×2。 β的每一行表示具有两个类别的Gumbel-Softmax分布的对数，即β1，0=logα1和β1，1=logα2。在获得β之后，我们使用Gumbel-Softmax估计器的直通版本[18]。在前向传递期间，我们使用等式3对第1个残差块的微调策略II（x）进行采样在向后传递过程中，我们通过计算Y=Δexp（（logαi+Gi）/τ）对于i=1，…，z（4）方程4中的连续softmax松弛。这个亲-Izj=1 exp（（logαj+Gj）/τ）cess在图2中示出。其中τ是温度参数，其控制输出矢量Y的离散性。当τ变得更接近0时，来自Gumbel Softmax分布的样本与离散分布不可区分（即，几乎与独热向量相同）。从由策略网络的输出参数化的Gumbel Softmax分布中采样我们的微调策略II（x）允许我们从离散的冻结/微调决策样本反向传播到策略网络，因为Gumbel Softmax分布对于τ>0是平滑的，因此具有关于参数αi的明确定义的梯度。通过使用标准分类损失信用证，3.3. 全球契约政策变式在本节中，我们考虑特定于图像的微调策略的简单扩展，该策略约束所有图像对可以分布在ResNet中任何地方的相同k个块进行微调这种变体减少了内存占用和计算成本，因为k可以设置为较小的数字，因此大多数块与源任务共享，并且在测试时不需要策略网络。考虑具有L个残差块的预训练ResNet模型。对于第l个块，我们可以获得使用微调块和预训练块4809L我我基于特定于映像的策略。我们计算目标数据集中使用微调块的图像的分数，并将其表示为vl∈[0，1]。为了将我们的方法限制为微调k个块，我们引入以下损失：k=（ΣLl=1v）− k）2.（五）表1：用于评估SpotTune与其他此外，为了实现确定性策略，我们添加另一个损失le：微调基线。Σ10max2LS=i=1αimax{0，Ei−Ei}，其中Ei是测试le=−vllog vl.（六）l=1额外的损失le推动vl精确地为0或1，使得可以针对所有图像获得全局策略最终损失定义如下：l=lc+λ1lk+λ2le，（7）其中lc是分类损失，λ1是lk的平衡参数，λ2是le的平衡参数。额外的损失推动策略网络学习用于所有图像的全局策略。与手动选择k个块进行微调相反，global-k变体学习可以在目标数据集上实现最佳精度的k个块。我们将寻找最佳k的任务留给未来的工作，这可以通过例如，通过使用具有与准确度成比例且与微调块的数量成反比的奖励的强化学习。4. 实验4.1. 实验装置数据集和指标。我们在5个公共数据集上比较了我们的SpotTune方法与其他微调和正则化技术，包括三个细粒度分类基准： CUBS [48] ， Stanford Cars [21] 和Flowers [34]，以及ImageNet中两个大域不匹配的数据集：[10]第41话：我的世界这些数据集的统计数据列于表1中。性能通过评估集上的分类准确度来衡量。我们还报告了视觉十项全能挑战赛[37]数据集的结果，该挑战赛旨在评估来自多个视觉领域的图像的视觉识别算法。作为此挑战的一部分，共有10个数据集：（1）ImageNet，（2）Aircraft，（3）CIFAR-100，(4) 可描述的纹理，（5）戴姆勒行人分类，（6）德国交通标志，（7）UCF-101动态图像，（8）SVHN，（9）Omniglot和（10）花卉。Visual Decathlon数据集的图像被各向同性地调整大小，以具有72像素的较短边，以减轻评估的计算负担。在[37]之后，性能由单个标量分数来衡量其中，Emax是域Di上的误差，并且Emax是合理基线算法的误差。系数αi是1000（Emax）−2，所以完美分类器的得分是1000。在10个域中获得的最高分数为10000。与所有10个领域的平均准确度相比，得分S为一种比较不同租赁的更合理的测量方法，因为它考虑了不同领域的难度，这不是平均精度所能捕捉到的总之，我们的实验包括14个数据集，因为Flowers数据集在上述两个数据集中都列出了。我们注意到，对于表2中的实验，我们使用图像的全分辨率，而在可视化十项全能实验中，这些图像的大小被调整为与其他应用一致。接近基线。我们将SpotTune与以下微调和正则化技术进行比较：• 标准微调：该基线微调目标数据集上预训练网络的所有参数[14，51]。• 特征提取器：我们使用预先训练的网络作为特征提取器[42，9]，并且只为每个新添加的数据集添加分类层。• 随机微调：我们随机抽取预训练网络中50%的块进行微调。• 微调last-k（k= 1，2，3）：该基线微调目标数据集上预训练网络的最后k个残差块[28，44，1]。在我们的实验中，我们考虑微调最后一个（k=1）、最后两个（k= 2）和最后三个（k= 3）残差块。• 微调ResNet-101：我们在目标数据集上微调预训练ResNet-101 模型的所有参数。 SpotTune 使用ResNet-50代替（对于表2中的实验），因此该基线在计算上更昂贵，并且可以微调两倍的残差块。我们将其包括在内，因为训练期间的参数总数类似于SpotTune，因此它将验证任何优势不仅仅是由于我们有2x可用的残差块。数据集培训评价类幼崽5,9945,794200斯坦福汽车8,1448,041196花2,0406,149102草图16,0004,000250WikiArt42,12910,6281954810模型幼崽斯坦福汽车花WikiArt草图特征提取器74.07%70.81%85.67%61.60%75.50%标准微调81.86%89.74%93.67%75.60%79.58%随机微调81.03%88.94%百分之九十二点九五73.06%78.30%微调last-381.54%88.21%89.03%72.68%77.72%微调last-280.34%85.36%91.81%70.82%78.37%微调last-178.68%81.73%百分之八十九点九九68.96%77.20%随机策略81.63%88.57%93.44%73.82%78.30%微调ResNet-10182.13%百分之九十点三二94.21%76.52%78.92%L2-SP83.69%91.08%百分之九十五点二一75.38%79.60%渐进神经网络83.08%91.59%95.55%75.41%79.71%SpotTune（运行微调块）82.36%92.04%93.49%67.27%78.88%SpotTune（Global-k）83.48%90.51%96.60%75.63%80.02%SpotTune84.03%92.40%96.34%75.77%80.20%表2：在CUBS、Stanford Cars、Flowers、WikiArt和Sketches上的SpotTune和基线结果• 随机策略：该基线方法采用随机策略网络，该网络始终微调最后三层，并随机决定是否微调其他层的每个训练样本。• L2-SP[25]：这是最近提出的用于微调的最先进的正则化方法。作者建议使用L2惩罚，以允许微调的网络对预训练模型有明确的归纳偏差，与我们的方法共享类似的动机• 渐进式神经网络[40]：这是一种最近的方法，它学习共享和特定任务表示的最佳组合，用于终身学习。与使用随机权重初始化的原始工作不同，我们使用ImageNet预训练模型作为冻结源网络，因为前者导致分类性能更差。关于在Visual Decathlon数据集上报告结果的方法，与我们的工作最相关的是从Scratch训练的模型，标准微调，如上所述的特征提取器基线，以及无遗忘学习（LwF）[26]，这是最近提出的鼓励微调网络的技术保持ImageNet或之前任务的性能，同时学习连续的任务。其他方法包括Piggyback[31]，残差适配器及其变体[37，38]，深度自适应网络（DAN）[39]和批量范数自适应（BN Adapt）[5]，它们被明确设计为最小化模型参数的数量，而我们的方法位于频谱的另一端，专注于准确性而不是参数减少。我们还使用残差适配器（Scratch+）从头开始训练，以及[37]中描述的残差适配器的高容量版本，其参数数量与SpotTune相似预训练模型。对于比较SpotTune与精细-调整表2中的基线，我们使用在ImageNet上预训练的ResNet-50，它从卷积层开始，然后是16个残差块。残差块包含三个卷积层，并被分布到4个分段（即[3，4，6，3]）中，中间具有下采样层。我们使用Pytorch的预训练模型，它在ImageNet 上的分类准确率为75.15%。对于Visual Decathlon Challenge，我们使用ResNet-26，如[38]所述策略网络架构。对于ResNet-50的实验（表2），我们使用了一个带有4个块的ResNet作为策略网络。每个块的信道大小分别为64、128、256、512。对于使用ResNet-26的Visual Decathlon Challenge，策略网络由3个块的ResNet组成。每个块的通道大小分别为64、128、256。实施细节。我们使用SGD和动量作为优化器。对于Visual Decathlon Challenge，我们冻结了ResNet-26的第一个宏块（4个残差块），并仅对其余残差块应用自适应微调。这种选择减少了参数的数量，并具有正则化效果。4.2. 结果和分析4.2.1SpotTune与微调基线SpotTune 和微调基线的结果列于表 2 中。显然，SpotTune 始终比其他方法产生更好的结果。使用ImageNet上的预训练模型作为特征提取器（所有参数都被冻结）可以减少模型应用于新数据集时的参数数量，但由于域偏移，它会导致性能不佳所有微调变体（标准微调，随机微调，微调last-k）都比特征提取器基线实现了更高的准确性。请注意，微调last-k的结果表明，手动决定层数4811微调可能导致比标准微调更差的结果。微调的ResNet-101具有更高的容量，因此比其他微调变体性能更好尽管它有两倍的微调块，并且比SpotTune的计算成本高得多，但它在所有数据集中的表现仍然比我们的方法差，除了在WikiArt中。我们推测这是因为WikiArt比其他数据集有更多的训练样本。为了验证这一假设，我们在使用25%的WikiArt训练数据时评估了两个模型。在这种设置下，SpotTune实现了61.24%的准确度，而微调后的ResNet-101则为60.20%当考虑10%的数据时，这一差距甚至更大47.05%）。通过诱导微调模型接近预训练模型，L2-SP比其他微调变体获得更好的结果，但在所有数据集上都不如SpotTune然而，我们注意到L2-SP是对Spot- Tune的补充，可以与它结合以进一步改善结果。与渐进式神经网络相比，SpotTune更快，需要更少的内存，并通过自适应地路由每个输入示例的计算来实现更高的精度。SpotTune在两个方面与所有基线不同。一方面，SpotTune中的微调策略针对目标数据集中的每个实例进行了专门化。该实现考虑了目标数据集和源数据集中图像之间的相似性。另一方面，在没有参数细化的情况下与源任务共享层在实验中我们还考虑了SpotTune的三个变体。第一个是SpotTune（运行微调块），在测试过程中，所有图像都通过微调块路由图3：CUBS、Flowers、WikiArt、Sketches和StanfordCars的可视化策略。请注意，不同的数据集具有非常不同的策略。对于每个训练示例，SpotTune自动为每个数据集识别正确的微调策略调谐块。使用此设置，所有数据集的准确性都会下降。这表明目标数据中的某些图像可以从重用预训练网络的一些层中受益。第二个变体是 SpotTune（global- k），我们在实验中将k设置为3。一般来说，SpotTune（global-3）的性能比SpotTune差，但它的紧凑性大约是它的3倍，有趣的是，它比Fine-tuninglast-3好。这表明具有图像特定的微调策略是有益的，并且手动选择最后k层不如选择k层的最佳非连续集合进行微调有效第三种变体是随机策略，我们总是微调最后三层，并对其他层使用随机策略网络。结果表明，优化策略优于随机策略。4.2.2政策可视化为了更好地理解策略网络学习到的微调策略，我们在图 3 中的 CUBS 、 Flowers 、 WikiArt 、 Sketches 和Stanford Cars上将它们可视化。策略是在具有16个块的ResNet-50上学习的。块的红色色调表示通过该块的微调路径路由的图像数量。例如，一个暗色调的红色块和75%的微调水平（如图3右侧所示）意味着测试集中75%的图像使用微调块，其余25%的图像共享预训练的ImageNet块。该图显示了不同的数据集具有非常不同的微调策略。SpotTune允许我们为每个数据集以及每个训练示例自动识别正确的策略，这通过手动方法是不可行的。4.2.3块使用除了每个残差块的学习策略外，我们还对测试期间每个数据集这可以揭示每个目标数据集的分布差异，也可以揭示政策网络是如何工作的。在图4中，我们显示了每个目标数据集使用的微调块的数量分布在测试过程中，对于每个数据集，我们根据它们使用的微调块的数量对测试示例进行例如，从图4中，我们可以看到CUBS数据集的测试集中大约1000个图像使用了7个微调块。根据结果，我们有以下两个观察结果。首先，对于特定的数据集，不同的图像倾向于使用不同数量的微调块。这再次验证了我们的假设，即具有图像特定的微调策略比针对所有图像的全局微调策略更准确。其次，微调块使用的分布在不同的目标数据集之间存在显着差异这表明，基于字符-4812#parImNet空气C100DPedDTDGTSRFlwrOGltSVHNUCF评分划痕10x59.8757.1075.7391.2037.7796.5556.3088.7496.6343.271625免费WiFi [37]11x59.6759.5976.0892.4539.6396.9056.6688.7496.7844.171826特征提取器1x59.6723.3163.1180.3355.5368.1873.6958.7943.5426.80544微调[38]10x60.3261.8782.1292.8255.5399.4281.4189.1296.5551.203096BN适应[五]《中国日报》1x59.8743.0578.6292.0751.6095.8274.1484.8394.1043.511353LwF [26]10x59.8761.1582.2392.3458.8397.5783.0588.0896.1050.042515系列Res.适应。[37]第三十七届2x60.3261.8781.2293.8857.1399.2781.6789.6296.5750.123159平行水库适应[38个]2x60.3264.2181.9294.7358.8399.3884.6889.2196.5450.943412Res.适应。（大）[37]12x67.0067.6984.6994.2859.4197.4384.8689.9296.5952.393131Res.适应。[第37话]2x59.6761.8781.2093.8857.1397.5781.6789.6296.1350.122621Res.适应。[37]第三十七话2x59.2363.7381.3193.3057.0297.4783.4389.8296.1750.282643丹麦[39]2x57.7464.1280.0791.3056.5498.4686.0589.6796.7749.482851[31]第三十一话1.28倍57.6965.2979.8796.9957.4597.2779.0987.6397.2447.482838SpotTune（Global-k）4x60.3261.5780.3095.7855.8099.4885.3888.4196.4751.053401SpotTune11x60.3263.9180.4896.4957.1399.5285.2288.8496.7252.343612表3：视觉十项全能挑战的SpotTune和基线结果。参数的数量是针对ResNet-26模型指定的，如[37]所示。由于目标数据集的特征，标准微调（其优化预训练网络的所有参数以实现目标任务）在利用卷积网络进行迁移学习时可能不是理想的选择图4：测试示例使用的微调块的数量分布。不同的任务和图像需要不同的微调以获得最佳效果，这可以通过SpotTune自动推断。4.2.4视觉十项全能挑战赛我们在表3中显示了SpotTune的结果和Visual DecathlonChallenge的基线。在所有基线中，SpotTune获得了最高的视觉十项全能得分。与标准微调相比，SpotTune几乎具有相同数量的参数，并大幅提高了考虑到VisualDecathlon数据集，以及我们之前实验中的5个数据集，SpotTune在14个数据集中的12个数据集上显示出优于标准微调的性能与最近在Visual Decathlon Challenge上提出的其他方法相比[31，39，37，38，26]，SpotTune通过仅利用从ImageNet提取的特征的可转移性，而不改变网络架构，为挑战设定了新的技术水平。这是在没有花里胡哨的情况下实现的，即，我们相信通过更仔细的参数调整可以进一步改善结果，以及使用其他技术，如数据增强，包括在测试时抖动图像并平均其预测。与标准微调相比，我们的方法在训练中使用了1.47倍的时间（使用4个Titan Xp GPU进行测试，批量大小为96）。在测试时，额外的成本可以忽略不计（0.013s vs 0.015s/图像）。在SpotTune（Global-k）中，我们为每个任务微调了3个预训练模型块，这大大减少了参数的数量，并且仍然保持了非常有竞争力的分数。虽然我们在工作中关注的是准确性而不是参数减少，但我们注意到，在所有10个数据集上训练我们的全局- k变体，并在所有10个数据集上进行多任务损失，以及模型压缩技术，可以进一步减少我们方法中的参数我们把这个研究线索留给未来的工作。5. 结论我们提出了一种自适应微调算法称为SpotTune，专门针对目标数据集的每个训练样本的微调策略我们表明，我们的方法优于最流行和广泛使用的关键协议，用于在各种公共基准上进行微调我们还在视觉十项全能挑战中评估了SpotTune，达到了最新的技术水平，通过10个数据集的总体得分来衡量鸣谢。感谢教授。宋涵的讨论很有帮助。这项工作得到了IARPA的部分支持，DOI/IBC合同号D17 PC 00341，CRISP，JUMP的六个中心之一，DARPA赞助的SRC计划，NSF CHASE-CI #1730158，DARPA终身学习机器，IBMOCR和IBM教师奖。美国政府被授权为政府目的复制和分发重印本，尽管上面有任何版权免责声明：本文所载的观点和结论是作者的观点和结论，不应被解释为必然代表IARPA，DOI/IBC或美国的官方政策或认可，无论是明示或暗示政府。4813引用[1] H. Azizpour，A. S. Razavian，J. Sullivan，A. Maki和S. 卡尔森通用卷积表示的可传递性因素。 IEEEtransactionsonpatternanalysisandmachineintelligence，38（9）：1790-1802，2016。一、五[2] E. Bengio，P. L. Bacon，J. Pineau，and D.准备用于更快模型的神经网络中的一致性计算。arXiv预印本arXiv：1511.06297，2015。3[3] Y. 本吉奥。无监督学习和迁移学习的表示深度学习ICML无监督和迁移学习研讨会，2012年。1[4] Y. Bengio，N. L e'onard和A. 考维尔通过条件计算的随机神经元估计或传播 arXiv 预印本 arXiv ： 1308.3432 ，2013。3[5] H. Bilen和A.维达尔迪通用表示法：面孔、文字、浮游生物和猫品种之间缺失的一环。arXiv预印本arXiv：1701.07275，2017。六、八[6] Q. Chen，J. Huang，R.费里斯湖M.布朗，J.董，和S. 燕. 基于细粒度服装属性描述人物的深度领域自适应CVPR，2015。2[7] S. Chopra，S. Balakrishnan和R.戈帕兰Dlid：通过在域之间插值进行域适应的深度学习。在ICML研讨会上表示学习的挑战，2013年。2[8] G.楚卡视觉应用程序的域适应：全面调查。在计算机视觉应用中的领域适应。Springer，2017. 2[9] J. Donahue，Y. Jia，O. Vinyals，J. Hoffman，N. 张先生，E. tzeng和T.达雷尔。Decaf：用于通用视觉识别的深度卷积激活功能InICML，2014.5[10] M. Eitz、J. Hays和M. Alexa人类如何绘制物体？ACMTransactions on Graphics，31（4）：44-1，2012. 5[11] M. Figurnov，M. D. Collins，Y.朱湖，加-地张，J. 黄先生，D. P. Vetrov和R.萨拉赫季诺夫残差网络的空间自适应在CVPR，2017年。3[12] Y. Ganin，E.乌斯蒂诺娃Ajakan山口Germain，H.拉罗谢尔F.拉维奥莱特M Marchand和V。Lempitsky神经网络的领域对抗训练。机器学习研究杂志，17（1）：2096-2030，2016。2[13] W. Ge和Y. Yu.向有钱人借宝：通过选择性联合微调进行深度迁移学习。在CVPR，2017年。2[14] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。CVPR，2014。一、二、五[15] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。一、二、三[16] G. Huang，Z.柳湖，加-地van der Maaten和K.Q. 温伯格密集连接的卷积网络。在CVPR，2017年。一、二[17] L. Jacob，J.- p. Vert和F. R.巴赫.多任务学习：凸公式InNeurIPS，2009. 2[18] E. 张，S.Gu和B.浦耳使用gumbel-softmax进行分类arXiv预印本arXiv：1611.01144，2016。二、三、四[19] Z.康，K. Grauman和F.煞学习在多任务特征学习中与谁共享。InICML，2011. 2[20] S. Kornblith，J. Shlens和Q. V. Le.更好的i

下载后可阅读完整内容，剩余1页未读，立即下载