基于随机回归的CNN迁移学习方法

2 浏览量更新于2023-10-23 收藏 858KB PDF 举报

迁移学习

网络优化

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用随机回归瑞典皇家理工学院机器人、感知与学习部{yzhong，atsuto}@ kth.se摘要本文是关于基于自适应框架正则化深度卷积网络（CNN），用于在目标域中使用有限训练数据进行迁移学习在这种情况下，CNN正则化的最新进展通常是由于使用了额外的正则化对象。他们使用某种形式的具体任务来引导训练远离目标任务。与那些相关的方法不同，我们认为没有具体目标的目标仍然可以很好地作为正则化器。特别是，我们演示了伪任务正则化（PtR），它通过简单地尝试在微调期间将图像表示回归到伪回归目标来动态正则化网络也就是说，CNN被有效地正则化，而无需额外的数据资源或先前的专业知识。总而言之，拟议的PtR规定：a）不依赖于具体正则化目标或额外注释的设计的网络正则化的替代方案; b）通过在线平衡目标之间的梯度范数来动态调整和保持正则化效应的强度。通过大量的实验，令人惊讶的是，PtR对分类准确性的改善被示出为比最近的最先进的方法更大或相当1. 介绍深度卷积神经网络（CNN）最近推动了计算机视觉的发展，并在许多大规模计算机视觉应用中蓬勃发展[3，22，23，16]。自AlexNet [18]引入以来，已经提出了更深入和更复杂的网络架构，如 VGG [31] ，Inception [33]，ResNet [11]和DenseNet [12此外，还对网络优化做出了其他贡献，这有助于CNN的性能和效率，例如。BatchNorm [13]和MiniBatchSGD [7]。尽管通过这些改进了有效性，但已知的开放问题之一是CNN通常是过度参数化的，并且需要大规模的标记数据集。利用迁移学习是一种常见的做法，当给定少量标记数据集时，迁移学习将在源任务上预训练的模型适应新的目标任务。具体来说，通过利用深度特征的可转移性[39]，可以通过预训练模型将图像映射到中级或高级特征，并以此训练目标特定分类器[4，28，40]，这通常称为特征选择。为目标数据微调源模型也是可行的由于微调旨在为目标任务优化整个网络，因此它通常可以实现更高的效率，因此在有限的域数据中，它已经成为CNN迁移学习的经验法则[1]。在微调过程中，需要对源模型进行温和的调整，以避免过拟合，因为深度网络对于小规模目标任务来说仍然是微调过程中的挑战之一，这篇文章也解决了，是实现网络正则化的过参数化模型与有限的训练样本。在最近的最先进的迁移学习解决方案中，存在在多目标学习的框架中使用辅助训练目标以改进正则化的趋势[6，21，20，5]。这些辅助对象是以具体和目标特定的方式设计的，通过这些方式，模型将强制执行某些期望的属性，这些属性有助于学习图像表示中的多个目的目标任务上的增强正则化的关键则归因于通过部分或整个源任务数据从所施加的辅助目标中学习到的改进的通用性。然而，正则化增益伴随着存储现成预测的资源依赖性成本，用于多个网络训练步骤[21]，从目标任务的源域中选择合格的标记数据样本[6]，在训练期间使用复杂的网络架构[5]，或调用源模型[20]。从网络培训的角度，作为正规化的另一种理解，培训的基本效果与（一）为便于讨论，不区分训练“目标”和“任务”;因此，多目标和多任务学习可以互换使用。1363713638目标分类器输入图像CNN功能表示（rep）cePTRcePTR正则化目标可以被认为是分散经验损失的最小化（典型地，通过结构损失）。因此，正则化能力也可以被看作来自于由所采用的分散（正则化）目标生成的额外梯度。这些梯度在梯度下降轨迹中造成了有用的扭曲，迫使网络在训练过程中容忍稍高的经验损失，这使得有更多的机会寻求更好的最优解。现在，如果这样一个distraction效应是网络正则化的本质，那么值得研究的是，正则化目标是否可以有某种替代形式，而不是一个真实和具体的任务。直觉上，如果主要关注的是分心（而不是正则化任务的收敛），则可以有多种方式来构建干扰目标任务的训练的分心物，同时寻找改进的正则化。一种潜在的方法可以是通过伪任务，其既不依赖于上述数据和多任务学习的存储可用性，也不依赖于[6，21，20，5]中设计的具体目标。在本文中，考虑图像分类任务，全损W伪任务正则化（伪特征回归损失）Softmax交叉熵损失图1.伪任务正则化（PtR）。链接蓝色模块的路径说明了一个普通的微调管道，其中目标分类器通过交叉熵损失进行训练。当目标任务的收敛相对稳定时，将连接到CNN的特征表示层的PtR损失引入网络训练总损失是目标任务上的交叉熵损失和加权PtR损失之和PtR损失模块根据目标任务在特征层上的梯度范数自动对正则化的强度进行加权。算法1中详细解释了PtR所学习的表示并不是目标任务专用的，这导致了通用性的丧失。为此，如图1所示，我们选择利用一个多任务学习框架，该框架利用两个训练目标：一个是目标任务分类的交叉熵损失，另一个目标产生干扰以促进生成。在迁移学习场景中，我们的目标是设计一个正则化器，它在独立于具体任务的同时产生分心。我们的正则化器只是利用了一个伪任务2，它在梯度中注入随机噪声，以分散目标任务的训练，从而寻求改进。实验结果一致支持我们的猜想在不同的数据集和不同的网络架构。本文的贡献是：1. 我们展示了伪任务正则化（PtR），它为基于真实和具体任务的其他最近最佳正则化提供了一种有效的替代方案2. 在PtR中，通过伪任务生成用于正则化的有用梯度，其中我们提出基于目标对象和伪任务的梯度范数这些结果对CNN传输的网络正则化关键要素通过伪回归任务进行验证。我们称之为伪任务正则化（PtR）。在使用这两个训练目标时，PtR的一个重要方面是平衡两个损失函数的影响。合理的是，干扰应该在适当的水平上，该水平不太强而阻碍模型收敛，也不处于与目标分类器的梯度相比可忽略的量级上为此，受[2]的启发，我们建议在训练过程中根据图像表示的梯度范数动态平衡两种损失的梯度强度。我们的自适应多任务学习框架的训练过程在算法1中描述。2.2. 算法我们的方法使用自适应多目标学习框架中的预训练模型来学习目标任务上的图像表示，如算法1所示。对于训练迭代i，它计算交叉熵损失L（i）以及随机回归量的损失，学习，我们希望未来的研究将进一步利用伪任务正则化损失L（i），当L（i）确定正则化器的基本要求。低于平均时期损失T的特定阈值。(The阈值的选择并不重要2. 伪任务正则化补充资料图2所示。）L（i）计算2.1. 概述我们的动机是让CNN学习代表-将图像表示回归到伪回归目标在PtR中，我们使用在线生成的随机回归目标，使得：目标任务的同时也被分散注意力，2网络永远无法收敛于伪任务，因为它利用了（一）PTR=freg （rep（i），t（i）），（1）随机回归目标，因此称为伪任务。详情见第二节。2.2其中rep代表表示的激活CNN中的层，t用于具有L13639cePTR总2cePTR亚cePtRce算法一：使用伪任务进行训练然后将梯度范数在批次上平均为：化的（一）（一）（一）（一）资料来源：（a）现成网络; b）目标域中的标记数据程序：foriteration（batch）ido计算交叉熵损失L（i）。如果L（i）远离最小值，则Gce= E[Gce]， GPtR = E[GPtR]。（四）为了平衡L（i）和L（i）的相对影响，我们引入目标梯度范数比R。它由交叉熵损失的梯度范数比和信噪比形式的期望回归损失定义：ce（i）（一）仅反向传播L（i）其他R=Gce/wGPtR。因此，对于梯度范数比，在迭代i处满足R，L（i）需要被a首先，执行以下计算：因子w：（一）PTR伪回归任务丢失，（一）w=Gce，（5）w.r.t.生成回归目标t（i在线;（一）GPtR·R2. G（i）和G（i）：在反向传播之前，每批在线计算，ceL（i）和L（i）PTRw.r.t. rep（i）. rep（i）代表第cePtR批次的图像表示通过固定权重（w）来平衡损失的常用方法不是一种有效的方法，（i）（i）3. G和GG（i）的平均值，G（i） ce PtRce在批次上;PtR的设计选择，因为它永远不会保证精确对正则化的梯度范数的调节。上PTRG（i）相反，使用动态权重PtR不受约束4. 重量w：w =ce对于目标比率，(i)·P tRR.然后，反向传播L（i）+w·L（i）。一个特定的正则化（回归）损失。2.3. 鼓励更大的梯度变化结束结束cePtR为了探索使用随机变化的回归目标对梯度的影响，我们案例研究了由一个连接到一个输入的隐神经元（具有非线性激活）组成的最小玩具示例网络等维为rep，而freg（·）是一个回归函数，我们认为有两种流行的选择：L2损失和“ 平滑 -L1”（用SML 1表示）损失。注意到在训练期间随机生成伪目标，使得训练实例不被限制到所生成的回归目标。这些目标的详细信息见第3.1节。和一个输出。单个隐藏神经元由f表示，其输出f（o）被视为示例网络学习的特征表示。f 的输入，用f（i）表示，是输入x和它在输入路径上的可学习权重a的乘积。即：f（o）= δ（f（i）），f（i）= a·x，且δ（·）表示ReLU函数。当回归目标t应用于f（o）时，回归-总损失L（i）是交叉的加权和损耗Ereg =1（f（o）− t）2. 在反向传播期间，如果熵损失和回归损失：神经元f被激活，根据链式法则，a上的梯度为：L（i）=L（i）+wL（i）、（二）注册表注册表f（o）（i）（o）总铈PTR=亚f（o）· f（i）·=|F-t|·x其中w是平衡分布影响的系数如下面所解释的那样，L（i）和平衡回归损失w·L（i）通过.（f（o）-t）·x，如果（f（o）-t）≥0，=−（f（o）−t）·x，否则。（六）网络为了简洁，省略了重量衰减。为了产生用于正则化的适当水平的干扰，我们首先计算交叉熵损失的梯度范数和回归损失的梯度范数w.r.t. 外-对于每个实例，放置特征，其由G（i）表示，如果简化的假设可以保持x为常数，则a的梯度的方差V ar（Δ Ereg）由f（o ）和回归目标t的方差确定，使得E1.LGR13640（一）PTRce，分别（为了简洁起见，训练Var（reg）= Var（f亚（o））+Var（t），（7）省略了批次i中的实例黎巴嫩（i）黎巴嫩（i）假设t是与f（o）无关的变量。可以看出，如果实现G（i）=||ce||，G（i）为||PtR||-是的（三）行政长官报告（一）2PTR（i）2通过特征范数惩罚（例如，提出的G13641J[10]），等式6中的t等于常数0。因此，在等式7中，梯度的方差与使用遵循一定分布的其他回归目标相比变得更小。PtR使用独立的随机变化伪目标生成具有更高变化的梯度。通过利用它们，PtR将探索更多的局部最优，以产生更高的避免鞍点和实现更强正则化的机会。3. 实验和结果3.1. 实验装置数据集。对于迁移学习，已经发现用跨域数据训练CNN是一种重要的正则化方法。然而，我们的实验集中在一种情况下，其他领域的数据不可用。我们还专注于一个具有挑战性的情况下，训练样本稀疏。为此，选择了四个常用的小规模迁移学习数据集来比较评估PtR：Flower 102 [27]，CUB 200 -2011 [35]，MIT67 [30]，和Stanford40 [37]，其中两个代表不同场景的细粒度分类任务。此外，我们还从WebFace [38]数据集中选择了500个身份3Caltech256 [8]也用于一般图像识别场景中的性能评估在Flower102上，我们忠实地遵循数据分割进行训练和测试。在WebFace500数据集上，每个身份都有随机的20张训练图像，5张验证图像和平均24张测试图像。在训练之前，使用面部检测器[15]将面部从Caltech256，我们形成了两个独立的训练集，每个训练集有30和60个训练样本，类，分别与[6，20]的一致性。为其他以证明每种类型的网络架构对每个数据集的测试准确性。为了尽可能与微调进行公平的比较，我们在动态伪任务正则化方法中也使用了微调所使用的相同学习率;由于收敛速度的差异，学习速率调度略有不同。当验证损失和验证准确性停止时，学习速率降低，并且在模型训练终止之前降低两次。在其学习率时间表的最后一个时期之后训练的模型总是用于性能评估。实作详细数据。不同数据集上的实验共享许多共同的设置。我们使用标准SGD优化器，动量设置为0.9。批量大小设置为20，以尽可能（除非另有说明）;除一些消融研究外，VGG网络[ 31 ]的权重衰减设置为0.0005，ResNet [11]架构的权重衰减设置为0.0001。VGG网络的丢包率设置为0.5。我们的实验是用PyTorch实现的[29]。我们总是从ImageNet开始实验[3]预训练模型。由于训练数据是随机访问的，我们运行了五次独立运行，并对结果进行平均，以减轻所有实验的随机性影响。分类精度主要用于与相关方法进行比较，[6]除外。PtR的其他超参数。在PtR中，附加损耗的影响主要由控制干扰梯度幅度的目标梯度范数比R来调整然后，相对于每个特征维度的梯度在很大程度上由我们在实验中采用的伪任务的性质确定，例如伪回归目标的分布。在不失一般性的情况下，我们考虑随机目标t（i），遵循平均值为m的均匀分布，m=E[t（i）];即，对于任何单一回归目标t（i），J J数据集，10%的训练图像是随机分离的，在t（i）中，t（i）∈[0，2m），其中j是批次i评级以形成用于模型训练的验证集。培训和评估。为了增强训练图像，我们对训练图像采用了随机抖动和细微的缩放和旋转扰动。我们将所有相关数据集的图像大小调整为250×250像素，图像的纵横比通过应用零一直在填充在测试期间，我们对来自目标任务分类器的网络响应进行了平均，这些目标任务分类器来自十种作物，这些作物是从原始和翻转的对应物的角落和中心采样的由于我们将普通微调过程视为基线，因此确保普通微调的有效性不被低估是非常重要的为此，我们精心选择了学习率时间表进行微调3在WebFace数据集上具有最多训练实例的随机500个身份。（j ∈ [1，|我|]）和|我|是批量大小。我们用独立的防御系统来有效地阻止-挖掘R和m（以避免昂贵的交叉验证参数搜索）：对于ResNet结构，R =3和m =1适用于所有数据集;对于VGG-16结构，R在3和5之间的范围内变化，并且m在10到15之间。15.我们选择T=1作为所有实验中的合理设置，因为T的选择的影响有限。详情见补充资料图2。3.2. 结果和比较由于VGG-16架构已经在许多不同的迁移学习应用中得到了广泛的应用，我们首先使用SML 1和L2分别在五个不同的数据集上评估PtR，并与微调基线进行比较。结果13642表1.伪任务正则化（PtR）的比较分类准确性，与VGG-16架构中两种不同的回归函数SML 1和L2选择的vanilla微调（在基线列具有不同回归损失函数的PtR带来的性能增益分别在SML1和L2下的中间两列中相应的错误率降低值位于最右侧的列中。每个实验的标准偏差在括号中给出。基线正则化增益误差率降低在表1中列出。实验结果表明，PtR有助于改善两种不同回归函数下的分类任务的vanilla微调;它带来合理和一致的性能增益。在包含最多训练样本的WebFace500上，它将错误率降低了约4%，但在训练样本更稀疏的Flower102和CUB200上，它特别有效，这些结果表明，一方面，收集更多的数据有助于正则化，即使是小数据集。另一方面，当训练样本变得稀疏时，PtR man-LwF，其中使用了现成的预测。与FNP相比，PtR的表现明显优于1.3%。尽管PtR实现的精度增益低于PC，但无论网络架构如何，差距都不显著（约0.5%）。对于绝对精度，值得注意的是，PtR在所有其他方法中实现了最高的基线性能以及优化模型的性能。体重下降似乎不影响PtR，但在没有体重下降的情况下进行训练时，基线表2.在CUB200数据集上比较分类精度。所有数值结果均以%为单位。括号中给出了每种方法使用的网络和年龄，以保持学习的表征从是过度的，这是一个非常具体的目标任务，并进一步承诺网络学习更多有用的表示。回归函数的选择似乎不是一个重要因素，因为SML 1和L2的检测准确度接近; SML 1用于以下所有实验。我们还对最近表现最好的基于多任务/目标的正则化方法进行了大量的比较实验：联合训练（JointTrain）[21]，学习而不忘记（LwF）[21]，从富人那里借宝（BTfW）[6]，归纳偏差（Ind.Bias）[20]和成对混淆（PC）[5]。此外，我们在迁移学习的上下文中通过特征范数惩罚（表示为FNP）[10]来评估正则化（因此，FNP的超参数通过使用PtR的相同过程来设置公平性）。我们还通过禁用重量衰减（以“w/o WD”表示）比较了重量衰减对CUB 200和Caltech 256由于我们打算在具有12 GB内存的单个GPU模块上执行所有实验，因此使用ResNet-101作为折衷方案，以与[6]中ResNet-152的特殊内存节省版本所实现的结果进行比较。为了公平评估，所有相应的vanilla微调基线和改进的测试准确度与准确度增益一起显示在下表中。CUB200数据集的比较结果见表2。可以看出，PtR（使用VGG-16）的精度增益略优于JointTrain，其中使用真实源数据进行正则化;它的性能也优于方法基线Acc.增益联合列车（VGG-16）72.1 74.6 2.5LwF（VGG-16）72.1 72.3 0.2PC（VGG-16）73.3 76.53.2PtR（VGG-16）75.178.13.0PC（ResNet-50）78.280.32.1FNP（ResNet-50）80.380.60.3PtR（ResNet-50）80.381.91.6PtR（ResNet-50，不含WD）81.082.01.0在Flower 102数据集上，如表3所示，PtR的增益比VGG-16结构的PC大1.4%;它与ResNet-50网络的PC相当FNP带来了一定的正则化裕度，但比PtR低0.3%对于PtR，它与ResNet-50和ResNet-101在精度上实现了一致的增益，并且网络的深度似乎不会恶化正则化效果。虽然我们实现了与BTfW同样好的基线性能（在表3的底行的括号中），但BTfW的正则化增益高于PtR或任何其他方法。正则化的差异可能表明，在多任务学习框架中使用足够的标记数据进行训练是迁移学习的更强正则化。从MIT67数据集的结果中也可以发现类似的观察结果，如表4所示。使用VGG- 16架构，PtR的正则化效果再次非常接近 JointTrain ，并且优于 LwF 。使用ResNet，PtR的正则化增益相当于Ind.Bias和FNP的正则化增益。BTfW还实现了比SML1L2SML1L2花卉102 83.92%（0.36）2.38%（0.32）2.61%（0.42）14.80%16.23%CUB200 75.07%（0.26）3.05%（0.39）2.84%（0.37）百分之十二点二三11.39%MIT67 71.55%（0.38）1.42%（0.58）1.39%（0.40）4.99%4.89%13643表3.Flower102数据集上的分类精度和精度增益（%）比较括号中列出了用于与BTfW [6]进行比较的平均分类准确度表5. Caltech 256上的平均类准确度和准确度增益（%），具有两个训练数据分区。Bsln是baseline的缩写。平均分类准确度与测试集的平均分类准确度相同，因此在本表中未在括号中给出BTfW [6]使用 ResNet-152 ，而其他人使用ResNet-101。为简洁起见，本表中未显示每种方法使用的网络。PC（ResNet-50）92.593.51.0加州理工256 -30加州理工256 -60FNP（ResNet-50）91.091.50.5方法BSLN。Acc.增益BSLN。Acc.增益PtR（ResNet-50）91.091.80.8BTfW81.283.82.686.489.12.7PtR（ResNet-101）90.6（92.3）91.6（93.2）1.0（0.9）Ind.Bias81.583.52.085.386.41.1FNP84.083.8-0.286.886.90.1表4.MIT67的比较结果（%）。平均阶级PTR84.084.50.586.887.20.4用于与BTfW [6]进行比较的精度在括号中。PtR，不带WD84.084.50.586.987.20.3使用ResNet的其他方法。我们可以推断，在多个任务上同时优化网络，并选择足够的真实数据样本可能比其他相关方法更有效。至于PtR，无论ResNet架构的深度如何，它都会在微调基线上带来一致的裕度，这也与表3中的结果一致。Caltech256数据集的结果见表5。在这些实验中，我们将批量大小增加到32，这是[6，20]使用的值之间的值，以尽可能进行公平有趣的是，在所有比较方法中，我们用两个Caltech 256分区实现了最好的基线准确度。因此，PtR与其他人相比可能更难证明正则化能力，因为更好的泛化基线通常具有更小的改进泛化的空间。但是，我们仍然可以看到一些类似的趋势。首先，与前面的实验一样，通过用足够多的多类注释数据训练网络，显著性（也参见补充资料中表1中给出的标准偏差），这与最近的最先进方法相当。比较的方法考虑使用附加到具体任务的辅助目标，同时增强正则化，但PtR利用额外的伪任务作为正则化器，不需要设计具体的辅助任务，并且更简单。与LwF相同，PtR不需要像[ 20 ]中那样记住现成模型的PtR也比[5]更有效，[5 ]需要Siamese网络，并且它也不像[6]那样依赖于来自其他领域的注释数据。4. PtR对预测的影响为了研究PtR的影响，我们使用ResNet-50网络对CUB 200数据集的验证集进行了案例研究，以探索与普通微调相比，预测是如何改变的我们的分析基于混淆矩阵的概念，并定义了一个矩阵C（ D×D ）（D=200），其中每一行包含不同类别的所有验证样本的累积预测概率。我们分别计算了PtR和基线微调模型下的矩阵CPtR和Cft。然后，我们将其对角元素求和为：BTfW实现了最佳正则化增益（约2.6%两种设置）。第二，PtR始终提供监管收益;对于两个数据分离增益是相等的，SPtR= Σ诊断（CPtR），Sft=ΣDia g（Cft）.（八）这表明PtR对每个类别的训练数据的大小不那么敏感。FNP带来的改善可能是微不足道的，甚至是不稳定的，因为加州理工学院256 -30的负增益。权重衰减对PtR分类精度的影响不可见。通过对比较结果的分析，我们认为PtR提供了一致的收益，具有统计学意义，在584个验证图像中，我们得到SPtR= 425和Sft= 404，这表明伪任务正则化模型在平均值上的正确类中显示出比微调模型更大的确定性。此外，就预测的平均熵而言，伪任务正则化器将其从1.33位减少到1.15位。这是由于更好的正则化允许模型消除错误预测中的错误概率，从而降低了方法基线Acc.增益PC（VGG-16）85.286.21.0PtR（VGG-16）83.986.32.4BTfW（ResNet-152）92.394.72.4方法基线Acc.增益联合列车（VGG-16）7475.51.5LwF（VGG-16）7474.70.7PtR（VGG-16）71.673.01.4BTfW（ResNet-152）81.782.81.1单个偏倚（ResNet-101）77.5780.5FNP（ResNet-50）77.478.00.6PtR（ResNet-50）77.477.90.5PtR（ResNet-101）78.7（78.7）79.2（79.2）0.5（0.5）13644PTRftPTR图2.来自CUB200验证集的样本，PtR正确纠正了vanilla微调中导致的错误分类。左：输入图像。中：基线模型和PtR的分类分布。FT基线模型的第二大预测是171班的30%左右右：两个随机选择的训练样本，由基线预测（顶部）和两个样本，由PtR预测（底部）。平均熵熵的减少也意味着类预测已经被PtR消除了歧义。多任务学习图像增强作为一种流行的图像扰动形式，已经被证明是特别重要的。相应地，我们计算S′而S′，的总和有助于防止CNN过拟合。本文主要分别是CPtR和Cft的非对角元素我们观察到正则化模型倾向于用比普通微调模型更少的小概率进行预测。它使其预测具有更高的确定性我们还假设通过随机增强来干扰我们的训练实例。监督信号也可以被扰动以更好地正则化这可以通过学习预测软目标而不是硬二进制目标来实现，在给定较小的S′的情况下，，这是[36]。在这项工作中，标签扰动不被认为是如此与香草微调相比，这与减少的熵为了进一步定性地研究PtR如何演变香草微调模型（基线）所做的预测，我们对两种类型的输入样本进行了案例研究，其中：i) PtR纠正了基线模型ii) PtR错误分类，与基线相反。也就是说，i）是真正的纠正，ii）是虚假的纠正。图2和图3中比较了其中两个示例。可以看出，PtR具有鼓励视觉上接近地面实况类4的其他类的实例的预测的效果。这表明伪任务正则化器隐式地帮助网络专注于并学习区分更高视觉相似性的类别同时，从我们的观察来看，PtR并不倾向于在其他类别上产生如此多的小概率，这些类别与基线模型不太相似。这有助于正则化模型抑制不确定性并集中在几个最相似的候选类上。5. 相关工作通常用于微调CNN的正则化方法通常可以分为四类：数据扰动、参数范数惩罚、dropout和[4]在图2中，PtR做出的第二大预测是在另一个类似外观的类别上;在图3中，错误预测的类别也类似于地面真相。我们可以就辅助培训目标的有效性进行更多详细的研究参数范数惩罚，或者更具体地说，权重衰减，是训练深度模型中最常见的正则化方法之一。我们的PtR默认利用了权重衰减，但我们也评估了没有权重衰减的PtR，以研究其对准确性的影响。另一种明显类似于权重衰减的方法是在网络的表示层上使用特征范数惩罚（FPN）或特征收缩[10，19，25]。从表面上看，如果PtR的回归目标是朝向零的静态范数而不涉及随机性，则FNP将类似于PtR。(An应该注意的PtR的另一个特征是它还自动平衡目标。技术差异见第2.3节。）Dropout也是通过在训练期间暂时屏蔽瓶颈层和全连接层中的一部分隐藏单元来改善模型正则化的标准技术之一[32，26]。对于我们在实验中使用的VGG-16结构，在平坦化隐藏层之后也使用dropout。最近的一种迁移学习中的正则化方法是通过多任务学习来训练具有辅助任务/目标的CNN [21，6]。最近的最佳性能方法中的这些目标通常是在期望更通用的特征不太可能以几种不同的方式过拟合到目标任务的在[6]中，网络同时由目标数据和一些选定的源数据样本进行训练，13645图3.来自CUB 200验证集的样本，标准微调正确分类，但PtR错误预测。另见图2的标题。当以低级特征观察时，与目标数据相似。另一种鼓励CNN正则化的方法，而不是依赖于外来数据的可用性，是让模型与由大型源任务训练的模型的原始结构保持不太远。如[21]所示，在学习新的目标任务时，可以尝试保留现成源模型对目标域图像的预测（我们承认[21]中这样做的初衷不是为了规则化）。因此，将现成预测的使用解释为隐含地使用源域训练数据是合理的。另一种使训练后的模型被原模型吸引的方法是显式地强制正在训练的目标模型在权值空间中停留在源模型的附近;[ 20 ]中的工作在微调场景中对感应偏置进行杠杆调节，以防止学习的特征变得过于具体。对于细粒度的视觉任务，最近的一种方法[5]建议在仅考虑风格转移的情况下，可以尝试通过某些度量（即，[24]如[24]所示。上述这些正则化子的一个共同点是它们依赖于具体的任务或目标。但是，由于它们不是为了明确优化目标，它们都可以在很大程度上被视为本文中研究的方法也会导致分心，但我们认为，分心可以同样有效地工作，而不涉及一个具体的辅助目标或任何形式的源域数据作为监督标签。6. 结论和讨论我们已经引入了一个伪任务正则化（PtR），它利用多任务学习框架来生成伪回归任务的有用干扰，以改善有限迁移学习的正则化。数据样本来自PtR的正则化效果是动态的，因为PtR基于目标对象和伪任务的梯度范数来与现有方法不同，PtR不依赖于具体或真实的正则化目标。令人惊讶的是，我们观察到简单PtR带来的性能增益与最近的相关解决方案相当或更好，因此我们建议PtR可作为基于具体目标的最近最佳性能正则化方法的有效替代方案我们将PtR的泛化增益归因于两个方面，而关于DNN泛化的广泛认可的理论尚未建立[14，42]。首先，SGD中PtR生成的梯度噪声使批量梯度噪声更大，并导致在这方面较小的等效批量大小。由此产生的学习率和（等效）批量大小的商的增加已被证明有助于避免尖锐的最小值[14，17]。更嘈杂的梯度训练可以反过来鼓励网络探索更多更好的局部最小值，从而消除类别歧义。其次，SGD的各向异性噪声优于其各向同性对应物[42]，并且PtR产生的各向异性梯度噪声可以增加找到更平坦的最小值的机会。此外，研究PtR对网络校准性能的影响也是有趣的[9] 以及PtR的梯度如何然而，这超出了当前工作的范围，以及上述与损失景观的关系确认我们要感谢Ryuzo Okada和东芝公司研发中心的同事们为研究提供资金和合作。我们还要感谢Vladimir Li和Matteo Gamba进行了富有成果的讨论，并感谢NVIDIA公司慷慨捐赠GPU。第二位作者得到了瑞典研究委员会的支持，对此表示感谢。13646引用[1] Hossein Azizpour 、 Ali Sharif Razavian 、 JosephineSullivan、Atsuto Maki和Stefan Carlsson。通用卷积表示的可传递性因素。IEEE Transactions on Pattern Analysisand Machine Intelligence，2016。[2] Zhao Chen，Vijay Badrinarayanan，Chen-Yu Lee，andAn-drew Rabinovich. Gradnorm：梯度归一化，用于深度多任务网络中的自适应损失平衡。2018年国际机器学习会议（ICML）[3] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Fei-Fei Li. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR），2009年。[4] Jeff Donahue ， Yangqing Jia ， Oriol Vinyals ， JudyHoffman，Ning Zhang，Eric Tzeng，and Trevor Darrell.Decaf：用于通用视觉识别的深度卷积激活功能。2014年国际机器学习会议（ICML）[5] Abhimanyu Dubey 、 Otkrist Gupta 、 Pei Guo 、 RameshRaskar、Ryan Farrell和Nikhil Naik。细粒度视觉分类的成对混淆。在欧洲计算机视觉会议（ECCV），2018。[6] 韦锋葛、益州余。向有钱人借宝：通过选择性联合微调的深度迁移学习。在IEEE计算机视觉和模式识别会议，2017。[7] PriyaGoyal ， PiotrDolla´r ， RossB.Girshick ，PieterNoordhuis ， Lukasz Wesolowski ， Aapo Kyrola ，Andrew Tulloch，Yangqing Jia，and Kaiming He.准确的大批量小批量SGD：1小时内训练imagenet Arxiv预印本1706.02677，2017年。[8] 格里高利·格里芬亚历克斯·霍卢布和皮埃特罗·裴罗纳。Caltech-256对象类别数据集。技术报告，加州理工学院，2007年。[9] Chuan Guo，Geoff Pleiss，Yu Sun，and Kilian Q.温伯格现代神经网络的校准。2017年，国际机器学习会议（ICML）[10] Bharath Hariharan和Ross Girshick通过缩小和幻觉特征进行低镜头视觉识别。 IEEE 国际计算机视觉会议（ICCV），2017。[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR），2016。[12] 高煌，刘庄，劳伦斯·范德马腾，和Kilian Q.温伯格密集连接的卷积网络。在IEEE计算机视觉和模式识别会议，2017。[13] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本1502.03167，2015年。[14] Stanislaw Jastrzebski、Zachary Zaghon、Devansh Arpit、Nicolas Ballas 、 Asja Fischer 、 Yoonis Bengio 和 AmosStorkey 。影响 SGD 最小值的三个因素。 Arxiv1711.04623，2018年。[15] 瓦达特·卡齐米和约瑟芬·沙利文用回归树的集合进行一毫秒人脸对齐。在IEEE计算机视觉和模式识别会议，2014年。[16] AlexKendallMatthewGrimes 和 RobertoCipollaPoseNet：一个用于实时6-dof摄像机重新定位的卷积网络。国际计算机视觉会议（International Conference onComputer Vision，ICCV）2015年。[17] Nitish Shirish Keskar ， Dheevatsa Mudigere ， JorgeNocedal，Mikhail Smelyanskiy，and Ping Tak Peter Tang.关于深度学习的大批量训练：泛化差距和尖锐的最小值。在2017年国际学习代表会议（ICLR）上[18] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。神经信息处理系统进展。2012年。[19] Vladimir Li和Atsuto Maki。特征收缩：图像分类中的一种新2018年在英国纽卡斯尔举行的英国机械视觉会议（BMVC）上[20] Xuhong Li，Yves Grandvalet，and Franck Davoine.使用卷积网络进行迁移学习的显式归纳偏差。在2018年的国际机器学习会议（ICML）上[21] 李志忠和Derek Hoiem。学而不忘。欧洲计算机视觉会议（ECCV），2016。[22] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔和C. 劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。欧洲计算机视觉会议（ECCV），2014。[23] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。在IEEE国际计算机视觉会议（ICCV），2015年。[24] 龙明生，曹跃，王建民，迈克尔·乔丹.使用深度自适应网络学习可转移特征国际机器学习会议（ICML），2015。[25] 牧笃人深度网络的原则性正则化：从权重衰减到特征收缩。科学机器人，4（30），2019。[26] Pietro Morerio，Jacopo Cavazza，Riccardo Volpi，ReneVidal，and Vittorio Murino.课程辍学。在IEEE国际计算机视觉会议（ICCV），2017年。[27] Maria-Elena Nilsback和Andrew Zisserman。在大量

下载后可阅读完整内容，剩余1页未读，立即下载