大型预训练模型的零发射和微调权重方法提高鲁棒性

19 浏览量更新于2023-10-25 收藏 923KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7959零炮模型米切尔·沃茨曼华盛顿大学mitchnw@cs.washington.edu李丁山华盛顿大学Universityofgamaga@cs.washington.edu西蒙·科恩布利斯Jong Wook KimOpenAIjongwook@openai.com丽贝卡·罗洛夫斯哥伦比亚大学mli24@gsb.columbia.eduRaphael Gontijo LopesGoogle Research，BrainTeamiraphael@google.comGoogle Research，Brain Teamskornblith@google.com华盛顿大学hannaneh@cs.washington.eduGoogle Research，Brain Teamrofls@google.com阿里·法哈迪（AliFarhadi）华盛顿大学ali@cs.washington.eduHongseok Namkoong-哥伦比亚大学namkoong@gsb.columbia.edu华盛顿大学schmidt@cs.washington.edu摘要大型预训练模型（如CLIP或ALIGN）在执行零次推理（即，而无需对特定数据集进行微调）。虽然现有的微调方法大大提高了给定目标分布的准确性，但它们通常降低了对分布偏移的鲁棒性。我们通过引入一种简单有效的方法来解决这种紧张局势，以提高鲁棒性，同时进行微调：对零发射和微调模型（WiSE-FT）的权重进行了建模。与标准微调相比，WiSE-FT在分布偏移的情况下提供了较大的准确性改进，同时保持了目标分布的高准确性。在ImageNet和五个衍生的分布偏移上，WiSE-FT将分布偏移下的准确性提高了4%到6%-比以前的工作年龄点（pp），同时将ImageNet准确性提高了1.6pp。WiSE-FT在六个进一步分布偏移的不同集合上实现了类似的大鲁棒性增益（2至23 pp），并且与常用迁移学习数据集上的标准微调相比，准确度增益为0.8至3.3 pp。这些改进在微调或推断期间没有额外的计算成本。1. 介绍机器学习的一个基本目标是开发在广泛的数据分布中可靠工作的模型这些作者贡献相当。ArXiv版本：2109.01903。bitions。在过去的几年里，研究人员提出了各种分布变化，目前用于增强鲁棒性的方法几乎没有收益[68，95]。虽然这些负面结果突出了学习鲁棒模型的困难，但CLIP [79]，ALIGN [44]和BASIC [75]等大型预训练模型最近已经证明了对这些具有挑战性的分布变化的前所未有的鲁棒性。这些模型的成功表明，在大型异构数据集上进行预训练是提高鲁棒性的一个有希望的方向然而，重要的警告是，这些鲁棒性改进在零激发设置中是最大的，即，当模型在没有对目标分布进行微调的情况下执行推断时在具体的应用程序中，可以对额外的特定于应用程序的数据进行微调，这通常会在目标分布上产生很大的性能增益然而，在 Radford 等人的实验中， [79] 和Phamet al.[75]，微调是以鲁棒性为代价的：在几个自然分布变化中，它们的微调模型的准确性低于原始零激发模型的准确性。这就引出了一个自然的问题：在分布偏移的情况下，可以在不降低精度的情况下对零发射模型进行微调吗？由于预训练模型正在成为机器学习的基石，因此在下游应用程序中对其进行微调的技术变得越来越重要。事实上，最近几位作者也提出了对预训练模型进行鲁棒微调的问题[3，9，75，79]。Andreassen等人[3]探索了几种微调方法，但发现没有一种产生模型7960θ零炮θ微调∈示意图：在参考分布上微调CLIP可提高参考分布的准确性，但稳健性较差示意图：我们的方法WiSE-FT在不降低参考分布准确度的情况下，提高了参考分布的准确性（例如，ImageNet）参考分布的准确性（例如，ImageNet）真实数据：我们的方法757065605550454035305560 65 70 75 80 85ImageNet（top-1，%）真实数据：我们的方法（放大）777675747372717069686775 76 77 78 79 80 81 82 83848586 87ImageNet（top-1，%）图1. （左上）零激发CLIP模型在参考分布（x轴，微调的目标）上表现出中等精度和高效鲁棒性（分布偏移超出基线模型的精度）。相比之下，标准的微调-端到端或线性分类器（最后一层）-在参考分布上获得更高的准确性，但鲁棒性不太有效（右上）我们的方法在零激发和微调模型之间进行线性插值，混合系数为α[0，1]。在ImageNet的五个分布偏移（ImageNet V2，ImageNet-R，ImageNet Sketch，ObjectNet和ImageNet-A）上，WiSE-FT相对于零次和微调模型提高了平均准确度，同时保持或提高了ImageNet的准确度在高精度下具有改进的鲁棒性。此外，Taorioet al. [95]表明，目前没有算法稳健性干预措施在零触发模型优于的分布变化中提供一致的增益本文从分布鲁棒性的角度对零触发模型的微调进行了实证研究。我们首先测量不同的微调方法（最后一层与端到端微调、超参数改变等）影响所得到的微调模型在分布偏移下的精度。我们的实证分析揭示了标准微调过程中的两个关键问题。首先，微调模型的鲁棒性即使在超参数的微小变化下也会发生很大变化，但最佳超参数不能仅从目标分布的准确性推断出来。第二，更积极的微调（例如，使用更大的学习率）在目标分布上产生更大的准确度改进，但是也可能大量地降低出于上述考虑，我们提出了一种稳健的微调零触发模型的方法，该方法解决了上述权衡并实现了两全其美：在分布偏移的情况下提高性能，同时相对于标准微调保持或甚至提高目标分布的精度。此外，我们的方法简化了微调过程中的超参数的选择。我们的方法（图1）有两个步骤：首先，我们根据目标分布微调零发射模型其次，我们通过在原始零炮模型和微调模型的权重之间进行线性插值，将其组合在一起，我们称之为权重空间集成。内插模型参数是凸优化中的经典思想，可追溯到几十年前（例如，见[76，82]）。本文从分布鲁棒性的角度对非凸模型的模型插值进行了实证研究。有趣的是，尽管神经网络的激活函数中存在非线性，但权重空间中的线性插值仍然成功微调CLIP有效鲁棒性M□针对α∈[0，1]的权空间系综：θα=（1−α）·θ零炮+α·θ微调ImageNet +1.6 pp+4.5 pp分布变化CLIP zero-shot模型线性拟合（CLIP零次模型）CLIP端到端用线性分类器微调CLIP（以前的工作）权重空间集成（端到端）权重空间集成（线性分类器）α = 0的权重空间集成。5标准ImageNet模型线性拟合（标准ImageNet模型）y=x分布变化Avg. 5个分布变化分布变化Avg. 5个分布变化7961refDD联系我们refDSDDDDDS与先前的工作相比，用于微调的权重空间集成（WiSE-FT）在保持目标分布的高性能的同时，显著提高了分布偏移下的准确性具体地说，在 ImageNet [17] 和Radford等人研究的五个自然分布偏移上。[79]，WiSE-FT应用于标准的端到端微调，将分布偏移下的准确性提高了4到6个百分点（pp），同时保持或提高了微调CLIP模型的ImageNet准确性。相对于零激发模型，WiSE-FT将分布偏移下的准确度提高了1至9 pp。此外，WiSE-FT改进了一系列替代方法，例如正则化和在整个微调过程中的各个点进行评估。这些鲁棒性增益在微调或推断期间不需要额外的计算成本。虽然我们的调查以CLIP为中心，但我们观察到其他零射击模型的类似趋势，包括ALIGN [44]，BASIC [75]和在JFT上预训练的ViT模型[21]。例如，WiSE-FT将微调的BASIC-L模型的ImageNet准确度提高了0.4 pp，同时将分布偏移下的平均准确度提高了2到11 pp。为了理解WiSE-FT的鲁棒性增益，我们首先在微调线性分类器（最后一层）时研究WiSE-FT，因为它更适合分析。在这种线性的情况下，我们的过程相当于将两个模型的输出进行集成，并且实验指出模型预测的互补性是一个关键属性。对于端到端的微调，我们将我们的观察与早期关于深度学习现象学的工作联系起来。Neyshabur等人[71]发现，对同一模型进行两次端到端微调会产生两个不同的解决方案，这些解决方案通过权重空间中的线性路径连接，沿着该路径，误差保持较低，称为线性模式连接[25]。我们的观察结果表明，沿着WiSE-FT生成的路径也存在类似的现象，但损失景观的确切形状以及目标误差与偏移分布之间的联系仍然是悬而未决的问题（附录A中的分析）。除了上述ImageNet分布偏移之外，WiSE-FT还始终如一地提高了六个额外分布偏移的鲁棒性，包括：（i）卫星图像和野生动物识别的地理变化（ WILDS-FMoW，WILDS-iWildCam）[6，13，47]，（ii）具有分布偏移的流行图像分类数据集 CIFAR-10（CIFAR-10.1和CIFAR- 10.2）的复制品[60，81]，以及（iii）具有由视频中的时间扰动引起的分布偏移的数据集（ImageNet-Vid-Robust和YTBB-Robust）[86]。除了健壮性的观点，反映了许多应用场景，我们发现WiSE-FT提高了性能。总的来说，WiSE-FT很简单，普遍适用于我们研究的问题，并且可以在几行代码中实现因此，我们鼓励采用微调零拍模型。2. 背景和实验装置我们的实验比较了零拍模型，相应的微调模型，和WiSE-FT产生的模型的性能。为了衡量鲁棒性，我们对比了两个相关但不同的分布上的模型准确性，一个参考分布参考是微调的目标，另一个是移动分布偏移。我们假设两个分布都有测试集用于评估，ref有一个相关的训练集tr，通常用于训练或微调。模型的目标是在两个分布ref和shift上实现高精度和一致的性能。这是一个自然的目标，因为人类经常实现类似的目标。在我们的研究中，分布变化的准确性[87]。对于模型f，我们让Accref（f）和Accshift（f）分别表示参考和移位测试集上的分类准确度我们考虑k路图像分类，其中xi是具有对应标签yi1，.，K. f的输出是非归一化类分数的k维向量。分布变化。Taori等人[95]分类分配分为两大类：⑴合成的，例如，图像对比度、亮度等的对抗性示例或人为变化。[2，7，8，29，36];以及（ii）自然的，其中样本在采集之后不受干扰，并且数据分布的变化通过照明、地理位置、众包过程、图像风格等的自然发生的变化而出现。 [35 、 38 、 47 、 81 、 95] 。根据 Radfordet al.[80]，我们在这里的重点是自然分布的变化，因为它们更能代表现实世界中没有活跃的对手。具体来说，我们展示了从ImageNet导出的五个自然分布偏移的关键trisImageNet）：（a）ImageNet V2（IN-V2）[81]，具有分布偏移的ImageNet测试集的再现(b)ImageNet-R（IN-R）[35]，再现（例如，雕塑，绘画） 200 个 ImageNet 类（ c ） ImageNet Sketch （ IN-Sketch ） [98] ，包含草图而不是自然图像（ d ）ObjectNet [4]，各种场景中的对象测试集，113个类与ImageNet重叠（e）ImageNet-A（IN-A）[38]，自然图像的测试集。WiSE-FT还提高了准确性相比，标准的罚款-调谐，在七个数据集的范围内将相对错误率降低4-49% ： ImageNet ， CIFAR-10 ， CIFAR-100 [52] ，Describable Textures [14] ， Food-101 [10] ， SUN397[101]和Stanford Cars [51]。即使微调数据稀缺，1ref和shift有时被称为分布内（ID）和分布外（OOD）。在这项工作中，我们包括零射击模型的评估提及ref是不准确的。为了清楚起见，我们避免使用ID/OOD术语。7962→∈--⟨⟩--SS我我联系我们ImageNet（Deng etal.）ImageNetV2（Recht等人）ImageNet-R（Hendrycks等人）ImageNet Sketch（Wang etal.）ObjectNet（Barbu等人）ImageNet-A（Hendrycks等人）图2. lemon类的样本，来自参考分布ImageNet [17]和我们主要实验中考虑的衍生分布偏移：ImageNet V2 [81]、ImageNet R [35]、ImageNet Sketch [98]、ObjectNet [4]和ImageNet A [38]。由ResNet-50 [34]对200个ImageNet类进行分类。图2显示了五种分布变化。有效的稳健性和散点图。为了比较模型的鲁棒性与参考分布的不同精度，我们遵循Taori等人介绍的有效鲁棒性框架。[95]第10段。有效稳健性将稳健性量化为超出仅在参考分布上训练的基线的准确度研究（有效）鲁棒性的有用工具是散点图，该散点图说明了分布偏移下的模型性能[81，95]。这些散点图在x轴上显示参考分布的准确性，在y轴上显示分布偏移下的准确性，即，模型f被示为点（Acc_ref（f），Acc_shift（f））。图1用示意图和实际数据举例说明了这些散点图对于我们研究的分布偏移，参考分布的准确度是分布偏移下准确度的可靠预测因子[68，95]。换句话说，存在函数β：[0，1][0，1]，使得对于在训练集上训练的模型f，Accshift（f）近似等于β（Accref（f）图片标题对。给定一组图像-标题对（x1，s1）.，（x B，s B），类CLIP模型训练图像编码器g和文本编码器h，使得相似性g（x i），h（s i）相对于未对齐的对被最大化。类CLIP模型在给定图像x和类名C=c1，...，c k通过将x与潜在的字幕匹配。例如，对于每个类别i使用cap- tion s i=“a photo of a { c i }“，零触发模型通过arg max j g（x），h（s j）预测类别。（2）换句话说，我们可以用列h（sj）构造W零次Rd×k，并计算输出f（x）=g（x）<$W 零次。除非明确提到，我们的实验使用CLIP型号ViT-L/14@336px，尽管所有CLIP型号都显示在我们的散点图中（附录F.1中提供了更多详细信息）。3. 用于微调的重量空间系综本节描述并激励我们提出的方法WiSE-FT，它由两个简单的步骤组成一是trref. 有效的鲁棒性[95]是超出此基础的准确性根据应用程序特定的数据微调零触发模型直线，形式上定义为 ρ（f）= Accshift （f）−β（Accref（f））。在相应的散点图中，有效耐用性是在分布偏移下垂直移动超过预期准确度（图1，顶部）。有效的鲁棒性从而将参考分布上的准确度变化与鲁棒性干预的影响区分开来。当我们说一个模型对分布移动是鲁棒的，我们的意思是有效鲁棒性是正的。Taori等人[95]观察到没有算法稳健性干预在图2中的分布变化中始终实现实质有效的稳健性-第一种方法是零触发CLIP。经验上，当应用logit（或probit）轴缩放时，在参考分布上训练的模型近似位于线性趋势上[68，95]。如Taorietal.[95]，我们应用logit轴缩放，并显示选择点准确度的95% Clopper-Pearson其次，我们结合了原来的零杆和微调模型的线性插值之间的权重，也被称为权重空间集成。WiSE-FT可以在几行PyTorch中实现，我们在附录C中提供了示例代码。零激发模型在分布偏移下表现出色，而标准微调在参考分布上实现了高精度我们的动机是将这两种模式结合起来，实现两全其美。权空间集成是一个自然的选择，因为它们集成没有额外的计算成本。此外，以前的工作表明，当模型共享其优化轨迹的一部分时，权重空间中的插值可以提高性能[42，71]。步骤1：标准微调。在第2节中，我们让零拍模型和CLIP。我们主要研究CLIPtrref 表示用于微调的数据集和gde-模型[79]，尽管我们也研究了其他零射击模型，包括ALIGN [44]，BASIC [75]和在JFT上预训练的ViT模型[21]。零触发模型表现出有效的鲁棒性，并依赖于定性不同的线性趋势（图1）。CLIP类模型是使用注意CLIP使用的图像编码器。我们现在明确地写为g（x，Venc），其中x是输入图像，2为了提高准确性，一些候选字幕的嵌入是一个被改变的，例如， s（1）=“a photo of a c i“和s（2）=“apictur e of a c i“（称为快速集成[ 79 ]）。7963∈ref∈θ··（xi，yi）∈Str我、、、我V_enc是编码器g的参数。标准微调考虑模型f（x，θ）= g（x，Venc）CNOW分类器其中W分类器Rd×k是分类头，θ=[Venc，Wclassifier]是f的参数。然后我们解决arg minλR（f（x，θ），y）+λR（θ）其中通过探索用于BASIC [75]，ALIGN [44]和在JFT-300 M[91]上预训练的ViT-H/14 [21]模型的WiSE-FT主要结果：ImageNet和相关的分布变化。如图1所示，当混合系数当α在0~1之间变化时，wse（·，α）能同时是交叉熵损失并且R是正则化项（例如，重量衰减）。我们考虑两种最常见的微调变体：端到端，其中θ的所有值都被修改，以及仅微调线性分类器，其中Venc固定在预训练期间学习的值附录F.2和F.3提供补充细节。步骤2：权空间集成。对于混合系数α[0，1]，我们考虑参数为θ 0的零激发模型与参数为θ1的标准微调模型之间的权空间系综。权重空间集合WSE的预测由下式给出：wse（x，α）=f（x，（1−α）·θ0+α·θ1），（1）也就是说，我们使用零发射和微调参数的元素加权平均当仅微调线性分类器时，权重空间集成等效于传统的输出空间集成[11，20，26]（1-α）·f（x，θ0）+α·f（x，θ1），因为等式1分解为（1−α）·g（x，Venc）W零激发+α·g（x，Venc）W分类器。由于神经网络相对于其参数是非线性的，因此集成所有层-正如我们在端到端微调时所做的那样-通常会失败，并不比随机初始化的神经网络更准确[25]。然而，与之前的工作类似，其中部分优化轨迹是共享的[25，42，71]，我们发现零次和微调模型通过权重空间中的线性路径连接，沿着该路径，准确度仍然很高（在第A.2节中进一步探讨）。值得注意的是，如我们在第4节中所示，WiSE-FT在分布偏移下提高了准确性，同时相对于微调模型保持了对参考分布的高精度这些改进没有任何额外的计算成本，因为使用单个权重集。4. 结果本节介绍了我们的主要实验结果。首先，我们证明了WiSE-FT在Radford等人研究的五个ImageNet分布变化上提高了微调CLIP模型的准确性。[79]，同时保持或提高图像网络的准确性。接下来，我们提出了额外的实验，包括更多的分布变化，超参数的影响，参考分布的精度提高，以及低数据制度的实验。最后，我们证明了我们的研究结果具有更广泛的适用性大大提高了参考和移位的精度分布。每个数据集的细分见附录E.1。表1列出了我们在ImageNet上的主要结果和五个衍生的分布偏移。WiSE-FT（端到端，α=0. 5）在分布偏移下的平均准确度和参考和偏移分布上的平均准确度方面都优于许多强模型。虽然未来的工作可能会导致更复杂的策略来选择混合系数α，α=0。5在一系列实验中产生接近最佳性能。因此，我们建议α=0。5.当没有领域知识可用时。附录D进一步探讨了α的影响。此外，12个其他骨架的结果见附录E。其他分布变化的稳健性。除了来自ImageNet的五个分布偏移之外，WiSE-FT还始终如一地提高了对各种进一步分布偏移的鲁棒性，包括卫星图像和野生动物识别中的地理偏移（WILDS-FMoW [13，47]，WILDS-iWildCam [6，47]），具有分布偏移的流行图像分类数据集CIFAR-10 [52]的复制（CIFAR-10.1 [81]和CIFAR-10.2 [60]），以及视频中时间扰动引起的分布偏移数据集（ImageNet-Vid-Robust和YTBB-Robust [87]）。具体地，WiSE-FT（α=0. 5）相对于微调的解决方案，在分布偏移下将性能提高 3.5 、 6.2 、 1.7 、 2.1 、 9.0 和23.2pp，同时将参考分布上的性能降低至多0.3pp（参考分布上的准确度通常提高）。与ImageNet分布偏移相比，zero-shot模型最初在WILDS分布偏移上实现的准确率低于30%，而WiSE-FT无论如何都提供了改进附录E.2（图9和表6）包括更详细的结果。超参数变分和替代方案。如图3所示，标准超参数（如学习率或时期数）的适度变化可以显著影响分布偏移下的性能此外，这些性能差异不能从模型性能单独参考数据可靠地例如，当使用学习率训练10个epoch时，310−5和310−6导致ImageNet上的精度差异很小（0.3pp），分布偏移下的精度差异高达8 pp。此外，调整ImageNet数据的超参数也会降低鲁棒性。例如，从小到中等学习率（10−7到3·10−5），79641024个时期LR= 3·10−6LR=1·10−5LR=2·10−5LR= 3·10−5LR= 1·10−7LR= 1·10−61e-061e-073e-06ng发生率1e-052e-05历元= 23e-05时期= 4时期= 10莱勒尼迭代25010002500沿优化轨迹进行评估超参数配置（已完成培训）选择提前终止解决方案Avg. 5个分布变化Avg. 5个分布变化Avg. 5个分布变化2·IN（参考）IN-V2IN-R分布变化IN-Sketch ObjectNet*IN-AAvg变化Avg参考文献，变化CLIPViT-L/14@336px[79]第七十九话76.270.188.960.270.077.273.374.8[79]第七十九话85.475.984.257.466.275.371.878.6Zero-shot（PyTorch）76.670.589.060.969.177.773.475.0微调LC（我们的）85.275.885.358.767.276.172.678.9微调E2E（我们的）86.276.879.857.963.365.468.677.4WiSE-FT（我们的）LC，α=0。583.776.389.663.070.779.775.979.8LC，最佳α85.376.989.863.070.779.775.980.2E2E，α=0。586.879.589.464.771.179.976.981.8E2E，最佳α87.179.590.365.072.181.077.481.9表1. ImageNet上各种方法的准确性以及CLIPViT-L/14@336px的衍生分布偏移 [79]。E2 E：端到端; LC：线性分类器。Avgshifts显示了五个分布偏移中的平均性能，而Avg reference，shifts显示了ImageNet（reference）和Avg shifts的平均值。对于最佳α，我们选择使列最大化的单个混合系数其他型号的结果见附录E.7。超参数：固定学习率，改变epochs的数量65超参数：固定epochs的数量，改变学习率65超参数：优化与正则化6560 60 6055 55 555065 70 75 80ImageNet（top-1，%）5065 70 75 80ImageNet（top-1，%）5065 70 75 80ImageNet（top-1，%）超参数：提前终止训练65权空间系综（变超参数）6560 6055 555065 70 75 80ImageNet（top-1，%）5065 70 75 80ImageNet（top-1，%）图3.微调模型的鲁棒性即使在超参数的微小变化下也会发生很大变化。应用WiSE-FT解决了这种脆弱性，并且可以消除参考分布和偏移分布的准确性之间的权衡。显示了使用余弦退火学习速率时间表微调的CLIPViT-B/16的结果，左上角和中上部图中的所有模型都进行了微调[59 ]第59话更进一步地，对zero-shot的正则化将正则化器λθ0-θ02附加到微调对象ive，其中θ0是零射击模型的参数。ImageNet上的性能降低了5 pp，但在分布偏移下的准确性也降低了8pp。WiSE-FT解决了超参数调谐的这种脆弱性：即使使用学习率3 10−5，其中标准微调导致低鲁棒性，应用WiSE-FT重新，在参考和偏移分布的精度之间进行权衡。通过改变α可以实现的模型与通过其他超参数配置可以实现的模型一样好或更好然后，不需要在很大范围的超参数上搜索，只需要α改变LR，epochs的数量和正则化系数。AdamWSGDAdam nodecaAdamregulary瞄准射击权空间系综超参数配置Avg. 5个分布变化CLIP zero-shot模型线性拟合（CLIP零次模型）权重空间集成（端到端）Avg. 5个分布变化7965考虑了此外，评估不同的α值不需要训练新的模型。图3中没有可以改变以匹配或超过WiSE-FT产生的最佳曲线的超参数在我们的实验中，只有通过使用WiSE-FT或更复杂的平均方案来平均模型权重的方法才能达到这个边界：保持所有模型迭代的指数移动平均值（EMA，[93]）。与EMA的比较详见附录E.3.2。附录E.3中还提供了其他比较，包括蒸馏、额外正则化和CoOp [110]。最后，附录E.4重新创建了图3，增加了更强的数据，并发现了类似的趋势。参考分布的准确性增益。除了对分布偏移的鲁棒性之外，表2还证明了WiSE-FT在对七个数据集进行微调后也提高了准确性当在ImageNet、CIFAR- 10、CIFAR-100 、 Describable Textures 、 Food-101 、 SUN 397 和Stanford Cars上进行端到端微调时尽管标准微调直接优化了参考分布的高精度，但WiSE-FT实现了更好的性能。附录E.5包括更多的细节，包括在低数据制度中的探索。超越CLIP 图4说明了WiSE-FT一般适用于CLIP之外的零拍摄模型，以及使用图像-文本对进行对比预训练的be-yond模型首先，我们在零激发和微调的BASIC-L模型 [75] 的权重之间进行插值，发现 α=0 。 5 将来自ImageNet的五个分布偏移的平均准确度提高了7 pp以上，同时相对于微调的BASIC-L模型，将ImageNet准确度提高了0.4 pp（每个数据集的细分见附录的图23和表12 正如 Phamet al.[75] ，该模型使用对比损失和ImageNet训练数据的一半进行微调尽管存在这些实验差异，但WiSE-FT提供了对参考分布和移位分布的改进接下来，我们考虑将WiSE-FT应用于在JFT-300 M [91]上预训练的ViT-H/14模型[21]，其中通过手动识别类别对应关系来构建零触发分类器（详见第E.7.2节）。WiSE-FT在零发射和微调模型上都提高了分布偏移下的性能当α=0时。8，WiSE-FT在分布变化方面优于微调模型2.2 pp，同时保持ImageNet性能在0.2 pp的微调模型。该结果证明尽管此表考虑了ImageNet类名，但ObjectNet提供了替代类名，可以将zero- shot CLIP的性能提高2.3个百分点（附录F.4）。WiSE-FT甚至可以成功应用于不使用对比图像-文本预训练的模型最后，我们将WiSE-FT应用于Jia等人的ALIGN模型。[44]，类似于CLIP，但使用不同的数据集进行预训练，发现类似的趋势。5. 相关工作同时和随后的相关工作见附录B。鲁棒性了解模型在离散化移位下的表现仍然是一个重要的目标，因为现实世界的模型可能会遇到来自新环境的数据[78，96]。先前的工作研究了在综合[2，23，29，36，63，97]和自然分布偏移[4、35、38、47、98]。用于合成偏移的干预措施通常不会为许多自然分布偏移提供稳健性[95]。相比之下，参考分布的准确度通常是分布偏移下准确度的可靠预测因素[67，68，92，95，104]。另一方面，[16]表明，某些分布偏移下的准确度不能从参考分布上的准确度可靠地推断出来。当使用不同的超参数进行微调时，我们观察到类似的现象（第4节，图3）。预培训和迁移学习。对大量数据进行预训练是构建高性能机器学习系统的强大技术[12，21，48，80，88，105]。一类越来越流行的视觉模型是那些用辅助语言监督预先训练的模型，可用于零射击推理[18，44，75，79，84，107，109]。当预先训练的模型通过标准微调适应特定的分布时，有效的鲁棒性在收敛时会恶化[3]。在自然语言处理中，以前的工作提出了稳定的微调方法，这些方法会产生计算开销[45，111]，从而缓解了诸如表征崩溃[1]等问题。更一般地说，各种方法都试图减轻灾难性遗忘 [65] 。 Kirkpatrick 等人 [46];Zenkeet al. [106]探索了用于顺序学习的加权二次正则化。徐红等[103]表明，对于微调，第4节中探索的简单二次正则化表现最好，而Lubana等人。[61]探讨了二次正则化和插值之间的联系。Andreassen等人[3]发现，来自连续学习的许多方法不提供对多个自然分布变化的鲁棒性最后，Liet al.[57]研究微调超参数对性能的影响。传统的（输出空间）合奏。传统的集成方法，我们称之为输出空间集成，结合了许多分类器的预测（输出）[5，11，20，26，27，56]。通常，输出空间集成优于单个分类器，并提供不确定性。7966Avg. 5个分布变化Avg. 5个分布变化ImageNetCIFAR10 CIFAR100汽车DTDSUN397食品101标准微调86.298.692.291.681.980.794.4WiSE-FT（α=0. 第五章）86.8（+0.6）99.3（+0.7）93.3（+1.1）93.3（+1.7）84.6（+2.8）83.2（+2.5）96.1（+1.6）WiSE-FT（可选）α）87.1（+0.9）99.5（+0.8）93.4（+1.2）93.6（+2.0）85.2（+3.3）83.3（+2.6）96.2（+1.8）表2.除了鲁棒性之外，WiSE-FT还可以在多个数据集上进行微调后提高准确性基本-LViT-H/14（JFT）79对齐7284787077828068767866757685 86 8788ImageNet（top-1，%）6470 75 8085ImageNet（top-1，%）7475 80 85ImageNet（top-1，%）权重空间集成（端到端）α = 0的权空间系综。5BASIC-L zero-shotBASIC-L微调端到端ViT-H/14（JFT）零炮ViT-H/14（JFT）端到端ALIGN zero-shotALIGN端到端微调图4.WiSE-FT应用于BASIC-L [75]，一种在JFT-300 M [91]和ALIGN [44]上预训练的ViT-H/14 [21]模型分布偏移下的估计比基线更精确[56，73，90]。在这些作品的对比，我们认为合奏的两个模型，观察到不同的数据。输出空间集成需要更多的计算资源，因为它们需要单独通过每个模型。与在同一数据集上训练的15个模型的集合相比，Mustafaet al.[70]通过在不同数据集上集成类似数量的预训练模型，在分布偏移（ImageNet V2 ，ImageNet-R ，ObjectNet和ImageNet-A）下发现0.8-1.6 pp的改进。相比之下，我们看到集成两个模型的2-15 pp的改进。此外，由于我们在权重空间中进行集成，因此与单个模型相比，不重量空间合奏。权空间集成在不同模型的权值之间进行线性插值，els [25，32，62，93].例如，Izmailovetal.[42]在整个培训过程中节省了平均检查点，以提高绩效。实际上，沿训练轨迹平均权重是优化的核心方法[72，77，82]。例如，Zhanget al. [108]建议使用一组快速和慢速权重进行优化，其中每k步，这两组权重被平均，并且新的轨迹开始。在这里，我们从分布鲁棒性的角度重新审视这些技术，并考虑观察到不同数据的模型的权重空间集合6. 局限性、影响和结论局限性。虽然我们希望我们的研究结果更广泛地适用于其他领域，如自然景观，语言处理，我们的研究仅限于图像分类。探索对象检测和自然语言处理的微调此外，虽然插值参数设置α=0。5提供了良好的整体性能，我们将为特定目标分布找到最佳α的问题留给未来的工作。冲击 Radford等人[79] Brownet al.[12]广泛讨论大型零射击模型的广泛影响，并确定潜在的危害原因，包括模型偏差和潜在的恶意使用，如监视系统。WiSE-FT是一种基于此类模型的微调方法，因此可能会使其负面影响永久化。结论我们将WiSE-FT视为迈向更复杂微调方案的第一步，并预计未来的工作将继续利用零触发模型的鲁棒性来构建更可靠的神经网络。确认我们感谢 Anders Andreassen 、 Tim Dettmers 、 JesseDodge、Katie Everett、Samir Gadre、Ari Holtzman、Sewon Min 、 Mo- hammad Norouzi 、 Nam Pho 、 BenPoole、Sarah Pratt、Alec Radford、Jon Shlens和RohanTaori提供了有益的讨论和草案反馈，感谢UW的Hyak提供了计算支持，感谢 Basil Mustafa 提供了 JFT 和ImageNet类之间映射的早期版本。这项工作得到了NSFIIS 1652052 、 IIS 17303166 、 DARPA N66001-19-2-4031、DARPA W 911 NF-15-1-0543和gifts的部分支持来自艾伦人工智能研究所。Avg. 5个分布变化7967引用[1]ArmenAghajanyan ， AkshatShrivastava ， AlfreitGupta，Na- man Goyal，Luke Zettlemoyer，and SonalGupta.通过减少代表性崩溃来更好地进行微调。在国际学习代表会议（ ICLR ）， 2021 年。 https ：//openreview. net/forum？ID=OQ08SN70M1V。7[2] Michael A Alcorn ， Qi Li ， Zhitao Gong ， ChengfeiWang，Long Mai，Wei-Shinn Ku，and Anh Nguyen. 摆姿势：神经网络很容易被熟悉物体的奇怪姿势所愚弄。在计算机视觉和模式识别会议（CVPR），2019年。//arxiv.文件名. org/abs/1811.11553。三、七[3]AndersAndreassen ， YasamanBahri ， BehnamNeyshabur，and Rebecca Roelofs.2021年整个微调过程中分布外稳健性的演变 //arxiv. 文件名 .org/abs/2106.15831。1、7[4]Andrei Barbu、David Mayo、Julian Alverio 、WilliamLuo 、 Christ

下载后可阅读完整内容，剩余1页未读，立即下载