提升大型预训练模型零样本和微调的鲁棒性

38 浏览量更新于2024-06-20 收藏 923KB PDF 举报

"这篇论文探讨了大型预训练模型在零样本推理和微调权重方面的优化策略，以增强模型的鲁棒性。研究者们提出了一个名为WiSE-FT的新方法，该方法在微调过程中同时考虑了零样本推理和微调模型的权重，从而在保持目标分布高准确性的同时，提升了模型对于分布偏移的抵抗力。" 文章中提到，大型预训练模型，如CLIP和ALIGN，已经在零样本推理能力上取得了显著的进步，即它们能够处理未见过的数据或任务，而无需针对特定数据集进行微调。然而，尽管微调可以显著提高特定任务的准确性，但这往往是以牺牲对分布偏移的鲁棒性为代价的。分布偏移指的是测试数据的分布与训练数据的分布存在差异，这是实际应用中常见的挑战。为了克服这一问题，研究团队提出了WiSE-FT（Weighted Interpolation between Zero-shot and Fine-tuning）方法，它通过对零样本推理和微调模型的权重进行建模，寻求在保持高准确性的同时增强模型的鲁棒性。实验结果显示，与标准微调相比，WiSE-FT在面对分布偏移时能显著提升模型的准确性，同时保持对目标分布的良好性能。例如，在ImageNet及其五个衍生的分布偏移数据集上，WiSE-FT改善了4%到6%的准确性，并在ImageNet上提高了1.6个百分点的精度。此外，WiSE-FT在六个其他分布偏移集合上也显示出了大的鲁棒性增益，范围从2到23个百分点。值得注意的是，WiSE-FT的这些改进并不需要额外的计算成本，无论是微调过程还是推理阶段。这意味着在实际应用中，模型可以通过采用WiSE-FT方法来提高效率和性能，而不会增加计算负担。这为机器学习模型在广泛数据分布中的可靠性提供了新的解决方案，尤其对于那些资源有限但又需要处理各种数据偏移场景的应用来说，WiSE-FT提供了一种实用且高效的优化策略。这篇研究工作强调了在微调过程中平衡模型的泛化能力和鲁棒性的必要性，并通过WiSE-FT方法展示了如何实现这一目标。这一创新不仅有助于提高现有预训练模型的性能，还可能启发未来在机器学习和深度学习领域的更多研究，以应对实际应用中的数据多样性挑战。

7962

→

∈

⟨

⟩

我我

联系我们

ImageNet

（Deng et

al.）

ImageNetV2

（Recht等

人）

ImageNet-R

（

Hendrycks

等

人）

ImageNet Sketch

（Wang et

al.）

ObjectNet

（Barbu等

人）

ImageNet-A

（Hendrycks等

人）

图

2. lemon

类的样本，来自参考分布

ImageNet [17]

和我们主要实验中考虑的衍生分布偏移：

ImageNet V2 [81]

、

ImageNet R [35]

、

ImageNet Sketch [98]

、

ObjectNet [4]

和

ImageNet A [38]

。

由ResNet-50 [34]对200个ImageNet类进行分类。图2显

示了五种分布变化。

有效的稳健性和散点图。为了比较模型的鲁棒性与参

考分布的不同精度，我们遵循Taori等人介绍的

有效鲁棒性

框架。[95]第10段。有效稳健性将稳健性量化为

超出

仅

在参考分布上训练的基线的准确度研究（有效）鲁棒

性的有用工具是散点图，该散点图说明了分布偏移下

的模型性能[81，95]。这些散点图

在

x轴上显示参考分

布的准确性，

在

y轴上显示分布偏移下的准确性，即，

模型

被示为点

（Acc

_ref

（

）

，

Acc

_shift

（

））。图

1用示意图和实际数据举例说明了这些散点图对于我们

研究的分布偏移，参考分布的准确度是分布偏移下准

确度的可靠预测因子[68，95]。换句话说，存在函数

β：[0

，

1][0

，

1]，使得对于在训练集上训练的模型

，

Acc

shift

（

）

近似等于

（Acc

ref

（

）

图片标题对。给定一组图像

标题对

（

，

）

，

（

，

）

，类

CLIP

模型训练

图像编码器g和文本

编码器h，使得相似

性

（

）

，

（

）

相对于未对

齐的对被最大化。类

CLIP

模型在给定图像

和类名

，

...

，

通过将

与潜在的字幕匹配。例如，对于

每个类别

使用

cap- tion s

“a photo of a { c i }“，零触

发模型通过arg max j g（x），h（s j）预测类别

。

（

）换句话说

，我们可以用列

（

）构造

零次

Rd×k

，

并计算输出

（

）

（

）

零次

。

除非明确提

到，我们的实验使用

CLIP

型号ViT-L/14@336px，尽管所有CLIP型号都显示在

我们的散点图中（附录F.1中提供了更多详细信息）。

用于微调的重量空间系综

本节描述并激励我们提出的方法WiSE-FT，它由两个

简单的步骤组成一是

ref

. 有效的鲁棒性[95]是超出此基础的准确性

根据应用程序特定的数据微调零触发模型

直线，形式上定义为

ρ （ f ） = Acc

shift

（ f ） −β

（Acc

ref

（f））。

在相应的散点图中，有效耐用性是在分布偏移下垂直

移动超过预期准确度（图1，顶部）。有效的鲁棒性从

而将参考分布上的准确度变化与鲁棒性干预的影响区

分开来。当我们说一个模型对分布移动是鲁棒的，

我们的意思是有效鲁棒性是正的。Taori等人[95]观察

到没有算法稳健性干预在图2中的分布变化中始终实现

实质有效的稳健性-第一种方法是零触发CLIP。经验

上，当应用logit（或probit）轴缩放时，在参考分布上

训练的模型近似位于线性趋势上[68，95]。如Taoriet

al.[95]，我们应用logit轴缩放，并显示选择点准确度的

95% Clopper-Pearson

其次，我们结合了原来的零杆和微调模型的线性插值

之间的权重，也被称为权重空间集成。WiSE-FT可以

在几行PyTorch中实现，我们在附录C中提供了示例代

码。

零激发模型在分布偏移下表现出色，而标准微调在参

考分布上实现了高精度我们的动机是将这两种模式结

合起来，实现两全其美。权空间集成是一个自然的选

择，因为它们集成没有额外的计算成本。此外，以前

的工作表明，当模型共享其优化轨迹的一部分时，权

重空间中的插值可以提高性能[42，71]。

步骤1：标准微调。在第2节中，我们让

零拍模型和CLIP。我们主要研究CLIP

ref

表示用于微调的数据集和gde-

模型[79]，尽管我们也研究了其他零射击模型，包括

ALIGN [44]，BASIC [75]和在JFT上预训练的ViT模型

[21]。零触发模型表现出有效的鲁棒性，并依赖于定性

不同的线性趋势（图1）。CLIP类模型是使用

注意CLIP使用的图像编码器。我们现在明确地写为g

（x

，

enc

），其中x是输入图像，

为了提高准确性，一些候选字幕的嵌入是

一个被改变的，例如，

（

）

“a photo of a c i“

和

（

）

=“a

pictur e of a c i“

（称为快速集成

[ 79 ]

）。

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

提升大型预训练模型零样本和微调的鲁棒性

无差拿预测控制+鲁棒性提高

ChatGPT技术的鲁棒性和模型预训练策略解析.docx

预训练卷积神经网络模型微调的行人重识别.pdf

如何提高NLP模型鲁棒性和泛化能力？对抗训练论文综述.pdf

yolov5预训练模型

ChatGPT预训练模型选择与微调策略深度解析

【YOLO目标检测中的预训练模型选择与微调策略】： 选择与微调策略YOLO目标检测中的预训练模型

对抗性训练：如何用迁移学习提高模型鲁棒性

CBAM自适应优化方法探究：提高模型鲁棒性

在微调大型预训练模型时，如何结合WiSE-FT方法保持鲁棒性并提升零次推理能力？请结合WiSE-FT方法的原理进行说明。

最新资源

【YOLO目标检测中的预训练模型选择与微调策略】：选择与微调策略YOLO目标检测中的预训练模型