提升大型预训练模型零样本和微调的鲁棒性

0 下载量 38 浏览量 更新于2024-06-20 收藏 923KB PDF 举报
"这篇论文探讨了大型预训练模型在零样本推理和微调权重方面的优化策略,以增强模型的鲁棒性。研究者们提出了一个名为WiSE-FT的新方法,该方法在微调过程中同时考虑了零样本推理和微调模型的权重,从而在保持目标分布高准确性的同时,提升了模型对于分布偏移的抵抗力。" 文章中提到,大型预训练模型,如CLIP和ALIGN,已经在零样本推理能力上取得了显著的进步,即它们能够处理未见过的数据或任务,而无需针对特定数据集进行微调。然而,尽管微调可以显著提高特定任务的准确性,但这往往是以牺牲对分布偏移的鲁棒性为代价的。分布偏移指的是测试数据的分布与训练数据的分布存在差异,这是实际应用中常见的挑战。 为了克服这一问题,研究团队提出了WiSE-FT(Weighted Interpolation between Zero-shot and Fine-tuning)方法,它通过对零样本推理和微调模型的权重进行建模,寻求在保持高准确性的同时增强模型的鲁棒性。实验结果显示,与标准微调相比,WiSE-FT在面对分布偏移时能显著提升模型的准确性,同时保持对目标分布的良好性能。例如,在ImageNet及其五个衍生的分布偏移数据集上,WiSE-FT改善了4%到6%的准确性,并在ImageNet上提高了1.6个百分点的精度。此外,WiSE-FT在六个其他分布偏移集合上也显示出了大的鲁棒性增益,范围从2到23个百分点。 值得注意的是,WiSE-FT的这些改进并不需要额外的计算成本,无论是微调过程还是推理阶段。这意味着在实际应用中,模型可以通过采用WiSE-FT方法来提高效率和性能,而不会增加计算负担。这为机器学习模型在广泛数据分布中的可靠性提供了新的解决方案,尤其对于那些资源有限但又需要处理各种数据偏移场景的应用来说,WiSE-FT提供了一种实用且高效的优化策略。 这篇研究工作强调了在微调过程中平衡模型的泛化能力和鲁棒性的必要性,并通过WiSE-FT方法展示了如何实现这一目标。这一创新不仅有助于提高现有预训练模型的性能,还可能启发未来在机器学习和深度学习领域的更多研究,以应对实际应用中的数据多样性挑战。