声明式提示调优:提升视觉问答性能的新方法

0 下载量 197 浏览量 更新于2024-06-16 收藏 1.57MB PDF 举报
"本文提出了基于声明的可视化提问提示调优(Declaration-based Prompt Tuning,简称DPT),这是一种针对预训练视觉语言(VL)模型进行微调的新方法,旨在解决预训练与微调目标不一致的问题,提高模型在视觉问答(VQA)等任务上的泛化能力。DPT通过文本改编将问题转化为陈述句形式,并采用任务自适应的方式优化目标函数。实验结果显示,DPT在全监督和少样本设置下均能显著提升VQA的准确性。" 近年来,预训练-微调范式在多模态领域,特别是视觉语言任务如视觉问题回答(VQA)中,已成为主流。预训练模型通过自监督任务,如掩码语言建模(MLM)和图像-文本匹配(ITM),学习跨模态的表示。然而,预训练阶段和微调阶段的目标函数差异,可能导致模型在下游任务中的泛化能力受限,同时需要大量标注数据进行微调。 为了解决这一问题,研究者们提出了DPT方法。DPT的核心在于将原始问题转换成声明性的陈述句,以便更好地与预训练阶段的任务对齐。此外,DPT还采用了任务自适应策略,即沿用预训练阶段的目标函数来优化VQA任务。这样做的好处是,可以减少预训练和微调之间的目标不匹配,同时降低对大量标注数据的依赖。 在GQA数据集上的实验显示,DPT在全监督设置下提高了2.68%的准确率,而在零样本或少样本设置下,性能提升超过了31%。这表明DPT在未见过的数据或有限标注数据的情况下,也能保持出色的泛化能力。 DPT的创新之处在于其结合了文本改编和任务自适应,提供了一种有效的方法来调整预训练VL模型以适应VQA任务。这种方法对于减少对大量标注数据的依赖和提高模型的迁移学习能力具有重要意义。未来的研究可能进一步探索DPT在其他视觉语言任务中的应用,或者改进DPT以适应更复杂的任务和环境,如虚拟现实场景。 论文和相关代码可以在指定网址上找到,这为研究人员和开发者提供了实践和扩展DPT方法的资源。这项工作为多模态理解和交互的智能系统设计提供了新的思路,有助于推动预训练模型在视觉问答和相关领域的应用。