没有合适的资源?快使用搜索试试~ 我知道了~
基于声明的可视化提问提示调优
+v:mala2277获取更多论文基于声明的可视化提问提示调优刘宇航1、2,魏伟1、2,彭道万1、2,朱飞达31华中科技大学计算机科学与技术学院认知计算与智能信息处理(CCIIP)实验室2华中科技大学平安产险研究联合实验室(HPL),中国3新加坡管理大学计算与信息系统学院{lyuhang,weiw,pengdw} @ hust.edu.cn,fdzhu@smu.edu.sg摘要近年来,预训练-然后微调范式在广泛的跨模态任务上取得了巨大的成功,例如视觉问题回答(VQA),其中视觉语言(VL)模型首先通过自监督任务目标进行优化,例如,掩码语言建模(MLM)和图像-文本匹配(ITM),然后进行微调以适应下游任务(例如,VQA)通过一个全新的目标函数,例如,答案预测然而,目标形式的不一致性不仅严重限制了预训练VL模型对下游任务的泛化,而且还需要大量的标记数据进行微调。 为了缓解这个问题,我们提出了一种创新的虚拟现实微调范例(命名为Declaration-basedP romptT uning,简称DPT),其使用预训练目标微调下游VQA具体来说,DPT通过(1)文本改编,将给定的问题转换为陈述句形式以进行调整,以及(2)任务自适应,以预训练阶段的方式优化VQA问题的目标函数。在GQA数据集上的实验结果表明,DPT在全监督(2.68%)和零镜头/少数镜头(超过31%)设置下的准确率方面都大大数 据 和 代 码 可 在 www.example.com 上 获 得https://github.com/CCIIPLab/DPT。1介绍最近,大规模视觉语言预训练已经成为多模态社区中的新兴话题,并且在许多视觉语言任务中提供了强大的性能 [Yaoet al. , 2021;Liet al. , 2020;Zhanget al. ,2021;Chenet al. , 2020; Lu 等 人 , 2019; Suet al. ,2020]。通常,常用的实践是遵循预训练然后微调的范例[Liuet al. 2021b),其中,*通讯作者。(d)基于声明的快速调优(我们的方法)图1:(a)VQA示例和VL模型的格式化输入,(b)使用掩码语言模型(MLM)和图像-文本匹配(ITM)任务预训练VL模型,(c)使用新分类头对VQA进行普通微调,以及(d)我们提出的基于声明的提示调优(DPT)框架,该框架通过文本和任务适应将VQA任务重新制定为填空和图像-文本匹配问题。仅示出了相关图像区域的部分以用于说明。Transformer [Vaswaniet al. ,2017]以自监督的方式在大规模图像-文本数据集上进行预训练,然后通过引入附加参数和使用任务特定的对象进行微调来适应不同的下游任务,例如, 用于视觉问答中的答案分类的辅助全连接层。这种范式极大地推动了VQA任务的发展。尽管取得了令人鼓舞的性能,但值得注意的是,在预训练和微调阶段之间存在客观形式的天然差距。如图1(b-c)所示,大多数VL模型都是通过掩码语言建模和图像-文本匹配目标进行预训练的,即,在跨模态上下文上恢复被掩蔽的标记,并预测图像-文本对的匹配分数然而,在微调阶段,VQA问题通常使用全新的任务目标进行优化,即,将[CLS]标记分类为语义标签(即,答案),问:女孩留下的红色物体是什么?A:托盘[CLS]什么是的红色对象女孩的左边[SEP](a)VQA示例和VL模型的格式化输入... [ CLS]一个女孩[面具]....[CLS]什么是的红色...ITM头0/1保持(b)预训练VQA头托盘(c)微调VQA头托[CLS]一红[面具]布盘食品是女孩留下的[SEP]ITM头top-k答案0/1传销头文本改编arXiv:2205.02456v1 [cs.CV] 2022年5月+v:mala2277获取更多论文∼∼其中通常引入附加参数。因此,预训练和微调之间的任务形式存在很大的差异。这一差距阻碍了预训练的VL模型到下游VQA任务的一般化,这导致次优性能和对大量标记数据的需求以进行微调。受视觉语言预训练模型(VL-PTM)的最新进展的启发[Liet al. ,2020; Zhanget al. ,2021]和跨模态域中的提示 调 优 范 例 [Yaoetal. , 2021;Tsimpoukelliet al. ,2021;Radfordet al. ,2021],提出了一种新的VQA问题VL-PTM的精细调整方法--基于D放大的Pompt Tuning(DPT).我们的核心见解是将下游VQA任务的目标形式重新制定为预训练阶段的格式为了实现这一目标,我们从两个方面重新制定了VQA任务(参见图1(d)):(1)转换文本输入的文本适应(即,问题)转换成陈述句形式;(2)任务适应,通过从陈述句中重新覆盖被掩蔽的标记,并选择最匹配图像的标记来解决VQA。通过这种方式,可以通过完形填空和图文匹配来实现答案预测,模仿MLM和ITM任务在预训练阶段的行为。通过减少预训练和微调之间的差距,DPT在完全监督和零/少数镜头设置中实现了各种VL模型和VQA数据集的强大性能。例如,在准确性方面,我们的方法在全监督设置中实现了2.68%的绝对改进此外,VQA v2.0配备最近提出的VL模型的泛化实验显示0.45%-1.01%的绝对改善相比,香草微调方法。概括而言,主要贡献如下:• 我们介绍了基于D-放大的P-整优(DPT),这是一种新的微调范式,通过将下游问题适应于预训练任务格式来解决VQA据我们所知,这是第一次尝试在提示调整使用声明句的视觉问答。• 我们提出了新的文本和任务适应方法,将VQA重新定义为完形填空和图文匹配问题,即, MLM和ITM。适应任务显着优于微调同行在完全监督和少数镜头设置。• 我们在各种VL-PTM和VQA数据集上进行了全面的实验,证明了DPT的有效性和通用性。2相关工作2.1预先训练的视觉语言模型最近,存在许多关于训练用于各种下游跨模态任务的通用 模 型 的 工 作 [Liuet al. , 2021a] , 诸 如 视 觉 问 答(VQA)或图像标题[Choet al. ,2021; Radfordet al. ,2021; Kimet al. 、2021;Zhang 等 人 , 2021;Liet al. , 2020;Cheng 等 人 ,2020;Tan和Bansal,2019]。通常,常用的实践是遵循从模型预训练到模型微调的范例。具体而言,在预训练阶段,BERT类架构[Devlinet al. ,2019年]首先构建用于通过各种自监督任务学习多模态表示的预训练,例如,在多模态上下文中恢复掩蔽的文本标记的掩码语言模型(MLM )任务[Tan和Bansal,2019年;Liet al. ,2020年],或图像-文本匹配(ITM)任务,以验证图像与给定文本的对齐[Tan和Bansal,2019;Zhang 等人,2019年]。,2021]。接下来,在微调阶段,预训练的模型然后被微调以适应使用完全不同的任务特定目标的下游在这项工作中,我们没有在微调阶段优化全新的任务目标,而是尝试将VQA重新制定为预训练格式,从而将预训练的VL模型有效地推广到下游任务。2.2跨模态提示调优最近,即时调整由于其在保持预训练模型和下游任务的优化目标一致方面的强大能力而越来越受到关注[Liuetal.,2021b;Radfordetal.,2021;Yaoetal.,2021;Tsimpoukelliet al. ,2021],这使得预训练的模型能够推广到具有很少/零样本的下游任务以进行微调。事实上 , 已 经 存 在 关 于 这 个 主 题 的 许 多 尝 试 , 例 如 ,[Radfordet al. ,2021;Zhouet al. ,2021]利用精心制作的模板和可学习的连续表示来重新制定下游任务的目标形式 。 [Choet al. , 2021; Jinet al. , 2021;Tsimpoukellietal. ,2021]考虑利用统一的文本生成框架以自回归目标进行统一优化。然而,由于问题本身语义的复杂性,固定的模板或预先定义的统一生成范式在设计合适的提示模型时可能存在不足。为了克服这个问题,本文提出了一种创新的基于陈述的提示模型,该模型利用问题自适应陈述句作为提示模板,使VQA任务的文本格式与预训练阶段更加一致,减少了预训练和微调阶段之间的文本差距。3方法在以下部分中,我们首先介绍VQA任务的问题状态(第3.1节)。然后,我们描述我们提出的DPT方法(第3.2节)。总体框架如图2所示。具体来说,图像和问题被转换为输入形式,并被馈送到预训练的VL模型进行多模态融合,其中通常引入声明以进行快速调整。之后,利用模型的输出来执行适应的MLM和ITM任务,用于模型微调和决定答案。3.1初步在本文中,我们遵循[Agrawal]中的问题定义等人,2015],因此VQA问题被公式化为+v:mala2277获取更多论文任务适应(MLM)分类任务适应(ITM)匹配CsansTopKC{smat}K1k0的gt公元VQAMLMCEaGT{a}K1k0VQAITM情态型嵌入词位嵌入词嵌入特殊令牌嵌入Bbox区域功能CConcat输出H[CLS]H[MA SK]/ak特征路径梯度路径0 001...0150 16...0210 22[CLS]问题宣言[SEP]文本改编声明生成问题编解码器宣言------m+n+2--11...11...多层变压器图2:我们提出的DPT方法的框架。问题被转换为声明,这些声明被连接成文本输入形式,并与区域特征一起被馈送到预先训练的VL模型。输出的[MASK]和[CLS]表示将提示模型预测答案分数或(图像-文本)匹配分数。多类分类问题形式上,VQA任务的目标是在给定图像I和问题Q时从候选答案集中选择正确答案a。为此,我们提出了VQA的经典范式,即预训练然后微调范式。预训练-然后微调范式。给定一个通用架构,例如,Transformer,该模型首先通过手动设计的自监督任务在大规模图像-文本语料库上进行预训练,例如,MLM和ITM。为此,从图像I提取的一组区域提议,o1,o2,...,on和问题的词嵌入Q,e1,e2,. em转换为输入格式,即,e[CLS],e1,e2,...,em,e[SEP],o1,o2,...,on,其被馈送到模型并被融合以产生隐藏表示hii=0,其中e[CLS]、e[SEP]是特殊令牌的嵌入。该模型进一步优化使用自监督目标.然后,在VQA任务的微调阶段,输出[CLS]被用来执行多类分类,并通过交叉熵损失进行优化。该范式引入了一个全新的微调任务,需要大量的标记数据在下游任务中进行泛化。3.2基于声明的提示调优促进预训练VL模型的泛化对于下游VQA任务,我们提出了一个基于声明的提示调优(DPT)范式,将VQA重新定义为预训练任务格式。如图1(b-d)所示,存在两个挑战,即,不同形式的文本输入(问题与声明)和不同的任务目标(传销ITM与答案分类)。为了解决这些问题,我们提出了(1)文本适应模块,将问题转换为相应的陈述句,(2)任务适应模块重新制定答案预测-基于声明生成的文本适配旨在转换文本输入(即,问题)到预训练表格(即,陈述句),例如,“女孩留下的红色物体是什么?“是”一个红色[面具]是女孩留下的。“.为此,我们引入了声明生成,它将此过程表示为一个翻译问题,其中源文本和目标文本分别是问题和相应的dec-panel。形式上,我们首先使用GQA数据集的注释构建声明数据集[Hudson和Manning,2019 a],其中然后,编码器-解码器网络(T5 [Raffelet al. 2020年]),该数据集并使用标准自回归交叉熵损失进行优化。最后,该模型可以用于将问题转换为各种VQA数据集的陈述句,例如,GQA [Hudson 和 Manning , 2019 a] 和 VQA [Agrawal 等人,,2015]。更多详细信息请参见第4.1附录任务适应配备陈述句,VQA可以被改造成预训练任务格式,即,MLM和ITM。顺应主要涉及文本输入格式和任务目标两个 方 面 。 具 体 来 说 , MLM 在 文 本 输 入 中 保 留 一 个[MASK]标记,并通过多类分类来预测答案。 用顶部替换[MASK]-从MLM预测的k个候选答案,并使用二进制分类来预测匹配分数。适应MLM任务。为了将VQA重新公式化为MLM任务,问题和声明句被连接以形成文本输入:传销MLM和ITM任务。这两个经过调整的任务被结合起来决定最终的答案。T(Q)=[CLS]Q答案:D[SEP](1)其中,TMLM表示与MLP[CLS]MLP[CLS][面具]+v:mala2277获取更多论文联系我们0我j=0j∈CVQAD传销{}−KKK不KKKKGTK将问题Q转换为输入格式。D表示第二句。在等式(1)中,我们将问题保留在文本输入中,因为我们发现由于缺乏推理上下文,单独使用声明语句会降低性能(详细信息请参阅附录值得注意的是,D保留了一个[MASK]令牌,例如,一个红色的面具是女孩留下的 在这其中I[x]:X0,1 表示指示器功能, 如果x为正,则取1,否则取0。训练和推理。 在任务适应的顶部,VQA已经被重新表述为MLM和ITM问题。在训练过程中,我们从方程中整合损失项。(4)和(9)微调VL模型。DPT的总损失定义为:方式,提示模型决定要填充的标记,V QAV QA掩码,它准确地指示答案单词/短语。在自适应文本输入的基础上,利用预训练的VL模型融合文本和图像特征,产生一组隐藏表示。[2019 - 05 -15][2019 - 05][201 h[CLS]和h[MASK])进行关联以预测答案:LDPT=LMLM+LITM,(11)在推理过程中,通过简单求和将MLM和ITM预测的归一化分数组合,并选择具有最高分数的答案作为最终预测结果,定义如下:sans=MLPMLM([h[CLS] ;h[MASK] ]),(2)ar=ar gmaxa<$∈{a<$i}K−1(p1(a)+p2(a)),(12)p1(a=ai|Q,D,I)=经验(sans)|经验(s ans)|exp(sans)、(3)零镜头和少镜头学习。配备了DPT,以前的预训练VL模型也可以轻松转换为基于零镜头或少镜头学习的VQA任务,仅其中sansR| C|表示答案集上的分数。该模型使用交叉熵损失进行优化,定义为:LMLM= −ED[logp1(a|Q,D, I)],(4)其中gt是地面实况答案。表示VQA数据集。如果将等式(2)和(7)重新公式化为与预训练短语中的等式相同的形式,并且用预训练权重初始化,其可以重写如下,sans=MLPpt(h[MASK]),(13)smat=MLPpt(h[CLS]),(14)适应ITM任务。 将VQA重新制定为ITMkITM任务中,声明语句D中的[MASK]标记被前k个答案替换一个100,一个101,...,a从等式(2)预测的k<1,导致K个候选声明:其中,MLP_pt表示利用预训练的权重向量初始化的MLP层。由于答案的数量少于词汇标记,只有对应的权重ansansans取应答字来初始化MLPpt。{D0,D1、...、 DK−1}。(五)基于候选,文本输入可以经由问题Q和声明句Dans的级联来形成,定义如下:4实验4.1实现细节传销ITM(Q)=[CLS]Q答案:Dans[SEP](6)数据集。GQA [Hudson and Manning,2019 a]和VQAv2.0 [Agrawalet al. 2015年,用于建立声明生成器,其中ITM表示转换函数。D ansde-注意到声明句,其中[MASK]到-ken被第k个候选答案ak,e所取代。例如,在一个实施例中,那个女孩留下了一个托盘/食物/衣服。以这种方式,提示预先训练的VL模型来确定图像-文本是否匹配。为了实现这一点,图像和文本输入被馈送到VL模型,并且来自[CLS]的输出和对k en(i. 例如,h[CL S]和hak)被级联以预测匹配分数:smat=MLPITM([h[CLS];haM]),(7)计算数据集,并评估我们提出的方法上VQA任务。更多详情见附录。模特训练T5-小[Raffelet al. ,2020]被选择用于声明生成。至于VQA,VinVL [Zhangetal. ,2021]被选为我们的基础架构。我们提出的DPT通过文本和任务适应应用于VinVL。使用适应的任务目标对模型进行微调,从而产 生 关 于 用 于 训 练 的 任 务 的 两 个 变 体 , 即 , DPT(MLM)和DPT(MLM ITM)。用于ITMK的答案数量设置为8。为了公平的比较,我们遵循与先前作品中报告的相同的训练设置,p2(a=a,k|Q,D和s,I)=S形(smat),(8)其中,smat表示图像的匹配分数,并且第k个候选答案。直觉上,具有真实答案的图像-文本对应该具有更高的匹配分数。因此,使用二进制交叉熵损失优化模型,定义如下:yk=I[ak=agt],(9)不+v:mala2277获取更多论文VQADKITM2KK2KK−1型以下实验。超参数的详细信息见附录。4.2实验结果对于GQA数据集的在线评估,我们将我们的方法与最先进的模型进行比较,包括非预训练模型,即,MMN[Chenet al. , 2021] , NSM [Hudson 和 Manning , 2019b],以及预先训练的VL模型,即,LXMERT[Tan和Bansal,2019],VILLA[GanetL=−E1年[y]k=0logp(a)+(1−y)log(1−p(a))],(10)al. ,2020],OSCAR [Li et al. ,2020]、VinVL [Zhang etal. 、K2021年],MDETR[Kamath等人,2021],VL-T5[Choetal. 、+v:mala2277获取更多论文†方法预先训练准确度(%)测试开发测试标准品模型任务准确度(%)误差(%)基线74.05 0.00DPTbalDPT63.55 63.57✓65.20 64.92表3:VQA v2.0数据集上不同预训练VL模型的DPT有效性验证。(%)表示与基线相比的绝对准确度改善幅度。表1:GQA数据集的准确度比较。'-'和'表示数字不可用,我们的实现重新启动。bal表示在平衡分割上训练的模型。准确度(%)提示输出任务GQA VQA v2基线[C]基线60.2674.05掩模[C]&[M]传销60.8874.30动态[C]&[M]传销62.0974.39[M]传销60.0373.90宣言[C]&[M][C]&[M]传销传销ITM62.7163.1374.3974.50表2:陈述句在GQA和VQA v2.0数据集上进行提示调整的有效性验证输出和任务分别表示用于预测的输出和用于微调的自适应任务。[C]而[M]则被缩写为[CLS]和[MASK]。2021年]。 结果报告于表1中。 当只利用平衡分割进行训练时,我们的方法在test-dev和test-std上分别实现了63.55%和63.57%的总体准确率,优于最先进的非预训练/预训练模型。具体而言,我们的方法(DPTbal)超过了微调对应物(VinVLbal),在测试标准品上有2.68%的显著性差异。当使用所有分裂来引导我们的模型时,类似于[Chenet al. ,2021;Zhanget al. ,2021],我们的方法(DPT)在总体准确性方面仍然排名第一,并且在测试标准差方面优于对应物(VinVL)0.27%。在所比较的模型中,MMN和NSM即使不进行预训练也能取得有竞争力的结果,这要归功于使用故意生成的场景图或对执行程序的监督。4.3消融研究为了更深入地了解DPT,我们进一步对GQA和VQA v2.0数据集的本地验证分割进行消融研究(GQA上的textdev和VQA v2.0上的val不同的提示。 为了说明陈述句对于提示调整的有效性,在表2中提出了几个提示变体用于比较,定义如下:• 基线: Vanilla微调VinVL [Zhanget al. 、#20201;,不急不缓。• 面具:• 动态:“回答:[V1] [V2] ...... [V16][MASK]"。• 声明(我们的):其中,如表2所示,在GQA数据集上,我们提出的基于声明的提示比手动设计的模板更有效(即, 面具和动态)。例如,带有MLM任务的DPT(第5行)分别以1.83%和0.62%超过了Mask和Dynamic。配备了MLM和ITM任务,我们的完整模型(第6行)超过基线2.87%。为了测量结果的置信度,我们在GQA和VQA v2.0数据集上对我们的最佳性能模型进行了额外的3次运行,分别得到0.10%和0.06%的标准偏差不同数据集的通用性。表2显示了VQA v2.0上不同提示的消融结果。与GQA的结果一致,我们提出的DPT优于使用固定模板的微调,即,遮罩或动态。具体来说,我们的模型与DPT的基线了0.45%。GQA和VQA之间的准确率差异(2.87%vs.0.45%)主要是由于问题的复杂性和生成的声明语句的质量(详见附录)。不同VL模型的通用性 为了说明我们提出的方法在不同预训练VL模型上的通用性,我们将我们的DPT应用于最近提出的VL模型,这些模型已经通过MLM和ITM任务进行了预训练,例如, UNITER [Chenet al. ,2020]和ViLT [Kimet al. ,2021]。如表3所示,对于所有三个基线,配备我们的DPT方法,可以观察到一致的性能例如,ViLT+DPT和UNITER+DPT与微调对应物相比分别实现了0.46%和1.01%的绝对性能增益。不同问题类型的准确性 图3显示了不同问题语义类型的准确性细分。可以观察到,调整后的MLM任务在属性问题中相对于基线实现了大的准确性提高MMN[2021]NSM[2019 b]’--60.8363.17VinVL[2021]传销传销ITM74.3974.500.340.45LXMERT[2019]60.0060.33基线70.710.00别墅[2020]奥斯卡[2020]60.9861.5861.1261.62ViLT[2021]传销MLM ITM71.0171.170.300.46VL-T5[2021]MDETR[2021]VinVL†bal[2021]VinVL[2021]✓-62.9560.7665.0560.8062.4560.8964.65UNITER[2020]基线传销传销ITM67.7268.6968.730.000.971.01+v:mala2277获取更多论文DPDPT(MLM ITM)T(传销)线基地基线掩码动态DPT(MLM)DPT(MLM ITM)DPT(MLM)DPT(MLMITM)∼∼∼95908580757065605550属性类别全局对象题型关系问:钢笔在照片的哪一边?D:笔在图片的[面具]一侧。GT:对Q:谁穿的裙子?D:[面具]是穿着裙子GT:女孩基线:左DPTMLM:右DPTMLM ITM:右基线:儿童DPTMLM:儿童DPTMLM ITM:女孩图3:GQA数据集上问题语义类型的准确性分解。453540303530252520201515101055000 1 2 4 8 16 32 64 128培训样本图4:GQA数据集上零次和少次设置下的Testdev精度。报告5个随机分组的平均值和标准差。表示与基线相比的绝对精度改进。(70.46%vs. 64.87%)。这显示了基于声明的提示在捕获对象属性方面的优势此外,调整后的ITM任务在全局问题上带来了更多的性能提高(59.24% vs. 56.69%),表明其在全局语义理解方面的优越能力。4.4零发射和少发射结果图4显示了GQA数据集上零炮和少炮设置的精度。我们提前删除了抽样分割中的是/否问题,因为大部分是/否问题(分别有18.81%和17.47%的问题回答是和否)将导致基线评估的较大差异(8%)。如图4所示,可以观察到DPT优于普通微调计数器和其他提示变量(即,掩模和动态)的显着保证金。例如,在没有样本进行训练的情况下,我们的DPT实现了36.6%的高准确率,而微调对应物由于随机猜测而无法预测正确答案当提供1128个样本时,我们的DPT方法与基线相比获得了31.8%~37.4%的绝对精度提高。4.5为例在图5中,我们可视化了我们提出的DPT方法的两个成功案例。关于第一种情况,基线图5:基线预测和我们提出的DPT方法的可视化。Q、D和GT分别表示问题、生成的陈述句和真实答案对“左”和“右”产生几乎相同的概率,表明它在解决这种方向相关问题时的弱点。相比之下,我们的DPT具有掩蔽语言模型的能力,可以自信地预测正确的答案。至于第二种情况,基线模型和DPTMLM都错误地预测了答案“child”,主要是因为“child”是训练集中出现频率更高的对象。此外,“孩子”是“女孩”和“男孩”的上位词,使其成为许多问题的通用答案。与此相反,DPT与改编的ITM任务考虑到了答案的语义,并给出了较高的分数,答案5结论我 们 建 议 将 VQA 任 务 重 新 表 述 为 掩 蔽 语 言 模 型(MLM)和图像-文本匹配(ITM)问题,最大限度地减少视觉语言(VL)预训练和微调阶段之间的差距为了实现这一点,我们首先将问题转换为具有保留的[MASK]或候选答案的陈述句,从而减轻关于文本输入的差异然后通过任务自适应将VQA问题转化为预训练格式,以MLM和ITM任务的方式求解VQA问题。在两个基准测试上进行的大量实验验证了我们提出的DPT范式在完全监督和零镜头/少数镜头设置下对不同预训练VL模型的有效性和通用性6确认本工作得到了国家自然科学基金项目(61602197、L1924068、61772076)、CCF-AFSG研究基金项目(RF20210005)、华中科技大学与平安产险&研究院联合实验室项目(HPL)和新加坡国家研究基金会(NRF)的人工智能新加坡项目(AI Singapore Program)的资助(AISG奖号:AISG-GC-2019-003)。本材料中表达的任何观点、发现和结论或建议均为作者的观点,并不反映新加坡国家研究基金会的观点。作者还要感谢匿名审稿人对提高本文质量的意见。准确度(%)准确度(%)+v:mala2277获取更多论文引用[Agrawal et al. Aishwarya Agrawal,Jiasen Lu,StanislawAntol,Margaret Mitchell,C.劳伦斯·齐特尼克,德维·帕里克和德鲁夫·巴特拉。VQA:可视化问答。国际计算机视觉杂志,123,2015。[Chen et al. Yen-Chun Chen ,Linjie Li ,Licheng Yu ,Ahmed El Kholy , Faisal Ahmed , Zhe Gan , YuCheng,and Jingjing Liu.Uniter:通用的图像-文本表示学习。在ECCV,2020年。[Chen et al. , 2021] 陈 文 虎 , 甘 哲 , 林 杰Li , YuCheng,William Yang Wang,and Jingjing Liu.用于组合视觉推理的Meta模块网络。2021年IEEE计算机视觉应用冬季会议(WACV)。[Cheng et al. Ling Cheng , Wei Wei , Xianling Mao ,Yong Liu,and Chunyan Miao. Stack-vs:用于图像标题生成的堆叠视觉语义注意力IEEE Ac-cess,2020年8月。[Cho et al. Jaemin Cho , Jie Lei , Haochen Tan , andMohit Bansal.通过文本生成统一视觉和语言任务在ICML,2021年。[Devlin et al. Jacob Devlin,Ming-Wei Chang,Ken- tonLee,and Kristina Toutanova. Bert:深度双向转换器的语言理解预训练。ArXiv,2019年。[Gan et al. 2020] Zhe Gan,Yen-Chun Chen,Linjie Li,Chen Zhu,Yu Cheng,and Jingjing Liu.视觉和语言表征学习的大规模对抗训练。ArXiv,2020年。[Hudson 和 Manning , 2019 a] Drew A. Hudson 和Christopher D.曼宁Gqa:一个用于真实世界视觉推理和组合问题回答的新数据集。2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),2019年。[Hudson 和 Manning , 2019 b] Drew A. Hudson 和Christopher D.曼宁抽象学习:神经状态机。2019年在NeurIPS[Jin et al. Woojeong Jin , Yu Cheng , Yelong Shen ,Weizhu Chen,and Xiang Ren.一个好的提示符值几百万 个 参 数 ? 用 于 视 觉 语 言 模 型 的 基 于 低 资 源 的ArXiv,2021年。[Kamath et al. Aishwarya Kamath,Mannat Singh,YannLeCun,Ishan Misra,Gabriel Synnaeve,and Nico- lasCarion.用于端到端多模态理解的调制检测。ArXiv,2021年。[Kim et al. Wonjae Kim , Bokyung Son 和 Ildoo Kim 。Vilt:视觉和语言转换器Transformer,无需卷积或区域监督。在ICML,2021年。[Krishna et al. ,2016] R.克里希纳,玉科朱镕基说, O. 格罗斯,J. Johnson , K.放 大 图片 作 者 :Hata , J. Kravitz ,Stephanie Chen,Yannis Kalantidis,L.作者:David A.作者:Michael S.伯恩斯坦和李飞飞。视觉基因组:使用众包密集图像Annos连接语言和视觉站。国际计算机视觉杂志,123,2016。[Li et al. Xiujun Li , Xi Yin , Chunyuan Li , XiaoweiHu,Pengchuan Zhang ,Lei Zhang ,Lijuan Wang,Houdong Hu,Li Dong,Furu Wei,Yejin Choi,andJianfeng Gao.Oscar:面向视觉语言任务的对象语义对齐预训练。在ECCV,2020年。[Liu et al. Daizong Liu,Shuangjie Xu,Xiao-Yang Liu,Zichuan Xu,Wei Wei,and Pan Zhou.基于时空图神经网络掩模重构的视频对象分割。在AAAI,2021年。[Liu et al. 刘鹏飞,袁伟哲,傅锦兰,姜正宝,林广明,格 雷 厄 姆 · 诺 伊 比 格 。 Pre-train , prompt , andpredict:A systematic survey of prompting methods innatural language processing.ArXiv,2021年。[Lu et al. Jiasen Lu,Dhruv Batra,Devi Parikh和StefanLee。Vilbert:针对视觉和语言任务的任务不可知的语言表征预训练。2019年在NeurIPS[Radford et al. Alec Radford 、 Jong Wook Kim 、 ChrisHallacy 、 Aditya Ramesh 、 Gabriel Goh 、 SandhiniAgar-wal 、 Girish Sastry 、 Amanda Askell 、 PamelaMishkin 、 Jack Clark 、 Gretchen Krueger 和 IlyaSutskever。从自然语言监督中学习可转移的视觉模型。在ICML,2021年。[Raffel et al. [Colin Raffel , Noam M. Shazeer , AdamRoberts , Katherine Lee , Sharan Narang , MichaelMatena,Yanqi Zhou,Wei Li,and Peter J.刘某使用统一的文本到文本Transformer探索迁移学习的局限性ArXiv,2020年。[Su et al. Weijie Su,Xizhou Zhu,Yue Cao,Bin Li,Lewei Lu,Furu Wei,and Jifeng Dai. Vl-bert:通用视觉语言表征的预训练。ArXiv,2020年。[Tan and Bansal,2019] Hao Hao Tan and Mohit Bansal.Lxmert:从transformers学习跨模态编码器表示。在EMNLP,2019年。[Tsimpoukelli et al. , 2021] Maria Tsimpoukelli , JacobMenick,Serkan Cabi,S. M. Ali Eslami Oriol Vinyals和Felix Hill使用冻结语言模型的多模态少量学习。ArXiv,2021年。[Vaswani et al. Ashish Vaswani , Noam Shazeer , NikiParmar , Jakob Uszkoreit , Llion Jones , Aidan NGomez,Lukasz Kaiser,and Illia Polosukhin.你需要的只是关注。在NIPS,2017年。[Yao et al. Yuan Yao , Ao Zhang , Zhengyan Zhang ,Zhiyuan Liu,Tat-Seng Chua,and Maosong Sun.Cpt:针对预先训练的视觉语言模型的Col- orful提示调优。ArXiv,2021年。[Zhang et al. Pengchuan Zhang , Xiujun Li , XiaoweiHu,Jianwei Yang,Lei Zhang,Lijuan Wang,YejinChoi,and Jianfeng Gao.Vinvl:重新审视视觉语言模型中的视觉2021 IEEE/CVF计算机视觉和模式识别会议(CVPR),第5575-5584页+v:mala2277获取更多论文[Zhou et al. ,2021]开阳周先生,靖康Yang,ChenChange Loy,and Ziwei Liu.学习提示视觉语言模型。ArXiv,2021年。+v:mala2277获取更多论文3附录A数据集VQA v2.0。VQA v2.0 [Agrawalet al. ,2015]是最常用的VQA基准。它包含真实的图像和带注释的问答对。每张图片平均有5个问题。每个问题都有10个由不同注释者注释的答案,最常见的答案被视为分裂图片数量问题数#词汇火车72,140943,000ValTest-dev10,234398132,06212,5783,097测试2,98795,336所有85,7591,182,9763,097表5:GQA数据集中作为真实的答案数据集分为train、val和测试集,在表4中进行了统计学详述。评估度量(即,准确度)对人与人之间的变异性具有鲁棒性,计算如下:Acc(ans)=min,说ans的人数量,1,(15)GQA。 GQA [Hudsonand Manning,2019 a]是一个VQA数据集,其特征在于对真实世界图像的组合问题回答和视觉推理。在Visual Genome的场景图注释的帮助下[Krishnaetal. ,2016],GQA能够最大限度地减轻在以前的VQA数据集中广泛存在的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功