没有合适的资源?快使用搜索试试~ 我知道了~
16804特定任务感知模型视频文本图像文本模型A模型B模型CUni-Perceiver(我们的)输入视频联合概率估计适用于各种任务,例如,视频分类目标className图像图像分类类名文本统一模型图像检索统一模型文本视频检索图像视频图像文本VQA答案视频文本…视频字幕…分担各种模式和任务词…单感知器:用于零镜头和少镜头任务的通用感知的预训练统一架构Xizhou Zhu1人,Jinguo Zhu2人,Hao Li4人,XiaoshiWu4人, Hongsheng Li4人,Xiaohua Wang2人,JifengDai3人1商汤科技2西安4香港中文大学-商汤科技联合实验室zhuwalter@sensetime.com,lechatelia@stu.xjtu.edu.cn,{haoli,wuxiaoshi}@ link.cuhk.edu.hkhsli@ee.cuhk.edu.hk,daijifeng001@gmail.com,xhw@mail.xjtu.edu.cn摘要动物的生物智能系统通过整合不同模态的信息并同时处理各种任务来感知世界。相比之下,当前的机器学习研究遵循特定于任务的范式,导致任务之间的低效协作以及为新任务开发感知模型的高边际成本。在本文中,我们提出了一个通用的感知架构命名为Uni-Perceiver,它处理各种形式和任务的统一建模和共享参数。具体而言,Uni-Perceiver将来自任意模态的不同任务输入和目标编码到统一的表示空间中,该表示空间具有模态不可知的Trans-former编码器和轻量级模态特定的tokenizer。不同的感知任务被建模为相同的公式,即通过其表示的相似性为每个输入找到最大似然目标。该模型在几个单模态和多模态任务上进行预训练,并在各种下游任务上进行评估,包括在预训练阶段没有出现的新任务。结果表明,我们的预训练模型无需任何调整,即使在新任务上也可以实现合理的性能。通过对1%的下游任务数据进行即时调整,可以将性能提高到接近最先进方法的水平。全数据微调进一步提供与最先进的结果相当或更好的结果应发布代码和预先训练的重量。1. 介绍动物的生物智能系统通过接收不同形式的信息来感知世界,*同等贡献。[2]本研究是朱金国、李昊和吴晓诗在商汤科技研究院实习时完成的通讯作者。任务负责人1任务负责人2任务主管3任务负责人4视频分类VQA图像检索句子分类的图1.将以前的特定任务感知模型与我们提出的Uni-Perceiver进行比较,Uni-Perceiver使用单个连体模型和共享参数处理各种模式和任务与复杂的中枢神经系统协调,同时处理不同的任务。然而,设计一个通用的人工感知模型,处理多种形式和众多的任务一直被认为是太困难了。为了简化这个问题,先前的机器学习研究集中于为来自某些受限模态的输入开发专用模型,卷积神经网络[45]用于视觉识别,变换器[80]用于自然语言处理。最近,变形金刚在图像[10,20,51,76,78,82,84,90]和视频[4,6,87]识别,这引发了为不同模式设计统一架构遵循这种范式,最近的作品[1,27,33,64]采用转换器作为多模式应用程序的主干,例如16805视觉语言识别它们将来自不同模态的输入转换为具有特定模态的标记器的统一输入标记序列模型使用大规模多模态数据集进行预训练,然后通过微调适应尽管有能力处理多模态信息与统一的架构,目前的方法仍然需要特定的设计和培训不同的任务。这种限制是由两个原因造成的首先,特定模型的输入是其目标任务所需的特定模态的组合其次,以前的工作需要专门设计和训练的目标任务的预测头。我们认为,这种特定任务的范式与设计通用感知模型的目标相冲突。具体而言,在预训练期间,针对不同任务的专门化设计阻碍了任务之间的协作,这可能会损害表征能力。同时,当一个预先训练好的模型被应用于一个新的任务时,输入格式和预测头需要重新设计,并在足够的下游数据上进行微调需要在收集和注释数据方面作出相当大的努力。此外,需要为每个下游任务复制和维护所有参数,随着任务数量和模型大小的增长,这变得低效和不方便。另一方面,当在训练数据不足的情况下进行微调时,可能会忘记对下游任务有益的预先训练的知识,从而损害泛化性能[14]。所有这些问题增加了为新任务开发感知模型的边际成本,并限制了满足快速增长的不同场景需求的能力,表明特定任务范式不适合通用感知建模。我们的核心思想是通过将来自任意模态的不同任务输入和目标编码到统一的表示空间中来取代特定于任务的设计,并通过其表示的相似性来建模输入和目标的联合概率。这种设计消除了不同感知任务之间的距离,从而促进了表征学习中不同模式和任务之间的合作。此外,通过对齐预训练和下游任务的公式,当将预训练模型应用于目标任务时,可以更好地该模型甚至可以对预训练阶段未出现的新任务进行零触发推理。在本文中,我们提出了一个统一的架构,名为Uni-Perceiver,它处理各种形式和任务,一个单一的连体模型和共享参数。具体而言,任务输入和目标从任意组合的形式首先转换成统一的到肯序列与轻量级的特定 于 模 态 的 tokenizer 。 然 后 由 模 态 不 可 知 的Transformer编码器将序列编码到统一的表示空间中。不同的感知任务被建模为相同的公式,通过其表征的相似性为每个输入寻找最大似然目标,从而便于通用感知建模。Uni-Perceiver在各种单模态任务(如图像/视频分类和语言建模)和多模态任务(如图像-文本检索和具有图像线索的语言建模)上进行了预训练。当应用于下游任务时,由于感知任务的通用建模,预训练模型显示出对预训练阶段未出现的新任务的零触发推理此外,性能可以通过额外的特定于任务的数据进一步提升对于少数拍摄场景,我们将模型调整为具有即时调整的下游任务[47],其中仅少量的附加参数针对特定任务进行优化。通过对足够的下游训练数据进行全模型微调,我们在几个单模态和多模态任务上预训练我们的模型,并评估其在各种下游任务上的性能,包括在预训练阶段没有出现的新任务。结果表明,我们的预训练模型无需任何调整,即使在新的任务上也可以实现合理的性能。它的性能可以提高到一个接近国家的水平,最先进的方法进行即时调整与1%的下游任务数据。当使用100%的目标数据对预训练模型进行微调时,我们的模型在几乎所有任务上都达到了与最先进的方法相当或更好的结果,这表明了强大的表示能力。2. 相关作品架构对于视觉识别,卷积神经网络(CNN)[45]曾经是主要的架构范例。受Transformers在自然语言处理[8,18,37,40,50,80]中的成功的启发,尝试将Transformers应用于图像和视频模态。对于图像识别,视觉变换器[10,20,51,76,78,82,84,90]用图像块标记器和Transformer编码器代替CNN,这已被证明具有与CNN竞争的性能。[4,6,87]尝试以无卷积的方式将变形金刚应用于视频识别。对于视觉语言识别,最近的作品[15,42,43,54,61,72,75,92]也采用变形金刚作为骨干,而它们通常采用区域特征作为输入,这些特征通常由现成的对象检测器(例如,更快的R-CNN [65]在Visual Genome上预先训练[36])。[29]试图通过使用CNN直接从原始像素中提取特征来消除对对象检测器的需要。[1,27,33,64]通过将变换器应用于原始图像补丁和单词令牌来采取进一步的步骤。Transformers为不同的应用程序提供了统一的架构范例,16806模态,其仅需要模态特定令牌化器将来自不同模态的输入转换成统一的输入令牌序列。然而,以前的架构需要专门设计和训练用于不同感知任务的预测头。相反,我们通过将不同的任务输入和目标编码到一个统一的表示空间中来取代特定于任务的设计,并通过表示相似性来建模它们之间的关系这种修改使我们的模型能够进行零触发推理,即使是在预训练阶段没有出现的新的下游任务上。训练前。大规模预训练在深度学习领域取得了巨大成功,可以缓解数据饥饿的挑战,提高下游任务的性能[83]。对于图像识别,预训练通常在图像分类数据集上执行,例如,ImageNet [17].视频识别网络要么是在图像分类或视频分类数据集上预先训练的, 时间的瞬间[57]和动力学[32]。 在自然语言处理中,自监督语言建模[8,18,37,40,50]被用于大规模未标记语料库的预训练[62]。具体来说,GPT [8]执行自回归预训练,它优化了以先前单词为条件的下一个单词的概率。BERT [18]使用掩码语言建模(MLM)和下一句预测(NSP)进行预训练。这些预先训练的模型可以作为具有小架构修改的下游任务的鲁棒特征提取器近年来,人们对大规模的跨模态预训练感兴趣[83]。与单模态预训练相比,跨模态预训练需要整合来自不同模态的信息。这种预训练通常是在从互联网[9,31,58,68]收集的图像-文本对上进行的,数据集[36,46,58]。此外,提出了各种预训练对象以有效地利用这些数据集。最广泛使用的目标是图像-文本检索[2,5,43,55,63,73,74,75],使用IM的掩蔽语言建模年龄线索[2,23,43,55,72,73,74,75]和掩蔽区模型[15,55,72,73,75]。其中,掩蔽区域建模需要由现成的对象检测器提取区域特征。最近,CLIP[63]已经验证了仅对大量网络收集的数据执行图像-文本检索预训练的有效性以往的多任务预训练需要特定任务的头脑,这阻碍了不同任务之间的协作。相反,我们将不同的任务输入和目标编码到一个统一的表示空间中,并通过统一的表示相似性来建模它们的我们的预训练任务包括图像和视频分类、有无图像线索的语言建模以及图像-文本检索。我们不使用区域特征,相应的预培训任务。提示调整。作为微调的替代解决方案,最近在NLP社区中提出了提示调优,它起源于提示方法[47]。在提示中,专门设计的自然语言标记,或即提示,被插入到输入序列中作为目标任务的提示。 这些提示输入用于为了查询大型语言模型(例如,GPT-3 [8])。方法[30,69]已被提出自动化的提示工程过程。提示过程不调整任何参数,这在经验上与微调的次优一致[49]。提示调优[39]被提议用可学习的提示符替换硬除了向- kens添加可学习的输入之外,Prefix-Tuning [44]还向Transformer的每一层添加可学习的提示,以提高模型容量。对于少数拍摄场景,[25]证明了即时调谐比传统的微调要好得多。当训练数据足够时,即时调整的表现略差于微调[49]。然而,随着预训练的模型变大,全模型微调的性能差距会缩小[39,48]。受NLP中快速调优成功的启发,[91]将快速调优应用于视觉语言预训练模型(例如,CLIP [63])执行少数拍摄图像分类。[59,66]进一步应用残余特征适配器以改善少射性能。在本文中,我们专注于零镜头和少镜头场景,其中下游任务甚至可能不会出现在预训练阶段。对于少量学习,我们通过[47]提出的即时调整来调整模型。我们的模型的性能可以进一步提高微调整个模型与足够的下游训练数据。3. 方法3.1. 通用感知的统一架构在本节中,我们将描述我们的各种模式和任务的统一架构。图2说明了架构。具体来说,该模型首先将不同的任务输入和目标从任意组合的模态转换成令牌序列与特定于模态的令牌。然后,采用与模态无关的Transformer编码器将不同的令牌序列编码到共享表示空间中,该编码器为不同的输入模态和目标任务共享参数。任何感知任务都可以在一个统一的公式中建模,该公式通过其表示的相似性为每个输入找到最大似然目标。代币化。给定来自文本、图像和视频模态的原始输入,应用16807联合概率分布������,exp{cos(���������������(Transformer编码器份额权重Transformer编码器���∈������不...���不���$...���美元���& ���… &1K1 L1M���∈������不 .���T���$...���美元���&... ���&F1kF1lF1m可以应用任何模态组合可以应用任何模态组合Y{X Y }{X Y}{X Y}n·..ΣΣYXYXY{X Y}联系我们标记器在附录中描述。文本图像视频文本图像视频分词器分词器分词器分词器分词器分词器输入文本图像视频目标文本图像视频TTTT&不1 2$%线性投影+图层法线文本标记器文本令牌+文本张贴嵌入<我的>+1++文本类型嵌入T<><狗><为><可爱>EOT>+++2 3 4 5+++ T> T> T>第一章我I2美���I...���II%()线性投影+图层法线图像Tokenizer图像补丁正++++的图像p嵌入式2 3+...+的+OS 14 89正+ +++视觉型嵌入式V<>V<>< V>V>+...+的+���**������*���…第一章1+ 1(联系我们���…1)27线性投影+图层法线视频标记器框架补丁……+正+ +imageposte m bed191119…+…191+…+++时间s嵌入po1 1+…2 2+...+的3 3+++视觉试验嵌入>...>>ypeV正+ +>正+ +>...> >。 例如,对于图像-文本对输入,x=[,xI,xT],对于仅视频输入,x=[,xV],其中[ ]表示序列级联。编码器输出端的特征用作输入的表示。感知任务的一般建模。我们用一个统一的结构对不同的感知任务进行建模,其参数为所有目标任务共享。每个任务由一组输入X和一组候选目标Y定义。给定输入x∈ X,任务被公式化为找到最大似然目标y∈ Y为y=argmaxP(x,y),(1)y∈Y其中P(x,y)是联合概率分布。通过计算x和y的表示之间的余弦相似性来估计联合概率,P(x,y)=exp cosf(x),f(y)/τ,(2)其中f()是Transformer编码器,τ> 0是可学习的温度参数。为了获得通用建模能力,我们的统一架构在各种多模态任务上进行了预训练,其中E是数学期望,并且 x为ohi,i表示采样的地面实况输入-目标对从第i个任务的数据集。我们的统一架构适用于任何任务,只要其输入集和目标集由图像,文本和视频组成。例如,分类任务中的目标集可以是一组类名、一组类描述,甚至是一组具有表示类索引的手写数字的图像。 和的详细实例将在下一小节中介绍。请注意,我们目前专注于文本、图像和视频模态,但只要应用相应的标记器,更多模态也是适用的与以前的感知模型的关系。我们的方法与以前的感知模型具有相同的学习多模态表示的目标。然而,现有的作品遵循特定于任务的范式,而我们的方法是专为通用的感知建模。主要区别在于两个部分:1) 以前的工作集中在输入的某些组合所需的方式由他们的目标任务,而我们的方法处理任意组合的方式与一个统一的架构和共享参数。2) 以前的工作需要为每个感知任务专门设计和训练的预测头,而我们的方法使用相同的公式对不同的任务进行建模,并使用统一的建模来处理它们。因此,当转移到一个新的任务,以前的方法需要重新设计其输入格式和预测,16808∈ X ∈ YYX∈ XXYXYXY图像分类视频分类语言建模基于图像线索的语言图文检索(T → I)视频带掩码标记的图像+带掩码标记的句子字幕(电子1词汇(电子1词汇类标签图像每个数据集中的类标签。每个类名被视为一个文本序列,以提供对文本关系的弱监督 输入x目标y从token开始,其在编码器输出端的特征表示相应的序列。有图像线索和没有图像线索的语言建模。语言建模任务的目的是根据上下文预测屏蔽词。采用自回归[8]和自动编码[18]语言建模当输入没有图像时,自回归和自动编码任务分别对应于文本生成和掩蔽语言建模任务。当输入具有图像时,自回归和自编码任务分别对应于图像标题和具有图像线索的掩蔽语言建模任务。对于自动编码语言建模,我们遵循BERT [18]中的实践,从文本中随机屏蔽15%的单词。该模型基于所有输入预测每个掩码词对于自回归语言建模,模型基于其先前文本和图像(如果有的话)来预测每个单词请参阅附录,图3.预训练任务的输入和目标格式。对于每个任务,左列表示输入序列x的格式,右列表示目标序列y的格式。 f(x)和f(y)表示用于计算联合概率分布的表示,(二)、在这里,为了简洁,我们省略了标记器和编码器。相应的头。模型需要对足够的特定任务数据进行微调相比之下,我们的方法可以直接对在预训练阶段不出现的新任务进行零触发推理。通过对少量下游数据进行及时调整和对足够的下游数据进行微调,可以进一步提高性能。3.2. 多模态任务我们的模型在各种任务上同时进行预训练,以学习多模态通用表示。预训练任务如图所示。3.第三章。具体来说,对于单峰预训练任务,我们采用了最广泛使用的图像分类,视频分类和语言建模任务。为了进一步加强不同模态之间的联系,还采用了一些跨模态任务,如带有图像线索的语言建模和图像-文本检索任务。注意,对于图像和视频分类任务,我们将每个类名称(例如,tigershark)作为文本序列。这为弥合图像、视频和文本的表示之间的差距图像和视频分类。在图像和视频分类任务中,X表示训练数据集中所有可能的图像或视频的集合,Y由候选自回归语言建模的实现。在这个任务中,由语言句子或图像-文本对组成.表示词汇表中所有单词的集合,其中每个单词被视为单个文本序列。在x中需要预测的每个单词都被替换为token,其在编码器输出端的特征用于匹配词汇表Y中的单词。图像和文本检索。对于图像-文本检索,输入集和分别由图像和文本序列组成,反之亦然。对于纯文本检索,输入集和都是文本序列。和中的每个序列在开始时都有一个特殊的令牌,其在编码器输出端的特征作为最终表示。3.3. 零拍、快速调谐和微调在预训练阶段,我们的统一架构学习从任意模态建模输入和目标序列的联合分布。由于通用感知建模,我们的预训练模型可以对预训练阶段没有出现的全新任务执行零触发推理。我们的模型可以通过特定于任务的额外训练数据进一步适应下游任务。对于少数镜头场景,我们采用了提示调整[47]方案,该方案仅向模型添加了一些额外的任务特定参数。通过在足够的下游数据上对整个模型进行微调,可以进一步提高特定任务的性能。新任务的零触发推理。我们的模型有可能对任何可以由联合概率分布建模的(IIII1 2$%&I图像((((((1 2$%&(电子邮件电子邮件电子1 2$%&电子邮件电子邮件类标签(电子邮件电子邮件电子邮件电子邮件电子1 2$%&(T不SPET12美&(II1 21TSPE $12$%&12$%&12$%&图像(T1TT2美元T%T&12$%12$%12$%字幕(I1II2美元II%&文本QA检索(((Q → A)TTTTT电子邮件电子邮件电子邮件电子邮件电子邮件&文本QA(问题(回答回收(A→ Q)TTTTT电子邮件电子邮件电子邮件电子邮件电子邮件&图文(回答(问题16809∈Y∈ X方法培训前数据#图片#视频ImageNet-1k访问动力学-400次访问DeiT [77]时间变换器[7]1.28M1.28M0六十五万81.8--75.5Oursw/o Tuning44.14M1.33M78.073.5我们的PT(0.1%)我们的金融时报(0.1%)44.14M44.14M1.33M1.33M79.478.873.673.5我们的PT(1%)我们的FT(1%)44.14M44.14M1.33M1.33M80.280.273.673.6我们的FT(100%)44.14百万1.33百万83.8 75.8表1.预训练数据集统计。#Images、#Videos和#Text分别表示图像、视频剪辑和文本句子(或短语)的数量。第 对于输入为x的任务,和候选目标y,我们首先将x和y标记为两个序列。联合概率P(x,y)然后根据等式(1)估计(二)、零炮推断可以通过最大似然估计进行,如等式2中所述。(一).性能也可以通过提示工程来提高,类似于GPT-3 [8]等语言模型的提示[47],其中不需要网络训练。提示调整。对于训练数据有限的少数镜头场景,我们采用即时调整,这是内存有效的,并且已被证明优于少数镜头NLP中的微调方案[25]。在快速调优中,大多数预先训练的参数都是固定的,只有一小部分任务特定的参数需要优化。具体来说,在P-Tuning v2 [48]之后,在Transformer编码器的每一层添加了具有随机初始化的可学习提示令牌,并为分类任务添加了具有线性头部的类标签。token和layer norm参数也进行了调整。我们建议读者参阅附录以了解更多细节。微调。对于具有足够训练数据的下游任务,我们的模型也可以进行微调,以进一步提高其性能。在微调过程中,我们的模型可以作为联合概率估计器(与我们提出的通用感知建模相同)或特征提取器(与传统的预训练模型相同)。在联合概率估计的设置下,下游任务以与预训练相同的统一方式制定。另一方面,与以前的感知模型类似,我们的模型也可以通过在编码器顶部添加特定于任务的头部来用作特征提取器。我们的经验发现这两个方案达到非常相似的性能,因此联合概率分布估计的方案是默认使用的一致性。4. 实验4.1. 数据集我们的模型在各种任务上进行了预训练,其统计数据在Tab中列出1.一、我们预先训练图像分类-表2.不同调优设置下的图像和视频分类性能。PT是指微调,FT是指微调。记录了用于调整的数据的百分比。此外,还列出了训练或预训练的数据统计ImageNet-21 k上的阳离子[17]。对于视频分类,我们在Kinetics-700 [32]和Moments in Time [57]上进行预训练。我们在BookCorpora [93]英语维基百科(BooksWiki)和PAQ [41]上预训练语言建模。对于具有图像线索和图像-文本检索的语言建模,我们使用COCOCaption [13] , SBU Captions ( SBU ) [58] , VisualGenome [36],CC 3 M [68],CC 12 M [9]和YFCC [31]的组合。为了评估我们的方法的有效性并验证我们的预训练模型的泛化能力,我们还使用了几个在预训练中没有出现的新数据集,即,[11][12][13][14][15][16][17][18][19][1数据集详情见附录4.2. 实现细节用于实验的Transformer编码器与BERTBASE [18]的配置相同。它是一个12层的编码器,嵌入维数为768,注意头数为12。FFN中的隐藏维度大小为3072。我们同时用多个任务对模型进行预训练。在每次迭代中,每个GPU独立地对单个任务和数据集进行采样。在梯度反向传播之后,不同GPU的梯度被同步我们使用AdamW [34]优化器,基本学习率为0。0002,权重衰减为0。05. 渐变剪裁,5.0用于稳定训练。 我们也使用drop path [38]在训练期间概率为0.1。该模型在128个Tesla V100 GPU上以分布式方式进行了50万次迭代的预训练。我们使用余弦学习率sched-ule与50 k迭代的线性热身。更多实现细节见附录4.3. 培训前任务我们首先在预训练阶段涉及的任务上评估我们的预训练模型广泛使用的Imagenet-1 k [17]和Kinetics-400[32] 分 别 用 于 评 估 图 像 和 视 频 分 类 任 务 。 COCOCaption和Flickr30k是用于评价图像字幕和图文检索性能的典型数据集。数据集图像数量#视频#文本ImageNet-21k [7]14.2M021K[32]第三十二话0542K700[57]第五十七话0792K339[93]第二十三话00101MPAQ [41]0065MCC3M [68]3.0M03.0MCC12M [9]11.1M011.1M[12]第十二话113K0567K[36]第三十六话108K05.41MSBU [58]830K0830KYFCC [31]14.8M014.8M16810方法培训前数据图像数量#视频 #文本R@1Flickr30kR@5文本检索COCO CaptionR10R@1R@5R10图像检索Flickr30kCOCO CaptionR@1R@5R10R@1R@5R10[61]第6.0M06.0M70.790.294.044.071.280.454.379.687.532.359.070.2UNITER-B [15]w/o调谐4.2M09.6M80.795.798.0---66.288.492.9---[33]第三十三话4.2M09.6M73.293.696.556.582.689.655.082.589.840.470.081.1[28]第二十八话3.8M03.8M86.296.399.062.387.192.871.591.295.248.476.785.9UNITER-B4.2M09.6M85.997.198.864.487.493.172.592.496.150.378.587.2ViLT4.2M09.6M83.596.798.661.586.392.764.488.793.842.772.983.1Oursw/o Tuning44.14M1.33M201M74.894.898.257.785.692.365.888.893.646.375.084.0我们的PT(1%)44.14M1.33M201M84.497.899.261.486.793.271.191.695.147.075.384.3我们的FT(1%)44.14M1.33M201M78.495.797.860.285.190.661.085.791.043.670.980.5我们的PT(10%)44.14M1.33M201M86.498.299.561.687.093.272.592.395.747.275.484.3我们的FT(10%)44.14M1.33M201M84.997.498.360.985.592.167.989.492.945.673.482.6我们的FT(100%)44.14M1.33M201M87.998.299.164.787.893.774.993.596.048.375.984.5表3.不同调优设置下的图文检索性能。PT是指微调,FT是指微调。记录了用于调整的数据的百分比。此外,还列出了竞争方法的预训练数据集统计。方法B@4COCO CaptionM CSB@4Flickr30kM CS统一VLP [92]36.528.4116.921.230.123.067.417.0Oursw/o Tuning33.627.0109.820.317.016.241.211.2我们的PT(1%)34.327.2109.621.228.121.659.115.6我们的FT(1%)28.026.8100.120.218.919.745.314.3我们的PT(10%)35.027.9114.121.328.822.161.716.8我们的FT(10%)32.727.5109.021.126.921.652.114.5我们的FT(100%)35.628.1116.521.530.124.572.718.2方法培训前数据#图片#视频#文字B@4MMSVDRCSORG-TRL [88]1.4M六十五万-54.336.473.995.2-Oursw/o Tuning44.14M1.33M201M20.325.852.145.76.5我们的PT(1%)44.14M1.33M201M54.838.974.7104.86.6我们的FT(1%)44.14M1.33M201M47.335.866.280.16.2我们的PT(10%)44.14M1.33M201M57.239.175.6112.16.8我们的FT(10%)44.14M1.33M201M56.738.770.088.26.7我们的FT(100%)44.14M1.33M201M61.542.379.0131.07.7表4.不同调谐设置下的图像字幕性能。B@4、M、C、S分别代表BLEU-4、METEOR、CIDER和SPICE评分。此外,统一VLP [92]使用大约300万个图像-文本对进行预训练。结果选项卡. 2,Tab. 3、Tab。4给出了我们的模型在四个预训练任务上的评估结果,图像分类、视频分类、图像-文本检索和图像标题。我们将我们的模型与具有类似模型大小的特定任务SOTA方法进行比较。结果表明,在没有任何调整的情况下,我们的预训练模型在这些任务上达到了合理的性能。虽然性能比SOTA方法稍差。我们推测,性能差距是由于我们的模型的容量有限,这可能对表示能力产生负面影响。请注意,我们的方法与其他方法共享类似的模型大小,但需要同时处理来自各种数据集和模态的更多通过使用1%的下游数据对每个任务进行即时调优,性能提升到接近SOTA性能的水平。值得注意的是而对于我们的快速调整,只有少量的参数被调整,编码器仍然是固定的,并在不同的任务之间共享,这表明我们的方法可以处理不同的任务,具有较低的边际成本。我们使用100%的下游数据进一步微调预训练模型通过全数据微调,我们的模型实现了与SOTA相当或更好的性能表5.不同调谐设置下的视频字幕(小说任务)性能。请注意,这个任务没有出现在我们的预训练中。在我们的预训练中,与视频模态相关的唯一任务是视频分类。此外,还列出了竞赛方法的训练前统计。方法培训前数据图像数量#视频#文本文本检索MSVDR@1R@5R10视频检索MSVDR@1R@5R@10CLIP4clip [56]400米380k400米56.679.784.346.276.184.6[21]第二十一话400米0400米58.785.691.647.076.885.9Oursw/o Tuning44.14M1.33M201M42.769.179.634.664.575.4我们的PT(1%)44.14M1.33M201M61.283.789.042.673.382.5我们的FT(1%)44.14M1.33M201M49.675.883.737.568.279.3我们的PT(10%))44.14M1.33M201M61.384.890.943.174.283.4我们的金融时报(10%))44.14M1.33M201M59.181.987.441.771.681.3我们的FT(100%)44.14M1.33M201M61.583.590.245.475.885.0表6.不同调谐设置下的视频-文本检索(小说任务)性能。请注意,这个任务没有出现在我们的预训练中。此外,还列出了竞争性方法的训练前统计。方法,这证明我们的模型已经学习了高质量的表示。我们还比较了快速调整和微调的性能在sce- nario的少镜头学习。在所有这些任务中,即时调整显示出比相同数据量的微调更好的性能,这证明了其在少数情况下的优越性。4.4. 对新任务由于通用感知建模,我们的预训练模型可以通过将任务转换为我们的统一任务公式来推广到新任务。我们评估了在任务中没有出现的零触发推理,16811XXXXX∈X方法培训前数据图像数量#视频#文本VQA v2测试开发是/否数字别人统一VLP [92]3.1M0-87.252.160.3Oursw/o Tuning44.14M1.33M201M0.93.025.5我们的PT(0.1%)44.14M1.33M201M63.031.849.6我们的金融时报(0.1%)44.14M1.33M201M63.030.649.1我们的PT(1%)44.14M1.33M201M70.841.357.7我们的FT(1%)44.14M1.33M201M71.042.457.5我们的FT(100%)44.14M1.33M201M84.847.461.8表7.不同调优设置下的视觉问题回答(新颖任务)表现。请注意,这个任务没有出现在我们的预训练中。方法MNLI(Acc)QNLI(Acc)胶QQP RTE(F1)(Acc)SST-2(Acc)MRPC(F1)PLM [3]w/o tuning49.450.746.653.870.644.2[81]第八十话84.692.771.266.493.588.9[50]第五十话87.692.891.978.794.890.2Oursw/o Tuning49.651.053.655.670.676.1我们的PT(1%)60.176.070.256.380.980.3我们的FT(1%)47.360.668.949.169.772.3我们的PT(10%)68.583.277.058.283.483.2我们的FT(10%)60.571.571.450.579.180.6我们的FT(100%)81.789.987.164.390.286.6表8.自然语言理解(小说任务)性能在不同的调谐设置。请注意,这个任务没有出现在我们的预训练中。预训练,即,视频字幕、视频文本检索、可视问答和自然语言理解。视频字幕和视频文本检索。 我们的预训练模型在MSVD [11]数据集上进行评估。具体地,对于视频字幕,1由已经预测的视频和语言序列的级联组成,并且2对词汇表中的所有单词的集合进行去注释。对于视频-文本检索,输入集1和2由可能的视频和文本序列组成,反之亦然。视觉问答。在视觉问题回答中,要求模型回答来自答案候选列表的参考图像的问题。我们在VQA [26]数据集上评估我们的预训练模型。1是一组图像-文本序列,其中文本是要回答的问题,后跟一个用于预测答案<的SPE>标记。每个x22都是一个答案序列,。通过计算在x1和x2中的输出特征之间的相似性来实现推理。自然语言理解。从GLUE基准[81]中选择了六个纯语言任务来评估我们预训练模型的自然语言理解能力。这些任务要么是单句分类任务,要么是句子对分类任务。我们遵循[24]为每个数据集构造文本类标签这里输入序列x1∈X1表示输入单句或句子对,序列x2∈X2表示每个数据集中的类标签。结果. 选 项 卡. 5,Tab.6和Tab。7分别给出了视频字幕检索、视频文本检索和可视问答的结果我们的预训练模型可以在这些新任务上获得合理的零射击性能。请注意,以前的作品都不能执行这种类型的零射击推理。从Tab。7,我们注意到我们的模型在VQA中的“Yes/No”和“Number”子集上显示出不令人满意的零射击性能我们推测,这可能是由于这些答案和我们的预训练语料库之间的分布差异我们进一步对这些任务进行快速调整,只有1%的数据,这使得我们的模型接近SOTA结果的水平。通过对100%下游数据的进一步微调,我们的模型可以实现与SOTA方法相当或更好的结果。在GLUE基准测试中,我们的模型在零次测试评估中可以达到与[
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功