没有合适的资源?快使用搜索试试~ 我知道了~
16420CLIP-Event:用事件结构李曼玲1*,徐若尘2,王硕航2,卢奥伟2,林旭东3,朱晨光2,曾文2,季恒1,张世福31伊利诺伊大学香槟分校2微软研究院3哥伦比亚大学{manling2,hengji}@ illinois.edu,{ruox,shuowa,luozhou,chezhu,nzeng}@ microsoft.com{xudong. lin,sc250}@ columbia.edu摘要视觉语言(V+L)预训练模型通过理解图像和文本之间的对齐关系,在支持多媒体应用方面取得了巨大的成功。虽然现有的视觉语言预训练模型主要关注于理解图像中的对象或文本中的实体,但它们往往忽略了事件及其论点结构层面的对齐。在这项工作中,我们提出了一个对比学习框架,以执行视觉语言预训练模型来理解事件和相关的参数(participant)角色。为了实现这一点,我们利用文本信息抽取技术获取事件结构知识,并利用多种提示函数通过操纵事件结构来我们还设计了一个事件图对齐损失的基础上,最佳的运输捕捉事件参数结构。此外,我们收集了一个大型的事件丰富的数据集(106,875张图像)进行预训练,这提供了一个更具挑战性的图像检索基准,以评估对复杂长句的理解。实验表明,我们的zero-shotCLIP-Event在多媒体事件提取的论元提取方面优于最先进的supervised模型,在事件提取方面获得了超过5%的绝对F分数增益,并且在zero-shot设置下的各种下游任务上都有显着改善1. 介绍真实世界的多媒体应用不仅需要了解实体知识(即,对象和对象类型),而且还有事件知识(即,事件类型)与事件变元结构( 即,参与者及其角色)。例如,89%的图像包括内容中的事件。*工作是在第一作者在微软实习时完成的抗议者抗议者抗议者抗议者警察(一)警察目标抗议者剂攻击事件类型抗议者刑警(b)第(1)款抗议者目标警察剂攻击事件类型图1.具有不同参数的视觉事件ATTACK的示例。接地是边界框颜色匹配的角色。临时多媒体新闻数据2.此外,识别论点(参与者)对于新闻理解至关重要例如,图1(a)和图1(b)都是关于相同的事件类型ATTACK,并且包含实体protester和police,但是它们的参数角色是不同的,即,抗议者在第一个事件中扮演攻击者的角色,在第二个事件中扮演目标的角色,反之亦然。同一群体实体的不同论元角色导致了两种攻击事件的分化然而,现有的视觉语言预训练模型[4,12,18,26,31,41]专注于图像或实体的理解,忽略了事件语义和结构。因此,在需要动词理解的情况下会出现明显的失败[10]。因此,我们专注于整合事件结构知识到视觉语言预训练。以前的工作主要是将视觉事件表示为具有主语和宾语的动词[13,19,30,33,36,43]。然而,事件包含结构知识,每个事件被分配到代表一组同义动词的事件类型。每一个论点都是基于文本或图像,并与参与者所扮演的论点角色相关联。 正在播放。 如图2所示,输入进位事件 作为TRANSPORT,抗议者作为一个绅士,受伤的人作为1数据和代码公开用于研究目的,https://github.com/limanling/clip-event网站。2我们在www.example.com上随机检查了100张图片https://www.voanews.com/。16421运输受伤男子人人人剂携带抗议者人人图像i人员人人运输运输,代理人,抗议者>,实体,受伤的人>仪器,担架>担架商品人椅阴性描述(事件)被捕或入狱,t-提示功能:1. GPT32. 模板3. 连续提示4. 标题编辑(a)最佳运输v人代理人,抗议者>板凳逮捕拘留监狱被拘留者,受伤男子>地点,担架>文本编码器运输运输,代理人,受伤的人>实体,担架>仪器,抗议者>视觉编码器...正面描写负面描述(b)对比学习否定描述(论元角色) t-一正面描写t +文本2014年2月20日,基辅独立广场,反政府示威者与防暴警察发生冲突后,一名受伤男子被担架抬上车标题t...事件类型运动.运输(运载)剂抗议者实体受伤男子仪器担架图2.CLIP-Event的架构我们利用标题中的事件结构知识来对比关于事件类型和参数角色的硬否定(蓝色),然后将其用于监督图像事件理解(黄色)作为事件知识的跨媒体传输负面事件结构以橙色突出显示。事件和对象来自自动系统输出。E国和担架作为I仪器。关于从新闻图像中提取事件结构的研究很少[17,25]因此,我们建议利用文本信息提取技术,这已经在自然语言处理中得到很好的研究,自动提取事件结构的字幕。标题本质上是指与新闻数据中的图像相同的事件,例如,87%的标题描述了图像中的事件3。 因此,我们设计了一个自监督的对比学习框架CLIP-Event,利用字幕中丰富的事件知识作为远程监督来解释关联图像中的事件,以有效地跨模态传递事件知识。此外,为了训练鲁棒的表示能够区分事件类型(例如TRANSPORT和ARREST)和参数角色(例如ATTACKER和VICTIM)之间的细微差异,我们建议通过操纵事件结构来生成硬否定。我们使用一组广泛的事件提示函数将正确的和操纵的事件结构翻译成文本描述。遵循最先进的视觉语言预训练模型CLIP [26],我们优化了图像和事件感知文本描述之间的对比学习目标此外,为了传递论元结构的知识,我们显式地构建了由视觉和文本中的事件类型和论元角色组成的事件图我们引入了两个事件图之间的细粒度对齐,将图像中的对象与相应的文本实体及其参数角色对齐。我们采用最优的运输,以鼓励基于两个图的结构的全局对齐,这使得模型能够捕获参数之间的相互作用。例如,具有类似视觉效果的物体3统计数据来自VOA的上述100幅图像[1]。特征倾向于与相同的参数角色对齐。我们的评估主要集中在零拍摄设置,因为它是至关重要的,以了解新的或以前未识别的事件在现实世界中的应用。传统的基于有限的预定义事件本体的方法另一方面,我们的预训练模型能够使用任何看不见的类型和参数角色的自然语言描述来识别事件结构,从而实现零镜头多媒体事件提取。对多媒体事件提取[17]和接地情况识别[25]的评估表明,在零拍摄设置和监督设置下,CLIP事件的性能显着优于最先进的视觉语言预训练模型此外,它在零拍摄设置下的各种下游任务中实现了显着的收益,例如图像检索[7],视觉常识推理[40]和时间视觉常识推理[24]。综上所述,本文做出了以下贡献:• 我们首次将视觉事件和论元结构信息用于视觉语言预训练。• 我们引入了一个新的框架,通过对比与负面事件的描述,这是由各种提示功能条件下硬负面事件和参数。• 我们提出了基于最优传输的事件图对齐,将先前的图像或对象对齐扩展到事件结构感知对齐。• 我们发布了一个包含106,875张图像的事件丰富图像标题数据集,包括提取的事件知识,它可以作为一个具有挑战性的图像检索基准,用于评估在现实世界应用中理解复杂和冗长句子的能力16422∈v·2. 我们的方法我们的目标是将事件结构化知识纳入视觉语言预训练。在下文中,我们将解决关于模型设计的两个主要问题:(1)如何获得结构事件知识(2)如何对事件的语义和结构进行编码?我们在Tab中定义了本文中使用的符号。二、2.1. 事件结构知识提取文本和视觉知识提取。 我们使用最先进的文本信息提取系统[16,20]来提取187种类型的事件4,涵盖了广泛的新闻价值 事件。对于图像,我们应用 在OpenImages [15]上训练的Faster R-CNN [27]来检测对象。主要事件检测。当字幕中存在多个事件时,图像通常描绘字幕的主要事件。我们使用预训练的CLIP模型[26]检测主事件作为更接近依赖解析树根的事件[23],并且具有更大数量的参数,更高的事件类型频率以及触发词与图像之间更高的相似性我们根据这些标准对事件进行排序,并执行多数表决。例如,在图2中,在标题中有两个事件carry和clashes。我们选择carry作为主要事件,因为它是依赖树的根,并且它有三个参数,以及与图像的更高相似性2.2. 事件结构驱动的负采样为了迫使文本和视觉编码器学习关于事件类型和论元角色的鲁棒特征,我们设计了以下策略来生成具有挑战性的否定。负事件采样。我们在预训练上计算最先进的视觉语言预训练模型CLIP [26]负参数采样。对于参数角色,由于每个事件根据定义具有多个参数,因此我们通过执行参数角色序列的右旋转来操纵参数的顺序。详细地说,我们首先按照本体定义对现有的论元角色进行排序,例如之后,我们将参数角色序列右旋转一步,得到因此,每个参数被重新分配给一个被操纵的角色,例如,受伤的人,第二个论点,被操纵从实体到代理人。如果事件只有一个参数,我们根据文本参数提取系统的参数混淆矩阵[20]对否定角色进行采样。描述生成。为了使用文本编码器对正事件和负事件结构进行编码,我们设计了多个提示函数,如Tab.1:(1)基于模板的提示将所有参数编码在一个句子中。(2)基于模板的复合提示对每个参数使用一个短句。(3)连续提示使用可学习的前置令牌[Xi]。(4)字幕编辑只需改变事件触发词或切换参数,信息损失最小。(5)基于GPT-3的Prompt生成以事件结构为条件的语义连贯的自然语言描述。 我们采用GPT-3 [8]并使用五个手动事件描述示例作为少量提示[8]来控制生成。GPT-3的输入是示例事件([ex v])与参数([ex a])、示例描述([ex desp])和目标事件([inputv])与参数([inputa])的串联。GPT-3 的输出是目标描述([outputdesp]).与基于模板的方法相比,这种描述更自然[ ex1_v ][ ex 1_a 1][ ex 1_a 2]. [ex 1_desp][ ex 2_v ][ ex 2_a 1][ ex 2_a 2]. [ex 2_desp]图像标题数据集。该分类器基于事件类型标签i_vΦV(诸如T_RANSPORT)与输入图像i之间的相似性得分,并且选择事件类型标签i_v Φ V(诸如T_RANSPORT)与输入图像i之间的相似性得分。top一个作为预测的事件类型。[ ex3_v ][ ex3_a1][ ex3_a2]. [ex3_desp][ ex4_v ][ ex4_a1][ ex4_a2]. [ex4_desp][ ex5_v ][ ex5_a1][ ex5_a2].[ex5_desp][input_v][input_a1][input_a2].[输出_desp]vϕ⋆=arg maxϕvTi,v∈ΦV其中粗体符号代表来自图1中的文本和视觉编码器2,我们遵循CLIP使用文本和视觉转换器。通过将预测事件类型与图像的主事件类型进行比较来计算因此,负面事件类型是图像事件分类中的挑战性情况其视觉特征与主事件类型相类似的事件类型。例如图2,RREST被采样为负事件 类型,因为它的视觉特征类 似于TRANSPORT。4系统使用DARPA AIDA本体,这是最细粒度的文本事件本体,如附录中所附。图3.基于GPT-3的提示符体系结构。2.3. 基于最优传输的事件图对齐每个事件及其参数可以组织成一个图,如图所示2,其中中心节点是事件节点(三角形节点),它对事件图结构进行编码使模型能够捕获事件和参数之间的交互。例如,受伤的人应该与被运送的ENTITY对齐,而不是AGENT。1. 图像级对齐。我们计算余弦相似度s(t,i)和文本t和图像i之间的距离d(t,i):s(t,i)=cos(t,i),d(t,i)=c(t,i),GPT-316423··−··+⊙∈提示图的示例说明 2例,以逮捕为负事件模板,将位于手术工具中的手术工具从手术工具4处转移到手术工具5处。单个模板组合模板积极的抗议者用担架运送一名受伤的男子。阴性事件抗议者在担架处逮捕了一名受伤的男子。负-Arg 一名受伤的男子在抗议者的仪器上运送担架。Template该图像是关于TRANSPORT的。 代理人是一个人。 实体为arg2。 仪器在D3中。 原点是2004年。目的地是布拉格5区。肯定的图像是关于TRANSPORT。 代理人是抗议者。 这个人是一个受伤的人。 工具是一个担架。阴性事件这张照片是关于一个休息。代理人是抗议者。这名伤者是一名受伤的男子。那地方是个担架。负-Arg这张照片是关于TRANSPORT的。 特工是一个受伤的人。 这个实体是一个担架。 工具是抗议者。Template[X0]TRANSPORT[X1]AGENT[X2]DESTINATION[X2]DEXAR g1[X3]ENTITY [X2]DEXAR g2[X3]INSTRUMENT[X2]DEXAR g3[X3]ORIGIN[X2]DEXAR g4[X3]连续Positiv e[X0]TRANSPORT[X1]AGENT[X2]pr otestr s[X3]ENTITYY[X2]aninjuredman[X3]INSTRUMENT[X2]astr etc her[X3]提示标题编辑GPT-3Negativ e-Evt[X0]ARREST[X1]AGENT[X2]p r otest r s[X3]DETAINEE[X2]an injuredman[X3]PLACE[X2]ast r et c her[X3]Negat ive-A r g [X0]TRANSPORT[X1]AGENT[X2]an injuredman[X3]ENTITY[X2]ast r et c her[X3]INSTRUMENT[X2]p r otest r s[X3]积极的反政府示威者在独立广场与防暴警察发生冲突后,用担架抬着一名受伤的男子。反政府示威者在独立广场与防暴警察发生冲突后,在担架上逮捕了一名受伤的男子。一名受伤的男子在独立广场与防暴警察发生冲突后,对反政府示威者抬着担架。积极的抗议者用担架运送一名受伤的男子。阴性事件抗议者用担架逮捕了一名受伤的男子。负-Arg 一名受伤男子运送担架和抗议者。表1.自动生成的正面和负面的描述图。二、 我们用粗体表示事件,下划线表示论点。损坏的事件类型和参数显示为橙色,模板显示为蓝色。[Xi]是可学习的前置令牌。符号哦,你好,我好e,e,t ev,v,t va∈ A(v)Gi,Gtt+,t-v,t-a吉吉峰意义图像I及其标题文本T对象,对象类型,对象边界框实体,实体类型,实体文本提及事件,事件类型,事件文本提及参数角色;A(v)是参数角色集,事件v,由来自图像i和文本tIE本体3事件图定义肯定描述,否定事件描述,否定论元描述表2.符号列表其中c(,)=1 cos(,)是余弦距离函数,t从文本Transformer获得,i从视觉Transformer获得。2. 实体级对齐。文本实体e和图像对象o之间的余弦距离考虑了提及相似性和类型相似性。d(e,o)=c(te,io)+c(te,io),其中te是实体e的文本提及,te是其在句子上的嵌入。我们使用[26]之后的文本Transformer对句子进行编码,对实体项中的令牌应用平均池化。 类似地,io是对象o的边界框,并且io是基于边界框中覆盖的块的视觉Transformer表示上的平均池化的在图像上上下文化的其嵌入。文本转换器(Text Transformer ) 编 码例如,e=PERSON表示e=受伤的人,o=PERSON表示o=。因此,上述实体和对象之间的距离为:d(e,o)=c(受伤的人,) +c(PERSON,PERSON),3. 事件级对齐。 为了获得基于两个图的结构的全局对齐分数,我们使用最优传输[29]来获得文本事件图Gt和图像事件图Gi之间的最小距离d(Gt,Gi),d(Gt,Gi)= minTTC,其中表示Hadamard乘积。TRn×m表示传输计划,用于优化两个图之间的软节点对齐。n和m分别是Gt和Gi中的节点数即,16424⟨⟩+⊙∈⊘−正+ +∈∈文本图Gt可以被转移到具有不同权重的图像图Gi中的多个节点。C是成本矩阵。我们定义事件节点之间的成本和参数节点之间。对于事件节点,成本是图像i和触发字v之间的余弦距离,C(v,i)= c(tv,i)+c(tv,i).任何正面和负面的描述。此外,我们还将同一批次中其他图像的描述作为负面描述。我们还最小化两个事件图之间的距离L2=t,id(Gt,Gi).例如图2,v=进位,且n=TRANSPORT,C(v,i)= c(carry,i)+c(T_RANSPORT,i)。表示tv也来自文本Transformer,在文本句子上上下文化。每个参数a、e和每个绑定框o之间的成本基于对象o与参数角色a和文本实体e两者的相似性。C(a,e,o)=d(a,o)+d(e,o)=c(ta,io)+c(te,io)+c(te,io),其中ta是参数描述。例如,对于实体e=受伤的人的参数角色a=ENTITY,C(E_a,e_b,o)=c(E_NTITYofT_RANSPORT,)+c(受伤的人)+c(PERSON,PERSON)。求解d(Gt,Gi)的最优T Rn ×m=minTT C可以通过下面的可微Sinkhorn-Knopp算法[5,29]近似[35],T=diag(p) exp(−C/γ) diag(q),其中pRn×1和qRm×1。从任何正向量q0开始执行以下迭代:对于i = 0,1,2,. - 是的- 是的直到收敛,pi+1=1<$(Kqi),qi+1=1<$(K<$pi+1),其中表示逐元素除法。K=exp(C/γ)。可以通过迭代有限次数k次来获得计算TkTk:= diag(pk)K diag(qk)。2.4. 对比学习目标我们将图像i和正描述t+之间的余弦相似度优化为接近1,而将负描述t-优化为接近0,事件和参数描述的对比学习以及事件图的对齐被联合优化:L= λ1L1+λ2L2。本文设λ1和λ2为1。3. 评价任务3.1. 多媒体事件提取(M2E2)任务设置。多媒体事件提取[17]旨在(1) 将图像分类为八种事件类型,以及(2)将参数角色定位为图像中的边界框我们选择这个任务作为事件结构理解的直接评估我们的方法。零触发设置:我们评估模型处理开放词汇表事件的能力,这是现实世界应用程序所要求的。此外,零拍摄评估提供了一个直接比较的有效性的事件知识编码在预训练。如图4a,我们选择具有与图像的最高相似性得分s(i,t)的事件类型,并且对于每个边界框,我们对所选事件类型的候选场景角色进行监督设置:我们包括监督设置,以证明模型架构在直接监督存在下编码事件知识的有效性,详细信息见附录A.3。评估指标。我们遵循[17]使用F分数来评估事件类型和参数提取。3.2. 接地情况识别(GSR)任务设置。Grounded Situation Recognition [25]从504个动词中选择事件类型,并预测每个参数角色的实体名称和边界框。我们的方法。 其实现类似于图4a中的M2E2,详情见附录A.4。评估指标。我们在《古兰经》第二十五章中详细叙述了这一点。3.3. 图像检索任务设置。图像检索对每个给定标题的图像进行排序,这是对图像-文本对齐的直接评估L1=0你好,我DKL(s(t,i)||1t∈T+),是的。我们的方法。 我们执行图像和文本的对齐16425其中DKL(·||·)是Kullback-Leibler散度,1t∈T+是表示描述是否为正描述的指示函数。它使我们的模型能够处理d(i,t)和跨两个模态d(Gi,Gt)的事件图。评估指标。我们使用传统的图像检索措施,包括Recall@1,Recall@5和Recall@10。16426⟨⟩⟨⟩文本描述(事件类型)TransportPerson一个运输人的形象。逮捕逮捕的画面............文本描述(参数角色)事件类型Movement.TransportPerson剂[对象]是运输实体[对象]是正在传输仪器[对象]是用于运输起源[对象]是运输目的地[对象]是运输(a) 事件提取的体系结构(M2E2和GSR).事件类型(紫色)对给定图像的事件类型描述进行排名,参数提取(黄色)对给定边界框的参数描述进行排名。(b) VCR和VisualCOMET的体系结构。在给定图像的情况下,分别对问题、我们计算图像-文本级对齐和事件图对齐。图4.评估任务的体系结构。3.4. 视觉常识推理任务设置。给定一个问题,该任务包含两个子任务:(1)从四个选项中预测答案;(2)从四个选项中预测支持答案的理由我们的方法。 为了评估预训练模型的质量,如图4 b所示,我们采用零拍摄设置,仅依赖于图像-文本对齐进行公平比较,详细信息见附录A.5。评估指标。我们使用F分数来评估答案预测和合理预测,如下[40]。3.5. 时间中的视觉常识推理任务设置。 给定一个图像和与其参与者相关的事件,VisualCOMET [24]旨在生成参与者的“意图”,如附录A.6所述。我们的方法。如图4 b所示,我们根据图像-文本相似度对候选意图进行排名(附录A.6)。评估指标。 根据最新模型的困惑度评估,我们采用了Accuracy@50[24]。4. 实验4.1. 预培训详情新数据集。我们收集了106,875个图片标题,这些图片标题来自新闻网站[1]。它提供了一个新的具有挑战性的图像检索基准,其中每个句子可能包含具有复杂语言结构的多个事件。平均字幕长度为28.3个token,Flickr30k为13.4个,MSCOCO为11.3数据统计见表1。3、构造事件知识自动提取。2.1.数据集分割#image# event#arg#ent列车76,256 84,120148,262五 十七 万三千零一十六VOANews测试 18,310 21,211 39,375 87,671无事件12,309-表3.VOANews数据统计参数设置。我们利用“ViT-B/32”的文本和视觉转换器更多de-尾部包括在附录中。4.2. 基线最先进的多媒体预训练模型。 我们通过运行“ViT-B/32”的公开版本与CLIP [ 26 ]进行了比较,并在以下实验中报告了分数,以进行公平的比较。我们使用Tab中相同数据集中的图像标题进一步预训练CLIP3、在数据资源方面进行公平比较。最先进的事件提取模型。最先进的事件提取模型,如WASE [17]用于多媒体事件提取任务,JSL [25]用于接地情景识别任务。消融研究:CLIP-事件w/o最佳传输作为我们模型的变体,其中我们删除了事件图之间的对齐。它只在对比损失L1上训练。消融研究:每个提示功能仅在培训期间使用,目的是比较其有效性。4.3. 事件抽取任务在零触发设置下,我们在事件提取上获得了5.5%的绝对F分数增益,在M2E2上的参数提取上获得了33.3%的相对增益,如表11所示。4.第一章在结构化事件知识的帮助下,通过对新闻数据进行预训练所获得的收益被显著放大例如,与M2E2上的普通CLIP相比,对新闻进行预训练的CLIP实现了1.9%的改进.我们的CLIP事件将增益显著提高到3.89倍。Zero-shot CLIP-Event在M2 E2数据集上的参数提取性能优于最先进的弱监督模型,表明所提出的最优传输对齐有效地捕获了先前视觉语言预训练模型失败的参数结构。对于参数本地化,CLIP-Event在M2E2上实现了比SWiG更高的增益,这是因为SWiG使用了不同的参数边界框接地策略。SWiG将所有扮演相同角色的对象合并到一个大的边界框中。如图5b所示,我们的方法首先检测每个对象的参数角色,然后将具有相同角色的那些对象合并到大的边界框中。在图像与目标检测文本编码器人人人s(i,tv)s(i,图像编码器Bench图像VCR文本问题图像为什么[person4]VisualCOMET文本输入事件一个人试图从水中Transformer指向[人1]?候选人答案1时间条件他告诉[person3],(before)before person 1 need to[person1]命令d(i,t)煎饼。d(Gi,Gt).......因为person1需要(after)在person 1之后,候选人理由1候选人意图1[person1]是吃煎饼游到他面前的文本Transformer文本事件提取16427终端态势识别(SWiG)论点价值价值-所有地面地面-所有Zero-shotCLIP-事件w/o OptimalTransport单模板组合模板连续提示标题编辑GPT-3提示36.435.032.333.933.630.934.270.859.371.472.875.771.476.548.144.144.446.346.543.247.313.911.011.912.711.111.612.116.012.615.615.316.713.816.814.811.913.213.913.312.614.131.430.230.430.930.430.131.114.914.214.414.514.013.914.99.28.48.68.88.38.29.112.812.312.412.412.112.312.75.24.44.74.84.34.45.2监督CLIP-事件+SWiG不带OptimalTransport41.340.372.871.352.751.521.120.813.113.017.116.045.644.733.132.920.119.426.124.410.610.1表4.图像事件提取的评价结果和消融研究我们遵循每个基准的评估措施(%)模型Flickr30kMSCOCOvoa新闻夹62.281.930.350.321.223.4CLIP新闻64.381.232.250.823.525.1CLIP-事件67.082.634.051.327.528.7不带OptimalTransport65.680.532.551.025.526.9表5. R@1(%)在Flickr 30k(1k测试),MSCOCO(5k测试)和VOANews的文本到图像(左)和图像到文本(右)检索。模型VCR答案F1理由F1VisualCOMET精度@50[24]第二十四话--18.2夹51.146.820.1CLIP新闻51.847.220.9CLIP-事件52.449.222.4不带OptimalTransport52.048.621.1表6.零激发VCR和VisualCOMET的结果(%)事件类型逮捕剂人拘留者人事件类型抗议剂人地方户外(a)M2E2上的一个示例结果.(b)关于SWiG的结果示例。图5.事件提取任务的结果示例。相比之下,M2E2允许多个对象具有相同的参数角色,这与我们使用与参数角色对齐的对象的方法一致5a.4.4. 下游任务图像检索(1)VOANews的标题中包含的事件种类繁多,句子结构也比Flickr30k和MSCOCO更难,因此挑战性更大,如图6所示。VOANews上的改进远远高于Flickr30k和MSCOCO上的增益,证明我们的模型能够处理冗长的句子,特别是那些有许多事件的句子。调查人员在贝鲁特,1月11日,一辆汽车爆炸现场检查一辆被毁的汽车的零件。2014年21日图6.VOANews上文本到图像检索的示例结果,以及最佳运输计划的可视化。(2) 下游任务受益于细粒度的事件图对齐。例如,在图6中,对象与调查人员和被摧毁的汽车之间的强对准使得图像能够成功地排名更高。录像机。(1)在VCR上,基本原理F1比答案F1提高更多。基本原理预测更具挑战性,因为它涉及场景的细节,我们的细粒度夹29.565.740.79.212.710.728.313.37.611.23.8CLIP新闻31.764.742.69.713.111.129.914.08.212.04.3最新技术水平[17,25]43.159.249.914.510.111.939.931.418.924.99.7CLIP在SWiG38.171.649.820.912.815.942.632.619.225.210.2设置模型多媒体活动浸提(M2 E2)论点团体活动PR F1PR F1动词16428问:为什么是Person1?攻击Person2?答:(1)Person1试图击败Person2,以便帮助Person1逃跑。(1) 他看起来很生气地走着,他比那个小男孩大得多。(2) 你可以看到,Person1试图伤害Person2,而Person2则畏缩了,所以他是一个恶霸是有道理的。(3)人1和人2持有(2)人2不想成为男人咄咄逼人,把他带到进行对话,地上他们是在杀鸡儆猴一号人物把他逼入了绝境。当着其他犯人的面说出来(3) 因为他生他的气。(4)第二个人采取防御姿态(4) Person1是一个恶霸,当Person1把手放在他身上时Person 2的脸上打他对准好捕捉。(2)事件知识对下游任务特别有益。在图7中,只有正确答案对应于输入图像的事件类型。图7. VCR可以从事件(蓝色)理解中受益。视觉彗星。 我们将我们的结果与最先进的模型的困惑进 行 比 较 , 该 模 型 也是 基 于 检 索 的 。 基 线 使 用VisualCOMET的训练集进行训练,但我们的模型是一个无监督模型,它实现了卓越的性能,表明我们的模型能够理解图像中的事件。4.5. 消融研究通过最佳传输的事件图对齐效果(1)移除最优传输(“w/o OptimalTransport”)通常会降低所有评估任务的性能,因为它忽略了事件图结构及其跨媒体对齐,但仅依赖于过于简单的图像和句子特征。(2)参数提取任务的性能增益是最高的,因为它需要文本和图像的细粒度对齐(3)我们将图6中的运输计划可视化,以深入了解学习到的对齐。这是一个全局决策,考虑到两个事件图的参数结构。因此,不同的参数角色往往与具有不同视觉特征的不同对象相关联,以实现较低的全球运输成本。例如,调查人员匹配穿白色衣服的物体,但不匹配士兵物体,因为视觉特征不同。此外,一个参数角色倾向于与具有相似视觉特征的对象对齐,例如,两名调查人员都穿着白色的防护服。提示功能比较。如Tab.所示。4、GPT3在提示功能中提供了最佳性能。它利用GPT3中编码的知识,从而生成具有精确事件信息的自然描述。其他提示功能也证明了它们在支持事件理解方面的有效性。5. 相关工作视觉语言预训练。近年来,基于Transformer架构[32]的视觉语言预训练模型[4、11、12、14、18、22、26、31、34、41、42]图像结构已被证明对预训练模型有用,例如场景图[38]。然而,事件结构知识在预训练中没有很好地捕获模型,表现出与动词理解相关的任务的缺陷[10]。我们是第一个对结构事件知识进行编码以增强视觉语言预训练的人。视觉事件理解。以前的工作使用主语-动词-宾语三元组将视觉事件简化为动词[2,6,9,13,19,21,28,30,33,36,43]。情况简介tion [25,37]旨在检测论元角色,而Multimedia EventExtraction [17]将动词分类为事件类型。然而,它们有限的事件本体无法处理实际应用中的开放世界事件.相比之下,我们提出的预训练模型支持零拍摄事件提取,并在其他需要图像事件推理的下游任务上表现出良好的性能。跨媒体对齐。 现有的预训练模型[3,4,18,31,41]在不考虑文本和图像结构的情况下最大限度地提高了两种模式的对齐度。图像结构[17,39],类似于文本语言结构的建议。然而,复杂的语言结构和意象结构之间存在着鸿沟。我们建议使用文本事件图结构来填补空白,并计算两个事件图的全局对齐6. 结论和未来工作本文提出将结构事件知识融入视觉语言预训练。我们通过自动从字幕中提取事件知识并通过对比学习监督图像事件结构理解来执行事件知识的跨媒体传输我们通过基于混淆矩阵的事件结构生成硬否定,并设计事件提示函数将事件编码成自然句子。为了传递参数结构知识,我们提出了一种通过最优传输的事件图对齐损失,获得基于参数结构的全局对齐它在零触发设置下的事件提取和下游任务上优于最先进的在未来,我们将扩大这一能力的视频,以理解事件的演变,使用参数跟踪。确认我们感谢匿名评论者的有益建议。这项研究是基于美国支持的工作DARPA AIDA计划编号FA 8750 -18-2-0014,美国DARPAKAIROS程序编号FA 8750 -19-2-1004。本文中包含的观点和结论是作者的观点和结论,不应被解释为必然代表DARPA或美国政府的公开政策,无论是明示的还是暗示的。政府的美国政府获授权为政府目的而复制及分发重印本,即使其中有任何版权注释。16429引用[1] VOA News. https://www.voanews.com/网站。 二、六[2] Yu-Wei Chao , Zhan Wang , Yugeng He , JiaxuanWang,and Jia Deng. Hico:识别图像中人与物体交互的基 准 。 在 ProceedingsoftheIEEEInternationalConference on Computer Vision,第10178[3] 陈立群,甘哲,程宇,李林杰,劳伦斯·卡林,刘晶晶。用于跨域对齐的最佳传输图。国际机器学习会议,第1542-1553页。PMLR,2020年。8[4] Yen-Chun Chen , Linjie Li , Licheng Yu , Ahmed ElKholy , Faisal Ahmed , Zhe Gan , Yu Cheng , andJingjing Liu.Uniter:通用图像-文本表示学习。欧洲计算机视觉会议,第104-120页。Springer,2020年。1、8[5] 马可·库图里Sinkhorn距离:最佳运输的光速计算。在克里 斯 托 弗 J 。 C. Burges , Le' on Bot- tou , ZoubinGhahramani,and Kilian Q.Weinberger,编辑,神经信息处理系统进展26:2013年第27届神经信息处理系统年会。2013年12月5日至8日在美国内华达州太浩湖举行的会议记录,2013年第2292-2300页。5[6] Pradipto Das , Chenliang Xu , Richard F Doell , andJason J Corso.几个词就能表达一千帧:通过潜在主题和稀疏对象拼接对视频进行语言描述。在IEEE计算机视觉和模式识别会议论文集,第2634-2641页8[7] Ritendra Datta,Dhiraj Joshi,Jia Li,and James Z Wang.图 像 检 索 : 新 时 代 的 思 想 , 影 响 和 趋 势 。 ACMComputing Surveys(Csur),40(2):1-60,2008. 2[8] 卢西亚诺·弗洛里迪和马西莫·奇里亚蒂GPT-3:其性质 、 范 围 、 限 制 和 后 果 。 Minds and Machines , 30(4):681-694,2020。3[9] 索拉布·古普塔和吉坦德拉·马利克。可视化语义角色标注。arXiv预印本arXiv:1505.04474,2015。8[10] 丽莎·安妮·亨德里克斯和艾达·奈马特扎德探索动词理解的图像语言转换器arXiv预印本arXiv:2106.09141,2021。1、8[11] Zhicheng Huang,Zhaoyang Zeng,Yupan Huang,BeiLiu , Dongmei Fu , and Jianlong Fu.Seeing out of thebox : End-to-endpre-trainingforvision-languagerepresentation learning.在IEEE/CVF计算机视觉和模式识别集,第129768[12] Chao Jia,Yinfei Yang,Ye Xia,Yi-Ting Chen,ZaranaParekh,Hieu Pham,Quoc V Le,Yunhsuan Sung,ZhenLi,and Tom Duerig.通过噪声文本监督扩大视觉和视觉语言表征学习。arXiv预印本arXiv:2102.05918,2021。1、8[13] Keizo Ka
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功