没有合适的资源?快使用搜索试试~ 我知道了~
时间基础的结构化变分交叉图对应学习及其在视频和语言理解中的应用
3032洗牌49.32%成分时间基础结构化变分交叉图对应学习李俊成1谢俊林 1龙倩1朱林超2唐思良1吴飞1杨毅1庄悦婷1王欣31浙江大学、2悉尼科技大学、3加州大学圣克鲁斯分校{军成利,22051289,钱龙0926,司良,吴飞,杨义奇,于庄}@ zju.edu.cnlinchao. uts.edu.au,xwang366@ucsc.edu摘要原始查询A:混洗查询A:具有新颖组成的:一个女人自拍自拍需要一个一坐一个孩子闻了闻,视频中的时间基础旨在定位语义上对应于给定查询语句的一个目标视频片段。由于自然语言坐在马上。骑在女人身上的马把一把鲜花抛向空中。在语言描述中,时间基础允许活动基础超出预定义的类别,并且近年来受到越来越多的关注。语义多样性的根源在于语言学中的组合性原则,即新的语义可以通过以新的方式(组合概括)组合已知的词然而,目前的时间接地- ING数据集没有专门测试的成分概括性。为了系统地度量时间背景模型的组合概化性,我们引入了一个新的组合时间背景任务,并构造了两个新 的 数 据 集 分 裂 , 即 , Charades-CG 和 ActivityNet-CG。评估我们的新数据集分割的最先进的方法,我们凭经验发现,它们无法推广到具有所见单词的新颖组合的查询。为了应对这一挑战,我们提出了一个变量交叉图推理框架,该框架将视频和语言明确地分解为多个结构化的层次结构,并学习它们之间的细粒度语义实验表明,我们的方法优越的compo- sitional推广。本作品的知识库位于https://github.com/YYJMJC/Compositional-Temporal-Grounding。1. 介绍理解视频中丰富多样的活动是视频理解的一个突出和基本目标。虽然在活动识别[3,8]和本地化[28,37]方面已经有了重要的工作,但这些工作的一个主要局限性是它们仅限于预定义的确认。庄月婷为通讯作者。地面实况A地面实况B(a) 实例和预测≈≫(b) 性能SOTA方法:(R@1,IoU =0.5)图1. (a)在顶部,我们展示了两个查询的三个示例。(b)在底部,我们报告了Charades-CG与度量R@1,IoU@0.5的比较。左边的蓝色框表示原始模型。中间的黄色框表示以混洗查询作为输入的模型右边的绿色框表示包含新组合的查询的性能。类,从而遭受扩展到各种复杂活动。这个问题的一个自然的解决方案是利用人类语言的系统组合性[4,9,31],这使我们能够通过以新颖的方式组合已知的单词来描述看不见的活动(即,合成泛化)。因此,一个新的任务,即视频中的时间接地[10,17],最近受到越来越多的关注。形式上,给定一个未修剪的视频和一个查询语句,它的目的是识别语义上对应于给定查询语句的一个特定时刻的开始和结束时间戳。虽然合成泛化是人类语言的一个关键现有数据集的训练和测试分割包含几乎相同的成分(例如,动词-名词对、形容词-名词对等)。 我们的统计结果显示,在Charades-STA [10]和ActivityNet Captions [17]新型组合物29.42%无扰动百分之四十九点四五3033数据集,分别。为了系统地衡量现有方法的合成概括性(CG),我们引入了一个新的任务:合成时间基础.我们的合成时间背景任务旨在测试该模型是否可以推广到句子,包含新的组成看到的话。我们构建了两个重组数据集Charades-CG和ActivityNet-CG。我们的数据集分割协议使我们能够衡量模型是否可以推广到新的组合物,其中单个组件在训练过程中已被观察到,但组合是新颖的。使用我们新构建的数据集,我们评估了现代最先进的(SOTA)时间接地模型,并实证发现,SOTA模型未能实现成分概括,虽然他们在典型的时间接地任务上取得了可喜的进展。我们观察到他们的表现急剧下降(图1.b,左与右)。结果表明,SOTA模型可能不能很好地推广到新的组合物。此外,由于语序是语言组合性的一个关键因素,我们分析了SOTA模型的语序敏感性,以获得更直观的见解。具体来说,我们事先随机打乱查询,然后使用打乱的句子来训练和评估模型。令人惊讶的是,我们发现他们对词序不敏感,即使排列词序破坏了原始句子的完整语义(图1.b,左与右)。中间)。这些观察结果证实了最近的研究[35,41],这些研究表明,当前的模型在很大程度上是由表面相关性驱动这促使我们重新思考临时接地的解决方案。在系统分析SOTA模型的基础上,我们发现以往的基于时间的方法在很大程度上忽略了视频和语言中的结构化语义,而这对于组合推理是至关重要的。这些方法[10,32,45,47]主要将句子和视频片段分别编码为非结构化的全局表示,然后设计特定的跨模态交互模块来融合它们以进行最终预测。这些全局表示不能明确地对视频结构和语言组成进行建模。以图1.a中的如果模型推断出这两个词的个体语义,以及建立它们与视频中特定语义的对应关系(即,视频中的动作基于这一认识,我们提出了一种新的组合时间背景的可变交叉图响应(VISA通过对视频和语言的语义结构进行显式建模,并推断它们之间的细粒度对应关系,我们的VISA模型可以实现联合组合推理。具体首先,我们引入了一个层次语义图,它将视频和语言明确地分解为三个语义层次(即,全局事件、局部动作和原子对象)。层次语义图作为视频和语言的统一结构化表示,其紧密耦合两种模态之间的多粒度语义其次,我们提出了一个变分交叉图对应学习,建立视频和语言的语义层次图之间的细粒度语义对应。我们的贡献总结如下:我们引入了一个新的任务,成分时间接地,以及新的分裂的两个流行的时间接地数据集,这是能够衡量现有方法的成分概括性我们对几个SOTA模型进行了深入的分析,并实证发现它们未能实现组合泛化我们提出了一个VISA框架,将视频和语言分解成层次图,并学习它们之间的细粒度交叉图对应关系。实验结果验证了我们的方法在成分概括性上的显著优越性。2. 相关工作临时接地。最近,深度学习[20,25]的发展促进了计算机视觉[14,24,53]和视觉和语言理解[21、23、46、48、49、52]。通过语言在视频中建立时间基础是最近提出的任务[10,17]。现有的监督方法可以分为两组。1)基于建议的方法[10,42,44,47]首先通过时间滑动窗口提取可2)无建议方法[26,32,43,45]直接预测目标段的时间边界,而无需预先定义建议。在本文中,我们评估了合成的一般性,目前的方法。组合泛化。近年来,合成泛化由于其在鲁棒性和样本效率方面的优势而受到越来越多的关注。为了评估合成泛化,Lake等人。 [18]提出了SCAN基准,该基准要求将短语结构语法生成的指令转换为动作序列。SCAN被分割,使得测试集包含训练集中看不见的成分以下工作提出了几种改进SCAN的技术,包括数据增强[1],元学习[6,19,34]和架构设计[5,12]。最近的一些工作也探索了其他应用上的合成泛化,····3034- -t=1我i=1我包括图像字幕[33,50,51],视觉问题和-swering [13,15]、动作识别[30,39,54]和状态对象识别[29]。本文系统地研究了视频中基于时间背景的自然语言句子的合成泛化问题3. 成分时间基础3.1. 问题公式化为了系统地基准目前的方法的进展成分概括,我们引入了一个新的任务,成分时间接地。我们的组成时间接地任务的目的是评估如何以及一个模型可以推广到查询句子,包含新的组成或新的话。我们构建了两个流行数据集Charades-STA [10]和ActivityNet Captions[17] 的 新 分 裂 , 分 别 命 名 为 Charades-CG 和ActivityNet-CG。具体来说,我们定义了两个新的测试分裂:小说组成和小说词。小说-作文拆分中的每一句话都包含一种类型的小说作文。如果训练过程中观察到两个成分,但它们的组合方式是新颖的,我们将其定义为新颖成分新单词分割中的每个句子包含一个新单词,其目的是测试模型是否可以基于上下文中出现的其他学习的组成成分来推断未见过单词的潜在语义。3.2. 数据集重新分割对于每个数据集,我们首先组合原始训练集和测试集中的所有实例,并删除仅基于视频即可轻松预测的实例。然后,我们将每个数据集重新划分为四个集合:训练集、新组合集、新单词集和测试平凡集。测试平凡集类似于原始测试集,其中大多数成分在训练期间可见。具体地说,我们使用AllenNLP [11]对语言查询中的所有名词,形容词,动词,副词,介词进行词形化和标记根据依存句法分析的结果,我们定义了5种组合类型:动词-名词、形容词-名词、名词-名词、动词-副词和介词-名词。对于每种类型的组合,我们构造一个统计表,其中行索引是组合的所有可能的第一个组件,列索引是组合的所有可能的第二个组件。以动词-名词为例,第i行第j列的元素对应于数据集中第i个动词和第j个对于每个表,我们首先从每行和每列中采样一个元素,然后将包含采样组合的所有查询添加到训练集中,这确保了组合的所有组件都可以在训练集中观察到。接下来,对于每种类型的组合,我们从表中采样组合,并将相应的查询添加到novel-composition拆分中。与此同时,数据集拆分视频查询培训35558281Charades-CG小说-作曲24803442小说词588703测试-琐碎16893096培训965936724ActivityNet-CGNovel-Composition420212028小说词20113944测试-琐碎477515712表1. Charades-CG和Activity-CG的统计。将一些词作为新词,并将包含新词的查询添加到新词分割中。由于每个视频都与多个文本查询相关联,如果一个查询被选入训练集中,我们将向训练集中添加同一视频如果一个查询被选择到小说组合或小说词分割中,我们将把同一视频的其余查询添加到测试平凡集中。因此,我们确保训练集和测试表1总结了详细的统计数据。我们在补充材料中提供更多细节。4. 方法如图2所示,我们的VISA框架主要由两个组件组成:层次语义图和变分交叉图对应学习。给定一个未裁剪的视频V和一个查询语句Q,层次语义图首先将它们分解为三个语义层次(即:全局事件、局部动作和原子对象)。然后,变分交叉图对应学习在两个图之间建立细粒度的语义对应。最后,基于视频和句子之间的细粒度语义对应关系,我们的VISA推断出与给定查询语义对应的目标4.1. 层次语义图语言查询描述了一些语义事件[22],可以进一步解析为中心谓词及其相应的参数。同样,视频自然记录了我们生活中的一些相关事件,这些事件由各种动作组成,每个动作涉及多个对象。因此,语言和视频都是以层次结构进行组织的。基于这种观察,给定视频V和查询Q,我们将它们分解为三个语义层次,分别对应于全局事件、局部动作和原子对象。这种分层语义图提供了统一的结构化表示,用于对视频和语言查询之间的细粒度语义对应进行建模。图形初始化。 对于未修剪的视频V,我们首先将其划分为具有固定长度的片段序列,并使用预先训练的3D CNN提取特征:{V t}T,其中V t={f t}K并且表示的C3D特征3035一N 2OIJ我i、j}R我i=1i=1t我i=1t我i=1我i=1我我O一IJJJJ联系我们NvNv×d联系我们层次语义图变分交叉图对应学习查询语义语境化学习第二节语义聚合(解释水上滑板事件交叉图卷积SRL······行动对象解释······水上滑板男人概念女儿在一个湖同时对象人概念女儿在一个湖同时近似后验模型真实值一刻图形池全球视觉指导句子查询似然模型行动教程体育平均池全球语言指导* +($|&,(,Y)潜段变量z特征训练阶段K/(*+($|&,(,Y)||p“($|&,())语义语境化学习层次语义聚合&先验模型词特征谈冲事件跨模态融合关注行动教学体育平均池检测行动对象······谈······冲人全球语言[ts,te]p“(Y|&,(,Z)视频湖段1女湖rope对象段T人莱克女孩莱克绳指导p“($|&,()推理阶段图2.我们的签证框架概述我们省略了输入视频和句子的细节段t中的帧i。然后,我们采用现成的对象检测和动作识别模型来提取每个段的对象和动作,其中每个段包含N1对象节点{s o}N1 ∈Rd×N1和N2个动作节点sRd×N2.我们通过对象标签和动作标签中每个单词的GloVe [36]向量之和来初始化对象和动作节点。最后,所有对象跨段的节点SO和动作节点SA构成动作-动作,动作-对象,对象-对象。对于视频语义图(/语言语义图),相同片段(/语义结构)中的对象节点通过对象-对象边连接,相同片段(/语义结构)中的动作和对象节点通过动作-对象边连接,并且所有动作节点通过动作-动作边连接。之后,我们对视频语义执行关系感知图卷积,视频语义图的第一和第二层次tic图 对于语义节点s i,一∈{S,S },我们计算对于查询Q,我们使用语义角色标注(SRL)将查询分解为多个语义结构。每个语义结构都包含一个中心谓词(动词),每个边缘类型r的邻接相关性为:exp(αr)r r T r里季(一)一些相应的参数(名词短语,包括prepare,adj,and adv).谓词被认为是动作αij=(Wsi) ·(Wsj),αij=j∈Nr exp(αr)节点记为{ca}L2∈Rd×L2,参数为其中,Nr是s在边类型r上被认为是由{coL1j=1 ∈Rd×L1。Wr是关系特定投影矩阵。然后我们如果一个词作为不同预测的多个参数cates,我们为每个动作节点复制它。类似地,我们使用GloVe单词向量初始化它们。 最后,所有对象节点C构成第一和动作节点C使用所有边类型的相邻节点将si细化为:si=αr·(Usj)(2)r∈R j∈Nr和语言语义图的第二层次。语义情境化学习事件是视频上下文的高层语义抽象,涉及不同语义概念之间复杂的交互.例如,查询其中R是三种类型的边,U r是另一种变换矩阵。是第一关系感知图卷积层的结果 为了模拟多阶关系,我们执行M层关系感知图卷积,并学习最终的语义上下文化节点特征S={s i}E ∈R,其中Nv是下车和乘车),以及它们之间的潜在关系,如空间关系(背上)、时间关系(站起来和下车)和动作关系(乘车)。因此,为了实现对视频事件的深入理解,我们提出了语义语境化学习来建模复杂的交互过程,动作和对象节点。同样的,我们也可以--语义上下文化节点特征C=ciNs语言语义图的RNs×d视觉情境化学习。我们进一步提出了视觉上下文学习,以收集相关的视觉上下文从视频到视频语义图。具体-对于语义节点s i,设V i={fi}K表示语义节点之间的关系,并学习细粒度的联系,对应的段,并且ij j=1文本信息超越了粗糙的语义标签。此外,语义上下文信息对于解决单个语义节点的语义歧义是至关重要的,因为预先训练的检测器可能是嘈杂的,并且检测到的动作和对象可能在外观上具有显著的变化。具体地,我们定义三种类型的无向边:fj是帧特征(下面,为了简单起见,我们省略上标i)。 我们首先为片段中的每个帧f j计算视觉滤波器,并获得滤波后的视觉特征:gi=σ(Wg[si;f;fj]+bg),f′=fj<$gi(3)3036⊙||||i=1Σe12i=1i=1|J|j=1我1我2J我IJJIJexp((We p)T·(Wes))我我我IJ我JJ j=1类似的方式,但相反的顺序,我们可以得到H。IJ12JElboα=1i2jNhd×Nh∈|(七)其中表示Hadamard乘积,并且f通过对Vi执行平均池化来获得。然 后,我们在过滤后的帧特征上执行最大池化,以 获 得 语 义 相 关 的视 觉 上 下 文 , 如Fi=Max Poo l(f′,., f′)。最后,我们把si和Fi连接起来Lower Bound(ELBO)[16]如下:L(θ,θ)=E q(z|M,H,Y)logp θ(Y|M,H,z)1K− KL(q)(z|M、H、Y)||p θ(z|(M,H))并 通 过 变 换 矩 阵 Wv 将 它 们 变 换 到 原 始 维 度 ,Si=W v[Si,Fi]。在这里,为了简单起见,我们重用si来表示最终的视觉上下文语义节点表示。分层语义聚合。基于语义事件是由一系列相互关联的动作和对象组成的观点,本文提出了层次语义聚合机制,它将上下文化的动作节点和对象节点的语义聚合成全局事件节点。受位置查询编码[2]在对象检测中的成功启发,我们将事件节点初始化为一组可学习的查询向量,≤logp(Y|具体地说,我们用三个分量来刻画P(Y M,H):先验模型p θ(z M,H),后验模型q θ(z M,H,Y)和似然模型p θ(Y M,H,z)。在下文中,我们首先引入交叉图卷积来捕获两个图之间的语义相关性,然后详细描述这三个模型。交叉图卷积。给定图M和H,我们在两个图的相同层次之间执行交叉图卷积。对于视频语义节点m,k,从H到M的交叉卷积被公式化为:tors{pi}Np,然后从ac-i聚合相关语义事件节点和对象节点来细化事件节点。这里我们以视频语义图为例。对于事件查询pi,我们计算se上的注意力权重mantic节点{s}Nv并更新p,由下式给出:h2mijΣexp((W c m k)T·(Wchk))exp((W c m k)T·(Wc hk))(六)Nvpε =αej=1exp((Wepi)T·s,α=Σj=11·(Wesj))我2 Jmk=(1−βk)mk+βkαh2m·hk,k∈{e,a,o}其中We,We 是投影矩阵,我的意思是,kG K其中βi =σ(U mi B.控制信息流语义感知事件节点。随后,我们堆叠多个这样的图自注意层,并合并最终的从H到M,k表示三个语义层次(即,事件,动作,对象),Nk表示H在第k层中的节点。中H事件节点转换为{s}Nv形成完整的等级制度视频的cal语义图,表示为M={mi}Nm∈先前模型。G iv enMandH,thepri ormodelRd×Nm。 同样的,我们也可以得到com-语言的完全层次语义图,表示为H={hi}∈ R. M和H是统一的结构pθ(z M,H)的目的是推断由潜在变量zRNm×Nh捕获的交叉图对应关系,其中zij对应于mi和三个语义层次,紧密耦合的多-两种模态之间的粒度语义。hj。具体地,zij可以公式化为:4.2. 变分交叉图对应在将视频和语言查询解析为单独的层次语义图之后,我们对z=(W sm)T·(Wsqh),zexp(zij)Σ(八))通过交叉图卷积来识别两个图之间的交叉模态交互,并诱导它们之间的细粒度语义对应以用于最终预测。目标函数可以用公式表示为P(Y M,H),其中Y是目标时间间隔。由于两个图之间的地面真实对应是不可用的,我们把交叉图对应作为一个潜在变量z。然后可以将问题公式化为变分推理框架[38],并且可以重新编写目标函数10作为P(Y|M,H,z)P(z|M,H)。代替直接最大化P(Y|M,H),我们建议最大限度地提高其证据其中q是引导se的全局句子特征智能对应推理近似后验模型。后验模型q(z M,H,Y)推断具有地面实况Y的附加信息的交叉图对应。根据时间边界Y,我们可以确定Y中的片段以及与这些片段相对应的动作和对象节点视频图中的这些节点包含了与语言语义图最相关的语义,可以更好地指导跨图对应学习。因此,我们通过这些节点上的均值池来获得mHH=j∈NkNv(四)j∈Nk我IJNhj=1 exp(zij3037|∈t=1不IJ∈34J我i=1我我我不 exp((W q q)T ·(Wq x))∈∈exp((W q)·(Wx在测试平凡和小说组成(小说词)并以m为指导进行函授学习:作为近似后验模型。在不访问地面实况的测试期间,我们可以使用学习的先验模型来代替近似的后验模型来推断z=(W smm)T·(W sqh),zexp(zij)Σ交叉图对应请注意,我们使用AP-近似后验模型以在训练期间生成z(九)其中m和q分别用作全局视觉和语言引导Likewise模型。似然模型p θ(Y M,H,z)基于潜在对应z和层次语义图M和H来预测时间边界。具体来说,我们首先基于学习的交叉图对应来整合两个图,以获得联合多模态表示:M′=zHRd×Nm,M J=W J[M;M′]Rd×Nm(十)其中投影矩阵W ,JRd×2d和MJ是层次语义图的联合多模态表示。 然后,我们使用M J来细化分段特征X={x t}T∈Rd×T. 我们执行均值池,5. 实验5.1. SOTA方法的基准测试我们评估了建议的Charades-CG和ActivityNet-CG数据集上的SOTA方法的组成概括性具体地,这些方法可以分为四组:1)基于提议的方法:TMN[27],2D-TAN[47]; 2)无提议的方法:LGI[32],VL-1 [34]。SNet[45]; 3)基于RL的方法:TSP-PRL[40]; 4)弱监督方法:WSSL[7]。由于篇幅所限,我们在补充资料中提供了更多的实验结果和实施细节。评估指标。在前人工作的基础上,我们采用了平均时间IoU)作为我们的评估指标。具体来说,给定一个测试查询,它首先计算交集(Intersection-over-Union,IoU)帧特征{ft}K,以获得段特征xt. 我们采用多头交叉模态注意,从MJ到X软选择相关信息。具体地,我们将X记为查询,将M 记为关键字和值:X=MultiAttn(X,M J,M J)(11)其中,X是语义感知的段表示。随后,我们使用基于句子特征q的注意池来总结片段表示:QTqv*=α q·x,α q=12 ii=1i=112我(十二)“R@n, IoU=m” is defined as the percentage of at least oneof top-n predictions with IoU larger than5.2. 关于组合时间背景的结果表2和表3总结了上述方法在成分时间基础上的结果。总的来说,我们的VISA在所有数据集分割上都达到了最高的性能,证明了我们提出的模型的优越性值得注意的是,我们观察到,所有测试的SOTA模型的性能显着下降的新组成其中v是概括的视频特征。最后,我们预测时间间隔(ts,te)为ts,te= MLP(v)。4.3. 优化如公式5所述,ELBO目标函数由两项组成。第一项对应于回归损失的负数。具体来说,在[32]之后,我们最小化归一化地面实况时间间隔之间的平滑L1距离(ts,te)[0,1]和我们的预测(ts,te)。这个术语不不仅教导似然模型预测正确的时间间隔,而且还鼓励近似后验模型学习更准确的交叉图对应。第二项对应于KL发散损失。具体地说,由于潜变量z是一个相关矩阵,我们按行计算KL-散度。直观地说,通过最小化这个项,我们可以教先验模型也捕获交叉图的语义对应关系范围高达20%。相比之下,我们的签证超过他们,小说组成和小说词分裂的大幅度,表现出优越的组成概括性。特别地,对于Charades-CG和ActivityNet-CG数据集的新成分分割,我们的方法在mIoU上分别显著超过SOTA方法30.86%和23.32%5.3. 深入分析单个组件的影响。我们进行了一项消融研究,以说明表4中各组分的作用。具体来说,我们训练以下消融模型 。 1)w/o SCL : 我 们 去 除 了 语 义 情 境 化 学 习( Semantic-Contextualized Learning , SCL ) 。 2)w/oVCL:我们删除了视觉情境化学习(VCL)。3)w/oHSA:我们删除了层次语义聚合(HSA)。4)w/oVCC:我们通过直接使用跨模态自学习来取代变分交叉图相关学习(VCC)=我IJNhj=1 exp(zij)在预测的时刻和地面实况之间,和小说词分裂。的性能3038方法测试-琐碎小说-作文小说-单词表2.SOTA时间基础模型和我们的VISA在拟议的Charades-CG数据集上的性能(%)方法测试-琐碎小说-作文小说-单词表3.SOTA时间基础模型和我们的VISA在建议的ActivityNet-CG数据集上的性能(%)类型Charades-CG不带VCC,不带SCL签证ActivityNet-CG无VCC无SCL签证动名36.5638.8241.3724.4126.3228.89名词42.1744.0445.0626.7628.3130.67名名40.3842.5643.4129.5130.2033.93动词副词43.8146.3747.8331.0833.4635.60预备名词44.1247.8648.6134.7836.0337.35表4.消融结果与度量R@1,IoU=0.5的小说组成(Comp)和小说词(Word)分裂。注意融合两个图形。5)基于检测:我们直接使用检测结果和SRL标签作为特征。行1和行2的结果表明,学习细粒度的上下文信息是至关重要的组合推理。此外,第3行的结果验证了事件级层次结构对全局语义理解的重要性。我们的w/oVCC没有达到令人满意的结果,因为直接融合视频和句子的图形相比之下,建议VCC建立细粒度的交叉图对应关系的变分推理,这是细致的,达到最佳效果。此外,第5行表明,主要的平均增益并不直接来自预先训练的检测模型。相反,这些检测到的语义标签作为联合组合推理的统一符号。不同组成类型的结果。为了获得进一步的了解,我们检查了我们的模型在不同类型的成分上的结果(R@1,IoU=0.5)。表5表明,推广到表5.我们的模型在每种成分类型上的性能。词序敏感度。为了获得更直观的洞察力,我们探讨了模型是否对词序敏感,这是语言组合性的一个关键因素。直觉上,如果我们改变句子的词序,它的语义可能会发生很大的变化,因此原始的地面真值时间边界可能不适合混洗句子。具体来说,我们提前随机打乱查询,然后使用打乱的查询来训练和评估模型。我们将灵敏度度量定义为在R@1,IoU=0.5上混洗版本的相对性能下降值越高,表示灵敏度越高。根据表6,我们惊讶地发现SOTA模型对词序不敏感。相反,我们的方法对句子的语言结构很敏感。此外,我们观察到我们的VISA对新奇词分裂的最高敏感性,表明语言结构对于推断新奇词的语义是重要的最后,我们观察到,建议SCL和VCC促进我们的方法,以捕获句子的语言结构,在一个相互奖励的方式。5.4. 定性分析对特定洗牌的敏感性。我们手动选择一些查询语句,并以一些特定的方式改变它们的词序,使得改变后的查询仍然可以语义上对应于其原始视频中的其他片段。IoU=0.5IoU=0.7MiouIoU=0.5IoU=0.7MiouIoU=0.5IoU=0.7Miou弱监督WSSL15.335.4618.313.611.218.262.790.737.92基于RL的TSP-PRL39.8621.0738.4116.302.0413.5214.832.6114.03基于提案的TMN18.758.1619.828.684.0710.149.434.9611.232D-TAN48.5826.4944.2730.9112.2329.7529.3613.2128.47LGI49.4523.8045.0129.4212.7330.0926.4812.4727.62无提案VLSNet45.9119.8041.6324.2511.5431.4325.6010.0730.21我们的签证53.2026.5247.1145.4122.7142.0342.3520.8840.18方法Charades-CG比较词ActivityNet-CG比较词1不带SCL43.7540.1629.0329.412不带VCL42.2638.6229.3428.093不含HSA44.2241.0930.2929.314不带VCC41.0837.5427.3226.375检测12.9711.7010.9210.076签证45.4142.3531.5130.14IoU=0.5IoU=0.7MiouIoU=0.5IoU=0.7MiouIoU=0.5IoU=0.7Miou弱监督WSSL11.034.1415.072.890.767.653.091.137.10基于RL的TSP-PRL34.2718.8037.0514.741.4312.6118.053.1514.34基于提案的TMN16.827.0117.138.744.3910.089.935.1211.382D-TAN44.5026.0342.1222.809.9528.4923.8610.3728.88LGI43.5623.2941.3723.219.0227.8623.109.0326.95无提案VLSNet39.2723.1242.5120.219.1829.0721.689.9429.58我们的签证47.1329.6444.0231.5116.7335.8530.1415.9035.133039方法Charades-CG Activity Net-CG Trivial CompWord Trivial CompWord2D-TAN 0.41 0.52 0.43 0.29 0.30 0.41LGI 0.28 0.23 0.16 0.31 0.22 0.19VLSNet签证24.14 29.80 33.97 22.09 27.60 31.89不包括沙中线19.64 24.31 29.72 18.07 24.64 28.73不含VCC 21.32 26.73 30.88 20.15 25.46 29.79表6.SOTA模型和VISA的词序敏感性我们的3.4s 11.8s VLSNet 12.3s23.7s(a) 具有易混淆组合的查询:一个男人伸展身体,准备跳到观众面前。我们VLSNet 26.1s95.9秒~ 125.8秒101.8s(b)复杂组合查询:一个男人在办公室里说话,街上的年轻记者继续说话。他对着镜头说话,然后开始演奏。原始地面实况他在玩,然后他开始对着镜头说话。新地面实况我们VLSNet12.7s26.4s25.2s34.6s(c)小说作文质疑:一男一女牵着一匹马走。图4.我们的VISA和VLSNet的定性示例红框代表地面实况。视频的层次语义图句子的图3.关于特定混洗查询的定性示例事件行动体育健身练习拳击事件行动如图3所示,我们用慢跑跳跃拳击俯卧撑推执行一个新的地面实况(红框),并使用更改后的查询来测试模型。有趣的是,SOTA方法的预测在原始时间边界上具有更高的IoU对象绳女子沙滩操人绳拳击她起来球她跆拳道圈对象尽管句子的语义已经被有意地修改。相比之下,我们的VISA敏锐地捕捉到语义的变化,并定位到新的时间边界。定性示例。图4显示了三个定性示例,它们表明了组合性的重要性。在第一种情况下,基线无法理解“准备跳跃”的组成含义,因此它错误地定位到“跳跃”片段。相比之下,我们的VISA成功地捕捉到了成分的含义。第二种情况包含复杂的成分,描述两个事件。在没有从组合结构中推断它们的时间关系的情况下,基线定位了错误的片段,即使它也包含两个单独的事件(即,“a man talk” 相反,我们的VISA理解这两个事件的正确时间顺序。第三个案例表明,我们的VISA成功地推广到新的组合物。当拉(例如拉绳)和马(例如,领头马)都观察到在训练分裂,基线遭受概括到这个新的组成。可视化学习图。在图5中,我们展示了学习的层次语义图。我们可视化一些关键节点和具有高权重的边。黄色虚线表示交叉图的语义对应。如果两个节点之间的语义对应性得分大于特定阈值,我们用黄色虚线将它们连接起来。我们根据事件节点的参与节点,用它们最相关的语义来表示事件节点。我们的VISA成功地将视觉语义图5.学习的层次语义图的可视化形成跆拳道”。此外,我们的签证可以连接6. 结论本文提出了一个新的任务--组合时间背景,以系统地评价组合时间背景模型的可概括性。我们对SOTA方法进行了深入的分析,发现它们缺乏组合的概括性。然后,我们介绍了一个新的VISA框架,学习细粒度的语义之间的对应关系的视频和语言在三个语义层次。实验表明,我们的VISA在成分概括性上有显著的改进。限制和未来的工作。我们观察到一些VISA不能区分广告动词细微语义的失败案例,“飞近”到“飞走”。我们希望未来的研究利用新的基准取得进展的细粒度的语义基础,从而实现合成的泛化。谢 谢 。本 工 作 得 到 了 国 家 重 点 研 发 计 划(2018AAA0101900)、浙江省国家自然科学基金会(LR21F020004)、国家重点实验室(2018年)、 浙江 省 自然 科 学 基 金 会( 20 1 8 年 )等的部分支持。中国浙江省研发计划项目(编号2021 C 01013)、阿里巴巴-浙江大学前沿技术联合研究院、中国工程科技知识中心我们感谢所有的评论者的宝贵意见。有意更改的查询的预测我们2D-TANVLSNet44.9s85.7s6.7秒~ 72.8秒3.4秒~ 69.5秒有意变更的查询:球环袋原始查询:3040引用[1] 雅各布·安德烈亚斯足够好的成分数据扩充。arXiv预印本arXiv:1904.09545,2019。2[2] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中,第213-229页Springer,2020年。5[3] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集,第6299-6308页,2017年。1[4] 诺姆·乔姆斯基句法结构De Gruyter Mouton,2009. 1[5] 丁亚东、吴宇、黄成跃、唐思良、吴飞、杨毅、朱文武 、 庄 悦 亭 。 Nap : Neu- ral architecture search withpruning.神经计算,2022年。2[6] 丁亚东、吴宇、黄承悦、唐思良、杨毅、魏龙辉、庄悦婷、齐天。通过联合优化神经结构和权重来学习。在IEEE/CVF计算机视觉和模式识别会议论文集,2022。2[7] 段旭光,黄文兵,甘闯,王敬东,朱文武,黄俊洲。视频中的弱监督密集事件字幕。arXiv预印本arXiv:1812.03849,2018。6[8] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。卷积双流网络融合视频动作识别。在IEEE计算机视觉和模式识别会议论文集,第1933-1941页,2016年。1[9] Jerry A Fodor和Zenon W Pylyshyn。连接主义与认知架构:批判性分析。Cognition,28(1- 2):3-71,1988.1[10] Jiyang Gao , Chen Sun , Zhenheng Yang , and RamNevatia. Tall:通过语言查询的时间活动定位。在IEEE计算机视觉国际会议论文集,第5267-5275页,2017年。一、二、三[11] Matt Gardner 、 Joel Grus 、 Mark Neumann 、 OyvindTafjord、Pradeep Dasigi、Nelson Liu、Matthew Peters、Michael Schmitz和Luke Zettlemoyer。Allennlp:一个深度 语 义 自 然 语 言 处 理 平 台 。 arXiv 预 印 本 arXiv :1803.07640,2018。3[12] 乔纳森·戈登,大卫·洛佩斯·帕兹,马可·巴罗尼,和黛安·布夏科特。语言组合泛化的置换等变模型。在2019年国际学习代表大会上。2[13] 玛德琳·格伦德·麦克劳克林,兰杰·克里希纳,还有马尼什 ·阿格 拉瓦 拉. Agqa :组 合时 空推 理的 基准 。在IEEE/CVF计 算 机 视 觉 和 模 式 识 别 会 议 论 文 集 , 第11287-11297页,2021年。3[14] Jianan Guo , Haochen Shi , Yangyang Kang , KunKuang,Siliang Tang,Zhuoren Jiang,Changl
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 最优条件下三次B样条小波边缘检测算子研究
- 深入解析:wav文件格式结构
- JIRA系统配置指南:代理与SSL设置
- 入门必备:电阻电容识别全解析
- U盘制作启动盘:详细教程解决无光驱装系统难题
- Eclipse快捷键大全:提升开发效率的必备秘籍
- C++ Primer Plus中文版:深入学习C++编程必备
- Eclipse常用快捷键汇总与操作指南
- JavaScript作用域解析与面向对象基础
- 软通动力Java笔试题解析
- 自定义标签配置与使用指南
- Android Intent深度解析:组件通信与广播机制
- 增强MyEclipse代码提示功能设置教程
- x86下VMware环境中Openwrt编译与LuCI集成指南
- S3C2440A嵌入式终端电源管理系统设计探讨
- Intel DTCP-IP技术在数字家庭中的内容保护
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功