视频和语言推理的自适应分层图网络及语义一致性学习

112 浏览量更新于2023-10-14 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1867面向视频和语言推理李俊成1唐思良1 ▸朱林超2石浩晨3黄宣文1吴飞1 易阳1庄悦婷11浙江大学2ReLER，悉尼科技大学3蒙特利尔大学@www.example.com，linchao. uts.edu.auhaochen. umontreal.cazju.edu.cn摘要视频和语言推理是最近提出的联合视频和语言理解的任务。这个新任务需要一个模型来推断自然语言语句是否在本文中，我们研究如何解决三个关键-00：03 --> 00：0500：05 -->00：07(man)给米切尔的办公室。我的那个电话。瑞秋格林的办公室声明：00：08 -->00：12你好，我是瑞秋·格林。有什么可以帮你的吗？00：12 -->00：17嗯哼。那好吧我把你交给你儿子。2019 - 01 - 21 00：00：00(man)嘿妈妈不，那只是我的秘书。这一任务的实际挑战：判断全球正确的当男人接电话时，女人变得心烦意乱，因为他假装是语句的性质涉及多种语义，他自己的办公室。中心意思时间意义因果意义通过视频和字幕进行联合推理，以及对远程关系和复杂的社会互动进行建模。首先，我们提出了一个自适应分层图网络，实现了在复杂的交互视频的深入理解。具体而言，它执行联合推理的视频和字幕在三个层次，其中的图结构是自适应调整，根据语句的语义结构。其次，我们引入语义一致性学习来明确地从三个层次鼓励自适应分层图网络的语义一致性语义一致性学习可以进一步改善视觉和语言学之间的对准，以及跨视频片段序列的一致性实验结果表明，我们的方法显着优于基线的大幅度。1. 介绍理解视频故事涉及分析和模拟人类视觉、语言、思维和行为，这是对当前机器学习技术的重大挑战[21]。最近，随着大规模视频数据集的进步[1，5，8，24，49]，联合视频和语言理解受到了越来越多的关注。已经提出了几种视频和语言任务，例如视频帽-*唐思良为通讯作者。图1：前两行显示了一个视频剪辑及其对齐的字幕。第三行显示具有多个语义含义的语句。[16，48，61，14，27，13，41，50]，文本到视频节奏-ral接地[15，3，6，29，36，59，63]和视频问题答：（28，60，47，23，25）。特别是，视频和语言推理（VLI）[33]是最近提出的一项任务，旨在促进对视频和语言理解的更深入研究给定具有对齐的字幕和基于视频内容的自然语言语句的视频剪辑，模型需要推断该语句是否需要或矛盾给定的视频剪辑。为了支持这项新任务的研究，一个大规模的数据集，名为VIOLIN（视频和语言推理），介绍。与TVQA/视频字幕相比，在TVQA/视频字幕中，大多数QA对/字幕集中于识别明确的视觉线索（例如，对象、动作、人物），VLI更具挑战性，需要更复杂的推理技能，例如解释人类情感和关系、理解事件以及推断整个视频中事件的因果关系。首先，单个语句可能涉及多个语义，使得更难判断全局正确性。如图1所示，语句由三个语义短语组成。如果模型识别中心意义和时间意义，但忽略1868因果关系的含义，它可能会作出错误的预测。其次，VLI需要对视频和字幕进行联合推理，以实现对复杂情节的深入理解。为了推断该人假装这是他自己的办公室的因果意义，该模型需要共同理解来自视频部分和字幕部分的信息。从视频部分看，该男子和该女子在同一间办公室，男子从女子手中夺过手机从字幕部分看，男人撒谎说那个女人是他的秘书。只有结合视频和字幕的上下文，模型才能进一步得出结论。第三，VLI需要对角色之间的各种交互和不同场景下的复杂事件动力学进行推理。VIOLIN数据集从不同来源收集，以覆盖逼真的视觉场景，包括5885个电影剪辑以及TVQA中使用的电视节目平均剪辑长度为35.20s，而TVQA中大多数剪辑的长度小于15s。在本文中，我们提出了一种新的自适应层次图推理与语义一致性的方法来克服上述挑战。首先，我们引入了一个自适应的图形构造机制来识别语句的多个语义含义。这使得我们的方法能够根据语句的语义结构自适应地调整图结构，以获得全局正确性。然后，我们提出了一个自适应分层图网络（AHGN），以联合推理视频和字幕，并模拟复杂的社会互动。具体而言，我们在三个层次中执行自适应图推理：1）片段级推理，其通过利用视觉帧和字幕之间的内在对齐和互补性质来实现对视频片段的深入理解; 2）时间级推理，其对不同片段之间的远程依赖性和多样性交互进行建模，以绘制全局视频理解; 3）全局级推理，其通过合并来自不同推理步骤的推论来判断语句的全局正确性。此外，整个AHGN的语义一致性因此，我们引入了一种新的语义连贯性学习（SCL）方法，以鼓励跨通道的语义连贯性在段的水平和跨层次具体地，语义连贯性学习包含两个正则化项：测量视觉节点和字幕节点之间的跨模态对准的最佳传输距离项，以及评估时间节点和全局节点之间的语义一致性的互信息项。实验表明，我们的方法显着优于基线的一个大的利润率，进一步的消融研究证明了每个组件的有效性。概括起来，我们的贡献主要有三个方面：本文提出了一种新的自适应层次图网络（AHGN），它在三个层次上对视频和字幕进行联合推理，其中图推理结构根据语句的语义结构进行自适应调整。我们的语义一致性学习（SCL）方法改善了视频和字幕之间的对齐，以及视频片段序列的一致性。大量的实验表明，我们的方法显着- cantly优于基线的大幅度。2. 相关工作视觉蕴涵给定自然图像前提和作为一种自然语言假设，视觉蕴涵（VE）[51]的目标是预测图像是否在语义上蕴涵文本。为了实现这一任务，SNLI-VE数据集是基于斯坦福自然语言推理语料库和Flickr 30 k数据集构建的[54]。此外，Suhr等人。 [46]提出了一个类似的任务，以确定自然语言标题是否是真实的照片。与限于静态图像的视觉蕴涵相反，视频和语言推理涉及复杂的时间动态，并且需要模型理解不同视觉场景之间的关系在本文中，我们提出了一种方法来模拟复杂的跨和内通道的相互作用，并进一步推断深入的理由在三个层次。近年来，视觉与语言研究蓬勃发展[4，15，56，31，30，17]。几个大型视频数据集[1，5，8，24，49]和视频和语言任务，例如视频字幕[16，44，57、58、48、52、27、13、41、50]、基于文本的视频时刻[15，3，6，29，36]和视频问题答案-ing [28，62，47，43，25，37]。视频字幕是从视频输入中生成文本描述的任务，基于文本的视频时刻检索需要从自然语言查询中定位视频片段，并且视频问题回答旨在预测给定视频作为上下文的自然语言问题的答案。这些任务主要集中在明确的事实描述或明确的信息的视频，其中很难纳入故事级的理解。相比之下，视频和语言推理[33]不仅需要明确的视觉线索，还需要更复杂的推理技能，例如推断原因和解释人类情感。这些能力可用于检测来自监视的异常意图以及来自在线视频的歧视性或反社会内容，这些内容通常是隐含表达的。与TVQA的[28]类似，VLI [33]的基线模型利用多流神经网络[33，28]，其中双向注意力[28，42，55]与语句···1869----i=1i=1i=sstii=vsti----i=1--图2：拟议框架概述。每个子图Gi由字幕词节点si和时间对齐的视觉帧节点vi构成。我们的AHGN在三个层次的视频和字幕进行联合推理。T（i）表示一个时间级子图，它是根据语句的语义结构自适应地构造的语义连贯学习显著促进了AHGN的跨通道、跨层次语义连贯。分别与字幕和视觉帧，然后融合独立的注意表示，得出最终的推理。然而，在我们看来，这类方法有两个主要限制：1）它未能利用视觉帧和字幕之间的时间对准和互补性质，这是实现对视频的深入理解的关键步骤; 2）平等地使用语句中的每个词来参加每个视觉帧和字幕词，然后进行单步分类，而不考虑显式语义结构。我们的工作，而不是模型的视觉帧和字幕之间的语义对齐，和图结构自适应调整根据语句的语义。3. 方法如图2所示，自适应分层图推理框架主要由两个组件组成1）自适应分层图网络（第3.1节），以及2）语义相干学习（第3.2节）。给定一个视频剪辑，其对齐的字幕，和一个自然语言语句，自适应分层图网络（AHGN）执行推理在三个层次，其中的图结构是自适应调整，根据语句的语义。最后，预测层使用全局图形表示来执行分类进一步引入语义一致性学习（SCL），显式地提高了自适应层次图网络的跨模态、跨层次语义一致性。3.1. 自适应层次图网络3.1.1图构建对于给定的视频片段，我们使用在ImageNet[11]上训练的ResNet101 [20]提取视觉特征，并应用单层MLP以获得视觉节点表示V = v ilv。对于其相关联的字幕，我们将它们标记成单词序列，并采用预先训练的BERT [12]编码器，然后是单层MLP，以获得字幕单词节点表示S=s ils。每个节点vi对应于视觉帧，并且每个节点si对应于字幕词。然后我们将每个子标题对齐具有视觉帧的时间Si={si}ssti+LVi= Vivsti+K，其时间戳与字幕时间戳重叠（Sst i是Si中的字幕节点的开始索引，L是Si中的字幕节点的数量，对于Vi类似的表示）。帧-字幕对，我们首先通过计算每对视觉节点Vi和字幕节点Sj的相似度来学习跨模态邻接相关矩阵A R K × L，如下：A=VT·Si，aij=vT·sj（1）我们可以用类似的方式得到s（n）∈ Rd×1。然后，我们基于视觉引导、字幕引导和语义查询来计算上下文门γ（n），其控制视觉和语言信息的融合：我我γ（n）=σ（W3[gv，q（n），gs]+b3）（5）然后我们计算表示消息i的消息m v从字幕节点到视觉节点v i：m v= ΣL a ij·s j.我我我我我通过分别在视觉节点和字幕节点上执行平均池化来实现。上下文门cv进一步被确定为：cv=σ （ W1[gv ， vi ， gs]+b1 ）（2）其中W1Rd×3d，b1Rd×1，σ（）表示sigmoid函数. 上下文门cv控制从字幕到视觉的语言信息流：其中W3Rd×3d和b3Rd×1。因此，我们将每个段级子图Gi汇集到时间级节点t（n）∈ Rd×1，并获得时间级子图T（n）∈Rd×M，由语义查询q（n）引导。3.1.3时间层次推理视频剪辑是从电视节目和电影中收集的，其中包含跨多个片段的复杂事件动态和多样化的人物交互。因此，我们认为，v~i=（1−cv）⊙vi+cv⊙mv（三）段级推理是不够的，我们提出其中表示Hadamard乘积。因此，v~iRd×1表示语言细化的视觉节点，并且我们可以以类似的方式通过反转顺序获得视觉细化的字幕节点 s~iRd×1 ，并且G~i=表示GER之后的子图。门控模态内消息分组 F或V~i和S~i，我们使用GRA用模态内局部上下文信息进一步细化它们GRA类似于GER，但对模态内关系进行建模GRA首先通过计算节点间的相似度来计算模内邻接相关矩阵AvRK×K和A s R L × L，然后通过计算模内邻接相关矩阵A v R K × K和AsRL×L来得到模内邻接相关矩阵A vRK × K和A s R L × L。根据权重矩阵计算Sagen，v和ns。接下来时间级推理来对多个视频片段之间的长距离关系进行建模，以得出全局理解。在本节中，我们首先介绍如何自适应地构造多个时间级子图，然后介绍如何对它们进行推理。不同的语句可以具有不同复杂度的语义结构。对于更复杂的语句，可以构造更多的时间级子图，这些子图集中于语句的不同语义部分。因此，我们引入自适应时间级子图构造来自适应地调整时间级子图的数量。具体地，我们提取一个变量的语义-查询，并使用它们来执行GRA分别基于视觉/字幕指导和对应的视觉/字幕节点表示来计算视觉/字幕节点的上下文门。最后，GRA分别更新视觉节点和字幕节点。其由承包商控制因此，V语义引导的图池化，以构造多个时间级子图。语义查询向它们对应的时间级子图提供关于它们应当关注哪些语义部分的指导给定l字语句H={h}lh ，我们提取N和Si表示Gi在inter-和intra-之后的细化节点H（n）Nii=1模态推理语义引导的图池获取后语义查询{q}n= 1。在每一步n中，我们首先根据预先确定的注意权重计算注意权重R（n）∈Rlh×1s- 1个分段水平细化节点表示ˆd×K 和明显的语义查询q（n-1）和句子-lev elembed-通过执行以下操作获得的语句gh∈Rd×1的定义SiRd×L使用模态间和模态内局部上下文，我们进一步将Gi=Vi，Si>聚集到时间级语句平均池化H，由下式给出：通过语义引导的图池的节点表示。我们首先提取一个语义查询q（n）从语句中使用注意聚集的R d × 1。然后，我们使用语义查询来关注每个视觉节点和字幕R（n）=softmax（H T（Wr[gh，q（n−1）]））接下来，我们得到视觉引导（六）gv和字幕指导1871（7）然后，我们使用注意力权重来概括语句词以获得语义查询q（n）：q（n）=HR（n）。1872∈∈Σ--∈D||- -||L基于语义查询我i=1J j=1tors，其中SIMj=1VJ =1，Σ∈∈∈Ij经过时间级推理，我们得到了一个N个全局和两ps和pv是概率分布为了自适应地确定应该构造多少个时间级子图，我们引入了一种自停止机制，该机制输出停止生成更多查询的概率：h（n）=σ（Whq（n）+bh）其中W hRd× d，b hRd×1，累积停机概率进一步确定为：P（n）=以鼓励每个子图的跨模态语义一致性，这可以进一步细化每个子图Gi上的段级推理。最优运输评估两个分布之间的对应性基于OT的学习旨在通过最小化运输成本来优化分布匹配ni=1 h（i）。当累计停机概率为一个分发到另一个分发，提供明确的信号当阈值1或n达到预定义的最大值N_max时，该过程将停止。为了提高生成效率，我们根据最终的查询次数定义了一个损失项：Lqe=τ N（8）其中τ是查询效率超参数。在时间级图上的消息传递类似于GRA。给定T（n），首先计算邻接相关矩阵E（n）RM × M，然后对传入消息求和，最后采用门机制更新节点表示。在获得细化的T~（n）之后，我们进一步使用语义查询q（n）来将T~（n）池化为全局语义表示on：以最小化模态之间的嵌入距离。近年来，在一些领域进行了探索。Liu等人[34]将语义对应建模为最优传输问题。Su等人 [45]将最优传输应用于3D形状匹配和比较。Chen等人[7]通过最小化域间的最优传输计划来解决跨域对齐。这里，我们采用OT来细化子图Gi上的分段级推理。通过优化视觉节点和细微节点之间的节点距离和边距离，我们进一步促进了门控模态间和模态内消息传递的语义一致性具体来说，我们采用Wasserstein距离（WD）[35]进行节点匹配和Gromov-Wasserstein距离（GWD）[40，9]进行边缘匹配。我们定义两个分布μ s∈ P（S），μ v∈ P（V）为：μ s=np s δ sµv=j=1pjδviδsi表示狄拉克和Σmv哪里i=1U（n）=softmax（（T~（n））T（W4q（n），on=T~（n）U（n）（9）其中W4Rd×d，U（n）RK×1是注意力权重向量，onRd×1是全局节点表示（个）以s为中心的函数i.没有歧义，我们重用m和n来表示视觉节点和字幕节点的数量。Π（µs，µv ）表示所有联合分布，边际为 µs （ s ）和 µv（v）。令p s={p s}n∈∆n和p v={p v}m∈∆m表示n−和mΣ−n维nΣal权重vec-语义表示{o}N.我们表现一般Π（p s，p v）={T∈Rn× m|T1m=p s，T1n= p v}，ii=1其中T 表示运输计划，T表示在全局语义表示的集合上进行池化，以生成捕获视频和语句的全部语义的D维全局图形表示最后，全局图表示通过具有sig的MLP传递。IJ质量从Ps移动到PV。形式上，最佳运输距离定义为：模型激活来预测输入状态为正的概率。（µs，µv）=infγ∈Π（μs，μv）E（s，v）γ，（s′，v′）γ[c（s，v）+L（s，v，s′，v′）]（十）3.2. 语义连贯学习=minΣTij[λc（si，vi）+Ti′，j′L（si，vj，si′，vj′）]∈′ ′我们详细说明了AHGN的语义连贯学习跨模态语义连贯不Π（ps，pv）i i j j（十一）级节点的语义一致性以及跨时间级节点和全局级节点的跨级语义一致性。3.2.1跨模态语义连贯为了实现对视频和字幕中的语义的深入理解然而，大多数以前的方法寻求先进的atten- tion机制来模拟软对齐，没有训练信号来明确地鼓励对齐。不同的是，我们利用最佳运输（OT）的最新进展[7]其中λ是权重超参数，c（si，vj）是使用余弦距离评估si和vj之间的节点相似性的成本函数，并且（si，vj，si’，vj’）=c1（si，si’）c2（vj，vj′）是评价两对节点（si，si′）和（vj，vj′）之间相似性的代价函数. 我们应用Sinkhorn算法[10，39]来获得最佳运输距离（μ，ν），遵循[7，2]。然后，将计算出的最佳运输距离用作最佳运输距离。跨模态语义连贯性损失：Lcm=αD（μ，ν）（12）ppD.3.1.4全局级推理i=1=1873L（个）我我i=1M×Nn=1i=1我CLM× N我nΣ ΣI--n=1i=1其中α是权重超参数。CM提供明确的训练目标以鼓励每个子图的语义对齐。3.2.2跨层次语义连贯每一个视频片段都是由一系列片段组成的，这些片段内在地遵循一个一致的主题，并进行叙述方法视觉文本准确度1MTS Img GloVe 60.332MTS图像BERT 67.603MTS C3D BERT 67.234MTS Det BERT 67.845DIFFPOOL-Split Img BERT 59.466DIFFPOOL-Whole Img BERT 56.43事件的连贯性。基于这一事实，我们提出跨层语义一致性，以促进跨时间级节点和全局级节点的语义一致性。通过保持跨层次的语义一致性，我们可以大大提高图表示互信息已经被广泛地用于表示学习（例如变分自动编码器[26]，β- VAE [22]），而我们是第一个利用相互信息来学习视频的语义一致性的人对于时间-层节点t（n）M及其对应的全局节点on，最大化它们之间的平均互信息如：1NM（t;o n）。互信息最大化过程可以鼓励片段级推理和时间级推理，以编码在视频中连贯的更多潜在语义信息。为了计算互信息，我们使用噪声对比估计（NCE）[19，18，38]来估计它，如下所示：I（t（n）;o）：=E[T（t（n），o）−E[logΣeTφ（t（n）′，on）]]不7XML图像BERT 66.328HERO（pre-trained）图像BERT 68.599Ours- AHGN + SCL图像BERT71.38表1：VIOLIN数据集的定量结果。用3对肯定/否定语句注释视频剪辑，总共产生95322个（V，S，H）三元组。它被分为76122、9600和9600个三元组，分别用于训练、验证和测试。模型性能通过二进制分类精度进行评估。实现细节节点嵌入的维度对于没有与任何字幕配对的视觉帧，我们将其分配给相邻帧-字幕对。我们将停止阈值ε设置为0.1，将最大查询次数Nmax设置为5，并且将查询效率τ设置为0.05。在训练阶段，学习率为1e-4，批量大小为128。基线1-4）MTS：这些基线基于多流体系结构（详情请参见第2节）。我们还将我们的模型与i iP（n）′我（十三）一种美术分层图形表示学习方法及用于视频模型的基于分层变换器的模型-其中T φ是由具有参数φ的神经网络建模的鉴别器，P和P~是t（n）的分布。然后，跨层级语义一致性可以被公式化为：ing：5，6）DIFFPOOL：一个可微的图池模型ule [53]，学习每层中节点的软集群分配矩阵我们尝试两个版本：DIFFPOOL-统一地将每个视频帧和字幕字视为NM节点，以及构造视频帧的DIFFPOOL分割L=−β1ΣΣI（t（n）;o）（14）图和关于v的一个亚序图.7）XML：其中β是权重超参数。我们将此项添加到损失函数中，并同时优化θ和φ因此，总损失由下式给出：L=Lent+Lqe+Lcm+Lcl（15）其中Lent是原始交叉熵损失。4. 实验4.1. 实验装置数据集VIOLIN数据集包含从4个流行电视节目收集的15887个视频剪辑和来自YouTube频道的电影剪辑，涵盖数千部电影。每个视频片段的平均长度为35.20s，每秒3帧，每个语句平均18个字。每个工作[29]是最近提出的用于电视节目检索的基于变换器的8)HERO：一个基于转换器的框架[32]，用于视频和语言预训练。它有两个标准的层次结构，具有用于局部和全局上下文计算的固定结构。4.2. 结果我们在表1中总结了结果，其中我们的方法显著优于所有基线。与[33]中提出的原始基线相比，我们的方法超过了6。69%，相对准确。与DIFFPOOL的比较表明了我们的语义引导的图池方案的有效性。语义引导的图池可以更好地控制字幕和视觉帧的互补信息融合。此外，XML直接在整个序列上对关系进行建模nP~iφn跨模态矩定位（XML）模块化网络-1874L∼4AHGN +cl5AHGN +Lcm+LclImg BERT71.38表2：主要消融结果。图3：相对于τ和Nmax的消融。帧和字幕，而我们在三个层次中建模交互，利用时间对齐和互补性质。实验结果表明了该策略的有效性。HERO首先使用交叉模态Transformer融合每个帧-字幕对，然后对它们的合并序列应用我们的方法不同之处在于它以三种不同的粒度级别表示上下文，具有自适应图结构，比预训练的HERO高出2.79%。4.3. 深入分析我们进行了一项消融研究，以说明表2中每个组件的有效性。比较MTS和AHGN（第1行与第2行），AHGN对准确度的改善显著贡献2.16%。第3行和第4行的结果分别验证了跨模态和跨层次语义连贯的优越性。同时，研究结果表明，引入的两个损失能以一种相互促进的方式促进AHGN的跨模态和跨层次语义连贯。最后，语义连贯性学习（第5行）占准确性相对增益的2.32%。对AHGN的分析我们进一步对自适应分层图网络进行深入分析。我们investi-门提出的三个图形操作和自适应图结构的贡献我们从骨干模型开始，它保持了自适应的层次结构，但删除了建议的图形操作。对于具有固定图结构的烧蚀模型，我们设置时间级子图的数量作为超参数。具体地说，我们从语句中提取固定数量的语义查询，并使用它们来构造时间级子图。我们测试了不同数量的时间级子图，并报告了当表3：我们通过改变AHGN的各个组成部分进行比较。时间级子图的数量为3。请注意，详细结果见补充材料。对于没有时间级推理的消融模型，我们直接使用节段级推理后的节点上的语义查询执行注意池。表3总结了结果，其表明以下内容。首先，自适应图结构比固定图结构更有效，这使得我们的AHGN能够根据语句动态调整图结构。第二，在片段级的模态间和模态内推理通过对视觉帧和字幕之间的固有对齐和互补第三，时间级推理是实现对视频的深入理解的关键步骤。自适应图构造的消融我们探讨了查询效率超参数的影响τ和用于自适应图构造（AGC）的最大查询数量Nmax。τ越高意味着对更多查询的容忍度越低。如图3所示，当τ从0.02增加到0.05时，性能保持增加。当我们继续增加τ时，性能下降，因为太大的τ将语义查询的数量限制为一个或两个。此外，5和6的最大查询数量Nmax是足够的，并且通常可以提供良好的性能，而更高的Nmax会损害性能并降低效率。4.4. 定性分析为了更直观地了解我们的模型如何用于VLI任务，我们在图4中可视化了两个定性示例。语义查询的注意力权重反映了其对应的时间级子图所关注的语义部分。如图4所示，不同的时间级子图集中于语句的不同语义短语，并且关注与其语义最相关的视频片段。可视化图5可视化了模态间和模态内选通值（顶行）。一些关键帧在下一行。t= 13帧显示一个男人说话有人愤怒地，和跨模态门是激活的。方法图运算GERGRATemp图形结构已修复自适应精度1主干（固定）！64.652骨干！65.323+德国！！67.074+ GRA！！66.745+时间！！66.936+ GER + GRA ！！！68.037+ GER +温度！！！68.648+ GRA +温度！！！68.159AHGN！！！！69.7610AHGN（固定）！！！！68.91方法愿景文本精度1 MTSImg伯特67.602个AHGNImg伯特69.763 AHGN +LcmImgImg伯特伯特70.1970.471875（c帧id帧id∼LLL声明红头发的女人在浴室里等男人等得不耐烦了，于是她走进浴室和他说话。声明红头发的女人在浴室里等男人等得不耐烦了，于是她走进浴室和他说话。声明红头发的女人在浴室里等男人等得不耐烦了，于是她走进浴室和他说话。2019 - 07 - 22 00：00：00看看谁来了。你们两个都进来2019 - 01 - 1600：00：嗨，夫人。康伦(man)感恩节快乐2019 -01谢谢你。你好哇我很好但是2019 - 01 - 19 00：00：00你们两个怎么样你，你看起来很憔悴。不，不，我们很好。2019 - 01 - 15 00：00：00声明一个男人和一个女人在公寓门口，一位年长的女士打开门说，看看谁在这里，并邀请他们两个进来。声明一个男人和一个女人在公寓门口，一位年长的女士打开门说，看看谁在这里，并邀请他们两个进来。声明一个男人和一个女人在公寓门口，一位年长的女士打开门说，看看谁在这里，并邀请他们两个进来。00：00，030-->00：11，060羊肉串2019 - 01 - 1700：00：00(AmyWally，我是Amy Squirrel艾米？你不...2019 - 01- 25 00：00：00（沃利：）滚出去！(Amy：）这只需要一秒钟。这周六我正好骑车经过七年级的2019 - 02 - 15 00：00：我们能晚点再谈这个(Amy：）以后我们都要死了，让鳄鱼飞起来。00：36，809-->00：40，000(Amy现在，我不想谈论学校，但从我坐的地方，我认为它2019 - 01 - 15 00：00：00 00：00图4：定性示例。不同语义查询的注意力权重由颜色的深度来说明，并且还示出了在语义引导的图池化期间具有高注意力权重的它们对应的视频时刻帧间帧内t =1~3可视节点帧间帧内字幕节点1 1二、二三三2019 -05 - 29 10：00......四四五、五六、六七七八八.........八八t = 1 t = 3 t = 7 t = 10图5：GER和GRA的可视化。从字幕中结合语言背景。这有助于模型理解他说了什么以及为什么他很生气对于t= 710帧，模态内门被很好地激活以组合来自局部视觉上下文的时间信息。因此，模型可以推断该女性正在进来而不是站着不动。此外，单词“get”和“here”的门值这表明，GER和GRA相互合作，推断出完整的语义和视觉上下文。一些单词如“a”和“um”接收低门值。图6提供了对时间级节点特征空间的可视化以及视觉和字幕节点之间的学习的跨模态对齐矩阵。我们观察到，使用cl（图6.b），来自相同时间级子图的节点（相同颜色的节点）与没有cl训练的特征相比（图6.a）往往更紧密相关。没有cm（图6.c），学习的对准矩阵更密集并且噪声更大。比用Lcm学习的对准矩阵更高（图6.d）。5. 结论在本文中，我们介绍了一个自适应层次图推理与语义一致性的方法，视频-（a）（b）图6：（a）（b）：不具有/具有L cl的时间级节点的t-SNE可视化。（c）（d）：具有- out/具有Lcm的对准矩阵。语言推理。我们的自适应分层图网络在三个层次中对视频帧和字幕进行深度推理此外，我们提出了一个语义一致性学习算法，以鼓励跨模态和跨层次的自适应层次图网络的语义一致性。实验结果表明，我们的方法优于基线的一个很大的保证金。确认这项工作得到了国家自然科学基金委员会的部分支持（编号： 61625107 ）、浙江 NSF （ LR 21F020004）、Na-国家重点研发计划（2018 AAA 0101900）、阿里巴巴-浙江大学前沿技术联合研究院、浙江大学科大讯飞联合研究中心、中国工程科学技术知识中心（CK-CEST）。t =7~10（d...1876引用[1] Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，PaulNatsev ， George Toderici ， Balakrishnan Varadarajan ，and Sudheendra Vijayanarasimhan. Youtube-8 m：一个大规模视频分类基准。arXiv预印本arXiv：1609.08675。[2] David Alvarez-Melis和Tommi S Jaakkola。词嵌入空间的Gromov- Wasserstein 对齐。 arXiv 预印本 arXiv ：1809.00013，2018。[3] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。使用自然语言对视频中的时刻进行本地化。在IEEE计算机视觉国际会议论文集，第5803-5812页[4] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页[5] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。在Proceedings of the IEEE conference oncomputer vision and pattern recognition，第961-970页[6] 陈静媛，陈新鹏，马林，杰泽群，蔡达生.视频中的自然句子的时间在2018年自然语言处理经验方法会议论文集，第162-171页[7] 陈立群，甘哲，余成，李林杰，劳伦斯·卡林，刘晶晶。用于跨域对齐的最佳传输图。arXiv预印本arXiv：2006.14744，2020。[8] Yu Cheng ， Quanfu Fan ， Sharath Pankanti ， and AlokChoud- hary.用于视频事件检测的时间序列建模IEEE计算机视觉和模式识别会议论文集，第2227-2234页，2014年[9] SamirCho wdhury和FacundoM e'moli。网络间的Gromov信息与推理：IMA杂志，8（4）：757[10] 马可·库图里Sinkhorn距离：最佳运输的光速计算。神经信息处理系统的进展，第2292-2300页，2013年[11] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[12] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[13] Chuang Gan，Zhe Gan，Xiaodong He，Jianfeng Gao，and Li Deng. Stylenet：使用样式生成有吸引力的视觉标题。在IEEE计算机视觉和模式识别集，第3137-3146页[14] Zhe Gan，Chuang Gan，Xiaodong He，Yunchen Pu，Kenneth Tran，Jianfeng Gao，Lawrence Carin，and LiDeng.语义视觉字幕的合成网络。在 Proceedings of the IEEEconference on computer vision and pattern recognition，pages 5630[15] Jiyang Gao ， Chen Sun ， Zhenheng Yang ， and RamNevatia. Tall：通过语言查询的时间活动定位。在IEEE计算机视觉国际会议论文集，第5267-5275页[16] Sergio Guadarrama 、 Niveda Krishnamoorthy 、 GirishMalkar-nenkar 、 Subhashini Venugopalan 、 RaymondMooney、Trevor Darrell和Kate Saenko。Youtube2text：使用语义层次和零触发识别来识别和描述任意活动。在Proceedings of the IEEE international conference oncomputer vision，第2712-2719页，2013年。[17] Jianan Guo ， Haochen Shi ， Yangyang Kang ， KunKuang，Siliang Tang，Zhuoren Jiang，Changlong Sun，Fei Wu，and Yueting Zhuang.半监督模型的半监督主动学习：利用基于图形的虚拟标签开发对抗性示例。IEEE/CVF计算机视觉国际会议论文集，2021。[18] 我的迈克尔 · 古特曼和阿波 · 海弗亚里宁。 Noise-Contrastiveestimation ： A new estimation principle forunnormalized statistical models. 在 Proceedings of theThirteenthInternationalConferenceonArtificialIntelligence and Statistics，第297-304页[19] Mi c haelUGutmanna

下载后可阅读完整内容，剩余1页未读，立即下载