没有合适的资源?快使用搜索试试~ 我知道了~
11573编码器FFN剪辑Sscs模块Inter-G行动l共享空间文L L编码器FFN基于支撑集的视频接地交叉监控丁新鹏1、2、王楠楠1*、张世伟2*、程德1、李晓梦3、黄梓源4、唐明前2、高新波51西安电子科技大学2阿里巴巴集团3香港科技大学4新加坡国立大学5重庆邮电大学xpding.gmail.com,{nnwang,dheng}@ xidian.edu.cn,eexmli@ust.hk{zhangjin.zsw,mingqian.tmq} @ alibaba-inc.com,ziyuan. u.nus.edu,gaoxb@cqupt.edu.cn摘要目前的视频接地方法提出了各种复杂的架构来捕捉视频-文本关系,并取得了令人印象深刻的改进。然而,实际上仅仅通过架构设计很难理解复杂的多模态关系。本文介绍了一种新的基于支持集的交叉监督算法(Sscs)GT使用GT查询:这个人往杯子里倒了一些水不含GT的查询:人开始拿着杯子人/玻璃该模块可以在训练阶段改进现有方法,而无需额外的推理成本。建议的Sscs模块包含两个主要组件,即、区分性对比目标和生成性字幕目标。对比目标旨在通过对比学习来学习有效的由于一些视觉实体在地面实况和背景间隔中共存,即相互排斥,天真的对比学习不适合视频接地。我们基线基于GT剪辑((基于支持集通过支持集的概念来增强交叉监督,从整个视频中收集视觉信息并消除实体之间的互斥,从而解决了这个问题结合原有的目标,SSCS可以增强现有方法的多模态关系建模能力。我们在三个具有挑战性的数据集上广泛地评估了Sscs,并表明我们的方法可以大幅改善当 前 最 先 进 的 方 法 , 特 别 是 在 Charades-STA 上 的R1@0.51. 介绍视频接地的目的是本地化的目标时间间隔在一个未修剪的视频文本查询。如图1(a)所示和配对视频,目标是定位最佳匹配段,即从7.3s到17.3s。已经提出了各种方法[51,49,12]用于*王楠楠和张世伟为通讯作者。图1.(a)视频剪辑和文本查询之间的相似性的注意力图的比较颜色越深,相似性越“GT”表示地面实况。(b)提出了基于支持集的交叉监督(SSCS)模块。Sscs使得语义相关的剪辑文本对(黑圆圈和三角形)的嵌入在共享特征空间中接近。这一任务,并取得了重大进展。这些方法可以达成共识,视频-文本关系建模是关键的角色之一。有效的关系应该是语义相关的视频和文本必须具有高响应,反之亦然。为了实现这一目标,现有的方法集中在仔细设计复杂的视频-文本交互模块。例如,Zeng等人。[49]提出了一种金字塔神经网络来考虑多尺度信息。局部-全局策略[30]和自模态图注意力[26]作为交互操作被应用于学习多模态关系。之后,他们使用交互的功能来执行11574i=1--C视频直接接地然而,多模态关系是复杂的,因为视频和文本具有不相等的语义,例如,视频和文本具有不相等的语义。,因此,现有的基于架构改进的方法在学习视频-字幕关系方面能力有限;参见图1(a)(请参见“基线”)。受多模式预培训的推动非GTGT非GT[28,33,29],我们提出了一种基于支持集的交叉监督,称为Sscs,以改进与手工设计的架构相比,以监督方式进行视频接地的多模态关系学习。如图1,Sscs模块是一个独立的分支,可以很容易地嵌入到其他方法在训练阶段。建议的SSCS包括两个主要组件,即、对比客观和标题客观。对比目标是典型的判别损失函数,其目标是通过应用信息损失函数来学习多模态表示[28,33]。相比之下,caption目标是生成损失函数,其可用于训练强大的视频编码器[15,53]。对于未修剪的视频,存在一些视觉实体出现在地面实况和背景间隔两者中,例如图中的人和玻璃。2,但原始的对比学习可能会擦除前景和背景之间的相同部分,包括视觉实体。 这些视觉实体对于视频基础任务也是重要的,例如:因此,将对比学习直接应用到视频接地任务中是不合适的。为了解决这个问题,我们应用支持集的概念,它捕获的视觉信息,从整个视频,以消除相互排斥的实体。通过这种方式,我们可以自然地改进交叉监督模块,并进一步增强关系建模。为了证明鲁棒性,我们选择了两种最先进的方法作为我们的基线,即。,2D-TAN[51]和LGI[30],实验结果表明,所提出的Sscs可以实现显着的改善。我们的贡献可归纳为三个方面:(a)提出了一种新的交叉监督视频接地模块,它可以增强视频和文本之间的相关性建模,但不会带来额外的推理成本。(2)提出了支持集的概念来解决视频实体之间的互斥问题,使对比学习更适合于视频基础的应用。(c)在三个公开数据集上的大量实验说明了Sscs的有效性,结果表明我们的方法可以显着提高最先进方法的性能。2. 相关工作视频接地。用于视频接地的早期方法[12,1,46,14]使用两阶段视觉-文本匹配策略来解决这个问题,这需要大量的图2. 实体相互排斥。“人”和“玻璃”实体出现在地面实况(GT)剪辑和非地面实况剪辑(非GT)两者中。虽然在非GT视频片段中没有“倒水”动作发生,但是由于共同的实体,非GT视频片段的语义也与GT视频片段的语义相似。建 议 的 BER 。 这 些 方 法 对 于 提 高 建 议 书 的 质 量SCDM[47]将查询文本合并到视觉特征中,用于随着时间 的 推 移 关 联 和 组 成 句 子 相 关 的 视 频 内 容 。 2D-TAN[51]采用2D时间图来建模时间锚点,其可以提取视频时刻之间的时间关系。为了更有效地处理,最近提 出 了 许 多 一 阶 段 方 法 [49 , 26 , 48 , 17 , 44 ,45]Zeng等人。[49]通过利用更多的正训练样本来避免不平衡训练,这提高了基础性能。LGI[30]通过在双模态交互期间利用从局部到全局的上下文信息来提高定位的性能。多模态表示学习。已经提出了大量的自监督方法[9,3,10]来预训练大规模多模态数据的模型,例如图像[37],视频[5]和文本[54]。为了学习视频-文本表示,发 布 了 一 个 大 规 模 的 教 学 视 频 数 据 集 HowTo 100M[29]。一些作品使用对比度损失来改进基于HowTo100 M的视频-文本表示,用于诸如视频字幕[53]、视频检索[2]和视频问答[24]等任务。MIL- NCE[28]将多实例学习引入对比学习框架,以解决视频内容和叙述之间的不一致。Patrick等人。[33]结合了区分性和生成性目标,将相关的视频和文本实例推到一起。与这些方法相比,我们的方法的目标是通过多模式训练来改善视频接地,而无需额外的推理成本。3. 该方法3.1. 问题公式化让我们定义一组视频-文本对为 =(Vi,Li)N,其中N是视频-文本对的数量,Vi和Li分别是第i个未修剪的视频和句子。给定查询语句L1,视频的目的提问:这个人往杯子里倒了一些水11575--关于我们不{ }{MM.ΣL=L+λL+λL,(1)LLSe不t=1SeSe- -人倒一些水到玻璃。支撑组件模块���支撑组件模块��� ���对比物镜字幕物镜字幕文本编码器文本编码器拉近推开L人依偎着枕头L目的图3.我们提出的基于支持集的交叉监督模块的说明 为了清楚起见,我们在批次中仅呈现两个视频-文本对Vi、Li、Vj、Lj。在将它们馈送到视频和文本编码器之后,获取共享空间中的剪辑级和句子级嵌入(Xi,Yi和Xj,Yj)。基于支撑集模块(详见图4(b)),我们计算Xi和Xj的加权平均以分别获得Xi、Xj。最后,我们结合对比和标题的目标,拉近表示的剪辑和文本从相同的样本和推离那些从其他对。接地是定位目标时间间隔Ai=(ti,ti)融合特征以优化模型。函数Lvg其中ti和ti分别表示开始和结束时间。3.2. 视频和句子编码视频编码。我们首先将长的未修剪视频Vi划分成T个剪辑,定义为Vi=ViT。每个剪辑由固定数量的帧组成。然 后,将T个剪辑馈送到预先训练的3D CNN模型中以提取视频特征Fi=fiRT×Dv,其中Dv表示基于剪辑的视频特征的维度。在不同的方法中可以具有不同的形式,例如:,在2D-TAN中应用的二进制交叉熵损失函数[51]。与这些方法不同的是,我们引入了两个交叉监督的训练目标,可以改善现有的方法,只是在训练阶段。这两个目标包括一个对比目标和一个字幕目标,可以直接插入现有的方法。因此,整个框架主要包含两个组成部分,即:,常用的视频接地框架和提出的交叉监督目标。因此,我们句子编码。对于第m个单词li在句子L1中,方法是:我们将其馈送到GloVe word2vec模型[35]中以获得对应的单词嵌入wi。然后,单词嵌入被顺序地馈送到一个三层双向LSTM网络[19]中,并且我们使用其最后的隐藏状态作为句子L i的特征,即,Gi∈RDl.3.3. 交叉监控视频接地在本节中,我们首先在第3.3.1节中概述总体框架。然后,在第3.3.2节中,我们详细介绍了视频接地支撑集的概念。最后,我们在3.4节中介绍了几种支撑集。3.3.1总体框架视频接地的关键是捕捉视频和文本之间的关系。也就是说,如果Vi和Sj在语义上相关,则它们之间应该具有高相似性,反之亦然。为此,大多数现有方法设计了众多的架构,通过对视频-文本交互进行建模来捕获关系[51,30]。通常,它们首先融合视觉和文本嵌入Xi和Yi,然后预测时间间隔A=ti,ti直接地在训练阶段,将损失函数Lvg应用于vg对比字幕1个2个其中对比度和字幕分别表示对比目标和字幕目标超参数λ1和λ2控制两个目标的权重。3.3.2交叉监督目标交叉监督目标的目标是学习有效的视频-文本关系,如图所示。3.第三章。为了清楚起见,我们首先介绍了基于GT剪辑的学习,在此基础上,我们提出了建议的交叉监督目标的细节。在此基础上,讨论了存在的问题,即:视觉模态和文本模态之间的相互排斥。最后,我们提出了基于支持集学习的解决方案。基于GT剪辑的学习。在视频接地中,句子通常对应于多个剪辑,这些剪辑都包含在地面实况间隔中。学习强大表示的直观方法是将地面实况(GT)间隔中的片段设置为正样本,而其他片段是负样本,即、非GT间期的剪辑和其他视频。视频编码器视频编码器11576i=1不BP{|∈ M}NP联系我们ΣL−∈我Se我 i=1我我我我不我不不t=1不N{|∈ M ∪}.Σ形式上,我们将来自C的样本的小批量表示为B,因此B C。 然后小批量中的样品可以定义为B={(Vi,Li)}B ,其中B是小批量 在馈送到视频和文本编码器之后,我们可以得到基嵌入{(F,G)}B . 则嵌入可以通过Xi= Ψ(Fi)和Yi= Φ(Gi)映射到相同维数的空间中。 对于B中的一对视频和文本嵌入(Xi,Yi),我们定义一组地面实况剪辑为Mi={xi|t ∈ [t i,t i]},其中t s e我我t s和t e表示地面实况的开始和结束时间,xi是xi中的第t个向量。背景剪辑集对于Vi,可以表示为Mi={xi|t∈/[ti,ti]}。然后正对t s e可以通过将地面实况剪辑与相应的文本一起考虑来构造,定义为I=(x,Yi)x i.非GT剪辑和其他视频中的剪辑可以被视为文本Li的负样本,即,i= 0。(x,Yi)xiXj,ij. 对比目标。基于以上定义,本文详细阐述了对比的目的。对比目标的目的是学习有效的视频-文本表达。句子,我们使用对比损失来增加中的正对的相似性,并将中的负对的相似性推开。具体来说,我们最小化MIL-NCE的softmax版本[28]如下:图4. (a)基于GT剪辑的监督。基于GT剪辑的学习旨在鼓励GT剪辑特征接近Yi并且推开非GT剪辑特征。(b)基于支持集的监督。 考虑到还存在来自非GT剪辑中的查询的实体,即,黄色立方体,我们最大化加权特征(Xi)和Yi之间的相似性。实体可能出现在GT和非GT剪辑,而不是只有GT剪辑,如图所示。第4(a)段。通过简单地提取Yi和GT剪辑特征并排斥Yi和非Gt剪辑特征,可以获得Yi和非Gt剪辑特征。BΣexy/τGT剪辑功能,基于GT剪辑的学习将使相同的实体(图中的黄色立方体)4)在背景剪辑-日志i=1(x,yΣ)∈Pi(x,y)∈Piex y/τ+(x′,yΣ′)∈Niex′y′/τ,(二)也远离地面实况剪辑。因此,该方法过于严格,并且所学习的视频片段的表示可能很远,即使它们具有相似的语义。其中τ是控制样品分布浓度水平的温度权重[18]。因此,对比目标是一种典型的判别损失函数。字幕目标。除了对比目标之外,我们还引入了字幕目标[33,22]以进一步改进视频-文本表示。字幕目标可以被公式化为:B支持基于集合的监督。为了解决如上所述的视频和文本之间的相互排斥,我们提出了一种基于支持集的监督方法。我们的动机是,在视频中的不同剪辑可以共享相同的语义实体。例如,给定句子查询“The personpours some water into the glass”及其对应的视频,人实体和玻璃实体出现在整个视频中,如图1所示。2,而且只有在GT剪辑中,才会发生‘倒水’的动作。虽然没有标题=1logp(lB我i=1| wi),(3)水’发生在非GT片段中,它们的语义也与地面实况片段的语义相似,例如。,“The person pours some water intothe glass”的语义其中,li是li的第i个字,wiRD是em。用于生成句子的铺垫,其通过以下步骤获得:wi=Φ′Xgt.Xgt是中地面实况剪辑,即,Xgt=[xi,..,xi]。Φ′是反式-更接近于“那个人拿着一个玻璃杯”,而不是“那个人把一个笔记本放在一个袋子里”。如果我们严格地推开非GT剪辑的表示,则模型只会提取形成层,其可以是卷积层[40]或自注意力[43]。我们将模型训练命名为Eq。2和Eq。3作为基于GT剪辑的学习。模型将推动句子特征Yi及其对应的GT剪辑特征接近,同时推动Yi远离非GT剪辑特征。Yi的非GT片段要素包含非地面实况片段而忽略为了使具有相同实体的非GT剪辑的学习表示也具有与对应文本的一定程度的相似性,我们针对每个文本Li引入定义为Si的支持集。S1中的剪辑通常具有相同的实体。在这项工作中,我们设置所有的视频剪辑作为其对应的支持集和其他视频中的剪辑。 在同一个视频中,The文本,即,Si={xi}T,其中x是 ∈ RD是嵌入式-1 ×������×���×(a)基于GT剪辑的监督吸引排斥实体非GT剪辑GT剪辑句子加权剪辑������1 ×���1 ×������×关注���×关注��� ���1 ×���(b)基于支持集的监督11577不我X,Y/ie不N {}我SMΣL−S不不不不ZSS不不在哪里,xi,YiΣ是xi和Yi之间的余弦相似度。不不我不t=1logewYi/τ+Σex′y′/τ,SS),其仅包含GT剪辑,即,i=i;(c)非GT水平支持集(非GT-SS):其仅包含∈B对比丁 这是因为在视频接地中,表1. Charades-STA数据集上不同监督方法的消融研究。相同的视频通常属于相同的场景,并且大多数那些片段里的人和事都很相似甚至相同。基于支持集S1,我们首先计算S1和L1中的所有剪辑之间的相似性,然后可以获得剪辑式注意力作为剪辑索引上的softmax分布:at=ΣIt、x∈Se∠x,Yi∠/τ(四)然后,我们计算S1中嵌入的加权平均值,如下所示:wi= Σai·xi.(五)t=13.4.几类支撑集在获得Wi之后,我们可以重新定义B中的正样本和负样本。具体地说,我们设置了i=1基于支持集的监督包含两个基本操作:(a)支撑组S1的构造;以及{(wi,Yi)}B作为正样本,以及将支持集映射到加权嵌入的函数批处理为n个i,即i=(wi,Yj)i=对比目标可以定义如下:J. 然后丁威岛在本节中,我们探索三种函数来构造支持集:(a)视频级支助set(V-SS):we set all clips in a video as thesupport,i.e. 、IT (b)地面实况级支持集(GT-ΣewYi/τSi={x}(x′,y′)∈Ni(六)保留非GT剪辑,即,Si= Mi。字幕目标为:B通过这些功能,我们比较了以下六种方式:(a)交叉注意(CA)。 该函数由Eq. 四个标题=1logp(lB我i=1| wi).(七)和等式5;(b)自我注意(SA)。我们首先沿着剪辑索引连 接 i中的 剪 辑 以 获 得 Si , 然 后 我 们 通 过Qi=SiSi/τ计算Si的相似性矩阵。 t-th我们将模型训练命名为Eq。6和Eq。7作为基于支撑集的监督。如图图4(b)示出了除了将句子特征Yi及其对应的GT剪辑特征推到接近之外,在非GT剪辑特征和句子剪辑特征中的相同实体(黄色立方体)的表示Qi的向量是qiRD。 将qi的所有元素求和为获得求和的标量zi。然后,我们获得剪辑式注意力如下:ezii(8)张力特征也被吸引。[33]和我们的比较。与SS的主要区别有两个方面:(一)动机。我们的目标是at=Σz∈Zi ez,应用交叉监督来捕捉视觉语义和文本概念之间的关系而[33]旨在通过放松对比目标来改善视频-文本表征;ii)解决方案。在SS中,交叉字幕的目标是放松严格的对比目标,因此它实际上是一种对抗关系。而在SCSC中,我们的两个目标是合作关系,因为他们都旨在学习视频-文本关系。此外,我们的对比目标是建立在由支持集编码的全局视频特征上,而[33]基于局部剪辑特征应用三元组排名损失。其中i是针对Q i的所有z i的集合。最后,wi可以通过等式(1)获得。五、(c)全连接层(FC)。 以这种方式,在沿着剪辑索引串接i中的剪辑之后,通过全连接层将串接的特征S1转换为W1。(d)卷积层(Conv)。类似于FC,我们将S1馈送到卷积层中以获取W1。(e) 最大池化(MP)。 以这种方式,在沿着剪辑索引连接i中的剪辑之后,连接的特征S1被馈送到最大池化层中以获取W1。(f)平均-合并(AP)。类似于MP,我们将Si馈送到平均池化层中以获取Wi。我不L=−i=1模型L对比度L字幕排名1@排名5@0.50.70.50.72D-TAN[51]50.6228.7179.9248.522D-TAN+GTC✓54.7731.6386.2855.07✓51.7229.3583.6652.12✓✓55.4032.1587.0755.622D-TAN+SS✓56.1932.0387.9556.05✓53.1230.0585.1953.28✓✓56.9732.7488.6556.91LGI[30]59.4635.48--LGI+GTC✓59.6335.71--✓59.8835.92--✓✓60.0236.11--LGI+SS✓60.0936.32--✓60.5336.75--✓✓60.7537.29--11578×个LL0.02 0.040.06(a) 不同学习方法的比较(b)不同支持集的比较图5. (a)不同学习方法的准确度曲线的比较。(b)不同支撑装置精度曲线的比较。4. 实验4.1. 数据集TACoS。TACoS由Regneri等人收集。[36]其中包括127个关于烹饪活动的视频,平均长度为4。79分钟用于视频接地和密集视频字幕任务。我们遵循与Gao等人相同的数据集分割。[12]进行公平比较。Charades-STA。Charades最初是为日常室内活动识别和定位而收集的[39],由9,848个视频组成。Gao等人。[12]通过注释Charades的时间边界和句子描述构建Charades-STA [39]。ActivityNet-Captions. ActivityNet [4]是一个大规模数据集,收集用于视频识别和临时动作定位[25,6,13 , 11 , 38 , 31 , 34] 。Krishna 等 人 。 [23] 将ActivityNet扩展到ActivityNet-Captions,用于密集视频字幕任务。4.2. 实现细节评价指标。为了进行公平的比较,我们遵循之前的工作[12]的设置,并通过计算Rank n@m来评估我们的模型。具体地,它被定义为在前η个预测中具有至少一个正确的基础预测的查询的百分比,并且当其具有基础事实的IoU大于m时,基础预测是正确的。与[51]类似,我们针对不同的数据集使用特定的n和m设置来评估我们的方法特征提取器。为了进行公平的比较,我们根据以前的作品[51,49]提取视频特征。具体来说,我们使用在Sports-1 M [20]上预训练的C3 D [42]网络作为特征提取器。对于Charades-STA,我们还使用VGG [40],C3 D[42]和I3 D [5]特征将结果与[12,51]进行比较。 我们将视频分成多个片段,每个片段包含固定数量的帧。C3D网络的输入是三个数据集的16帧段。当Charades-STA使用VGG功能时,段中的帧数设置为4。阈值为0的非最大抑制(NMS)。在推理期间应用5τ设定GT视频GT视频GT视频(a)(b)(c)图6. 不同阈值下高相关视频-文本对回忆的比较。到0.1。对于Charades-STA,λ1和λ2被设置为0.1,并且对于TACoS,λ1和λ2被设置为0.001。基线模型。我们的工作建立在两个当前最先进的视频接地模型上,即2D时间相邻网络(2D-TAN)[51]和局部-全局视频-文本交互(LGI)[30]。培训设置。我们使用Adam [21],学习率为1。6 10−2和批 量 大 小 256 进 行 优 化 。 我 们 使 用 Pytorch 中 的ReduceLROnPlateau函数衰减学习率[32]。我们所有的模型都是由Py-在Ubuntu 16.04上的Python 3.6环境下进行火炬和培训。4.3. 消融研究在本节中,所有呈现的结果均与Charades-STA[12][13][14][15][16]为了方便起见,我们在以下实验中使用不同监督方式的比较 在本消融研究(表1)中,我们比较了第3.3.2节中提出的不同学习方法,包括基于GT剪辑的监督和基于支持集的监督。从表1中可以清楚地看出,SS的性能优于GTC,具有较大的裕度。另外,对比对象的对比度比字幕一个字幕的对比度带来了更大的将对比度目标和字幕目标相结合,我们的模型获得了最佳的性能。2D-TAN[51]中的视频和文本的交互是Hadamard乘积,而LGI[30]中的视频和文本的交互是以粗到细的方式进行的,其比2D-TAN更细粒度。对于2D-TAN,交互和接地模块计算视频片段和文本之间的相似度因此,我们的方法在2D-TAN中实现了较大的改进。如图5(a)所示,利用额外的Cscs分支,除了更高的性能之外,模型比基线方法收敛得更快。不同类型支架的比较。在消融研究中,我们比较了不同的支撑集构造方法和函数方法表2呈现了Charades-STA数据集上不同种类的支持集的性能具体来说,我们比较11579表2.在Charades-STA数据集上对不同类型的构造方法和函数方法进行消融研究施工方法函数法排名1@排名5@CA SA FC Conv MP AP0.50.70.50.7V-SS✓56.9732.7488.6556.91✓54.8830.9886.5654.92✓✓54.9131.2586.7555.0154.8931.0886.7554.73✓53.3530.6486.1354.35✓53.1430.3686.1054.13GT-SS✓55.9132.0388.1255.25✓54.8931.2387.1154.40✓✓54.9031.1787.1054.8554.8531.1087.5254.88✓53.6230.8086.5454.79✓53.7030.9186.7854.88非GT-SS✓50.1228.9685.8252.78✓48.5526.6483.2750.62✓✓48.5226.5683.3150.6448.2926.4481.1350.44✓48.8726.5783.4050.60✓48.3326.4883.3450.52表3.与Charades-STA最新技术水平的比较方法特征排名1@排名5@0.50.70.50.7VAL[41]VGG23.129.1661.2627.98ACL-K[14]VGG30.4812.2064.8435.13旅游网[16]VGG36.6114.50--DRN[49]VGG42.9023.6887.8054.872D-TAN[51]VGG39.7023.3180.3251.262D-TAN +我们的VGG43.1525.5484.2654.17LGI[30]VGG41.7221.48--LGI +我们VGG43.6823.22--[50]第五十话i3D46.5322.7286.2353.72DRN[49]i3D53.0931.7589.0660.052D-TAN[51]i3D50.6228.7179.9248.522D-TAN +我们的i3D56.9732.7488.6556.91LGI[30]i3D59.4635.48--LGI +我们i3D60.7536.19--三种施工方法:(a)V-SS,(b)GT-SS,(c)非GT-SS和六种函数方法:(a)CA,(b)SA、(c)FC、(d)Conv、(e)MP、(e)AP(详见第3.4节)。我们提出的方法(V-SS + CA)实现了最佳的性能。V-SS方式可以使学习的表示在非地面实况剪辑中探索更多相似的实体。CA的目标是找到视频和文本之间的高相似性,而其他函数方法(例如 , CA ) 。 、 SA 、 FC 等 ) 仅 考 虑单 一 模 态 信 息(即,视频)。因此,CA在支持集上更有效. 由于非GT-SS仅包含非地面实况剪辑,因此视频和文本的学习表示将使地面实况剪辑具有不相似的语义,从而导致视频接地中的不良性能。图1中给出了准确度曲线的比较。5(b)。高相关视频-文本对的召回 为了验证该方法可以增强文本和视频之间的相关性,我们给出了高相似视频文本对在不同阈值(0. 02,0。04和0。06)中。“视频”指示整个视频中的剪辑与文本之间的平均相似度,并且“GT”是GT剪辑与文本之间的平均相似度。可见,加入交叉监督模块可以显著提高视频与文本的相似度与基于GT剪辑的学习相比,基于支持集的方法可以具有更一般化的4.4. 与最新技术水平的我 们 在 TACoS , Charades-STA 和 ActivityNet-Captions 数 据 集 上 进 行 实 验 , 以 与 几 种 最 先 进 的(SOTA)方法进行比较。 从表3和表4中,清楚地表明所提出的方法可以大大改善SOTA模型,即,2D-TAN[51]和LGI[30],几乎没有任何额外的推理成本。我们还可以看到,Ssc在LGI的情况下实现了较小的增益。原因可能是LGI是直接回归边界的基于回归的方法,而2D-TAN是将文本与密集提议进行比较并选择最佳提议的基于比较和选择的在Scsc中,SS建立在对比目标上,其具有与2D-TAN类似的精神,因此其在2D-TAN上实现更大的增益。此外,利用2D-TAN,SS获得6的更大增益。35%和4。24%的Charades和TACoS比2。16%的活动。我们认为这是因为Charades和TACoS具有静态和平滑的背景和简单的动作,而ActivityNet则更加复杂和多样化。因此,ActivityNet的改进相对较小。11580- -视频表4.与TACoS和ActivityNet-Captions的最新技术进行比较玉米饼ActivtiyNet-Captions方法排名1@排名5@排名1@排名5@0.10.30.50.10.30.50.30.50.70.30.50.7TGN[7]41.8721.7718.953.4039.0631.0243.8127.93-4.5644.20ACRN[27]24.2219.5214.6247.4234.9724.8849.7031.6711.2576.5060.3438.57CMIN[52]32.4824.6418.0562.1338.4627.02------QSPN[46]25.3120.1515.2353.2136.7225.3052.1333.2613.4377.7262.3940.78ABLR[48]34.7019.509.40---55.6736.79----DRN[49]--23.17--33.36-45.4524.36-77.9750.30[8]------57.6040.1518.27---2D-TAN[16]47.5937.2925.3270.3157.8145.0459.4544.5126.5485.5377.1361.962D-TAN +我们的50.7841.3329.5672.5360.6548.0161.3546.6727.5686.8978.3763.78LGI[30]------58.5241.5123.07---LGI +我们------59.7543.6225.52---文本(a) 基线(b) GTC(c) SS(a) (b)我们的图8. (a)基线成功预测的时间间隔的分布。(b)我们的模型的分布增加了-图7.(a)基线、(b)GTC和(c)SS的相似性矩阵我们提出了16个视频文本样本对。4.5. 定性分析在本节中,我们提出了一些定性的结果Charades-STA。我们在图中给出了视频-文本对的相似度矩阵。7.第一次会议。很明显,即使视频文本对来自同一样本,基线模型也无法捕捉到它们的语义相似性(见图2)。7(a))。相反,来自同一样本的视频和文本的相似性得分将高于其他样本。与GTC相比,SS还可以捕获相关的语义对,即使它们不是来自同一个样本。如图7所示,第4个样本和第5个样本中的文本具有相似的语义,并且对应的视频的相似度也很高,这在基线模型和GTC中没有发现。图图8示出了成功预测的时间间隔分布。很明显,大多数基线模型预测的时间间隔通常集中在视频的开始,并且片段的持续时间约为视频总长度的20%-40%,如图所示。第8(a)段。与由基线模型预测的时间间隔相比,所提出的方法可以发现更多的时间间隔出现在视频的中间,并且时间间隔的持续时间更短,这在图1中示出。8(b).这是因为所提出的方法可以学习到更好的视频-文本表示,因此我们可以找到成功预测的时间间隔,与基线模型相比更难以定位的时间间隔5. 结论在 本 文 中 , 我 们 引 入 了 一 个 支 持 集 交 叉 监 督(SSCS)模块作为一个额外的分支视频接地提取视频和文本之间的相关性。通过对共享空间中的剪辑级和句子特征进行对比和标题目标,只有当它们的语义相关时,学习到的两种模态特征才被强制变得相似。为了解决实体之间的互斥问题,我们改进了交叉监督的支持集方法,从整个视频中收集所有重要的视觉线索。实验结果表明,该方法可以在几乎不增加额外推理开销的情况下,大大提高现有骨干网的性能,并且烧蚀实验验证了支持集的有效性.鸣谢。这项工作部分得到了中国国家重点研究和发展计划的资助2018 AAA 0103202;部分由国家自然科学基金资助62036007、61922066、61876142、61772402和6205017;部分由中央大学基础研究基金资助。人员关闭人他们冰箱。打开一个人打开冰箱冰箱他们正在喝一杯水。他们也从一个杯子里喝水。11581引用[1] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。使用自然语言对视频中的时刻进行本地化在ICCV,第5803[2] Andre Araujo和Bernd Girod。使用图像查询的大规模视频检索。IEEE Transactions on Circuits and Systems forVideo Technology,28(6):1406[3] Sagie Benaim 、 Ariel Ephrat 、 Oran Lang 、 InbarMosseri 、 William T Freeman 、 Michael Rubinstein 、Michal Irani和Tali Dekel。Speednet:学习视频中的速度。在CVPR,第9922-9931页[4] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet:人类活动理解的大规模视频基准。在CVPR中,第961-970页[5] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR中,第6299-6308页[6] Yu-Wei Chao , Sudheendra Vijayanarasimhan , BryanSey-bold , David A Ross , Jia Deng , and RahulSukthankar.重新思考更快的r-cnn架构用于时间动作本地化。在CVPR中,第1130-1139页[7] 陈静媛,陈新鹏,马林,杰泽群,蔡达生.视频中的自然句子的时间在ICEMLP,第162-171页[8] 陈少祥和蒋玉刚。通过语言进行时间活动定位的层次视觉-文本图2020.[9] Xinlei Chen,Kaiming He.探索简单的连体表征学习。arXiv预印本arXiv:2011.10566,2020。[10] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。[11] Xinpeng Ding , Nannan Wang , Xinbo Gao , Jie Li ,Xiaoyu Wang,and Tongliang Liu.弱监督的时间动作定位 与 段 级 标 签 。 arXiv 预 印 本 arXiv : 2007.01598 ,2020。[12] Jiyang Gao , Chen Sun , Zhenheng Yang , and RamNevatia. Tall : 通 过 语 言 查 询 的 时 间 活 动 定 位 。 在ICCV,第5267-5275页[13] Jiyang Gao,Zhenheng Yang,and Ram Nevatia.用于时间动作检测的级联边界回归。arXiv预印本arXiv:1705.01180,2017。[14] Runzhou Ge , Jiyang Gao , Kan Chen , and RamNevatia.Mac:挖掘基于语言的时间本地化的活动概念WACV,第245-253页。IEEE,2019。[15] Ian J Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu , David Warde-Farley , Sherjil Ozair , AaronCourville,and Yoshua Bengio.生成对抗网络。arXiv预印本arXiv:1406.2661,2014。[16] Meera Hahn,Asim Kadav,James M Rehg,and HansPeter Graf.穿越时间:视频中活动的高效定位。arXiv预印本arXiv:1904.09936,2019。[17] 何栋梁、赵翔、黄冀州、李复、小刘、文石磊。阅读、观看和移动:强化学习,用于在视频中暂时接地自然语言描述。在AAAI,第33卷,第8393[18] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。[19] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735[20] Andrej Karpathy , George Toderici , Sanketh Shetty ,Thomas L
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功