没有合适的资源?快使用搜索试试~ 我知道了~
2539零拍视频接地Dahye Kim1Jungin Park1Jiyoung Lee2Seongheon Park1Kwanghoon Sohn1,3*1延世大学2NAVER AI Lab3韩国科学技术研究院(KIST){dadalum,newrun,sam121796,khsohn} @ yonsei.ac.krlee. navercorp.com摘要给定一个未修剪的视频和一个语言查询描述的视频中的一个特定的时间时刻,视频接地的目的是本地化的时间间隔,同时理解文本和视频。最具挑战性的问题之一是极其耗时和成本的注释集合,包括自然语言形式的视频字幕及其相应的时间区域。在本页中-输入视频语言查询:该人打开袋子。视频接地模型因此,我们提出了一个简单而新颖的训练框架,用于零拍摄设置中的视频接地,该框架仅使用没有任何注释的视频数据来学习网络受最近的语言自由范式的启发,即。培训-0.5s6.4s时间间隔(a) 视频接地培训考试我们训练网络时,设置时间间隔语言查询语言查询将伪文本查询生成为自然语言形式。具体而言,我们提出了一种学习视频接地模型的方法,通过选择时间间隔作为假设的正确答案,并考虑我们的方法在间隔中选择的视觉特征作为语言特征,在CLIP的良好对齐的视觉语言空间的帮助下。大量的实验证明了我们的无语言训练框架的突出性,优于现有的零拍摄视频地面方法,甚至在两个标准数据集上具有较大余量的几种弱监督1. 介绍在我们的日常生活中,我们通过大量的视频冲浪,思考和学习。通过扩展,我们希望在视频中搜索我们想要的信息。使用自然语言查询的视频基础(也称为视频时刻检索)旨在通过自动定位视频监控[7]和智能视频搜索[37,38]等各种应用的时刻来帮助此类视频搜索。视频基础的一个主要挑战是构建与也被收集的给定文本对齐的时间间隔注释的高昂成本。虽然最近的全监督视频接地(FSVG)方法[24,39]*通讯作者公司简介公司简介VG(b) 注释类型取决于设置图1. 给定一个视频和一个语言查询,视频接地的目的是检索视频中的语言查询对应的时间间隔。在本文中,我们解决了零拍摄视频接地(ZEVG)问题,这是最具挑战性的设置,不能使用任何注释进行训练。已经在有限大小的数据集上表现出显着的性能[14,19],但在扩大训练方面仍有改进的空间。特别是在这样的领域中,需要大规模的训练数据来覆盖多个视频域(例如,教学视频、电影等)。然而,在视频规模中构建像图像语言数据集(如LAION-5 B[35])这样的数十亿规模的大规模注释是不切实际的解决方案。为了解决注释的负担,研究人员提出了弱监督视频接地(WSVG)方法[15,23,28],该方法仅使用粗略的视频级去噪进行训练。但它们仍然需要成对的视频-语言数据,这表明它们在开放世界中的适用性有限。最近,在[30]中提出了零拍摄视频接地(ZEVG)。如示于图1、在培训阶段,VEGVG只使用视频学习视频接地模型。学习半-2540监督的方式,[30]通过检查名词-动词统计共现模式生成伪时间事件区域和相应的伪句子查询。然而,伪句是建立在名词和动词的组合上的(例如, ‘flip personswitch door’), which is naturally different from the formof natural language query 也就是说,具有简单的名词和动词组成的人造句子打破了自然语言中固有的结构和组成概括,这可能会损害性能[22]。在本文中,我们提出了一种新的无语言训练框架,用于零拍摄视频接地。我们的解决方案是将视觉特征视为伪文本信息,同时灵活地响应强制句子生成伪强制句子的行为。具体来说,我们杠杆年龄的图像语言预训练模型(即,CLIP[33])接受了大规模网络收集数据的培训,这些数据揭示了多模态研究领域的突破。我们猜想,文本和视觉特征可以相互替换,没有麻烦,因为CLIP提供了一个良好对齐的视觉语言语义空间。为此,我们首先从一个给定的未修剪的视频生成包含有意义的事件的时间建议。使用CLIP的视觉编码器,从建议中的所有帧中提取视觉特征。然后,我们的可学习选择Transformer采用在视频基础模型中具有伪语言特征的主导特征,而不是从提案中生成自然句子因此,我们的方法可以自由地从提案中生成高质量的自然语言形式.此外,由于主要的视觉特征直接用于伪文本特征,因此我们的方法不需要从伪文本标签中产生文本嵌入,这对于之前的方法[30]的训练来说是耗时但必要的步骤。最后,整个模型被学习以预测与伪句子特征相对应的时间间隔,生成的时间建议作为地面实况。我们的贡献可归纳为三个方面:• 我们引入了一个无语言的视频接地框架,可以是一个负担得起的解决方案,有效地降低注释成本。• 我们通过提供广泛的实验分析来验证预训练的视觉语言模型对视频语言任务的适用性。• 我们的无语言训练框架优于现有方法,实现了最先 进 的 性 能 , 甚 至 在 Charades- STA[14] 和ActivityNet Captions[19]数据集上显示出与弱监督方法相当的性能。2. 相关工作2.1. 视频接地视频接地是最近提出的任务[1,14],其目的是在基于语言查询的视频中找到最佳时刻。大多数现有方法都遵循完全监督设置[9,22,24,29,34,44,51,52,53,54,57,59]来对视频和语言的细粒度语义关系进行建模。然而,由于这样的设置需要对开始和结束时间戳进行精确注释,因此需要对时间边界进行手动注释,这也导致了不同注释者之间的主观性。弱监督视频接地已被引入,以减轻这一负担。现有的作品可以分为两类。1)基于多实例学习[8](MIL)的方法[15,16,27,28,41,56]利用类似的 通过最大化阳性样本之间的分数和最小化阴性样本之间的分数来获得真实性分数。2)基于重建的方法[10,23,40,50,58]使用了最佳重建文本查询的视频片段接近地面实况的假设。然而,虽然弱监督方法成功地降低了时间标注的成本,但文本查询的成本仍然存在问题。一些作品[25,30]考虑了不访问配对注释的无监督设置。[25]提出了一种深度语义聚类网络,它首先从整个查询集中聚集不同的语义特征,然后生成伪标签以提供伪监督用于训练。[30]生成时间边界的伪标签和相应的查询语句。他们首先利用时间相似性矩阵来找到时间事件建议,然后使用现成的对象检测器和微调的RoBERTa[26]来进行无结构的伪查询。然而,由于自然语言的系统组合性[5,13],无结构的伪查询,特别是由名词和动词组成的伪查询,此外,查询中无信息词的存在使得模型难以区分查询最初意图的确切含义。此外,从检测到的对象中推断的动词是松散结合的,在这个意义上,动词不是直接从视频中预测的,这导致生成不准确的伪查询。2.2. 无障碍范式随着近年来学习模式从单通道学习向多通道学习转变,视觉语言相关任务引起了人们的由于待处理的模态已经加倍,因此难以获得高质量的视觉-语言训练对。一些作品[30,60]提出了一种所谓的2541输入视频预测时间自相似性伪时间提案预先训练的视觉编码器���问:一个人在他们的卧室里跑向他们的橱柜。预训练文本编码器0.2s8.2s冻结(a) (b)推理图2.我们的无语言视频接地框架的整体框架在(a)训练中,我们从CLIP[33]的视觉编码器和选择Transformer生成伪时间间隔和相应的在(b)推断(测试)阶段中,我们仅使用具有CLIP的文本编码器的视频接地模型。语言任务。一个工作线[12,17,20,30]提出了一种基于视觉对象的方法,该方法利用现成的对象检测器来基于检测到的对象制作文本相关的伪标签。无监督图像字幕[12,20]利用对象检测器从未配对的图像和文本信息中探索图像中的视觉概念。非监督视觉基础[17]使用检测到的对象作为第一个对象建议,然后使用伪查询生 成 模 块 生 成 伪 语 言 查 询 。 Zero- Shot VideoGrounding[30]首先从时间事件提案中检测对象作为名词,然后利用微调的语言模型作为动词,最后通过组合名词和动词生成简化的句子作为伪查询。然而,上述方法严重依赖于来自对象检测器的识别的视觉对象的质量,其在目标数据集和对象检测器已经训练的训练数据集之间具有大的域间隙。此外,由于对象类别仅限于训练数据集,因此不可能扩展自然语言中固有的各种对象和丰富表达[61]。另一项工作[47,60,61]利用了预训练的视觉语言模型的对齐良好的多模态语义空间。[61]提出了一种用于不成对图像字幕模型的基于学习的方法,该方法利用了CLIP [33]建立的视觉语言对齐。[47,60]提出了使用预训练CLIP的无语言文本到图像生成模型。具体来说,他们使用CLIP直接从图像中生成伪文本特征虽然我们与无语言的文本到图像生成[60]有着相同的精神,但我们的工作是首次尝试为视频基础引入3. 免维护视频接地3.1. 问题陈述和动机给定一个未修剪的视频和一个语言查询,视频基础的目标是定位一个时间间隔(开始和结束时间戳)表示与查询相对应的内容。在零拍摄视频接地 ( ZERO-SHOT VIDEO GROUND , ZERO-SHOTVIDEO GROUND)中,模型在训练期间不允许访问任何语言查询和地面实况时间戳。为了实现这一目标,先前的工作[30]使用预先训练的对象检测器和来自文本语料库的名词-动词统计数据虽然他们已经成功地提出了零拍摄视频接地的基线,但仍有问题需要解决:(1)他们通过严重依赖于预训练对象检测器的能力来生成伪查询的名词,这可能编码了不适当的偏差并且具有有限数量的对象类别;(2)将句子查询生成网络和视频基础网络分开训练,使得训练过程效率低下;(3)他们认为由名词和动词组成的简化句子可以替代自然语言查询,而这些句子的结构特征和成分概括被忽略。为了解决上述问题,我们提出了一个无语言的框架,用于MPEGVL,它跳过了可疑的句子生成,以提高性能和轻量级训练。如图在图2(a)中,我们的框架的训练流水线是(1)使用预训练的视频编码器来构建时间预测,(2)在来自预训练的CLIP的逐帧视觉特征中使用选择Transformer来生成伪语言特征,以及(3)训练视频接地模型,用于推理。3.2. 临时提案生成作为无语言视频基础的第一步,我们应该从我们认为是时间地面事实的视频中生成时间事件提案。为了检测视频中发生的事件,我们利用连续帧的视觉相似性的特性。具体地,时间相似性矩阵被构造为分割视频,其中视觉上相似的帧被激活。由于时间相似性矩阵反映了给定时间的时间结构,输入视频预训练的每帧3D CNN嵌入选择Transformer视频接地模型视频接地模型2542Fj=1F|| ·||N--视频[11,31,32],我们利用这些信息来找到视频中可能发生的事件与[30]类似,给定原始视频帧,我们首先使用预训练的视频编码器v从片段序列中提取视频特征。在获得对每个片段的时间结构进行编码的提取特征f之后,我们如下构造给定视频的自相似矩阵RR=cos(f,f)=fi·fi,(1)相应的时间建议。虽然在视频语言任务中对时间信息进行编码是很自然的,但我们选择了伪语言特征而没有时间建模。我们的观察是,单个主要视觉特征可以提供更多信息来表示相应的查询,这主要有两个原因:1)视频由通常包含来自连续场景的类似语义的连续帧组成,使得对上级帧进行采样已经包含视频的重要信息[2,21];2)由于i jijfi视频是由于背景杂乱或摄像机运动模糊的存在而产生的噪声帧的集合其中,Rij是成对的段特征fi和fj。然后,利用k-均值算法对特征进行聚类,将片段划分为k个主导事件此外,合并连续事件以处理更复杂的事件。3.3. 伪语言特征生成语言特征的候选项。为了训练视频接地模型,我们需要对应于生成的时间建议的语言查询。然而,正如在SEC中提到的那样。3.1、创建自然语言查询,常规的语言形式会忽视语言的自然属性,造成错误和浪费时间。相反,受到最近零镜头文本到图像生成的成功的激励[60],我们采用视觉语言模型的视觉编码器(即,CLIP[33])使用对比损失对大规模图像语言数据进行训练由于视觉特征和语言特征在语义空间中是一致的,因此我们可以使用视觉特征作为伪语言特征。具体来说,我们在每个时间建议中随机采样N个由vjN表示的帧,并使用预训练的视觉编码器img对逐帧特征进行编码。因此,伪语言特征的候选集合qq={q1,..., q N}={Fimg(v1),., Fimg(vN)},(2)其中qn表示对应于vn的视觉特征。然而,直接使用视觉特征可能不足以表示真实的语言特征。为此,我们故意使用随机噪声干扰来自预训练的视觉编码器的特征[60]:qn←qn+qn||Qn||2/||ϵ||第 二条、第三条qn←qn/||Qn||第 二条、第四条其中,λ(0,I)是高斯噪声,λ>0表示用于控制噪声程度的超参数,并且2是L2标准化。我们注意到,ViT/B-32的CLIP图像编码器被用作在这项工作中的Fimg伪语言特征选择。给定编码的伪语言特征候选者,我们选择一个信息量最大的单一主特征来表示可能包含无信息的信息并且计算效率低。此外,不适当的时间建模损害了视觉语言语义空间,导致在给出真实语言查询的推理时间的不可靠性能。一种替代解决方案是利用预先训练的视频语言模型(例如, VideoCLIP [49])。然而,视频语言模型通常在比视觉语言模型(原始CLIP中的400 M图像-文本对[33])更少的视频语言对(VideoCLIP中的110万个视频[49])上进行预训练。此外,视频语言模型通常需要高计算和存储器成本。因此,我们坚持将视觉语言模型纳入我们的工作中,有效地利用了自信的视觉语言语义空间。我们将在SEC中验证这一观察结果。四点五分。具体地,我们公式化选择Transformer,其仅具有用于帧选择过程的简单的两个Transformer层,使得:ST({q1,q2,. . . ,q N})<$→ qN,(5)其中ST是选择Transformer,而q表示伪语言特征。为了确保这种Transformer的反向传播用于端到端训练,我们采用类似于[2]的gumbel softmax。3.4. 视频接地模型在本节中,我们描述了我们的视频基础模型,该模型由视频编码器和跨模态融合模块组成,该模块学习融合两种不同的模态特征。视频编码。我们在具有时间位置编码的视频接地模型中重用所获得的视频特征f由于我们的目标是回归时间边界,因此嵌入位置信息很重要。为了明确地对每个视频的位置信息进行建模,我们应用每个片段的时间位置编码epos,如[43]中所做的。然后我们应用双向GRU[6]以进一步编码时间信息。视频的最终表示是通过聚合连接双向的2543⊕方法辅助核算R@0.3Charades-STAR@0.5R@0.7MiouR@0.1ActivityNet标题R@0.3R@0.5R@0.7MiouLGI[29]简体中文[CN]FSFS72.96-59.4621.4235.487.1551.38--49.158.5228.7041.5114.0023.07-41.1320.54[第28话]WS29.6817.046.93-----新加坡[4]WS39.827.312.927.374.244.323.6-32.2SCN[23]WS42.9623.589.97-74.4847.2329.22--WSTAN[45]WS43.3929.3512.28-79.7852.4530.01--酒吧[48]WS44.9727.0412.23--49.0330.73--MARN[40]WS48.5531.9414.81--47.0129.95--CCL[56]WS-33.2115.68--50.1231.07--LoGAN[41]WS51.6734.6814.54------CRM[16]WS53.6634.7616.37-81.6155.2632.19--VCA[46]WS58.5838.1319.5738.4967.9650.4531.00-33.15LCNet[50]WS59.6039.1918.8738.9478.5848.4926.33-34.29RTBPN[55]WS60.0432.3613.24-73.7349.7729.63--全国妇女委员会 *[58]WS60.3935.4315.45-78.1355.6833.33--DSCNet[25]美国44.1528.7314.67--47.2928.16--PSVL*[30]ZS46.1731.2914.1731.24-44.7430.0814.7429.62我们的 *ZS52.9537.2419.3336.0561.3547.6132.5915.4231.85表1.与Charades-STA和ActivityNet Captions数据集上的其他方法的性能比较。怎么了是指监督级别:WS(弱监督设置),US(无监督设置,其中使用查询信息但不与视频配对),ZS(零拍摄设置,其中不利用任何注释,包括查询信息)* 这些作品使用预训练模型:我们的和[58]使用冻结的CLIP,[30]微调RoBERTA [26]。GRU和位置编码视频特征如下:s=MLP[Bi-GRU(f)f],(6)语言特征最后,使用MLP层,我们从压缩的视频特征预测最相关的时间区域这个过程是其中是一个级联运算,f=f+e结合位置嵌入的视频功能。POS是一总结如下:(ts,te)=MLP(自我注意(satt)),(8)跨模态融合模块。在获得伪语言特征qf和编码的整个视频特征s的情况下,视频接地旨在找到视频中与给定语言特征对应的最相关部分。为了实现这一目标,我们利用[43]中提出的注意力机制来实现两种模式的多模式交互。具体地,我们使用多头注意力来获得语言引导的视频特征s att,其中我们将查询Q定义为视频特征f,将键K和值V定义为伪语言特征qt:QKT其中(t s,t e)分别是预测的开始和结束时间。3.5. 模型训练与推理由于我们的方法在零拍摄设置中执行视频接地,因此训练和推理过程是不同的,如图所示。二、接下来,我们描述了训练对象学习视频接地模型与伪时间建议和伪语言查询,以及推理过程与给定的视频和真实的语言查询。交叉注意(Q,K,V)=softmax(softdV),(七)训练我们的训练目标包括两个损失函数,时间回归损失Lreg和时间其中dk是K的维数。然后,为了捕获更多为了在整个视频中实现全局上下文,我们在交叉注意力层之后额外地应用自我注意力层。注意到交叉注意和K2544自注意在融合模块中的作用不同,自注意层的键、查询和值是视频注意特征,交叉注意层的键和值是伪注意特征注意校准损失Latt:L=L reg+ λL att.(九)为了平衡每个目标项,使用超参数λ请注意,我们根据经验将λ选择为1,这对训练的影响较小。2545Σ不--模型R@0.3R@0.5R@0.7Miou我们52.9537.2419.3336.05我们的+颞叶GT54.0039.9119.4636.29表2. 不同损失的烧蚀研究。损失是指训练中使用的损失术语。根据以前的工作[29,51],我们采用时间回归损失Lreg作为模型预测和目标区间之间的平滑L1损失,由下式给出其中(ts,te)和(ts,te)分别表示伪时间真实值和模型预测我们还采用时间注意力校准损失Latt来提高时间注意力的准确性,因为我们直接回归来自时间关注视频特征的时间间隔,如下[51]:表3.使用地面实况时间边界的上限分析(时间GT)。利用时间GT,我们直接生成对应于GT时间间隔的伪语言特征。帧选择R@0.3R@0.5R@0.7Miou随机50.234.8415.6633.49St52.9537.2419.3336.05表4.框架选择策略的消融研究。‘ActivityNet Captions最初由[19]收集,用于评估密集视频字幕,其中包含37,417/17,505/17,031个片段-句子对和10,009/4917/5044个训练中的视频,分别为val1和val 2。继以前的作品Latt=−不t=1 atlog(at)、(11)[29,30],我们评估我们在验证集aa=.1、如果t≤t≤t(十二)4.2.评估指标0,否则。推理。与训练过程不同,在推理阶段,输入是来自测试集的视频及其对应的完整句子。为了处理这种差异,我们从预训练的视觉语言模型的文本编码器中提取文本特征,即。CLIP的文本编码器[33]。换句话说,伪语言特征q被来自真实语言查询的真实语言特征q因此,我们的提案生成步骤在SEC中。3.2节中的伪语言特征生成3.3仅用于训练视频接地模型。4. 实验结果4.1. 数据集为了验证我们方法的有效性,我们在两个数据集上进 行 了 实 验 : Charades-STA [14] 和 ActivityNet 标 题[19]。由于我们将视频基础任务制定为无语言设置,因此在培训时未使用与视频相关的任何注释,而仅在测试中使用。Charades-STACharades-STA由[14]从Charades数据集[36]中引入,旨在通过半自动方式注释来评估视频接地任务。该数据集包含12,408/3720个片段-句子对和5338/1334个视频,分别在训练集和测试为了评估我们的模型的性能,我们采用R@tIoU和mIoU(平均tIoU)进行公平比较。具体来说,给定预测边界,我们计算具有地面真实边界的联合上的时间交集(tIoU)。R@tIoU是大于阈值的预测的百分比,即0.3 0.5 0.7 mIoU是所有预测的平均IoU。4.3. 实现细节为了公平比较,我们采用I3 D [3]和C3 D [42]网络作为Charades-STA和ActivityNet Captions数据集的视频特征提取器,分别遵循以前的工作[29,30]。我们在两个数据集中将视频特征的最大长度T设置为128。为了生成伪语言特征,我们使用预训练的CLIP-ViT/B-32。我们将N= 9设置为帧采样,并使用具有2层和2个关注头的低容量Transformer [43]进行帧选择过程,使其计算效率更高。视频编码器中的双向GRU层是2层架构,隐藏大小为256。对于跨模态融合模块,我们使用具有3层和4头的多头注意其隐藏状态的维数对于超参数,我们经验性地设置k=5,k= 0。0001且λ= 1。在所有实验中,我们使用Adam[18]以0.0004的固定学习率训练我们的模型,批量大小为256我们在补充材料中提供了更多细节,该代码将很快公开Σ哪里不t=1因为测试集的注释不可用。一个小的LregLattR@0.3R@0.5R@0.7Miou✓✗45.1630.4014.8830.33✗ ✓12.818.713.998.71✓ ✓52.9537.2419.3336.0525465352岁3三十六2三十五5问题:一个穿蓝色毛衣的人打开了一个衣橱。输入0.0sGT7.0s51岁6三十四8视频剪辑50块9三十四10.0s14.3s50块2三十三岁。41 2 4 8 916帧嵌入我们0.0s9.1s图3. 帧选择过程中帧嵌入数目的消融研究。问:一个人把枕头扔向窗户。输入4.4. 与最新技术水平的选项卡. 图1显示了我们的模型在全监督、弱监督、无监督和零拍摄条件下与先前作品相比的结果。弱监督(WS)方法使用昂贵的注释语句查询进行训练,而无监督(US)方法利用GT视频剪辑我们0.0s0.0s2.8s10.1s10.1s15.3s数据集中的视频和句子查询的未配对数据。然而,零拍摄方法,包括我们的方法,只在数据集中使用视频进行训练。在Charades-STA和ActivityNet Captions数据集上,我们可以观察到我们的方法在所有指标中均大幅优于PSVL[30]此外,即使我们的方法不使用数据集的一堆语言查询,我们的方法也比无监督方法[25]性能好得多。与弱监督方法的比较表明,我们的方法实现了与几种方法相当甚至更好的性能[4,23,28,40,41、45、48、56]。4.5. 分析为了证明我们的方法的卓越性,我们从各种角度对Charades-STA进行了消融研究和分析不同损失的影响。我们首先研究了使用不同损失项Lreg和Latt的有效性。如Tab.所2,当我们使用所有损失项时,我们的模型表现最好,这表明使用两个损失对于训练我们的网络至关重要。我们还发现,回归损失Lreg对整体性能的影响更大,然而,只有回归损失Lreg的训练不如基线的性能。上限分析在选项卡中。3.通过将伪tem-图4. 定性比较对应于Charades-STA数据集上的语言特征编码器。poralproposals ( ts , te ) 转 换 为 temporalground-truth(ts,te)。用时间地面实况替换导致性能改进,其性能优于大多数现有的弱监督视频接地方法。然而,增益并不显著,因为我们通过在生成的时间边界内选择一个帧来获得伪语言特征。我们谨慎地假设精确的时间位置具有有限的影响。选择Transformer的有效性。为了研究在伪语言特征生成过程中使用选择转换器Transformer的重要性,我们用一个随机选择模块代替它。在该分析中,我们从提案中提取的视觉特征中随机采样一个特征作为伪语言特征。如Tab.所示4.我们观察到使用选择Transformer可以提高性能,这表明选择Transformer帧嵌入数量的影响。如图3、我们评估了在选择Transformer时使用的帧嵌入数量的有效性。我们可以看到,我们对帧嵌入的采样越多,tIoU分数就越高,直到9帧。 因此,我们在所有实验中设置N= 9。在补充材料中显示了不同tIoU时召回的更多结果。召回@0.3mIMiou召回2547问:一个 人在他们的卧室里跑向他们的橱柜。输入提问:一个女孩正在玩呼拉圈。输入GTPSVL0.2s8.2sGT我们0.0s0.0s8.93s10.0s1.5s9.43s问:男孩刷舌头。我们0.0s7.2s输入GT我们16.5s21.2s问:人打开袋子。13.1s22.0s输入GTPSVL我们0.5s0.0s1.0s6.4s10.52s9.47s图6. 在ActivityNet Captions数据集上对地面实况区间和我们的区间进行定性比较。在质量上优于PSVL。另外,Fig.图6显示了ActivityNetCaptions数据集的定性结果。更多的定性结果在补充材料中。5. 结论和未来工作在这项工作中,我们提出了一种新的方法来训练视频接地模型在零拍的方式没有我们-图5. 我们和PSVL在Charades-STA数据集上的定性比较。基于图像的视觉语言模型的有效性在本节中,我们研究了基于图像的视觉语言模型对视频语言任务的有效性。在这个实验中,我们采用了预训练的视频语言模型[49],该模型在视频和文本之间建立了细粒度的伪语言特征是直接从视频语言模型提取的建议。图4显示了 我 们 的 方 法 与 CLIP 及 其 对 应 物 ( 即 ,VideoCLIP)。如图4.无论给定的查询是静态的还是动态的,我们的CLIP模型都能比VideoCLIP模型更好地定位时刻。 我们观察到,使用图像语言模型可以从单个帧中捕获与视频语言模型相当或更好的语义4.6. 定性结果图5显示了将我们的结果与Charades-STA数据集上的先前方法[30]进行比较的一些定性结果。这个例子给出了PSVL[30]和我们的时间地面实况边界和模型预测,给定一对视频和一个查询。实验结果表明,该方法覆盖了更多与查询相关的视频内容,有效地证明了该模型的有效性读取与成对的视频-句子数据相关的任何注释。我们实现的目标,通过生成伪地面实况的时间位置和相应的文本特征与语言无关的范式。首先,我们从生成的建议中获得一个伪语言功能,利用对齐良好的视觉语言语义空间的CLIP。与以前试图将伪文本查询转换为人工语言格式的方法相比,我们保留了自然语言中固有的结构特征和成分概括。此外,我们开发了一个视频接地模型的基础上,交叉和自我注意力转换器,有效地模拟两种形式和上下文的关注功能之间的关系。实验结果证明了无语言训练的有效性,在两个数据集上取得了显著的性能,并降低了数据收集的成本。然而,由于上述原因,在本工作中没有设计时间建模。3.3. 实验结果表明,目前的数据集显示在解决查询的时间推理的局限性。作为下一步,我们将研究视频基础的新基准,其中应该包括更多关于因果和时间理解的硬例子以及更多用于实际使用的长期视频。鸣谢。这项工作得到了2022年延世签名研究集群计划( 2022- 22-0002 ) 和 KIST 机 构 计 划 ( 项 目 编 号 2E31051 -21-203)的支持。2548引用[1] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。使用自然语言对视频中的时刻进行本地化。ICCV,2017年。[2] Sh yamalBuch , Cristo'balEyzaguirre , AdrienGaidon , Jia-junWu,Li Fei-Fei,and Juan Carlos Niebles.视频语言理解中的“视频”再探CVPR,2022年。[3] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。CVPR,2017年。[4] Zhenfang Chen,Lin Ma,Wenhan Luo,Peng Tang,and Kwan-Yee K Wong.看起来更接近地面:视频中句子的弱监督时间背景。arXiv预印本arXiv:2001.09308,2020。[5] 诺姆·乔姆斯基句法结构De Gruyter Mouton,2009.[6] Junyoung Chung、Caglar Gulcehre、KyungHyun Cho和Yoshua Bengio。门控递归神经网络在序列建模中的实证评估。arXiv预印本arXiv:1412.3555,2014。[7] Robert T Collins , Alan J Lipton , Takeo Kanade ,Hironobu Fujiyoshi , David Duggins , Yanghai Tsin ,DavidTolliver,NobuyoshiEnomoto,OsamuHasegawa,Peter Burt,et al.一种用于视频监视和监控的系统。VSAM最终报告,2000年。[8] 托马斯·G·迪特里希、理查德·H·莱思罗普和托马的洛扎诺·佩雷斯。用平行轴矩形求解多实例问题人工智能,1997年。[9] Xinpeng Ding , Nannan Wang , Shiwei Zhang , DeCheng,Xiaomeng Li,Ziyuan Huang,Mingqian Tang,and Xinbo Gao. 基 于 支 持 集的 视 频 接 地 交 叉 监 控。ICCV,2021年。[10] 段旭光,黄文兵,甘闯,王敬东,朱文武,黄俊洲视频中的弱监督NeurIPS,2018。[11] Debidatta Dwibedi,Yusuf Aytar,Jonathan Tompson,Pierre Sermanet,and Andrew Zisserman.计数时间:类不可知论的视频重复计数在野外。CVPR,2020年。[12] 杨峰 ,林 马, 刘伟 ,罗 杰波。 无监 督图 像字 幕。CVPR,2019年。[13] Jerry A Fodor和Zenon W Pylyshyn。连接主义和认知架构:批判性的分析。认知,1988年。[14] 高吉阳,孙晨,杨振恒,拉姆·涅瓦蒂娅. Tall:通过语言查询的时间活动定位。ICCV,2017年。[15] Mingfei Gao , Larry S Davis , Richard Socher , andCaiming Xiong. Wslln:弱监督自然语言本地化网络。EMNLP,2019。[16] 黄佳波,刘洋,龚绍刚,金海林。视频活动定位中的跨句时间和语义关系。ICCV,2021年。[17] 姜浩俊、林元泽、韩东晨、宋世济、郜荒。Pseudo-q:生成用于视觉基础的伪语言查询。CVPR,2022年。[18] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。ICLR,2015年。[19] Ranjay Krishna、Kenji Hata、Frederic Ren、Li Fei-Fei和Juan Carlos Niebles。视频中的密集字幕事件。ICCV,2017年。[20] Iro Laina,Christian Rupprecht,和Nassir Navab.面向无监督图像字幕共享多模态嵌入。ICCV,2019。[21] Jie Lei,Linjie Li,Luowei Zhou,Zhe Gan,Tamara LBerg,Mohit Bansal,and Jingjing Liu.少即是多:通过稀疏采样进行视频和语言学习。CVPR,2021年。[22] Juncheng Li,Junlin Xie,Long Qian,Linchao Zhu,Siliang Tang,Fei Wu,Yi Yang,Yueting Zhuang,andXin Eric Wang.结构化变量交叉图对应学习的组合时间基础。CVPR,2022年。[23] Zhijie Lin , Zhou Zhao , Zhu Zhang , Qi Wang , andHuasheng Liu.基于语义完备网络的弱监督视频矩检索AAAI,2020年。[24] 刘岱宗、曲孝业、董剑锋、潘周、俞成、魏巍、徐子川、谢玉来。基于上下文感知的双仿射局部化网络。CVPR,2021年。[25] 刘岱宗、曲孝业、王银珍、邢迪、邹凯基于深度语义聚类的无监督时间视频基础。AAAI,2022年。[26] Yinhan Liu , Myle Ott , Naman Goyal , Jingfei Du ,Mandar Joshi,Danqi Chen,Omer Levy,Mike Lewis,Luke Zettle-moyer,and Veselin Stoyanov.Roberta:一种鲁 棒 优 化 的 bert 预 训 练 方 法 。 arXiv 预 印 本 arXiv :1907.11692,2019。[27] Minuk Ma,Sunjae Yoon,Junyeong Kim,YoungjoonLee,Sunghun Kang,and Chang D Yoo. Vlanet:用于弱监督视频时刻检索的视频语言对齐网络。ECCV,2020年。[28] Niluthpol Chowdhury Mithun,Sujoy Paul,and Amit KRoy- Chowdhury.基于文本查询的弱监督视频矩检索CVPR,2019年。[29] Jonghwan Mun,Minsu Cho,and Bohyung Han.用于时间基础的局部-全局视频-文本交互。CVPR,2020年。[30] Jinwoo Nam , Daechul Ahn , Dongyeop Kang , SeongJong Ha,and Jonghyun Choi.零镜头自然语言视频定位。ICCV,2021年。[31] Jungin Park,Jiyoung Lee,Ig-Jae Kim,and KwanghoonSohn. Sumgraph : 通 过 递 归 图 建 模 的 视 频 摘 要 。ECCV,2020年。[32] Jungin Park,Jiyoung Lee,Kwanghoon Sohn. 大桥回答:用于视频问答的结构感知图交互网络。CVPR,2021年。[33] Alec Radford,Jong Wook Kim,Chris Hallacy,AdityaRamesh , Gabriel Goh , Sandhini Agarwal , GirishSastr
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功