没有合适的资源?快使用搜索试试~ 我知道了~
{nmithun, supaul, amitrc}@ece.ucr.edu115920从文本查询中弱监督的视频时刻检索0Niluthpol Chowdhury Mithun * , Sujoy Paul * , Amit K.Roy-Chowdhury 加利福尼亚大学河滨分校电子与计算机工程系0摘要0最近有一些使用自然语言查询进行文本到视频时刻检索的方法被提出,但在训练过程中需要完全监督。然而,为每个文本描述获取具有时间边界注释的大量训练视频非常耗时且通常不可扩展。为了解决这个问题,在这项工作中,我们引入了学习弱标签的文本到视频时刻检索任务。监督的弱性在于,在训练过程中,我们只能访问视频-文本对,而不能访问不同文本描述相关的视频的时间范围。我们提出了一种基于联合视觉-语义嵌入的框架,该框架仅使用视频级别的句子描述来学习相关片段的概念。具体而言,我们的主要思想是利用文本引导的注意力(TGA)来利用视频帧和句子描述之间的潜在对齐。在测试阶段,使用TGA来检索相关时刻。在两个基准数据集上的实验证明,我们的方法达到了与最先进的完全监督方法相当的性能。01. 引言0使用自然语言描述进行跨模态视觉数据检索近年来引起了广泛关注[10, 43, 15, 12, 40, 41,24],但由于不同模态之间的差异和歧义,仍然是一个非常具有挑战性的问题[43, 6,21]。视频时刻(或段)的识别非常重要,因为它允许用户专注于与文本查询最相关的视频部分,并且在视频中存在许多非相关部分时非常有益(见图1)。上述方法在完全监督的设置下运行,即它们可以访问文本描述以及与描述相对应的视觉数据的确切时间位置。然而,获取这样的注释是费时的。0* 共同第一作者0查询:一个拿着相机的男人出现在画面中。029.2秒 41.3秒0查询:白衣老人拍摄完毕后离开。012.6秒 24秒0图1.文本到视频时刻检索任务的示意图:给定一个文本查询,根据视频段描述文本的程度对其进行检索和排序。0繁琐且嘈杂,需要多个注释者。开发需要较弱监督程度的算法对于使用文本查询进行视频时刻检索的问题来说是非平凡的,并且尚未被研究者探索。在这项工作中,我们特别关注这个问题。文本到视频时刻检索任务比在视频中定位分类活动的任务更具挑战性,后者是一个相对研究较多的领域[20,38, 44, 39, 28,31]。尽管这些方法在活动定位上取得了成功,但与文本到时刻检索不同,它们仅限于预定义的一组活动类别。在这方面,最近出现了一种从自然语言描述中定位视频时刻的兴趣[9, 8, 40,3]。使用文本描述及其在视频中的时间边界对这些模型进行训练。然而,获取文本-时间边界元组的稠密注释通常是繁琐的,因为很难标记某个时刻的开始和结束位置,这在训练数据中引入了歧义。相反,仅仅用一组自然语言句子描述视频中出现的时刻往往更容易,而不是为每个句子提供精确的时间边界。此外,这样的描述通常可以从网络上的某些来源轻松获取。受此启发,我们在本文中提出了一个问题:是否可能开发一种115930联合视频-文本空间0视频0CNN0特征向量0FC0加权池化0GRU GRU GRU GRU GRU GRU0…一个记者正在谈论一场电影场景…0GRU GRU GRU GRU0句子描述0句子特征0FC0FC文本引导注意力0注意力块0图2.我们提出的用于学习文本到视频时刻检索的弱监督框架的简要说明。我们的框架学习了相关视频帧和视频对应文本之间的潜在对齐。这种对齐用于根据相关性对视频特征进行关注,汇总视频特征用于学习联合视频-文本嵌入。在图中,CNN表示卷积神经网络,FC表示全连接神经网络,GRU表示门控循环单元。请参阅第3节了解我们方法的详细信息。0一个仅利用视频级文本注释而不需要时间边界的文本到视频时刻定位的弱监督框架?使用弱描述进行时刻定位比其监督对应物更具挑战性。回答这个问题非常重要,因为在完全监督设置中,通过文本描述获取精确的逐帧信息非常困难且不可扩展,需要大量的人工劳动。0提出框架概述。我们提出的弱监督框架如图2所示。给定一个视频,我们首先从预训练的卷积神经网络(CNN)架构中提取逐帧视觉特征。我们还使用基于循环神经网络(RNN)的模型提取文本描述的特征。类似于几种跨模态视频-文本检索模型[5,15],我们训练一个联合嵌入网络,将视频特征和文本特征投影到相同的联合空间中。然而,由于我们对视频有整体的文本描述,而不是像在完全监督设置中那样的时刻级描述,文本到视频时刻检索的学习过程是非平凡的。0给定某个文本描述,我们计算其与视频特征的相似度,这给出了可能与文本描述对应的时间位置的指示。我们将其称为文本引导注意力,因为它有助于突出显示与文本描述相对应的时间位置。然后,我们使用这个注意力沿时间方向对视频特征进行池化,以获得一个视频的单一文本相关特征向量。然后,我们训练网络来最小化损失,减小文本相关视频特征向量与文本向量本身之间的距离。我们假设在学习共享的视频-文本嵌入的同时,隐藏单元将内部产生学习视频时刻与相应文本描述相关性的概念。0在测试阶段,我们使用TGA来定位时刻,给定一个文本查询,它会突出显示与查询相对应的视频部分。0贡献:所提方法的主要贡献如下。•我们解决了一种新颖且实际的问题,即在训练过程中不需要文本描述的时间边界注释,仅使用视频级文本描述来定位视频时刻。•我们提出了一个联合视觉-语义嵌入框架,通过仅使用视频级描述来学习视频中相关时刻的概念。我们的联合嵌入网络利用视频帧和句子描述之间的潜在对齐作为文本引导注意力来学习嵌入。•在两个基准数据集DiDeMo [9]和Charades-STA[8]上的实验证明,我们的弱监督方法在文本到视频时刻检索任务中表现得相当好,与监督基线方法相比。02. 相关工作0使用文本查询的图像/视频检索。跨模态语言-视觉检索方法专注于根据文本描述从数据库中检索相关图像/视频。最近的大多数图像-文本检索任务的方法都专注于学习联合视觉-语义嵌入模型[13, 15, 7, 36, 6, 24, 34,23]。受到这些方法的成功启发,大多数视频-文本检索方法也采用了联合子空间模型[42, 5, 35, 26, 21,22]。在这个联合空间中,不同点之间的相似性反映了它们对应的原始输入之间的语义接近程度。这些基于文本的视频检索方法专注于根据文本描述从数据集中检索整个视频。然而,我们专注于在给定文本查询的情况下,暂时定位与之相关的特定时刻,即在一个115940给定视频。与视频/图像到文本检索方法类似,我们提出的框架也是基于学习联合视频-文本嵌入模型。然而,与视频-文本检索中仅关注在联合空间中对齐视频和文本不同,我们的目标是学习视频帧和文本描述之间的潜在对齐,用于获取与给定文本查询相关的时刻。0活动定位。我们的工作中的时刻检索方面与未修剪视频中的时间活动定位问题相关。从我们的兴趣角度来看,与活动定位相关的文献中的工作可以分为完全监督和弱监督两类。完全监督设置中的工作包括SSN [44],R-C3D [39],TAL-Net[2]等。这些工作大多通过使用具有活动位置预测器的时间动作提案来构建他们的框架。然而,在弱监督设置中,每个活动的确切位置是未知的,只能在训练过程中访问视频级别的标签。为了解决这个问题,研究人员采用了多实例学习方法[38],并应用了约束来进行更好的定位[28,25]。与活动定位任务相比,我们从文本描述中检索视频时刻的任务更具挑战性,因为我们的方法不限于预定义的一组类别,而是自然语言中的句子。0文本到视频时刻检索。与我们的工作最相关的是那些使用全监督注释来识别文本描述中相关部分的方法:MCN[9],CTRL [8],EFRC [40],ROLE [19],TGN[3]。这些方法严重受到收集具有时间自然语言注释的训练视频的问题的困扰。通过对视频帧进行时间滑动窗口[9]或包含固定帧数的硬编码片段[8],已被用于生成与文本描述相对应的时刻候选。此外,与图像不同,以无监督的方式为视频生成时间提案本身就是一项具有挑战性的任务。在[40,39]中,作者提出了一个端到端的框架,其中活动提案是初始步骤之一,但是用于更容易的活动定位任务。在文本到视频时刻检索任务中,[19,40]使用了注意机制。虽然我们也使用了注意机制,但我们的使用方式与它们有很大不同。ROLE[19]使用视频时刻上下文对单词进行注意力,他们从时间标签中获得上下文。EFRC[40]在训练时使用注意力来训练一个时间提案网络,因为它可以访问句子的时间边界注释。我们使用注意力来关注视频的时间维度,因为我们无法访问时间边界。更重要的是,我们的方法是弱监督的,在训练过程中只需要视频级别的文本注释。因此,我们的方法的数据收集成本较低。0成本较低,并且可以使用更大的视频-文本字幕数据集进行训练。[1]中考虑了视频-文本对齐任务的弱监督设置,即为一组时间有序的句子分配时间边界,而我们的任务是在给定句子的情况下检索视频的一部分。此外,[1]假设句子之间存在时间顺序作为额外的监督。此外,他们的方法需要密集的句子注释,描述视频的所有部分,包括表示背景时刻的标记(如果有)。本文考虑的任务是[1]中任务的泛化。我们认为可以有多个句子描述单个视频的不同时间部分,并且不考虑句子之间的任何时间顺序信息。我们框架中使用的文本引导注意机制允许我们在训练过程中处理多个句子描述,并在测试过程中为每个句子提供相关部分,即使只有弱监督。03. 方法0在本节中,我们首先描述网络架构和输入特征表示,用于表示视频和文本(第3.1节)。然后,我们介绍我们提出的Text-GuidedAttention模块(第3.2节)。最后,我们描述学习联合视频-文本嵌入的框架(第3.3节)。0问题定义。在本文中,我们考虑训练集由与文本描述配对的视频组成,其中文本描述由多个句子组成。每个句子描述视频的不同时间区域。然而,我们无法访问句子所指的时刻的时间边界。在测试时,我们使用一个句子来检索视频的相关部分。03.1. 网络结构和特征0网络结构。联合嵌入模型使用两个分支的深度神经网络模型进行训练,如图2所示。这两个分支由不同的专家神经网络组成,用于从给定的输入中提取模态特定的表示。专家网络后面是全连接嵌入层,用于将模态特定的表示转换为联合表示。在这项工作中,由于训练数据有限,我们将预训练的图像编码器保持不变。全连接嵌入层、词嵌入和GRU都是端到端训练的。我们将联合嵌入空间的维度(D)设置为1024。0文本表示。我们使用门控循环单元(GRU)[4]对句子进行编码。GRU在最近的研究中非常流行,用于生成句子的表示[6,15]。词嵌入作为输入传递给GRU。词嵌入的维度为300。115950视频表示。我们使用预训练的卷积神经网络模型作为编码视频的专家网络。具体来说,我们使用C3D模型[33]对Charades-STA数据集的每16帧视频进行特征提取,根据[8]的方法。我们使用16层的VGG模型[30]对DiDeMo数据集进行帧级特征提取,根据[9]的方法。我们从倒数第二个全连接层提取特征。对于C3D和VGG16模型,倒数第二个全连接层的表示维度为4096。03.2. 文本引导注意力0特征提取过程之后,我们得到了一个训练集D = {{w_ij}nw_ij=1, {v_ik} nv_ik=1}nd_i=1,其中nd是训练对的数量,wij表示第i个视频的第j个句子特征,vik表示第i个视频在第k个时间点的视频特征,nwi和nvi分别是数据集中第i个视频的文本描述句子和视频时间点的数量。请注意,我们不考虑文本描述中的任何顺序。每个句子都提供了关于给定视频的某个部分的信息。在完全监督的设置中,我们可以应用池化技术,首先池化相关部分的视频特征,然后使用相似度度量学习联合视频段-文本嵌入。然而,在我们的弱监督时刻检索情况下,我们无法访问与句子相关的时间边界。因此,我们需要首先获取与给定句子查询相关的视频部分。如果视频帧的某个部分对应于特定的句子,我们期望它们具有相似的特征。因此,文本和视频特征之间的余弦相似度在时间上相关的部分应该更高,在不相关的部分应该较低。此外,由于句子描述了视频的一部分而不是单个时间段,因此在池化相关部分之后获得的视频特征应该与句子描述特征非常相似。我们利用这个想法通过基于句子描述的注意机制来学习联合视频-文本嵌入,我们将其命名为Text-GuidedAttention(TGA)。请注意,在测试阶段,我们使用TGA来获取定位。我们首先对每个时间点的视频特征应用具有ReLU [18]和Dropout[32]的全连接(FC)层,将它们转换为与文本特征相同的维度空间。我们将这些特征表示为¯vik。为了获得对时间维度的句子特定注意力,我们首先计算每个时间特征与句子描述之间的余弦相似度。第j个句子与第k个时间特征之间的相似度为0第i个训练视频可以表示如下:0s_i kj = w_i j T v_i k0|| w_i j || 2 || v_i k || 2 (1)0一旦我们获得了所有时间位置的相似性值,我们沿着时间维度应用softmax操作,以获得第i个视频的注意力向量,如下所示:0a_i kj = exp( s_i kj ) P nv_i k =1 exp( s_ikj ) (2)0这些应该在与给定句向量w_ij相关的时间位置上具有较高的值。我们将其视为局部相似性,因为各个时间特征可能对应于句子的不同方面,因此每个时间特征可能会稍微偏离句子特征。然而,在对应于相关位置的视频时间特征进行汇聚后,得到的特征应该与整个句子特征非常相似。我们将其视为全局相似性。我们使用公式2中的注意力来获取句子描述w_ij的汇聚视频特征,如下所示:0f_i j =0k =1 a_i kj v_i k (3)0请注意,此特征向量仅对应于特定的句子描述w_ij。类似的过程中,我们还可以提取与同一视频的文本描述中的其他句子以及其他视频的文本描述相对应的文本特定视频特征向量。图3展示了使用视频时间特征和一组视频的句子描述进行逐句视频特征提取的过程概述。我们使用这些特征向量来推导损失函数,以优化网络的参数。接下来将对此进行描述。03.3. 训练联合嵌入0我们现在描述我们优化的损失函数,以学习联合视频文本嵌入。许多先前的方法都使用成对排名损失作为学习视觉和文本输入之间联合嵌入的目标[15, 45, 37,13]。具体而言,这些方法通过最小化基于铰链的三元组排名损失来最大化图像嵌入和相应文本嵌入之间的相似性,并最小化与所有其他非匹配项的相似性。为了简化符号表示,我们省略了索引i、j、k,表示视频编号、句子索引和时间点。给定基于TGA的文本特定视频特征向量f(∈RV)和配对文本特征向量w(∈RT),视频特征在联合空间中的投影可以表示为vp,tp)n Xt−pmax⇥0, ∆ − S(vp, tp) + S(vp, t−p )⇤+Xv−pmax⇥0, ∆ − S(tp, vp) + S(tp, v−p )⇤o(4)115960� �0� 1 �0� 2 �0� 3 �0� 4 �0� 4 �0� 3 �0� 2 �0� 1 �0� 4 �0� 3 �0� 2 �0� 1 �0Softmax0Softmax0Softmax0Softmax0� 4 � 时间0时间0� 3 �0� 2 �0� 1 �0� �0逐句视频特征 视频特征0图3. 该图展示了计算文本引导注意力并使用它生成逐句视频特征的过程。我们首先计算视频v_i的每个时间点的特征与其对应的句子w_ij之间的余弦相似度,然后沿时间维度应用softmax层,以获得逐句的时间注意力。然后,我们使用这些注意力来计算视频特征的加权平均,最终得到逐句的视频特征。0通过 W(v) f(v_p ∈ RD) 可以得到投影在嵌入空间中的配对文本向量 t_p = W(t) w(t_p ∈RD)。这里,W(v) ∈ RD × V。0是将视频内容投影到联合嵌入中的变换矩阵,D是联合空间的维度。类似地,W(t)∈RD×T将输入句子/标题嵌入映射到联合空间。0利用这些视频和相应句子的特征表示对,目标是学习一个联合嵌入,使得正对之间的距离比负对更近。现在,视频-文本损失函数LVT可以表示如下,0LVT = X0其中t−p是与视频嵌入vp不匹配的文本嵌入,tp是匹配的文本嵌入。对于视频嵌入vp和不匹配的图像嵌入v−p也是类似的。∆是排名损失的边界值。评分函数S(vp,tp)测量联合空间中图像嵌入和文本嵌入之间的相似性。我们在表示空间中使用余弦相似度来计算相似性。余弦相似度在图像-文本检索的联合嵌入模型的先前工作中被广泛使用[45,15, 6,23]。我们的方法不依赖于任何特定的相似性函数选择。0在公式(4)中,第一项试图确保对于每个视觉输入,匹配的文本输入在学习联合空间中比不匹配的文本输入更接近。然而,公式(4)中的第二项试图确保对于每个文本输入,匹配的图像输入在联合空间中比不匹配的图像输入更接近。03.4. 批次训练0我们使用随机梯度下降(SGD)训练我们的网络,将数据集分成批次。对于具有多个句子的视频,我们创建多个视频-句子对,其中视频相同,但对应视频的文本描述中的句子不同。在训练过程中,我们的方法通过文本引导注意力自动识别每个句子的相关部分。负实例v−p和t−p对应于当前数据批次中不是正实例的所有实例。04. 实验0我们在两个基准数据集上进行实验,目的是比较我们的弱监督方法与不同监督基线方法的性能。根据我们在本文中介绍的问题,据我们所知,我们的工作是首次在这个任务上展示结果。理想情况下,任何弱监督方法都会尝试达到与具有相似特征和设置的监督方法相当的性能。我们首先在第4.1节中描述数据集和评估指标的细节,然后在第4.2节中描述训练细节。接下来,在第4.3节中报告DiDeMo和Charades-STA数据集上不同方法的结果。04.1. 数据集和评估指标0我们在两个句子描述为基础的视频时刻定位基准数据集Charades-STA [8]和DiDeMo[9]上进行实验,以评估我们提出的框架的性能。0Charades-STA.文本到视频时刻检索的Charades-STA数据集在[8]中被介绍。该数据集包含16,128个句子-时刻对,其中训练集有12,408个,测试集有3,720个。Charades数据集最初在[29]中被介绍,其中包含115970表1. 该表展示了在Charades-STA数据集上的结果,使用[8]中的评估协议。根据[40,8]的方法,我们也使用C3D特征进行公平比较。所提出的弱监督方法的性能明显优于基于视觉语义嵌入的基线方法:VSA-RNN和VSA-STV。所提出的方法在性能上也与最先进的方法CTRL[8]和EFRC[40]相当,并且在几个评估指标上取得了性能提升。0方法 IoU=0.3 IoU=0.5 IoU=0.70R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@100随机 - - - 8.51 37.12 - 3.03 14.06 - VSA-RNN - - - 10.50 48.43 - 4.32 20.21 - VSA-STV - - - 16.9153.89 - 5.81 23.58 - CTRL - - - 23.63 58.92 - 8.89 29.52 - EFRC 53.00 94.60 98.50 33.80 77.3091.60 15.00 43.90 60.900提出的方法 32.14 86.58 99.33 19.94 65.52 89.36 8.84 33.51 53.450时间活动注释和视频级段落描述。[8]的作者增强了用于评估文本查询下视频时刻定位的数据集[29]。原始数据集中的视频级描述被分解为短句。然后,根据活动类别的匹配关键词,将这些句子分配给视频中的段。最后,对注释进行手动验证。DiDeMo. Distinct DescribableMoments(DiDeMo)数据集[9]是用于给定自然语言描述的视频事件的时间定位的最大和最多样化的数据集之一。视频从Flickr收集,每个视频最多修剪为30秒。数据集中的视频被分为5秒的段,以减少注释的复杂性。数据集被分为包含8,395个、1,065个和1,004个视频的训练、验证和测试集。数据集总共包含26,892个时刻,一个时刻可能与多个注释者的描述相关联。DiDeMo数据集中的描述详细且包含摄像机运动、时间转换指示器和活动。此外,DiDeMo中的描述经过验证,以便每个描述都指向一个单独的时刻。评估指标。我们使用文献中的先前工作[9,8]的评估标准。具体来说,我们遵循[9]评估DiDeMo数据集和[8]评估Charades-STA数据集。我们计算基于排名的性能R@K(在前K个检索结果中找到正确结果的测试样本的百分比)。我们报告R@1、R@5和R@10的结果。我们还计算Charades-STA数据集的时间交并比(tIoU)和DiDeMo数据集的平均交并比(mIoU)。04.2. 实现细节0我们使用两个Telsa K80GPU,并使用PyTorch[27]实现了网络。我们从学习率0.001开始训练,并在15个时期内保持学习率不变。学习率在每15个时期降低10倍。我们尝试了不同的marginα值进行训练。0实验中发现0.1≤∆≤0.2的效果较好。我们在实验中将∆选择为0.1用于Charades-STA数据集和0.2用于DiDeMo数据集。所有实验中我们使用批量大小为128。训练联合嵌入网络[14]时使用ADAM优化器。模型在每个时期后在视频-文本检索任务的验证集上进行评估。为了解决过拟合问题,我们选择基于召回率之和最高的最佳模型。04.3. 定量结果0我们在Charades-STA数据集[8]的表1和DiDeMo数据集[9]的表2中报告了实验结果。04.3.1 Charades-STA数据集0Charades-STA数据集[8]的定量结果如表1所示。Charades-STA数据集[8]中的评估设置考虑了一组IoU(交并比)阈值。我们在表1中报告了IoU为0.3、0.5和0.7的结果。对于这些IoU阈值,我们在表1中报告了召回率R@1、R@5和R@10。根据[8],我们使用滑动窗口大小为128和256来获取可能的时间段。这些时间段根据相应的文本引导注意力分数进行排序。比较方法。我们将我们的方法与最先进的文本到视频时刻检索方法CTRL[8]、EFRC[40]以及基线方法VSA-RNN[12]和VSA-STV[16]进行比较。对于这些方法,我们在可用时直接引用各自论文中的性能[8,40]。我们从[8]中报告了VSA-RNN和VSA-STV的得分。如果报告了多个模型的得分,我们选择R@1中表现最好的方法的得分。这里,VSA-RNN(带有LSTM的视觉-语义嵌入)和VSA-STV(带有Skip-thought向量的视觉-语义嵌入)是基于文本的图像/视频检索基线。我们还报告了“随机”选择候选时刻的结果。与这些方法类似,我们还使用C3D模型获取视频的特征表示,以进行公平比较。我们遵循[8,40]中使用的评估标准。2.2LSTM-RGB-Local [9]13.1044.8225.13EFRC [40]13.2346.9827.572.3CCA18.1152.1137.82Txt-Obj-Retrieval [11]16.2043.9427.18MCN [9]27.5779.6941.70TGN [3]28.2379.2642.97115980结果分析。我们观察到,我们的方法在所有评估指标上始终与全监督方法表现相当。我们的基于弱监督的TGA方法的性能明显优于基于监督视觉语义嵌入的方法VSA-RNN和VSA-STV。我们观察到,与VSA-RNN相比,我们的方法在R@5上的绝对改进最小为13.3%,在R@1上的绝对改进最小为4.5%。相对于VSA-STV,R@1上的相对性能改进最小为17.9%,R@5上的相对性能改进最小为21.5%。我们还观察到,与最先进的方法CTRL[8]相比,我们的方法在R@5评估指标上的性能更好,相对改进最大为13.5%,当IoU=0.7时。与EFRC方法[40]相比,我们的方法也表现出了合理的性能。04.3.2 DiDeMo数据集0表2总结了DiDeMo数据集[9]上的结果。DiDeMo只有粗略的时刻注释。由于视频被剪辑为30秒,并且将视频分为5秒的片段,每个视频有21个可能的时刻。我们遵循[9]中的评估设置,该设置用于评估从句子描述中提取的21个可能的时刻。对应片段的文本引导注意力分数的平均值被用作时刻的置信度分数,并用于排序。按照之前的工作[9,40],根据R@1、R@5和平均交并比(mIoU)标准评估数据集的性能。比较方法。在表2中,我们报告了几个基线的结果,以分析我们提出的方法的性能。我们将表格分为3行(2.1-2.3)。在第2.1行,我们报告了平凡基线(即随机和上限)的结果,按照[9]中报告的评估协议进行评估。在第2.2行,我们将LSTM-RGB-Local [9]、EFRC[40]和我们提出的方法的结果分组进行公平比较,因为这些方法仅使用了VGG-16的RGB特征进行训练。我们报告了在验证集和测试集上的性能,因为LSTM-RGB-local模型已在验证集上进行了评估[9]。在第2.3行,我们报告了MCN[9]和TGN[3]等最先进方法的结果。我们还在第2.3行报告了CCA[17]和基于自然语言对象检索的基线Txt-Obj-Retrieval[11]的结果。这些方法除了VGG16的RGB特征外,还使用了光流特征。我们从各自的论文中报告了MCN [9]、TGN[3]和EFRC[40]的性能。LSTM-RGB-Local、Txt-Obj-Retrieval、Random和Upper-Bound的结果来自[9]。结果分析。与Charades-STA上的结果类似,从表2可以看出,我们提出的弱监督方法始终表现出可比较的性能。0表2.该表报告了在DiDeMo数据集上的结果,遵循[9]中的评估协议。我们提出的方法与几种竞争的全监督方法表现相当。0# 方法 R@1 R@5 mIoU02.1 上限 74.75 100 96.050随机 3.75 22.5 22.640提出的方法(验证集)11.18 35.62 24.470提出的方法(测试集)12.19 39.74 24.920与几种全监督方法相比,我们的方法表现相似。从第2.2行可以看出,我们的方法与LSTM-RGB-Local [9]和EFRC[40]的性能相似。我们观察到,与监督方法相比,我们的方法的R@5准确率稍低。然而,R@1准确率和mIoU几乎相似。比较第2.3行,我们观察到性能与CCA和Txt-Obj-Retrieval基线相当。与MCN [9]和TGN[3]相比,性能较低。这两种方法都在其框架中使用了额外的光流特征。MCN还使用了一个时刻上下文特征。因此,性能下降是可以预料的。然而,我们已经从第2.2行观察到,我们的弱监督方法的性能与使用相同RGB特征训练的LSTM-RGB-Local的MCN基线模型相当。04.4. 定性结果0我们在图4中提供了Charades-STA数据集[8]中提出的方法预测的时刻的六个定性示例。在图4中,案例1、2和4展示了我们的方法在检索具有高IoU的地面真实时刻方面取得成功的一些示例。案例1和2是同一视频根据两个不同的文本描述检索不同时刻的示例。我们看到我们的文本感知注意模块在这两种情况下都成功地找到了视频的正确片段。虽然我们的方法在很多情况下能够从句子描述中检索到正确的时刻,但在某些情况下却未能检索到正确的时刻(例如,案例3、5和6)。在这三种情况中,案例3提出了一个模棱两可的查询,其中人站在门口但没有进入房间。GT时刻覆盖了一个较小的片段,而我们的系统预测了一个较长的片段。我们观察到,当重要的视觉内容仅占据帧的一小部分时,例如案例5和6,我们的系统的性能会受到影响。在案例6中,查询中提到了一个三明治,它最初只占据帧的一小部分,而我们的框架(1)(3)(4)(5)(6)(2)115990查询:一个人跑下几级楼梯。06.5 s GT 0 s05.3 s 预测00 s0查询:人似乎在毯子里笑。010.9 s GT 0 s010.7 s 预测 5.3 s0查询:一个人站在房间里拿着一个三明治。014.0 s GT 0 s016.0 s 预测 10.7 s0查询:一个人走过门口进入房间。06.3 s GT 0 s010.7 s 预测 0 s 查询:这个人把盒子放在床上。018.6 s GT 10.8 s016.0 s 预测 10.7 s0查询:一个人坐在地板上的枕头上。05.3 s GT 11.7 s05.3 s 预测010.7 s0图4.Charades-STA数据集中六个查询和测试视频的快照,包括成功和失败的案例。GT是地面真实时刻注释,Prediction是提出的弱监督方法预测的时刻。查询1、2和4显示了我们的方法在检索具有非常高的时间交集联合(IoU)的地面真实时刻方面取得成功的案例。然而,查询3、5和6显示了我们的方法在检索具有高IoU的地面真实时刻方面未能成功的三个案例。0将时刻的开始时间推迟到比地面真实时刻更晚的时间点。同样,在案例5中,我们的系统只有在场景被放大后才成功地识别出一个人在毯子里笑。我们认为这些很难在没有额外的空间注意力建模或生成区域提议的情况下捕捉到。此外,利用视频中的更多线索(例如音频和上下文)可能有助于减少这些情况中的歧义。我们将这些作为未来的工作。05. 结论0在本文中,我们介绍了弱监督文本到视频时刻检索的新问题。在弱监督范式中,由于我们无法访问时间边界的监督信息,我们利用注意机制从视频级别的句子中学习时刻边界。我们的方法相对于现有方法更加现实。此外,任务的弱监督性质使其能够从易于获取的网络数据中学习,与手动注释相比,获取这些数据所需的工作量更少。实验证明,尽管我们的方法是弱监督的,但其性能与文献中的几种完全监督的方法相当。0通过使用注意机制,我们利用仅基于视频级别的句子学习与句子描述相关的时间边界。与现有文献中需要作为时间边界或句子的时间顺序的监督的方法相比,我们对任务的定义使其更加现实。此外,任务的弱监督性质使其能够从易于获取的网络数据中学习,与手动注释相比,获取这些数据所需的工作量更少。实验证明,尽管我们的方法是弱监督的,但其性能与文献中的几种完全监督的方法相当。0致谢。本工作得到NSF资助的1544969号和ONR合同N00014-15-C5113的部分支持,通过MayachitraInc.的分包合同。116000参考文献0[1] Piotr Bojanowski, R´emi Lajugie, Edouard Grave, Fran- cisBach, Ivan Laptev, Jean Ponce和Cordelia Schmid.使用弱监督方法将视频与文本对齐。在ICCV,2015年。[2]Yu-Wei Chao, Sudheendra Vijayanarasimhan, Bryan Sey- bold,David A Ross, Jia Deng和Rahul Sukthankar.重新思考用于时态动作定位的FasterR-CNN架构。在CVPR,页码1130-1139,2018年。[3] JingyuanChen, Xinpeng Chen, Lin Ma, Zequn Jie和Tat- Seng Chua.在视频中进行自然句子的时间定位。在EMNLP,页码162-171,2018年。[4] Junyoung Chung, Caglar Gulcehre, KyungHyunCho和Yoshua Bengio.对门循环神经网络在序列建模中的实证评估。arXiv预印本arXiv:1412.3555,2014年。[5] Jianfeng Dong, Xirong Li和Cees GMSnoek.Word2visualvec:通过视觉特征预测进行图像和视频到句子的匹配。arXiv预印本arXiv:1604.06838,2016年。[6] Fartash Faghri,David J Fleet, Jamie Ryan Kiros和Sanja Fidler.Vse++:改进的视觉-语义嵌入。在BMVC,2018年。[7] AndreaFrome, Greg S Corrado, Jon Shlens, Samy Bengio, Jeff Dean,TomasMikolov等。Devise:一种深度视觉-语义嵌入模型。在NIPS,页码2121-2129,2013年。[8] Jiyang Gao, Chen Sun, ZhenhengYang和Ram Nevatia.Tall:通过语言查询进行时间活动定位。在ICCV,页码5277-5285,2017年。[9] Lisa Anne Hendricks, Oliver Wang, EliShechtman, Josef Sivic, Trevor Darrell和Bryan Russell.使用自然语言定位视频中的时刻。在ICCV,页码5803-5812,2017年。[10] Christian Andreas Henning和Ralph Ewerth.估计文本和视觉表示之间的信息差距。在ACMICMR,页码14-22,2017年。[11] Ronghang Hu, Huazhe Xu,Marcus Rohrbach, Jiashi Feng, Kate Saenko和Trevor Darrell.自然语言对象检索。在CVPR,页码4555-4564,2016年。[12]Andrej Karpathy和Li Fei-Fei.用于生成图像描述的深度视觉-语义对齐。在CVPR,页码3128-3137,2015年。[13] Andrej Karpathy, Armand Joulin和Fei Fei F Li.用于双向图像句子映射的深度片段嵌入。在NIPS,页码1889-1897,2014年。[14] Diederik Kingma和Jimmy Ba.Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980,2014年。[15] Ryan Kiros, Ruslan Salakhutdinov和Richard S Zemel.用多模态神经语言模型统一视觉-语义嵌入。arXiv预印本arXiv:1411.2539,2014年。[16] Ryan Kiros, Yukun Zhu, Ruslan RSalakhutdinov, Richard Zemel, Raquel Urtasun, AntonioTorralba和Sanja Fidler.Skip-thought向量。在NIPS,页码3294-3302,2015年。0[17] Benjamin Klein, Guy Lev, Gil Sadeh, and Lior Wolf.将神经词嵌入与深度图像表示关联起来,使用Fisher向量。在CVPR,页码4437-4446,2015年。[18] Alex Krizhevsky, IlyaSutskever和Geoffrey E Hinton.使用深度卷积神经网络进行ImageNet分类。在NIPS,页码1097-1105,2012年。[19] Meng Liu, Xiang Wang, Liqiang Nie, QiTian, Baoquan Chen和Tat-Seng Chua.视频中的跨模态时刻定位。在ACM Multimedia,2018年。[20]Shugao Ma, Leonid Sigal和Stan Sclaroff.在LSTMs中学习活动进展,用于活动检测和早期检测。在CVPR,页码1942-1950,2016年。[21] Niluthpol Chowdhury Mithun,Juncheng Li, Florian Metze和Amit K Roy-Chowdhury.学习多模态线索的联合嵌入,用于跨模态视频文本检索。在ACMICMR,2018年。[22] N
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功