快速视频时刻检索中的跨模态公共空间学习方法

192 浏览量更新于2023-10-15 收藏 12.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

202530354045500 5 10 20 25 50 200 350 500 750 2100TACos: R1@0.3ANetCap: R1@0.5��15230快速视频时刻检索0高俊宇1,2，徐长生1,2,301 中国科学院自动化研究所模式识别国家重点实验室（NLPR） 2中国科学院大学人工智能学院（UCAS） 3 深圳市鹏城实验室0{junyu.gao, csxu}@nlpr.ia.ac.cn0摘要0本文针对快速视频时刻检索（fastVMR），旨在根据给定的自然语言句子高效准确地定位目标时刻。我们认为，大多数现有的VMR方法可以分为三个模块，即视频编码器、文本编码器和跨模态交互模块，其中最后一个模块是测试时的计算瓶颈。为了解决这个问题，我们用跨模态公共空间取代了跨模态交互模块，在这个空间中学习了时刻-查询对齐，并可以进行高效的时刻搜索。为了在学习空间中保持鲁棒性，我们提出了一个细粒度的语义蒸馏框架，从额外的语义结构中传递知识。具体来说，我们构建了一个语义角色树，将查询句子分解为不同的短语（子树）。设计了一个层次化的语义引导注意力模块，用于在整个树中进行信息传递并产生有区分度的特征。最后，通过匹配分数蒸馏过程，将重要和有区分度的语义转移到公共空间中。在三个流行的VMR基准测试上进行了大量实验，结果表明我们提出的方法具有高速和显著的性能。01. 引言0视频时刻检索（VMR）旨在根据自然语言句子从未剪辑的视频中定位一个时间段。它在视频理解中起着关键作用，并具有各种下游应用，如机器人导航、自动驾驶、视频娱乐等。尽管近年来取得了巨大成功，但由于复杂的视频场景、细粒度的语义查询结构和视觉和文本特征之间的巨大跨模态差距等多种因素，有效的VMR仍然具有挑战性。0图1. TACos和ActivityNetCaptions（ANetCap）上最先进的VMR方法的测试时间和准确性图。我们分别报告了两个数据集的R1@0.3和R1@0.5指标。我们提出的FVMR在所有竞争对手中实现了最佳的准确性和速度平衡。最佳观看效果为彩色。0为了解决上述挑战，当前最先进的VMR流程可以分为三个模块，即视频编码器、文本编码器和跨模态交互模块。前两个编码器分别利用卷积神经网络（例如C3D [49]或I3D[4]）和循环神经网络（例如BiLSTM [27]或GRU[12]）提取视觉和文本特征。然后，为了预测目标时刻，跨模态交互模块被设计为同时考虑两种模态，使用不同的架构，如交叉注意力[36, 35, 7, 64]，图神经网络[63, 67,42]和时间相邻网络[65]。0尽管取得了上述成就，我们强调，快速视频时刻检索（fastVMR）实际上经常是必要的，因为定位目标时刻通常只作为时间关键的视频检索系统的一部分。例如，在视频语料库中定位时刻[46,30]，通常需要我们对数百到数千个候选视频进行高效的VMR，以满足给定的自然语言查询。此外，嵌入式设备上的快速视频时刻检索还可以实现许多其他应用，例如智能机器人服务和智能家居。然而，如图1所示，高速和有效的VMR算法仍然很少。15240以2D-TAN[65]为例，对单个视频进行VMR时大约需要100毫秒的时间。0我们认为，在VMR流程中的三个模块中，跨模态交互是测试时间的计算瓶颈。原因有三：（1）在模型测试之前，方便地以离线方式预提取和存储视频特征。因此，视频编码器不会影响测试时间。（2）文本编码器非常高效（每个句子约3毫秒），对于所有VMR方法都是不可替代的。因此，针对低成本的文本编码器是不可取的。（3）由于复杂的特征融合操作[54, 61, 34, 62, 63, 40, 42, 8]和后续的特征转换[65,50,23]，跨模态交互占据了大部分测试时间。以上观察结果激发了我们设计一个高效且有效的跨模态交互模块的动机。理想情况下，该模块可以简化为一个跨模态共享空间，其中学习时刻查询对齐。在这样的空间中，对于给定的查询，通过使用类似点积的高效向量操作，可以几乎免费地获得每个时刻提议与查询句子特征之间的匹配分数。一些早期的工作[1,26]已经探索了VMR的共享空间学习。然而，它们的性能远低于当前的最新技术水平。事实上，如果没有一个精心设计的跨模态交互，很难有效地将文本查询与视频关联起来。因此，共享空间学习策略已经成为VMR中的一个次要选择，这激励我们解决以下问题：如何学习一个既能够为快速VMR提供高效的时刻/查询特征，又能够通过利用细粒度语义结构提高区分能力？0为了实现这一目标，我们提出了一种细粒度语义蒸馏框架，用于快速视频时刻检索，通过从额外的语义结构中转移知识，学习一个高效和有效的时刻查询共享空间。具体而言，我们提出的方法包括四个模块，即视频编码器、文本编码器、细粒度语义提取器和共享空间。除了文本编码器（在我们的方法中是一个Bi-LSTM），我们引入了一个细粒度语义提取器来促进共享空间的学习。该提取器通过构建语义角色树将查询句子分解为细粒度语义结构（短语），其中每个短语被表示为一个子树。然后，设计了一个分层语义引导的注意力模块，用于在整个树上传播语义信息，并为每个短语生成有区分度的特征。需要注意的是，学习到的细粒度短语特征在学习共享空间时作为补充线索，提供了增强的监督信号。在模型训练过程中，视频和文本编码器需要从细粒度的语义提取器中学习。0通过匹配分数蒸馏来改进细粒度语义提取器。因此，细粒度语义信息被注入到共享空间中，以实现稳健的时刻查询对齐。在测试过程中，我们只利用文本和视频编码器进行VMR，这不会增加计算开销。如图1所示，我们提出的方法在速度和准确性方面实现了最佳的平衡。本文的主要贡献有三个：•我们引入了快速视频时刻检索（FVMR），旨在高效准确地检索目标时刻。为此，设计了一种简单而有效的共享空间学习范式，既加快了VMR的速度，又提高了性能。•我们为FVMR设计了一种新颖的细粒度语义蒸馏框架。其中，设计了一个分层语义引导的注意力模块，通过优化匹配分数蒸馏损失来利用细粒度语义结构。•在三个流行的VMR基准测试上进行了大量实验，结果表明我们提出的方法具有高速和显著的性能。与最近的最新技术水平2D-TAN[65]相比，我们提出的模型速度提高了40倍，并在TACos数据集[44]上获得了5.5%的绝对增益。02. 相关工作0视频片段检索是在未修剪的视频中定位与给定自然语言查询语义对齐的正确时刻[14, 1, 59,15]。它在视频理解领域中起着关键作用[13, 20, 19, 52, 17,18, 21,16]。研究人员提出了各种一阶或二阶VMR方法。一阶方法[23, 61, 37, 40, 62, 45, 55,24]旨在构建一个无提议的框架，并通过使用融合的视频和文本特征直接回归目标时刻的时间位置。提取式剪辑定位（ExCL）方法[23]直接使用递归网络通过利用文本和视频之间的跨模态交互来预测开始和结束时间。Mun等人设计了一种局部-全局视频文本交互算法（L-GI）[40]，该算法使用顺序查询注意模块，并从局部到全局利用隐含的语义信息。尽管一阶方法在性能上高效，但大部分只能回归一个时间段，对于实际的检索任务来说并不足够合适。与一阶公式不同，当前主导的方法属于二阶范式，首先从输入视频生成时刻提议，然后对每个提议进行跨模态融合以获得匹配分数。最近的进展表明，二阶策略不仅可以生成多样的时刻提议，还可以取得显著的成果。15250检索性能。高等人提出了跨模态时间回归定位器（CTRL）[14]，通过使用滑动窗口生成提议。为了提高提议的质量，2D-TAN[65]利用二维地图来建模视频片段之间的时间关系，以改善跨模态交互，袁等人提出了语义条件动态调制（SCDM）[60]算法，该算法通过将时间卷积的视觉特征与句子语义调制起来，以关联与句子相关的视频内容。还采用了其他策略来提高视频片段检索的性能，例如图神经网络[34,63]，强化学习[2, 53, 25]，弱监督学习[39,31]，边界感知预测[51]，句子重构[32]和树LSTM[66]。到目前为止，尚未探索具有高性能的快速视频片段检索。尽管早期的共享空间学习算法[1,26]和跳跃扫描基础方法[24]可以节省检索过程中的计算成本，但它们无法从明确的细粒度语义信息中获益，并且性能远低于当前的最新技术水平。在本文中，我们提出了一种简单而有效的方法来实现快速视频片段检索，不仅加快了VMR的速度，还提高了性能。许多现有的VMR方法只以全局方式编码查询的语义信息[57, 25, 22, 14, 65, 53,6]，这不能充分利用句子的内在和细粒度结构。尽管一些方法[22, 28, 10, 40, 43, 33,56]利用了句子的语义结构，但其中大部分只考虑了部分（例如活动或对象）[22, 28, 10]或隐式方式[40,43]。CMIN方法[67]通过构建句法依赖图来利用自然语言查询的句法结构。陈等人[11]提出将句子分解为语义图，并在全局层面、动作层面和实体层面集成视频文本匹配。然而，他们[67, 11,56]忽略了明确建模短语级结构。此外，[11]的工作是为视频文本检索而设计的，不适用于VMR。为了改善跨模态交互，[33]采用模块化网络来建模视频中活动的组合自然语言描述。然而，复杂的交互效果不高。本文针对快速视频片段检索，提出了一种明确利用全局和短语级结构的细粒度语义蒸馏框架。03.快速视频时刻检索0给定一个自然语言查询，本文旨在高效准确地从未修剪的视频中定位目标时刻。为此，我们提出了一个细粒度语义蒸馏框架，该框架通过从其他语义结构中转移知识来学习一个时刻-查询公共空间。如图2所示，我们提出的方法由四个模块组成，即视频编码器、文本编码器、细粒度语义提取器和时刻-查询公共空间。接下来，我们首先介绍视频编码器和文本编码器，然后介绍细粒度语义提取器，该提取器利用互补线索为VMR任务提供增强的监督信号。在细粒度语义提取器中，我们构建了一个语义角色树，将查询句子分解为不同的短语（子树）。设计了一个层次化的语义引导注意力模块，用于在整个树中传播语义信息，并为每个短语生成有区分度的特征。最后，我们设计了一个时刻-查询公共空间，要求视频和文本编码器通过匹配分数蒸馏从细粒度语义提取器中学习。在测试过程中，该公共空间用于快速视频时刻检索。0通过从其他语义结构中转移知识，将查询句子映射到公共空间。如图2所示，我们提出的方法由四个模块组成，即视频编码器、文本编码器、细粒度语义提取器和时刻-查询公共空间。接下来，我们首先介绍视频编码器和文本编码器，然后介绍细粒度语义提取器，该提取器利用互补线索为VMR任务提供增强的监督信号。在细粒度语义提取器中，我们构建了一个语义角色树，将查询句子分解为不同的短语（子树）。设计了一个层次化的语义引导注意力模块，用于在整个树中传播语义信息，并为每个短语生成有区分度的特征。最后，我们设计了一个时刻-查询公共空间，要求视频和文本编码器通过匹配分数蒸馏从细粒度语义提取器中学习。在测试过程中，该公共空间用于快速视频时刻检索。03.1.视频和文本编码器0视频编码器。对于给定的未修剪视频V，我们首先生成一组时刻提议P ={pi}Ni=1，其中pi表示一个提议，N表示提议的数量。然后，视频编码器用于提取每个时刻提议的视觉特征，如下所示：0M = {m1, ..., mi, ..., mN} = Encoder � {pi} Ni=1 � (1)0其中mi是提议pi的视觉特征，mi∈RDv，Dv是视觉特征的维度。在我们的框架中，视频编码器可以是任何类型的神经网络，如C3D [49]或I3D [4]。文本编码器。对于查询句子S= {s1, ...,sL}，其中L是单词的数量，我们简单地使用双向LSTM（Bi-LSTM）[27]来获取一系列单词特征{w1, ..., wL}，如下所示：0w1, w2, ..., wL = BiLSTM(S), (2)0其中wl =−→wl∥←−wl是第l个单词的前向和后向隐藏状态的连接。我们将开始和结束特征的相加作为句子特征，s = w1 +wL，其中s∈RDs。03.2.细粒度语义提取器0许多现有的VMR方法[57, 25, 22, 14, 65,053,6]只采用提取的全局句子特征来进行时间定位，但忽略了句子的内在和细粒度结构。显然，如图2所示，一个查询句子（例如“男人离开了拳击场，摔跤手走近另一个摔跤手并将他打倒在地上”）对应于一个特定的视频时刻，具有多个语义结构，包括全局级别（整个句子）和短语级别（“男人离开了拳击场”）��miMsg(s)h1h2h3��miMsg(s)h1h2h3α(j)k= Wα�tanh(Wtopˆg(i)∥Wlowg(j)k )�,ˆg(i) =a(i)l g(i)l ,(3)hi = bi,1g(v)i+bi,jg(n)zi,j, i ∈ [1, ..., Nv],bi = softmax([αi, α(n)zi,1, ..., α(n)zi,Ni ]),(4)15260未知0查询：未知未知未知未知未知0未知0未知0未知未知未知未知0未知0未知未知0未知0未知未知未知未知0未知0未知未知0未知0未知 q0未知0未知 p0未知0未知0未知0图2.提出的框架概述。提出的快速视频时刻检索（FVMR）方法包括四个组件，包括视频编码器，文本编码器，细粒度语义提取器和时刻查询公共空间。两个编码器提取时刻建议和输入查询的视觉和文本特征，然后将它们投影到公共空间中计算匹配分数 p。细粒度语义提取器将查询句子分解为语义角色树，其中每个短语都表示为子树。然后，设计了一个分层语义引导注意模块和一个细粒度语义融合模块，以产生另一个匹配分数 q。在模型训练期间，视频和文本编码器需要通过匹配分数蒸馏从细粒度语义提取器中学习。在测试期间，只使用 p 进行快速视频时刻检索。0“摔跤手接近另一个摔跤手”和“将他摔倒在地上”。多个语义结构涉及复杂的交互，实际上被组织成一个语义树，表明查询句子可以通过正确对齐不同的语义层与相应的视频部分来有效地与视频关联起来。因此，我们按照[56]的方法构建了一个语义角色树，通过使用语义角色标注工具包[47]充分利用这些细节。语义角色标注（SRL）源自关系抽取，旨在获取谓词和论元，并确定这些论元与谓词的语义关系。这些语义关系在理解句子中起着重要作用。0对于查询句子，如图2所示，SRL将其解析为具有语义角色的谓词和论元，其中谓词通常是动词（例如动作），论元通常是名词（例如对象和实体）。然后，我们将这些动词和名词设置为我们的语义角色树中的节点，其中整个句子被视为根节点。所有动词节点与根节点相连，名词节点被设置为叶节点。如果一个名词在语义上与一个动词相关联，我们连接这两个节点。与[11]类似，我们利用GRU[12]来获得初始节点嵌入 g ( s ) ，g ( v ) 和 g ( n )，分别表示全局嵌入、谓词（动词）嵌入和论元（名词）嵌入。注意，g ( v ) = { g ( v ) 1 , ..., g ( v ) N ( v ) } 和0g ( n ) = { g ( n ) 1 , ..., g ( n ) N ( n ) } , N ( v ) 和 N (0动词和名词节点的数量，g ( s ) ，g ( v ) i ，g ( n ) i ∈ RD f 。短语的数量与动词的数量相同。0由于查询句子由具有细粒度语义结构的多个短语组成，我们的目标是明确学习用于促进精确视频时刻检索的有区分性的短语特征。请注意，查询被组织为一棵树形结构，其中顶层为下层提供指导信息。因此，我们设计了一个层次化的语义引导注意力模块，以端到端的方式利用内在结构。具体而言，我们采用来自顶层的特征来估计下层节点的重要性分数：0N (i )0其中 ( i, j ) ∈ { ( s, v ) , ( v, n ) }，表示三级语义树中的两种连续层次结构。W α ∈ R 1 × 2D f ，W top ∈ R D f × D f ，W low ∈ R D f × D f是层次化语义引导注意力模块中的可学习嵌入矩阵。tanh ( ∙) 是双曲正切激活函数。a ( i ) = softmax ( α ( i ) )。通过学习得到的重要性分数 α ( j ) k，可以以注意力方式自适应地计算每个短语的特征：0N i+10其中 N i 是与该动词节点连接的名词节点的数量。u = g(s) ⊙1N (v)hi,(5)pi = φm(mi)⊤φs(s),(6)qi = φfuse (φm(mi) ⊙ φu(u)) ,(7)where φfuse is an MLP. It learns the matching score qiby using the fused moment and ﬁne-grained semantic fea-tures. Note that we simply use the dot product to calculatepi for fast moment retrieval, while we additionally adoptφfuse to further consider the interaction between momen-t and ﬁne-grained semantic features. Since qi exploits theﬁne-grained interaction, it is served as the teacher for thefollowing ﬁne-grained semantic distillation.Video Moment Retrieval Loss. Because different momentproposals have different lengths, we compute the IoU scoreoi for each proposal with the ground truth moment. Similarto [65], two thresholds omin and omax are set to calculateLce(p, y) = − 1Nyi log pi+(1−yi) log(1−pi), (8)Ldis(p, q) = Lce(σ( pT ), σ( qT )),(9)L = Lce(p, y) + Lce(q, y) + λLdis(p, q),(10)15270其中 i 是语义角色树中的第i个动词节点，z i,j是名词节点的相应索引。最后，我们将所有短语特征与全局嵌入相结合：0N (v )0其中 ⊙ 是Hadamard乘积运算符，u ∈ R D u是学习得到的细粒度语义特征。通过使用公式（5），全局查询信息和局部短语信息都被利用起来，这对于后续的共享空间学习是有益的。03.3. 通过细粒度语义蒸馏学习时刻-查询共享空间0时刻-查询共享空间。我们的目标是学习一个时刻-查询共享空间，通过向量相似度计算可以高效有效地进行视频时刻检索。为此，我们采用两个特征转换模块 φ m 和 φ s，将时刻和查询特征投影到共享空间中。为了进行细粒度语义蒸馏，我们还通过使用另一个特征转换 φ u将细粒度语义特征投影到该空间中。在我们的框架中，为了简单起见，我们利用三个多层感知器（MLP）来实现 φ m， φ s ， φ u 。该空间中的所有特征都是 D维的。因此，可以计算出两种类型的匹配分数，如下所示：0对于第i个提议，我们计算o max − o i 。注意，如果 y i ≤0 ，我们将 y i = 0 ，如果 y m ≥ 1 ，我们将 y i = 1。通过使用软标签，我们通过两个二元交叉熵损失函数 L ce( p , y ) 和 L ce ( q , y )来训练视频时刻检索任务。以前者为例：0N0细粒度语义蒸馏。正如我们在第1节中讨论的那样，学到的细粒度信息作为补充提示，为VMR模型提供了增强的监督信号。因此，我们引入了一种细粒度语义蒸馏学习方法，以软化匹配分数的形式传递细粒度语义知识。其表达式如下所示：0其中，T是温度超参数，σ是softmax函数。softmax操作考虑了知识蒸馏的提议分数分布。由于q作为教师，它是固定的，并且在优化L dis时不通过它进行梯度反向传播。通过蒸馏，视频和文本编码器需要从细粒度语义提取器中学习，这可以很好地推广到测试阶段。在我们的框架中，视频编码器和视觉特征转换模块φ m为文本编码器和细粒度语义提取器共享。因此，优化蒸馏损失（Eq. ( 9 )）和L ce ( q , y )可以将有用的细粒度语义注入到视觉特征学习的过程中。基于上述设计，训练视频-句子对的整体目标被制定为：0其中，λ是平衡项。推断。在测试阶段，我们只采用p进行快速视频片段检索，因为计算q需要额外的时间进行细粒度语义提取和特征转换。在学习的公共空间中，可以预先计算和存储视觉片段特征φ m ( m i)在一个库数据库中，这对测试时间没有影响。因此，VMR的计算开销仅包括计算查询嵌入（文本编码器和φ s ( s)）和匹配分数（Eq. ( 6 )）。04. 实验结果 4.1. 实验设置 TACos [ 44]。它包含127个视频，其中包含不同的与厨房相关的活动。该数据集中视频和片段的平均长度分别为296秒和6秒，使得该数据集非常具有挑战性。标准的划分 [ 14 ] 包括10,146个、4,589个和4,083个片段-句子对用于训练、验证和测试。ANetCap[ 29]。ANetCap数据集是用于视频片段检索的最大数据集，包含约20,000个未修剪的动作视频。其中，训练集、验证集和测试集分别包含37,417个、17,505个和17,031个片段-句子对。根据 [ 65 , 62]，我们使用第一个验证集进行验证，使用第二个验证集进行测试。Charades-STA [ 14]。Charades-STA数据集用于动作识别和定位。Charades-STA数据集包含12,408个训练集中的片段-句子对和3,720个测试集中的片段-句子对。评估指标。根据之前的工作 [ 14 , 65]，我们采用R@n,IoU=m指标来评估性能，该指标定义为具有与真实片段的交并比（IoU）大于m的前n个预测片段的百分比。根据TACos数据集，n∈{ 1, 5 }，m∈{ 0.1, 0.3, 0.5 }；根据ANetCap数据集，n∈{ 1, 5 }，m∈{ 0.3, 0.5, 0.7}；根据Charades-STA数据集，n∈{ 1, 5 }，m∈{ 0.5, 0.7 }。实现细节。我们按照[ 65]生成片段提议，将其组织为2D特征图。为了公平比较，我们采用与之前工作[ 65]相同的视觉特征。具体来说，对于TACoS和ANetCap数据集，我们采用C3D特征[ 49]；对于Charades-STA数据集，我们使用VGG16特征[ 48 ]、C3D特征[ 49 ]和I3D特征[ 4]来评估对不同类型特征的泛化能力。然后，我们在视觉2D特征图上应用两个卷积层，对应的卷积核大小分别为5和3。在每个卷积层之后添加批归一化，并使用Tanh作为激活函数。对于文本编码器，我们将词嵌入大小设置为300，并使用预训练的Glove嵌入[ 41]进行初始化。然后，一个具有512个隐藏单元的双向LSTM用于查询编码。对于细粒度语义提取器，动词节点和名词节点的最大数量分别设置为4和6。我们保留所有的单词标记，并截断所有最多有20个单词的文本查询。三个MLP φ m 、 φ s 和 φu 的每个都有一个具有512个输出维度的隐藏层。 φ fuse 有一个卷积层和一个门控卷积层[ 58]，卷积核大小分别为3和9。特征维度 D v 、 D s 、 D f 和 D 都设置为512。E- q. ( 10 ) 中的 λ 设置为3。缩放阈值 omax 和 o min 设置为0.3和0.7。温度 T经验性地设置为1。我们采用热身策略，在前8个epoch中不优化蒸馏损失。我们的模型使用PyTorch1.2.0实现，优化器使用学习率为2 ×10^(-4)和批大小为32的Adam。训练模型直到训练损失平滑。比较方法。我们与最先进的方法进行比较：LGI (CVPR 2020)[ 40 ]，DRN (CVPR 2020) [ 62 ]，2D-TAN (AAAI 2020) [ 65 ]，CBP (AAAI 2020) [ 51 ]，VSLNet (ACL 2020) [ 64]，TMLGA (WACV 2020) [ 45 ]，SM-RL (CVPR 2019) [ 53 ]，ACL (WACV 2019) [ 22 ]，RWM-RL (AAAI 2019) [ 25]，QSPN (AAAI 2019) [ 57 ]，SAP (AAAI 2019) [ 9 ]，MAN (CVPR 2019) [ 63 ]，SCDM (NeurIPS 2019) [ 60 ]，CTRL(ICCV 2017) [ 14 ]。这里，L- GI、DRN、TMLGA、VSLNet 1 和 ExCL 是代表性的方法。15280该数据集包含12,408个训练集中的片段-句子对和3,720个测试集中的片段-句子对。评估指标。根据之前的工作[ 14 ,65]，我们采用R@n,IoU=m指标来评估性能，该指标定义为具有与真实片段的交并比（IoU）大于m的前n个预测片段的百分比。根据TACos数据集，n∈{ 1, 5 }，m∈{ 0.1, 0.3, 0.5}；根据ANetCap数据集，n∈{ 1, 5 }，m∈{ 0.3, 0.5, 0.7}；根据Charades-STA数据集，n∈{ 1, 5 }，m∈{ 0.5, 0.7}。实现细节。我们按照[ 65]生成片段提议，将其组织为2D特征图。为了公平比较，我们采用与之前工作[ 65]相同的视觉特征。具体来说，对于TACoS和ANetCap数据集，我们采用C3D特征[ 49]；对于Charades-STA数据集，我们使用VGG16特征[ 48]、C3D特征[ 49 ]和I3D特征[ 4]来评估对不同类型特征的泛化能力。然后，我们在视觉2D特征图上应用两个卷积层，对应的卷积核大小分别为5和3。在每个卷积层之后添加批归一化，并使用Tanh作为激活函数。对于文本编码器，我们将词嵌入大小设置为300，并使用预训练的Glove嵌入[ 41]进行初始化。然后，一个具有512个隐藏单元的双向LSTM用于查询编码。对于细粒度语义提取器，动词节点和名词节点的最大数量分别设置为4和6。我们保留所有的单词标记，并截断所有最多有20个单词的文本查询。三个MLP φ m 、φ s 和 φ u的每个都有一个具有512个输出维度的隐藏层。 φ fuse有一个卷积层和一个门控卷积层[ 58]，卷积核大小分别为3和9。特征维度 D v 、 D s 、 D f 和 D 都设置为512。E- q. ( 10 ) 中的 λ 设置为3。缩放阈值o max 和 o min 设置为0.3和0.7。温度 T经验性地设置为1。我们采用热身策略，在前8个epoch中不优化蒸馏损失。我们的模型使用PyTorch1.2.0实现，优化器使用学习率为2 ×10^(-4)和批大小为32的Adam。我们训练模型直到训练损失平滑。比较方法。我们与最先进的方法进行比较：LGI(CVPR 2020) [ 40 ]，DRN (CVPR 2020) [ 62 ]，2D-TAN(AAAI 2020) [ 65 ]，CBP (AAAI 2020) [ 51 ]，VSLNet(ACL 2020) [ 64 ]，TMLGA (WACV 2020) [ 45 ]，SM-RL(CVPR 2019) [ 53 ]，ACL (WACV 2019) [ 22 ]，RWM-RL(AAAI 2019) [ 25 ]，QSPN (AAAI 2019) [ 57 ]，SAP(AAAI 2019) [ 9 ]，MAN (CVPR 2019) [ 63 ]，SCDM(NeurIPS 2019) [ 60 ]，CTRL (ICCV 2017) [ 14]。这里，L- GI、DRN、TMLGA、VSLNet 1 和 ExCL是代表性的方法。01TMLGA和VSLNet在TACos和ANetCap数据集上采用更稳健的I3D特征[4]，而其他方法使用C3D特征[49]。0单阶段方法，而其他方法是两阶段模型。接下来，最佳性能以粗体突出显示，次佳性能以下划线突出显示。4.2.与最先进方法的比较整体速度-准确性分析。快速VMR任务旨在高效准确地定位目标时刻。在推断过程中，视频时刻检索的时间成本由两种类型的过程决定：用于查询嵌入生成的文本编码（TE）和用于时刻定位的跨模态学习（CML）。在我们提出的FVMR框架中，跨模态学习通过在学习的公共空间中进行向量相似度计算来简单实现。表12说明了与最先进方法的速度-准确性分析，表明我们的方法在高效性能方面取得了显著的性能。此外，我们有以下观察结果：（1）TE的时间成本对于所有VMR方法来说是相似的（约3毫秒）。因此，TE不是测试时间的计算瓶颈。（2）对于CML的时间成本，我们提出的FVMR方法比最先进的方法快35倍至20,000倍，表明学习跨模态公共空间比跨模态交互更加高效。（3）总体而言，提出的FVMR是一种高速和高质量的方法。与当前最先进的模型2D-TAN相比，我们提出的方法速度提高了40倍，并在TACos数据集[44]上获得了3.8％的绝对增益。对于ANetCap和Charades-STA数据集，我们也以极高的效率获得了优越或可比的性能。（4）单阶段方法VSLNet和LGI在计算成本相对较低（约5到10毫秒）的情况下也实现了良好的性能。然而，它们只能预测一个时间段，这在实际检索场景中受到限制。此外，我们提出的FVMR在速度和准确性指标上优于它们。TACos的结果。表2总结了不同方法在TACos的测试集上的性能。我们可以观察到，当IoU越高时，所有方法的性能都会下降。提出的FVMR明显优于所有其他方法。与最先进的方法2D-TAN相比，提出的FVMR的平均绝对增益为5.5％。值得注意的是，像VSLNet、DRN和TMLGA这样的单阶段方法在该数据集上获得了较差的性能。原因是TACos中的视频通常太长，这阻碍了这些方法的直接时间回归。ANetCap的结果。表3报告了ANetCap数据集上的VMR结果。我们提出的FVMR在大多数指标上优于DRN、SCDM和2D-TAN等最先进方法。在其他指标上，我们获得了可比的性能。具体而言，与2D-TAN相比，FVMR在R@1，IoU= {0.3, 0.5, 0.7}上的性能提高了。02 我们在相同的硬件环境中使用NVIDIA RTX 3090评估所有比较的方法。MethodsTACosANetCapCharades-STATECMLALLACCTECMLALLACCTECMLALLACCTMLGA1.1411.3712.5121.651.248.9710.2133.041.154.375.5252.02VSLNet3.585.028.5924.273.874.868.7443.223.904.278.1854.19LGI----1.537.038.5641.511.234.765.9959.46DRN4.6722.1326.8123.174.8618.4623.3245.454.5212.3916.9153.09CTRL4.32534.23538.5513.304.75398.25403.029.014.5312.2016.7323.63SCDM3.65780.0783.6521.173.27359.76363.0336.752.9723.7726.0754.44CBP3.172659.012662.1824.792.44522.65525.0935.762.87266.08268.9536.802D-TAN1.72135.84137.5625.321.6980.35403.144.511.5916.7818.3740.94FVMR3.510.143.6529.123.140.093.2345.002.860.012.8755.013IoU=0.5TMLGA-24.5421.65---VSLNet-29.6124.27---DRN--23.17--33.36CTRL24.3218.3213.3048.7336.6925.42QSPN25.3120.1515.2353.2136.7225.30ACL31.6424.1720.0131.6424.1720.01SCDM-26.1121.17-40.1632.18CBP-27.3124.79-43.6437.402D-TAN47.5937.2925.3270.3157.8145.04FVMR53.1241.4829.1278.1264.5350.005IoU=0.7TMLGA51.2833.0419.26---VSLNet63.1643.2226.16---LGI58.5241.5123.07---DRN-45.4524.36-77.9750.30CTRL-14.00----QSPN-27.7013.60-71.8545.96RWM-RL-36.90----SCDM54.8036.7519.8677.2964.9941.53CBP54.3035.7617.8077.6365.8946.202D-TAN59.4544.5126.5485.5377.1361.96FVMR60.6345.0026.8586.1177.4261.04U=0.7SAPVGG27.4213.3666.3738.15SM-RLVGG24.3611.1761.2532.08MANVGG41.2420.5483.2151.852D-TANVGG40.9422.8583.8450.35FVMRVGG42.3624.1483.9750.15CTRLC3D23.638.8958.9229.52ACLC3D30.4812.2064.8435.13RWM-RLC3D36.70---QSPNC3D35.6015.8079.4045.40CBPC3D36.8018.8770.9450.1

下载后可阅读完整内容，剩余1页未读，立即下载