寻找和聚焦：利用自然语言查询检索视频事件

87 浏览量更新于2023-10-13 收藏 1.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

寻找和聚焦：利用自然语言查询检索和定位视频事件邵典1【0000−0002−0862−9941】、于雄1【0000−0003−2582−3663】、赵岳1【0000−0003−2753−5921】、黄清秋1【0000−0002−6467−1634】、于乔2【0000−0002−1889−2567】、林大华1【0000−0002−8865−7896】1香港中文大学-商汤科技联合实验室{sd017，xy017，zy317，hq016，dhlin}@ ie.cuhk.edu.hk2深圳先进技术中国科学yu. siat.ac.cn抽象。视频共享服务的蓬勃发展给视频检索带来了新的挑战，如视频持续时间和内容多样性的快速增长。应对这样的挑战需要能够利用自然语言查询有效地检索视频的新技术。沿着这条线的现有方法，主要依赖于嵌入视频作为一个整体，由于有限的表达能力，对于现实世界的应用仍然远远不能令人满意在这项工作中，我们的目标是通过深入研究双方的内部结构，查询和视频来超越这一限制具体来说，我们提出了一个新的框架，称为查找和焦点（FIFO），它不仅执行顶级匹配（段落与视频），但也使部分级别的关联，本地化的视频剪辑的帮助下，在查询中的每个句子的聚焦指南。这些级别是互补的-顶级匹配缩小了搜索范围，而部件级本地化细化了结果。在ActivityNet Captions和修改后的LSMDC数据集上，所提出的框架实现了1显著的性能提升。1介绍近年来，视频内容的爆炸式增长给视频检索带来了前所未有的挑战。检索一个人真正想要的视频有时就像大海捞针。例如，在Youtube上输入短查询为了应对这些挑战，我们的目标是探索一种新的方式来检索视频，一个可以有效地从一个大的和不同的集合中找到相关的剪辑。视频检索在计算机视觉中并不新鲜。关于这个问题的研究可以追溯到20世纪90年代[26]。经典的基于内容的检索技术[42，2，27，5，34]主要依赖于将视觉特征与一组固定的概念相匹配。同等贡献，姓名按字母顺序排列。1项目页面：https://ycxioooong.github.io/projects/fifo2D. Shao和Y. Xiong et al.找到一号四号（地面实况视频）1重点2M定位地面实况本地化4号→1号1号→5号Fig. 1.我们的Find and Focus框架的概述。给定查询段落，系统首先在查找阶段检索多个候选视频，然后对每个候选视频应用剪辑定位，以识别查询语句和视频剪辑之间的关联。所得到的定位分数可以进一步细化初始检索结果。例如，地面实况视频被排名为No。4，并晋升为No。1、聚焦阶段后这种方法只能与一个封闭的设置，其中所有的视频属于预定义的类别列表。视频检索的问题在野外仍然广泛开放。近年来，一种替代方法，即检索视频与自然语言查询，出现了一个有前途的方式来打破闭集假设。沿着这条线的努力通常基于视觉语义嵌入[7，16，13，6，36，20，30，38]，其中每个图像或视频及其相应的描述被嵌入到公共空间中，并且它们的表示被对齐。值得注意的是，经典技术和视觉语义嵌入共享一个共同的范例，即，将每个视频作为一个整体编码成一个特征向量，并执行检索简单地通过特征匹配。这种模式有两个重要的局限性。首先，单个矢量表示缺乏表征具有丰富结构的视频的表达能力，其次，它缺乏时间定位的能力。注意，在数据集中的所有视频样本都是短剪辑的传统实验设置中，这些不是严重的问题。然而，它们在视频通常较长且未修剪的现实世界应用中成为重大挑战在这项工作中，我们的目标是超越这些限制，并开发一种有效的方法，可以检索复杂的事件，即那些丰富的时间结构，基于自然语言查询。我们观察到，人们经常用一个段落来描述一个复杂的事件，其中每个句子都可能涉及事件的某个这表明视频和相关描述之间的关联不仅存在于顶层，而且存在于部分之间，即句子和视频片段之间。带着这种直觉，我们探索一个新的想法，那就是………………………1：两个男人在一栋楼外谈话。第2集AWomanandAnotherManWalkAway两个男人继续他们的谈话。…男：男人们在打台球，射击把球投进角落的球袋然后轮流投…查找并聚焦3深入研究查询和视频的内部结构，试图识别和利用它们之间的连接。具体来说，我们提出了一个结构化的框架，连接视觉和语言领域。该框架包括两个级别的关联，顶级匹配查询段落与整个视频，以及部分级别，将单个句子与视频剪辑对齐。在这个公式的顶部，我们开发了一个两阶段的框架，称为查找和焦点（FIFO），如图1所示给定一个段落查询，它首先通过顶级匹配找到候选视频的子集。然后，对于每个候选人，它定位查询中的各个句子的剪辑。最后，部分级别的关联被用来细化检索结果的排名通过这种方式，该框架共同完成两项任务：检索视频和定位相关片段。请注意，在我们的框架中，这两个任务是相互受益的.一方面，顶级匹配缩小了搜索范围，从而降低了总体成本，特别是在处理大型数据库时。另一方面，部件级定位细化了结果，从而进一步提高了排名精度。为了方便剪辑本地化，我们开发了一个语义引导的方法来生成剪辑的建议，这使得框架专注于那些剪辑具有重要意义。我们的主要贡献总结如下：（1）我们建议一个结构-tured公式，捕捉视觉和语言领域之间的关联，在顶级和部分级别。（2）利用两级关联，我们开发了一个Find和Focus框架，共同完成视频检索和片段定位。特别地，本地化阶段由一种新的方法视觉语义相似性（VSS）支持，用于提出剪辑候选者，这有助于关注具有重要意义的片段（3）在两个公共数据集上，ActivityNet字幕[17]和大规模电影描述挑战（LSMDC）的修改版本[23]，所提出的框架获得了显着的改进。2相关工作视觉语义嵌入。VSE [7，16]是一种连接视觉和语言模态的通用方法。它已被用于各种任务，例如图像问答[22]，图像字幕[14，13]和图像-文本匹配[16，17]。31、36、6]等。这种方法后来扩展到视频[19，24，21]。Plummer等人 [21]提出通过学习用于联合视觉语言嵌入的空间来改进视频摘要。Zhu等人[44]采用联合嵌入方法将书籍与电影对齐。在这些作品中，每个视频都是作为一个整体嵌入的，其内部结构没有被明确利用。视频检索。最近的视频检索方法大致分为三类：基于概念的[2，27，5，34]，基于图的[18]和基于特征嵌入的方法早期的作品[27]通常采用基于概念的方法，该方法涉及从给定的视频中检测视觉概念的列表。最近，Yu等人 [41]提出通过端到端学习来改进这种范式。这种方法的一个基本限制是，它们需要一个预定义的4D. Shao和Y. Xiong et al.概念，这在现实世界的应用中难以提供足够的覆盖基于图形的方法也被广泛用于匹配图像与文本[12，11，37]。Lin等人 [18]探索了一种基于图的方法，该方法通过二分匹配来匹配此方法还需要预定义的对象和名词列表。许多作品更多地关注于学习视频和描述的联合嵌入空间[20，30，38]。然而，Otani等人 [20]将每个视频作为整体嵌入，因此难以处理包含多个事件的长视频。它也不能进行时间定位。此外，[20]和[38]都通过网络搜索利用外部资源，而我们的框架只利用训练集中的视频文本数据。还有一些作品[29，3，4]基于字符身份，判别聚类或对象发现来对齐文本和视频，而没有充分挖掘数据的语义含义。时间定位。时间定位，即寻找用于查询的视频片段通常在动作检测的上下文中被探索。早期的方法主要依赖于滑动窗口和手工制作的功能[8，10，28]。最近的作品[40，25，43]使用卷积网络改进了性能在这些方法中，行动是评估提案时要考虑的关键因素然而，在我们的设置中，查询语句可以描述静态场景。因此，我们必须从更广泛的意义上考虑每项建议的重要性视频字幕检索。我们注意到，最近的视频字幕工作[17，39]经常使用视频检索来评估生成的字幕的质量在他们的实验中，分别将单个句子和视频片段进行匹配视频剪辑之间的时间结构没有被明确地利用。因此，这些作品本质上不同于我们的两级结构化框架。3方法我们的主要目标是开发一个框架，可以检索视频与自然语言描述，并在同一时间本地化的相关部分。对于这项任务，关键是要对视频的时间结构进行建模，对于这一点，只有顶级嵌入可能是不够的。如上所述，我们的基本思想是深入研究内部结构，不仅在顶层，而且在部分级别（即句子和视频剪辑）建立文本查询和视频之间的连接。在本节中，我们将上述直觉形式化为第二节中的两级3.1奠定了概念基础。然后，我们继续描述我们如何识别句子和视频片段之间的部分级别的关联。3.2，我们称之为剪辑定位。节中3.3中，我们将各个部分放在一起形成一个新的框架，称为查找和焦点（FIFO），它共同完成检索和定位。3.1两级结构化配方我们的任务涉及两个领域：语言域中的查询段落和视觉域中的视频。段落和视频都由查找并聚焦5顶层视频（）段落（）11部分2级233红马甲的人吻了吻孩子。一个小男孩滑进另一个穿红背心的人的怀里一位妇女正在帮助一个小男孩从滑梯上滑剪辑句子图二.该图显示了我们的两级结构化配方。上半部分描述视频-段落对应关系，而下半部分表示各个片段和句子之间的每对剪辑和句子都用不同的颜色表示。内部结构。如图2中，段落P由句子序列（s1，. . .，sM）;而视频V由多个片段组成{Cl，. . . .，cN}，每个捕获一个事件。当段落P描述视频V时，其每个句子si可以指代V中的特定片段。我们把句子和片段之间的这种对应关系称为部分级关联。部分级关联传达关于视频与对应段落之间的关系的重要信息。正如我们将在实验中展示的那样，杠杆化这些信息可以显著提高检索的准确性。3.2成形夹定位通过剪辑定位来识别部件级关联。给定一个段落P和一个视频V，它首先导出P中的句子和V中的片段的特征。基于这些特征，以语义敏感的方式生成视频片段候选集合，然后通过鲁棒匹配方法解决句子和片段之间的对应关系整个剪辑定位过程如图所示。3.第三章。特征提取。给定视频，其可以由片段特定特征的序列表示为V =（f1，. . . ，f T），其中T是片段的数量。片段是用于视频分析的单元。对于每个片段（我们工作中的6帧），f j是用双流CNN提取的，按照TSN范式训练[35]。以类似的方式，我们可以将具有一系列句子特定特征的查询段落表示为P =（s 1，. . . ，s M），其中M是句子的数量。注意，视觉特征和句子特征是在两个不同维度的独立空间。为了直接测量它们的相似性，我们首先将它们嵌入到一个类似于~fj和~s i，其中y被指定。将在第2节中介绍集成的过程。三点三剪辑提案。在我们的两级公式中，每个句子对应于一个视频剪辑。剪辑通常涵盖一系列片段，而一个女人在帮6D. Shao和Y. Xiong et al.Ground-truth提案一位妇女正在帮助一个小男孩从滑梯上滑一个小男孩滑进另一个穿红背心的人的怀里。红马甲的人吻了吻孩子。图三.此图显示了剪辑定位过程。给定具有绿色条中的地面实况剪辑的视频，使用语义敏感方法生成多个蓝色的剪辑提议。每个句子可能与多个剪辑相关联，这些剪辑由细虚线表示。由粗线示出的最佳对应性通过鲁棒跨域匹配来获得用于不同句子的剪辑可以显著变化。因此，为了建立部件级关联，我们必须准备一个剪辑候选池。受[43]中的时间动作分组（TAG）方法的启发，我们开发了一种用于生成视频剪辑提案的语义敏感方法。其基本思想是找到那些连续的时间区域，即连续范围的片段，其在语义上与查询相关。具体来说，给定一个句子si，我们可以计算第j个片段的语义相关性。通过将成本简化为两种方式，即n~f j和d~si。从水里流出来在TAG [43]中，我们将片段分组到不同持续时间的范围中，从而获得视频剪辑2的集合。对于查询段落P，整个剪辑池由针对各个句子导出的集合的并集形成。与TAG [43]相比，上述方法的不同之处在于它如何评估片段的重要性。 TAG基于动作性，它是语义中立的，只对某些动作发生的时刻敏感;而我们的方法使用依赖于查询的语义相关性，并且可以响应于更广泛的场景，包括静止场景。跨域匹配。给定一组句子{s1 ，. . . ，s ， M}和一组剪辑建议{c1，. . . ，cN}，接下来是找到它们之间的对应关系。原则上，这可以通过二分匹配来完成。然而，我们根据经验发现，由二分匹配强制执行的一对一对应为了提高匹配的鲁棒性，我们提出了一个强大的二分匹配方案，它允许每个句子与最多u最大剪辑。我们可以将这个修改的匹配问题形式化为线性规划问题，如下所示。我们使用一个二进制变量xij来表示关联2本方案的技术细节见补充资料。123查找并聚焦7R， ~sg~j在cj和si之间。那么问题可以表示为ΣM ΣN最大rijxij;s. t. ΣNxij≤umax，i;ΣMxij≤1，j.（一）i=1j =1j=1i=1这里，rij是句子si与剪辑cj之间的语义相关性，其由下式给出：不iji， with~sig~j=1|Cj|Σt∈Cj~ft.（二）其中，g~j是在最小化所述可视时钟Cj时的可视特征，其中，所述可视时钟Cj是在其时间窗口Cj 上平均的逐点特征。此外，Eq. (1) 分别实施以下约束：（1）每个句子Sj可以与至多Umax个剪辑匹配，以及（2）每个剪辑对应于至多一个句子，即不同句子的相关剪辑是不相交的。匈牙利算法可以有效地解决上述问题。等式2中的剪辑定位目标的最佳值是：(1)反映了两种模态中的部件的匹配程度。我们称这个最优值为部分级关联得分，并将其表示为Sp（V，P）。3.3总体框架给定段落P，我们可以通过如上所述的剪辑定位来评估其与每个单独视频的相关性，并且因此以相关性得分Sp（V，P）的降序然而，这种方法非常昂贵，特别是在从大型数据库中检索时，因为它需要执行建议生成并动态解决匹配问题。为了平衡检索性能和运行时效率，我们提出了一个两阶段的框架，称为查找和焦点，如图所示1.一、在查找阶段，我们根据视频和查询的总体表示执行顶级匹配。我们发现，虽然顶级匹配对于视频排名可能不是很准确，但它可以通过过滤数据库中大多数明显不相关的视频，同时保留最相关的视频，从而有效地缩小搜索范围。请注意，顶级匹配可以非常有效地完成，因为视频的顶级表示可以预先计算和存储。在聚焦阶段，我们通过查看它们的内部结构来对前K列表中的每个视频执行详细的剪辑所得到的本地化分数将用于细化排名。详细程序如下所示。查找：顶级检索。给定第3.2节中表示的片段级特征，视频V的顶级表示v和段落P的p都可以通过聚合它们的所有部分级特征来实现。为了建立v和p之间的联系，首先我们必须学习两个嵌入网络Ftop和Ftop分别用于视觉和视觉文本8D. Shao和Y. Xiong et al.语言域，通过这些语言域，我们可以将它们投影到一个共同的空间中，如v=Ftoop（v;Wtoop）和dp=Ftoop（p;Wtoop）。他说，他是两个工作狂顶部visvis文本文本Fvis顶部文本可以根据排名损失来学习顶级数据[16，6]。然后定义了V和P之间的顶层相关性，记为St（V，P）因为该成本由N~V和P~V来计算。基于顶级相关性分数，我们可以在给定查询段落P的情况下挑选前K个视频。我们发现，使用较小的K，初始搜索已经可以实现高召回率。特别地，对于包括大约5000个视频的ActivityNet字幕[17]，初始搜索可以在K = 100的前K列表中保留超过90%的地面实况视频（大约数据库的2%）。重点：部件级细化。回想一下，通过学习嵌入在发现阶段，视觉特征和语言特征都已经被投射到公共空间Ω中。这些初步嵌入的功能可以进一步细化的剪辑定位任务。片段的细化特征在urfj处的空间特性，并将一个不被定义为frefj=Fref（Ftop（fj））的序列进行定义，对对~si=Fref（Ftop（si）），其中Fref和Fref表示特征细化文本文本vis文本网络. 我们将详细说明这些特征嵌入网络F_top和细化网络F_ref是如何4.第一章对于查找阶段保留的K个视频中的每一个，我们执行剪辑本地化，以便识别其剪辑与查询中的句子之间的关联。定位过程不仅找到与特定查询语句相关的剪辑，而且同时产生视频V的部分级关联得分Sp（V，P）这里，通过对齐内部结构而导出的部分级分数Sp（V，P）提供了对视频V与查询P的匹配程度的更准确的评估，并且因此是对顶级分数 St（V，P）的良好补充。在这个框架中，我们以乘法的方式将两个分数组合成最终的相关性分数，如Sr（V，P）=St（V，P）·Sp（V，P）。我们使用最终得分来重新排名视频。直观地说，这反映了一个真正相关的视频应该在顶级和部分级别都匹配查询4学习嵌入网络我们的Find and Focus框架包括两个阶段。在第一阶段中，使用顶级嵌入模型来对齐两个域的顶级特征。在第二阶段中，嵌入的特征将被进一步细化以进行部件级关联。下面我们介绍这些模型是如何训练的。顶层数据的嵌入。第一阶段的目标是学习- 网络F顶和F顶，其分别嵌入原始视觉fea.视觉文本图{v_j}和图{p_i}处的部件图，以在空间上进行通信，因为v~j=Ftoop（vj;Wtoop）anddpi=Ftoop（pi;Wtoop）. 这两个工作都很重要visvis文本文本以下是基于边际的排名损失：Σ ΣLF ind（Wtop，Wtop）=max（0，St（Vj，Pi）−St（Vi，Pi）+α）。（三）vis文本我 j/=i和F查找并聚焦9因此，St（Vj，Pi）是相对于V_j和P_i的最优值，其中，作为改进，被确定为在线性空间中具有相对于V_j和P_i的最小成本。此外，α是最大值，其值为0。2. 该策略鼓励每个视频与其对应段落之间的高相关性分数，即， St（Vi，Pi），并且不匹配对的相关性得分低。零件级数据的精细嵌入。我们使用细化的嵌入来识别部件级关联。具体地，给定剪辑cj和句子si，在未被细化为剪辑cj和句子si的情况下，可以通过细化的嵌入网络来细化，如下所示：g~j=Fref（Ftop（gj;Wtop）;Wref）;~si=Fref（Ftop（si;Wtop）;Wref）。（四）visvisvisvis文本文本文本文本假设在一个分组中，我们通常选择一个概率上限c+1，其中，t_e或al_IoU（t_IoU）大于0。来自对应视频的所有剪辑提议中的7个，以及tIoU低于0的L个负提议。3. 精化嵌入网络Fref和Fref然后用如下定义的排名损失进行训练：vis文本ΣLΣLRef（Wref，Wref）=Max0，sr（cj，s）−sr（c+，s）+β.（五）vis文本j=1这里，sr（cj，s）是细化特征之间的余弦相似度，如sr（cj，s）=cos（g~j，~s）;并且幅度β是0。1. 该损失函数计算高度相似性是通过减少否定对之间的损失，同时减少查询语句的否定对和否定对之间的损失。5实验5.1数据集ActivityNet标题。 ActivityNet Captions [17]由20K视频和100K句子组成，这些句子与本地化剪辑对齐。平均每个段落有3个。一个视频中的注释片段的数量范围从2到27，并且每个视频片段的时间范围从0。05秒到407秒。大约10%的片段与其他片段重叠完整的数据集以2：1：1分为三个不相交的子集（训练，验证和测试）我们在训练集上训练模型由于测试集没有发布，我们在验证集val 1上测试学习的模型。改良的LSMDC。LSMDC [23]由从200部电影中收集的超过128k个剪辑描述对组成。然而，对于这些电影中的相当一部分，所提供的剪辑描述可能由于不同的版本而与我们所获取的电影视频不太一致。排除这样的视频和那些保留的盲测，我们保留74部电影在我们的实验。此外，如果我们将每个电影视为视频，我们只有74个视频样本，这不足以训练顶级嵌入。为了解决这个问题，我们将每部电影分成3分钟的片段，每个片段作为一个完整的视频。以这种方式，获得1677个视频并将其划分为两个不相交的集合，来自49部电影的1188个视频用于训练，来自其他25部电影的489个视频用于测试。10D. Shao和Y. Xiong et al.表1. ActivityNet Captions上的整个视频检索结果。R@1 R@5R@10 R@50MedR随机0.02 0.10 0.20 1.022458LSTM-YT [33]04 - 24102S2VT [32]5 14 - 3278Krishna等人 [17]14 32 - 6534VSE（查找）11.6934.6650.03 85.6610我们的（在前20名中查找+提炼）14.11 37.12 52.13-10我们的（在前100名中查找+提炼）14.05 37.40 52.94 86.729表2.修改后的LSMDC数据集上的整个视频检索的结果R@1 R@5R@10 R@50 MedR随机0.201.02 2.04 10.22244VSE（查找）2.66 10.63 16.36 52.9745我们的（在前20名中查找+提炼）3.89 13.70 20.04-45我们的（在前70名中查找+提炼）3.89 13.50 20.25 56.65405.2实现细节对于ActivityNet Captions，我们为视频的每个片段提取1024维向量作为其原始特征，使用具有BN-Inception的TSN [35]作为其骨干架构。我们还提取词频直方图（用tf-idf加权的词对于修改后的LSMDC，我们使用ResNet101 [9]的pool5层的特征作为视频数据的原始特征，以及文本的单词嵌入之和。我们将公共嵌入空间的维数设置为512。我们在Find阶段训练顶级嵌入网络，在Focus阶段使用Adam [15]训练精化网络，动量设置为0。9.5.3全视频检索我们首先在整个视频检索任务上将我们的框架与以下方法进行比较：（ 1 ） LSTM-YT [33] 使用 LSTM 中的潜在状态进行跨模态匹配。(2)S2VT [32]使用多个LSTM对视频帧进行编码，并将视频与文本数据相关联。（3）Krishna等人 [17]使用字幕模型对每个段落进行编码，并使用提案模型对每个剪辑进行编码。对于性能评估，我们采用以下度量：（1）Recall@K，即出现在结果前K列表中的地面实况视频的百分比，以及（2）MedR，即地面实况视频的中值排名。这些指标通常用于检索任务[17，20]。表1显示了ActivityNet Captions数据集上的整个视频检索结果。从结果中，我们观察到：（1）在Find阶段训练的VSE模型已经能够在Recall@50方面实现对先前方法的实质性改进，这表明它适合于顶级匹配。（二）查找并聚焦11SSN多尺度DAPSSN+射击VSS（我们的）召回@ tIoU = 0.81.0 1.00.8 0.80.6 0.60.4 0.40.2 0.20.00.0 0.2 0.4 0.6 0.81.0时间IoU0.00 200 400 600 8001000一些建议(a) 不同tIoU阈值下的召回（b）召回@0.8 w.r.t. 提案编号图4.第一章ActivityNet Captions上不同提案生成方法的比较我们提出的FIFO框架在所有指标上都实现了最佳性能。通过在焦点阶段中通过定位所选择的前20个候选视频中的剪辑进行进一步细化，具有不同K设置的所有召回率都得到了显著提升例如，Recall@1提高了约20%，并且Recall@5提高了约8%。我们还评估了我们的框架上修改的LSMDC数据集。从表2所示的结果中，我们观察到类似的趋势，但更明显。与VSE相比，我们的方法将Recall@1提高了约46%（从2. 66比3 89）和Recall@5约29%（从10. 63比1370）。5.4提案生成和剪辑本地化我们评估我们的建议生成方法，视觉语义相似性（VSS）的性能，与以前的方法ActivityNet字幕数据集相比在不同的tIoU阈值的召回率方面的性能进行测量从图中所示的结果。如图4（a）所示，我们可以看到，我们的方法在所有tIoU阈值上一致地优于所有其他方法。特别地，其中tIoU阈值被设置为0。5、我们的方法可以达到95的高召回率。09%，显著优于SSN+shot，SSN+shot是一种最先进的视频剪辑建议方法，其召回率达到84。35%，1000个提案。性能的提高主要归功于我们的设计，采用语义的重要性，而不是行动的建议评级。图4（b）显示，当我们增加建议的数量时，召回率会持续且显著地提高。这表明，我们的方法往往会产生新的建议，涵盖不同的时间区域。此外，我们比较了不同的方法产生的时间的建议，在剪辑本地化的任务的质量。性能通过具有不同tIoU阈值的召回率表3显示了结果。同样，我们的建议生成方法优于其他人的一个很大的利润。SSN多尺度DAPSSN+射击VSS（我们的）使用#Prop调用= 100012D. Shao和Y. Xiong et al.表3.不同建议方法的剪辑定位性能比较ActivityNet，clip localization Recall@tIoU召回@0.3召回@0.5召回@0.7SSN [43]15.857.333.20[43]第43话16.718.744.30我们的（VSS）28.5213.465.21表4.ActivityNet Caption上用于视频检索的不同单词表示R@1 R@5 R@10 R@50MedR带tf-idf的（查找）(Find+在前100名中细化）11.69 34.66 50.03 85.6614.05 37.40 52.94 86.72109无tf-idf的（查找）(Find+在前100名中细化）11.57 33.03 49.89 85.6613.46 36.67 52.09 86.26119word2vec（查找）(Find+在前100名中细化）9.05 27.96 42.95 81.5510.92 32.38 46.55 82.061412word2vec + FisherVec（查找）(Find+在前100名中细化）11.80 34.35 50.07 85.9313.75 37.93 53.41 86.301095.5消融研究不同的语言表达。我们比较了不同的方式来表示ActivityNet字幕数据集上的文本的性能。表4中的前两行显示了TF-IDF的过滤效果。底部两行表明，使用更好的单词聚合方法将导致性能提升，因为Fishervector [10]对单词的分布进行了建模。在视频选择中选择K。这里，K是在初始查找阶段中保留的视频的数量。我们比较了K对最终检索性能的影响，结果见表5。实验结果表明，聚焦阶段能显著提高检索效果。通常，增加K可以导致更好的性能。然而，在ActivityNet Captions上，当K超过20时，性能逐渐饱和。请注意，当K设置为一个非常大的数字（K= 1000）时，我们可以在查找阶段获得几乎100%的召回率。但结果接近K= 100，计算成本高。功能细化。回想一下，在“查找”阶段中嵌入的特征可以在“聚焦”阶段中进一步细化在这里，我们比较的性能在任务的剪辑本地化，有或没有功能细化。性能通过在不同tIoU阈值下剪辑定位的召回率来测量表6中的结果示出了聚焦阶段中的特征细化导致更有利的特征，其可以更好地捕获跨模态的语义二分匹配。我们尝试不同的设置在焦点阶段的二分匹配，通过改变umax，允许匹配到一个句子的剪辑的最大数量表7显示，稍微增加umax可以适度地改善检索结果，因为它使匹配过程对查找并聚焦13表5.不同K设置下ActivityNet Captions的检索性能。召回@1 召回@5 召回@10 召回@15 召回@20 召回@50无细化11.6934.6650.0359.9067.3485.66K=1013.9336.65----K=2014.1137.1252.1361.62--K=5014.0537.4052.9063.2970.53-K=10014.0537.4052.9463.2770.7586.72K= 100014.0137.4453.0663.1170.3486.62表6.剪辑定位任务下特征细化所造成的影响数据集ActivityNet标题改进的LSMDC剪辑本地化调用@tIoUR@0.3R@0.5R@0.7R@0.3R@0.5R@0.7VSS（非细化特征）27.0412.744.725.002.480.75VSS（精化特征）28.52 13.465.215.252.490.86表7.焦点阶段中二分匹配算法的不同设置之间的性能比较。umax= 1umax= 2umax= 3召回@1 召回@5 召回@1 召回@5 召回@1 召回@513.8736.6113.9336.6513.7536.59异常值然而，当u_max太大时，由于增加的匹配剪辑所带来的混乱我们观察到，在ActivityNet Captions上，当umax设置为2时，二分匹配达到最佳性能，并且在我们的实验中也采用了该设置。5.6定性结果我们在图中展示了ActivityNet Captions和修改后的LSMDC数据集上联合视频检索和剪辑定位的定性结果。5.我们设想三个成功的案例加上一个失败的案例。我们可以看到，在上述三个示例中，片段被准确地本地化并且与查询语句语义关联。在失败的情况下，第一个剪辑被错误地定位。它揭示了，虽然能够捕获有关对象和静态场景的信息，我们的方法有时会忽略复杂的关系，例如，在第一个查询语句中的短语更多定性结果见补充材料。6结论在本文中，我们提出了一个两级结构化的配方，利用顶级和部分级别的段落和视频之间的关联基于这种层次化的表述，我们提出了一个两阶段的查找和聚焦框架14D. Shao和Y. Xiong et al.地面实况一个男人拿着一根黄色的棍子。一个男人坐在屋顶上。他拿着酒吧开始拆屋顶。地面实况一个女人打扫一个用一块粉红色的布把水槽洗干净地面实况然后，这位妇女拉动一根杆，把排水管塞在水龙头后面，在她继续清洗水槽之后。接下来，女人清洁水龙头和把手。...每个人都像一串沙子一样向上看当货车门关上的时候沙尘暴沙子的重量压着像一列特快列车呼啸而过就像一群愤怒的蜜蜂货车的加速器加速地面实况显示了水槽的特写后面跟着一个照镜子的女孩然后看到女孩把她眼睛上的妆她继续化妆停下来看着摄像机。图五、ActivityNet Captions和修改后的LSMDC数据集上的视频检索和剪辑定位的定性结果对于每个具有几个代表性帧的视频，地面实况视频剪辑在上面的彩色条中表示。在每个视频下方示出了与查询句子相关联的本地化剪辑。以联合检索整个视频并利用自然语言查询定位其中的事件。我们的实验表明，这两个阶段之间的相互利益。特别是Find阶段的顶层检索，有助于减轻剪辑本地化的负担;而聚焦阶段中的剪辑定位细化检索结果。在ActivtyNet字幕和修改的LSMDC上，所提出的方法优于VSE和其他代表性方法。鸣谢本工作部分由商汤科技集团的大数据协作研究资助（香港中文大学协议编号：TS 1610626）、香港的“展翅计划”（第1610626号）、香港的“展翅计划”（第1610626号）及香港的“展翅计划”（第1610626号）。24204215）和中国科学院国际合作伙伴计划（172644 KYSB 20160033）。查找并聚焦15引用1. Apostolidis，E.，Mezaris，V.：结合全局和局部视觉描述符的快速镜头分割。在：IEEE声学、语音和信号处理国际会议（ICASSP）中。pp. 6583 -6587。IEEE（2014）2. Aytar，Y. Shah，M.，罗杰：利用语义词相似性度量进行视频检索。在：IEEE计算机视觉和模式识别会议（CVPR）中。pp. 一02The Dog（2008）3. Bojanowski，P.，拉朱吉河Grave，E.巴赫，F.，拉普捷夫岛Ponce，J.，Schmid，C.：视频与文本的弱监督对齐。在：IEEE国际会议上，C〇mputerVisis〇n（I C CV）。pp. 44624. Chen，K.，宋，H.，Loy，C.C.，Lin，D.：从文档中发现和学习新对象。In ： Computer Vision and Pattern Recognition （ CVPR ）， 2017 IEEEConferenceon. pp. 1111-1120 我的（2017）5. J.道尔顿，Allan，J. Mirajkar，P.：使用内容和概念的零镜头视频检索。第22 届ACM 信息知识管理国际会议（ CIKM）。pp. 1857ACM（2013）6. Faghri，F.，弗利特DJ Kiros，J.R. Fidler，S.：Vse++：改进了视觉语义嵌入。arXiv预印本arXiv：1707.05612（2017）7. Frome，A.，科罗拉多州科拉多Shlens，J.，Bengio，S.，迪恩J Mikolov，T.，等：Devise：一个深度视觉语义嵌入模型。在：神经信息处理系统进展（NIPS）。pp. 21218. Gaidon，A. Harchaoui，Z. Schmid，C.：动作与动作的时间定位。IEEETransactions on Pattern Analysis and Machine Intelligence 35（11），27829. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。IEEE计算机视觉与模式识别会议（CVPR）pp. 77010. J ain，M.， VanGemert，J.，我走了H 但是我，P Snoek，C. ：一个带有运动小管的Ctionl o calization。IEEE International Conference on ComputerVision and Pattern Recognition（CVPR）（2014）11. Johnson，J.，克里希纳河斯塔克M. Li，L.J.，Shamma，D. Bernstein，M.李菲菲：使用场景图进行图像检索。在：IEEE计算机视觉与图像处理会议（CVPR）中。pp. 366812. Jouili，S.，Tabbone，S.：基于超图的图像检索，用于基于图的表示。第45（11），4054- 4068（2012）页13. Karpathy，A.，李菲菲：用于生成图像描述的深度视觉语义对齐。IEEE计算机视觉和模式识别会议（CVPR）。pp. 312814. Karpathy，A.，Joulin，A.，李菲菲：用于双向图像句子映射的深度片段嵌入。神经信息处理系统进展（ Advances in Neural Information ProcessingSystems，NIPs）pp. 188915. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法arXiv预印本arXiv：1412.6980（2014）16. 基罗斯河Salakhutdinov河Zemel，R.S.：统一视觉语义嵌入与多模态神经语言模型。arXiv预印本arXiv：1411.2539（2014）17. 克里希纳河Hata，K.，Ren，F.，Fei-Fei，L.尼布尔斯，J.C.：视频中的密集字幕事件 IEEE International Conference on Computer Vision （ ICCV ）（2017）18. Lin，D. Fidler，S.，Kong，C.，乌尔塔松河：视觉语义搜索：通过复杂的文本查询检索视频。在：IEEE计算机视觉和模式识别会议（CVPR）中。pp. 265716D. Shao和Y. Xiong et al.19. 刘伟，Mei T张玉，切角罗杰：多任务深度视觉语义嵌入视频缩略图选择。在：IEEE计算机视觉与图像处理会议（CVPR）中。pp. 370720. 你好，M. Nakashima，Y.， Rahtu，E.，他是我的朋友，J.，你好，N。：通过网络图像搜索，提供视频和句子的演示。在：欧洲会议上ComputerVision（EC C

下载后可阅读完整内容，剩余1页未读，立即下载