没有合适的资源?快使用搜索试试~ 我知道了~
视频重定位:解决定位查询视频在参考视频中对应的问题
视频重定位杨峰‡林马†刘伟†张彤†罗杰波‡†Tencent AI Lab‡罗彻斯特大学{yfeng23,jluo}@ cs.rochester.edu,forest. gmail.com,wl2223@columbia.edu,tongzhang@tongzhang-ml.org抽象。已经开发了许多方法来帮助人们有效地找到他们想要的视频内容。但是,在这方面还存在一些未解决的问题。例如,给定查询视频和参考视频,如何准确地定位参考视频中的片段,使得该片段在语义上对应于查询视频?我们定义了一个独特的新任务,即视频重新定位,以满足这一需求。视频重定位是一种重要的使能技术,具有许多应用,诸如视频中的快速查找、视频拷贝检测以及视频监控。同时,由于视频中语义概念的视觉表现可能有很大的变化,因此这也是一项具有挑战性的研究任务。第一个要清除的障碍视频重新定位任务是缺少现有的数据集。收集具有语义一致性或对应性的视频对并标记对应的片段是劳动昂贵的。我们首先利用和重组ActivityNet中的视频,形成一个新的数据集,用于视频重新定位研究,该数据集由约10,000个与本地化边界信息相关的不同视觉外观的视频组成。随后,我们提出了一个创新的交叉门控双线性匹配模型,使参考视频中的每一个时间步都与用心加权的查询视频相匹配因此,开始和结束时间的预测被公式化为基于匹配结果的分类问题。大量的实验结果表 明 , 该 方 法 优 于 基 线 方 法 。 我 们 的 代 码 可 从 以 下 网 址 获 得 :https://github.com/fengyang0317/video关键词:视频重定位·交叉选通·双线性匹配1介绍每天都会产生大量的视频。为了有效地访问视频,已经开发了几种方法。最常见和最成熟的方法是关键词搜索。然而,基于关键字的搜索在很大程度上依赖于用户标记。视频的标签是用户指定的,并且用户不太可能标记复杂视频中的所有内容基于内容的视频检索(CBVR)[3,22,11]出现以解决这些缺点。给定一个查询视频,CBVR系统分析其中的内容并检索具有相关内容的视频这项工作是杨峰在腾讯人工智能实验室实习研究时完成的2杨峰,林马,刘伟,张彤,罗杰波Fig. 1. 顶部视频是由两个角色执行的动作的剪辑。中间的视频是一整集,其中包含在不同环境中发生的相同动作底部是一个视频,包含相同的动作,但由两个真实的人执行。给定顶部查询视频,视频重新定位旨在准确地检测中间视频和底部视频中的绿色段的起点和终点,其在语义上对应于给定的查询视频。查询视频。检索视频后,用户将有许多视频在手。从头到尾观看所有视频以确定相关性是耗时的。因此,提出了视频摘要方法[30,21]来创建长视频的简短概要。视频摘要技术可以帮助用户快速地了解长视频的大致内容与视频摘要类似,视频字幕旨在使用一个或多个句子来总结视频。研究人员还开发了本地化方法,以帮助用户在长视频中快速查找一些视频片段。定位方法主要集中在定位属于预定义类别列表的视频剪辑,例如动作[26,13]。最近,已经开发了具有自然语言查询的本地化方法[1,7]。虽然现有的视频检索技术是强大的,仍然存在一些未解决的问题。考虑以下场景:当用户观看YouTube时,他发现如图1的顶行所示的非常有趣的视频剪辑。1.一、这个片段显示了一个由两个男孩角色在一个名为“龙珠Z”的卡通表演的动作。如果我们不知道这部动画片中有什么类似的情节,我们该怎么办?简单地找到完全相同的内容对于大多数情况,拷贝检测方法[12]将失败,因为视频之间的内容变化有很大的差异。如图中的中间视频所示。1、动作发生在不同的环境中。拷贝检测方法无法处理这种复杂的情况。另一种方法是依赖于动作定位方法。然而,动作定位方法通常定位预定义的动作。当视频剪辑中的动作(如视频重定位3如果在训练数据集中没有预先定义或看到图1中的动作,则动作定位方法将不起作用。因此,解决这个问题的一个直观的方法是将感兴趣的片段裁剪为查询视频,并设计一个新的模型来定位完整剧集中语义匹配的片段。受此示例的启发,我们定义了一个独特的新任务,称为视频重新定位,其目的是定位参考视频中的片段,使得该片段在语义上对应于查询视频。具体地,任务的输入是一个查询视频和一个参考视频。查询视频是用户感兴趣的短片段。参考视频包含语义上对应于查询视频中的内容的至少一个片段视频重定位的目的是准确地检测出在语义上与查询视频相对应的片段的起点和终点。视频重定位有许多实际应用。通过查询片段,用户可以通过视频重定位快速找到他感兴趣的内容,从而避免在长视频中手动查找。视频重新定位也可以应用于视频监控或基于视频的人员重新识别[19,20]。视频重定位是一项非常具有挑战性的任务。首先,查询视频和参考视频的外观可能由于环境、主体和视点差异而完全不同,即使它们表达相同的视觉概念。其次,确定准确的起点和终点是非常具有挑战性的。起点和终点可能没有明显的界限。视频重新定位的另一个关键障碍是缺乏包含查询和参考视频对以及相关联的定位信息的视频数据集。为了解决视频重新定位问题,我们通过重组ActivityNet中的视频来创建一个新的数据集[6]。在构建数据集时,我们假设属于同一类的动作片段在语义上彼此对应。查询视频是包含一个动作的片段。配对的参考视频包含相同类型的动作的一个片段我们将200个动作类随机分为三部分。160个动作类用于训练,20个动作类用于验证。剩下的20个动作类用于测试。这样的分割保证了用于测试的视频的动作类因此,如果视频重定位模型在测试集上的性能良好,那么它也应该能够推广到其他看不见的动作。为了解决视频重定位的技术挑战,我们提出了一个交叉门控双线性匹配模型与三个递归层。首先,从查询视频和参考视频中提取局部视频特征。仅考虑短时段的视频帧来执行特征提取第一递归层用于聚合所提取的特征并考虑上下文信息来生成新的视频特征基于聚合表示,我们执行查询和参考视频的匹配。将每个参考视频的特征与注意加权的查询视频进行匹配。在每一个匹配步骤中,参考视频特征和查询视频特征4杨峰,林马,刘伟,张彤,罗杰波特征通过因子分解双线性匹配来处理以生成它们的交互结果。由于不是参考视频中的所有部分都与查询视频同样相关,因此在双线性匹配之前堆叠交叉门控策略以保留最相关的信息,同时门控掉不相关的信息。所计算的交互结果被馈送到第二递归层中以生成查询感知的参考视频表示。第三递归层用于执行定位,其中开始和结束位置的预测被公式化为分类问题。对于每个时间步,递归单元输出该时间步属于以下四个类别之一的概率最终的预测结果是参考视频中具有最高联合概率的片段。总之,我们的贡献有四个方面:1. 我们介绍了一种新的任务,即视频重新定位,其目的是在本地化的参考视频中的一段,使得段语义对应于给定的查询视频。2. 我们将ActivityNet [6]中的视频重新组织,形成一个新的数据集,以促进视频重定位的研究。3. 我们提出了一种交叉门控双线性匹配模型,将定位任务制定为视频重定位的分类问题,该模型可以全面捕获查询和参考视频之间的交互。4. 我们在新的数据集上验证了我们的模型的有效性,并取得了比基线方法更好的结果。2相关工作CBVR系统[3,22,11]已经发展了二十多年。现代CBVR系统支持各种类型的查询,例如按示例查询、按对象查询、按关键字查询和按自然语言查询给定查询,CBVR系统可以检索与查询相关的整个视频的列表。一些检索到的视频将不可避免地包含与查询无关的内容。用户可能仍然需要在检索到的视频中手动寻找感兴趣的部分,这是耗时的。本文提出的视频重定位是不同的CBVR,它可以找到准确的起点和终点的语义连贯段在一个长的参考视频。动作定位[17,16]与我们的视频重新定位有关,因为两者都旨在找到长视频中片段的起点和终点。不同之处在于,动作本地化方法只关注某些预定义的动作类。有些人试图超越预定义的类别。Seo等人。[25]提出了一种一次性动作识别方法,不需要关于动作的先验知识。Soomro和Shah [27]通过引入无监督的动作发现和定位更进一步。相比之下,视频重定位比一次性或无监督动作更普遍视频重定位5...一SEI O一一0.10.00.20.70.00.20.20.6聚合匹配定位图二. 我们提出的视频重定位模型的架构。首先为查询和参考视频提取本地视频特征,然后通过LSTM聚合建议的交叉门控双线性匹配方案利用了聚合查询和参考视频特征之间的复杂交互定位层依赖于匹配结果,通过对每个时间步的隐藏状态执行分类来检测参考视频中的片段的开始点和结束点。 四个可能的类别是起始、结束、内部和外部。A请注意,S ec中列出了一个特定的中间代码。3.第三章。⊙andareinneranduter产品分别。视频重定位中的定位可以应用于除动作之外的或涉及多个动作的许多其它概念。最近,Hendricks et al.[1]提出通过自然语言查询从视频中检索特定的时间Gao等人。[7]专注于使用自然语言查询在未修剪视频中进行动作与现有的动作本地化方法相比,它具有本地化比预定义列表中的动作更复杂的动作的优点。我们的方法是不同的,因为我们直接匹配查询和参考视频段在一个单一的视频模态。3方法给定一个查询视频剪辑和一个参考视频,我们设计了一个模型来解决视频重新定位任务,利用它们复杂的相互作用和预测的起点和终点的匹配段。如图2,我们的模型由三个组件组成,具体来说,它们是聚合,匹配和本地化。.........这是.........这是..................特征提取器特征提取器查询参考0.30.40.30.06杨峰,林马,刘伟,张彤,罗杰波3.1视频特征聚合为了有效地表示视频内容,我们需要选择一种或几种视频特征,这取决于我们打算捕获什么样的语义。对于我们的视频重新定位任务,不考虑全局视频特征,因为我们需要依赖于本地信息来执行片段定位。在执行特征提取之后,分别针对查询视频和参考视频获得具有时间顺序的局部特征的两个列表。查询视频特征由矩阵Q∈Rd×q表示,其中d是特征维度,q是查询视频中的特征数量,其与视频长度相关。类似地,参考视频由矩阵R∈Rd×r表示,其中r是参考视频中的特征的数量。如上所述,特征提取仅考虑短范围内的视频特性。为了在更长的范围内整合上下文信息,我们采用长短期记忆(LSTM)[10]来聚合提取的特征:hq= LSTM(qi,hq)i i−1(一)hr= LSTM(ri,hr),i i−1其中qi和ri分别是Q和R中的第i列。hq,hr∈Rl×1是我我在两个LSTM的第i个时间步长处的隐藏状态,其中l表示隐藏状态的维度。请注意,两个LSTM的参数是共享的,以减小模型大小。LSTM产生的隐藏状态被视为新的视频表示。由于LSTM的自然特性和行为,隐藏状态可以编码和聚合先前的上下文信息。3.2交叉选通双线性匹配在每个时间步,我们基于聚合的视频表示hq和hr来执行查询视频和参考视频的匹配。我们提议的交叉门我我双线性匹配方案由四个模块组成,具体为生成注意加权查询、交叉门控、双线性匹配和匹配聚集。注意力加权查询。对于视频重新定位,对应于查询剪辑的片段可以潜在地在参考视频中的任何地方因此,需要将来自参考视频的每个特征与查询视频进行匹配以捕获它们的语义对应。同时,查询视频可能相当长,因此查询视频中只有一些部分实际上对应于参考视频中的一个特征受[29]中的机器压缩方法的启发,使用注意力机制来选择查询视频中的哪个部分将与参考视频中的特征匹配在视频重定位7我J我i−1我我在参考视频的第i个时间步长处,查询视频通过注意力机制被加权ei,j= tanh(Wqhq+Wrhr+Wmhf +bm),JIexp(wei,j+b)i−1αi,j=ΣΣkh¯q=Jexp(weαi,jhq,i,k、+b)(二)其中Wq,Wr,Wm∈ Rl×l,w ∈ Rl×1是我们的注意力模型中的权重参数,bm∈ Rl×1,b ∈ R表示偏差项。 可以观察到,注意力权重αi,j不仅依赖于当前表示参考视频,而且还包括前一阶段中的匹配结果hf∈Rl×1其可以通过等式(1)获得(7)并将在稍后介绍注意该机制试图找到与HR最相关的Hq,并使用相关的Hq来j i j生成所需的副本h¯q,以便更好地执行我我视频重新定位任务。CrosGating. 由于在数据库中存在大量的引用信息,因此提出了一种交叉选通机制来排除不相关的引用信息,并强调相关的引用信息。在交叉门控中,用于参考视频特征的门取决于查询视频。同时,查询视频特征也由当前参考视频特征选通。交叉门控机制可以由以下等式表示:gr=σ(Wghr+bg),h<$q=h<$q<$gr,IrIr我我我(三)gq=σ(Wgh¯q+bg),h~r=hr⊙gq,Iqiqii ii其中Wg,Wg∈Rl×l,且bg,bg∈Rl×1表示可学习参数。σr q rQ表示非线性S形函数。如果参考特征hr不相关我r¯q对于查询视频,参考特征hi和查询表示hi以减少它们对后续层的影响如果hr与我厄克因此,交叉门控策略预期进一步增强它们的相互作用。双线性匹配受双线性CNN [18]的启发,我们提出了一个双线性CNN。我正在制定方法,以便根据h~q和h~r来执行内部操作,其中我我可以写成:tij=h〜qWbh〜r+bb,⑷ij i j其中,ti,j是双线性匹配结果的第j维度,由ti=[ti1,ti2,. . .,til]. Wb∈Rl×l和bb∈R是用于J J计算tij。等式中的双线性匹配模型(4)引入了太多的参数,从而使模型难以学习。通常,为了生成l维双线性输出,引入的参数的数量将是l3+l。为了8杨峰,林马,刘伟,张彤,罗杰波J我我我我我我为了减少参数的数量,我们将双线性匹配模型分解为:hq=Fjh~q+bf,i ijhr=Fjh~r+bf,(五)i ijtij=hqhr,我我当Fj∈Rk×l和bf∈Rk×1时,则是可求的参数。 k是一个比l小得多的参数。因此,因子化双线性匹配模型只引入了k×l×(l+1)个参数。因子分解的双线性匹配方案捕获查询和引用表示之间的关系。通过扩展Eq.(5),我们有以下等式:tij=h~qFFjh~r+bfFj(h~q+h~r)+bfbf.(六)`ijxi二次项`jiix线性项`iix偏置项每个tij由二次项、线性项和偏置项组成,因此,您可以在不同时间和不同时间之间捕获复杂的数据。我我匹配聚合。我们获得的匹配结果ti从局部视点捕获查询视频和参考视频之间的复杂交互因此,使用LSTM来进一步聚合匹配的上下文:hf= LSTM(ti,hf)的情况。(七)i i−1遵循双向RNN [24]的思想,我们还使用另一个LSTM来聚合反向的匹配结果。令hb表示LSTM在相反方向上的隐藏状态 通过将hf与h_b,生成聚合隐藏状态h_m。我我3.3定位匹配层h,m的输出指示参考视频中的第i个时间步中的内容是否与查询剪辑很好地匹配我们依靠hm来预测匹配段的起点和终点我们制定的本地化任务作为一个分类问题。如示于图2、在参考视频中的每个时间步,定位层预测该时间步属于四个类别之一的概率:起点、终点、内部点和外部点。定位层由下式给出:h1= LSTM(hm,h1 ),i i i−1(八)pi= softmax(Wlhl+bl),其中Wl∈R4×l和bl∈R4×1是softmax层中的参数pi是时间步长i的预测概率。它有四个维度p1,p2,p3和我我我p4,分别表示开始、结束、内部和外部的概率。视频重定位9我3.4培训我们使用加权交叉熵损失来训练我们的模型我们在每个时间步为参考视频生成标签向量对于具有地面实况片段[s,e]的参考视频,我们假设1≤s≤e≤r。属于[1,s)和(e,r)的时间步在地面实况片段之外,它们的生成的标签概率是gi=[0, 0, 0, 1]。第s个时间步长是开始时间步骤,其被分配有标签概率gi=[1,0,1, 0]。同样,标签1 12 2在第e个时间步长处的概率是gi=[0,2,2,0]。段中的时间点(s,e)被标记为gi=[0,0,1,0]。当段很短并且只落在一个时间步长内时,s将等于e。在这种情况下,该时间步长将是[1,1,1,0]。单样本对的交叉熵损失由下式给出:33 31Σr Σ4损失=−gnlog(pn),(9)ri ii=1n =1其中gn是gi的第n维。使用上述损失进行训练的一个问题是,起点和终点的预测原因是起点和终点的正样本比其他两个类的正样本少得多。对于一个参考视频,仅存在一个起始点和一个结束点。相比之下,所有其它位置在区段的内部或外部。因此,我们决定更多地关注开始和结束位置的损失,并采用动态加权策略:. c、如果g1+g2>0wi=wii(十)1、 否则其中Cw是常数。因此,用于训练的加权损失可以进一步公式化为:损失w=−1ΣrΣ4wignlog(pn)。(十一)Ri=1我我n=13.5推理在模型经过适当的训练后,我们可以对一对查询和参考视频进行视频重新定位。我们定位参考视频中具有最大联合概率的片段,其由下式给出:.Yes,e= arg maxp1p2p31e−s+1 、(十二)s,es e iI=s其中s和e分别是起点和终点的预测时间步长。如等式1所示。在公式(12)中,使用段内所有概率的几何平均值,使得联合概率将不受段的长度影响。Σ10杨峰,林马,刘伟,张彤,罗杰波网球弹跳发球芭蕾图3.第三章。 我们数据集中的几个视频样本。 包含不同动作的片段由绿色矩形标记。4视频重新定位数据集现有的视频数据集通常用于分类[14,8],时间定位[6],字幕[4]或视频摘要[9]。它们都不能直接用于视频重新定位任务。为了训练我们的视频重定位模型,我们需要成对的查询视频和参考视频,其中参考视频中语义上对应于查询视频的片段应该用其定位信息进行注释,特别是起点和终点。手动收集查询和参考视频并定位与查询视频具有相同语义的片段将是劳动力昂贵的因此,在本研究中,我们基于ActivityNet [6]创建了一个新的数据集,用于视频重新定位。ActivityNet是一个大规模的动作本地化数据集,具有分段级动作注释。我们在ActivityNet中重新组织视频序列,旨在重新定位一个视频序列中的动作,给定同一动作的另一个视频片段。ActivityNet中有200个类,每个类的视频分为训练,验证和测试子集。这种分割不适合我们的视频重新定位问题,因为我们希望视频重新定位方法应该能够重新定位比ActivityNet中定义的动作更多的动作。因此,我们按操作类拆分数据集。具体来说,我们随机选择160个类进行训练,20个类进行验证,剩下的20个类进行测试。这种分割保证了用于验证和测试的操作类在训练过程中不会被看到视频重新定位模型需要在测试期间重新定位未知动作。如果它在测试集上运行良好,那么它应该能够很好地推广到其他看不见的动作。ActivityNet中的许多视频都是未经修剪的,包含几个动作片段。首先,我们过滤的视频与两个重叠的片段,这是一个- notated与不同的动作类。其次,我们合并相同动作类的重叠第三,我们还移除长于512帧的片段。经过这样的处理,我们得到了9530个视频片段。图3示出了数据集中的若干视频样本。可以观察到,一些视频序列包含多于一个片段。一个视频片段可以被视为查询视频剪辑,而其配对的参考视频可以从视频序列中选择或裁剪,以仅包含具有与查询视频剪辑相同的动作标签的在我们的训练过程中,查询视频和参考视频是随机配对的,而配对是固定的,用于验证视频重定位11和试验.未来,我们将向公众发布构建的数据集,并不断增强数据集。5实验在本节中,我们进行了几个实验来验证我们提出的模型。首先,设计并介绍了三种基线方法。然后,我们将介绍我们的实验设置,包括评估标准和实施细节。最后,我们通过性能比较和消融研究证明了我们提出的模型的有效性5.1基线模型目前,没有专门为视频重新定位设计的模型我们设计了三个基线模型,分别执行帧级和视频级比较,以及动作建议生成帧级基线。我们设计了由[5]中描述的回溯表和对角块激励的帧级基线我们首先规范化查询和参考视频的特征然后我们计算一个距离表D∈Rq×rDij=hq−hr2。具有最小平均距离的对角块是I j通过动态规划进行搜索此方法的输出是对角块所在的位置与[5]类似,我们也允许水平和垂直移动,以允许输出段的长度灵活。请注意,此基线不需要培训。视频级基线。在这个基线中,每个视频片段都被LSTM编码为向量。选择LSTM中的L2归一化的最后隐藏状态作为视频表示。为了训练这个模型,我们使用[23]中的三重态损失,它强制锚点正距离小于锚点负距离查询视频被视为锚点。 通过对参考视频中具有超过0的时间重叠(tIoU)的片段进行采样来生成正样本。8与地面实况片段,而负样本是通过对tIoU小于0的片段进行采样来获得的。2.在测试时,我们执行穷举搜索以选择与查询视频最相似的片段行动建议基线。我们在训练集上训练SST [2]模型,并在测试集上进行评估。模型的输出是具有最大置信度得分的建议。12杨峰,林马,刘伟,张彤,罗杰波5.2实验设置我们使用ActivityNet Challenge 20161发布的C3D [28]功能。通过公开可用的预训练C3D模型提取特征,该模型具有16帧的时间分辨率。通过PCA将第二全连接层(fc7)中的值投影到500个维度。我们将所提供的特征在时间上降采样为2倍,因此它们不会彼此重叠亚当[15]作为优化方法。 Adam优化方法的参数保留为默认值:β1 = 0。9和β2 = 0。999.学习率、隐藏状态的维度l、损失权重cw和分解矩阵秩k分别被设置为0.001、128、10和8。我们手动将预测片段的最大允许长度限制为1024帧。在动作定位任务之后,我们报告了以0.5和0.9之间的tIoU阈值计算的平均top-1 mAP,步长为0.1。表1. 在我们构建的数据集上进行性能比较。最上面的条目用黑体字突出显示mAP@10.50.60.70.80.9平均机会16.211.05.42.91.27.3帧级基线18.813.99.65.02.39.9视频级基线24.317.412.05.92.212.4SST [2]33.224.717.27.82.717.1我们43.535.127.316.26.525.75.3性能比较表1显示了我们的方法和基线方法的结果。根据结果,我们有几个观察。帧级基线比随机猜测执行得更好,这表明C3D特征保留了视频之间帧级基线的结果明显劣于我们的模型。原因可以归因于在帧级基线中不涉及训练过程的事实。视频级基线的性能略好于帧级基线,这表明在视频级基线中使用的LSTM学习将对应的视频投影到类似的表示。然而,LSTM独立地对两个视频片段进行编码,而不考虑它们之间复杂的相互作用。因此,它不能准确地预测起点和终点。另外,该视频级基线在推断过程期间是非常低效的,因为参考视频需要被编码多次以用于穷举搜索。1http://activity-net.org/challenges/2016/download.html视频重定位13沙狐球查询参考撑杆跳查询参考见图4。定性结果。与查询对应的段用绿色矩形标记。我们的模型可以准确地定位段语义对应的查询视频中的参考视频。查询参考图五. 注意力机制的可视化。顶部视频是查询,而底部视频是参考。蓝色线条的颜色强度表示注意力强度。颜色越深,注意力权重越高。注意,仅示出了具有高注意力权重的连接。我们的方法是大大优于三个基线方法。我们的方法的良好结果表明,交叉门控双线性匹配方案确实有助于捕获查询和参考视频之间的交互。该算法能够准确地检测出视频的起始点和结束点,证明了其在视频重定位任务中的有效性。来自测试集的一些定性结果如图所示。4.第一章可以观察到,查询视频和参考视频具有很大的视觉差异,即使它们表达相同的语义含义。虽然我们的模型在训练过程中没有看到这些动作,但它可以有效地测量它们的语义相似性,从而在参考视频中正确定位片段。5.4消融研究不同组成部分的贡献。为了验证我们提出的交叉门控双线性匹配模型的每个部分的贡献,我们进行了三个消融研究。在第一次消融研究中,我们通过移除查询长度= 14参考长度= 49Ground truth我们的帧视频1717272715231719查询长度= 15参考长度= 49Ground truth我们的帧视频101037382017323814杨峰,林马,刘伟,张彤,罗杰波表2.消融研究的性能比较。顶部条目以粗体突出显示mAP@10.50.60.70.80.9平均基地40.832.422.815.96.423.7碱基+交叉门控40.533.525.116.26.124.3基础+双线性42.334.925.715.46.525.0我们43.535.127.316.26.525.7交叉选通部分,并用两个特征向量的级联来替换双线性部分。第二个和第三个研究分别通过在基础模型中添加交叉门控和双线性来设计。表2列出了上述消融研究的所有结果。可以观察到,双线性匹配和交叉门控都有助于视频重新定位任务。交叉门控可以帮助过滤掉不相关的信息,同时增强查询视频和参考视频之间的有意义的交互。双线性匹配充分利用了参考视频和查询视频之间的交互,从而获得比基础模型更好的结果。我们的完整模型,包括交叉门控和双线性匹配,达到最佳效果。关注 图5,我们可视化查询和参考视频对的注意力值顶部视频是查询视频,而底部视频是参考。这两个视频都包含了“投掷”和“说话”的部分很明显,参考视频中的“投掷”部分与具有较大注意力权重的查询中的“投掷”部分高度交互。6结论在本文中,我们首先定义了一个独特的新任务,称为视频重新定位,其目的是在本地化的参考视频段,使该段语义对应的查询视频。视频重定位具有许多现实世界的应用,例如在视频中发现有趣的时刻、视频监控和人员重识别。为了促进新的视频重新定位任务,我们通过重新组织ActivityNet中的视频来创建新的数据集[6]。此外,我们提出了一种新的交叉门控双线性匹配网络,有效地执行查询和参考视频之间的匹配。基于匹配结果,应用LSTM来定位参考视频中的查询视频。大量的实验结果表明,我们的模型是有效的,优于几个基线方法。确认我们要感谢纽约州通过Goergen Institute for Data Science和NSF Award#1722847提供的支持。视频重定位15引用1. 洛杉矶的亨德里克斯Wang,O.,Shechtman,E.,Sivic,J.,Darrell,T.,Russell,B.:用自然语言记录视频中的瞬间In:ICCV(2017)2. Buch,S.,Escorcia,V. Shen,C.,加尼姆湾尼布尔斯,J.C.:单流时间动作建议。在:CVPR(2017)3. Chang,S.F.,陈伟,Meng,H.J.,Sundaram,H.,Zhong,D.:一个支持时空查询的全自动基于内容的视频搜索引擎。CSVT8(5),(1998)4. Chen,D.L. Dolan,W.B.:收集高度并行的数据进行释义评估。在:ACL(2011)5. Chou,C.L.,Chen,H. T.,Lee,S.Y.:基于模式的相似视频检索和网络视频定位TMM17(3),(2015)6. Caba Heilbron,F.,Escorcia,V.加尼姆湾Carlos Niebles,J.:Activitynet:A用于人类活动理解的大规模视频基准参见:CVPR(2015)7. 高,J.,孙角,澳-地杨志,内华达河:Tall:通过语言查询的时间活动定位。In:ICCV(2017)8. Gorban,A.,Idrees,H. Jiang,Y.G.,Roshan Zamir,A.,拉普捷夫岛Shah,M. , Suk-thankar , R. : THUMOS 挑 战 : 大 量 类 的 动 作 识 别http://www.thumos.info/(2015)9. Gygli,M.,Grabner,H.,Riemenschneider,H.,Van Gool,L.:从用户视频创建摘要。In:ECCV(2014)10. Hochreiter,S.,Schmidhuber,J.:长短期记忆。神经计算9(8),(1997)11. 胡伟,Xie,N.,美国,Li,L.,Zeng,X.,Maybank,S.:基于视觉内容的视频索引与检索综述。IEEE Transactions on Systems,Man,and Cybernetics41(6),(2011)12. Jiang,Y.G.,Wang,J.:视频中的部分拷贝检测:一个基准测试和一个评价常用方法。 IEEE Transactions on Big Data 2(1),(2016)13. Kalogeiton,V.,Weinzaepfel,P.,法拉利,V。,Schmid,C.:动作小管探测器用于时空动作定位。In:ICCV(2017)14. 凯,W.,卡雷拉,J.,西蒙尼扬,K.,张,B.,希利尔角Vijayanarasimhan,S.,Viola,F.,Green,T.,退后T Natsev,P.,等:人体动作视频数据集。arXiv预印本arXiv:1705.06950(2017)15. Kingma,D. Ba,J.:Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980(2014)16. Klaése r,A., 妈妈,M, Schmid,C., Zisserman,A. :HUMAN用于视频中的局部化In:ECCV(2010)17. 兰,T.,王玉,Mori,G.:用于联合动作定位和识别的判别性图形中心模型。In:ICCV(2011)18. Lin,T.Y.,RoyChowdhury,A. Maji,S.:用于细粒度视觉识别的双线性cnn模型。In:ICCV(2015)19. 刘洪,冯杰,杰,Z. Karlekar,J.,Zhao,B.,Qi,M.,姜杰,Yan,S.:神经人搜索机器。In:ICCV(2017)20. 刘洪,杰,Z. Jayashree,K.,Qi,M.,姜杰,Yan,S.,Feng,J.:基于视频的人员重新识别,具有累积运动上下文。CSVT(2017)21. Plummer,文学士,布朗,M. Lazebnik,S.:通过视觉语言嵌入增强视频摘要。在:CVPR(2017)22. Ren,W.,辛格,S.,Singh,M.,Zhu,Y.S.:基于时空信息的视频检索研究进展。模式识别42(2),(2009)16杨峰,林马,刘伟,张彤,罗杰波23. Schro,F.,Kalenichenko,D. Philbin,J.:Facenet:用于人脸识别和聚类的统一嵌入。参见:CVPR(2015)24. Schuster,M.,Paliwal,K.K.:双向递归神经网络。IEEE Transactions on SignalProcessing45(11),(1997)25. 徐H.J.Milanfar,P.:动作识别一个例子。PAMI33(5),(2011)26. Shou,Z.,陈,J.,Zareian,A.,Miyazawa,K.,Chang,S.F.:Cdc:卷积-去卷积网络,用于未修剪视频中的精确时间动作定位。在:CVPR(2017)27. Soomro,K.,Shah,M.:视频中的无监督动作发现和定位。 在:CVPR(2017)28. Tran,D.,Bourdev,L.费格斯河托雷萨尼湖Paluri,M.:用三维卷积网络学习时空特征In:ICCV(2015)29. 王,S.,Jiang,J.:使用match-lstm和答案指针的机器理解。arXiv预印本arXiv:1608.07905(2016)30. 张,K.,Chao,W.L.,Sha,F.,Grauman,K.:具有长短期记忆的视频摘要。In:ECCV(2016)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功