基于自然语言规范的视频目标跟踪

80 浏览量更新于2023-10-15 收藏 1.78MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6495通过自然语言规范进行李振洋，冉涛，Efstratios Gavves，Cees G.M. 阿诺德·斯诺克阿姆斯特丹大学Smeulders QUVA实验室摘要本文致力于跟踪视频中的目标对象。与其在视频的第一帧中通过边界框指定目标，我们建议基于目标的自然语言规范来跟踪对象，这提供了更自然的人机交互以及改善跟踪结果的手段。我们通过语言规范定义了三种跟踪变量：一个仅依赖于语言目标规范，一个依赖于基于语言的视觉目标规范，以及一个利用它们的联合能力。为了展示自然语言规范跟踪的潜力，我们扩展了两个流行的跟踪数据集的语言描述和报告实验。最后，我们还勾画了新的跟踪方案，在监视和其他实时视频流，成为可行的语言规范的目标。1. 介绍本文的目标是跟踪视频中的目标，这是计算机视觉领域的一个长期挑战。常见的方法是通过对象周围的绑定框来指定目标，并在目标在整个视频中移动时跟踪该目标[38，33，20]。该范例已被证明是有效的，并取得了相当大的进展[17，37，34，3，11]。然而，具有可用的边界框目标规范在本文中，我们提出了一种新的方法，在视频中的对象跟踪，除了或相反，通过一个包围盒的目标规格我们的灵感来自对象检索的最新进展[15，14，26]。Huet al. [15，14]和Maoet al. [26]提出了一种递归神经网络，能够仅通过自然语言查询来定位图像中的对象，或者返回边界框[15]或者自由形式的片段[14]。为了解决语言歧义问题，Maoet al.引入唯一地描述图像中对象的引用表达式。然而，与静止图像不同，在视频中，对象可以改变它们的外观和位置，背景也可以从帧到帧显著地变化。即使视频帧包含相同的对象类别，该图1：通过自然语言规范的跟踪允许在对象跟踪中实现新型的人机交互。它通过帮助标准跟踪器对抗漂移来增强它们它还为新的应用开辟了机会，如随机开始跟踪，例如当目标丢失时，或同时多个视频跟踪。对象可能具有不同的外观、在不同的位置或在不同的背景中，从而使得任何描述都具有挑战性。与[15，14，26]不同，我们不检索但跟踪来自自然语言规范的视频中的感兴趣对象。首先，本文的贡献是通过自然语言规范进行跟踪，这允许在跟踪中进行一种新型的人机交互，参见图1。在一些现实生活中的应用中，例如机器人或自动驾驶，通过描述来定义目标更自然，例如“追踪中间车道的红色汽车”作为第二个贡献，我们定义了三种变体的跟踪语言规范，这是主导的语言目标规范，视觉目标规范，或利用他们的联合能力。作为第三个创新，我们丰富了标准6496从人类提供的边界框跟踪我们的语言规范。为了展示通过自然语言规范进行跟踪的潜力，我们使用语言描述和报告实验扩展了OTB100 [38]对象跟踪数据集和ImageNet Video Object Detection数据集[31]。最后，我们还勾画了新的跟踪应用场景的监控和其他实时视频流，成为可行的语言规范的目标。2. 相关工作跟踪. 最近的综述[38，33]涵盖了单目标跟踪的广度和深度，包括对许多不同的动态因素的概述，以克服现场的一般条件：光照不均匀、阴影投射、反射以及对目标的影响：形状变化，以及与其他对象的关系：遮挡、相似的近距离物体、与背景的杂乱，以及摄像机：快速运动和缩放。OTB [38]、ALOV [33]和VOT[20]等各种基准测试总体上加速了跟踪器的性能，并且它们导致了跟踪方法的收敛。许多现代跟踪器依赖于判别式过滤器[4，12，7]。虽然最初选择快速傅立叶变换来快速计算一个通道，但Danell- jan等。[10]使用多个通道来增强相关滤波器的辨别。Henriques等人[12]引入核化过滤器，以进一步细化对当前跟踪情况的特征修剪。Ma等人[25]用长期记忆丰富模型，而Danelljan等人。[8]提出了一个尺度不变的版本和刘等人。[24]使用结构化相关滤波器。它们都是为了提高判别相关滤波器对不同跟踪环境的鲁棒性，以及提高判别目标和背景的通用性。在[6，5]中，神经网络通过基于注意力的跟踪来帮助将跟踪聚焦在目标上。Wang等人[36]通过在线训练将深度网络优化转化为序列集成学习在[28] Namet al.允许对多于一个域进行微调，其中每个域由单个训练序列表示在[34，3]中，跟踪被转换为使用暹罗网络架构的实例搜索。目标的原始窗口通过相似性函数与来自当前帧的候选窗口进行比较，该相似性函数在跟踪开始之前从许多示例中学习由于它们的功能与稳定的原始数据相似，并且在跟踪期间不会更新，因此暹罗跟踪器实现了最先进的性能和从丢失中恢复，同时对查询定义中的变化具有鲁棒性[34]。由于我们预计开始框的定义很草率，因此我们依赖于上述方法中的最后一种。我们采用[34]中的暹罗跟踪器作为我们的起点对于我们模型中的视觉对象跟踪，对于其对起始框定义中的错误的鲁棒性。此外，暹罗跟踪方案的优点在于，它不依赖于模型动态，因此只要语言描述有效，它就可以在任何时间重新启动自然语言和图像。所有上述跟踪方法的共同之处在于，它们要求用户在第一帧中提供围绕目标的边界框。在这项工作中，我们不需要在任何框架中的边界框。当提供有目标框时，这里描述的方法对于增强跟踪仍然有效。相反，我们根据目标的语言描述进行跟踪多年来，自动描述图像的内容一直是计算机视觉中的一个重要挑战，例如，[27，29]。自从递归神经架构变得可用以来，人们的兴趣已经增加[35，18，16]，并获得了令人印象深刻的定性和定量结果。在这些编码器-解码器模型中，编码器通常是CNN [32]，而解码器由LSTM单元[13]组成，顺序预测caption中的单词。由于评价字幕是主观的，最近已经转向问答任务[1，21，40，22]。在本文中，我们还考虑了视觉外观和语言描述之间的相互作用。与[21，27，29，35，18，16，40，22]相比，自然语言是系统的输出，对于我们的跟踪器，指定一个或多个目标的自然语言表达式是输入。最近[15]提出了通过自然语言规范进行对象检索的任务。一个相关的主题是零拍摄对象定位[23]，其中对象是从先前看不见的对象的口头描述中定位的。其中[23]学习属性和对象片段外观之间的匹配函数，[15，14]学习片段外观和语言查询之间的匹配函数由于一个句子可以匹配图像数据集中的许多块，Huet al.[15，14]将其视为图像中的对象分段检索问题。他们根据与句子描述的估计相似性对图像位置进行排名。在参考文献[23，15，14]中，一个句子被认为是一个完整的图像。很难将这种方法推广到单一的静态图像之外，因为与一个帧相关的句子不一定与所有帧相关。我们提出了一个模型，定位视频中的目标，并学习如何参加查询的这些部分时，随着时间的推移变得或多或少相关。我们的注意力模型条件文本的视频帧，从别人不同，例如。Bahdanau等人who conditiontext on text [2]，or Xuet al.谁的条件图像上的文字[39]。最终，我们结合语言规范与跟踪视觉规范的基础上随着时间的推移。6497不不不不不不不不3. 通过自然语言规范进行跟踪给定视频中的一个帧和一个自然语言表达式作为查询，我们工作的目标是跟踪视频中的目标，由表达式指定。为了实现这一目标，我们提出了三个模型，如图2所示。过滤器被学习，然后与连接的语言和视觉特征进行卷积。在获得所生成的动态滤波器之后，我们对增强图像特征图It进行卷积：Alanguage=vlanguageIt，（2）t t模型I：仅其中，A语言是帧ft的响应映射附，附第一个模型依赖于语言规范仅用于跟踪。模型I利用语言规范网络来分析文本描述并在任意视频帧中定位目标，如图2所示。为了分析语言规范，我们首先将每个单词嵌入到向量中，并使用LSTM网络扫描单词嵌入序列。对于输入序列W=（w1，...，w K）有K个单词，在每个时间步i，一个LSTM为所述特征图中的每个位置计算分类分数。该网络以完全卷积的方式应用于输入图像。为了在一系列帧上跟踪对象，语言规范网络被重复地应用，并且对于每个帧独立地应用，即：t= 0，. . . ，T：x language= arg max A language（r），网络将第i个单词嵌入wi作为输入和输出，t tr∈R（三）将其隐藏状态置为hi。通过这种方式，语言规范由LSTM网络的隐藏状态编码。我们选择在最后一个时间步K的隐藏状态hK作为整个表达式的表示。我们使用深度CNN来提取一个内部的视觉特征图，其中，A语言（r）是响应图的输出，A语言用于区域r，R是目标的所有候选位置，T是视频帧的数量。因此，随时间的跟踪轨迹是x语言，t =把框架。为了使模型能够推理空间关系，例如我们使用相对坐标，将它们正规化为（-1，+1）。帧ft的增强特征图It现在包含局部视觉和空间描述符两者。动态卷积层。为了定位视频帧中的目标，我们提出了一个动态卷积层。该层根据文本查询动态生成新的卷积过滤器在第一帧中，关于目标的唯一信息是由LSTM 的最后一个隐藏状态编码的语言规范，即st=LSTM（W）=hK。因此，我们只根据语言输入生成特定于目标的视觉过滤器。采用单层感知器将语义信息转换为卷积视觉滤波器v语言：v语言=σ（Wv st+bv），（1）其中σ是sigmoid函数，并且v语言具有与图像特征图It相同的通道数。我们对视频中的所有帧使用与CNN中的一般静态过滤器不同，动态生成的过滤器可以被认为是由语言规范的语义专门化和微调的例如，目标规范0，. . . 、T.模型I详细信息。我们采用VGG-16 [32]作为输入帧的全卷积网络架构，将fc 6，fc 7和fc 8视为卷积层。所有的LSTM单元都有1000维的隐藏状态。由于语言表达式中没有空间范围编码，因此我们为v语言生成1×1动态卷积滤波器。然后执行动态卷积在FC8层输出的特征图上。为了使用分割掩码进行训练，我们进一步对响应图A语言进行上采样，以产生与输入图像大小相同上采样使用步幅32 [14]用去卷积层来实现。在测试过程中，我们还提出了一个边界框的目标在视频帧中所描述的语言表达式输入的位置我们使用简单的阈值首先分割的区域，其响应值是在响应图中的最大值的50%以上。然后，我们取覆盖二进制分割图中最大连通分量的边界框。模式二：先舌后目第二模型依赖于用于识别第一帧中的目标的位置的语言规范然后，将发现的目标用作视觉跟踪器的视觉规格，例如，[34，9]。因此，模型I和模型II的第一步是相同的，即在第一个框架上应用语言规范网络，即x视觉=x语言。然后，使用xvisual初始化t=0t=0t=0“棕色”和“狗性” 这种方法是，有-比[14]更有弹性的是，视觉跟踪器，即，图中的视觉规范网络ure2.不6498不不不不不tt不图2：我们通过自然语言规范进行跟踪的三个模型。在第一个查询帧（t=0）中，所有三个模型都依赖于语言规范网络来识别目标。LSTM扫描文本查询并提供动态过滤器生成层，该层生成新颖的视觉过滤器以卷积帧在随后的帧（t=1、2、3、. ），模型I仅通过语言规范来跟踪目标，在所有帧上独立地应用语言规范网络模型II将与从第一帧识别的目标相对应的视觉补丁作为视觉规范网络的输入，该视觉规范网络采用CNN来动态生成视觉过滤器并将输入帧与过滤器进行卷积模型III共同依赖于语言和视觉规范。视觉规范利用视觉规范网络，而语言规范利用语言规范注意力网络，包括选择性地关注语言描述的部分的注意力模型。动态卷积层。与语言规范网络类似，我们也依赖于动态卷积层来生成关于视觉目标的过滤器。然而，不是采用目标的语言规范来生成卷积滤波器，而是在[ 34 ]之后，我们采用CNN来生成目标的视觉特征作为我们的其中，B=ft=0（x语言）是对应的图像块。型号II的细节。视觉规范网络也被实现为完全卷积网络[3]。我们使用VGG-16 [32]作为输入帧和视觉目标B的CNN架构。它们共享所有层中的参数我们连接来自conv3和conv4输出的特征图以生成动态过滤器vvisal并产生输入帧的特征It在conv3之后使用池化层以确保相同的特征图大小。最后，我们通过以下方式计算对象的跟踪轨迹：t=0视觉语言响应于在第一帧中检索到的位置，语言规范网络我们选择不更新视觉模型vvisual，而目标仍然可能随着时间的推移出现不同。我们依靠离线训练而没有任何在线更新来处理目标的视觉变化[34，3]。在获得滤波器之后，我们对输入帧ft的特征图It进行卷积，如下所示：Avisual=vvisualvisual，（5）t= 0：xt=xtt >0：xvisual= arg maxAvisual（r）（6）r∈R其中Avisual（r）是视觉跟踪器的响应图A visual对于区域r的输出模型III：语言和视觉规范第三种模式共同依赖于语言和视觉规范，t t用于跟踪。视觉规范网络是其中A视觉是关于视觉目标的帧f t的响应图。再次用在第一帧中由语言规范识别的视觉目标进行初始化。但不同6499不不˜不语言不不˜不不不不˜tt˜˜从模型II开始，舌侧规格也用于其余框架。特别是，语言说明注意力网络与选择性地关注语言描述的部分的注意力模型一起使用，如图2所示。注意力模型。我们从网络建筑师开始-在前面的章节中介绍了然而，我们因此，语言规范必须随着时间的推移而调整，因为目标文本可能具有与后续文本不相关的单词。预测时，我们首先将来自语言A语言和视觉目标A视觉的响应图连接起来。然后，通过对堆叠的响应图应用1×1卷积来获得最终响应图，即Alinguovisual=β[Avisual，Alanguage]，（9）其实质上是堆叠的响应图的加权平均。对于模型III，我们通过以下方式计算对象的跟踪t= 0：xlinguovisual=x语言跳转例如，在语言规范“穿蓝色衬衫和背包的人在树旁边”中，参见图2，在该人已经走开之后，规范“在树旁边”是不相关的因此，我们在语言跟踪网络中开发了一个注意力模型，以选择性地关注关于视觉目标的语言规范的部分。注意力模型的目标是关注目标语言规范中更有可能在整个视频中保持一致的部分。我们再次将每个单词嵌入到向量中，并使用LSTM网络生成隐藏状态h i，i=1、…K 从单词序列W=（W1，...，w K）。而不是在最后一个时间步，我们计算语言的表示，t tt >0：xlinguovisual= arg maxAlinguovisual（r）（10）r∈R其中 Alinguovisual （ r ）是视觉跟踪器的响应图 Alinguovisual对于区域r的输出端到端学习。所有呈现的网络架构都是用视频帧进行端到端训练的假设我们获得最终的响应图A，其中A可以是{A语言，A视觉，A语言视觉}和二进制输入帧的地面实况标签Y。损失函数对于训练样本，定义为所有响应图位置的平均值：WH规范作为这些隐藏状态的加权和：Σ1L=WHLizii ji=1j =1、（11）st=i=1（7）第一节其中W和H是响应的宽度和高度地图L是物流损失，定义如下：其中权重α i，i = 1，...，K表示“重要”一词--钱。权重是由一个多层次的神经网络计算的，tron通过CNN以每个单词位置处的隐藏状态hi和目标B的视觉特征z为αi=Wα φ（Wh hi+Wz z+b）+bαLij= log（1 + exp（−A ij Y ij））。（十二）当我们具有真实分割掩码时，二元标签Yij指示像素（i，j）处的二元标签。然而，对于跟踪，如果我们没有像素标签，α=P（i|h，z）=αexp（αi）（八）处置，我们计算响应的物流损失i iKl=1 exp（αl）映射，其中每个条目对应于中的边界框原始图像。一个条目被认为是积极的，如果其中φ是一个整流线性单元（ReLU），注意力权重也使用softmax进行归一化。注意力权重基本上是通过将视觉目标与每个单词位置处的单词序列进行匹配来生成的。因此，与目标对象属性而不是上下文相关的单词更有可能被强调。例如，在图2中，随着时间的推移，注意力权重将更多地集中在“穿着蓝色衬衫和背包的男人”上一旦我们有了注意力加权表示st，我们就生成特定于目标的过滤器v语言，并通过卷积输入图像特征图It如等式2中所示。1，eq. 二、Model III细节再次，我们基于从第一帧中的语言规范导出的视觉目标B产生响应图A视觉。以获得最终如果其对应框与地面实况框之间的交集大于并集，则阈值τ（τ= 0. （七）.4. 实验4.1. 数据集99. honeymoon 流行的OTB100 [37]对象跟踪数据集包含被跟踪目标的100个视频，其中51个来自OTB51 [38]。由于我们对通过自然语言规范进行跟踪感兴趣，因此我们使用目标对象的自然语言描述来增强OTB100中遵循[19]中的指导方针，我们要求注释者对目标进行区分性引用描述为了公平起见，注释器仅基于第一帧来描述目标。我们扩展了OTB100集，每个视频的每个目标都有一个句子描述作为注释者K6500P@0.5P@0.6P@0.7P@0.8P@0.9整体IoUHu等人[14个]34.026.719.311.63.948.0Hu等人[15]（来自[14]）11.97.74.31.50.317.8Rohrbach等人[30]（来自[14]）14.19.65.82.70.620.1语言规范网络（Lingual SpecificationNetwork）38.631.323.314.85.954.3表1：通过语言规范进行目标识别。我们评估了我们的语言规范网络在自然语言表达[14]的分割任务中的精度，以及不同重叠阈值和整体IoU。无法描述一个视频，我们到达Lingual OTB99。OTB51个视频用于微调，其他48个用于测试结果。Lingual ImageNet视频我们从最近引入的ImageNet视频对象检测数据集[31]开始，为25个对象类别中的每个类别选择4个视频。然后，我们按照类似的步骤增加100个视频，99. honeymoon我们要求注释器在视频的第一帧上返回目标对象的查询描述。同样，我们使用50个视频进行微调，另外50个用于报告结果。参考文献[19]。参考数据集在[19]中提出，用于通过自然语言表达进行对象定位和分割的任务。它是最大的公开可用的数据集，包含注释的自然语言表达式在分割的区域上。它包含大约20，000张图像和130，525个表达式，注释在96，654个分割的图像区域上。我们遵循[14]并使用10，000张图像进行训练和验证，并使用10，000张图像进行测试。4.2. 实现细节训练为了训练语言规范网络，我们首先使用分割掩码在 ReferIt [19] 数据集上预训练网络，因为来自Lingual OTB99和Lingual ImageNet Videos的语言查询仍然有限。对于视觉规范网络，我们不使用完整的图像作为输入，而是按照[3]在目标框位置的中心周围裁剪一个大的搜索区域。网络从ImageNet分类任务的预训练模型初始化 [31] 。我们使用 Lingual OTB99 或Lingual ImageNet Videos的训练视频对其进行微调。同样，我们的联合模型也是基于使用 ReferIt [19] 和ImageNet分类数据集的预训练网络进行微调的。所有网络的参数都是用带有动量的标准SGD求解器训练的。评价标准。根据OTB51 [38]中的标准协议，我们报告了我们对所有数据集与AUC（曲线下面积）得分度量。4.3. 通过语言规范进行目标识别我们首先评估语言规范网络的目标识别能力。由于单帧目标识别类似于自然分割任务的语言表达，我们评估的任务后，协议的胡等。[14]在参考文献[19]上，并与其他最先进的方法进行比较，见表1。我们的模型的语言规范网络导致二、0- 4 与[14]一致，所有重叠阈值的精度提高6%也获得了6。整体IoU的准确度提高了3%，IoU的定义为交叉区域除以联合区域，其中两者在所有测试样本上求和。我们观察到，我们的语言规范网络，动态生成视觉过滤器是更强大的视觉和语义更丰富的图像。这表明语言规范网络比[14]从训练集中看到我们的结论是，我们的语言规范网络允许国家的最先进的目标定位的基础上自然语言描述。4.4. 通过自然语言规范进行跟踪在这个实验中，我们通过第3节中的自然语言规范来评估我们的三个模型。我们在第一帧中丢弃用户指定的边界框，所有模型仅依赖于文本查询来跟踪目标。我们在图3中展示了我们对Lingual OTB99的结果。在该图中，根据第一帧中的目标识别的准确性，沿着y轴对视频进行排名如图3所示，在初始目标识别精确的视频中，模型II（首先是语言，然后是视觉规范）和模型III（语言和视觉规范）通常比模型I（仅语言规范）表现得更好，而当初始目标识别较差时，模型I更准确。模型I仅依赖于语言规范，在处理存在多个语义上接近的对象或语言描述的某些部分（如空间关系）不再相关的情况时存在困难。在模型II和模型III中，视觉跟踪器在初始帧中给定精确目标识别的情况下良好初始化时，能够更好地处理上述场景。请参见图4中的一些示例。因此，在初始帧目标识别精度较高的情况下，模型II和模型III往往比模型I更准确。然而，当在第一帧中通过语言规范的目标识别不够好时，6501型号I型号II型号IIILingual ImageNet 26.323.323.4表2：我们的三个模型在Lingual ImageNet Videos上按语言规范进行跟踪的性能。由目标规范初始化的Model II和Model III中的视觉跟踪器也失败。更糟糕的是，它对后续帧有相比之下，模型I，跟踪的语言规范，只有没有负面的累积效应，因为每个帧是独立对待。因此，模型I在初始目标规格较差时工作得更好。模型III通常比模型II更好当背景杂乱或第一帧目标初始化包含额外的背景像素时，模型II可能容易丢失目标与模型II相比，模型III中的语言跟踪组件可以利用语言表达所携带的语义信息来在一定程度上解决背景混乱和目标初始化不准确的情况Lingual ImageNet视频的结果如表2所示。请注意，ImageNet视频在跟踪变化方面比OTB100视频在视觉上更受约束。此外，在ImageNet视频中，感兴趣的目标通常位于相机视图的中心。因此，基于初始帧给出的语言描述（包括空间上下文信息）通常适用于序列的大部分，并且它使得仅通过语言规范进行跟踪通常是足够的。一般来说，当第一帧的语言特征识别效果较好时，语言特征和视觉特征联合跟踪模型的否则，仅通过语言规范的跟踪是有利的。图3：我们的三个模型在语言OTB99上按语言规范进行跟踪的性能。根据第一帧中的目标识别结果对视频进行排序。当第一帧中的目标识别是准确的（上半部分）时，通过语言和视觉指定的联合跟踪通常优于其他模型。当目标识别较差时（下半部分），通常仅通过语言规范进行跟踪更好。4.5. 按语言和包装盒规格在下一个实验中，我们更新了模型II和模型三.我们使用用户指定的边界框作为我们的视觉规范，而不是通过语言规范来推断第一帧中的目标位置，就像在标准的视觉对象跟踪设置中一样，即x用户框。对于剩余的帧，我们依赖于这个预定义的视觉规范来在模式II（框规范）中初始化视觉跟踪器，以及在模式III（语言和框规范）中通过语言和视觉规范初始化联合跟踪。我们还与只使用语言规范的模型I进行了我们在表3中显示了使用AUC评分的评估。用户指定的句子与用户指定的边界框相结合，使性能从56.1%提高到57.8%表3：按语言和包装盒规格进行跟踪。在Lingual OTB99上从47.9%增加到49.4%。在检查图5中的定性结果时，我们观察到语言组件的跟踪有助于防止漂移。在最上面一行，滑冰者变形太快，边界框无法适应，这个问题在添加语言跟踪时会得到解决。在底行中，边界框将目标行人与白色杆混淆，因此目标将丢失。结合边界框与跟踪的语言，正确地理由的目标女孩，直到最后，尽管前，语言规范包装盒规格语言和包装盒规格舌型OTB9925.956.157.8语言ImageNet26.347.949.46502图4：通过自然语言规范进行跟踪的示例。地面实况，模型I：仅通过语言规范进行跟踪，模型III：通过语言和视觉规范进行联合跟踪。在最上面一行中，纯语言模型变得混乱，因为存在另一辆车在最下面一行中，只有语言的模型将目标（一个小女孩）与其他人混淆。联合模型在这两种情况下都更加稳健。图5：通过自然语言规范添加用户指定的边界框来跟踪。地面实况，仅通过框规范进行跟踪，类似于SINT [34]，按语言和包装盒规格进行联合跟踪。treme规模变化。我们的结论是，当一个用户指定的边界框是可用的，添加语言规范在更强大的跟踪，更好地处理意外漂移的到来。4.6. 实现新颖的跟踪场景按语言跟踪的独特属性是相同的目标文本查询可以应用于多个视频。这与标准跟踪形成鲜明对比，在标准跟踪中，用户分别定义每个视频中的目标。更重要的是，通过自然语言规范的跟踪不需要定义查询的“第一帧”。这与实时流视频相关，其中用户否则将需要参加所有帧以设置目标。我们在两个视频中定性地展示了这两个新的应用程序，如图6所示。我们对多个视频使用相同的查询，并在它们开始之前添加不相关的帧该算法能够在两个视频中跟踪一个穿蓝色裤子的男人，该男人第一次出现在视频1的帧25实际上，通过语言规范的跟踪允许在多个视频中进行跟踪，并且图6：新颖的应用：I）同时跟踪多个视频中的目标。使用标准跟踪，每个新视频都需要指定目标。在跟踪的语言“男子与蓝裤子”适用于所有相关的视频，当然当运行在同一时间。II）在任意时间戳开始跟踪。标准跟踪器不能直接用于任意视频，因为用户需要首先浏览帧以找到感兴趣的目标。我们的跟踪可以通过语言描述来初始化，一旦合适的目标出现，就可以启动跟踪过程。这两个应用程序都是理想的跟踪在现场监视.从任意帧开始跟踪。这两种情况都是标准跟踪器无法提供自然解决方案的情况。我们的结论是跟踪语言规范铺平了道路，在视觉对象跟踪的新应用。5. 结论我们提出了跟踪自然语言规范作为替代跟踪人类提供的边界框规范。我们展示了如何可以实现这样的跟踪提出了三个模型建立在一个共同的神经网络架构。我们扩展了两个著名的跟踪数据集与句子描述感兴趣的目标，以显示的潜力，跟踪自然语言规范的三个模型。我们的实验表明，在确定目标位置的语言目标规格的能力，调查目标的语言，视觉和联合规格之间的权衡时最后，我们勾画了新的跟踪场景，在监控和其他实时视频流，成为可行的语言规范的目标。致谢这项研究部分得到了STW故事项目的支持。6503引用[1] S. Antol，A. Agrawal，J. Lu，M.米切尔，D。巴特拉角L. zitnick和D.帕里克VQA：可视化问答。在ICCV，2015年。2[2] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器2015年，国际会议。2[3] L.贝尔蒂内托瓦尔马德雷J. F.亨里克斯A. Vedaldi和P. H. S.乇用于目标跟踪的全卷积连体网络。2016年ECCV研讨会。一、二、四、六[4] D. S.博尔梅贝弗里奇湾A. Draper和Y. M.律使用自适应相关滤波器的视觉目标跟踪。CVPR，2010。2[5] J. 崔H. 金张，J. 郑Y. 德米里斯，崔永使用注意调制分解与整合的视觉追踪。在CVPR，2016年。2[6] Z. Cui，S. Xiao，J. Feng，and S.燕.循环目标跟踪。在CVPR，2016年。2[7] M. 达内尔扬湾 H？ge r，F. khan和M. 费尔斯贝河学习空间正则相关滤波器的视觉跟踪。在ICCV，2015年。2[8] M. Dane l ljan，G. H？ge r，F. ShahbazKhan和M. 费尔斯伯格。用于鲁棒视觉跟踪的精确尺度估计。InBMVC，2014. 2[9] M. 达内尔扬湾 H？ge r，F. ShahbazKhan和M. 费尔斯贝河训练集的自适应去污：判别式视觉跟踪的统一公式。在CVPR，2016年。3[10] M. Danelljan、F. Shahbaz Khan，M. Felsberg和J. van deWeijer。实时视觉跟踪的自适应颜色属性。CVPR，2014。2[11] D. Held，S. Thrun和S. Savarese学习使用深度回归网络以100在ECCV，2016年。1[12] J. F.恩里克斯河Caseiro，P. Martins，and J.巴蒂斯塔核化相关滤波器的高速跟踪。TPAMI，2015。2[13] S. Hochreiter和J.施密特胡博长短期记忆。神经元计算，1997年。2[14] R. Hu，M. Rohrbach和T.达雷尔。从自然语言表达式中分割。在ECCV，2016年。一、二、三、六[15] R. Hu，H.Xu，M.Rohrbach，J.Feng，K.Saenko和T.达雷尔。自然语言对象检索。在CVPR，2016年。一、二、六[16] X. Jia、E.加夫韦斯湾Fernando和T. Tuytelaars用于图像字幕生成的引导式长短期记忆。在ICCV，2015年。2[17] Z. Kalal，K. Mikolajczyk和J.马塔斯跟踪-学习-检测TPAMI，2012年。1[18] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。 CVPR，2015。 2[19] S. Kazemzadeh，V. Ordonez M. Matten和T. L.伯格。推荐游戏：指自然景物照片中的物体。在EMNLP，2014年。五、六[20]M.作者：J. Matas，A. Leonardis，T.沃吉尔河弗卢格费尔德，G. Fern a'ndez，G. Nebeha y，F. Porikli和L. 干杯一单目标跟踪器的新性能评估方法TPAMI，2016. 一、二[21] G. 库尔卡尔尼河谷Premraj，S.Dhar，S.Li，Y.Choi，A.C. Berg和T. L.伯格。深度学习问答CVPR，2011。2[22] R. Li和J. Jia.问题表示更新（Question RepresentationUpdate，QRU）。在NIPS，2016年。2[23] Z. Li，E.Gavves，T.Mensink和C.斯诺克属性对分段对象有2014年，在ECCV。2[24] S. Liu，T. Zhang，X. Cao和C.徐用于鲁棒视觉跟踪的结构相关滤波器。在CVPR，2016年。2[25] C.妈，X。杨角，澳-地Zhang，M. H.杨长期相关跟踪。CVPR，2015。2[26] J. 毛氏H.Jonathan，A.托舍夫岛Camburu，A.尤尔，还有K. 墨菲无歧义对象描述的生成和理解在CVPR，2016年。1[27]M.米切尔，J。道奇，A. Goyal，K.山口K. Stratos，X. Han，A. Mensch、A. C.伯格，T. L. Berg和H. 道梅三 . Midge ：从计算机视觉检测生成图像描述。InEACL，2012. 2[28] H. Nam和B.韩视觉跟踪的多域卷积神经网络学习。在CVPR，2016年。2[29] V. Ordonez，G. Kulkarni和T. L.伯格。Im2text：使用100万张带标题的照片描述图像。NIPS，2011年。2[30] A. 罗尔巴赫 M. 罗尔巴赫 R. 胡 T. Darrell和B.席勒通过重构实现文本短语在图像中的扎根。在ECCV，2016年。6[31]O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A. 卡帕西A.科斯拉，M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。IJCV，2015年。二、六[32] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。ICLR，2015年。二、三、四[33] A. W. M. Smeulders，D.斯穆尔德斯D.M. 楚河，巴西-地库奇亚拉，S。卡尔德拉拉A. Dehghan，和M。Shah. 视觉跟踪：一项实验调查。TPAMI，2014年。一、二[34] R. Tao，E. Gavves和A. W. M.史默德斯暹罗即时搜索跟踪。在CVPR，2016年。一二三四八[35] O. Vinyals，A. Toshev，S. Bengio和D.二汉Show andtell：A neural image caption generator. CVPR，2014。2[36] L. Wang，W.欧阳X. Wang和H.陆STCT：用于视觉跟踪的序列训练卷积网络。在CVPR，2016年。2[37] T. Wu，Y. Lu和S.竹使用与或图进行在线对象跟踪、学习和解析。TPAMI，2015。一、五[38] Y. Wu 、 J. Lim 和 M.- H. 杨在线对象跟踪：基准。CVPR，2013。一、二、五、六[39] K. 徐，J.巴河Kiros、K.Cho，A.C. 库维尔河萨拉胡特-迪诺夫河S. Zemel和Y.本吉奥。显示、出席和讲述：具有视觉注意的神经图像字幕生成。ICML，2015。2[40] B. Zhou，Y. Tian，S. Sukhbaatar，A. Szlam和R.费格斯。简单的视觉问答基线。arXiv，2015. 2

下载后可阅读完整内容，剩余1页未读，立即下载