基于深度编码的零示例视频检索

120 浏览量更新于2023-10-20 收藏 888KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于零示例视频检索的浙江工商大学计算机与信息工程学院，董建峰1，李喜荣2，3，徐朝喜3，季守玲4，5，何元6，杨刚3，王迅112中国人民大学数据工程与知识工程重点实验室3中国人民大学信息学院AI4浙江大学5阿里巴巴-浙江大学前沿技术联合研究院6阿里巴巴集团摘要查询方式：有人在做一种特殊的水果饮料，不同种类的水果在一个玻璃碗。本文针对零示例视频检索这一具有挑战性的问题进行了研究.在这样的检索范例中，多级编码查询视频军衔相关项目Top-1视频最终用户通过特殊查询搜索未标记的视频× ×23以自然语言文本描述，没有可视示例提供了给定作为帧序列的视频和作为词序列的查询，17需要交叉模态匹配大多数存在-搜索方法是基于概念的，从查询和视频中提取相关概念，并相应地建立两种模式之间的联系相比之下，×113本文采取了一种无概念的方法，提出了一个双重的深度编码网络，将视频和查询编码为强大而致密的表征。Dual encod-1 11它在概念上简单，实际上有效，结束作为三个基准上的实验， MSR-VTT ， TRECVID 2016 和 2017 Ad-hoc Video Search 显示，所提出的解决方案为零示例视频检索建立了新的最先进技术。1. 介绍本文针对零示例视频检索，其中查询是用自然语言文本描述的，没有视觉示例。这个主题从根本上讲是有趣的，因为它需要建立适当的视觉和语言信息之间的关联，在时间顺序。零示例视频检索以零示例多媒体事件检测的形式吸引了最初的关注，其中目标是检索显示特定事件的视频镜头，例如停车，狗展和生日李锡荣为通讯作者（xirong@ruc.edu.cn）。图1.使用和进行零示例视频检索的展示没有所提出的编码。符号表示encod-通过平均池化。第三列中的数字是检索模型返回的相关视频的排名，这些视频受到特定查询/视频编码策略的影响。双编码的检索模型成功地回答了这个复杂的查询。党，但没有提供培训视频[3，6，9，12，20，31]。所有这些方法都是基于概念的，即。通过自动检测的概念来描述视频内容，所述概念用于与目标事件匹配这样一种基于概念的传统仍在继续。对于 NISTTRECVID挑战的零示例视频检索[2]，我们观察到表现最好的大多是基于概念的[15，22，25，30]。然而，基于概念的范式面临着许多困难，包括如何指定一组概念，如何为这些概念训练好的分类器，以及更多的关键问题。93461×9347如何为视频和查询表示选择相关和可检测的概念[20]。本文与这些作品不同，因为我们的目标是一种无概念的方法，可以直接学习视频和查询的常见语义嵌入。已经做出了很好的努力来学习零示例视频检索的两种模态的在[34]中，查询语句由递归神经网络向量化，而[24]由递归神经网络向量化给定的句子。在这两个作品中，一个特定的视频是矢量化的平均池的视觉特征的帧。与[24，34]不同的是，我们在公共空间学习之前为视频和查询提出了双重多级编码如图1所示，新的编码策略对于描述复杂的查询和视频内容至关重要。我们的假设是，一个给定的视频/查询必须首先编码成一个强大的表示自己。我们认为这样的分解至关重要，因为它允许我们设计一个编码网络，联合利用多种编码策略，包括均值池，递归神经网络和卷积网络。在我们的设计中，一个特定的编码块的输出不仅被用作后续编码块的输入它逐步生成新的、更高级别的功能。这些功能，在不同的水平上产生，是强大的，相互补充，使我们能够通过非常简单的拼接获得有效的视频（和句子）表示此外，双重编码与公共空间学习正交，使我们能够灵活地采用最先进的公共空间学习算法。综上所述，本文的主要贡献有以下几点。• 我们提出了视频和文本的多级编码，以学习这两种模式的共享表示因此，编码并不意味着直接的视频-文本匹配。这在概念上不同于将跨模态匹配作为一个整体来处理的现有工作。• 我们设计了一个新颖的双网络，它对输入进行编码以类似方式使其为查询语句或视频。通过联合利用多级编码，网络可以解释并逐步学习表示视频和句子中的全局，局部和时间模式在与公共空间学习正交的同时，整个模型以端到端的方式进行训练。• 双重编码，结合最先进的通信技术，Mon空间学习[8]建立了一种新的零示例视频检索技术，这是由其在三个搜索基准上的优异性能所支持的。代码和数据可在https://github.com/danieljf24/dual编码。2. 相关工作自2016年以来，TRECVID开始了零示例视频检索的新挑战，称为Ad-hoc Video Search（AVS）[2]。针对这一挑战的大多数排名靠前的解决方案依赖于视觉概念分类器来描述视频内容和语言规则来检测文本查询中的概念[15，21，22，25，30]。例如，[21，22]利用多个预训练的卷积神经网络（CNN）模型来检测视频帧中的主要对象和场景。在查询表示方面，作者设计了相对复杂的语言规则，从给定的查询中提取相关Ueki等人[30]拥有一个更大的概念库，由超过50k个概念组成。除了预先训练的CNN模型之外，它们还训练SVM分类器来自动注释视频内容。我们认为，这种基于概念的范式有一个根本的缺点。也就是说，如果不是不可能的话，也很难使用一些选定的概念来描述视频和查询中的丰富的顺序信息。随着深度学习在自然语言处理和计算机视觉研究中的巨大进步，我们观察到这些技术在视频检索中的使用越来越多[7，24，34，36，37]。通过直接将视频和文本编码到一个公共空间中，这些方法是概念自由的。对于视频编码，典型的方法是首先通过预训练的CNN模型从视频帧中提取视觉特征，并将帧级特征子集合为视频级特征。为此，均值池是事实上的选择[7，24，34]。为了明确建模的时间信息，Yu等。[37]使用长短期记忆（LSTM），其中帧级特征被顺序地馈送到LSTM中，最后一步的隐藏向量被用作视频特征。CNN在[36]中被利用上述工作都没有考虑一个以上的视频编码策略。对于查询语句编码，虽然词袋仍然很流行[10]，但深度网络的使用越来越多。递归神经网络在[34]中进行了研究，用于对从给定句子中提取的主语-动词-宾语三元组进行向量化。递归神经网络的变体正在被利用，请分别参见[37]，[36]和[24]中的LSTM，双向LSTM和门控递归单元（GRU）的使用。据我们所知，[7]是唯一一个寻求联合使用多个句子编码策略的工作，包括词袋，word2vec和GRU。然而，如前所述，该工作仅使用均值池进行视频编码。据我们所知，本文是第一个明确和逐步利用全球，本地和时间模式的视频和句子。9348平均合并，跳过连接1级编码最大池化2级编码级联三级编码2，048x1视频帧向前落后GRU GRUK=21 024x1公共空间学习1x512nx512K=52，048x11x512nx512nx2，048nx1，024向前落后7，807x1句话GRU GRUK=21 024x1一男孩1x512跳mx512K=4对1 536x1一1x512蹦床mx512Svmx7，807 mx1，024图2. 提出的用于零示例视频检索的双重编码网络的概念图。给定一个视频v和一个句子s，网络并行执行多级编码，即。平均池化，biGRU和biGRU-CNN，最终分别用两个组合向量φ（v）和φ（s）表示两个输入。这些向量随后被投影到一个公共空间中，我们使用VSE++[8]学习该空间，用于视频-文本相似度计算。注意，词袋向量f（1）的长度等于在MSR-VTT上训练时，训练词汇量是7,807。一旦网络经过训练，每一侧的编码都是独立进行的，这意味着我们可以离线处理大规模视频，并在运行中回答ad-hoc查询。3. 双重编码网络给定一个视频v和一个句子s，我们建议以一种双重方式对它们进行编码，表示为φ（v）和φ（s），以便于公共空间学习。如图2所示，对每个模态执行多级编码将编码结果组合以以粗到细的方式描述两种模态。视频和句子本质上都这样的性质允许我们设计一个双重编码网络-3.1.1一级。均值池根据我们的文献回顾，平均池，它表示一个视频简单地平均其帧的功能，可以说是最流行的选择零示例视频检索。根据定义，均值池捕获在视频内容中重复出现的视觉模式。这些模式往往是全球性的。我们用v′v表示这一层的编码结果，1Σn努力处理两种不同的模式。在下文中我们首先在视频侧描述网络。然后，我们指定文本所特有的选项。f（1）=nt=1vt.（一）3.1. 视频端多级编码对于给定的视频，我们以0.5秒的预定间隔均匀地提取n帧的序列。每帧我们使用预训练的ImageNet CNN提取深度特征，如通常用于视频内容分析[10，21，34]。因此，视频由特征向量{v1，v2，. . . .，v n}，其中v t指示第t帧的深度特征向量。请注意，3D CNN[29]当将帧的片段作为单独的项目处理时，也可以用于特征提取。3.1.22级基于biGRU的已知双向递归神经网络[27]对于利用给定序列的过去和未来上下文信息是有效的。我们假设，这样的网络也是有效的视频时间信息建模。我们采用双向GRU（bi-GRU）[5]，它比双向LSTM具有更少的参数，因此需要更少的训练数据。一个biGRU由两个分离的GRU层组成，即：一个是前向GRU一个是后向GRU前向GRU用于以正常顺序编码帧特征，而后向GRU用于以正常顺序编码帧特征。GRU独热编码......图片CNN单词嵌入...GRUGRUGRUGRUGRUGRUGRUGRUGRUGRU...GRU.....................9349SvSSv2345v vvs ssGRU以相反的顺序编码帧特征。让←−→−t和通过将来自所有三个级别的输出相关联，h不是它们在特定时间的对应隐藏状态步骤t = 1，. - 是的- 是的，n. 隐藏状态生成为φ（v）=[f（1），f（2），f（3）]. （六）→−−−→→−v v vht=GRU（vt，ht−1），（二）事实上，这种串联操作虽然简单，←−←−−←−ht=GRU（vn+1−t，ht−1），-−→←−−特征组合的常见做法[11，38]。3.2. 文本端多级编码其中GRU和GRU表示向前和向后GRU，其过去的信息由→−ht−1，→−ht−1，上述编码网络，经过微小修改，→−←−分别将ht和ht连接起来，我们得到双也适用于文本。→−←−GRU输出ht= [ht，ht]。隐藏向量在前向和后向GRU中，根据经验设置为512。因此，ht的大小为1，024。将所有输出放在一起，我们获得特征图H= {h1，h2，.，h n}，大小为1，024 ×n。基于biGRU的编码，de-记为h¯v，通过对H应用均值池化，行维度，即1Σn给定一个长度为m的句子s，我们表示它的单词通过一个独热向量。因此，独热向量{w1，w2，. - 是的- 是的，w m}，其中w t指示第t个字的向量。全局编码f（1）通过对序列中的所有单个向量求平均来获得。这相当于经典的词袋表示。对于基于biGRU的编码，首先转换f（2）= nt=1是的。（三）通过将其独热向量乘以单词嵌入矩阵。我们使用[7]提供的word2vec [23]模型初始化矩阵，该模型训练3.1.33级基于biGRU-CNN的局部增强编码上一层在每一步都平等地对待biGRU的输出。为了增强有助于区分细微差异视频的局部模式，我们在biGRU之上构建了卷积网络特别是，我们采用了最初为句子分类开发的1-d CNN [13]。我们CNN的输入是由前面的biGRU模块生成的特征图H。令Conv1dk，r是包含r= 512个大小为k的滤波器的一维卷积块，其中k≥ 2。在零填充之后，将H馈送到Conv1dk，r中，产生n×r特征图。通过在特征图上应用ReLU激活函数来引入非线性由于n对于视频是变化的，我们进一步应用最大池化来将特征图压缩为固定长度r的向量ck。更正式地，我们将上述过程表示为c k= max-pooling（ReLU（Conv1d k，r（H）））。（四）k= 2的滤波器允许H中的两个相邻行彼此交互，而较大k的滤波器意味着同时利用更多的相邻行。为了生成多尺度表示，我们部署了多个1-d卷积块，k= 2，3，4，5。它们的输出被连接以形成基于biGRU-CNN的编码，即。f（3）= [c，c，c，c].（五）由于f（1），f（2），f（3）是通过特定的编码策略在不同的层次上依次得到的，我们认为这是有原因的-word2vec在3000万张Flickr图片的英文标签上。其余部分与视频对应部分基本相同我们-注意，句子的基于biGRU的编码为f（2）。类似地，我们有基于biGRU-CNN的编码句子为f（3）。在这里，我们利用三个一维卷积块，k= 2，3，4。该方法将句子的三层编码结果串联起来，形成句子的多层编码。φ（s）=[f（1），f（2），f（3）].（七）由于φ（v）和φ（s）没有相关性，它们不能直接比较。对于视频-文本相似度计算，需要将向量投影到一个公共空间中，接下来将介绍其学习算法。4. 公共空间学习在众多的公共空间学习算法中，我们选择VSE++[8]有两个原因。首先，它是图像-文本检索的原始背景下的最先进技术其次，它的源代码是公开的1，这大大方便了我们的开发算法。给定编码的视频向量φ（v）和句子vec，对于φ（s），我们通过仿射变换将它们投影到一个公共空间中。从神经网络的角度来看，仿射变换本质上是一个完全连接（FC）层。在[8]的基础上，我们在FC层之后额外使用了一个批量归一化（BN）层，因为我们发现这个技巧很有用。把所有的东西放在一起，我们得到了视频可以假设三个编码结果是复杂的。9350彼此之间，有一些冗余。因此，我们1https://github.com/fartashf/vsepp9351特征向量f（v）和句子特征向量f（s），学习到的公共空间为2,048，边缘参数α为0.2。我们使用SGD与亚当[14]。小批量大小为128。初始学习率为0.0001，我们取f（v）=BN（Wv φ（v）+bv），f（s）=BN（Ws φ（s）+bs），（八）类似于[7]的调整时间表。也就是说，一旦验证损失在三个连续的时期内没有减少，我们就将学习率除以2。如果出现以下情况，则会发生提前停止：其中Wv和Ws是每一侧的FC层的参数，其中bv和bs作为偏置项。双重编码网络和公共空间学习网络以端到端的方式一起训练，除了用于提取视频特征的图像卷积是预先训练和固定的。设θ为所有可训练参数。使用f（v）和f（s）之间的余弦相似度2来计算受制于θ的视频-文本相似度，表示为Sθ（v，s）。我们使用改进的边际排序损失[8]，它根据最难的负样本对模型进行惩罚。具体地，相关视频-句子对的损失L（v，s;θ）被定义为：L（v，s;θ）=max（0，α+Sθ（v，s−）−Sθ（v，s））+max（0，α+Sθ（v−，s）−Sθ（v，s）），（9）其中，α是裕度常数，而s−和v−分别表示v的否定句子样本和s的否定视频样本。这两张底片不是随机抽样的。相反，选择当前小批次中最相似但否定的句子和视频整个网络被训练以最小化这种损失。5. 评价我们做了五个实验。首先，在[24]之后，我们在MSR-VTT数据集上执行文本到视频和视频到文本检索[33]。然后，我们在过去两年的TRECVID Ad-hoc视频搜索任务的背景下评估所提出的方法[1，2]。此外，我们评估MSVD [4]的跨数据集泛化和MPII-MD[26]的跨域泛化。在专注于视频检索的同时，我们在Flickr 30 k [35]和MS-COCO [19]上提供了一个额外的实验，以研究VSE++模型[8]（最先进的图像-文本检索模型）是否可以通过在文本侧用所提出的编码最后，对于用户即时提交查询的ad-hoc视频检索，检索速度很重要。因此，提供了效率测试在进行实验之前，我们详细介绍了我们的实现。我们使用PyTorch（pytorch.org）作为我们的深度学习环境。对于句子预处理，我们首先将所有单词转换为训练集，然后将训练集中出现少于五次的单词替换为特殊的标记。我们根据经验设定了验证性能在十个连续的时期中没有提高epoch的最大数量为50。5.1. MSR VTTSetup. MSR-VTT数据集[33]最初是为视频字幕开发的，由10 k个网络视频剪辑和200 k个描述剪辑视觉内容的自然句子组成。每个片段的平均句子数是20。我们使用官方的数据分区，即6，513个钛夹用于培训，497个钛夹用于确认，其余2，990个钛夹用于测试。对于方法比较，我们考虑[24]，第一个报告MSR-VTT视频检索性能的工作。最近的一项工作[36]也使用MSR-VTT进行了实验，但使用了非公共子集，使得其结果不可比较。我们包括W2VV [7]，另一个最先进的模型，代码可用3。W2VV使用均方误差（MSE）损失。因此，为了公平比较，我们通过用改进的边际排名损失代替MSE来调整模型，并从头开始训练它我们将该变体称为W2VVimrl。使用与[24]相同的2，048-dimResNet-152功能我们报告了基于等级的性能指标，即R@K（K=1，5，10），中位数等级（Med r）和平均平均精度（mAP）。R@K是在前K个检索结果中找到至少一个相关项的测试查询的百分比中值r是搜索结果中第一个相关项目的中值排名。更高的R@K、mAP和更低的Med r意味着更好的性能。为了进行总体比较，我们报告了所有召回的总和。注意，对于文本到视频检索，每个测试句子与一个相关视频相关联，而对于视频到文本检索，每个测试视频与20个相关句子相关联。因此，后者将具有更好的性能分数。与最先进技术的比较。表1显示了MSR-VTT的性能。虽然我们的目标是零示例视频检索，这对应于表中的文本到视频检索，但为了完整性，也包括视频到文本检索虽然[7]不如[24]有效，但让前者使用与后者类似的损失函数会带来相当大的性能增益，召回次数之和从90.3增加到132.1。结果表明，重要的是，在同一个共同的空间学习框架内评估不同的视频/文本编码策略。所提出的方法表现最好。消融研究。为了检验双编码网络中每个组件的有用性，我们进行了一个实验，2在我们的初步实验中，我们还尝试了欧几里得距离，但效果不太好3https://github.com/danieljf24/w2vv9352表1.最先进的MSR-VTT较大的R@{ 1，5，10}，mAP和较小的Med r表示更好的性能。方法根据其总体性能按升序排序。所提出的方法表现最好。文本到视频检索视频到文本检索表2. MSR-VTT的消融研究。总体性能（如调用总和所示）随着添加更多编码层而上升。利用所有三个级别的双重编码是最好的。文本到视频检索视频到文本检索研究结果如下。考虑到组件的不同组合，训练了七个模型表2总结表3. TRECVID2016上的最新技术。infAP方法视频和文本编码的选择以及相应的-TRECVID决赛名：ing性能。在各个编码级别中，Le等人[第十五条]0.054biGRU-CNN，它在bi-CNN的输出之上构建CNNMarkatopoulou等人[22日]0.051GRU是最有效的。随着更多的编码Liang等人[18个国家]0.040层包括在内，整体性能上升。为最后四个模型结合了前几层的输出，它们都优于前三个模型。这表明不同的层是相互补充的。完整的多级编码设置，即。表2中的1 + 2 + 3级是最好的。我们还研究了单边编码，即在文本侧具有均值池的视频侧多级编码和在视频侧具有均值池的文本侧多级编码这两种策略获得了143.6和137.1。较低的分数证明了双重编码的必要性。结果还表明，文献方法：Habibian等人[10] 0.087Markatopoulou等人[21] 0.064W2VVimrl0.132双编码0.159表4. TRECVID2017上的最新技术。infAP方法TRECVID决赛名：Snoek等人[28] 0.206Ueki等人[30] 0.159几乎7.8分钟的定量。镜头边界检测总共产生335，944个镜头。给定一个特定的查询，例如：查找军事人员与抗议者互动的镜头，任务是从测试集合根据它们包含给定查询的可能性而被排序。每年TRECVID指定30个不同复杂度的不同查询。由于TRECVID未指定AVS的训练数据，方法召回总数R@1R@5R@10中r地图R@1R@5R@10中r地图W2VV [7]1.87.010.91930.0529.225.436.0240.05090.3Mithun等人[24日]5.817.625.261-10.526.735.925-121.7W2VV成像6.118.727.5450.13111.828.939.1210.058132.1双重编码7.722.031.8320.15513.030.843.3150.065148.6编码策略召回总数R@1R@5R@10中r地图R@1R@5R@10中r地图水平1（平均值合并）6.418.827.3470.13211.527.738.2220.054129.92级（biGRU）6.319.428.5380.13610.126.837.7200.057128.83级（biGRU-CNN）7.321.531.2320.15010.627.338.5200.061136.41 + 26.920.429.1410.14211.629.640.7180.058138.31 + 37.521.631.2330.15111.930.541.7160.062144.42 + 37.622.432.2310.15511.930.942.7160.066147.71 + 2 + 37.722.031.8320.15513.030.843.3150.065148.6视频侧编码更有益。5.2. TRECVID实验Setup. 我们评估双重编码在TRECVID AVSNguyen等人[25日]文献方法：Habibianet al. [10个国家]0.1200.150任务[1，2]，它提供了最大的测试床零-W2VV成像0.165视频检索到这个日期。测试集合，双重编码0.208名为IACC.3，包含4，593个互联网档案视频，持续时间范围为6.5 - 9.5 min，平均持续时间为2.5 min。9353任务中，我们使用MSR-VTT和TGIF [17]的联合集合训练双编码网络，其中包含100 K动画GIF和120 K描述GIF视觉内容的虽然动画GIF是一个非常不同的领域，但TGIF的构建方式类似于用户生成的视频剪辑，例如。去除了卡通、静态和对于IACC.3，MSR-VTT和TGIF，我们使用[16]提供的帧级CNN特征，其中作者使用在完整Ima-geNet集合上训练的ResNeXt-101 [32]进行特征提取。为了方法比较，我们包括每年的前3名，即。2016年[15，18，22]和2017年[25，28，30]此外，我们还包括报告任务执行情况的出版物，即。[10 21.我所知道的，正如我们在文献综述中所指出的，大多数方法都是基于概念的。请注意，这些方法使用的视觉特征和训练数据各不相同，这意味着比较以及由此得出的结论都是在系统层面上进行的。因此，为了进行更有说服力的比较，我们使用相同的联合数据集和相同的ResNeXt-101特征重新训练W2 VVimrl我们报告推断的平均精度（infAP），TRECVIDAVS任务使用的官方性能指标。通过对查询的infAP得分取平均值来衡量整体性能。与最新技术水平的比较表3和4显示不同方法对性能的影响TRECVID 2016和2017 AVS任务。所提出的方法再次表现最好，其中infAP为0.159和0.208。虽然[28]在TRECVID 2017任务中的接近infAP为0.206，但他们的解决方案集成了10个模型。他们最好的单一模式，即。 [10] 它使用相同的ResNeXt-101功能，具有较低的infAP 0.150。给定相同的训练数据和特征，所提出的方法也优于W2VVimrl表5显示了不同训练数据的影响。上述结果再次证明了双重编码的有效性。请注意，TRECVID地面实况在拍摄级别部分可用。任务组织者采用一种池化策略来收集地面实况，即通过从每个提交中收集前1000个镜头来形成候选镜头池，并且选择随机子集用于手动验证。因此，地面真相有利于官方参与者。由于通过我们的方法发现的排名靠前的项目可能在子集之外，因此我们的方法的infAP分数可能被低估。一些定性结果如图所示。3.第三章。5.3. MSVD和MPII MD实验Setup.我们评估MSVD [4]和MPII-MP [26]，另外两个流行的视频集。请注意，MSR-VTT的构建方式与MSVD类似，但规模更大。因此，我们使用MSVD测试集来评估先前在MSR-VTT上训练的模型。MPII-MD作为电影描述数据集，表5. 我们的模型在T RECVID AVS基准测试的不同数据上训练的性能。性能指标：inf AP。培训数据TRECVID 2016TRECVID 2017MSR-VTT0.1400.179TGIF0.0920.199MSR-VTT + TGIF0.1590.208表6. 零示例视频检索的性能，通过mAP。我们提出的方法是最好的模型MSVDMPII-MDW2VV0.1000.008W2VV成像0.2300.030VSE+0.2180.022双重编码0.2320.037表7. 图像-文本检索在Flickr 30 k和MSCOCO上的性能。所提出的多级编码对于VSE++模型是有益的[8]。文本到图像图像到文本方法R@1R@5R@10R@1R@5R@10在Flickr 30kVSE+23.149.260.731.958.468.0VSE++，多级编码24.752.365.135.162.271.3关于MSCOCOVSE+33.768.881.043.674.884.6VSE++，多级编码34.869.682.646.776.285.8是独一无二的.因此，我们重新训练和评估这个数据集上的所有模型，并将其官方数据拆分。使用ResNeXt-101功能。结果如表6所示，我们的模型再次在跨数据集场景中表现最好。我们的模型也是最有效的MPII-MP。零示例电影检索的定性结果见图4。5.4. Flickr30K和MSCOCO的实验Setup. 我们研究了VSE++模型[8]在其原始的图像-文本检索上下文中，当用所提出的多级编码模块替换其文本编码模块（GRU）时，是否可以为此，我们修正了所有其他选择，采用[8]的精确评估协议。也就是说，我们使用相同的数据分割，其中训练/验证/测试测试对于Flickr 30 K有30，000/1，000/我们也使用[8]提供的相同VGGNet功能本文报道了R@1、R@5和R@10的性能在MSCOCO上，通过对1，000张测试图像的5倍进行平均来报告结果。结果表7显示了Flickr 30 k和MSCOCO上图像-文本检索的性能。将文本端多级编码集成到VSE++中可以改善这两个数据集。结果表明，拟议的案文-9354×查询537：一个或多个人在游泳池游泳11第559章：一个男人和一个女人在车1 2 34 5图3. 关于TRECVID 2017中的4项查询，从IACC.3收集（335k次射击）中检索到的前6次射击AVS任务。使用双重编码没有绿色或红色标记的视频未标记。对于查询#559，第二个、第三个和第五个快照未标记，但似乎与查询相关第四个镜头是不正确的，因为我们的视频检索模型未能识别出该男子实际上是在车外。疑问句：他们互相用手臂缠绕（AP=0.25）我们的模型从MPII-MD测试集中检索到的前5个镜头查询语句：在一家餐馆里，某人和那个家伙坐在一张桌子旁（AP=0.031）我们的模型从MPII-MD测试集中检索到的前5个镜头图4. 基于MPII-MD的电影句子检索。顶部重新测试的镜头，虽然不是地面真理，似乎是正确的。侧面多级编码对于VSE++在其原始上下文中也是有益的5.5. 效率测试回想一下，双编码网络被设计为将视频和句子表示到公共空间中。一旦网络被训练，就可以独立地在公共空间中表示这意味着我们可以离线处理大规模视频，并在运行中回答即席查询。具体地，给定自然语句查询，从最大的IACC.3数据集（其包括335，944个视频）重新检索视频花费大约0.14秒。性能测试正常的计算机与64G RAM和GTX 1080TI GPU。检索速度足以即时响应。6. 总结和结论针对零示例视频检索，本文提出了双编码方法。通过在不同层次上联合利用多种编码策略，所提出的双重编码网络将视频和自然语言查询编码为强大的密集表示。通过公共空间学习，这些表示可以被转换以有效地执行序列到序列的跨模态匹配。在三个基准上进行了广泛的实验，即。MSR-VTT、TRECVID 2016和2017 AVS任务支持以下结论。在编码的三个级别中，在双向GRU之上构建一维卷积网络的biGRU-CNN在单独使用时是最有效的视频端的多级编码是更有益的，当与文本端的对应。对于最先进的性能，我们建议使用双重编码。我们相信，所提出的方法也有潜力的其他任务，如视频问答，需要有效的视频/文本编码。致谢这项工作得到了国家自然科学基金（第1998号）的资助。 61672523 号 61773385 号 U1609215 ，编号61772466），ZJNSF(No. LQ19F020002）、中央高校基础研究基金和中国人民大学研究基金（编号： LQ19F020002 ）。18XNLG19）、浙江省杰出青年自然科学基金（编号：LR19F020003）。1121316415619355引用[1] G. Awad，A.Butt，J.Fiscus、D.Joy，A.德尔加多，M。米歇尔A. F. Smeaton，Y. Graham，W.克拉艾湾Qunot，M.埃斯克维奇河Ordelman，G. J. F. Jones和B.休特TRECVID2017：评估临时和实例视频搜索、事件检测、视频字幕和超链接。在TRECVID研讨会，2017年。[2] G. Awad，J. Fiscus，D.乔伊，M. Michel，A. Smeaton，W.克拉艾湾奎诺湾埃斯克维奇河阿里河Ordelman，G.琼斯湾，澳-地Huet和M.拉森Trecvid 2016：评估视频搜索，视频事件检测，定位和超链接.在TRECVID研讨会，2016年。[3] X. 昌，Y.Yang，杨树A.G. Hauptmann，E.P. Xing和Y.-L. Yu. 大规模零触发事件检测的语义概念发现。InAAAI，2015.[4] D. L. Chen和W. B.多兰收集高度并行的数据进行释义评估。在ACL，2011年。[5] K. 乔湾，巴西-地 VanMerr ieenboer，C. Gulcehre，D. 巴赫达瑙F.布加雷斯Schwenk和Y.本吉奥。使用rnn编码器-解码器学习短语表示用于统计机器翻译。在EMNLP，2014年。[6] J. Dalton，J.Allan和P.米拉吉卡使用内容和概念的零镜头视频InCIKM，2013.[7] J. Dong，X.Li和C.通用汽车斯诺克从文本预测视觉特征用于图像和视频字幕检索。IEEE Trans. Multimedia，20（12）：3377[8] F. Faghri，D. J·弗利特，J.R. Kiros和S.菲德勒VSE++：改进的视觉语义嵌入。在BMVC，2018年。[9] A. Habibian，T. Mensink和C. G. M.斯诺克零镜头视频事件检测的复合概念发现。InICMR，2014.[10] A. Habibian，T. Mensink和C. G. M.斯诺克Video2vec嵌入在例子很少时识别事件。T-PAMI，39（10）：2089[11] G. Huang，Z.柳湖，加-地Van Der Maaten和K.Q温伯格。密集连接的卷积网络。在CVPR，2017年。[12] L. Jiang，中国粘蝇D.孟氏T.Mitamura和A.G. 豪普特曼首先简单的样品：零示例多媒体搜索的自定进度重排序。在ACMMM，2014年。[13] Y. Kim. 用于句子分类的卷积神经网络在EMNLP，2014年。[14] D. P Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[15] D. Le 、 S.Phan ， V.-T. 阮湾，智 - 地 Renoust ， T.A.Nguyen，V. -N. Hoang ， T.D. Ngo ， M.T. 特兰湾，澳 - 地渡边，M.Klinkigt等人NII-HITACHI-UIT参加TRECVID 2016。在TRECVID研讨会，2016年。[16] X. Li，J.东角，澳-地徐，J.Cao，X.Wang和G.杨中国人民大学和浙江工商大学参加TRECVID 2018：用于视频-文本检索的深度跨模态嵌入。在TRECVID研讨会，2018年。[17] Y. Li，Y.松湖，澳-地Cao ，J. 特伊特湖Goldberg，A.Jaimes和J.罗TGIF：一个新的GIF动画描述数据集和基准在CVPR，2016年。[18]J. Liang，J. Chen，P. Huang，X.利湖，澳-地姜，Z.兰，潘，H.范角，澳-地Jin，J. Sun，et al. Informedia @ Trecvid 2016. 在TRECVID研讨会，2016年。9356[19] T.- Y. 林， M 。迈尔， S 。贝隆吉， J.Hays ，P.Perona，D.Ra-manan，P. Doll a'r和C. L. 齐特尼克Microsoftcoco：上下文中的通用对象。2014年，在ECCV[20] Y.-- J. Lu，H. Zhang，M. de Boer和C.- W. Ngo.零示例事件检测：选择正确的观念，压制错误的观念。InICMR，2016.[21] F. Markatopoulou，D.加拉诺普洛斯河谷梅扎里斯和我帕-特拉。用于特定视频搜索的查询和关键帧表示。InICMR，2017.[22] F.Markatopoulou，A.Moumtzidou，D.Galanopoulos，T.米龙尼河谷Kaltsa，A. Ioannidou，S. Symeon，K. Avgerinakis，S. Andreadis等人ITI-CERTH参加TRECVID 2016。在TRECVID研讨会，2016年。[23] T. Mikolov，K. Chen，G. Corrado，J。Dean.向量空间中词表示的有效估计。InICLR，2013.[24] N. C. Mithun，J. Li，F. Metze和A. K.罗伊·乔杜里学习联合嵌入与多模态线索的跨模态视频文本检索。在ICMR，2018年。[25] P. A. Nguyen，Q.李志Q.郑，Y.- J. Lu，H. Zhang，X.Wu和C.- W. Ngo. Vireo @ TRECVID 2017：视频到文本，特设视频搜索和视频超链接。在TRECVID研讨会，2017年。[26] A. Rohrbach，Marcus R.，N. Tandon和B.席勒用于电影描述的数据集。CVPR，2015。[27] M. Schuster和K. K.帕利瓦双向递归神经网络。IEEETrans. Signal Processing，45（11）：2673[28] C. G. M. 斯诺克，X。Li，C.Xu，和D.C. 科尔玛阿姆斯特丹大学和中国人民大学在TRECVID 2017：搜索视频，检测事件和描述视频。在TRECVID研讨会，2017年。[29] D. 特兰湖布尔代夫河费格斯湖Torresani和M.帕鲁里用三维卷积网络学习时空特征。在ICCV，2015年。[30] K. Ueki，K.

下载后可阅读完整内容，剩余1页未读，立即下载