视频文本检索：动量对比度的层次Transformer方法及其优越性

161 浏览量更新于2023-10-13 收藏 863KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11915HiT：用于视频文本检索的具有动量对比度的层次Transformer宋柳1、范浩奇2、钱生生3、4 *、陈怡茹5、丁文魁5、王中原51北京大学，2FAIR3中科院自动化所模式识别国家重点实验室4中国科学5快手科技slpku@pku.edu.cn，haoqifan@fb.com，shengsheng. nlpr.ia.ac.cn{chenyiru，dingwenkui，wangzhongyuan} @ kuaishou.com摘要随着互联网上多媒体数据的增长，视频文本检索已经成为一个热门的用于视频-文本学习的Transformer由于其良好的性能而受到越来越多的关注。然而，现有的跨模态Transformer方法通常遭受两个主要限制：1）对其中不同层具有不同特征特性的变换器架构的利用是有限的; 2）端到端训练机制限制小批量中的负样本交互。在本文中，我们提出了一种新的方法命名为层次转换器（HiT）的视频文本检索。HiT在特征级和语义级进行层次化的跨模态对比匹配，实现多视角、综合性的检索结果。此外，受MoCo的启发，我们提出了用于跨模态学习的动量跨模态对比，以实现大规模的负样本交互，这有助于生成更精确和更有区别的表示。在三个主要的视频文本检索基准数据集上的实验结果证明了该方法的优越性。1. 介绍跨模态检索[58，10，13，67，8，3，35，9，11，46，59，60，25，57，29，42]的研究吸引了越来越多的关注，其目的是从不同的模态中搜索语义相似的样本。特别是互联网上视频内容的爆炸式增长，给视频文本的精确检索带来了巨大的挑战。在本文中，我们专注于视频文本检索的学习，也希望启发其他跨模式任务。*通讯作者语义级对比匹配CLS我的视频编码器文本编码器CLSFeature-LCLSWord-Le我想vel特征级对比匹配相似性CLS图1.层次化跨模态对比匹配包括特征级对比匹配和语义级对比匹配。值得注意的是，在该图中未示出动量交叉模态对比度。最近的工作[49，70，13，39，12]已经表明，变换器可以学习高级视频表示，其捕获视频的语义上有意义和时间上值得注意的是，用于跨模态学习的现有方法可以大致分类为双流、单流和双流架构。双流架构，如图2-（a）所示，利用视觉Transformer和文本转换器来独立地学习视觉和文本表示，然后引入多模态转换器[32，70，50]来实现跨模态信息交换。单流架构 [28 ， 27 ， 47 ， 19] ，如图 2- （ b ）所示，在Transformer模型的初始阶段融合了视觉和文本表示然而，这两种架构不适合大规模的跨模态检索任务，由于重新11916多模态Transformer第一视频第二视频第三视频第1个文本第二篇第三篇Mth视频第N个文本OO相似性(a) 双流体系结构相似性(b) 单流架构即时的我们称之为动量交叉模态对比度（MCC）。在MCC中，我们构建了几个内存库来保存丰富的负面表示，这有助于在训练过程中更广泛的负面样本交互。然而，如果我们使用视频和文本编码器来生成存储体的表示，则会导致存储体中的表示不一致，从而极大地影响检索视觉相似性文本性能因此，两种模态的关键编码器表示表示文本Transformer第一个文本第二篇第三篇第N个文本需要动量更新（更平滑地更新）来保持表示一致性。贡献：我们提出了用于视频-文本检索的具有动量对比的分层Transformer（HiT），其联合执行分层跨模态对比匹配和动量跨模态对比。大量的实验证明了的优点(c) 双流架构图2.三种基于Transformer的跨模态学习体系结构假设我们有M个视频和N个文本，（a）双流和（b）单流架构需要O（ MN ）时间复杂度的成对输入。 (c) 时间复杂度为 O（M+N）的二元输入。成对输入的需求和模型内信息交换的（MN）时间复杂度。具有双流架构的方法[13，39，12，63]和我们的方法，如图2-（c）所示，已经成为最近的趋势，用于具有更好效率的跨模态检索，需要（M+N）的时间复杂度。在双流体系结构的路线上，本文提出了一种新的基于变换器的方法来实现视频-文本检索，即HiT（Hierarchi- cal Transformer），其中两个贡献联合执行：分层跨模态对比匹配。根据Transformer架构中不同层的注意力分配特性，不同层中的特征聚焦于样本的不同视图[15，43，51，28]。例如，较低层中的特征倾向于用基本句法表示来编码更多的本地内容。更高的层捕获更复杂的语义，并且通常产生更高级别的语义表示，如最近的工作[12，39]所执行的。基于这些特点，我们提出了层次化跨模态对比匹配，实现多视角、层次化的视频文本综合检索，如图1所示。动量交叉模态对比。最近，一类用于无监督视觉表示学习的自监督方法[62，5，16，4]强调了大规模负样本的必要性。受这些工作的启发，我们认为，在训练过程中的大规模负样本的相互作用被忽视的跨模态对比学习。在本文中，我们将MoCo [16，5]引入HiT以实现大规模负样品相互作用在MSR-VTT、ActivityNet和LSMDC三个基准测试平台上，分别对两种方法进行了测试。2. 相关工作2.1. 视频文本检索随着海量多媒体数据的开发和应用场景的丰富，视频文本检索得到了广泛的关注。一些优秀的作品[67，8，46，58，10，13，8，3，35，9，11]被引入以解决该任务。JSFusion [67]提出了一种用于视频和文本顺序交互双重编码[8]由均值池，biGRU和CNN模型组成，用于在多个级别上编码序列视频和文本PVSE[46]提出了一种多义实例嵌入网络，用于学习视频和文本的多种多样的表示形式以解决多义问题。[65]中提出了一种基于图形的框架，用于电影片段和概要段落之间的匹配，该框架考虑了事件流和角色之间的交互。HGR [3]是一种层次图推理模型，它将视频-文本匹配分解为全局到局部的层次，并将文本分解为具有事件，动作和实体三个层次的层次语义图。2.2. 使用Transformer进行视频-文本学习BERT [55]是一种基于Transformer的自然语言处理任务表示模型。它发展了一系列工作，通过语言建模目标的预训练来学习通用语言编码器最近，已经进行了几次尝试[28，32，47，50，12，49，70，27，19，26，41]其利用BERT和变压器作为交叉模态任务的骨干。在视频文本学习任务中，VideoBERT [49]将视频转换为与一系列图像配对的口语，并应用Transformer来学习关节表示。ActBERT [70]学习联合视频-文本表示，揭示全球和本地vi-多模态Transformer视觉Transformer文本Transformer第一视频第二视频第三视频第1个文本第二篇第三篇Mth视频第N个文本视觉Transformer第一视频第二视频第三视频Mth视频11917i=0时i=0时联系我们动量交叉模态对比动量交叉模态匹配语义级对比匹配对比匹配语义级语义级关键文本编码器（最新动态）查询视频编码器（梯度下降）查询文本编码器（梯度下降）关键视频编码器（最新动态）特征级词级特征级对比匹配匹配匹配图3.我们方法的流水线。所有编码器采用基于Transformer的架构。视频编码：查询视频编码器和关键视频编码器。文本编码：查询文本编码器和关键文本编码器。动量跨模态对比：构建四个存储库以保存来自两个模态的两个级别的关键表示。两个查询编码器通过梯度下降更新，两个关键编码器通过动量更新。分层跨模态对比匹配：语义级对比匹配在查询视频（文本）语义级表示和存储体中的关键文本（视频）语义级表示之间执行。特征级对比匹配在查询视频特征级（文本词级）表示和存储体中的关键文本词级（视频特征级）表示之间执行。来自成对视频序列和文本描述的视觉线索。全局和局部视觉信号与语义流相互作用。MMT [12]提出了多模态Transformer，其处理在视频（诸如视频、音频和语音）中的不同时刻从不同模态提取的特征COOT [13]提出了一种分层模型，该模型利用长距离时间上下文，基于局部和全局上下文之间的分层交互产生视频/文本嵌入。支持集[39]包含辅助生成任务，即， cross-captioning任务，以缓解最近作品中存在的不匹配问题。最近，T2 VLAD [63]使用全局-局部对齐的范例来执行视频检索。该算法通过多次计算视频相关特征和文本特征之间的相似度来获得全局相似度为了获得局部相似度，首先需要将局部特征聚类到多个共享中心，并计算局部特征与聚类中心的相似度。虽然它也像HiT一样执行分层匹配，但它以更复杂的方式执行他们的想法。2.3. 对比学习对比学习[4，16，5，53，21，54，36，61，6，14]在无监督视觉表征学习方面取得了显著的进展。我们介绍了几个有代表性的对比学习机制，受益于优化与负样本。端到端机制使用当前小批量中的样本，其中可以使用将其增强视图视为正样本，并将当前批次中的其他样本视为负样本。存储体[62]机制使用从存储器库采样的表示来进行更广泛的负样本学习。然而，存储器组中的表示在过去的历元上来自非常不同的编码器，并且它们不太一致。MoCo[5，16]通过使用动量更新的密钥编码器改进了存储体机制为记忆体产生大规模的否定表示，以保持更好的表示一致性。SimCLR [4]表明，无监督视觉表示学习中的对比学习受益于大批量负，更强的数据增强和引入可学习的非线性变换，即，使用投影头。虽然最近的工作[6，14]表明，通过使用动量编码器[14]或停止梯度操作[6]来防止崩溃解决方案，即使没有负数，对比学习也可以实现不错的性能，但我们在视频文本检索中的HiT和[16，4，5，62，20]在视觉表示学习中确实受益于大规模负样本学习。本文不涉及无否定句的跨通道学习的效果3. 问题定义对于视频-文本检索任务，我们给出M个视频V=ViM−1和N个字幕T=T iN−1。每个视频具有若干种专家嵌入以表示多个视图中的视频，例如，运动、外观和音频。每个11918运动掩模外观遮罩音频屏蔽·i=1i=1····W·SSFFSSW联系我们联系我们∈∈∈∈字幕由英语的自然语言表示。形式上，我们的视频文本检索方法的目标是获得两个查询编码器f：VZ=Z iL且g：TZ=Z iL其中f和g分别用于视频和文本域，并且Z由L个公共嵌入空间组成。在公共嵌入空间中，交叉模态样本由一系列紧嵌入表示。同时，在公共嵌入空间中，相似交叉模态样本间的距离小于相异交叉模态样本间的距离该约束可以用公式表示如下：视频功能级别功能。如在[52，40，56]中所研究的，在基于Transformer的架构中，较低层中的特征捕获描述基本语法信息的低级模式我们在查询视频编码器和关键视频编码器的第一层中获得这些视觉令牌特征。然后对它们进行平均汇集和非线性投影，分别得到vqRDv和vkRDv。采用MLP作为非线性投影头进行非线性变换。[4]已经证明了非线性投影头可以改善它之前的层的表示质量。d（f（Vi），g（Ti））≤d（f（Vi），g（Ti））s. t. 我j（1）视频语义级特征。基于Transformer的体系结构中的更高层功能可捕获更高级别的表示其中d（i）是距离测量。两个交叉模态样本之间的总体相似性由层次对比匹配结果决定。4. 分层Transformer图3示出了用于视频-文本检索的分层Transformer（HiT）的结构。对于视频编码，有查询视频编码器和关键视频编码器。两个视频编码器都利用相同的架构。对于文本编码，有采用相同架构的查询文本编码器和关键文本编码器。值得注意的是，暹罗编码器，也称为，关键编码器被示出用于利用动量交叉模态对比度（MCC），这将在后面讨论。如果我们删除MCC，只剩下两个查询编码器，如图1所示。VFv具有更复杂语义的句子。我们在最后一层中对上下文标记进行平均池化以表示语义级特征。然后用两个投影头进行非线性变换，分别得到查询视频编码器和关键视频编码器生成的vqRDv和vkRDv4.2.文本编码器我们利用BERT-base-uncased [7]作为文本编码器并对其进行微调。值得注意的是，视频特征是由预先训练的深度神经网络生成的，并且已经具有更高级别的语义表示能力。而文本模态具有不同于视频模态的内在复杂性，需要更多的Transformer块来建模词之间的语义关系。因此，文本编码器比视频编码器更深。字幕中的每个单词将被嵌入到单词嵌入向量中，并且我们获得令牌嵌入Ft。[1]和[2]分别被嵌入到第一个和最后一个位置。Mvsitions. 文本段掩码M来表明PvE图4.视频编码器的视觉输入。4.1.视频编码器视频编码器，包括查询和关键视频编码器，被设计为基于Transformer的架构。我们将原始的视觉特征转换成一个离散的令牌序列作为输入。为此，我们生成一系列预先训练的视频相关特征，包括运动、外观和音频特征，以获得视觉嵌入Fv作为输入。视觉段掩模Mv和视觉位置输入序列的长度。文本位置嵌入Pt用于表示文本编码器中输入序列的词索引。文本编码器的最终输入定义为：T=Ft+Mt+Pt（3）文本单词级功能。我们从查询文本编码器和关键文本编码器的第一层获得文本词级特征。与视频特征级特征的获取类似，我们执行平均池化并利用两个投影头进行非线性变换并获得q∈RDt，tk∈RDt.特征嵌入Pv需要分别指示输入特征的实数和位置我们附加Ex- pert EmbeddingsE以标识参与专家。最终视觉输入V可以公式化如下，也在图4中示出：V=Fv+Mv+Pv+E（2）文本语义级特征。从最后一层到知识特征的平均池被称为文本语义级特征。这些上下文标记表示给定标题的更高层次含义。两个投影头进行非线性变换，得到tq∈且tk∈RDt。视觉输入运动嵌入外观嵌入音频嵌入运动掩模外观遮罩音频屏蔽运动掩模外观遮罩音频屏蔽不不11919不VSQK∈··•∼我 i=1不我 i=11+Ktexp（svt/γ）不1+Kvexp（stv/γ）由查询编码的批量视频表示vf和vs我 i=1QKKKQKK--不{}i=1iΣ我FW我（五）4.3.动量交叉模态对比端到端的训练机制，因为大多数方法实现在很大程度上限制了负样本交互。为了使大规模的负样本相互作用产生更精确和歧视性的表示，动量交叉模态对比（MCC）的建议。首先建立四个存储体作为队列，在Bw中的位置因此，我们得到S vt=s vt+Svt−=svt1+Kt，其中K t是B w的队列大小。类似地，对于检索带有文本的视频，我们得到 S tv={s tv+}Stv−={stv}1+Kv ，其中 Kv 是 B f 的队列大小。InfoNCE [38]，一种对比损失的形式函数，被采用作为我们的目标函数用于特征级对比匹配：动态保存否定表示• 文本存储库。文本存储库，包括B wL1=−logΣexp（svt+/γ）我-logΣexp（stv+/γ）每次训练迭代，由密钥文本编码器编码的当前小批量密钥文本表示tk和tk将其中γ是温度超参数，其被设置为0.07在这篇论文中。w s被入队到Bw和B s中，并且最旧的小批处理被入队到B w和Bs中，并且最旧的小批处理被入队到B w和B s中。语义级对比匹配。同样我们T Tw达到正负相似度C={cvt+}∪将被移出队列。 B T中的关键文本表示法和VTvt1+KBs将用于计算与当前最小-Cvt−={ci}i=1t Ctv={Ctv+}∪Ctv−=qq{c tv}1+Kv. 语义级控制视频编码器•视频存储库。类似地，视频存储体翻译匹配被定义为：用于保存关键视频特征级特征v，k和VfVexp（cvt+/γ）exp（ctv+/γ）为了保存关键的视频语义级特征，构建V，k。此外，为了保持存储体中的表示一致性，两个关键编码器，其执行mo-L2= −logΣ1+Ktexp（cvt/γ）-log1+Ki=1vexp（ctv/γ）（六）更新[16，5]，需要。我们将θ v和θ v表示为查询和关键视频编码器的参数。θt和θt是查询和关键文本en的参数-程序员我们用公式表示θv和θt因此，总体目标函数为L：L=αL1+βL2（7）如：θv←mθv+（1−m）θv其中α和β是两个超参数以平衡两个目标. 在我们的实验中，我们将α、β都设置为1k kqθt←mθt+（1−m）θt（四）5. 实验其中m[0，1）是动量系数，其是相对大的值。我们设置m = 0。第999章在这张纸上的通过反向传播更新参数θv和θt的5.1.数据集和评估指标q q我们采用三个视频文本检索实验动量更新使θv和θt的演化更加平滑而不是θv和θt。因此，尽管关键的表示数据集。预训练实验是上进行q qHowTo100M [35].在由不同的编码器（在不同的小批量中）编码的存储体中，这些编码器之间的差异将很小。4.4.层次跨模态对比匹配我们提出了分层跨模态对比匹配的视频文本检索学习。具体来说，我们利用视频特征级特征和文本单词级特征进行特征级对比匹配。视频和文本语义级特征用于语义级对比匹配。特征级对比匹配。从视频文本检索的角度出发，通过计算vq和tk之间的余弦相似度，得到正相似度svt+然后，我们得到负相似性Svt−={svt−}Kt 以Calcu，MSR-VTT[66]包含10，000个视频，其中每个视频都用20个英文字幕注释。我们遵循[12，30，35]中定义的训练协议，在1 k-A测试分割上评估文本到视频和视频到文本检索任务，其中1，000个视频或文本候选人由[67]定义。ActivityNet Captions[24]由20K YouTube视频组成，时间上带有句子描述。我们遵循[48，12]的方法，其中视频的所有描述被连接以形成一个段落。训练集有10,009个视频。我们评估我们的视频段落检索的LSMDC[44]包含从202部电影中提取的118，081个短视频剪辑（45秒）。每个剪辑都用从电影脚本或音频描述中提取的标题进行注释。测试集由1,000个视频组成vq间的间隔余弦相似性ii=1来自训练集中不存在的电影。f和所有关键文本代表-S用于保存关键文本单词级特征的B T和用于保存关键文本语义级特征的BT被构建为两个队列。在i=1i=111920·····表1.给出了MSR-VTT的实验结果R@1、R@5、R@10越大，MedR越小，检索性能越好方法视频文本检索文本到视频检索的简历R@1R@5R@10MedRR@1R@5R@10MedR上午[2]6.818.126.5427.018.127.040103.5LJE [37]9.227.639.1226.922.529.832134.9ActBERT [70]----8.623.433.136-JSFusion [67]9.528.640.2189.629.842.120159.8[35]第三十五话12.233.547.51312.636.248.113190.2CE [30]20.948.862.4620.650.364.05.3267.0MMT [12]24.456.067.8424.654.067.14293.9[39]第三十九话26.655.167.5327.456.367.73300.6击中28.860.372.3327.759.272.03320.3[35]第三十五话16.841.755.10814.940.252.89221.5噪声估计[1]----17.441.653.68-UniVL [33]----21.249.663.16-AVLnet [45]28.554.665.2427.155.666.64297.5MMT [12]27.057.569.73.726.657.169.64307.5[39]第三十九话28.558.671.6330.158.569.33316.6在HT100M32.162.774.1330.760.973.22.6333.7表2.ActivityNet上的文本到视频检索结果方法R@1 R@5 R@50 MedRFSE [69]18.244.889.17.0CE [30]18.247.791.46.0健康安全与环境[69]20.549.3--MMT [12]22.754.293.25.0[39]第三十九话26.858.193.53.0击中27.758.694.74.0HiT预培训29.660.795.63.0表3. LSMDC上的文本到视频检索结果方法R@1 R@5 R@10MedRCT-SAN [68]5.116.325.246JSFusion [67]9.121.234.136[23]7.521.731.033MEE [34]9.325.133.427[34]第三十四话10.125.634.627CE [30]11.226.934.825.3MMT [12]13.229.238.821.0击中14.031.241.618.5公制。我们使用信息检索中常用的指标来衡量检索性能，包括K处的召回率（R@K和K=1，5，10）和中值秩（MedR）。R@K是在前K个检索结果中找到MedR测量检索到的排名列表中正确项目的中位数排名，其中较低的分数表示更好的模型。我们还将所有R@K的总和作为rsum以反映整体检索性能。5.2. 实现细节预先训练的特征。我们遵循MMT [12]进行预训练的特征提取。运动特征是从在Kinetics动作识别数据集上训练的S3D [64从VGGish模型中[17] 在YT8M上训练。从SENet-154的最终全局平均池化层[18] 在ImageNet上训练。对于MSRVTT和LSMDC，我们使用所有的运动，外观和音频专家。我们采用30个功能，每种类型的视觉特征作为视觉输入，和25个第一个字的字幕作为文本输入。对于HowTo100M和ActivityNet，我们使用运动和音频专家，每个专家都有100个特征作为视觉输入，前100个单词作为文本输入。骨干对于文本编码器，我们使用12层BERT-base-uncased [7]并对其进行微调。视频编码器有 4 个Transformer层与4个注意头。隐藏大小和中间大小分别设置为512我们将投影头的隐藏大小设置为8，192。Dv和Dt都被设置为2，048。ReLU用作激活函数，BN层用于隐藏层。优化. 初始学习率设置为2 e-5，网络由AdamW [31]优化器优化。预热和余弦衰减的10%比例用于调度学习速率。批量大小为128，我们训练了40个epoch。所有实验都在NVIDIA 3090Ti GPU上进行MCC中的Kv和Kt。对于MSR-VTT，当我们将K v和K t设置为4，096时，我们报告检索结果。Kv和Kt在Ac-11921·····表4.MSR-VTT的烧蚀研究，以研究动量交叉模态对比度的贡献方法存储体视频文本检索文本到视频检索的简历使用QkQVR@1R@5R@10R@1R@5R@10HiT，不含MCC’-27.155.368.327.058.070.8306.5带MCC的HiT✓25625626.956.169.027.058.671.0308.6带MCC的HiT✓51251227.658.370.027.458.770.8312.8带MCC的HiT✓1,0241,02427.757.970.327.359.771.8314.7带MCC的HiT✓2,0482,04828.059.671.927.459.071.5317.4带MCC的HiT✓4,0964,09628.860.372.327.759.272.0320.3带MCC的HiT✓8,1928,19228.158.972.527.058.771.0316.2tivityNet被设置为512。在LSMDC中，Kv和Kt为1，024。在HowTo100M中，我们将Kv和Kt设置为8，192这些数字应随批量大小而变化。5.3. 与最新技术表 1-3 给出了 MSR-VTT 、 ActivityNet Captions 和LSMDC上HiT的检索结果。我们还比较HiT与其他国家的最先进的方法。如结果所示，HiT明显优于所有比较方法。对于MSR-VTT，我们报告视频到文本检索和文本到视频检索结果。特别是，我们在rsum的检索性能为320.3，超过最近最先进的方法[39] 19.7的保证金。它很好地反映了HiT的整体检索质量。通过在HowTo100M上进行预训练，HiT进一步提高了检索性能。对于ActivityNet字幕和LSMDC，我们报告了文本到视频检索方面的检索性能HiT仍然优于比较方法。我们发现，检索性能的增长受益于所提出的组件，包括层次跨模态对比匹配和动量跨模态对比。为了证明两个组件的有效性和鲁棒性，我们在以下章节中详尽而全面地6. 消融研究分层交叉模态匹配。如上所述，我们使用来自第一层的标记特征来执行特征级对比匹配，而来自最后一层的标记特征被采用用于语义级对比匹配。在本节中，我们设计了几个变体来验证分层跨模态对比匹配的影响。请注意，我们在此不执行MCC以提高效率。HiT-sl .我们只实现语义级匹配，而特征级匹配被删除。HiT-fl .仅实现特征级匹配。HiT-4级。为了调查Transformer架构的分层匹配的潜力，进行相对于更多级别的对比匹配自从一条短信表5.文本到视频检索中层次跨模态对比匹配的研究。方法R@1 R@5 R@10 MedRHiT-sl23.556.268.84.0HiT-fl25.153.667.24.0HiT-4级27.159.271.03.0HiT-3-level-a28.558.471.03.0HiT-3-level-b26.758.571.43.0击中27.058.070.83.0编码器有12个Transformer块，视频编码器有4个变换块，除了特征级（文本编码器的第一层和视频编码器的第一层之间）和语义级（文本编码器的第十二层和视频编码器的第四层之间）外，在文本编码器的第五层和视频编码器的第二层、文本编码器的第九层和视频编码器的第四层之间增加了更多层次的对比匹配。视频编码器中的层3。HiT-3-level-a.我们添加对比匹配之间文本编码器中的层-9和视频编码器。HiT-3-level-b. 在文本编码器中的层-5和视频编码器中的层-2之间的对比匹配被附加。• HiT。表1中的原始HiT。表5显示了文本到视频检索中MSR-VTT的消融结果。我们发现，使用更多的水平进行对比匹配，能够获得明显的改善。然而，n级匹配在推理期间需要n次检索。此外，在3级和4级匹配结果中未示出显著改善为了提高检索效率和有效的训练与动量跨模态对比，我们选择了2级匹配，本文报告的主要结果。动量交叉模态对比。为了探索存储体大小的影响，进行了足够的实验。结果示于表4中。我们将Kv和Kt的队列大小从0变化到8，192，并评估R@K和rsum。如结果所示，值得注意的是，为相似性学习引入大规模负样本确实实现了相当大的性能改进，其中我们将其归因于更广泛的负样本相互作用，以获得更精确和更分散的结果。11922犯罪陈述。此外，随着队列长度Kv和Kt的增长，检索性能略有下降，这可能是由于一些正样本被误分类为负样本。动量编码器。为了保持记忆库中表示的一致性，我们引入了两个关键的编码器与动量更新的两个模态，以生成erate表示。在这一节中，我们减少了两个动量编码器，通过评估检索性能来探索它们在保持表示一致性我们实现了消融直接使用- ING查询编码器产生表示的内存银行。表6给出了消融结果。我们可以发现，当我们不使用动量编码器时，它显示出性能下降。特别地，它将R@5处的性能降低到48.4%，这清楚地表明了动量编码器的必要性。表6.动量编码器对生成密钥表示的影响。编码器R@1 R@5 R@10 MedR查询编码器21.148.460.96.0密钥编码器27.759.272.03.0对比损失。在等式5和等式6中，采用InfoNCE作为对比损失以执行公共空间学习。在本节中，我们使用另一种常用的损失函数，即，三元组排序损失作为目标，并在表7中呈现MSR-VTT的检索性能。虽然它存在的困难，调整适当的组合的温度和批量大小，我们发现，InfoNCE实现更好的性能比三重排序损失HiT。表7.对比损失的选择编码器R@1 R@5 R@10 MedR三重排序损失25.656.769.14.0InfoNCE27.759.272.03.0InfoNCE中的温度γ是敏感参数。为了显示γ如何影响检索性能，γ对rsum的影响如表8所示。我们可以观察到，当我们将γ设置为0.07时可以实现最佳性能一个与0.07大小相同的数字表8.温度γ的参数分析。0.0007 0.007 0.007 0.07 0.077总收入285.1 311.2320.3155.4 112.2专家利用。在MSR-VTT中，我们使用三种类型的专家嵌入作为视觉输入，包括运动，外观和音频特征。不同专家的消融情况见表9。表9.不同专家的消融研究专家R@1 R@5 R@10 MedR议案只是25.151.665.05.0出现却只是18.241.955.56.0仅音频10.922.131.116.0运动+外观24.252.565.15.0运动+音频28.157.871.53.0外观+音频20.146.958.75.0所有27.759.272.03.0从结果中，我们发现，当我们只使用三个专家中的一个时，运动专家仅使用音频功能显示最差的性能。当使用两个专家时，运动和音频专家的组合可实现最佳效果。如[12]中所分析的，我们还注意到，当与其他特征一起使用时，音频特征的贡献最大，这表明它们提供了许多互补的线索。功能聚合。如第4.1节和第4.2节所示，我们利用平均池在投影头之前产生聚合特征，从某种意义上说，从所有令牌中捕获重要特征或者，我们评估了三种聚合方法，包括Max Pooling，1D-CNN [22]（内核大小：[2，3，4，5]）和使用[CLS]聚合令牌。为了从[CLS]标记中获得聚合的视觉特征，类似于文本输入，这里我们需要将[CLS]和[END]标记嵌入到视觉输入的第一个和最后一个我们用随机向量初始化它们。表10给出了文本-视频检索方面的比较结果。请注意，[CLS]中未提供适当的结果。我们假设原因是特征没有在特征级很好地聚合在[CLS]中。表10.特征聚合方法比较。聚集R@1 R@5 R@10 MedR平均池化27.7 59.272.03.0最大池化26.8 60.171.23.01D-CNN24.4 55.668.24.0[CLS]24.2 53.165.05.07. 结论我们从两个方面总结我们的论文：1）在HierarchicalCross-modal Contrastive Matching中，我们证明了利用变压器中的特征层次结构可以实现不错的性能增益。2)动量跨模态对比表明，跨模态学习可以受益于大规模的负样本学习。未来：工作：1）为了便于变压器中特征层次的开发，我们可以设计融合模块来更有效地利用层次特征。2）为了提高动量跨模态对比度，可以在存储体中应用一些特征级操作，例如数据混合、硬否定选择等。11923引用[1] Elad Amrani 、 Rami Ben-Ari 、 Daniel Rotman 和 AlexBronstein。噪声估计使用密度自我监督多模态学习的估计。CoRR，abs/2003.03186，2020。[2] Jingjing Chen，Chong-Wah Ngo，Fuli Feng，and Tat-Seng Chua.深入理解烹饪过程，用于跨模态食谱检索.Susanne Boll 、 Kyoung Mu Lee 、 Jiebo Luo 、 WenwuZhu、Hyeran Byun、Chang Wen Chen、Rainer Lienhart和Tao Mei编辑，2018年ACM多媒体会议，MM 2018，韩国首尔，2018年10月22日至26日，第1020-1028页。ACM，2018。[3] 陈世哲、赵一达、秦晋、吴奇隆。基于层次图推理的细粒度视频文本检索。在IEEE/CVF计算机视觉和模式识别会议论文集，第10638-10647页[4] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv预印本arXiv：2002.05709，2020。[5] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。[6] Xinlei Chen，Kaiming He.探索简单的连体表示学习。CoRR，abs/2011.10566，2020。[7] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[8] Jianfeng Dong，Xirong Li，Chaoxi Xu，Shouling Ji，Yuan He，Gang Yang，and Xun Wang.用于零示例视频检索的双编码。在IEEE计算机视觉和模式识别会议论文集，第9346-9355页[9] Fangxiang Feng，Xiaojie Wang，and Ruifan Li.具有对应自动编码器的跨模态检索。在Proceedings of the 22ndACM international conference on Multimedia，pages 7[10] Zerun Feng，Zhimin Zeng，Caili Guo，and Zheng Li.利用视觉语意推理进行视讯 - 文字检索。在 ChristianBessiere，编辑，第二十九届国际人工智能联合会议论文集，IJ-CAI 2020，第1005-1011页。ijcai.org，2020年。[11] Andrea Frome 、 Greg S Corrado 、 Jon Shlens 、 SamyBengio 、 Jeff Dean 、 Marc'Aurelio Ranzato 和 TomasMikolov。Devise：一个深度视觉语义嵌入模型。神经信息处理系统的进展，第2121-2129页，2013年[12] Valentin Gabeur ， Chen Sun ， Karteek Alahari ， andCordelia Schmid.视频检索的多模态Transformer。在欧洲计算机视觉会议（ECCV），2020年。[13] SimonGing ， MohammadrezaZolfaghari ， HamedPirsiavash，and Thomas Brox.COOT：用于视频-文本表示学习的协作分层变换器。在神经信息处理系统的进展，2020年。[14] Jean-BastienGrill ， FlorianStrub ， FlorentAltche' ，CorentinTallec，PierreH.Richemond，ElenaBuchatskaya ， CarlDoersch ， BernardoA'vilaPires ，ZhaohanGuo ， Moham-madGheshlaghiAzar， BilalPiot ，KorayKa vukcuoglu，Re'mi Munos，and Michal Valko.引导你自己的潜在- 一种自我监督学习的新方法。在Hugo Larochelle、Marc'Aurelio Ranzato 、 Raia Hadsell 、 Maria- FlorinaBalcan 和 Hsuan-Tien Lin 编辑的 Advances in NeuralInformation Processing Systems 33：2020年神经信息处理系统年会，NeurIPS 2020，2020年12月6日至12日，虚拟，2020年。[15]

下载后可阅读完整内容，剩余1页未读，立即下载