文本-视频检索的跨模态广义蒸馏

170 浏览量更新于2023-10-15 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11583TEACH TEXT：用于文本-视频检索的跨模态广义蒸馏Ioana Croitoru1，2，* Simion-Vlad Bogolin1，2，* Marius Leordeanu2，3 HailinJin4 Andrew Zisserman1 Samuel Albanie1，5，†Yang Liu1，6，†1视觉几何组，大学。2罗马尼亚科学院数学研究所3布加勒斯特理工大学4Adobe Research5部门工程，大学。剑桥6王选学院北京大学计算机技术学院摘要近年来，通过利用视觉和音频数据集上的大规模预训练来构建强大的视频编码器，已经在文本视频检索任务上取得了相当大的进展。相比之下，尽管自然的对称性，设计有效的算法，利用大规模的语言预训练仍然是探索不足。在这项工作中，我们是第一个调查这样的算法的设计，并提出了一种新的广义蒸馏，灰方法，每一个文本，它利用互补线索从多个文本编码器提供一个增强的监督信号的检索模型。此外，我们将我们的方法扩展到视频侧模态，并表明我们可以有效地减少在测试时使用的模态的数量，而不会影响性能。我们的AP-PROACH先进的几个视频检索基准的显着保证金的艺术状态，并在测试时不增加计算开销。最后但并非最不重要的是，我们展示了我们的方法的有效应用，从检索数据集消除噪声。代码和数据可以在https：www.robots.ox.ac.uk/~vgg/research/teachtext/上找到。1. 介绍这项工作的重点是文本视频检索的任务，确定其中的候选人池中的视频最匹配的自然语言查询描述其内容。视频搜索在野生动物监控、安全、工业过程监控和娱乐等领域具有广泛的应用。此外，随着人类继续以不断增加的规模产生视频，有效且高效地执行这种搜索的能力对于诸如YouTube的视频托管平台具有关键的商业意义。最近提出的检索方法的一个中心主题是如何最好地利用多个视频的调查*同等贡献。†通讯作者。图1. 从多个文本编码器中提取知识，以实现更强大的文本视频检索。先前的作品[18、28、32]已经示出了从摄取单个模态（左）的视频编码器过渡到多模态视频编码器（中）的相当大的益处。在这项工作中，我们表明，检索性能可以进一步显着提高学习多个文本编码器通过TEACH TEXT算法，在推理过程中不施加额外的成本对于[28]模型以及我们在MSR-VTT [55]数据集上的方法，报告了文本到视频检索性能增益（R1-R5-R10的几何平均值改进业绩的方式。特别是，基于专家混合[28，32]和多模态变换器[18]的架构已经显示出在训练和测试期间使用用于相关任务（例如图像分类、动作识别和环境声音分类）的预先训练模型的不同集合作为视频编码的基础的益处。在这项工作中，我们将探讨是否可以通过利用大规模书面语料库上学到的多个文本嵌入来实现相称的收益。与使用多模态和预训练任务的视频嵌入不同，文本嵌入集合之间存在足够的多样性以实现性能的显著提升并不明显。事实上，我们的灵感来自于对不同文本嵌入在一系列检索基准中的性能的仔细调查（图1）。2）的情况。引人注目的是，我们观察到不仅在文本嵌入的性能上存在相当大的差异，而且它们的排名也不一致，这强烈支持使用多个文本嵌入的想法。基于这一发现，我们提出了一个简单的算法，TEACH TEXT，以有效地利用知识11584由文本嵌入的集合捕获。我们的方法需要一个如图TEACHTEXT能够提供显著的性能增益。此外，该增益与将更多视频模态添加到视频编码器的增益互补，但重要的是，与视频模态的添加不同，在推断期间不会引起额外的计算成本。我们的主要贡献可归纳如下：(1)我们提出了T EACH T EXT算法，该算法利用多个文本编码器提供的额外信息;（2）我们表明，直接学习联合查询视频嵌入之间的检索相似性矩阵，据我们所知是新颖的，是用于此任务的有效的广义蒸馏技术（并且我们将我们的方法与先前工作中的替代方案进行比较，例如单峰关系蒸馏[37]）;（3）我们展示了我们的方法在消除文本视频检索任务的现代训练数据集的噪声中的应用;（4）我们证明了我们的方法的有效性经验，实现了最先进的性能在六个文本视频检索基准。2. 相关工作视频检索方法。索引视频内容以实现检索的任务在计算机视觉中具有丰富的历史-已经开发了复杂的系统来查找特定对象[45]，动作[26]，预定义的语义类别[21]，不规则性[4]和近似重复[13，44]。在这项工作中，我们专注于检索与给定的自然语言描述相匹配的内容的任务。对于这个特定的任务，已经对开发跨模态方法产生了相当大的兴趣，该跨模态方法采用用于文本查询和视频内容的联合嵌入空间[2，3，15，35，54，56，57]。这些联合视频-文本嵌入旨在将视频和文本描述映射到公共空间中，使得匹配的视频和文本对靠近在一起，形成了用于解决该问题的有吸引力的计算模型，因为它们允许有效的索引（尽管也已经研究了层次化嵌入[12]）。最近，出现了两个关键主题，以提高这些嵌入的质量。首先，大规模弱监督预训练方法[24，31，33]试图通过利用视频本身中包含的语音作为监督信号来扩展其训练数据其次，多模态的集成（长期以来被认为对语义索引很重要[46]）已被证明可以显著提高性能[18，28，32，39]。我们专注于从后一个主题的候选人作为调查我们的方法的基础。文本嵌入。语言的表征通过学习的嵌入已经被广泛研究[34，40，41]，并应用于各种自然语言处理应用中。一些工作已经证明，即使进行大规模的预训练，在目标任务上微调模型仍然有好处[14，40]，并且较大的模型（通常采用多个注意力头）会产生更高的性能[14]。最近，[8]详细比较了语言特征对视觉应用的重要性，并提出了一种专门为视觉任务设计的词嵌入在这项工作中，我们首先研究了各种预训练的语言嵌入如何影响文本视频检索的性能，然后提出了一种方法来利用组合多个文本嵌入的好处。知识蒸馏/特权信息。知识蒸馏的目的是将知识从一个模型（教师）转移到另一个模型（学生）。这个想法最初是在决策树简化[6]和模型压缩[7]的背景下引入的，后来由[19]扩展，他将这种知识转移形式化为知识蒸馏的温度参数化过程。该概念在广义蒸馏[30]的统一框架中进一步推广，用于使用特权信息[50]（通过相似性控制和知识转移[49]）进行学习，以及知识蒸馏[19]。我们的方法将视频和文本样本之间的相似性的知识提炼到学生中，因此代表了一种广义蒸馏的形式。虽然大多数知识蒸馏方法以教师的输出为目标来训练学生，但最近的方法提出了不同的与我们的方法最相关的是，[37]转移数据示例的相互关系，并提出距离和角度的蒸馏损失，这些损失惩罚关系中的结构差异，而不是训练学生模仿教师的输出-我们将其与第二节中的方法进行比较。五、3. 动机和直觉最近，[41]指出，即使语言表示学习系统（如[25，29，40]）在大量数据上进行了预训练，它们仍然对数据分布和任务规范的轻微变化敏感。通过这种方式，大多数系统可以被视为狭隘的专家，而不是有能力的通才。因此，在Fig. 2我们研究了使用不同的现成的预训练文本嵌入如何影响检索性能。我们观察到数据集内和数据集之间存在显著的差异，这表明每个嵌入捕获不同类型的信息。我们的直觉是，这些信息来自架构、预训练数据集和预训练目标的多样性，这些信息在文本嵌入中是不同的。接下来，我们将详细介绍所使用的文本嵌入11585i=1∈--图2. 改变文本嵌入的影响。不同的文本嵌入呈现在x轴上：w2 v [34]，mt grovle [8]，openai-gpt [40]，roberta [29]，albert [25]，gpt 2-large [41]，gpt 2-xl [41]，gpt 2-xl-F以及它们在五个数据集上R1-R5-R10的几何平均值中的性能。对于每个实验，我们报告了三次随机接种运行的平均值（菱形）和标准差（误差条）。本研究使用CE检索架构[28]进行：每个模型的不同之处仅在于其在输入处使用预先训练的文本嵌入。我们观察到一个显着的性能变化时，改变文本嵌入，跨数据集和数据集内数据集之间的排名差异表明不同文本嵌入之间存在额外的信息。然而，它表现出与每个语料库的域间隙（突出的事实是，当对来自文本-视频检索数据集的查询微调gpt 2-x1（在整个论文中称为gpt 2-x1-F）时，性能增加）。此外，在图。3我们示出了在MSR-VTT上的三个文本嵌入之间共享多少正确检索的查询：gpt 2-xl、gpt 2-xl-F和w2 v。只有大约19%（R1），分别为42%（R5）的查询被所有三个考虑的文本嵌入正确检索。这意味图3. 基于MSR-VTT上使用的预训练文本嵌入的正确检索样本的份额。我们观察到，每个嵌入都有相当大的样本份额仅由其自身正确检索（就R1左侧和R5右侧而言），进一步证明了我们的方法。最好用彩色观看。并总结了它们之间的关键差异与我们的研究结果的关系。Word2vec（w2v）[34]是一种轻量级的文本嵌入，广泛用于视觉任务[10，27，52]。多任务GrOVLE（mtgrovle）[8]是w2v的扩展，专门为视觉语言任务设计（然而，在我们的实验中，我们发现它的性能略低于w2v）。Finetuned Transformer语言模型（openai-gpt）[40]嵌入是在包含长连续文本的书籍语料库上训练的。我们观察到它在具有较长文本查询的数据集上表现良好，例如 ActivityNet 。 RoBERTa 和 AL-BERT[25，29]基于BERT架构[14]，并且在由未出版的书籍和维基百科文章组成的相同数据上进行训练。RoBERTa [29]专注于超参数优化，并表明更大的模型容量会带来更好的性能，而ALBERT[25]提出了一些参数减少技术来减少内存消耗并提高训练速度。在我们的实验中，我们观察到一个高的性能变化时，比较两者。与其他嵌入相比，gpt2[41]是在被设计为尽可能多样化的爬行数据集上训练的。我们观察到gpt 2在我们的实验中表现得最稳健，特别是在较小的数据集上，如MSR-VTT和MSVD。然而，在这方面，大量的查询对所使用的文本嵌入是敏感的，这巩固了我们的直觉。4. 方法根据SEC的调查结果3、研究了多文本嵌入对文本视频检索的影响。4.1. 问题描述和学习设置令D=（vi，ci）n是配对视频和字幕的数据集。遵循[18，28，32]的多模态专家方法，对于每个视频，除了针对每个字幕/查询ci 1的文本嵌入ti（使用文本编码器TE提取）之外，我们还可以访问使用预训练的视频编码器（VE）从视频vi的各种模态提取的视频嵌入（有时称为“专家”）xi的集合。文本-视频检索任务的目标是学习模型M（xi，t，j），该模型将高相似性值分配给对应的视频和文本嵌入的配对（xi，t，j）（即，i=j），否则具有低相似性。如文献[5，32]中常见的，我们将模型参数化为在共享空间中产生联合嵌入的双编码器，使得它们可以直接比较M（xi，tj）=F（xi）TQ（t j）其中F和Q分别表示学习的视频和文本编码器。训练视频和文本编码器以执行以下任务1这些嵌入是由在相关任务上训练过的模型产生的（例如视频编码器的动作识别和文本编码器的语言建模）11586LLΣΣL我--联系我们联系我们我--LRB∈JJ∈L图4. TEACHTEXT师生框架概述。给定在训练期间的一批输入视频和自然语言的查询，学生模型M（左）和教师模型T1、. . .、TN（右）各自产生相似性矩阵（可视化为正方形网格）。除了检索损失r之外，还通过蒸馏损失d来鼓励由M产生的相似性矩阵与教师的聚合矩阵匹配。注意，学生和教师两者摄取相同的视频嵌入（VE），但是采用不同的文本嵌入（对于学生，TE1，. . . ，对于教师而言是N）。在测试时，教师模型被丢弃。检索，我们采用对比排名损失[47]：B单个文本嵌入。接下来，我们给出了用于相似性矩阵学习的蒸馏损失的细节。L=1[max（0，si=1i=j-sii +m）+（一）算法1TEACH TEXT算法max（0，sji−sii+m）]其中B表示训练期间使用的批量大小Q（t，j）是编码视频F（x）和查询Q（t）之间的相似性得分，而m是裕度。一曰：阶段1：学习教师模型2：训练N个教师模型T k=（Fk，Qk），k∈{1，. . . ，N}，其中t ki j表示教师Tk在a中使用的文本模态我们的方法背后的关键思想是学习检索模型M，除了上述损失之外，该检索模型还可以访问由预先训练的“教师”检索模型的集合提供的信息，这些模型在相同的任务上训练，但摄取不同的4.2. TEACH TEXT算法为了提高模型M的检索性能，我们提出了TEACHTEXT算法，其目的是利用多个文本嵌入的线索。我们的方法的概述在图中提供。4.最初，我们培训一批教师模型T k：k1、. . .，N对于文本视频检索任务使用的方法中描述的第二节。4.1.教师共享相同的架构，但是每个模型Tk使用不同的文本嵌入作为输入（使用预先训练的文本编码器TEk提取）。在第二阶段，教师的参数被冻结。然后，我们对一批B对视频和字幕进行采样，并计算相应的相似度矩阵对于每个教师Tk，Sk∈RB×B（图4右）。这N标准检索培训设置（第4.1）。3：阶段2：学习学生模型，M=（F，Q）4：对于B配对样本的小批量（vi，ci），5：对于每个对（vi，ci），使用VE和TE来提取视频专家和文本嵌入对（xi，ti）。6：计算学生相似性矩阵在哪里S s（i，j）= F（x i）TQ（t j）对于i，j1，. . . 、B7：通过等式1计算损失r。1使用Ss。8：对于教师T k，k = l，. . . ，N do9：对于每个对（vi，ci），使用VE和TE k提取视频专家和文本嵌入对（xi，t k）。10：计算相似性矩阵Sk，其中Sk（i，j） =Fk（xi）TQk（tk）为i，j1，. . . 、B.11：结束12：计算聚合教师矩阵Φ（S1，. . . 、SN）。13：计算Ss和S s之间的损失dΦ（S1，. . . ，S，N）经由等式二、相似性矩阵然后与聚集函数Φ：RN ×B×B→RB×B相结合，以形成单个超14：用从com计算的梯度更新M正损耗L=Lr+Ld。相似性矩阵（图4，中右）。同时该批视频和字幕同样由学生模型M处理，其产生另一相似性矩阵SsRB×B。最后，除了标准的再评估损失（等式10）之外，1），蒸馏损失d促使S s靠近聚集体Φ（ S1，. . . 、SN）。该算法在Alg.1.一、在推断期间，教师模型被丢弃，并且学生模型M仅需要一个15：结束4.3. 学习相似度矩阵如第二节所述。4.1，检索任务的本质是创建一个模型，该模型能够在视频和文本/查询之间建立跨模态对应关系，分配IJ11587LDBSk=1直接学习跨模态相似度的思想L LL1对于其中查询准确地描述视频的配对具有高相似性值，否则具有低相似性。这使得相似性矩阵成为关于模型所持有的知识的丰富信息源。为了能够将知识从教师转移到学生，我们鼓励学生产生一个相似性矩阵，该矩阵与教师产生的相似性矩阵相匹配。通过这种方式，我们传达了关于文本和视频对应的信息，而不严格要求学生产生与教师完全相同的嵌入。为此，我们将相似性矩阵蒸馏损失定义为：编码器我们更新模型以使用[41]的更强大的gpt 2-xl文本嵌入，并且在[18]之后，我们对来自目标数据集的标题上的文本嵌入进行结合所有这些变化（第2.2节中提供的消融）5.3和图5a）导致CE+模型，我们将其包括作为附加基线。因此，总的来说，我们为学生模型使用了四种（[18，28，32]和CE+）不同的基础架构。4.5. 教师模式教师模型使用与STU相同的架构-B B dent模型。具体地，对于四个基拱中的每一个，L=1Σ Σ[l（Φ（i，j），S（i，j））]（2）i=1j=1第2节中描述的结构4.4，我们创建一个多-每个教师都使用不同的预训练文本嵌入-其中B表示批量，Φ = Φ（S1，. . . 、S N）表示教师相似性矩阵的聚合并且S表示学生的相似性矩阵。最后，受其他蒸馏工作如[37]的启发，l表示Huber损失，并定义为.1（x−y）2 如果|x−y|≤1，丁作为输入。我们考虑的候选文本嵌入是：mt grovle[8]、openai-gpt [40]、gpt2-large [41]、gpt2- xl [41]、w2v [34]。因此，我们得到一组多达五个模型，形成教师T k，k=1。5、每一个人都在使用4.6. 培训和实施细节l（x，y）=2|x− y|--否则（三）为了培养最后一名学生，我们结合了2我们探讨了几种形式的聚合函数和发现一个简单的元素平均值Φ（S1，. . . ，S N）=蒸馏损失和拟定蒸馏损失=r+ d。我们的模型在Pytorch [38]中使用Adam [22]进行训练。优化器 TEACH TEXT不增加任何额外列车-1ΣNNSk，在实践中工作得很好。就我们所知，《黑客帝国》是一部小说。它从关系知识提取[37]的工作中汲取灵感，该工作考虑了从关系中学习的想法，并引入了两种算法，通过成对和三重距离采样在单峰设置中实现这一概念。我们比较了我们的矩阵学习方法与他们在第二节。五、4.4.学生模型我们的方法的一个关键优势是，它是不可知的学生和教师的建筑形式，因此，学生（和教师）可以采用任何方法，从目前的文献。我们使用三种不同的近期作品MoEE [32]，CE [28]，MMT [18]作为学生和教师基础架构来测试我们的TEACHTEXT算法。所有这些作品采用多模态视频编码器的文本视频检索任务。欲了解更多详细信息，请参阅每种方法的原始论文。建立更强的基线。除了这些模型之外，我们还研究了我们在共享[28]的CE架构的模型上的方法，但是包括一系列小的技术改进以提供更强的基线，我们还针对该基线测试了 TEACHTEXT算法。从这个基础架构开始，我们改进了输入嵌入选择，发现[28]所采用的面部和OCR视频模态并不能始终如一地产生改善，因此我们将它们作为视频的输入添加额外的损失项d，所有其它超参数保持相同。5. 实验装置5.1. 数据集描述为了提供广泛的比较，我们在七个视频数据集上测试了我们的方法，这些数据集在最近的作品中作为文本视频检索任务的基准进行了探索：LSMDC [42]、DiDeMo [1]、MSVD [11]、MSRVTT [55]、ActivityNet[9]，VaTeX[53]和QuerYD[36]。我们遵循与先前工作相同的实验设置[12，18，28，39]。5.2. 度量为了评估性能，我们遵循先前的工作（例如[15，18，28，32，33，35，57]）并报告标准检索指标，包括R@K（排名K的召回率，其中较高的更好）和MdR（中位数排名，其中较低的更好）。对于某些分析，为了保持简洁，我们报告了R@1、R@5和R@10的几何平均值，而不是单个指标（该统计数据旨在代表总体再评价性能）。针对给定文本查询t2v的检索视频的任务报告数字，这在现实世界应用中更常见。反向任务v2t的数量和每个模型的参数数量在Suppl.Mat. 对于每一个实验-能够将参数或模态添加到最终模型。此外，当使用TEACHTEXT训练学生时，仅广告-11588在此期间，我们报告了三次随机接种运行的平均值和标准差。5.3. 消融在本节中，我们提出了一个广泛的研究，我们提出的方法。按照先前工作[18，28]中使用的设置，我们对MSR-VTT数据集[55]进行消融，除非另有说明。基线改进。我们建议将CE+作为附加基线，该基线由[28]模型的一系列技术改进组成。参见图5a中描述的每个修改。4.4带来了超过基础架构的额外增益。我们特别观察到，对目标数据集的文本嵌入进行微调具有很高的影响力，进一步突出了文本嵌入所发挥的关键作用，并证明了他们的研究是合理的。除了其他变化之外，我们发现某些视频嵌入专家特征对视频预处理中使用的压缩选择高度敏感，我们对此进行了相应的纠正（更多详细信息请参见Suppl. Mat.）。请注意，为了进行公平的比较，在SEC中。5.4我们报告了使用更新的预处理提取的这些嵌入重新训练方法[28，32]的次数，这产生了比原始论文中报告的更高的性能。在推理过程中使用多个文本嵌入。TEACHTEXT在测试时不使用附加信息。然而，很自然地会问，附加的文本嵌入是否可以作为模型架构的一部分被平凡地包括在内。图5（b）比较我们的图5.（a）基线改进。y轴（针对清晰度缩放）表示MSR-VTT上的检索性能我们首先介绍原始CE的性能[28]。首先，我们校正用于嵌入提取的预处理中的压缩伪影（CE HQ，Suppl.Mat.）。其次，我们细化所使用的视频模态和文本模态（Mod ref和Text ref）。最后，我们微调文本嵌入（F）并将优化器更改为Adam [22]，从而获得CE+基线。（b）在推理时使用额外的文本嵌入。所有实验都是使用相同的架构[28]进行的，但使用不同的文本嵌入：gpt 2-xl（第一个项目符号）、gpt 2-xl-F（第二个项目符号）、gpt 2-xl和gpt 2-xl-F的串联（第三个项目符号）、gpt 2-xl和gpt 2-xl-F的平均值（第四个项目符号）以及使用T EACHTEXT（最后一个项目符号）。通过在测试时使用多个文本嵌入，这会引入开销，从而获得性能的提升然而，通过使用T_EACH_ T_EXT，在测试时不存在额外开销，并且性能优越。图6. （a）教师研究。我们展示了从不同数量的教师那里学习对MSR-VTT数据集的影响（所有学生共享相同的CE+模型，为了清晰起见，y轴进行了缩放教师按以下顺序添加：gpt2-xl 、 w2v 、 gpt2- xl-F 、 mt grovle 、 openai-gpt 、 gpt2-large。随着教师人数的增加，教师的绩效也在增加，但在前3名教师之后，教师的绩效达到一个平台。学生的表现也有类似的趋势。（b）蒸馏类型。提出了从教师那里提取信息的各种替代方案：保留文本内和视频内关系的关系蒸馏[37]、成对距离蒸馏（Pdist-适应[37]用于交叉模态关系）、受排名1和排名10处的[48]启发的排名蒸馏以及TEACH_TEXT。第一颗子弹代表的是未经提炼的学生。方法与一些相对简单的文本嵌入聚集技术，这需要在训练和推理过程中访问多个文本嵌入。我们观察到，TEACH TEXT优于这些聚合技术，如直接连接或文本嵌入的平均值，这表明所提出的方法在捕获由多个文本嵌入给出的附加信息方面是有效的。此外，现有系统[18，28，32]的文本编码器通常采用许多参数，因此向架构添加多个文本嵌入会增加大量参数（100M+）。例如，两个文本嵌入的连接（假设它们具有相同的大小）几乎使CE+的参数总数加倍。相比之下，当采用T_EACH_ T_EXT时，不添加参数。教师变异教师模型与学生共享相同的架构，但使用不同的文本嵌入。接下来，我们对使用教师的数量的影响进行消融。我们在图中观察6a，绩效随着更多教师的增加而增加。由于教师的综合表现后，增加了3个以上的保持不变，我们没有得到进一步的改善。因此，对于我们在Sec. 5.4我们使用三个教师的组合，具有以下文本嵌入：w2 v [34]、gpt 2-xl [41]和gpt 2-xl-F（gpt 2-xl对来自目标数据集的字幕进行微调）。每个单独的文本嵌入如何影响最终性能的研究可以在补编中找到。Mat.部分教师的研究，我们观察到，即使当我们-11589模型MSRVTTBase TEACH TEXTMSRVTT 1k-ABase TEACH TEXT基地MSVDTEACH TEXT迪德莫Base TEACH TEXTLSMDCBase TEACH TEXTActivityNetBase TEACH TEXT教育和工程部CEMMTCE+二十四岁4 ±0. 1二十四岁4 ±0. 1-29岁2±0。2二十五8± 0。1二十五9± 0。1-三十4± 0.041岁6±0。4四十二0 ±0。844. 7±0。450块3±0。2四十三4± 0. 6四十三8± 0。3四十五6± 0。750块9±0。441岁8±0。3四十二3±0。6-四十六岁。5±1。0四十三2± 0。5四十二6± 0。4-四十六岁。6± 0。5三十三岁。2±1。4三十四2 ±0。4-三十五8 ±0。4四十2± 0。739岁5±0。5-四十4± 0.423岁8±0。423岁7±0。3二十四岁6 ±0。728岁1±0。3二十六岁0± 0。5二十五5± 0。5二十五9± 0。6三十7± 0。3四十1±0。3四十4±0. 344. 0 ±0。439岁7±0。0四十五2± 0。1四十五0± 0。6四十七9± 0。4四十六岁。3± 0。2表1. 方法通用性。当在不同基础模型之上应用TEACHTEXT时，各种数据集上的检索性能（R1-R5-R10的几何平均值）：MoEE[32]，CE[28]，MMT[18]（在可用数据集上）和CE+。我们以粗体呈现TEACH_TEXT带来对基础架构的改进的情况我们观察到，我们的方法提高了所有底层基础模型和所有数据集的性能。图7. （a）降噪。我们提出了去噪对MSR-VTT（为清晰起见，y轴按比例缩放）上的检索性能的影响。在每个视频具有多个字幕的数据集中可用的一些字幕可能是嘈杂的并且积极地损害训练过程。我们通过查看教师等级来估计字幕中存在的噪声程度，并在必要时删除字幕我们观察到去噪的有效性，当应用在隔离（CE+与CE+去噪），并结合完整的TEACHTEXT方法。（b）TEACHVIDEO-扩展到视频侧模态。我们观察到，我们的方法可以有效地利用使用多个视频侧模态带来的额外信息，而不会在测试时产生计算开销如果老师的表现较低（w2v），学生的表现会有显著的提高。蒸馏消融。我们比较建议的学习，ING与其他蒸馏替代品的相似性矩阵。如图6b所示，我们提出的方法在捕获视频和文本之间的关系方面是有效的。我们首先提供了TEACHTEXT和关系蒸馏的几个可能实例之间的比较[37]。事实上，考虑到[37]的高度一般性，TEACH_TEXT可以在该框架内被解释为通过批量相似性矩阵采用交叉模态蒸馏的特定关系配置。由于[37]的原始工作考虑了单模态应用程序，因此我们探索了[37]的两种变体作为文本视频检索任务的基线第一个（关系）独立地保留相同的我们使用与[37]中相同的成本函数，并在视频和文本嵌入上执行它。第二种方法（Pdist）使用交叉模态成对距离作为文本和视频之间的关系度量，而不是相似性矩阵。虽然这些方法确实带来了收益，但我们观察到TEACHTEXT更有效。我们还提供了一个受[48]K老师给出的预测。为了这样做，我们仅针对由教师给出的前K 个排名而不是针对整个迷你批次使用T_EACH_TEXT来强制相同的相似性。我们示出了K=1和K=10的性能（图6b中呈现的秩1和秩10）。在提取相似性矩阵时仅限制于前K个预测会导致性能略微下降方法通用性。为了证明TEACHTEXT的一般性，除了所提出的CE+基线之外，我们还针对三种现有技术方法[18，28，32]对其进行了测试。在选项卡中。1，我们观察到一致的性能增益，独立于基础架构。此外，我们测试的所有数据集都获得了增益，MoEE，CE和CE+模型的DiDeMo和ActivityNet数据集的绝对增益超过5%。请注意，对于MMT [18]，我们报告了作者2提供的公共实施中包含的数据集的结果。方法应用-去噪。我们的方法的一个直接应用是数据去噪。用于检索任务的现有真实世界文本视频数据集遭受可能损害训练的标签噪声。更具体地，在诸如MSR-VTT的众包数据集中，存在高度模糊/通用的一些字幕（例如因此，我们建议使用TEACHTEXT教师来过滤这类个案。对于这种情况，我们简单地删除教师给出的低排名预测，并仅使用新样本重新训练学生。具体来说，我们从训练集中删除正确视频未排在前40位的所有句子。这种方法最适合每个视频有多个字幕的数据集，确保我们可以在不从训练中删除视频本身的情况下删除嘈杂的字幕在此之后，我们使用CE+模型对MSR-VTT和MSVD数据集进行去噪。参见图如图7a所示，这可以是进一步改善结果的有效方式。请注意，任何其他消融均未使用去噪。TEACH VIDEO虽然这项工作的重点是使用多个文本嵌入，丁，这是很自然的，考虑这种方法是否可以扩展到视频编码器的形式。因此，我们引入 TEACHVIDEO算法，该算法遵循相同强调了只看顶部2https://github.com/gabeur/mmt11590模型R@1↑R@5↑R@10↑MdR↓双[16]7 .第一次会议。7二十二岁031岁8三十二0HGR[12]9 .第九条。2二十六岁2三十六5二十四岁0[32]第三十二话CE[28]311个国家。1±0。111个国家。0±0。0三十7±0。1三十8±0。1四十二9 ±0。1四十三3 ±0。3十五岁0 ±0。0十五岁0 ±0。0TT-CETT-CE+11个国家。8±0。115.0± 0. 1三十二7 ±0。138.5± 0. 1四十五3 ±0。151.7± 0. 1十三岁0 ±0。010.0± 0. 0表2. MSR-VTT完全拆分：与最新技术水平的比较。模型R@1↑R@5↑R@10↑MdR↓[32]第三十二话[18]第十八届全国人大常委会第十九次会议21岁6±1。021岁7±1。3二十四岁6 ±0。4二十七岁450块8±1。151岁8±0。5五十四0 ±0。2五十六3六十五6 ±0。7六十五7 ±0。667岁1±0。567岁7五、3±0。6五、0±0。04.第一章0± 0。03 .第三章。0TT-MMTTT-CE+二十四岁8 ±0。229岁6±0。355. 9±0。761岁6±0。568岁5±1。074岁2±0。34.第一章3± 0。53 .第三章。0±0。0表3. MSR-VTT 1 k-A分流[57]：与他人比较。模型R@1↑R@5↑R@10↑MdR↓VSE++[17]十五岁439岁6五十三09 .第九条。0M-Cues[35]20块3四十七861岁1六、0[32]第三十二话CE[28]321岁1±0。221岁5±0。552岁0±0。752岁3±0。866岁。7 ±0。267岁5±0。7五、0±0。0五、0±0。0TT-CETT-CE+二十二岁1 ±0。4二十五4± 0. 352岁2±0。5五十六9± 0。467岁2±0。6七十一3± 0。2五、0±0。04.第一章0± 0。0表4.MSVD：与现有技术方法的比较。模型R@1↑R@5↑R@10↑MdR↓S2VT[51]11个国家。9三十三岁。6- -- -55. 2±1。6五十六0 ±0。5十三岁0FSE[60]MoEE[32]CE[28]3十三岁9 ±0。7十六岁1 ±1。0十七岁1 ±0。9三十六0 ±0。841岁2±1。641岁9±0。211个国家。0±0。08. 3± 0。58. 0± 0。0TT-CETT-CE+21岁0±0。621岁6±0。7四十七5 ±0。9四十八6± 0。461岁9±0。562. 9±0。6六、0±0。0六、0±0。0表5. DiDeMo：与最先进方法的。模型R@1↑R@5↑R@10↑MdR↓JSFus[57]9 .第九条。121岁2三十四1三十六0[32]第三十二话[18]第十八话12个。1 ±0。712个。4 ±0. 7十三岁2 ±0。429岁4±0. 828岁5±0。829岁2±0。8三十七7 ±0。2三十七9 ±0。6三十八岁。8±0。923岁2±0。821岁7±0。621岁0±1。4TT-MMTTT-CE+十三岁6 ±0。5十七岁2± 0。431岁2±0。4三十六5± 0。6四十8±0。5四十六岁。3±0。3十七岁7 ±0。5十三岁7± 0。5表6.LSMDC：与现有技术方法的比较。在一些实施例中，教师可以设置为原始的TEACH_TEXT，但是现在教师可以访问多个视频模态而不是多个文本模态。在这项研究中，所有的学生和所有的教师使用相同的文本嵌入，所以我们可以评估收益由于 TEACHVIDEO。通过采用TEACH VIDEO，我们保留了在推理期间需要较少视频模态的计算优势。从我们的实验中可以看出，在图1中。7b，该方法是有效的，并带来了比原来的学生的提升。我们相信，这种扩展可能是有用的，在有限的计算资源的情况下，在推理过程中。定性示例和其他消融研究见附录。Mat.3请注意，由于压缩伪影校正，报告的数字高于原始论文。11591表7. ActivityNet：与现有技术方法的比较。模型R@1↑R@5↑R@10↑MdR↓VSE[23]28岁0六十四3七十六。93 .第三章。0双[16]31岁167岁478岁93 .第三章。0VSE++[17]三十三岁。7七十181. 0二、0HGR[12]三十五1七十三。583岁5二、0SSB[39]44. 681. 889岁。51 .一、0CE[28]四十七9 ±0。184. 2±0。191. 3±0。1二、0±0。0TT-CETT-CE+四十九7 ±0。1五十三2± 0。2八十五6 ±0。187岁4±0. 192. 4 ±0.1九十三3± 0。0二、0±0。01 .一、0± 0。0表8.VaTeX：与现有技术方法的比较。模型R@1↑R@5↑R@10↑MdR↓教育和电子部[32]CE[28]11个国家。6±1。3十三岁9 ±0。8三十2±3。0三十七6 ±1。2四十三2 ±3。1四十八3 ±1。4十四岁2 ±1。611个国家。3±0。6TT-CETT-CE+十四岁2 ±1。4十四岁4± 0. 5三十六6 ±2。0三十七7± 1。751岁1±2。150块9±1。69 .第九条。7±1。29 .第九条。8±1。0表9.QuerYD：与现有技术方法的比较。5.4. 与先前工作的如表2，3，4，5，6，7，8，9所示，我们的方法是有效的，并在六个数据集上实现了最先进的结果所有的方法都只使用目标数据集的样本进行检索任务的训练。为了尽可能公平，我们包括了我们的TEACHTEXT（缩写TT）的结果，其也应用于每个数据集的最佳现有方法。因此，架构和所使用的特征在推断期间是相同的（例如，TT-CE具有与CE相同的体系结构并使用相同的视频和文本嵌入。我们用粗体突出显示性能最佳的方法。6. 结论在本文中，我们提出了一种新的算法TEACH TEXT的文本视频检索任务。我们使用教师-学生范例，其中学生学习利用由一个或多个教师给出的附加信息，共享架构，但每个教师在输入时使用不同的预训练文本嵌入。通过这种方式，我们在六个基准上实现了最先进的结果。最后，我们提出了我们的方法去噪视频检索数据集的应用。鸣谢。这项工作得到了EPSRC计划资助SeebibyteEP/M013774/1和VisualAI EP/T028572/1的支持，以及Adobe 的礼物。 M.L. 由 UEFISCDI 在项目 EEA-RO-2018-0496下支持。作者感谢Gyungin Shin和Iulia Duta的协助。 S.A.我想感谢Z. Novak和S. Carlson的贡献。模型R@1↑R@5↑R@50↑MdR↓[32]第三十二话会议审议通过了《中华19号。7 ±0。319号。9 ±0。320块5二十二岁7 ±0。2二十六岁850块0±0。550块1±0。7四十九3五十四2 ±1。0五十八192. 0±0。292. 2±0。6- -九十三2 ±0。4九十三5五、3±0。5五、3±0。5- -五、0±0。03 .第三章。011592引用[1] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。使用自然语言对视频中的时刻进行本地化。在IEEE计算机视觉国际会议论文集，第5803-5812页[2] Yusuf Aytar，Mubarak Shah

下载后可阅读完整内容，剩余1页未读，立即下载