基于Querybank规范化的跨模态检索方法

24 浏览量更新于2023-10-26 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5194基于Querybank规范化的跨模态检索Simion-Vlad Bogolin1，2，* Ioana Croitoru1，2，* HailinJin3 Yang Liu1，4，†Samuel Albanie1，5，†1牛津大学视觉几何组2罗马尼亚科学院数学研究所3Adobe Research4王璇北京大学计算机技术研究所5剑桥大学工程系摘要得益于大规模训练数据集、神经结构设计的进步和高效推理，联合嵌入已成为跨模态检索的主要方法。在这项工作中，我们首先表明，尽管他们的有效性，国家的最先进的联合嵌入严重遭受长期存在的“枢纽问题”，其中少量的画廊嵌入形成许多查询的最近邻居。从NLP文献中汲取灵感，我们制定了一个简单但有效的框架，称为查询库规范化（QB-N ORM），重新规范化查询相似性，以考虑嵌入空间中的枢纽。QB-N ORM在不需要重新训练的情况下提高了检索性能。从以前的工作，我们表明，QB-N ORM有效地工作，没有并发访问任何测试集查询。在QB-N ORM框架内，我们还提出了一种新的相似性归一化方法，动态反向Softmax，这是显着更强大的比以往的方法。我们展示了QB-NORM在一系列跨模态检索模型和基准测试中的应用，它始终增强了强大的基线，超越了最先进的水平。代码可在https：//vladbogo获得。github.io/QB-Norm/.1. 介绍由于支持传感器、存储和网络的硬件的性价比不断提高，人类的数字档案不断扩大，有效搜索数据的能力在商业和科学上具有更大的重要性搜索这些数据的一种吸引人的方式是通过自然语言查询，其中用户描述他们的搜索目标，就像他们将向另一个人描述的那样，而不是使用专门的数据库语言，如结构化查询语言（SQL）。为了实现这一目标，大量的研究文献已经*同等贡献。†通讯作者。的枢纽问题艺术画廊X毂X余弦相似性问题：Gallery sample x （一个“枢纽”）与两个查询的相似性更高。注：边缘宽度表示相似性强度。检索结果Query查询检索 X检索 X查询库规范化艺术画廊X毂Xb1QB标准相似性b2解决方案：减少查询银行在hub中的应用，QB标准相似性。检索结果查询检索 X查询检索 X图1. 左：hubness问题。我们考虑的问题，跨模态检索中查询q1和q2是COM，对样本库，x1和x2。正如我们在SEC中所展示的那样。3.2，用于跨模态检索的现代方法所采用的高维联合嵌入遭受“中枢问题”[ 80 ]。一个中心（例如x2）是多个查询（q1和q2）的最近邻居，产生质量差的检索结果（左下）。右：Querybank Normalisation使用一个查询库来规范相似性，减少hub x2与查询q1的相似性，改善检索结果（右下）。研究了跨模态检索的问题，即在一种模态中搜索样本库的任务，给出了另一种模态的特别是，近年来对于可以通过采用交叉模态嵌入来使用自然语言查询有效搜索图像[90]，音频[74]和视频[103]的系统已经取得了重大主导的交叉模态嵌入范式采用深度神经网络，将模态特定的样本投影到高维实值向量空间中，在该空间中，可以通过适当的距离度量直接比较它们。这种方法的一个关键挑战，内在于这种高维空间，是“枢纽”的出现1，左）。为了说明这一挑战，5195我们在SEC中以经验显示。3.2和图2表明，在一系列领先的检索方法中，中心性是普遍存在的。集线器有后果：如果不解决，它们会导致检索系统产生的搜索排名显著下降[8]。中心度问题受到了相当大的关注[8，64，80]，并且已经提出了许多方法来解决它[31]，其中NLP文献中的显著贡献集中在双语单词翻译[21，24，88]。我们工作的一个贡献是展示了如何在一个统一的概念框架内解释这些方法中的每一个，该框架被称为查询库规范化（QB-NORM，图1，右），该框架在推理过程中采用样本的查询库我们观察到，现有的方法有两个挑战：（1）到目前为止，这些方法只被证明是工作与并发访问多个测试查询的假设是不切实际的现实世界的检索系统;（2）他们是敏感的查询库的选择，并确实积极损害某些查询库的性能（表。2）。为了解决第一个挑战，我们通过仔细的实验证明（表。1）QB-NORM不需要同时访问测试查询才有效。为了解决第二个挑战，我们提出了一种新的归一化方法，动态反转软最大值（DIS），作为一个模块内的QB-NORM框架。我们表明，DIS提供了有效的归一化，但比以前的方法更强大[21，24，88]。我们做出了以下贡献：（1）我们通过证明中心度的长期问题仍然是现代跨模态嵌入检索中的一个重要问题来激励我们的研究;（2）我们提出了查询库规范化（QB-NORM），一个简单的非参数框架，它在不需要模型微调的情况下带来了检索性能的显着提高;（3）我们提供了第一个（据我们所知）证明，查询库规范化方法在不访问当前查询之外的测试查询的情况下保留了它们对跨模态检索的有效性;（4）我们提出了动态反向Softmax，一种新的查询库规范化的规范化方法，比以前的文献更鲁棒(5)我们表明，QB-NORM在广泛的任务，模型和基准测试中非常有效。2. 相关工作在本节中，我们总结了与我们的方法相关的文献中的先前工作，重点是跨模态检索，外部记忆库和hubness。跨模态表示。在心理学[11]的初步研究之后，跨模态检索的早期框架包括高斯混合模型[87]通过EM [27]建模翻译，主题模型[9]，CCA [81]，KCCA [89]和排名优化[99]。受到深度度量学习[18]和深度视觉语义嵌入[33]，此后出现了用于文本-图像检索[29，50，54，70，95]，文本-视频[3，5，23，25，69，100，104，106]文本-音频[74]，图像-音频[1，51，72，75，111]和所有上述的组合[4]。最近跨越这些任务的研究探索了大规模的预训练[68，79]，领域适应[63，71]以及将多种感觉模态紧密整合到嵌入空间的一侧[34，62，67]。检索的相似性搜索：交易技巧。已经开发了大量技术来支持和增强检索的相似性搜索，包括k-d树[7]，重新排名[44，78]，查询扩展[19，20]，基于二进制代码的矢量压缩方案[36，41]和量化[43，45]，有助于解决维度的诅咒[6]。已经开发了用于在CPU [26]和GPU [47]上构建近似k-最近邻图的算法，后者利用乘积量化技术来扩展到十亿级搜索。继上述关于交叉模态表示和改进的相似性搜索的工作之后，我们特别关注解决交叉模态嵌入中的中心性问题，我们演示了这一点（第二节）。3.2）在领先的跨模态嵌入框架中是一个普遍的问题。内存库增强架构。已经研究了各种形式的存储体作为神经网络架构的有用扩展，以促进一般问题的解决[37，38，84，107]，更好的图像字幕[22，76，101]和总结[52，56]，增强自我监督的训练动态[12，40，61]，并提供一种处理罕见情况的机制[49，105]。我们提出的查询库规范化框架同样将嵌入样本存储在外部存储库中，但针对这些工作的一个非常不同的问题，即中心度缓解。Hubness问题Radovanovic等人[80]对中心度问题进行了详细描述，他们观察到，在从具有高内在维度的分布中采样的点中，“k次出现”（一个点出现在其他点的k个最近邻中的次数）的分布虽然对hubness的原因存在分歧[64]，但它在概念上与高维中的距离集中有关[8]（高维点靠近以数据平均值为中心的超球面，即，他们都表现出与平均值相似的距离[32]）。人们认为，枢纽然后从这一现象通过不可忽略的方差的距离分布的平均值在有限的尺寸[80]。Hubness缓解。一个范例专注于重新缩放相似性空间以解释最近邻关系中的不对称性[85]-这一过程可以通过局部[46，108]和全局[85]尺度来实现。5196Gi=1--图2.Hubness在文本视频检索的主要方法中是普遍存在的。图表描述了测试集查询检索每个图库视频的次数分布（x轴视频ID按检索计数递减排序顶行（不同模型）：我们报告了MSR-VTT基准[102]上CE [62]，TT-CE+[23]，MMT [34]和CLIP 2 Video[30]的检索分布底行（不同的数据集）：我们报告了TT-CE+[23]方法在另外四个数据集上的检索分布，DiDeMo [42]，LSMDC[82]，VaTeX [98]和ActivityNet-captions [55]，在所有情况下，我们观察到强烈的中心性，其中少量视频经常被不成比例地检索，损害性能。计划。另一项工作集中在通过基于拉普拉斯的内核[92]和中心化[39，93]来解决数据中质心的中心倾向。Fed-Bauer等人提供了这些方法系列的全面经验比较[31]，并指出虽然有效，但这些方法的规模是二次的，使得它们的天真应用不适合大型数据集。一个例外是CENT方法[93]，但是我们没有发现这种方法是有效的（补充资料中提供了实验）。在零次学习文献中，工作人员试图通过将（文本）目标映射回（图像）查询空间[86，109]，并通过最小化k次出现分布[17]中的中心度[60]和偏斜度代理来解决中心度问题，以提高3D少次学习性能。与我们的工作更密切相关的是，[24]提出了一般的检索方案，其中查询与它们形成最近邻的目标相这项工作是建立在NLP文献的基础上[21]，他们提出了一个跨域局部缩放方案（可以集成到损失[48]中），[88]，他们引入了Inverted Softmax（IS），以减轻在不同语言的字典之间翻译时的中心度我们在第二节中更详细地讨论了我们的方法与[21，24，88]的关系。3并将这些方法与我们在第二节中提出的动态反向Softmax方法进行比较。4.第一章同样与我们的工作相关的是，[14，59，112]通过在整个测试查询集上应用IS来强制查询和测试集项目之间的二分匹配约束-对于经历用户连续操作的实际检索系统来说，这是不现实的约束。本文的一个贡献是证明并发访问测试查询是不需要的。我们的工作的第二个贡献，没有考虑在以前的工作，是表明，上面提出的方法可以积极地损害特定查询库选择的检索性能，我们提出的动态反向Softmax解决了这个问题3. 方法我们首先定义了跨模态嵌入的检索任务（第二节）。3.1），在概述我们的工作动机之前，通过检查文本视频检索的上下文中的中心问题（第3.1节）。3.2）。接下来，我们将介绍Querybank规范化框架（第二节）。3.3），对解决这一问题的几种现有方法进行一般化。最后，我们探索框架组件的设计，并介绍了所提出的动态反向Softmax的鲁棒性相似性归一化（第二节）。第3.4段）。3.1. 任务定义给一个画廊，在一个模态mg和一个查询q中，在另一个模态mq中，跨模态检索的目的是根据与查询匹配的程度我们在学习交叉模态嵌入的框架内研究这个问题[33]：具体地说，我们试图学习一对编码器，q和g，将每个查询q和图库样本g映射到共享的实嵌入空间RC中，使得q（q）和g（g）接近当且仅当q与g相似。我们假设我们被给予对T个对应查询和图库样本（qi，gi）T的训练集的访问权，以用于学习嵌入的目的。然而，用于评估检索性能的查询和图库（即测试集）在训练期间是不可见的。用于定义“良好匹配”的相似性度量的选择由应用领域确定。例如，在自然语言的文本视频检索任务5197∈·∈GQB{}×→G ∈ G∈··--{|G|}∈∈语言查询的目标是根据视频的内容被书面自由形式的文本查询描述得有多好来对视频库进行排名[67]，而在图像-音频检索中，目标通常是从库中获得与图像查询共享相同语义类别的音频样本[2]。在这项工作中，我们特别关注自然语言查询的跨模态检索任务，原因有两个：（1）这些任务在Hubness缓解文献中受到的关注有限，（2）Hubness已被证明在具有高内在维度的嵌入中特别普遍[80]。由于自然语言查询可以表达比单个单词更复杂的概念（例如在零拍摄学习图像标记任务中考虑的概念[24]），因此我们预计自然语言查询可能会自然地诱导具有更大内在维度的交叉模态嵌入，因此可能具有更大的潜力从中心度缓解中受益。3.2. 动机长期以来，人们已经观察到高维嵌入空间倾向于hubness[80]，其中一小部分样本在所有嵌入的k-最近邻集合中不成比例地频繁出现。正如Berenzweig [8]所指出的，该属性可能会对采用最近邻搜索来为给定查询找到最佳图库匹配的检索系统产生为了说明这个问题，我们考虑自然语言查询的视频检索问题。我们绘制了在MSR-VTT检索基准[102]上检索每个图库视频的次数分布，用于一系列文本视频检索方法，包括CE[62]，TT-CE+[23]，MMT [34]和CLIP 2 Video [30]，后者代表了该基准的当前技术水平。在每一个案例中，我们都看到了令人震惊的证据：少数视频被检索得非常频繁，而其他视频则根本没有被检索到。这种现象并不局限于特定的检索模型，这表明该问题并不容易通过使用多种视频模式、注意力机制和大规模预训练来解决，这些方法以各种组合方式实现。3.3. 查询库规范化为了解决前一节中在文本视频检索的跨模态嵌入中观察到的中心性问题，我们首先转向现有的关于中心性缓解的文献。如第二节所述。2，中心效应已经在几个问题领域进行了研究，包括Zero-Shot Learning [24，86]，NLP [21，88]，生物医学统计[85]和音乐检索[85]。在这些文献中，我们特别感兴趣的是可以应用于实际跨模态检索设置的方法，即，那些复杂度与图库大小最多呈线性关系的方法（而不是寻求以解决固定嵌入空间内的轮毂问题[31]）。为了澄清现有方法之间的关系，我们将它们转换为QuerybankNormalisation框架（图1）。 1），其包括两个组件，查询库构造和相似性归一化，下面描述：查询库构造。为了减轻交叉模态嵌入空间中的中心性，我们试图以最小化中心影响的方式改变嵌入之间的相似性。为了调整相似性，我们首先构建一个包含N个样本的查询库，b1，. . .，b从查询模态，mq，这将作为一个探针，以测量轮毂的画廊样品。相似性标准化。为了将相似性标准化为集线器的计数，我们假设访问查询q，训练编码器qq和qq，querybankb1，. . .，bN，和一个画廊. 对于每个gj，我们首先计算一个探测向量，PJ其中，sim（i）表示跨模态嵌入空间中的相似性（例如，余弦相似性）。然后将探测向量堆叠以形成探测矩阵PR| G| ×N. 同样，我们为每个查询计算一个非规范化相似性向量，sqR|G|，sq（j）=sim（q（q），g（gj））. 这里j1、. . .、索引所有画廊元素。最后我们定义查询库规范化函数QB-NORM：R| G|R| G| ×NR| G|对于每个查询q和图库，其产生查询库归一化相似度的向量ηq= QB-N ORM（sq，P）R| G|. QB-NORM（）的各种候选者在第2节中讨论。三点四分。在实践中，用于相似性归一化的探测矩阵可以预先计算并在所有查询中重复使用（以更高的内存为代价提高计算效率）。所得到的QB-NORM算法的概述，以及其应用于排名画廊样本，在Alg中概括了查询集合Q。1.一、3.4. 设计选择查询库规范化框架为查询库构建和相似性规范化提供了许多可行的选择。为了说明这一点，我们首先将NLP文献中提出的三种用于缓解中心度的技术然后，我们介绍我们提出的替代方案，动态反向Softmax。全局校正（GC）检索[24]。这种方法最初是为了双语翻译和零拍摄学习的任务而引入的，可以通过从测试查询的完整集合（或所有语义标签，在零拍摄图像标签的交叉模态设置中）构建查询库来实现。对于他们的双语翻译任务，作者通过额外的随机抽样的mq实例集合来补充他们的查询库，这提高了性能。对应于q和图库向量gj的归一化相似度通过ηq（j）定义：−（Rank（sq（j），pj）−sq（j））∈R，其中Rank：R×RN→5198GQB{}argmaxls（bi，gl），iK∈∈G∈Q∈∈∈--·1Texp[β·pj]sq（j）否则（q（q），g（gj））14：结束L QKKQ- −∈∈算法1使用查询库规范化进行输入：查询，mq输入：gallery，mg1：查询库的构建。2：构造查询库，=b1，. . . ，bNmq3：相似性标准化：4：预计算查询库探测矩阵5：对于图库样本gj∈ Gdo表现出非正常的相似性。这种特性使得它们不太适合作为通用解决方案：我们希望不仅在有利条件下提高性能，而且为了解决这个问题，除了Alg.1，我们也预先计算一个画廊激活集，A={j：j∈k∈6：对于查询库样本bi∈ B，{1，. - 是的- 是的，N}}。这里，符号argmax_l_f（l）表示7：计算探测矩阵条目P（j，i）=sim（q（bi），g（gj）） R8：结束9：结束十：查询计算：QB-NORM相似性11：对于查询q，12：对于画廊样品gj做13：计算未归一化相似度s（j）=k-max-select操作符，返回使f（l）最大化的l的k个值（像j一样，l也在图库索引上运行，k被设置为超参数）。直观地说，这个集合包含了我们的querybank探测器已经识别为潜在枢纽的图库向量的索引我们通过仅为落在该集合内的最近邻检索激活反向softmax来创建动态反向softmax：SIMQ.exp（β·sq（j））ηq（j）=如果argmaxs（l）∈A15：ηq=QB-NORM（sq，P）R| G|.16：搜索排名= argsort（ηq）十七：端0，. . .，N返回第一个参数相对于第二个参数中的元素数组的秩。跨域相似性局部缩放（CSLS）[21]。CSLS是针对双语单词翻译任务而引入的，它首先构造一个包含所有可能查询（对应于源词汇样本）的初始查询库，然后利用该查询库的不同子集对每个样本进行归一化处理。令p∈jRK表示探测向量，pj，限于与g allery样本g j最相似的K个查询库样本。同样的，让我们RK表示未归一化的相似性向量sq，其限于与查询q最相似的K个图库样本。然后通过以下公式计算归一化相似度：11Ts11TpjR.[88]第十八话：该方法针对双语词汇翻译，从源词汇（对应于所有可能的感兴趣查询）中构造查询库。对于实际的实现，作者建议均匀随机子采样可行数量的查询。相似性标准化通过以下方式实现：η（j）=exp（β·sq（j））R（1）1Texp[β·pj]其中，exp[ ]表示逐元素取幂，β是被称为“逆温度”的超参数。动态反向Softmax（DIS）。在上述方法的实验中（详细讨论见第二节），4）我们观察到一个重要的实际问题：如果查询库不能有效地覆盖包含图库的空间，那么每个查询库将严重退化，从而低于由于sq（j）被计算为等式n中的中间步骤，1中，动态反向Softmax相对于标准反向Softmax所引起的唯一额外成本源于等式1中的argmax运算二、幸运的是，这种计算可以非常有效地执行，几乎没有精度损失，即使在数十亿画廊样本的规模下[47]。我们通过实验证明，在SEC。4、动态反向Softmax比GC、CSLS和IS更健壮：重要的是，当使用次优查询库选择时，它不会损害性能。4. 实验在本节中，我们首先简要描述用于我们实验的数据集和指标（第二节）。4.1）。然后，我们进行了一系列实验：（i）证明我们声称QB-NORM在没有并发访问多个测试查询的情况下是有效的;（ii）调查查询库大小的影响;（iii）将动态反向Softmax与先前的方法进行比较 ; （ iv ）消除其他 QB-NORM组件（第 2 节）。4.2）。最后，我们通过将其应用于广泛的模型，任务和数据集来展示QuerybankNormalisation4.3）。4.1. 数据集和评估指标我们在文本视频的标准基准上进行实验检索：MSR-VTT [102]，MSVD [13]，迪德莫 [42]，LSMDC [82]，VaTeX [98个国家]和QueryYD [73].我们还研究了文本图像检索（MSCoCo[16]），文本音频检索（AudioCaps [53]）和图像到图像检索（CUB- 200-2011 [94]，斯坦福在线产品[91]）的QB-NORM。每个数据集的详细描述将提交给政府部门。我们报告标准检索性能指标：（二）5199查询银行来源大小R@1↑R@5↑R@10↑MdR↓无查询银行训练集验证集测试集-60k10k60k十四岁9 ±0。1十七岁3 ±0。0十六岁6 ±0。1十七岁5 ±0。0三十八岁。3±0。1四十二1 ±0。1四十8±0。1四十二4 ±0. 151岁5±0。1五十四9 ±0。0五十三7 ±0。155. 1±0。010个。0 ±0。08. 0± 0。09 .第九条。0±0。08. 0± 0。0表1. 有效的查询库可以从训练集构造。性能报告基于MSR-VTT完全拆分[102]。我们观察到，来自训练集的60K个样本的查询库对测试集查询库进行了测试。R@K（在等级K的回忆，越高越好）和MdR（中位数等级，越低越好）。对于每项研究，我们报告了三次随机接种运行的平均值和标准差。4.2. 查询库规范化我们使用TT-CE+ [23]对文本视频检索的MSR-VTT基准进行了初步研究，以解决一系列与Querybank标准化相关的问题。我们是否需要一次访问多个测试查询来减轻集中性？先前的工作已经研究了使用IS进行自然语言查询的图像和视频检索，但仅通过假设同时访问查询的完整测试集来构建查询库[14，59，112]。这种方法的动机[59]是强制执行二分匹配约束，该约束对每个测试查询映射到一个图库样本的先验知识进行编码。不幸的是，这种方法是不切实际的部署在现实世界中的系统，体验顺序用户查询。因此，我们首先问我们是否需要通过从训练集构建替代查询库来并发访问所有测试集查询。我们使用DIS标准化来评估QB-NORM的性能，其中我们从以下内容构建查询库：（i）所有测试集查询;(ii)所有验证集查询：（iii）与测试集的大小匹配的训练集的随机子采样子集（对于每个训练模型重新采样一次以估计方差）。结果报告在表1中。1.一、值得注意的是，我们观察到训练集查询库执行测试集查询库。鉴于这一发现，我们得出结论，测试集查询库是不必要的，以减轻枢纽。因此，我们限制所有查询库的建设使用训练集样本的所有剩余的实验，确保有效的比较标准的检索基准。查询库的大小对性能有什么影响？为了解决这个问题，我们在一系列不同的尺度上对查询库进行采样，并使用DIS归一化来报告每个尺度的三个采样的指标的平均值和标准偏差。结果如图3（左）所示，我们观察到性能随着查询库大小的增加而增加，但是仅使用几千个随机训练样本的查询库就可以获得强大的结果。相似性归一化策略对QB-N ORM有什么影响？为了解决这个问题，我们首先从MSR-VTT中抽取了5，000个样本的查询库图3. TT-CE+ [23]模型报告的检索结果在MSR-VTT [102]基准测试中，使用QB-N ORM DIS标准化进行文本视频检索。左：查询库大小对MSR-VTT验证分割检索性能的影响. 我们观察到性能随着查询库大小的增加而稳定增长，但会饱和。右：逆温度β对MSR-VTT验证分离的影响。性能随逆温度平稳变化，峰值为20。训练分割和比较第二节中描述的标准化策略。三点四分。结果报告在表的上部框（“在域中”）中2，其中我们观察到CSLS [21]，IS [88]和建议的DIS策略表现最好，并且所有查询库规范化方法在没有规范化的情况下基本上。接下来，为了评估归一化策略对不同查询库采样分布的鲁棒性，我们从两个不同视频检索数据集的训练分割中对5，000个样本的额外查询库进行采样：MSVD[13]（其查询域与MSR-VTT紧密匹配）和LSMDC [82]（具有音频描述的电影集合，其查询域远离MSR-VTT），并评估MSR-VTT测试的检索性能。我们在Tab的中间块中报告结果。2（为了理解为什么LSMDC查询库对于GC [24]和DIS以外的方法可能是有害的，我们仔细研究了样本，并观察到LSMDC查询仅从视频库中检索一小部分视频为了验证这种检索分布确实是问题的原因，我们通过选择在MSR-VTT测试集上实现最小覆盖率（即检索最低数量的不同视频）的5，000个训练查询，从MSR-VTT构建了一个我们在Tab的Adversarial块中报告数字。二、我们观察到，尽管从相同的数据集采样，但除DIS之外的所有归一化方法在下面的块中，总体上，我们将所有方法的总体性能计算为几何平均值。由于DIS的整体性能最好（在表1中以粗体2）我们将其作为我们的标准化5200MSR-VTT迪德莫LSMDCMSCoCo之前后之前后之前后之前后0.9390.5091.210.390.7150.3210.560.16表3. QB-NORM对各种数据集的中心度的影响。我们观察到，QB-NORM始终降低hubness（如通过k-分布中的偏度所测量的）。模型R@1↑R@5↑R@10↑MdR↓CE [62]MMT [34][第77话]21岁7±1。3二十四岁6 ±0。4二十七岁451岁8±0。5五十四0 ±0。2五十六3六十五7 ±0。667岁1±0。567岁7五、0± 0。04.第一章0±0。03 .第三章。0冷冻[5]31岁0五十九5七十53 .第三章。0CLIP4Clip [65]44. 5七十一481. 6二、0TT-CE+[23]TT-CE+（+QB-NORM）29岁6±0。3三十三岁。3±0。761岁6±0。563岁7±0。174岁2±0。3七十六。3±0。43 .第三章。0±0。03 .第三章。0±0。0CLIP2视频[30]CLIP 2视频（+QB-NORM）四十五6四十七2七十二5七十三。081. 783岁0二、0二、0表4. MSR-VTT 1 k-A分流：与最新技术水平的比较。模型R@1↑R@5↑R@10↑MdR↓VSE++[28]十五岁439岁6五十三09 .第九条。0教育和体育部[67]CE [62]冷冻[5]21岁1±0。221岁5±0。5三十三岁。752岁0±0。752岁3±0。8六十四766岁。7 ±0。267岁5±0。7七十六。3五、0± 0。0五、0± 0。03 .第三章。0CLIP4Clip [65]四十六岁。2七十六。184. 6二、0TT-CE+[23]TT-CE+（+QB-NORM）二十五4 ±0. 3二十六岁6 ±0。9五十六9 ±0。4五十八5 ±1。3七十一3 ±0。2七十一8 ±1。14.第一章0±0。04.第一章0±0。0CLIP2视频[30]CLIP 2视频（+QB-NORM）四十七0四十七6七十六。8七十七。6八十五986岁。1二、0二、0表2. 规范化策略对querybank源分布的影响。性能报告在MSR-VTT完全分裂[102]上，而5，000个样本的查询库是从不同数据集的训练集中采样的。在最后一个块中，我们给出了每种方法的几何平均值（GM）我们观察到，DIS提供了最好的整体权衡：它匹配的高性能的IS和CSLS域和封闭域查询银行，是更强大的远域和对抗查询银行。图4. 定性结果。我们举例说明了一个示例查询，其中QB-NORM导致检索正确的目标视频（其帧用绿虚线突出显示）。有关更多示例和更详细的分析，请参见补充资料。所有剩余实验的QB-NORM策略。超参数敏感性。 IS [21]和DIS标准化策略要求用户选择其他方法中不存在的额外超参数（逆温度）。我们评估DIS对此的敏感性图中的超参数3（右），我们发现值为20效果最好。在实践中，我们发现这个值在数据集上一致性很好，因此我们将其用于所有剩余的实验（除了CLIP2Video[30]，我们使用1。99-1，因为类似的QB源数据正常化R@1↑R@5↑R@10↑ MdR↓没有QB-十四岁9 ±0。1三十八岁。3±0。151岁5±0。110个。0±0。0在域MSR-VTTMSR-VTTMSR-VTTQB-NORM（GC [24]）QB-NORM（CSLS[21]）QB-NORM（IS[88]）QB-NORM（DIS）十五岁8 ±0。0十六岁8 ±0。1十七岁1 ±0。1十七岁0 ±0。139岁1±0。041岁5±0。141岁9±0。241岁3±0。151岁8±0。0五十四4 ±0.1五十四7 ±0。1五十四1 ±0。110个。0±0。08. 0±0。08. 0±0。08. 6±0。5关闭域名MSVDMSVDMSVDQB-NORM（GC [24]）QB-NORM（CSLS[21]）QB-NORM（IS[88]）QB-NORM（DIS）十五岁2 ±0。1十六岁5 ±0。0十六岁4 ±0.2十六岁7 ±0。1三十八岁。8±0。041岁2±0。0四十9±0。241岁1±0。151岁7±0。0五十四1 ±0。1五十三9 ±0。1五十四0 ±0。010个。0±0。09 .第九条。0± 0。09 .第九条。0± 0。09 .第九条。0± 0。05201表5. MSVD：与现有技术方法的。已经通过该方法缩放了I/S）。DIS标准化引入了一个额外的超参数（第2.1节中描述的k个最大选择值）。第3.4段）。我们观察到，选择k=1提供了良好性能和鲁棒性之间的良好权衡，因此我们简单地将此值用于所有实验。QB-NORM是否减轻了轮毂？QB-NORM的核心动机是现有的跨模态检索方法受到中心度的严重影响（图2）。为了研究QB-NORM是否已经解决了这一问题，我们在Tab中报告了四个数据集的k次出现分布1的偏斜度（表示嵌入空间的中心度[803使用由来自训练集的所有样本组成的查询库我们观察到，在每种情况下，偏度（以及中心度）都显着降低。4.3. 与其他方法在本节中，我们进行了广泛的研究，以评估QB-NORM的有效性和通用性的几个良好的基准。将QB-NORM应用于文本-视频检索的跨模态嵌入的影响报告在Tab中四五六七八九我们在补充中提供了进一步的文本视频检索结果。在选项卡中。10我们报告文本图像检索任务的结果，而在Tab. 11，12，我们报告图像检索任务的结果。最后，在Tab. 13，我们报告的文本音频检索的结果。在1补充资料中详细说明了这一计算5202模型R@1↑R@2↑R@4↑R@8↑MS [96]EPS [57]五十七4六十四469岁。875. 2八十084. 3--RDML [83][83]第83话：你是谁？六十四4六十四875. 375. 683岁484. 0九十0九十4表6. DiDeMo：与最先进方法的。模型R@1↑R@5↑R@10↑MdR↓教育和体育部[67]CE [62]MMT [34]冷冻[5]CLIP4Clip [65]12个。1 ±0。712个。4 ±0. 7十三岁2 ±0。4十五岁021岁629岁4±0. 828岁5±0。829岁2±0。8三十841岁8三十七7 ±0。2三十七9 ±0。6三十八岁。8±0。939岁8四十九823岁2±0。821岁7±0。621岁0±1。420块011个国家。0CE+[23]CE+（QB-NORM）十四岁9 ±0。6十六岁4 ±0. 8三十三岁。7±0。2三十四8 ±0。444. 1±0。644. 9±0。9十五岁3 ±0。5十四岁5 ±0。4TT-CE+[23]TT-CE+（QB-NORM）十七岁2 ±0。4十七岁8 ±0。4三十六5 ±0。6三十七7 ±0。5四十六岁。3±0。3四十七6 ±0。6十三岁7 ±0。512个。7 ±0。5表7. LSMDC：与现有技术方法的。模型R@1↑R@5↑R@10↑MdR↓HGR [15]三十五1七十三。583岁5二、0[第77话]44. 681. 889岁。51 .一、0CE [62]快与慢[66]四十七9 ±0。150块584. 2±0。184. 691. 3±0。191. 7二、0± 0。0-TT-CE+[23]TT-CE+（+QB-NORM）五十三2 ±0。2五十四8 ±0。187岁4±0. 188岁2±0。1九十三3 ±0。0九十三8± 0。11 .一、0± 0。01 .一、0± 0。0CLIP2视频[30]CLIP 2视频（+QB-NORM）五十七4五十八887岁988岁3九十三6九十三81 .一、01 .一、0表8.VaTeX：与现有技术方法的比较。模型R@1↑R@5↑R@10↑MdR↓教育和体育部[67]CE [62]11个国家。6±1。3十三岁9 ±0。8三十2±3。0三十七6 ±1。2四十三2 ±3。1四十八3 ±1。4十四岁2 ±1。611个国家。3±0。6CE+[23]CE+（+QB-NORM）十三岁2 ±2。0十四岁1 ±1。8三十七1 ±2。9三十八岁。6±1。350块5±1。951岁1±1。610个。3 ±1。210个。0 ±0。8TT-CE+ [23]TT-CE+（+QB-NORM）十四岁4 ±0. 5十五岁1± 1。6三十七7 ±1。7三十八岁。3±2。450块9±1。651岁2±2。89 .第九条。8±1。010个。3 ±1。7表9. QuerYD：与现有技术方法的。模型R@1↑R@5↑R@10↑MdR↓剪辑[79]VSE++[28]奥斯卡奖[58]VINVL [110]快与慢[66]三十七8四十三9五十四0五十八868岁262. 4五十九4八十883岁589岁。7七十二2七十二488岁5九十3九十三9-----[79]第79话夹扣（+QB-NORM）三十3三十四8五十六1五十九967岁1七十44.第一章03 .第三章。0[35]第三十五话MMT-Oscar（+QB-NORM）52岁2五十三9八十2八十588岁088岁11 .一、01 .一、0表10. 文本图像检索- MSCoCo 5 k分割：与其他方法的比较。图10表示使用官方CLIP [79] ViT-B/32模型获得的结果。图4我们还展示了一个定性的例子。对于为不同种子提供权重的基础模型，我们报告了应用于每个种子的QB-NORM的平均值和标准差。在每种情况下，QB-NORM都对所有测试方法、基准测试和任务进行了显著改进。我们模型R@1↑R@5↑R@10↑MdR↓教育和体育部[67]美国[62]冷冻[5]CLIP4Clip [65]十六岁1 ±1。0十七岁1 ±0。921岁0±0。631岁0四十三441岁2±1。641岁9±0。2四十七5 ±0。9五十九8七十255. 2±1。6五十六0 ±0。561岁9±0。5七十二4八十68. 3± 0。58. 0± 0。0六、0±0。03 .第三章。0二、05203表11. 图像到图像检索- CUB 200：与其他方法的比较。模型R@1↑R@10↑R@100↑R@1000↑XBM [97]Smooth-AP [10]八十6八十191. 691. 5九十六。2九十六。6九十八7九十九。0RDML [83][83]第83话：你是谁？七十七。878岁189岁。589岁。8九十五4九十五6九十八4九十八5表12. 图像到图像检索-在线产品：与其他方法兼容。模型R@1↑R@5↑R@10↑MdR↓澳大利亚[74]-教育和环境部二十二岁5 ±0。3五十四4 ±0. 669岁。5 ±0。9五、0±0。0美国[74]-CEAR [74]-CE（+QB-NORM）23岁1±0。623岁9±0。255. 1±0。7五十七1± 0。3七十7±0。6七十一6± 0。44.第一章7± 0。54.第一章0± 0。0表13. 文本音频检索- AudioCaps：与其他方法的比较。用粗体显示最佳执行方法。5. 局限性和社会影响所有与QB-NORM一起使用的归一化技术都会产生额外的预计算成本。建议的归一化技术，DIS，增加了一个额外的小计算成本超过其他归一化approaches。有关复杂性的完整讨论，请参阅补充资料。我们还在Tab中显示。2，敌对的查询库选择和显著的领域差距会减少查询库规范化的好处。跨模态检索是一个强大的工具，既有积极的应用，也有伤害的风险。跨模态搜索为搜索者、音乐家、艺术家和消费者提供了高效的内容发现。然而，这种能力也适用于政治压迫的工具：例如，它可以有效地搜索社交媒体内容，以发现政治异议的迹象。6. 结论在这项工作中，我们介绍了用于

下载后可阅读完整内容，剩余1页未读，立即下载