跨模态散列的无监督知识提取方法

192 浏览量更新于2023-10-25 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

13123从无到有：跨模态散列的无监督知识提取Hengtong Hu1，2，Lingxi Xie3，Richang Hong1，2 †，Qi Tian31合肥工业大学计算机科学与信息工程学院，2合肥工业大学大数据知识工程重点实验室，3华为公司。gmail.com，198808xc@gmail.com，hongrc@hfut.edu.cn，huawei.com摘要近年来，跨模态哈希算法（CMH）得到了越来越多的关注，主要是因为它能够将来自不同模态（尤其是视觉和语言）的内容映射到同一空间，从而成为跨模态数据检索的有效方法CMH有两个主要的框架，在是否需要语义监督方面彼此不同与无监督方法相比，有监督方法通常具有更高的精度，但需要更繁重的数据标注工作。在本文中，我们提出了一种新的方法，使指导监督的方法使用的输出产生的一个具体来说，我们利用师生优化传播知识。实验在两个流行的CMH基准上进行，即，MIRFlickr和NUS-WIDE数据集。我们的方法优于所有现有的无监督方法的大幅度。1. 介绍近年来，随着多媒体数据的迅速增长，跨模态检索[37，46，18，47，7，1，10，25，22]受到学术界和工业界越来越多的关注目标是使用来自另一模态的查询实例从一个模态检索实例，例如，，查找带有一些文本标记的图像。为此目的，最流行的管道之一，称为跨模态散列（CMH）[1，19，23，47，7]，涉及将不同模态中的内容通过将每个实例压缩为固定长度的二进制代码，可以显著降低存储成本，并且由于索引结构，检索的时间这部作品是第一作者在华为诺亚方舟实验室实习时完成的†通讯作者。表1.我们的方法和最近的一些跨模式哈希方法之间的差异。这里，都是用散列码构建的现有的CMH方法可以大致分为两部分，即监督方法和非监督方法。它们都学习缩小两组训练数据分布之间的差距（例如，，使用基于对抗学习的方法[20，21，13]），但是它们在训练阶段期间是否提供实例级符号方面彼此不同从这个角度来看，接受额外监督的监督CMH方法[1，25，22，34，44]通常会产生更准确的结果，而无监督的对应方法虽然性能较低，但相对更容易部署到现实世界的场景中。本文结合了这两种方法的优点，一个简单而有效的想法，被称为从无到有。其核心思想很简单：监督方法实际上并不要求对每个实例进行标记，而是使用标记来估计每对交叉模态数据之间的相似性。在没有监督的情况下，这种信息也可以通过计算它们的特征向量之间的距离来获得，其中特征由训练的无监督CMH 方法提供我们的方法，无监督知识蒸馏（UKD），WL？急诊室？KD？DCMH [17]CSSAH [20]CUCH [21]C13124包含一个无监督的CMH模块，然后是另一个有监督的CMH模块，这两个模块都可以在未来被新的更强大的模型自由替换我们的研究为一个有趣的方向铺平了道路，即使用无监督方法来指导监督方法，CMH是一个很好的测试场景。我们在两个流行的跨模态检索数据集上进行实验，即。，MIRFlickr和NUS-WIDE，并展示了最先进的性能，优于现有的无监督CMH方法的显着Margin。此外，我们深入研究了监督的好处，并指出了未来研究的几个方向。本文的其余部分组织如下。第2节简要回顾了跨模态检索和散列的基本原理，第3节描述了无监督知识提取方法。实验结果见第4节，结论见第5节。2. 相关工作2.1. 跨模态检索和散列跨模态检索旨在使用来自另一模态的查询在一个模态中搜索语义相似的实例[37，39]。在本文中，我们考虑的检索任务之间的视觉和语言，即。，涉及图像和文本。为了将它们映射到同一空间，需要训练两个模型，每个模型对应一个模态。其目标是使具有相关语义的图像-文本对在特征空间中接近为了训练和评估映射函数，存在具有图像-文本对的数据集。数据集被进一步分成训练集和查询集，即，测试阶段在查询集上执行。在过去的十年中，许多人在这个问题上做了很多努力[18，46，37]。然而，他们中的大多数遭受在现实世界中，高维数据的高计算成本。为了将这些模型扩展到真实世界的场景，研究人员经常将这些模型的输出压缩为固定长度的二进制向量[1，19，10，24]，即，散列代码。在这种情况下，这个任务通常被称为跨模态散列。2.2. 监督交叉模式散列方法跨模态散列的根本挑战在于学习可靠的映射函数来弥合模态差距。监督方法[25，47，38，20，39，7]通过利用语义标签来捕获来自不同模态的数据之间的丰富相关信息来实现这一目标。传统的有监督学习方法大多基于手工特征，旨在理解公共空间中的语义相关性。SePH [22]提出了一种语义保持哈希方法，旨在近似语义标签的分布，通过最小化KL-散度在Hamming空间上构造散列码。Wanget al. [34]建议将列表式监督利用到学习散列函数的原则框架中。随着深度学习的快速发展，研究人员开始在更强大但有区别的特征上构建监督方法DCMH [17]通过将特征学习和二进制量化集成到一个框架中，提出了一种深度SSAH [20]通过提出一种自监督方法改进了这项工作，该方法将对抗学习纳入跨模式哈希。 Zhang等人[47]也研究了类似的想法，提出了一个带有注意力机制的对抗性哈希网络，以增强对内容级相似性的测量。这些监督方法通过从图像和文本的语义标签中获取相关然而，获取大量的这样的标签通常是昂贵的，因此棘手的，这使得监督方法在现实世界中的应用是不可行的。2.3. 无监督交叉模式散列方法与有监督的对应方法相比，无监督的跨模态哈希方法[8，45，13，36]仅依赖于来自配对数据的相关性信息，因此更容易部署到其他场景。这些方法通常通过保留内部和内部相关性来学习哈希码例如，Song等人[32]提出了媒体间哈希，通过保持媒体间和媒体内一致性来建立公共最近，一些作品引入了深度学习来改进无监督的跨模式哈希。UGACH [45]利用生成对抗网络来利用跨模态数据的底层流形结构。作为一种改进，UCH [21]将生成对抗网络耦合到一个统一的框架中构建两个循环网络，以同时学习公共表示和哈希映射。尽管在减少数据注释的负担方面具有优势，但无监督的跨模态散列方法的准确性通常低于满意度，特别是远低于有监督的对应方法。其主要原因在于缺乏训练数据对的两两相似性知识。另一方面，我们注意到无监督模型的输出包含这样的语义信息，尽管有些不准确这促使我们通过非监督模型的输出来指导监督模型。这是另一种类型的研究，它提取知识来帮助模型训练。3. 我们的方法在这项工作中，我们专注于从无到有创造一些东西的想法，即。，一个有监督的跨模式哈希-13125nnnnnnnnn=n=.ΣNn n n=1. Σ。 Σ教师模型图1.所提出的UKD框架涉及以无监督的方式训练教师模型，通过从教师模型中提取知识来构建相似性矩阵S，并使用S来监督学生模型。每个点代表一个中间特征。请放大以查看此图的详细信息。ing方法可以由无监督方法的输出来指导，该输出揭示了训练数据给定S，训练的目标涉及最小化关于θI和θT的总距离，即、对. 图1显示了拟议的UKD的框架在下文中，我们首先解释了我们的方法的动机，然后介绍了拟议的管道，unsuper-θI，θI，θT， = arg min=θI，θTΣ。 ITSi，j·。fi−fj。-是的（一）i、j知识的升华，从两个方面，即，如何从无监督模型中提取相似性，以及如何有效地利用它来优化监督模型。3.1. 有监督和无监督基线在本文中，我们考虑的情况下，训练集包含成对的数据，即。，D=vI，vT，其中N是图像-文本对的数量。这里，vI∈RDI是图像，vT∈RDT是文本，其中上标I和T分别表示DI和DT可以不同，例如就像我们的实验一样。的莫德尔斯特把它们放在同一个空间里。ce被命名为因此，S的定义构成了学习任务的主要挑战。根据是否使用图像和文本的额外标签，除了成对的信息，可以将学习方法分为监督学习和无监督学习。在监督设置中，实例级注释（例如，分类标签）被用于测量两个实例是否相关，而在非监督设置中，没有附加标签可用，因此原始特征是唯一的判断源显然，前者提供了比后者更准确的S估计然而，收集额外的注释，即使是在实例级别，也可能是一个很大的负担，特别是在I. fIvI;θIn∈RK和fT. fTVT;θTn∈RK，数据集非常大。因此，我们专注于改善无监督学习方法的性能，其中，K是公共特征空间，θI和θT是模型参数。图像和文本的压缩散列码表示为B=。 sgnfI和bT=. sgnfT，尊重iv el y，i. e. 、bI和bT都落在{−1，+1}K范围内。跨模式哈希的关键在于识别哪些图像-文本数据对在语义上相关，而其他图像-文本数据对在语义上不相关，使得模型可以学习在公共空间中将相关对的特征拉得更近。一个简单的想法是将所有成对的图像和文本实例定义为相关的，而所有其他实例则不相关。然而，这种策略产生非常小的正集和大得多的负集，这通常会导致数据不平衡，进入训练阶段。一个更有效的推广方法是定义一个相似矩阵S∈ {0，1}N×N，使得当Si，j=1时定义一个正对（i，j），反之亦然.原始采样策略相当于SI。更容易部署到现实世界的场景中。3.2. 无监督知识蒸馏我们的想法源于这样一个事实，即如上所示，监督和无监督的跨模态哈希算法之间的差异并不大，但监督方法通常比无监督方法报告更高的准确性。此外，监督算法不需要真正的监督，即，手动标记的图像/文本标签，而仅需要知道或估计任何数据对之间的相似性，即，，S.除了使用原始图像/文本特征（从预先训练的深度网络中提取或使用词袋统计数据计算）估计S的无监督基线之外，我们寻求跨模态检索模型在以无监督方式训练后可以产生更准确的S估计的可能性。我们在图2中举例说明了一个例子。稍后图像模态…00111100110 0conv1-1 conv1-2 conv2-1 conv5-4 FC6 FC7FC8fTn判别模块生成模块学生模型fInfT生成偶n奖励知识蒸馏文本模态011010选择配对011010多尺度融合FC1fIn狗，草，绿色。沙发，罗霍，红色，街道，阿尔卡拉。茶，黑板，标图像特征提取文本特征提取……………………………图像…文F13126功能新图像文本P@1000P@5000..一. ΣSi，j=2−。vi−vj。二分之二..TT ΣC74岁占6%六十四百分之四Si，j=2−。vi−vj。二分之二..一. ΣC五十七百分之一55. 占6%Si，j=2−。fi−fj。二分之二.. TT ΣCC84. 占6%74岁占6%Si，j=2−。fi −fj。二分之二.. 一.. TTΣCC75. 百分之九67岁百分之九Si，j= 4 −。fi − fj。2−。fi − fj。四分之二CCC83岁百分之九七十三。百分之四表2.比较不同的函数来衡量图像-文本对之间的相似性所有结果都是使用从MIRFlickr数据集上训练的UGACH [45]模型中提取的特征。这里我们考虑四个属性：“新”意味着使用由教师模型学习的新特征空间;“图像”和“文本”表示使用的相应特征，而“单独”表示单独使用图像和文本特征。P@1000/P@5000表示前1000/5000个检索对中的准确率。首先，我们指出，对于所有i，Si，i∈1。当i=j时，Si，j取四个向量fi，ft，T，a，b，c，bi i j j第Si，j的设计可以具有各种形式。对于前-充足，它可以考虑图像和文本特征，. 一.. TTSi，j=4-。fi − fj。2−。fi −fj。2/4, where |f1 − f2|2是两个向量之间的欧几里得距离，在[0，2]的范围内，对于两个归一化向量。而且是可能的。j考虑单一模式的信息，. 一.例如，，Si，j=2−。fi −fj。2/2其中只有图像图2.从无监督模型中提取的知识（最佳颜色）。与原始特征空间中的检索结果相比，我们的方法产生了更准确的图像标签信息，更重要的是，更好地估计图像-文本对的相关性。我们将在实验中表明，在Oracle符号的帮助下，S的更新估计在找到相关对方面确实更准确。请注意，估计的S可用于训练监督或无监督模型，公式如上所述当S用于无监督学习时，唯一的效果是提供更好的采样策略，以增加所选训练集中真阳性这增加了模型学习提取实际上不相关对的特征当它用于监督学习时，我们实际上是从无到有创造一些东西，即。用无监督模型的输出指导监督模型。提出的框架，无监督知识蒸馏（UKD），工作如下。 After.TheTEEscheracher模型已经训练，我们得到fI·;θI和特征用于测量相似性。在这里，我们把几种定义的Si，j到说明，并比较它们的性能，在寻找真正对。结果示于表2中。我们可以观察到几个重要的属性，是有用的相似性度量。首先，经过跨模态散列训练的特征确实比没有经过微调的特征更好;其次，图像特征空间中的相似性度量比文本特征空间中的相似性度量更准确;第三，直接将图像和文本相似性结合起来并不能提高准确性，而不仅仅是使用图像相似性，尽管我们期望文本特征提供辅助信息。受这些结果的启发，我们使用图像特征和文本特征来检索两个相关对列表，然后将它们合并为一个。该策略报告的精度为76。在前5000个实例中为1%，超过了单独使用图像和文本功能的情况。我们将在本文的其余部分中修复此设置。3.3. 模型和实现细节我们首先说明了我们使用的监督和无监督方法我们以DCMH [17]作为超监督学习的一个例子在这里，我们利用DCMH的框架.ΣfT·;θT对于图像和文本特征嵌入，分别-但是为了更高的精度而修改其结构。该模型包含两个深度神经网络，•房子，女人，沙发，猫，电视•键盘，电话，猫，玩具，笔•包，钟，文件，伙计•木，猫，光，房间•地板，椅子，人，猫，猫•小猫，草，男孩，黄色，天空•球，鸟，人，狗，水•狗，婴儿，房间，光，白色•风筝，飞机，云，人，蓝色•草，天空，云，狗，绿色•哈士奇，灰色，叶子，树，太阳基线：我们的：基线：我们的：13127活泼地它仍然是确定S的每个元素。没有失去一般性，我们假设特征向量来自任一模态，即，，fI或fT，有一个φ2范数。模态和文本模态。图像模态网络由19层组成，前18层层与VGG19网络中的层相同[31]，n i这是为了简化以下计算。最后一层将特征映射到汉明空间。为13128文本模态，SSAH [20]的多尺度融合模型，由多个平均池化层和1×1卷积层组成，用于提取文本特征。然后，一个哈希层将文本特征映射到汉明空间.另一方面，我们研究了UGACH [45]，一种代表性的无监督学习方法作为教师模型。它由一个生成模块和一个判别模块组成。该算法接收生成器选择的数据作为负实例，并将使用S采样的数据作为正实例。然后使用三重态损失进行优化，以获得更好的区分能力的三重态。生成模块和判别模块都具有双通路架构，每个都具有两个完全连接的层。在实验中，我们将表示层的维数设置为4096。哈希层的维数与哈希码长度相同。对于监督模型，我们将原始像素作为输入。在预处理中，我们将所有图像调整为256×256，并随机裁剪224 ×224我们使用教师模型具有最高精度（在所有实验中为128位）。对于监督学生模型，我们将相关实例的数量设置为10，000，对于无监督学生模型，设置为20我们以基于批处理的方式训练我们的方法，并将批处理大小设置为256。我们使用SGD优化器训练模型，权重衰减为0。01.对于比较的方法，我们应用与原始工作中提供的相同的实现。3.4. 与以前工作的关系我们的方法与知识蒸馏有关[29，43，33]，提出从教师模型中提取知识以帮助训练学生模型。Hinton等人。 [15]建议应该有一些“黑暗的知识”可以在这个过程中传播。最近，人们做出了许多努力来研究什么是黑暗知识[41，40]，和/或如何有效地利用这些知识[11，42，35，2]。特别是，DarkRank [5]通过匹配排名上的两个概率分布来提取深度度量学习的知识，而我们的方法通过选择相关实例来利用知识。另一方面，[42]和[27]都通过设计蒸馏损失来转移知识以我们还注意到我们的方法和半监督学习的自学习算法之间的联系，例如。医学图像分析[48]。共同的想法是从标记数据的一小部分（在我们的例子中，标记的图像-文本对）开始，并尝试探索未标记的部分（在我们的例子中，具有未知相关性的其他图像-文本对），但获得额外监督的方法是不同的-此外，“第二次训练更强的模型”的想法与粗到细的学习方法[14，49]有关，这些方法通常采用迭代来获得更大的改进。我们的方法与以前的一些工作有相同的想法DeepCluster [3]使用标准的聚类算法对特征进行分组，并使用后续的as-browser作为监督来更新网络的权重。Gomez等人[12]通过挖掘多模态（文本和图像）文档的大规模语料库来执行视觉特征的自监督学习。同时，我们的方法利用教师-学生优化来结合监督和无监督模型。实验结果表明了知识提取的有效性。4. 实验4.1. 数据集、评估和基线我们在两个基准数据集上评估我们的方法：MIRFlickr和NUS-WIDE。MIRFlickr-25 K [16]包含从Flickr下载的25，000张图片。每个图像都与文本标签相关联，并使用24个预定义类别中的至少一个进行注释。在UGACH [45]之后，我们在实验中使用了20015个图像-文本对，其中2000个作为查询集保留，其余的用于检索。我们用一个4096维的特征向量来表示每个图像，这个特征向量是从一个预先训练好的19层VGGNet [31]中提取的，每个文本用一个1386维的词袋特征来表示。NUS-WIDE [6]比MIRFlickr大得多，MIRFlickr包含269，498个图像和来自Flickr的相关文本标签。它界定了81个类别，但其中有相当多的重叠。尽管如此，在UGACH [45]之后，10个最大的类别和相应的186，577个图像-文本对被用于实验中。我们保留1%的数据作为查询数据库，其余的作为检索集。每个图像由从同一VGGNet中提取的4096维特征向量表示，每个文本由1000维词袋向量表示。按照惯例，我们采用平均精度（mAP）标准来评价所有方法的检索性能。mAP得分计算为所有查询的平均精度得分的平均值。我们将我们的方法与9种以前的方法进行比较。其中4个使用了额外的监督（CMSSH [1]，SCM [44]，DCMH [17]和SSAH [20]），而5个[2019 - 09 - 19][2019 - 09 - 19][[45]他没有这样做。在我们的直接基线UGACH之后，我们使用在 ImageNet 数据集 [30] 上预训练的 19 层VGGNet [31]来提取深度特征，并且为了公平比较，使用它们来替换其他基线中使用的特征，包括那些使用手工制作的特征。13129任务方法MIRFlickr-25KNUS-wide163264128163264128CMSSH [1]0.6110.6020.5990.5910.5120.4700.4790.466SCM [44]0.6360.6400.6410.6430.5170.5140.5180.518DCMH [17]0.6770.7030.725-0.5900.6030.609-SSAH [20]0.7970.8090.810-0.6360.6360.637-CVH [19]0.6020.5870.5780.5720.4580.4320.4100.392图像→文本[第28话]0.6230.6240.6210.6260.4750.4840.4800.490[9]第九届0.6590.6600.6630.6530.5170.5500.5470.520CCQ [26]0.6370.6390.6390.6380.5040.5050.5060.505UGACH [45]0.6760.6930.7020.7060.5970.6150.6270.638英国-美国0.6950.7030.7050.7070.6060.6210.6340.643英国党卫军0.7140.7180.7250.7200.6140.6370.6380.645CMSSH [1]0.6120.6040.5920.5850.5190.4980.4560.488SCM [44]0.6610.6640.6680.6700.5180.5100.5170.518DCMH [17]0.7050.7070.724-0.6200.6340.643-SSAH [20]0.7820.7970.799-0.6530.6760.683-CVH [19]0.6070.5910.5810.5740.4740.4450.4190.398文本→图像[第28话]0.6270.6280.6280.6290.4890.5120.5070.517[9]第九届0.6110.6060.5750.5630.4390.4160.3770.349CCQ [26]0.6280.6280.6220.6180.4990.4960.4920.488UGACH [45]0.6760.6920.7030.7070.6020.6100.6280.637英国-美国0.7040.7070.7150.7140.6210.6250.6400.647英国党卫军0.7150.7160.7210.7190.6300.6560.6570.663表3.我们的方法和最先进的竞争对手的mAP得分，在两个数据集和四个不同的代码长度。在每一半中，水平线上方的四行包含监督学习算法，而下方的右行包含无监督学习算法。4.2. 无监督学生vs.受监督学生在表3中，我们列出了我们的方法以及其他方法的准确性（以mAP为单位在两个基准数据集MIRFlickr和NUS-WIDE上。我们使用我们的方法表示为我们观察到有趣的结果。关于图像→文本任务，UKD-SS在MIRFlickr数据集上的表现明显优于UKD-US，但在NUS-WIDE数据集变得更小。这是通过注意到这两个数据集之间的监督带来的影响不同来解释的。我们考虑SSAH[20]和UGACH [45]，我们作为学生使用的监督和无监督模型。SSAH在MIRFlickr上的表现通常比UGACH高出9%，但在NUS-WIDE上这个数字很快就缩小到1%-这部分是由于NUS-WIDE中图像的较大变化，这使得标记的标签难以提供准确和有价值的监督。从这个角度来看，考虑到SSAH是UKD-SS的上界。另一方面，通过引入额外的监督（特别是通过检查从无监督模型中提取的特征之间的距离），可以消除相当大的噪声（例如，不准确的相似性度量）也被引入到有监督的学生模型。因此，在这些自注释对的质量和影响之间存在权衡。最常见的是，后者可以通过监督学生模型相对于无监督学生模型的优势来衡量，如果两者都可以在小的参考数据集中获得的话。4.3. 与最新技术从表3中可以观察到，我们的方法UKD在两个数据集上以及在任何哈希码长度下都显著优于所有现有的无监督跨模态哈希方法。特别是，与我们的基线（UGACH，这也是有史以来报告VGGNet-19功能结果3 .第三章。9%，2. 5%，2. 1%和1. 3%增益（图像上的平均值→文本和文本→图像），以及MIRFlickr数据集上16、32、64和128位的相应数字，NUS-WIDE数据集为2。3%，3. 4%、2. 0%和1. 7%，恢复正常。鉴于如此高的基线，这些改进清楚地表明了提取知识的有效性13130任务方法MIRFlickr-25K163264128GEN-00.6760.6930.7020.706图像→文本Gen-10.6950.7030.7050.707Gen-20.6980.7050.7080.712GEN-00.6760.6920.7030.707文本→图像Gen-10.7040.7070.7150.714Gen-20.7050.7120.7160.719表4.MIRFlickr-25 K上无监督学生模型的几代训练结果“GEN-0”和“GEN-1”分别与表3中报告的UGACH和UKD-US型号相同。方法任务MIRFlickr-25K163264128英国党卫军图像→文本0.7110.7040.7110.720文本→图像0.6920.7020.7050.706表5.使用16位教师指导MIRFlickr-25 K上的受监督学生模型的结果。边缘从教师模型，虽然它是在一个无监督的方式训练。此外，在低比特场景中，准确度的提高更为显著，这可以说是因为具有128比特的教师模型提供了更丰富的信息另一方面，随着压缩位数的增加，监控量我们还尝试使用全精度模型作为教师，但获得了边际收益。4.4. 迭代有帮助吗？在老师对学生的持续改进的激励下，一个问题很简单：如果我们继续从学生身上提炼知识，指导一个“新生”，是否有可能进一步提高成绩？我们研究了这一选项，结果总结在表4中。我们发现，与第一次知识蒸馏带来的显著收益相比，第二轮大多是边缘性的，例如，，图像→文本任务的平均增益为0。33%，0。第一轮的60%这要归功于我们的学生模型在模态内学习方面的有限改进--与跨模态检索的准确性不同，从教师到学生的模型内检索的准确性也就是说，无论是监督学习还是无监督学习，新一批图像-文本对都没有比前一批图像-文本对明显的优势，因此训练数据的质量基本保持不变。表6. MIRFlickr-25 K上的精度（mAP）比较，以UGACH和UCH为基线。为了观察更强的教师模型（128位）如何教导更弱的学生模型，我们只报告了16位，32位和64位的结果。4.5. 诊断实验•弱教师的知识蒸馏为了表明UKD可以在相对较弱的教师信号下工作，我们使用UGACH的16位模型[45]作为教师。如表5所示，我们仍然实现了超出基线的一致精度增益。然而，与使用128位教师相比，增益降低，因为UKD的益处主要由相似性矩阵S的质量确定，并且较弱的教师通常导致较弱的S，例如，则排名靠前的对列表的精度降低。•转移到其他功能为了验证我们的方法是否适用于其他特征，我们将其应用于UCH [21]，这是一种最近发布的无监督跨模态哈希方法，使用来自预训练CNN-F模型的特征[4]（与原始论文相同）。表6显示了UCH和我们的方法在MIR-Flickr上的mAP值方面的比较。请注意，我们的基线仍然是UGACH，但替换了功能，因为UCH的作者没有提供代码。可以看出，UKD-US和UKD-SS都优于UGACH（以及UCH），并且UKD-SS比UKD-US工作得更好，即。这是我们以前观察到的现象•对所选配对接下来，我们分析跨模式哈希的性能如何与训练过程中选择的相关对的数量相关。在图3中，可以观察到随着所选对的数量增加，精度增益的趋势，但是当数量达到相对较大的值时，它往往会饱和，甚至会下降一点。这与数据集中相关对的总数有关，当然也与模型选择相关对的能力有关。我们还比较了我们的方法与基线方面任务方法MIRFlickr-25K163264UGACH [45]0.6030.6070.616图像→文本UCH [21]英国-美国0.6540.6670.6690.6740.6790.677英国党卫军0.6780.6800.679UGACH [45]0.5900.6320.642文本→图像UCH [21]英国-美国0.6610.6760.6670.6830.6680.680英国党卫军0.6880.6870.69413131图像2text文本2image10002000300040005000600070008000900010000UGACHUKD10002000300040005000600070008000900010000文本查询：凯西，班吉，视频，狗0.730.720.710.700.690.680.670.66所选相关实例我们：1.太阳，日出，星期五早晨，天空，我的最爱2.下布伦，高廷，上拜仁，anawesomeshot，德国巴伐利亚，拜仁，supershot3.sunset，orange，sun，sky，sombras，paisaje，naturaleza，mholm，colores，图3. mAP值相对于所选相关对的数量（在MIRFlickr数据集上测试，教师是128位模型，学生是16位模型）。0.850.800.750.700.650.604.crowsnest，山，岩石，落基山脉，云，云，草，photomatix，树，松树，弗兰克，5.加拿大，冬季，诺瓦斯科蒂亚，污染UGACH：1.颜色，lakeozette，华盛顿州，imagetype，photospeces，天空，风景2.多伦多，枫叶，加拿大，秋天，秋天3.红外线，树，树，芦苇，草，山4. sanjuan山谷，农场，农田，板条箱，板条箱，农业，农业，田野，收获，收获，山谷，丘陵，树，树木繁茂，5.伍德米尔，水，云图5.定性比较（顶部：具有前5个检索实例的文本查询;底部：具有前5个检索实例的图像查询）在我们的方法和UGACH（16位散列）（我们的直接基线）之间。红色框和单词表示检索结果中的相关图像或单词。请注意，图像查询要困难得多，因为它包含语义上复杂的概念，甚至需要美感来理解。0.55所选相关实例图4.与所选相关对的数量相关的前K精度曲线（在MIRFlickr数据集上测试，教师是128位模型）。排名靠前的选定实例对的精度。从图4中，我们可以看到UKD相对于UGACH（我们的直接基线）具有显著的优势。然而，当选择的对的数量增加时，我们看到精度迅速下降，这意味着非顶级对可能会向模型引入噪声。同样，这是数量和质量之间的权衡。•定性研究最后，我们定性地比较了我们的ap-proach和baseline。图5显示了两个典型的例子。文本→图像查询（狗）相对简单，但在原始配对训练集中，没有足够数量的标记数据供算法学习视觉-语言对应关系。这是补偿与由无监督教师模型发现的扩大集。相比之下，图像→文本查询包含更难学习的复杂语义，但我们的模型通过利用图像级相似性，从其他来源挖掘因此，我们的方法的预测要好得多。5. 结论在本文中，我们提出了一种新的方法来改进跨模式哈希，该方法可以使用无监督方法产生的输出来指导监督方法。我们利用师生优化来传播知识。通过利用从无监督教师模型的输出中利用的广泛的相关性信息，可以为有监督的学生模型实现优异的性能。我们在MIRFlickr和NUS-WIDE两个基准测试上对我们的方法进行了评估，实验结果表明，我们的方法优于现有的方法。这项工作得到了部分支持国家自然科学基金资助项目61722204、61932009，国家重点研发计划资助项目2019YFA0706200、2018AAA0102002。我们UGACH图像查询精度地图13132引用[1] Michael M Bronstein，Alexander M Bronstein，FabriceMichel，and Nikos Paragios.通过使用相似性敏感散列的跨模态度量学习的数据融合。在2010年IEEE计算机协会计算机视觉和模式识别上，第3594IEEE，2010。[2] Qi Cai，Yingwei Pan，Chong-Wah Ngo，Xinmei Tian，Lingyu Duan，and Ting Yao.探索平均教师中的对象关系以进行跨域检测。在IEEE计算机视觉和模式识别会议集，第11457-11466页[3] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议论文集（ECCV）中，第132-149页[4] 肯·查特菲尔德，凯伦·西蒙尼扬，安德里亚·维达尔迪，和安德鲁·齐瑟曼.魔鬼的回归细节：深入研究卷积网络。arXiv预印本arXiv：1405.3531，2014。[5] Yuntao Chen ， Naiyan Wang ， and Zhaoxiang Zhang.Dark- rank：通过交叉样本相似性转移加速深度度量学习。第三十二届AAAI人工智能会议，2018。[6] Tat-Seng Chua ， Jinhui Tang ， Richang Hong ， HaojieLi，Zhiping Luo，and Yantao Zheng.Nus-wide：新加坡国立大学的真实网络在ACM图像和视频检索国际会议上，第48页。ACM，2009年。[7] Cheng Deng ， Zhaojia Chen ， Xianglong Liu ， XinboGao，and Dacheng Tao.用于跨模态检索的基于三元组的深度哈希网络IEEE Transactions on Image Processing，27（8）：3893[8] 丁桂光、郭雨辰、周吉乐。多模态数据的集体在Proceedings of the IEEE conference on computer visionand pattern recognition，第2075-2082页[9] 丁桂光、郭雨辰、周继乐、高跃。通过集体矩阵因子化散列进行大规模跨模态搜索。IEEE Transactions onImage Processing，25（11）：5427[10] Fangxiang Feng，Xiaojie Wang，and Ruifan Li.具有对应自动编码器的跨模态检索。第22届ACM多媒体国际会议论文集，第7-16页。ACM，2014年。[11] Tommaso Furlanello ， Zachary C Lipton ， MichaelTschan-nen，Laurent Itti，and Anima Anandkumar.重生的神经网络arXiv预印本arXiv：1805.04770，2018。[12] LluisGomez ， YashPatel ， Marc alRusinBachol ，DimosthenisKaratzas，and CV Jawahar.通过将图像嵌入到文本主题空间来进行视觉特征的自监督学习。在IEEE计算机视觉和模式识别会议论文集，第4230-4239页[13] Jiuxiang Gu，Jianfei Cai，Shafiq R Joty，Li Niu，andGang Wang.看，想象和匹配：用生成模型改进文本视觉跨模态检索。在IEEE计算机视觉和模式识别会议论文集，第7181-7189页，2018年[14] Jiuxiang Gu，Jianfei Cai，Gang Wang，and Tsuhan Chen.Stack-captioning：从粗到精的图像字幕学习。2018年第32届AAAI人工智能会议[15] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。[16] Mark J Huiskes和Michael S Lew。mir flickr检索评估。第一届ACM多媒体信息检索国际会议论文集，第39-43页。ACM，2008年。[17] 姜庆元和李武军深度跨模式哈希。在IEEE计算机视觉和模式识别会议论文集，第3232-3240页[18] Ryan Kiros，Ruslan Salakhutdinov，and Richard S Zemel.统一视觉语义嵌入与多模态神经语言模型。arXiv预印本arXiv：1411.2539，2014。[19] Shaishav Kumar和Raghavendra Udupa。学习散列函数进行跨视图相似性搜索。2011年第二十二届国际人工智能联合会议[20] Chao Li ， Cheng Deng ， Ning Li ， Wei Liu ， XinboGao，and Dacheng Tao.用于跨模态检索的自监督对抗哈希网络。在IEEE计算机视觉和模式识别会议论文集，第4242-4251页[21] Chao Li ， Cheng Deng ， Lei Wang ，

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

跨模态散列的无监督知识提取方法

融合监督的深度跨模态散列

基于标签一致的局部线性嵌入的跨模态散列

多模态知识图谱和知识图谱路径嵌入

跨模态行人重识别研究现状

跨模态行人重识别入门

跨模态多头注意力机制

跨模态行人重识别rgb和ir通道数

多模态搜索和跨模态搜索的区别

行为识别的声音和图像跨模态融合难题怎么解决

进行结构化的跨模态表示一致性

跨模态注意力机制和交叉注意力机制有什么区别

基于检测，跨模态迁移之后应该干什么

跨模态迁移之后应该干什么

多模态虚假新闻检测的跨模态歧义学习

跨模态特征融合加权公式

跨模态多头注意力机制原理

transformer跨模态

跨模态transformer

低秩近似与灰度着色网络应用于跨模态行人重识别

那基于视觉注意的跨模态信息对齐通常关注如何将图像和文本之间进行精确的匹配和对齐技术有什么

最新资源