基于标签嵌入的弱监督深度哈希模型及其在语义图像检索上的应用

193 浏览量更新于2023-10-19 收藏 2.74MB PDF 举报

弱监督学习

图像标签

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10375基于标签嵌入的Vijetha Gattupalli，Yaoxin Zhuo，Baoxin Li亚利桑那州立大学{vijetha.gattupalli，yzhuo6，baoxin.li}@ asu.edu摘要许多语义图像散列的方法已经被公式化为利用图像和标签信息来学习二进制散列码的监督学习问题然而，大规模标记的图像数据是昂贵的获得，从而施加限制使用这样的算法。另一方面，由于Web图像库的存在，这样的Web图像可能经常带有包含有用信息的图像标签，尽管原始标签通常不容易导致语义标签。在本文中，我们将语义图像哈希问题模拟为一个弱监督学习问题，利用用户生成的与图像相关的标签来学习哈希码。具体地说，我们提取了标签的word2vec语义嵌入因此，我们将我们的模型命名为使用标签嵌入的弱监督深度哈希（WDHT）。WDHT的语义图像检索的任务进行了测试，并与几个国家的最先进的模型-els。结果表明，我们的方法在每周监督图像散列领域开创了一个新的领域。1. 介绍语义图像哈希算法在过去几年中一直是一个活跃的研究领域，因为它可以有效地搜索海量图像数据库。简而言之，任务是将图像映射到二进制代码，以便保留一些语义相似性的概念。通常，相似性是由地面实况类标签确定的，这是昂贵的，因此限制了可用的训练数据量。另一方面，今天的许多Web图像都有相关的文本元数据（标签），通常可以免费获得由于这些事实，在本文中，我们尝试的问题，每周监督语义图像哈希利用标签信息与Web图像。我们采用弱监督方法主要是由于以下原因。标签可以包含与图像的语义相关的但表1：说明NUS-WIDE数据集的一些随机样本的图像-标签-标记三元组。对于从原始标签中提取显式标签信息来说是非常重要的。表1显示了NUS-WIDE数据集的三个样本可以注意到，样本1没有与标签“dancing”直接关联的标签。虽然样本2和样本3具有一些传递标签信息的标签，但存在其他缺点。例如，它们与太多的无信息标签相关联。这些无信息标签可能是公众的社交媒体行为的结果，如意见表达、自我展示、吸引注意力等。[1]这会导致标签可能是主观的（例如。 #thegoldendreams ，#handsome），purely context oriented（例如，#india、#conradhotel、#katrina）、摄影相关（#wideangle）等。因此，这些标签包含的信息与图像内容的相关性不如标签，使得从标签中提取标签更加困难。有一些先前的作品[1]，[2]试图解决从原始标签中提取信息的困难。尽管我们的工作重点是使用标签信息学习哈希空间，我们的算法不属于跨模式哈希（CMH）的范畴。CMH处理学习散列空间，这些散列空间为来自各种模态的样本共享。理想情况下，这样学习样品1样品2样品3标签标签图片#印度#电影#电影#明星#仍然#英俊#宝莱坞#演员#汗#沙鲁克#srk#omshantiom#sunset #bali #reflections#indonesia #mirror #asia#boda #mariage#hochzeit #indonesien#heirat #chappel#conradhotel #50faves#justimagine#weddingchappel#perfectangle #infinestyle#megashot#theroadtoheheaven#thegoldendreams#wide angle #fields跳舞建筑物，云，反射，天空，日落草，天空，树10376应当能够通过使用来自不同模态的查询样本来从一个模态检索样本（例如，使用文本查询检索图像/视频，反之亦然）[3]。我们的工作只涉及直接图像哈希查询和检索样本的图像。我们只利用标签中的信息来学习更好的哈希空间进行语义图像检索。此外，CMH中的许多工作假设图像-标签-标签三元组的可用性，并使用此信息来学习共享哈希空间，从而导致监督学习，而我们的方法是弱监督方法。我们的方法的一个关键组成部分是利用word2vec模型[4]，一种用于将英语单词嵌入到向量空间中的方法，使得单词向量之间的余弦相似性在我们的任务中，图像，标签集>对来自Web图像数据集，并且标签通常与图像的语义具有一定的相关性（尽管这种相关性可能是弱的，嘈杂的和不完整的）。因此，我们在模型中使用了标签的word2vec表示，并以这样一种方式正则化学习的哈希空间，即具有相似标签向量的图像应该具有相似的哈希码。与仅使用二进制标签向量本身相比，使用标签的词向量可以导致更好的语义散列空间。例如，如果训练数据包含猫和狗的图像，以及其他几此外，测试组中的动物（例如，马），其真实类别在训练集中没有定义，将理想地映射到比映射到其它非动物类别更接近猫和狗的组合子空间的代码。这种期望的子空间排列可以通过在训练中利用标签的词向量相似性来自然地获得。在这项工作中，我们提出了一个深度神经网络，完成了一个学习算法，通过使用图像标签的单词嵌入来据我们所知，这是第一个使用端到端深度模型单独使用图像和标签（不使用标签）来学习哈希向量的工作。在图像哈希的特定任务上，我们的方法似乎是第一个在弱监督设置中使用标签的单词嵌入的工作。我们评估我们的方法，并报告系统的比较与相关的国家的最先进的，我们的方法被证明优于现有的无监督或弱监督哈希方法的语义图像检索。2. 相关工作语义图像散列领域的许多努力都是针对监督方法的。虽然在无监督散列领域有一些工作，但在弱监督散列方面的尝试很少。因此，我们将我们的模型与两个弱超在评估过程中使用有监督和无监督的方法。同样，在本节中，我们简要概述了这两个领域的相关工作。一种最重要的图像散列算法称为局部敏感散列[5]，其工作原理是将数据投影到随机超平面上，并根据样本落入哪个半空间来计算每个位。该算法是数据独立的，因此产生的哈希码不会捕获数据中的结构。已经提出了几个变体[6]，[7]，[8]，所有这些变体都产生散列码，而不管数据的分布如何。图像散列的另一个范例是数据相关散列方法。传统上，依赖于数据的方法被表述为独立的特征学习和哈希编码阶段。随着深度学习和大数据的出现，文献已经转向将散列码作为单阶段算法来学习，将图像作为输入并直接学习散列码。这也可以解释为一个内置的特征学习技术，不需要人为干预。[9]、[10]、[11]等方法是基于非深度学习的无监督学习的代表性工作。[9]试图通过找到零中心数据的旋转来最小化实值不相关特征向量和二进制码之间的量化误差。[10]给出了求最优散列空间分布问题与图分割算法的相似性，并尝试用谱方法解决这一[11]尝试了通过在有限的标记数据集上反向传播分类损失以及在整个标记和未标记数据集上反向传播基于熵的损失来以半监督方式学习散列空间的问题。代表性的基于深度学习的无监督哈希算法包括[12]，[13]，[14]。[12]的工作虽然是基于深度学习的，但并不是一个可以接收原始图像并生成哈希值的端到端框架。他们使用GIST特征作为神经网络的输入，并通过最小化量化损失、最大方差损失和独立比特损失来[13]的关键思想是产生旋转不变二进制码，并表明它们在三个不同的任务上实现了最先进的性能，即图像匹配，图像检索和对象识别。[14]的方法学习散列码作为二进制自动编码器的隐藏层的输出，使得学习问题NP-困难，因此使用了替代优化方案。在单峰图像哈希领域另一个值得注意的是[15]。他们利用标签的单词嵌入作为监督来学习图像哈希空间。虽然这看起来与我们的工作类似，但他们使用了标签的矢量表示，使工作属于监督图像哈希的范畴，而我们的工作使用了原始标签的矢量表示。10377·我∈我我Iv我N大多数基于深度学习和非深度学习的语义哈希方法的一个共同特征交叉模式散列（CMH）领域的几项工作[16]，[17]，[18]然而，如前所述，它们为各种形式的输入（在这种情况下是图像和标签）学习一个公共的哈希空间，这与我们打算做的不同。在所有CMH方法中，[17]是最接近我们工作的方法[17]旨在使用语言（word2vec）和视觉（基于CNN）模型来对齐图像的视觉空间和句子的语义空间。他们的工作和我们的工作之间的主要区别是，我们试图使用标签信息，这是比他们在工作中实际上，这种干净的英语句子和有监督的标签信息一样难以获得关于CMH和单峰哈希学习的广泛讨论可以分别在[3]和[19]中找到。与CMH不同，弱监督哈希方法在训练期间仅利用图像标签信息[20]，第i个样本的特征向量，Ti表示相应的标签集，并且li表示其二进制标签向量。在一般场景中，每个样本与多个标记和多个语义标签相关联。因此，标签被表示为集合T1，并且标签被表示为二进制向量I1。在标签向量中，如果对应的标签与该图像相关联，则元素的值为1，否则为0我们的任务是找到一个功能-将（ xi ， Ti ）作为输入并产生哈希值的tion_parameter（）向量bi作为输出。这样学习的散列空间应该将由标签向量定义的语义相似的图像映射到附近的散列代码，并将不相似的图像映射到更远的代码。虽然在训练阶段假设标签不可用，但在测试阶段使用它们来测量学习模型的性能。3.2.标签处理令τ j表示标签集合Ti中的标签。其中j是集合中标签的索引，即，其中m是与第i个样本相关联的标签的总数。我们使用word2vec将每个标签τ j转换为d维向量语言模型[4]。对于每个标签τj，我们获得一个向量。[21]，[22]是这方面的一些著名作品。该au-Thors [20]提出了一个框架，该框架包括两个tor representationvjJ我也就是word2vec表示法阶段，弱监督预训练和微调使用监督标签。[21]在预测图像标签关联时使用了带有哈希的协同过滤，其中地面真实标签用于生成标签矩阵。据我们所知，[22]是唯一尝试真正每周监督哈希的方法（即，而不使用标签信息）。更具体地说，他们试图的标签词τi。由于每个图像都有多个标签，我们把所有的标签向量聚合成一个单一的d维vector.在这项工作中，我们采用了基本函数，如tf（标签频率），itf（逆标签频率）和平均值来计算聚合向量wi。在实验中，我们将比较这些聚合技术的性能。下面给出用于计算wi探索判别信息和当地的地理，从标签和图像中提取度量结构然后，他们形成-平均值：wi=ΣmVJtf：wi= 1Σmn（τj）j把哈希问题看作特征值问题。考虑到这些事实，我们仅在每周监督的方法中比较我们的方法[22]。ITF：wi=M1Σm我j=1对数vjM Nj=1我（一）在这项工作中，我们构建了一个端到端的深度学习哈希-Mj=1n（τj）i在训练中不需要昂贵的标签，但仍然可以生成语义上有意义的哈希码。其中N是数据库中标签的总数，并且n（τj）是与标签τj相关联的图像的数量。我我在实验部分，我们将我们的模型与[10][11][14][21][22][23][24]][25][26][27][28][29][29][29][29][25]，[26]。此外，为了显示标签嵌入的使用的重要性，我们开发了一个深度学习基线，该基线仅使用二进制标签向量来学习语义哈希空间。关于我们的方法和基线模型的更多细节将在下一节中介绍。3. 该方法3.1. 问题公式化在这项工作中，我们假设数据集有三个图像标签标签（xi，Ti，li）。这里xi代表图像因此，我们从初始图像-标签集合（xi，Ti）对得到图像-标签向量（xi，wi3.3. 设计哈希网络我们使用预训练的AlexNet模型作为哈希模型的关键构建块。该网络将227X227X3维图像作为输入，并将它们通过五个卷积层和两个全连接层，标记为CONVi（i=1，.，5）、FC1和FC2。在FC2层之前，架构与AlexNet完全相同[27]架构和权重被初始化为预先训练的ImageNet [28]权重。FC2层产生一个4096维的向量，该向量作为另一个完全连接层FC3。FC3输出256维110378我2−我致密4096，ReLU内核64×11 × 11，步幅4×4，ReLU，焊盘0，LRN，合并液2×2内核256×3×3，步幅1×1，ReLU，焊盘1内核256×3×3，步幅1×1，ReLU，垫1，池2×2101010010010101010111010001000010010010001密集b，00100101001010tanhL1+L3排名损失+H1量化损失Conv1Conv2Conv3Conv4Conv5227×227×3L2内核256×11 × 11，步幅1×1，ReLU，焊盘2，LRN，合并液2×2内核256×3 × 3，步幅1×1，ReLU，焊盘1FC3FC1FC2H2回归损失致密4096，ReLU致密256，ReLU稠密d，tanhALEXNET培训前标记聚合方案{[0.2980，-0.8745-0.1265]，[-0.38，-0.0420.575]，[0.8456，0.0020.0098]}{[0.565，0.345. 0.003]，[-0.256，0.745. 0.005]}{[0.90，0.0020.559]，[-0.335，0.4120.501]，[0.356，0.52-0.98]，[-0.506，0.025-0.840]}最终哈希向量原始标记向量图1：建议的架构。绿色框表示预训练的AlexNet模型; FC 3、H1和H2层是新添加的层。从H1层提取最终的哈希码。矢量，其进一步以横向方式完全连接到两个层H1首字母缩略词H1和H2分别代表Head1和Head2H1和H2的输出是b（散列码中的位数）和d（聚合标签向量的维数）维向量，然后通过sigmoid和tanh激活恢复对其进行顶部处理。整体模型如图1所示AlexNet层之外的新层使用glorot normal[29]权重初始化还尝试了VGG-19，给出了与AlexNet模型类似的结果，但训练时间大大增加因此，我们只使用基于Alexnet的模型进行研究和比较该模型在从两个头H1和H2反向传播到网络中的三个损耗分量上进行训练。更具体地说，我们从H1反向传播成对相似性损失和量化损失，从H2反向传播小批量铰链损失。因此，我们假设H2上的损失（铰链损失）迫使网络形成与包含在ag中的语义信息一致的聚合标签向量，wi.另一方面，H1上的成对欧几里德损失首次用于[30]中的散列，而量化损失首次用于[9]中。头部H2上的铰链损失是[31]首次使用的排名损失，用于使用分类标签的词嵌入来学习语义上有意义的实值图像表示。虽然铰链损失组件似乎在这个网络架构中没有明确的目的，但实证结果表明，该组件对我们模型的性能提升有显着贡献。此外，[31]提到，使用这种损失而不是使用L2组件可以提高模型的性能。他们认为这可能是由于这样一个事实，即形成语义上有意义的图像表示的问题通常是一个排名问题，因此这种排名损失可能更相关。类似地，我们可以认为当前学习图像哈希的问题也是一个排名问题，因此，这样的铰链损失组件可以显着提高检索系统的性能在推理期间，仅H1用于提取特征，然后根据以下方案对其进行量化以获得散列码：51）+1）。H1上的损失对齐哈希空间，使得语义上相似，相似的图像对靠得很近，而不相似的图像对离得更远。因此，这两个主要的损失分量相互增强，并引导网络学习语义上有意义的哈希空间。第三个损失分量，量化损失，迫使H1的输出接近0或1。这里，h（1）表示所获得的实值特征向量在H1的输出端，sgn表示符号函数，该符号函数基于符号函数的输入是正还是负而输出1/1，最后，1表示长度为b的1的向量。因此，我们从原始训练/测试图像中获得具有1/010379·j·jwinnn1wT wi j ij3.4. 设计损失函数小批量的样品只有当wn·h（2）大于margin + wj·h（2）时，损失L2才为0. 的学习方法假设两个图像之间的二元相似性：两个图像可以是相似的（1）或不相似的（0），这取决于它们是否共享公共标签。然而，在当前的弱监督学习环境中，我们打算使用聚合标签向量之间的余弦相似度作为地面真实相似度。由于余弦相似性是实值的，取值在-1和1之间，因此在我们的情况下，地面实况相似性不是二进制值，即，我们可以认为一个图像对不太相似或更相似，而不是绝对地声明它相似或不相似。我们在训练过程中只考虑地面真实相似性的概念，并在评估过程中坚持使用0/1是，仅当第n个样本的头部H2的预测比任何其他地面实况标签向量wj更接近地面实况聚合标签向量wn达裕量余量时，损失的值才为零。类似的想法在[32][33]中被预先考虑过，其目标是：使用视频标签的word2vec表示将视频mantically嵌入到空间中。因此，他们的方法是受监督的（即，假设标签信息）。量化损失：我们进一步对H1输出施加量化损失，以迫使输出接近0或1，如下所示，如果神经元的输出接近0.5，则会惩罚网络：我们将成对相似性损失函数公式化为如下对于任何图像对（xi，xj），损失函数ΣkL3=−（h（1）− 0. 51）T·（h（1）− 0.（4）第二次世界大战如果它们之间的余弦距离较小，则应该将相应的哈希推得更近，反之亦然。该损失函数的方程如下所示，Σk Σk 1bn ni=1在训练过程中，我们分别用因子λ1、λ2和λ3对三个损失分量L1、L2和L3进行加权。因此，将反向传播的所得损失为：L1=[（h（1）−h（1））T·（h（1）−h（1））λ L+λ L+λ L。Biji=1j =1I j（二）1 1 2 2 3 3wT wI23.5. 二进制标记向量模型-2（1. 0−ww）]其中k是最小批量大小，两个求和表示计算所有可能对的成对损失。矢量h（1）和h（1）表示H1的输出矢量在最先进的模型中，我们构建了另一个深度学习基线，它使用二进制标签向量进行监督，这与我们在WDHT中使用的word2vec标签嵌入不同。我们称之i j在本文的其余部分中对二进制标记向量模型进行建模分别为样本xi和xjL1的较低值为wT w当高值为1时获得。0−i导致a（h（1）− h（1））T·（h（1）− h（1））的高值，反之亦然。·j这个基线的原因是，我们想评估网络的性能，如果它被训练成类似于最先进的监督模型，其中标签相似性被用来计算损失。此模型没有聚合的word2vec，更高的值1。0−我wi当相同时，回归输出。为了适应这一点，我们使轻微PLE是不相似的，因此应该推送哈希码apart.类似地，当样本相似时获得该项的较低值，因此散列码应该被推得更近。小批量铰链损失：除了成对相似性损失之外，我们还打算反向传播在H2的输出处形成语义嵌入空间的损失。这样的损失函数不仅调整H2层，但也包括一些先前的层（FC 3，FC 2），从而将语义信息从标签传输回网络。由于H1连接到FC 3的输出端，FC 3中包含的语义信息将有助于学习H2输出端的哈希值，从而增强模型为此，我们定义以下损失， Σ Σ修改我们的模型。首先，我们假设如果两个图像共享至少一个标签，则两个图像是相似的。这当然不是一个完美的度量，但它类似于大多数现有技术的监督模型，其中共享至少1个公共标签用于定义相似性。此外，我们在这个模型中使用L4损失而不是L2由于我们的问题设置是弱监督的，因此我们使用标记向量而不是标签向量。标签向量是二进制向量，其长度等于数据集中标签的总数，如果标签与图像相关联，则其值为1，否则为0。关于网络架构，仅保留头部H1，并且完全去除H2。我们这样做是因为实值向量（如聚合标签）L2=max[0，margin+wj·h（2）−wn·h（2）]（3）上述情形中的矢量）在这种情况下是不可用的，n j/=nn n来回归输出。此外，在前一个案例中，应用于H1的损失，即， L1分量具有实数-其中h（2）表示第n个磁头H2的输出与目前的情况不同，成对相似性损失：最先进的监督我J除了将我们的方法与几个国家的方法进行比较外，110380−bijij方法12位24位32位48位ITF0.61240.63230.65310.6644TF0.63940.68360.68810.6835是说0.67090.68050.69550.6621表2：比较模型的mAP与itf、tf或NUS-WIDE数据集的平均因此，我们使用不同的损失分量（对比损失）来适应二进制值的地面真实相似性标签。损失的等式如下，L4=在实验中，我们使用了与38个类别中的至少一个相关联的图像。因此，我们总共使用了16，000张图像进行训练，2，000张用于测试。对于这两个数据集，我们随机选择测试集，而不考虑图像的标签。据我们所知，这是仅有的两个包含图像-标签-标签三元组的常用数据集。(E.g.、CIFAR-10没有标签信息。）所以我们使用这两个数据集进行实验。4.2. 培训我们使用小批量梯度下降Σk ΣkS（1−β）D+（1−S）β（max（0，margin−D））2最后三层（FC 3、H1和H2）的学习率为0.001，学习率为0。0001对于预先培训的i=1j =1哪里D=1（h（1）−h（1））T·（h（1）−h（1））（五）层（从CONV1到FC2）。我们还利用了-动量项，动量率等于0.9。对于所有实验，损失的加权因子λ1、λ2、λ3和λ4分别被设置为1.0、10.0、1.0和1.0，其通过在以下区域执行网格搜索来确定：这里，margin表示与以下各项相关联的margin：对比损失的铰链损失分量，S表示地面实况相似性标签，并且β表示小批次中存在的相似样本对的分数。分别用β和1β加权损失子分量是重要的，因为在任何小批量中，只有一小部分图像对将具有至少一个共同的标签，从而使数据集高度不平衡。因此，我们将β权重因子纳入损失中。因此，二进制标记向量模型的最终损失是-得出：L=λ3L3+λ4L44. 实验和结果本节报告了所提出方法的实验评价，并与相关最新方法进行了比较。源代码实现提出的方法可从最后一个作者4.1. 数据集NUS-WIDE这是一个Web图像数据集，包含从Flickr收集的每个图像都与一组标签相关联[34]表示总共有425，059个标签与269k个图像相关联。此外，[34]的作者将这些图像手动注释到预定义的81个标签集。在我们的实验中，我们只使用了与21个最常见标签中至少一个相关的图像。因此，我们形成了100，000张图像的训练集和2，000张图像的测试集。在评估过程中，我们使用整个训练集作为数据库，测试集作为查询集MIR-FLICKR 25 K这是一个相对较小的数据集，包含从Flickr收集的25，000张图像，并包含与它们相关的1386个标签[35]第三十五话用38个语义类别对图像进行分类。为了我们的前-超参数空间我们使用的word2vec模型是预先训练好的（使用Wikipedia文档），并为给定的单词输出一个300维的向量。因此，H2上的输出神经元的数量被设置为300。4.3. 绩效评价我们评估了学习的哈希码的语义图像检索的任务。我们使用平均精度（mAP）指标来比较性能。我们使用[36]，[37]，[38]和其他几个人使用的相同协议来计算mAP值。结果与11种最先进的方法ITQ、PCAH、LSH、DSH、SpH、SH、AGH、DH、UH-BDNN、DeepBit和WMH除了WMH之外，所有的方法都是使用作者提供的代码和建议的超参数设置运行的。由于这里介绍的大多数工作都是基于预先确定的特征向量，我们从AlexNet模型中提取了4096维向量（即FC2的输出），并将其用作这些方法的输入对于WMH，我们直接引用原始文件中的结果为了进行公平的比较，我们使用与WMH相同的实验设置运行我们的模型并报告结果。我们首先过滤WMH标准中的图像和标签首先，为了最终确定标签聚合方案，我们使用NUS-WIDE数据集上的itf，tf和平均值函数来比较我们的模型的性能。我们注意到，从表2中可以看出，平均值的效果略好于idf和tf。此外，我们对与每个图像相关联的标签的词向量进行方差分析。更具体地说，我们计算了每个图像的标签向量的变化，然后分析了10381−√算法NUS-wideMIRFLICKR-25K12位24位32位48位12位24位32位48位ITQ [9]（非深度）0.52950.52270.49320.52750.64180.6550.62530.6504PCAH [11]（非深部）0.45660.42090.40160.39710.60980.60330.60850.6169LSH [5]（非深）0.33080.36820.37260.39180.57080.58850.58430.6015DSH [23]（非深度）0.50650.51180.49020.48070.65610.65930.6440.6422[24]第二十四话0.38290.39590.39070.39470.5860.57850.57890.5789SH [10]（非深）0.45030.40290.40060.37310.62510.61570.60440.596[26]第二十六话0.5350.52260.4970.47910.63780.64840.64730.6346DH [12]（深）0.40360.39740.39320.40140.58330.59450.59320.5942[14]第十四话0.49820.49960.48230.48530.63240.62790.62740.6258[13]第十三话0.42250.42470.43590.4310.59740.60320.60770.6115二进制标记向量（深）0.48090.4750.47930.47020.60640.60870.60770.6098拟议（WDHT）（深度）0.62580.63970.66060.6470.6870.6950.66670.6621WMH*（非深层）0.2990.3060.3070.3090.5850.5900.5820.573拟议（WDHT*）（深度）0.49100.49160.48350.4850.6260.63550.63260.6308表3：NUS-WIDE和MIR-FLICKR 25 k数据集的MAP值，使用前50，000个检索图像计算算法NUS-wideMIRFLICKR-25K12位24位32位48位12位24位32位48位ITQ [9]（非深度）0.63290.62990.5940.64780.69080.70640.66840.6996PCAH [11]（非深部）0.57660.50460.490.49040.6430.63060.63720.6516LSH [5]（非深）0.35010.40930.41690.45460.57360.60490.59540.6239DSH [23]（非深度）0.59190.59820.57130.57910.69550.70710.68340.6603[24]第二十四话0.46450.46450.44650.44720.59660.58110.58280.579SH [10]（非深）0.56230.50330.48960.45330.66050.64050.62910.6213[26]第二十六话0.65510.64590.62740.62250.68620.70050.69980.6853DH [12]（深）0.47330.46010.4620.47630.60330.61950.61350.618[14]第十四话0.59230.59150.59020.60970.66540.66840.66720.6699[13]第十三话0.54630.55480.56240.5610.5890.60270.6090.6086二进制标记向量（深）0.62020.6270.62470.62490.63650.63260.63730.6352拟议（WDHT）（深度）0.67090.68050.69550.6760.73460.7430.70340.7054表4：NUS-WIDE和MIR-FLICKR 25 k数据集的MAP值，使用前5，000个检索图像计算所有图像的方差直方图。发现大多数方差低于8。注意，在这个空间中，任意两个词向量之间的最大距离可以是2300（标签向量的每个维度的范围是[1，1]，空间是300维）。这似乎表明，对于大多数图像，它们的标签向量不会扩散太多，这可能解释了简单的平均聚合函数工作得相当好。此外，我们计算了两种不同设置的mAP，一种使用前50，000个检索到的图像，另一种使用前5，000个检索到的图像，用于非监督方法，并分别在表3和表4中报告结果。这里介绍的前七种方法是非深度学习方法，而最后三种方法是基于深度学习的。此外，DH[12]和UH-BDNN [14]即使是基于深度学习的，也依赖于手工制作的功能。DeepBit [13]是唯一一个以原始图像作为输入的作品，但它的比其他大多数方法都差。相比之下，我们的方法（WDHT）是一个端到端的框架，在两个数据集上的性能优于所有最先进的方法。非深度学习方法ITQ [9]和AGH[26]似乎站在第二和第三位的mAP值在实验中。这些方法的表现也优于基于深度学习的方法（[12]，[14]，[13]）。另一方面，弱监督的结果显示在表3的底部2行为了进一步分析，我们在图2中绘制了精确度-召回率曲线。这些曲线的计算考虑到所有检索到的样本从数据库中为一个给定的查询图像。更具体地说，我们计算了所有查询图像的各种召回值（1000个离散召回值）的平均精度我们的方法在NUS-WIDE数据集上的巨大性能增益可能是不-10382图2：NUS-WIDE和MIR-FLICKR数据集的精确召回曲线。图3：NUS-WIDE数据集的各种超参数设置获得的MAP值从这些图表中也可以看出。目标函数中三个损失分量的存在引发了一个明显的问题，即如何以正确的比例将它们组合起来为了分析这一点，我们将λ1的值固定为1.0，并将λ2和λ3的值在0的情况。01和100。0的情况。我们在这个范围并为最终模型选择了最佳的超参数具体来说，我们设置了三个值，这些值在网格搜索期间在验证集上给出最大mAP值对于每个超参数值的设置，由于这些实验的训练时间很长，我们只使用了10，000个训练样本。NUS-WIDE数据集针对不同λ2和λ3值的验证mAP的条形图为在图3中给出。可以注意到，与其他组合相比，较高的λ2值和较低的λ3在MIR-FLICKR数据集上也发现了类似的行为这与第3.3节中提出的基本原理一致，即与欧几里得损失分量相比，排名损失在形成语义上有意义的空间方面更好[31]。虽然这一基本原理还有待数学验证，但我们的研究结果表明，这似乎是经验的情况。5. 结论我们尝试了使用标签嵌入的弱监督深度图像哈希问题。我们的方法是一个端到端的框架，它将原始图像和标签作为输入，并产生哈希码。该模型适用于标签信息丰富的Web图像。通过与现有最先进技术进行比较的广泛实验，我们证明了所提出的方法在两个众所周知且经过广泛测试的数据集上进行评估时能够提供显着的性能提升。未来的工作包括在word2vec空间中可能更好的聚合方案，这可能会提高性能。致谢这项工作得到了ONR（N 00014 -19-1-2119）的部分资助。本材料中表达的任何观点均为作者的观点，不一定反映ONR的观点。10383引用[1] Manish Gupta，Rui Li，Zhijun Yin，and Jiawei Han.社会标签技术综述。ACM Sigkdd Explorations Newsletter，12（1）：58[2] Shilad Sen，F Maxwell Harper，Adam LaPitz，and JohnRiedl. 追求质量标签。在2007年国际ACM会议支持小组工作的会议记录中，第361-370页ACM，2007年。[3] 王开夜、殷七月、王卫国、吴叔、梁王。跨模态检索综述。arXiv预印本arXiv：1607.06215，2016。[4] Tomas Mikolov，Kai Chen，Greg Corrado，and JeffreyDean.向量空间中词表示的有效估计。arXiv预印本arXiv：1301.3781，2013。[5] Moses S Charikar。来自舍入算法的相似性估计技术。在第34届ACM年度计算理论研讨会论文集，第380- 388页。ACM，2002年。[6] 阿尼尔班·达斯古普塔，拉维·库玛，还有塔玛的萨尔洛。快速局部敏感哈希。第17届ACM SIGKDD国际知识发现和数据挖掘会议论文集，第1073-1081页。ACM，2011年。[7] Brian Kulis和Kristen Grauman核化局部敏感散列。IEEETransactionsonPatternAnalysisandMachineIntelligence，34（6）：1092[8] Aniket Chakrabarti、Venu Satuluri、Atreya Srivathsan和Srinivasan Parthasarathy 。基于贝叶斯理论的 ACMTransactionsonKnowledgeDiscoveryfromData（TKDD），10（2）：19，2015。[9] 龚云超，斯韦特兰娜·拉泽布尼克，阿尔伯特·戈多，和弗洛-伦特·佩龙宁.迭代量化：一个procrustean的方法来学习二进制代码的大规模图像检索。IEEE Transactionson Pattern Analysis and Machine Intelligence ， 35（12）：2916[10] Yair Weiss 、 Antonio Torralba 和 Rob Fergus 。光谱散列。神经信息处理系统的进展，第1753-1760页，2009年[11] Jun Wang，Sanjiv Kumar，and Shih-Fu Chang.用于大规模搜索的半监督哈希。IEEE Trans- actions on PatternAnalysis and Machine Intelligence，34（12）：2393[12] Venice Erin Liong ， Jiwen Lu ， Gang Wang ， PierreMoulin，and Jie Zhou.用于紧凑二进制代码学习的深度散列。在IEEE计算机视觉和模式识别会议论文集，第2475-2483页[13] Kevin Lin，Jiwen Lu，Chu-Song Chen，and Jie Zhou.使用无监督深度神经网络学习紧凑的二进制描述符。在IEEE计算机视觉和模式识别会议论文集，第1183- 1192页[14] Thanh-Toan Do Anh-Dzung Doan和Ngai-Man Cheung。学习使用二进制深度神经网络进行哈希。在欧洲计算机视觉会议上，第219-234页。施普林格，2016年。[15] Yue Cao ， Mingsheng Long ， Jianmin Wang ， andShichen Liu.用于高效图像检索的深度视觉语义量化。在CVPR，第2卷，第6页，2017年。[16] 姜庆元和李武军深度跨模式哈希。CoRR，2016年。[17] Yue Cao ， Mingsheng Long ， Jianmin Wang ， QiangYang，and Philip S Yu.用于跨模态检索的深度视觉语义哈希。在第22届ACM SIGKDD知识发现和数据挖掘国际会议的会议录中，第1445-1454页ACM，2016。[18] 徐兴，沈福民，杨洋，沈衡涛，李雪龙.大规模跨模态检索的判别二进制码学习IEEE Transactions on ImageProcessing，26（5）：2494[19] 王敬东，张婷，Nicu Sebe，沈衡涛，等.关于学习哈希的调查。 IEEE Transactions on Pattern Analysis andMachine Intelligence，2017。[20] 关紫玉，谢飞，赵婉青，王小鹏，陈龙，赵伟，彭锦业。基于标签的弱监督哈希图像检索。[21]

下载后可阅读完整内容，剩余1页未读，立即下载