半监督图像检索中的广义乘积量化网络

78 浏览量更新于2023-10-23 收藏 1.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于广义乘积量化网络的半监督图像检索杨均张南益赵韩国首尔国立大学，韩国国立首尔大学，韩国国立首尔大学网址：kyun0914@ispl.snu.ac.kr，nicho@snu.ac.kr摘要采用散列或矢量量化的图像检索方法通过利用深度学习取得了巨大成功。然而，除非昂贵的标签信息足够，否则这些方法不能满足期望。为了解决这个问题，我们提出了第一个基于量化的半监督图像检索方案：广义乘积量化（GPQ）网络.我们设计了一种新的度量学习策略，保留标记数据之间的语义相似性，并使用熵正则化项来充分利用未标记数据的内在潜力我们的解决方案增加了量化网络的泛化能力，从而克服了检索社区中以前的限制。大量的实验结果表明，GPQ在大规模真实图像基准数据集上具有最先进的性能。1. 介绍包括图像和视频在内的多媒体数据量每天呈指数级增长。因此，从大型数据库中检索相关内容已成为一个更加复杂的问题。目前已有多种快速准确的检索算法，其中近似最近邻（ANN）算法具有较高的检索精度和计算效率。最近的人工神经网络方法主要集中在哈希方案[31]，因为它的存储成本低，检索速度快具体地说，图像用一个只有几十位的二进制值的压缩散列码（二进制码）表示，并利用它建立数据库和距离计算。使用二进制代码表示的方法可以分为二进制哈希（BH）和产品量化（PQ）[13]。基于BH的方法[34，7，26]采用将高维向量空间映射到汉明空间的散列函数，其中两个代码之间的距离可以通过逐位XOR运算非常快速地测量图1.上图：说明了GPQ的总体框架及其三个组成部分：特征提取器F、PQ表Z和分类器C，其中C有助于构建Z。前向路径显示了标记和未标记的数据如何通过网络，后向路径显示了源自训练目标的梯度的传播LN-PQ和Lcls训练网络，使用标记数据最小化错误，而LSEM训练网络以使用未标记数据同时最大化和最小化熵。下面是一个2D概念Voronoi图，显示了GPQ中的一个码本训练后，所有码字均匀分布，标记和未标记的数据点都聚集在它们周围。然而，BH在描述数据点之间的距离方面有局限性PQ是一种矢量量化[8]，已被引入以缓解信息检索中的此问题[13，6，15]。为了执行PQ，我们首先需要将输入特征空间分解为几个不相交的子空间（码本）的笛卡尔积，并找到每个子空间的质心（码字）然后，从输入特征向量的子向量，通过用码本中最近的码字的索引替换每个子向量来获得子二进制码。由于码字由实数组成，因此PQ允许使用34203421二进制代码，使得许多基于PQ的方法优于基于BH的方法。除了数百万精心标记的数据外，还可以对 BH[35、18、11、12、14]和PQ[2]19，38，16]已经引入了利用深度表示进行图像检索。通过采用监督式深度神经网络，深度哈希在许多基准数据集上的表现优于尽管如此，仍然有很大的改进潜力，因为大量具有丰富知识的未标记数据没有得到利用。为了解决这些问题，最近的一些方法正在考虑基于BH的深度半监督哈希[40，36，10]。然而，即使PQ通常在监督和非监督设置下都优于BH在本文中，我们提出了第一个基于PQ的深度半监督图像检索方法：广义积量化（GPQ）网络，它显着提高了检索精度，具有大量的图像数据和每个类别（类）只有几个标签。现有的深度半监督BH方法构建图[40，36]或应用额外的生成模型[10]将未标记的数据编码到二进制代码中。然而，由于波黑的根本问题;当将连续深度表示嵌入到离散二进制码中时发生的偏差限制了未标记数据的广泛信息。在我们的GPQ框架中，这个问题通过将量化过程纳入网络学习来我们采用内归一化[1]和软分配[38]来处理实值输入子向量，并引入了一种有效的度量学习策略; N-pair产品量化损失受[28]启发。通过这种方法，我们可以在一个训练批中的每个特征向量之间嵌入多个成对语义相似度到码字中。它还具有不需要任何复杂的批配置策略来学习成对关系的优点。深度半监督检索的关键是避免对标记数据的过拟合，提高对未标记数据的为此，我们建议为GPQ中的每个码本使用子空间熵最小-最大损失，其使用未标记的数据来正则化网络。准确地说，我们首先学习一个基于余弦相似性的分类器，它通常用于少数学习[27，32]。该分类器具有与码本数目相同的权值矩阵，每个权值矩阵包含类特定的权值向量，该权值向量可以看作是一个子原型，表示每个码本的类代表质心。然后，我们计算子原型和未标记的子向量的分布之间的熵通过最大化熵，两个分布变得相似，允许子原型移动更接近未标记的子向量。同时，我们还最小化了未标记的分布的熵子载体，使它们在移动的子原型附近组装。梯度反转层通常用于深域自适应[5，24]，我们能够在网络训练期间同时最小化和最大化熵。综上所述，我们工作的主要贡献如下：• 据我们所知，我们的工作是第一个用于图像检索的深度半监督PQ方案。• 利用所提出的度量学习策略和熵正则化项，数据被很好地保存到码字中，并且未标记数据的底层结构可以被充分地用于泛化网络。• 大量的实验结果表明，我们的GPQ可以产生国家的最先进的半监督图像检索协议的检索结果。2. 相关工作现有的哈希方法参考调查[31]，二进制哈希（BH）[34，7，26，30]和产品量化（PQ）[13，6，15，9，21，37，29]主要集中在无监督设置。具体来说，谱散列（SH）[34]考虑了散列函数中的相关性，以获得平衡的紧凑代码。迭代量化（ITQ）[7]通过最小化哈希函数中的量化误差来解决保持原始数据相似性的问题。有几项研究改进了PQ，例如，优化乘积量化（OPQ）[6]试图改进空间分解和码本学习过程以减少量化误差。局部优化乘积量化（LOPQ）[15]采用了具有局部优化PQ的粗量化器来探索更多可能的质心。这些方法可能会得到一些有区别的结果，但它们仍然存在不利用昂贵的标记信号的缺点。在监督离散哈希（SDH）[26]之后，深度哈希方法已经显示出使用标签进行改进的能力，基于监督卷积神经网络（CNN）的BH方法[35，18，11，12，14]正在引领主流。例如，CNN哈希（CNNH）[35]利用CNN同时学习具有给定成对相似矩阵的特征表示和哈希函数。Network in Network Hashing（NINH）[18]介绍了一个子网络，分割和编码模块，以及用于保持相似性的哈希的三元组排名损失。有监督的结构化二进制代码（SUBIC）[11]使用块softmax非线性函数并计算基于批处理的熵误差来将结构嵌入到二进制代码中3422我我form.也有关于使用PQ和CNN的监督学习的研究[2，19，38，16]。准确地说，深度量化网络（DQN）[2]同时优化了语义相似性对的成对余弦损失以学习特征表示和乘积量化损失以学习码本。深度三重量化（DTQ）[19]设计了一种组硬三重选择策略，并通过弱正交约束的三重量化损失来训练三重。乘积量化网络（PQN）[38]将非对称距离计算机制应用于三元组，并利用softmax函数构建可扩展的软乘积量化层，以端到端的方式训练网络。我们的方法也是基于PQ，但我们尝试了一个半监督PQ方案，以前没有考虑过。深度半监督图像检索将标签映射到图像上不仅代价昂贵，而且存在将数据结构限制在标签上的缺点。基于BH的深度半监督哈希算法正在图像检索界被考虑用来缓解这个问题，它使用少量的标记数据和大量的未标记数据。例如，半监督深度哈希（SSDH）[40]采用在线图构造策略来使用未标记数据训练网络。使用二分图的深度哈希（BGDH）[36]通过使用二分图改进了SSDH，这在构建图和学习嵌入方面更有效。由于生成对抗网络（GAN）已用于BH并表现出良好的性能，如[14]，半监督生成对抗哈希（SSGAH）也采用GAN来充分利用标记和未标记数据的三元组信息。在本文中，我们提出了GPQ，第一个应用PQ的深度半监督图像在我们的工作中，我们试图通过保持语义相似性与N对产品量化损失和提取的底层结构的未标记的数据与子空间熵最小-最大损失的整个网络的推广。3. 广义乘积量化给定由单个图像组成的数据集X，我们将其分为两个子集作为标记数据集 XL={ （ IL ，yi ） }|i=1 ， …NL} 和未标记的数据集 X U={IU|i =1，… NU}来建立半监督环境。我们的工作目标是学习量化-服务于标记数据的语义相似性，同时探索未标记数据的结构，以获得较高的检索准确率。GPQ包含三个可训练的组件：1）标准的基于深度卷积神经网络的特征提取器F，例如AlexNet [17]，CNN-F [3]或VGG [ 12 ]的修改版本，以学习深度表示;2）PQ表Z，其收集用于将所提取的特征向量映射到二进制码的码本; 3）基于余弦相似性的分类器C，其对标记数据和未标记数据两者进行分类。GPQ网络旨在以端到端的方式训练所有这些组件。在本节中，我们将描述每个组件以及如何以半监督的方式学习GPQ。3.1. 半监督学习特征提取器F生成D维特征向量x∈RD. 在半监督学习条件下，我们的目标是训练F分别从标记图像IL和未标记图像IU中提取区分度xL和xU活泼地此外，我们利用PQ的概念，利用这些特征向量的图像检索，这需要适当的码书与不同的码字来取代和存储的特征向量。我们为我们的GPQ方法引入了三个训练目标，以充分利用标记和未标记图像的数据结构，为了更好地理解，我们在图2中展示了每个损失函数的概念可视化根据[27，32，38，19]的观察，我们对特征向量进行归一化，并将其约束在单位超球面上，以关注测量两个不同向量之间距离的角度而不是幅度。通过这种方式，每个数据都被映射到最近的类代表方向，并且对于半监督方案来说更好地执行，因为标记数据和未标记数据之间的分布发散可以在约束内减小特别是对于PQ，我们应用内部归一化[1]对于特征向量x，通过将其划分为M个子向量x，x=[x1，.， xM]，其中xm∈Rd，d=D/M，并且l2-归一化每个子向量为：xm←xm/||Xm||二、在本文的其余部分中，GPQ的x表示帧内归一化特征向量。作用函数q：I→b{0，1}B映射一个高-N对乘积量化PQ表Z收集M-将一维输入I转换为紧凑B位二进制码b，利用标记和未标记的数据集。我们提出了一个半监督深度哈希框架：GPQ，将q集成到深度网络中作为乘积量化（PQ）的一种形式[13]，以联合学习深度表示和码字。在学习过程中，我们的目标是：码本Z =[Z1，...， ZM]，并且每个码本具有K个码字Zm=[zm1，...， zmK]，其中z∈ Rd，其用于用量化向量qk代替x k。每一个码字都是l2-归一化的，以将余弦相似性的度量简化为乘法。我们使用软配置sm（·）[3 8]从x m获得qm，如下所示：3423e图2.一个两个类（+：蓝色，-：橙色）可视化的例子，我们的培训目标。1)左部分示出了N对乘积量化的学习过程。当我们将锚点定义为x+时，语义相似的点（q+，x+，q+）被拉- −114 4同时语义上不同的点（x=2，q=2，x=3，q=3）推动锚定器。2）右侧部分显示学习过程分类损失Lcls和子空间熵最小-最大损失LSEM。对于约束在单位超球面上的数据点标记数据点的熵被最小化以找到原型（白星）。然后，原型和未标记的数据点之间的熵被最大化，以将原型移向未标记的数据点并找到新的原型（黄色星星）。最后，未标记数据点的熵被最小化，以将它们聚类到新原型附近。{（IL，y1），...，（IL，yB）}，目标函数为1Bqm =Ke−α（xm·zmk）ΣK−α（xm·z<$′）中文（简体）基于标准交叉熵损失LCE，可以为-模拟为：KK其中，α表示用于近似硬分配的缩放因子，并且qm= sm（xm; α，Zm）是qm=[q1，.， qM]。我们把xm乘以1ΣBLN-PQ=Bb=1LCE（Sb，Yb）（2）Z中的码字来测量余弦相似度ΣˆL TˆLˆL TˆLΣ其中Sb=（xb）q1，...，（xb）qB表示余弦他们量化误差发生在编码过程中;因此，我们需要找到将最小化误差的码字。此外，传统的PQ方案具有忽略标签信息的局限性，因为子向量被聚类以在没有任何监督信号的情况下找到码字为了充分利用语义标签并减少量化误差，我们修改了[28]中提出的N对乘积量化损失：学习LN-PQ中的F和Z，并将其作为训练目标之一。深度度量学习[33，25]旨在学习具有语义标签的数据的嵌入表示。从标记的图像IL，我们可以生成唯一的特征向量xL和它的最近量化向量qL，第2b个特征向量和第2b个量化向量之间的相似性，并且Yb=（yb）Ty1，.，（yb）TyB表示SIM-第b个标签与批次中的每个标签之间的相似性。在这种情况下，y表示独热编码的语义标签，并且逐列归一化被应用于YB。LN-PQ的优点是不需要复杂的批量构造方法是必需的，并且它还允许我们在同一嵌入空间上联合学习特征向量和码字的深度特征表示。基于余弦相似性的分类为了将语义信息嵌入到码字中，同时减少每个码本之间的相关性，我们学习包含M个权重矩阵[W1，.，其中每个矩阵包括子原型可以被认为是共享相同的语义信息-当Wm=[cm1，.，cmNc]，Wm∈Rd×Nc Nc是第因此，对于随机抽样的B类训练样本数。每个子原型都是l2标准化的′3424MKMmlM保持类特定角度信息。利用xL的第mMLTL1ΣB获得标记的类别预测为：pm=Wmxm。我们再次使用LCE训练F和C进行分类，pL=[pL，.，pL]从xL计算，对应于-LT（B）=LN-PQ+Bb=1（λ1Lcls−λ2LSEM）（5）1M将语义标签y设置为：其中B ={（IL，y1，IU），.，（IL，yB，IU）}和λ1和λ21 1B B是超参数，每个损失函数。我们迫使训练优化器迷你-1ΣML= L（β·pL，y）（3）使LT变因此，LN−PQ 和LCLS被最小化CLSMCEmm=1而同时使LSEM最大化。在这通过这种方式，F可以学习两个标记的深度表示其中β是缩放因子，y是对应于xL的标签。这种分类损失确保了特征提取器相对于标记的示例生成有区别的特征。此外，分类器中的每个权重矩阵被导出为包括相关子空间的类特定的子空间熵Mini-max假设标记数据和未标记数据之间的分布没有严重的差异，我们的目标是传播由它们之间的分歧导出的Gra-1。为了计算分布差异引起的误差，我们采用了信息论中的熵。特别是对于PQ设置，我们计算每个子空间的熵以平衡传播到每个子空间中的梯度的量。和未标记的数据。然而，为了使码字对未标记数据鲁棒，有必要将未标记数据信号直接反射到Z中。相应地，我们应用另一种软分配，通过更新码字为z′=sm（z<$;α，Wm），将Wm的子原型智能嵌入到第m个码本的子原型智能中.因此，高检索性能可以预期通过利用潜在的未标记的数据进行量化。3.2. 检索建立检索数据库在学习了整个GPQ框架之后，我们可以在XU中使用图像建立检索数据库。给定一个输入图像IR∈XU，我们首先从F中提取x<$R。然后，我们从相应的代码找到每个子向量x R的最接近的代码空间第m个子向量xU未标记的fea-书Zm，通过计算余弦相似度。在那之后，真向量xUM的第m个权矩阵，将所述最近码字的索引k*格式化为二进制，大括号子原型，我们可以得到一个类预测我们-生成子二进制码bR。最后，将所有将余弦相似度设为：pU =WTxU。通过使用它，子二进制码以获得M·log2（K）位二进制码嗯嗯b<$R，其中b<$R=[bR，...， bR]。重复该程序子空间熵最小-最大损失计算为：MNc将所有图像存储为二进制，并且还存储Z距离计算。1美元LSEM= −Mm=1l=1（β·pml）log（β·pml）（4）不对称的SearchF或given查询图像IQ，x∈Q是提取自F. 为了进行图像检索，我们采取以第m个子向量xQ为例，计算余弦其中β与等式3中的β相同，并且MxQ和属于xQ的每个码字之间的相似性注意到预测到第k′类的概率;第l类是pU的元素。网络的泛化能力可以通过最大化L SEM来增加，因为高熵确保子原型被正则化，未标记数据。也就是说，熵最大化使子原型与未标记子向量具有相似的分布，使子原型移动到未标记子向量附近。为了进一步改进，我们的目标是通过在帧内归一化之前应用梯度反转层[5，24翻转的梯度诱导F在最小化熵的方向上学习，导致未标记数据的偏斜分布。根据等式2至4，总目标函数LT对于B个随机采样的训练对IL和IU，可以公式如下：M第m个码本，并将测量的相似性存储在外观上。上表（LUT）。类似地，对其他子向量进行相同的操作，并且结果也存储在LUT上。查询图像与数据库中的二进制代码之间的距离可以通过使用子二进制代码从LUT加载预先计算的距离并聚合所有加载的距离来非对称地计算。4. 实验我们评估GPQ的两个半监督图像检索协议对几个哈希方法。我们在两个最流行的图像检索基准数据集上进行了实验。大量的实验结果表明，GPQ取得了优于现有方法的性能。34254.1. 设置评估协议和验证在[40，36，10]中的半监督检索实验之后，我们采用如下两个协议。- 协议1：单一类别图像检索假设用于图像检索的所有类别（类）都是已知的，并且仅为每个类提供少量的标签数据标记数据用于训练，未标记数据用于建立检索数据库和查询数据集。在这种情况下，属于检索数据库的标记数据和未标记数据用于半监督学习。- 协议2：未知类别图像检索与半监督学习一致，假设查询数据集中的类别信息是未知的，并考虑使用已知和未知类别构建检索数据库。针对这种情况，我们将图像数据集分为四个部分：train75、test75、train25和test25，其中train75和test75是75%类别的数据，而train25和test25是剩余25%类别的数据。我们使用train75进行训练，train25和test75用于检索数据库，test25用于查询数据集。在这种情况下，带标签的train75和不带标签的train25、test75用于半监督学习。哈希方法的检索性能通过mAP（平均精度）来衡量，对于查询数据集中的所有图像，位长度为12，24，32和48。特别地，我们将方案1设置为主要实验，并观察每个训练目标的贡献。数据集我们设置了两个基准数据集，每个协议都不同，如表1所示，每个数据集的配置如下。- CIFAR-10是一个包含60，000张彩色图像的数据集，大小为32×32。每个图像属于10个类别中的一个，每个类别包括6，000个图像。- NUS-WIDE[4]是一个由近270，000张不同分辨率的彩色图像组成的数据集。数据集中的图像与81个语义概念的一个或多个类标签相关联。我们选择了21个最常见的概念进行实验，每个概念都有超过5,000张图像，总共有169643张。CIFAR-10NUS-wide方案1协议2方案1协议2查询1,0009,0002,10035,272培训5,00021,00010,50048,956检索数据库54,00030,000157,04385,415表1.两个基准数据集的详细组成我们基于Tensorflow框架实现GPQ，并使用NVIDIATitan XP GPU执行。当涉及到对基于非深度学习的哈希方法进行实验时[34，7，26，13，6，15]，我们利用手工制作的特征作为输入[18]，从CIFAR-10图像中提取512维GIST [22]特征，并从NUS-WIDE图像中提取500维词袋特征。对于深度哈希方法[35，18，11，2，19，38，40，36，10]，我们使用原始图像作为输入，并采用ImageNet预训练的AlexNet [17]和CNN-F [3]作为主干架构来提取深度表示。由于AlexNet和CNN-F在第一个卷积层对输入图像进行了显著的下采样，因此它们不适用于小图像。因此，我们采用[12]中提出的修改后的VGG架构作为GPQ特征提取器的基线架构。为了公平比较，我们还使用CNN-F来评估我们的方案（GPQ-F），细节将在第4.2节中讨论。在网络训练方面，采用ADAM算法对网络进行优化，并采用指数衰减的学习率，初始值为0.0002，β1=0。五、我们在学习批次中平等地配置标记和未标记图像的数量。简化在实验中，我们设置几个超参数如下：缩放因子α和β分别固定为20和4，码字数K固定为24，而M被调整为处理多个比特长度，并且子向量xm的维度d固定为12。这些超参数的详细分析见补充资料。我们将公开我们的代码，以供进一步研究和比较。4.2. 结果和分析方案1和方案2的实验结果分别示于表2和表3中。在每个表中，方法被分为几个基本概念，并按组列出我们研究了用于消融研究的GPQ变体，结果见图3至图5。5. 从结果中，我们可以观察到我们的GPQ方案优于其他哈希方法，表明所提出的损失函数通过以半监督的方式训练GPQ网络来有效地改进GPQ网络。如表2所示，所提出的GPQ在所有比特长度上的性能都比所比较的方法好得多具体来说，当我们对所有位长度的mAP得分进行平均时，GPQ分别比CIFAR-10和NUS-WIDE 上以前的半监督检索方法高 4.8%p 和4.6%p。特别地，性能差距随着比特数的减少而更加明显。这种趋势与基线哈希概念密切相关。比较基于PQ和基于BH的方法的结果，我们可以确定PQ-3426概念方法CIFAR-10NUS-wide12位24位32位48位12位24位32位48位深度半监督GPQ（我们的）0.8580.8690.8780.8830.8520.8650.8760.878SSGAH [10]0.8190.8370.8470.8550.8380.8490.8630.867BGDH [36]0.8050.8240.8260.8330.8100.8210.8250.829SSDH [40]0.8010.8130.8120.8140.7830.7880.7910.794深度量化PQN [38]0.7950.8190.8230.8300.8030.8180.8220.824[19]第十九话0.7850.7890.7900.7920.7910.7980.8080.811DQN [2]0.5270.5510.5580.5640.7640.7780.7850.793深度二进制哈希SUPIC [11]0.6350.6890.7130.7210.6520.7830.7920.796NINH [18]0.6000.6670.6890.7020.5970.6270.6470.651CNNH [35]0.4960.5800.5820.5830.5360.5220.5330.531产品量化LOQP [15]0.2790.3240.3660.3700.4360.4520.4630.468OPQ [6]0.2650.3150.3230.3450.4290.4330.4500.458PQ [13]0.2370.2650.2680.2660.3980.4060.4130.422二进制哈希[第26话]0.2550.3300.3440.3600.4140.4650.4510.454ITQ [7]0.1580.1630.1680.1690.4280.4300.4320.435[34]第三十四话0.1240.1250.1250.1260.3900.3940.3930.396表2.实验协议1上不同散列算法的平均精度（mAP）得分0.88 0.890.890.880.870.860.850.890.880.870.860.850.870.860.850.840.830.880.870.860.850.840.830.820.811224 320.840.830.820.8148 1224 32 480.820.810 0.1 0.2 0.3 0.40.520.840.830 0.1 0.2 0.3 0.40.52的比特的比特(a) 12位(b) 48位(a) CIFAR-10(b) NUS-wide图4.两个平衡参数的敏感性研究图3. GPQ及其变体的比较结果。对于深的和非深的情况，特别是对于较小的比特，基于的通常是优越的。这是因为基于BH、PQ的方法具有实值的码字，这使得能够减轻在编码时间期间产生的偏差，并且它们还允许通过数据库和查询输入之间的不对称计算基于PQ的GPQ具有这些优点，在半监督图像检索中能够达到最先进的结果。消融研究为了评估GPQ中每个组件和培训目标的贡献和重要性，我们构建了三个变体：1）对于GPQ-F，用CNN-F [ 3 ]替换特征提取器F; 2）移除分类器C，并且对于GPQ-H，仅用PQ表Z学习网络;3)交换N对乘积量化损失LN-PQ标准的三重损失 [25]第二十五话我们执行检索实验方案1为这些变种，并凭经验确定GPQ的灵敏度。这些变体和原始GPQ的mAP评分见图3。在该实验中，超参数都设置为与第4.1节中的默认值相同，并且平衡参数λ1和λ2都设置为0.1. GPQ-F采用了所有的训练目标，并显示出最好的mAP分数。它甚至优于其他半-参数：λ1和λ2监督检索方法，包括SSGAH [10]在协议1的所有实验设置。然而，在两个数据集上，修改后的基于VGG的[12]原始GPQ它颠覆了一般认为具有更多可训练参数的CNN-F将具有更高的泛化能力的想法这是因为高复杂度并不总是保证性能增益，与[39]中的观察结果相同。因此，在不增加网络复杂度的情况下，我们专注于能够提取更一般特征的网络结构，这导致了高的检索准确率，特别是在半监督的情况下。为了确定分类损失Lcls和子空间熵最小-最大损失LSEM的贡献，我们通过改变每个平衡参数进行实验损失函数λ1和λ2。GPQ-H相当于λ1和λ2均为零，结果见图3。图4中详细描述了针对12和48位长度的λ1和λ 2的不同选项的实验结果一般情况下，当Lcls和LSEM的影响相近时，可获得较高的精度，当两个平衡参数同时设置时，可获得对于12位和48位长度为0.1。为了研究所提出的度量学习策略的效果，我们用N对乘积Quantiza-1=0.11=0.31=0.5=0.1=0.3地图地图地图地图1=0.51 13427(a) GPQ-T（b）GPQ-H（c）图5.分别由GPQ-T、GPQ-H和GPQ在CIFAR-10数据集上学习的深度表示的t-SNE可视化概念方法CIFAR-10NUS-wide12位24位32位48位12位24位32位48位深度哈希GPQ（我们的）0.3210.3330.3500.3580.5540.5650.5780.586SSGAH [10]0.3090.3230.3410.3390.5390.5530.5650.579SSDH [40]0.2850.2910.3110.3250.5100.5330.5490.551NINH [18]0.2410.2490.2530.2720.4840.4830.4850.487CNNH [35]0.2100.2250.2270.2310.4450.4630.4710.477CNN特征+非深度哈希[第26话]0.1850.1930.1990.2130.4710.4900.4890.507ITQ [7]0.1570.1650.1890.2010.4880.4930.5080.503LOPQ [15]0.1340.1270.1260.1240.4160.3860.3800.379OPQ [6]0.1070.1190.1250.1380.3410.3580.3710.373表3.实验协议2上不同散列算法的平均精度得分（mAP）三重损失，并在图五、在学习GPQ-T时，将边缘值固定为0.1，并使用不同图像的量化向量来构造我们利用t-SNE算法[20]检查从CIFAR-10中每个类别的1，000张图像中提取从图中每种颜色代表不同的类别，我们可以观察到GPQ更好地分离了数据点。传输类型检索按照[23]中提出的传输类型调查，我们在协议2下进行实验。数据集分为两个分区每一个都是相同大小的，分别分配给训练集和测试集。具体到每个数据集，CIFAR-10采用7个类别，NUS-WIDE采用15个类别来构建train 75和test 75，其余类别分别用于train 25和test 25。为了进一步与非深度学习概念的哈希方法进行比较[26，7，15，6]，我们采用预训练的AlexNet的第7个全连接特征作为输入并进行图像检索。如我们在表3中可以观察到的，与方案1中的结果相比，平均mAP评分降低，因为看不见的类别的标签信息消失了。因此，在基于监督的方案中有明显的mAP下降然而，我们的GPQ方法仍然优于其他哈希方法。这是因为，在GPQ中，已知类别的标记信息被充分利用来学习判别性和鲁棒性。通过度量学习算法对码字进行分割，同时充分利用未标记数据，通过特征分布的熵控制来推广整体架构。5. 结论在本文中，我们提出了第一个基于量化的深度半监督图像检索技术，称为广义积量化（GPQ）网络。我们采用了一种度量学习策略，该策略保留了标记数据内的语义相似性，用于区分码本学习。此外，我们计算每个子空间的熵，并同时最大化和最小化它，以嵌入潜在的信息的未标记的数据的码本正则化。综合实验结果证明，GPQ产生的国家最先进的性能在大规模的图像检索基准数据集。致谢这项工作得到了韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）赠款的部分支持（第100号）。&&1711075689，用于支持AI应用的边缘物联网集成的分散式云技术公司3428引用[1] Relja Arandjelovic和Andrew Zisserman。关于Vlad在CVPR，第1578-1585页，2013中。二、三[2] Yue Cao，Mingsheng Long，Jianmin Wang，Han Zhu，and Qingfu Wen.用于高效图像检索的深度量化网络。在AAAI，2016。二三六七[3] 肯·查特菲尔德，凯伦·西蒙尼扬，安德里亚·维达尔迪，和安德鲁·齐瑟曼.魔鬼的回归细节：深入研究卷积网络。InBMVC，2014. 三六七[4] Tat-Seng Chua ， Jinhui Tang ， Richang Hong ， HaojieLi，Zhiping Luo，and Yantao Zheng.Nus-wide：新加坡国立大学的真实网络图像数据库在《公民自由和种族权利国际公约》第48页。ACM，2009年。6[5] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督ICML，2015. 二、五[6] 葛铁铮，何开明，柯启发，孙建。优化的产品量化近似最近邻搜索。在CVPR中，第2946-2953页，2013年。一二六七八[7] 龚云超，斯韦特兰娜·拉泽布尼克，阿尔伯特·戈多，和弗洛-伦特·佩龙宁.迭代量化：一个procrustean的方法来学习二进制代码的大规模图像检索。IEEE Transactionson Pattern Analysis and Machine Intelligence ， 35（12）：2916-2929，2012。一二六七八[8] Robert M.作者声明：David L. 诺伊霍夫量化。IEEETransactions on Information Theory ， 44 （ 6 ）： 2325-2383，1998. 1[9] Jae-Pil Heo，Zhe Lin，and Sung-Eui Yoon.高维空间中用于近似 k- 最近邻搜索的距离编码乘积量化 IEEETransactionsonPatternAnalysisandMachineIntelligence，2018。2[10] 胡庆浩，程健，侯增光，等.用于图像检索的半监督生成对抗哈希。见ECCV，第491-507页。Springer，2018.二、六、七、八[11] 他是拉雅·杰恩、华金·塞佩达、帕特里克·佩雷斯和雷米·格里邦瓦尔。Subic：一种用于图像搜索的监督结构化二进制代码。在ICCV，第833-842页，2017年。二六七[12] Young Kyun Jang，Dong-ju Jeong，Seok Hee Lee，andNam Ik Cho.基于深度聚类和块哈希网络的人脸图像检索。在ACCV，第325Springer，2018. 二三六七[13] Herve Jegou、Matthijs Douze和Cordelia Schmid。最近邻搜索的乘积量化IEEE Transactions on Pattern Analysisand Machine Intelligence，33（1）：117- 128，2010。一二三六七[14] 郑东柱周成权徐元桥周南益基于分类的监督散列与复杂网络的图像搜索。在BMVC，第74页，2018年。二、三[15] 扬尼斯·卡兰蒂迪斯和扬尼斯·阿弗里斯。局部优化的产品量化近似最近邻搜索。在CVPR，第2321-2328页，2014年。一二六七八[16] 本杰明·克莱因和里奥·沃尔夫。用于图像搜索和检索的端到端监督在CVPR中，第5041-5050页，2019年。二、三[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NeurIPS，第1097-1105页，2012中。三、六[18] 来寒江，闫盼，夜流，燕水城。使用深度神经网络进行同步特征学习和哈希编码。在CVPR，第3270-3278页，2015年。二、六、七、八[19] Bin Liu，Yue Cao，Mingsheng Long，Jianmin Wang，and Jingdong Wang. 深度三重态量子化。 ACMMultimedia，2018。二三六七[20] Laurens van der Maaten和Geoffrey Hinton使用t-sne可视化数据。 Journal of Machine Learning Research ， 9（Nov）：2579-2605，2008. 8[21] Qingqun Ning，Jianke Zhu，Zhiyuan Zhong，Steven CHHoi，and Chun Chen.基于稀疏积量化的可扩展图像检索。IEEE Transactions on Multimedia，19（3）：5862[22] 奥德·奥利瓦和安东尼奥·托拉尔巴对场景的形状进行建模：空间包络的整体表示。 International Journal ofComputer Vision，42（3）：145-175，2001。6[23] Alexandre Sablayrolles，Matthijs Douze，Nicolas Usunier和 Her ve'Je'gou 。我们应该如何评价监督散列？在ICASSP，第1732-1736页。IEEE，2017年。8[24] Kuniaki Saito、Shohei Yamamoto、Yoshitaka Ushiku和Tatsuya Harada。通过反向传播的开集域自适应。在ECCV，第153-168页，2018年。二、五[25] FlorianSchroffDmitryKalenichenkoJamesPhilbinFacenet：用于人脸识别和聚类的统一嵌入在CVPR，第815-823页，2015年。四、七[26] Fumin Shen ， Chunhua Shen ， Wei Liu 和 Heng TaoShen。监督离散散列。在CVPR，第37-45页，2015年。一二六七八[27] 杰克·斯内尔凯文·斯沃斯基和理查德·泽梅尔用于少镜头学习的原型网络。在NeurIPS，第4077- 4087页，2017年。二、三[28] 孙奇赫改进的具有多类n对损失目标的深度度量学习。NeurIPS，第1857-1865页，2016年。二、四[29] Jingkuan Song，Lianli Gao，Li Liu，Xiaofeng Zhu，andNicu Sebe.基于量化的哈希：一个通用的框架，可伸缩的图像和视频检索。模式识别，75：175-187

下载后可阅读完整内容，剩余1页未读，立即下载