多功能二进制码：面向类别和属性的图像检索任务的双目的哈希方法

184 浏览量更新于2023-10-15 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3901相同身份+微笑01010101010101010101+中性学习多功能二进制码面向类别和属性的检索任务刘浩淼1、2，王瑞平1、2、3，单世光1、2、3，陈西林1、2、31中国科学院智能信息处理重点实验室，中国科学院计算技术研究所，北京，1001902中国科学院大学，北京，1000493合作媒体创新中心，中国haomiao. vipl.ict.ac.cn，{wangruiping，sgshan，xlchen}@ict.ac.cn摘要在本文中，我们提出了一个统一的框架，以解决板栗板栗类别相似性保持001011101111110多个现实的图像检索任务，涉及猫，egory和attributes。考虑到现代数据集的规模，哈希算法的低复杂度是有利的。然而，大多数现有的散列方法都是为了预处理而设计的胸板属性相似度010000100DualPurposeHashing（我们的）只有一种相似性，因此无法处理-保存011001011111同时完成不同的任务为了克服这个针对这一局限性，提出了一种新的哈希方法--双目的哈希（Dual Purpose Hashing，DPH），该方法利用卷积网络（CNN）分层捕获类别和属性之间的相关性，同时保持类别和属性的相似性。由于同时具有类别和属性标签的图像是稀缺的，我们的方法被设计为将互联网上丰富的部分标记的图像作为训练输入。在此框架下，新图像的二进制编码可以通过量化类二进制层的网络输出而容易地获得，并且可以容易地从编码中恢复属性。在两个大规模数据集上的实验表明，我们的双重目的散列码可以实现与那些最先进的方法相比甚至更好的性能。001000性别种族年龄相同101010100111110（一）000101010100110ly设计的每一个单独的检索任务，而更紧凑的比较方法。010101010101（b）第（1）款010101011. 介绍近年来，越来越多的图像可在互联网上，提出了巨大的挑战，检索图像相关的一个给定的查询图像。与此同时，再评估的任务也变得更加多样化.在现实生活中，三个常见的检索任务是：I.从与查询图像相同的类别中检索图像[5];II.检索具有指定属性的图像[29];以及III.上述任务的组合，例如，寻找服装图1. （a）说明我们的双重目的哈希方法的想法。(b)一个真实的例子展示了人脸数据集上的三个检索任务。每个任务的最高排名反馈显示在这里。在前两行中，完全匹配的图像由绿色框限定，否则为红色在最后两行中，相同/不同身份的图像分别由绿色/红色框限定最好在电脑屏幕上观看。同样的款式，但颜色不同。现有的算法- s [5，29，1，39]可以用来解决上述任务，并取得了一定程度的成功。然而，在这方面，相同身份3902用实值图像表示进行索引和检索的高复杂性限制了这种方法的可扩展性。为了解决这一问题，通常采用哈希算法，因为它在时间和存储上都很高效。关于大多数现有的散列方法的一个主要问题是，它们被设计为保持一种单一的相似性，例如。语义相似性由类别定义由于属性和类别之间的差异，需要多个模型来保持类别和属性的相似性。然而，这种方案是次优的，因为训练多个模型是耗时的，并且模型之间的冗余可能会损害存储效率。为了解决这个问题，我们提出了一个统一的框架，以共同保持这两个相似性，命名为双重纯散列（DPH），如图1（a）所示。在我们的DPH方法中，只有一个单一的模型被学习，以产生二进制代码，可以用来同时处理上述三个任务，从而减少了训练时间和存储冗余。图1（b）显示了我们的方法在具有挑战性的人脸数据集上的真实人脸图像检索案例。我们的基本思想来自于一种非常自然的直觉，即范畴和属性作为对象在不同语义层次上的描述，应该具有一些共同的低层视觉特征。这可以从最近的一些研究[2，44]中的实验研究中得到部分证实，其中显示，为分类任务训练的CNN顶层中的一些节点与视觉属性高度相关。这样的观察还表明，深度CNN模型是分层捕获类别和属性之间的相关性的良好选择。这促使我们采用CNN模型来学习统一的二进制代码，可以同时保持两种相似性。我们的DPH方法的框架如图2所示。具体来说，我们的网络包含一个类似二进制的层，用于近似二进制代码。通过联合优化分类损失和属性预测损失，我们的方法可以编码到二进制代码的相似性。由于互联网上的大多数图像没有完整的类别和属性标签，我们的损失函数被适当地设计为考虑到这样的实际情况，即，即使只有一个标签的图像也可以有助于模型学习。这样做的另一个好处是，网络能够在训练阶段看到大量部分标记的数据，从而大大降低了过拟合的风险。一旦学习了模型，就可以通过将类二进制层的输出量化为紧凑的哈希码来索引图像。在与类别相关的第一个任务中，检索可以通过利用汉明距离排名或哈希表查找类似于现有的哈希方法来完成对于与属性相关的最后两个任务，可以恢复实值属性用简单的矩阵乘法运算从二进制码中提取，这可以仅通过几个求和运算有效地完成与直接存储实值属性预测值相比，该方法只增加了少量的计算量，同时大大减少了存储空间。这项工作的主要贡献有两个方面：首先，我们提出了一个统一的框架来学习哈希函数，同时保留类别和属性的相似性，以解决多个检索任务。其次，我们为CNN模型提出了一种新的训练方案，可以将部分标记的数据作为训练输入，以提高性能并减轻过拟合。2. 相关作品在本文中，我们的目标是学习多功能二进制码的多个图像检索任务。因此，我们的工作自然与多任务学习问题有关具体地说，一些以前的工作，例如。[19，30]，采用了CNN模型来同时处理多个不同的任务，并取得了一些成功。然而，我们的方法不同于现有的方法在两个方面。首先，两个[19，30]都学习实值特征，这不能满足大规模图像检索任务的特定要求其次，我们精心设计了损失函数，以利用大量的部分标记数据，这在以前的CNN模型中很少考虑。在大规模检索任务中，散列[3，12，35，4，20，18，37，14，42]的时间和空间复杂度较低。数据独立的哈希方法局部敏感哈希（LSH）[3]使用随机投影来产生二进制位，因此LSH通常需要长代码来实现令人满意的检索性能。为了减少存储开销，提出了数据相关散列方法，通过利用训练集来学习更紧凑的二进制代码。这些方法可以进一步分为无监督和（半）监督。无监督的方法，例如。谱散列（SH）[36]和迭代量化（ITQ）[4]仅利用未标记的训练数据来学习散列函数，而监督方法则通过利用语义标签来处理更复杂的语义相似性。一些代表性的监督方法是CCA-ITQ[4] ，最小丢失哈希（ MLH ） [20] ，半监督哈希（SSH）[35]，二进制重建嵌入（BRE）[12]和带内核的监督哈希（KSH）[18]。尽管上述散列方法在一些应用中取得了成功，但它们使用容易提取的特征，这些特征不是专门为手头的任务设计的，因此可能会丢失一些特定于任务的信息。为了解决这个问题，最近，几种哈希方法[43，14，37，16，40，17，42]通过联合学习图像表示和3903......…我我训练数据查询图像黑色轮条纹木制...尾类别白色类二进制输出K乙状类别分类器C损失1：Softmax损失√×√×...√鲨鱼？？？？...什么？球囊×××...×？第1、3条3CNN前层24属性损失二：代价敏感的Sigmoid交叉熵损失？×××...√？阳性：阳性×：阴性？：不可用预测因子M二进制码图2. 我们的DPH方法的框架。为了同时将图像的类别和视觉属性编码为二进制代码，我们设计了一个CNN模型，该模型可以将部分标记的图像作为训练输入（步骤1），并在分类和属性预测任务上训练模型（步骤2）。类似二进制的输出层有k个（代码长度）节点，作为输入连接到两个任务层。为了产生二进制代码，图像通过网络传播（步骤3），并且量化类似二进制的网络输出（步骤4）。使用CNN模型的散列函数。除了面向类别的图像检索，属性也被广泛用于检索任务[25，10，26，13，32，33，22，39，29，7]。我们的工作与使用可命名属性[21]作为查询的工作最相关。[13]使用SVM分类器预测属性的概率，并使用概率的乘积对数据库图像进行排序。后续工作研究了属性相关性[29]，融合策略[26，22]，相对属性[25]、自然语言[7]和其他技术[10，33]来提高检索性能。在本文中，为了简单起见，我们采用了[13]中的检索策略，而那些更复杂的检索策略[29，26，22]也与我们的框架兼容。这些面向属性的图像检索方法的一个主要问题是实值特征的使用，这限制了这些方法的可扩展性和效率鉴于哈希方法的成功，最近-[23，15，8]他曾尝试过一些早期的连接，用二进制代码测试属性。[23，8]通过可视化每个位的最高和最低分数的图像，从学习的二进制代码中发现属性。然而，这种[15]通过显式地对二进制代码学习阶段中的散列位和属性之间的连接进行建模，改进了[23]。然而，基于[15]中手动选择的图像表示的简单线性变换不足以捕获类别和属性之间的复杂相关性。为了解决传统工作的缺点，我们提出利用CNN模型以端到端的方式分层提取这两个语义描述之间的相关性。3. 方法我们的目标是学习紧凑的二进制代码，使得：a）来自相同类别的图像被编码为类似的双-具有相似属性的图像应该具有相似的二进制代码; c）所学习的模型应该很好地推广到新出现的图像。为了实现这个目标，我们提出了一个哈希学习框架，如图2所示.网络的前几层由几个卷积池层组成，并且可选地，后面是几个完全连接的层。这些层的结构非常灵活，因此在我们的方法中可以采用各种不同的模型[11，31，6]由于直接优化二进制代码是困难的，我们的网络中的倒数第二层被设计为给出类似二进制的输出（具有S形激活的全连接层）以近似二进制代码。在训练阶段，整个网络在分类和属性预测任务上进行联合训练，以将这两种语义信息编码为二进制代码。此外，损失函数是专门设计的，以利用互联网上丰富的部分标记数据，这同时可以提高模型的泛化能力，如4.2节所示。3.1. 问题设置设RGB图像空间为RGB，我们想要训练一个端到端模型，将图像从RGB映射到k位二元码F：RGB→ {0，1}k。假设训练图像来自C个已知类别，并且用一组m个视觉属性。设S tr={（X tr， yi， ai）|i=1，···，N}表示由N幅图像组成的训练集，其中Xtr∈N，yi ∈ {1，···，C，C +1}是第i幅图像的类别标签，ai∈ {0，1，2}m是视觉属性标签. 更具体地，yi=C+ 1意味着第i个图像的类别标签丢失。ij= 1和0指示第j个属性在第i个图像中存在/不存在。此外，我们使用aij= 2来表示第i幅图像的第j个每个训练图像需要至少有一个可用的标签。……………......3904我我IJ我IJIJS{3.2. 类别信息编码为了保持类别相似性，我们的基本思想是，如果一个简单的转换（例如，softmax分类器）可以从二进制码中恢复类别标签，类别信息将被编码到二进制码中。请注意，某些训练图像的类别标签可能会丢失，为了避免此类图像的错误分类风险因此，我们将单个训练图像Xtr的分类损失定义为：其中，Wj是控制正样本和负样本的相对强度的加权参数在实践中，我们根据训练集上的neg ativ e样本大小与正样本大小的比值来设置wj3.4.联合优化利用上面定义的损失函数，CNN模型可以用具有小批量的标准反向传播算法来训练。然而，直接加起来Eqn.（1）和Eqn。（3）整体损失函数可能有问题。到ΣCLcls=−c=1I{yi=c}logCl=1sL（一）具体地，Eqn的值。（1）和Eqn。（3）可能是不同的数量级。此外，由于标签缺失，不同属性对应的损失也可能处于不同的数量级因此，其中上标cls表示分类，I{cond. }当条件为真时为1，否则为0，softmax分类器的第l个输出。对于yi=C+ 1的情况，即第i幅图像的类别标签丢失，对于所有c∈ {1，· · ·，C}，我们有I{yi=c}= 0，因此损失和梯度都为零，并且那些没有类别标签的图像将不会对分类有贡献损失的某些部分可能占主导地位，从而阻止其他部分发挥作用。为了解决这个问题，损失函数的不同部分需要在相加之前进行缩放假设在每次迭代中，mini-batch由n个图像组成，mini-batch上的总体损失函数定义如下：Σ能量损失L=Σni=1CLSI乌姆登+αL属性（w）Σ（四）3.3. 属性编码nt=1 I{yt≤C}j=1i =1nt=1 I{atj/= 2}为了保持属性的相似性，采用了与第3.2节类似的思想，即.通过应用变换将图像的属性编码成二进制代码，该变换可以其中α是额外的加权参数，用于控制分类丢失和属性的相对强度预测损失在nI{y ≤C}= 0或从二进制代码中恢复视觉属性由于在这项工作中，属性是二进制的，对于m个属性中的每一个，我们将损失定义为逻辑回归问题。去汉-伊亚t=1零.t=1ttj/= 2}= 0，相应的损失项被设置为在缺失标号的情况下，对逻辑回归的标准公式进行了修正，使之适用于我们的问题。具体地，单个训练图像Xtr的第j（j ∈ {1，2，···，m}）个属性预测损失被定义为修改的交叉熵损失：Lattr=−I{aij/=2}[aijlog （ pij ） + （ 1−aij ） log（1−pij）]Eqn的梯度（4）可以很容易地进行类比计算，类似于标准的softmax分类器，除了乘以加权和缩放参数之外，因此我们不麻烦详细讨论它们。对于训练图像，通过量化相应的类二进制网络输出可以容易地获得它们的二进制码。（二）其中上标aTTr表示属性，pij是第i个图像拥有第j个属性的估计概率。直接优化方程（2）可能导致崩溃的解决方案，因为一些属性的分布是高度不平衡的（即，只有一小部分图像具有/不具有这些属性），即使将所有图像预测为负/正也会导致相对较低的损失。为了减轻样本不平衡的影响，我们提出了一个成本敏感的版本的Eqn。（2）改为：3.5. 检索在模型学习之后，新图像的二进制码可以通过网络传播然后量化类二进制层的输出而类似于上述获得为了完成这三个检索任务，我们需要进一步从二进制代码中恢复属性预测，这可以通过将二进制代码与属性分类器权重相乘来完成，S.注意，属性预测分数的恢复可以仅通过几个求和运算以及仅多一个矩阵（保持属性分类器）来有效地实现Lattr（w）=−I{aijWJ2}[ wj+1ijlog（pij）+权重）的大小为k×m（其中k是代码长度，m是属性的数量），1wj+1 （1−aij）log（1−pij（三））]其他hashing方法因此，我们的方法在时间和存储方面都是有效的。L一C39054. 实验在本节中，我们在两个大规模数据集上广泛评估了我们的方法首先，我们评估了广告部分标记的数据对检索和属性预测任务的影响最后，将所提出的DPH方法与现有的检索方法在这三个任务上进行了对比，以验证该方法的优越性。4.1. 实验设置数据集：我们在两个大规模部分标记的数据集上评估了我们的DPH方法：（1）ImageNet-150 K是ILSVRC2012数据集的一个子集[24]，包含150，000张图像。对于1,000个类别中的每一个，我们从训练集中选择了148张图像，从验证集中选择了2张图像。之后，每个类别的148个选定训练图像中的48个和所有2，000个选定验证图像用25个属性（包括颜色、纹理、形状、材料和结构）手动注释。我们将数据集划分为4个部分（ Train-Category ， Train-Both ， Train-Attribute 和Test），如图3（a）所示。请参考补充资料了解有关此数据集的更多详细信息。(2)CFW-60 K[15]是CFW数据集[41]的子集，包含500个受试者的60，000张图像，其中每个受试者的20张图像用14个属性进行注释。对于带有属性注释的图像，每个受试者的10张图像用作测试集，其余图像进一步分为两部分（Train-Both和Train-Attribute）。划分的细节如图3（b）所示有关此数据集的更多详细信息，请参阅原始出版物[41，15]。在这两个数据集上，训练属性集的类别标签在训练阶段不可用。评估协议：所有的评估都是单独在测试集上以留一的方式进行的，也就是说，每次我们从测试集中选择一个图像作为查询im，年龄，其余的作为数据库。我们报告所有图像的平均结果。由于这三个检索任务彼此非常不同，因此将分别在其相应的小节（第4.3-4.5节）中定义每个任务的评估指标的详细信息实现细节：我们的数据集在从头开始训练深度CNN模型方面仍然相对较小。考虑到模型的泛化能力，使用预先训练好的模型对模型参数进行初始化。为ImageNet-150 K，我们使用了Caffe模型动物园中提供的公开可用的CaffeNet模型[9]。模型的初始化采用了从conv1层到fc7层的模型参数。对于CFW-60 K，我们采用了[38]的CNN结构（从conv 1到pool 5）。由于预先训练的模型不可用，我们遵循原始出版物[38]来训练模型，除了为了简单起见删除对于ImageNet-150 K，模型训练了40个e-数据分区（ImageNet-150 K）数据分区（CFW-60 K）标签信息设置类别属性列车类别√列车-两者√√检测仪器Train-Attribute训练（二）(a)(b)（c）第（1）款图3. 实验中的数据划分示意图。(a)ImageNet-150 K，1,000个类别，（b）CFW-60 K，500个类别。每个集合的大小如图所示，括号中的数字表示每个类别的图像数量。（c）对应集合的标签信息最好用彩色观看。对于CFW-60 K，由于预训练模型是从不同的数据集获得的，因此该模型被训练了100个epoch。我们将前一层的学习率设置为10−3，将新添加的层的学习率设置为10−2，批量大小为200。动量和重量衰减参数根据原始出版物[38，9]设定此外，在两个数据集上，我们根据经验设置权重参数α= 0。1在Eqn。（四）、所有比较CNN方法都使用Caffe [9]1实现。4.2. 部分标记数据的评价我们首先使用128位二进制代码作为示例，评估利用部分标记数据对两个数据集的影响为此，使用不同的训练集训练4个模型：我们将这些模型命名为Both（B），Both+属性（B + A）、两者+类别（B + C）和两者+属性+类别（B + A + C），根据训练集（详见第4.1节和图3）用于训练特定模型。在这一小节中，分类和属性的编码分别进行评估。对于类别部分，我们根据图像与查询图像的汉明距离对数据库图像进行排序，并通过检索的mAP来衡量性能，其中来自同一类别的图像被认为是相关的。对于属性部分，我们报告所有属性的平均F1分数[34]。请注意，由于某些属性是高度不平衡的，例如， ImageNet-150 K 中大多数图像不具备“orange”属性，F1-score更能真实反映真实性能，而非准确性。比较结果在表1中给出。我们可以推断：首先，与“两者”模型相比，利用额外的训练数据（B +A和B +C）显着提高了相应任务的性能。这种现象可以用模型过拟合来解释，具体来说，在我们的实验中，在“Both”模型的训练阶段相比之下，当引入额外的训练数据时，相应任务的训练损失和测试损失总是与正常1DPH 的源代码和 ImageNet-150K 数据集可在http://vipl.ict.ac.cn/resources/codes上获得。四万三千（四十三）100,000（100）五千（五）两千五千（十）50,000（9~164）四千（八）一千（2）3906预期这证明了我们使用部分标记的数据来训练CNN模型以减轻过度拟合的动机第二，与仅在“Train-Both”集合上训练相比，使用所有训练数据可以大幅度地提高两个任务的性能（表1中的行“B+A+C”），并且该双重目的模型的性能与“B+A”和“B+C”模型的性能相当或甚至更好，证实了通过利用部分标记的数据将类别和视觉属性并行地嵌入到二进制代码中是可行的。在下面的实验中，我们所有的模型都是用+ A + C4.3. 分类检索评价在本小节中，我们测试了我们的DPH方法在第一节中的第一个任务上的有效性，即。给定查询图像，检索相同类别的图像。检索是通过排名数据库图像根据其汉明距离查询图像。比较方法：我们比较了八种哈希方法：LSH [3]，ITQ [4]，CCA-ITQ [4]，DBC [23]，KSH[18][27][28][29]代表性的常规方法以及现有技术的基于CNN的方法。为了公平比较，传统方法使用从预训练模型中提取的L2归一化CNN特征进行训练（在第4.1节中描述）。比较的方法是使用作者提供的源代码实现至于基于CNN的方法，DLBHC和DNNH利用了与我们的DPH方法相同的前层，并使用与我们相同的预训练模型进行初始化。具体来说，为了使DNNH收敛，我们在每次迭代中随机抽取10个类别和每个类别20个图像，如[28]所示，以增加每个小批次中有效三元组的数量。所有的比较方法都使用 “Train-Both” 和 “Train-Category”集合的组合进行训练由于KSH需要大量的内存来存储核矩阵（O（N2），其中N是训练图像的数量所有对比方法的超参数都经过仔细调整根据原始出版物。在{16，32，64，128，256}位二进制码上进行了实验评估指标：对于评估，我们使用检索的平均精度（mAP）作为指标，其中图像具有相同类别标签的被视为相关。结果：结果如表2所示。我们可以看出：首先，当配备CNN特征时，传统的非线性方法KSH几乎不能改进线性方法。一种可能的解释是，CNN已经将图像映射到一个特征空间，在这个空间中，t范畴是线性可分的，因此KSH很难从核空间的非线性中获益。第二，基于CNN的方法在CFW-60 K上显著优于传统方法，但在ImageNet-150 K上的改进微不足道。请注意，CFW-60 K上的预训练模型是从不同的数据集获得的，而ImageNet-150 K上的预训练模型是从同一个数据集获得的，这验证了基于CNN的方法在为手头的数据学习更合适的表示方面的优势。第三，DNNH比其他两种基于CNN的方法表现相对较差。这可能归因于我们使用的批量抽样策略。因此，当分类器数量较多时，DNNH的训练数据第四，DPH的性能是所有方法中最好的，即使二进制码是为了联合处理两种不同的任务而学习的，这表明我们的双重目的散列码能够胜任第一个单独的任务，即。类别检索4.4. 属性检索的评价在这里，我们测试第1节中的第二个任务。DPH的属性预测分数可以从第3.5节所述的二进制代码中获得。在这个实验中，给定一个查询图像，我们随机选择最多三个属性，其值由图像指定（因此可以是正的或负的）。系统需要重新检索与所选属性匹配的图像。具体来说，数据库图像按属性预测分数的乘积降序排列。比较方法：我们比较了检索的属性预测部分的三种基线方法：1）类似于[13]，我们训练线性SVM来预测属性（我们发现线性和核SVM的性能几乎相同，因此我们使用线性SVM来提高效率），使用与第4.3节中描述的相同的CNN特征。然后使用sigmoid函数对预测分数进行归一化。我们将这种方法表示为SVM-实数，其中2)我们将SVM- real中的CNN特征替换为DLBHC在第4.3节中产生的256位二进制代码。此基线用于评估联合编码类别和属性的必要性。我们将这种方法称为SVM-二进制。3)我们微调预训练的CNN模型来预测属性。为此，我们修改了我们的网络结构，用属性预测损失替换了类二进制层和分类损失我们将这种方法称为CNN-属性。使用“Train-Both”和“Train-Attribute”集合的组合训练所有比较方法2DNNH的源代码由原作者提供，我们在NUS-WIDE上的重新实现达到了与[14]中报道的类似的结果。3907模型数据集地图平均F1评分数据集地图平均F1评分B0.2480.7530.0950.817B + AImageNet-0.2390.856CFW-0.0880.867B + C150K0.3360.82860K0.2330.814B + A + C0.3430.8790.2410.877表1.使用不同训练数据组合训练的128位模型的比较所有属性的检索mAP和平均F1分数B：两者，A：属性，C：类别。16位ImageNet-150K32位64位128位256位16位32位CFW-60K64位128位256位LSH [3]0.0320.0700.1340.2150.2690.0800.1100.1170.1180.118ITQ [4]0.1020.1670.2350.2840.3100.0390.0580.0790.1120.135CCA-ITQ [4]0.0900.1570.2230.2940.3410.0480.0690.0900.1130.140[23]第二十三话0.2070.2640.3080.3440.3690.0450.0600.0720.0990.129KSH [18]0.1100.1810.2530.2930.3200.0460.0630.0860.1110.117[第27话]0.0820.1430.2220.2880.3220.0260.0490.0950.1400.183DNH [14]0.1020.1470.2130.2670.2980.0350.0580.1000.1480.185[第16话]0.1970.2630.3100.3390.3570.0680.1090.1730.2350.279DPH0.2120.2740.3220.3430.3530.0640.1120.1860.2410.274表2.在ImageNet-150 K和CFW-60 K上比较我们的方法和其他比较哈希方法的类别检索性能（mAP）每个代码长度的最佳性能以粗体突出显示。评估指标：在这个任务中，我们报告所有有效查询的平均检索mAP来衡量检索性能。在所有选定属性上与查询图像匹配的图像被认为是相关的请注意，在这个实验中，我们使用所有图像（查询和数据库）的预测属性结果，查询图像和数据库图像的错误预测都会损害性能。结果：结果在表3中给出。在这两个数据集上，我们的256位二进制代码的性能与基线方法相当，甚至更好S.然而，我们的方法不需要存储实值预测分数，因此比SVM-实值和CNN-属性更有效。另一方面，SVM-binary与我们的方法一样紧凑，并且在ImageNet-150 K上实现了与我们的方法相似的性能，但是圆形金属+白色（一）（b）第（1）款在CFW-60 K上更糟糕。这可能是因为ImageNet-150 K包含更多的类别和属性，因此变化更加复杂。因此，256位代码可能太短，无法完成此任务。从表3（a）中的趋势，我们可以预期，DPH的较长图4（a）中提供了此任务的实际检索结果。更多例子请参考4.5. 联合检索的评价在这一小节中，我们评估第一节中的第三个检索任务。这里要求系统检索属于与查询图像相同类别的图像，同时拥有查询中不存在的所选属性3908图4. ImageNet-150 K上两个面向属性任务的真实检索案例在这里，(a)任务II的结果和感兴趣的属性列在查询图像下面。顶部5和底部5反馈分别在第一行和第二行中示出。(b)任务三的十大反馈。这里的符号与图1（b）一致。最好用彩色观看。形象为了完成这个任务，我们使用属性预测来过滤掉在指定属性方面不匹配的图像，然后使用汉明距离对剩余的图像进行排名。我们比较了DPH与256位二进制码的结果。390916位ImageNet-150K32位64位128位256位16位32位CFW-60K64位128位256位支持向量机-实数0.9030.765CNN属性0.9020.771SVM-二进制0.8050.8230.8440.8610.8710.6610.6800.6930.7110.729DPH0.8060.8280.8420.8590.8680.6950.7260.7580.7850.804表3. 比较我们的方法和其他比较方法的属性检索性能（平均mAP）（a）ImageNet-150 K和（b）CFW-60 K。请注意，SVM-real和CNN-attribute不使用二进制代码作为特征，因此它们的性能不随代码长度而变化。比较方法：由于这是一个相对未探索的任务，我们将我们的DPH与两个基线进行比较：1）JLBC [15]，它是在完全注释的“Train-Both”集合上训练的，具有与上述相同的 CN N 特征。2)多型号。在这里，我们在第节4.4属性预测和DLBHC [16] Hamming0.50.40.30.20.10ImageNet−150K0.30.250.20.150.10.050CFW−60K距离排名DLBHC模型经过训练，0 20406080 100返回的顶部图像020406080 100返回的顶部图像减少（256-m）位二进制代码，其中m是属性，CNN属性的预测是全方位的，转换为二进制，因此此基线的存储成本与我们的DPH方法相同。评估度量：只有在类别方面与查询图像匹配并且具有选定属性的图像才被认为是相关的。我们使用recall@{5，10，20，50，75，100}来评估比较方法. 如果数据库不包含任何true匹配，则这种查询的召回被简单地忽略。我们报告所有有效查询的平均召回率。结果：结果如图5所示。我们的方法始终优于比较方法。CFW-60 K上的JLBC的性能非常不令人满意，即使使用CNN特征来训练该模型，这证实了我们的端到端框架对于学习双重目的散列码是虽然“多模型”方法的每个模型一个可能的解释是，这两个模型学习的代码都是冗余的，而我们的DPH通过利用类别和属性之间的相关性来抑制它们之间的冗余，因此它们实际携带的信息总量小于我们的双目的代码。而且，多模型方法需要两个网络来产生二进制码，因此计算量是本文方法的两倍。我们在图4（b）中提供了这个任务的实际检索结果。更多结果请参考补充资料。4.6. 讨论综上所述，我们的DPH方法利用了更多的监督信息比那些国家的最先进的方法，具体设计为每个单独的任务（即。类别检索和属性检索），因此人们期望DPH自然会产生更好的性能。事实上，由于某些天赋甚至在同一个阶级内也经常有很大的(a)（b）第（1）款图5.组合检索性能的比较（平均值）年龄回忆）我们的方法和其他比较方法（a）ImageNet-150 K和（b）CFW-60 K。结果由256位二进制代码获得。(e.g.毛巾的颜色属性），额外的属性信息甚至可能使类别的学习更加困难。尽管如此，我们的二进制代码在三个检索任务上的性能仍然令人满意，而我们的方法的计算成本远低于训练多个模型，这表明联合保留三个任务的类别和属性相似性是有利的。5. 结论在本文中，我们提出了一种方法来学习散列函数，同时保持多个检索任务的类别和属性的相似性。我们的DPH方法已经取得了非常有竞争力的检索性能对国家的最先进的方法，专门为每个单独的任务。我们的方法的有前途的性能可以归因于：a）利用CNN模型以端到端的方式分层捕获类别和属性之间的相关性。b）针对部分标记的训练数据设计损失函数，可以显著提高模型的泛化能力请注意，我们的框架是非常通用的，因此可以很容易地合并更强大的网络结构和损失函数，以进一步提高我们的方法的性能。鸣谢。这项工作由973项目根据第1999号合同提供部分支助。 2015CB351802 ，国家自然科学基金，合同编号：61390511、61379083和青年创新促进会CAS No. 2015085.JLBC多型号DPH平均召回JLBC多型号DPH平均召回3910引用[1] A. Babenko、A. Slesarev，A. Chigorin和V. Lempitsky图像检索的神经代码。欧洲计算机视觉会议（ECCV），2014年，第584-599页。2014. 1[2] V. Escorcia，J. C. Niebles和B.加尼姆关于视觉属性和卷积网络之间的关系。在计算机视觉和模式识别（CVPR），2015年，第1256-1264页，2015年。2[3] A. Gionis，P. Indyk，and R.莫特瓦尼通过散列进行高维相似性搜索在超大型数据库（VLD-B），1999，第99卷，第518-529页，1999。二六七[4] Y. Gong和S. Lazebnik迭代量化：一种学习二进制代码的亲克鲁斯特方法。在计算机视觉和模式识别（CVPR），2011年，第817- 824页二六七[5] M. Hadi Kiapour，X.汉，S.Lazebnik，A.C. Berg和T.L.伯格。购买地点：在网上商店匹配街头服装照片在国际计算机视觉会议（ICCV），2015年，第3343-3351页，2015年。1[6] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。3[7] R. Hu，H.Xu，M.Rohrbach，J.Feng，K.Saenko和T.达雷尔。自然语言对象检索。在计算机视觉和模式识别（CVPR），2016年，第4555-4564页3[8] C. 黄角C. Loy和X.唐判别属性和视觉表示的无监督学习在计算机视觉和模式识别（CVPR），2016年，第51753[9] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构.在Internation-al Conference onMultimedia（MM），2014，第675-678页5[10] A. Kovashka和K.格劳曼个性化图像搜索的属性自适应。在国际计算机视觉会议（ICCV），2013年，第3432-3439页，2013年。3[11] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。神经信息处理系统进展（NIPS），2012年，第1097-1105页，2012年。3[12] B. Kulis和T.达雷尔。学习使用二进制重构嵌入进行散列。神经信息处理系统进展（NIPS），2009年，第1042-1050页，2009年。2[13] N. 库马尔山口Belhumeur和S.纳亚尔Facetracer：一个搜索引擎，用于搜索带有人脸的大型图像集合。在2008年的欧洲计算机视觉会议（ECCV）中，第340-353页。2008. 三、六[14] H.赖，Y。潘湾，澳-地Liu和S.燕.使用深度神经网络同时进行特征学习和哈希编码。计算机视觉和模式识别（CVPR），2015年，第3270-3278页，2015年。二六七[15] Y. 利河，巴西-地Wang，H.Liu，H.Jiang，S.Shan和X.尘一石二鸟：联合学习二进制代码，用于大规模人脸图像检索和属性预测。在内部-计算机视觉国际会议（ICCV），2015年，第3819-3827页，2015年。三、五、八[16] K. 林，H-F. 杨，J. -H. Hsiao和C.-S. 尘深度学习二进制哈希码以实现快速图像检索。在计算机视觉和模式识别研讨会（CVPRW），2015年，第27-35页二、六、七、八[17] H.柳河，巴西-地Wang，S. Shan和X.尘用于快速图像检索的深度监督哈希。在计算机视觉和模式识别（CVPR），2016年，第20642[18] W. 刘，J.王河，巴西-地吉，YG. Jiang和S.-F. 昌使用内核的监督散列。在计算机视觉和模式识别（CVPR），2012年，第2074-2081页，2012年。二六七[19] Z. Liu，P. Luo，S. Qiu，X. Wang和X.唐Deepfashion：支持强大的服装识别和检索与丰富的注释。在CVPR，2016年。2[20] M. Norouzi和D. J·

下载后可阅读完整内容，剩余1页未读，立即下载