对抗性的硬三重态生成：基于对抗网络的深度度量学习中的图像检索方法的研究

99 浏览量更新于2023-10-13 收藏 784KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

一种对抗性的硬三重态生成Yiru Zhao1，2，Zhongming Jin2，Guo-junQi3， 2，Hongtao Lu1，Xian-sheng Hua21上海交通大学2阿里巴巴达摩院，阿里巴巴集团3中佛罗里达大学机器感知与学习实验室{yiru.zhao，htlu}@ sjtu.edu.cn，guojun. ucf.edu，{zhongming.jinzm，xiansheng.hxs}@ alibaba-inc.com，抽象。虽然深度神经网络在许多视觉识别和图像检索任务中表现出了竞争力，但主要挑战在于区分来自不同类别的相似图像（即，硬否定示例）同时聚类来自相同类别的具有大变化的图像（即，硬的正面例子）。当前的最新技术是从小批量中挖掘最难的三元组示例来训练网络。然而，基于挖掘的方法倾向于研究在当前估计的网络方面很难的这些三元组，而不是故意生成在全局优化网络中真正重要的那些硬三元组为此，我们提出了一个对抗网络的硬三元组生成（HTG），以优化网络的能力，区分不同类别的相似的例子，以及分组不同的例子相同的类别。我们在现实世界中具有挑战性的数据集，如CUB 200 -2011，CARS 196，DeepFashion和VehicleID数据集上评估了我们的方法，并表明我们的方法明显优于最先进的方法关键词：图像检索·硬示例·对抗网1介绍深度度量学习具有重要的实际意义，并且在许多任务中显示出有希望的结果，例如图像检索[20，32，44，31]，人脸识别[26，34，40]、人员重新识别[1，28，46]等。尽管在不同的任务中有各种形式的深度度量学习，但它有一个共同的目标，即学习最佳图像表示，将语义相似的图像彼此靠近，同时在学习的特征空间中将不同的图像分开。⋆这项工作是作者作为研究实习生访问阿里巴巴时完成的⋆⋆ 通讯作者。2赵怡茹，靳忠明，祁国军，卢洪涛，华贤生深度度量学习通常将三元组中的图像视为小批量中的训练单元。三元组包含一个查询以及一个相关和一个不相关的示例。然后，深度度量学习算法寻求将相关（不相关）示例推向（远离）底层嵌入空间中的查询。很明显，随机选择三元组对于训练深度嵌入网络来说可能非常低效，因为并非所有三元组都具有相同的信息量[44]。一些三元组包含当前嵌入网络无法很好处理的更难的示例，其中不相关的示例比相关的对应物更接近查询。使用这些更难的三元组进行训练不仅可以导致学习算法的更快收敛[31]，而且可以通过学习给定查询的相关和不相关示例之间的更清晰边界来更好地改善嵌入空间的全局结构[32]。这导致了最近的几项工作，以挖掘训练的硬例子[2，29]。然而，基于挖掘的方法旨在从现有的训练示例中找到那些在当前网络中很难找到的三元组这本质上是一种贪婪算法，这可能使训练的特征嵌入网络容易受到不良局部最优值的影响[44，20]。在本文中，我们寻求一种方法，可以故意生成硬三元组全局优化网络，而不是使用贪婪的策略，探索现有的样本只为当前的网络。生成硬三元组的目标还应该与学习用于不同任务的最佳特征嵌入网络的目标相为此，我们提出了一种对抗学习算法，其中硬三元组生成器和嵌入网络以对抗的方式联合优化，以使彼此互利我们的首要目标是学习一个最佳的嵌入图像，是足够的区分相关和不相关的例子，即使是最困难的三元组中最具挑战性的查询2相关作品2.1度量学习距离度量学习的目标是学习嵌入表示，使得相似的样本被映射到流形上的附近点，而不相似的样本被映射到彼此分开的位置[41]。由于深度神经网络（DNN）的成功[14，35，30]，深度度量学习在许多视觉识别任务中显示出巨大的优越性[20，44，26，34，1，9，42]。在标准的深度度量学习网络中，DNN模型f被训练为通过最小化三元组损失[27，39]将输入图像x嵌入到新的表示f（x）中，其表现出比对比损失更好的性能[6]。然而，三元组损失是相当敏感的一个适当的选择三元组，往往受到收敛速度慢，局部最优。为了解决这个问题，[16]提出了一个耦合的集群损失，以使训练更稳定，并实现更高的准确性。[20]提出了一种提升的结构化嵌入，其中每个正对将其距离与所有负对的距离进行一种对抗性的硬三重态生成方法3约束[31]提出了多类N对损失，以通过在每次迭代时同时推开多个负样本来改善三重损失事实上，并非所有的三元组都能提供同样的信息来训练模型。因此，挖掘硬三元组示例对于有效地训练深度度量网络起着非常重要的作用[29，2]。基于挖掘的方法通常通过从小批量中的现有训练示例中采样硬三元组来执行这些硬三元组反映了当前模型不能很好处理的情况。因此，它本质上是一种贪婪算法，容易受到坏的局部最小值的影响[20]。[44]提出了一系列具有不同复杂程度的模型，以这些方法仅基于绝对距离来选择硬样本，并且对手动设置的阈值敏感受生成对抗网络（GAN）[5]发展的启发，我们建议学习一种对抗网络，它可以以原则性的方式故意生成硬三元组，以改进特征嵌入网络，而不是从现有的训练示例中进行GreatMining。2.2生成对抗网络最近，生成对抗网络（GANs）[5]在许多生成任务中表现出非常有希望的结果，例如图像生成[3，24]和翻译[11，47，43]。更重要的是，对抗性训练及其建模数据分布的能力也被用来改善许多区分性任务。比如说，[33]组合神经网络分类器与一个adversar-ial生成模型来正则化区分训练的分类器，与半监督学习的最新结果相比，其产生分类性能。[15]提出了感知GAN，它通过利用迭代更新的生成器网络和鉴别器网络来生成小物体的超分辨率表示，以提高检测精度。[22]提出了Lipschitz正则化GAN，以探索不同类别的示例及其在监督和半监督设置中生成的对应物之间的裕度，并且通过将原始全维数据拉回到潜在流形表示上来探索标记和未标记样本的分布，将其扩展到损失敏感的学习框架[23]相反，数据流形的局部化的基于GAN的参数化使得用于半监督学习的Laplace-Beltrami算子可以被准确地形式化，而无需重新排序到图拉普拉斯近似。[38]通过生成具有遮挡和变形的示例来挑战原始对象检测器来学习对抗网络。这种对抗性学习策略显著提高了检测性能。相比之下，在本文中，我们提出了一个生成网络的特征嵌入空间，以产生具有挑战性的三元组，拉负对更接近和推动积极的对分开。通过这些生成的硬三元组，我们希望提高相关特征嵌入网络的性能，以便即使在对抗性情况下也能正确检索相关示例。4赵怡茹，靳忠明，祁国军，卢洪涛，华贤生输入图像特征提取器（F）FC鉴别器（D）（K+1）-分类损失硬示例生成器（G）FC三重损失反三重损失Fig. 1.对抗性训练方法的架构。3硬三重态产生我们的目标是学习一个特征嵌入网络来从图像中提取特征。所获得的特征应当对类间相似性有弹性（即，硬反例）以及类内方差（即，硬的正面例子）。与现有的基于挖掘的方法，仅仅依赖于现有的例子，我们提出了一种替代方法，通过生成硬三元组，挑战的能力，特征嵌入网络正确区分相关的例子，从不相关的对应物在这些三元组。所提出的方法的架构如图1所示。形式上，我们用F表示特征嵌入网络，其对于输入图像x的输出是F（x）∈RL。给定三元组，是正（相关）对，并且是负（不相关）对。训练F的原始目标函数是最小化以下三重态损失，′F，三=[d（F（a），F（p））-d（F（a），F（n））+m]+（1）当red（x1，x2）=x1−x22时，则满足所需的Euclid e，并且与w e entt et tt te nt ox1L2-正规化dfeaturevectors，并且d[·]+，max（·，0）获取其输入的p〇 ivec〇nt。然后，训练网络以找到负对之间的距离应该比正对之间的距离大至少余量m的嵌入。3.1对抗三重态生成器G现在让我们考虑一个硬示例生成器G，它通过操纵输入x的特征表示F（x）来生成一个新的对抗样本G（F（x））∈RL。具体来说，G通过将来自同一类别的向量分开，同时将来自不同类别的向量拉近，形式上，我们可以最小化训练G的以下对抗性三元组损失，LG，tri=[d（G（F（a）），G（F（n）-d（G（F（a）），G（F（p）+m]+（2）L一种对抗性的硬三重态生成方法5然后，给定固定的G，在我们的方法中训练F的目标函数变为LF，tri=[d（G（F（a）），G（F（p）-d（G（F（a）），G（F（n）+m]+（3）显然，LF，tri和LG，tri构成对抗性损失对。与原始训练损失（1）相比，F是通过G生成的样本的硬三元组来训练的，通过将正对拉得更近并将负对推开以满足裕度m。3.2多类别鉴别器D然而，上述对抗机制本身不足以训练可靠的G，因为它可以在没有适当约束的情况下任意操纵特征表示F。例如，G可以简单地输出随机向量以实现较低的LG，tri值，这对于训练更好的F是无用的。因此，为了适当地约束三元组生成器G，我们要求其输出特征不应改变其输入特征F（x）的标签。考虑一个cardiac。给定一个特征向量，D将其分类为（K+1）个类别，其中前K个类别表示真实的样本类，最后一个类别表示假类。对于三元组和它们的标签，对于正对，我们有la=lp，对于负对，我们有la = ln。汇率然后，我们最小化以下损失函数来训练DLD=L D，真实+βLD，假⑷这里，第一项强制D正确地分类三元组中的特征向量，1L_D，real=3（L_sm（D（F（a）），1a）+L_sm（D（F（p）），1p）+L_sm（D（F（n）），1n））（5）其中Lsm表示softmax损耗。同时，第二项使得D能够将生成的特征与真实的特征区分开，1L_D，fake=3（L_sm（D（G（F（a），l_fake）+Lsm（D（G（F（p），lfake）+Lsm（D（G（F（n），lfake））其中lfake表示伪类。（六）如前所述，一旦我们有了D，G就应该保留它的标签。输入要素。因此，我们有以下损失来执行这个标签保存假设，1LG，cls=3（Lsm（D（G（F（a），la）+Lsm（D（G（F（p），lp）+Lsm（D（G（F（n），ln））（七）与（2）放在一起，现在我们将最小化以下损失以训练硬三重态生成器G，LG=LG，tri+γ LG，cls（8）6赵怡茹，靳忠明，祁国军，卢洪涛，华贤生图二、MNIST数据集上特征嵌入的可视化。3.3总结图1示出了所提出的对抗方法的架构总之，所提出的方法包含一个交替的优化问题来训练i) - 通过最小化与分类损失（5）组合的三元组损失（3）来确定特征嵌入网络FLF，tri+µL D，real（9）其中分类损失确保学习的特征F可以正确地分类真实示例的不同类别。ii) （4）中的鉴别器D，以及iii) （8）中的硬三重态生成元G不难看出，G和F形成了一对对抗性的参与者，他们竞争学习对硬三元组有弹性的特征表示。另一方面，D和G是另一个对抗对，扮演着与经典GAN中的生成器类似的角色，除了G被训练为保留给定示例的标签。图2通过t-SNE [19]可视化了MNIST数据集上有和没有对抗训练的特征空间。它表明G将F（x）推离聚类的中间，而F在G的影响下学习更紧密的特征分布。更多细节将在下一节中进一步讨论。4算法详情我们将在本节中讨论有关我们的方法的更多细节。首先，提出了一个基本模型，共同最大限度地减少softmax损失和三重损失。然后在基本模型中加入对抗性三元组生成器。最后，我们还详细介绍了网络的细节。4.1基本模型学习特征嵌入网络的基本模型如图3所示。输出（嵌入）要素图层之后是一个完全连接的一种对抗性的硬三重态生成方法7正常softmax损耗特征点l2-范数决策边界F，三输入图像特征提取器（F）FC-CLSFFWXCCX无偏Softmax损耗三重损失fc1kxkCfc范数(a)（b）第（1）款图三. (a)具有联合无偏置softmax损耗和三重态损耗的基本模型的架构。(b)二维特征空间的图示，具有常规softmax损失和无偏softmax损失。空心点表示特征点，实心点表示在l2范数之后投影到单位圆的点。实线表示softmax的决策边界无偏softmax损失的嵌入特征点具有比具有常规softmax损失的特征点更长的类间距离层用于softmax损失，以及一个L2归一化层用于相似性损失。softmax损失与相似性损失在以前的几个作品中结合[45，34，21]，但softmax损失和相似性损失之间的关系尚未得到很好的研究。在特征嵌入空间中，同一类的所有数据点经过l2-归一化后，应在单位超球面上归为一组。不同类别之间的决策边界划分了K个类别的特征空间然而，传统的softmax损失并不自然地与基于距离的相似性损失兼容。例如，参见图3（b）的左侧通过最小化常规softmax损失的决策边界可能由于偏置b的存在而不通过原点。因此，来自不同类别的数据点在12归一化之后可以彼此重叠。这导致类间距离较短，影响特征嵌入的性能。因此，我们建议使用softmax loss而不带偏置。如图3（b）的右侧所示，来自这种无偏softmax损失的所有决策边界都通过原点，并且类的决策区域是圆锥形的，其顶点位于原点。因此，一类例子在单位超球面上有一个单独的投影，这确保了不同类的例子之间有很长的类间距离。给定训练元组，其中锚图像a被标记为类l，无偏softmax损失被定义为eWlF（a）LF，cls=−logΣKk=1（十）eWkF（a）其中，F（·）d不表示CNN模型的输出。这两个字母是通过最小化LF=LF，cls+λL′来训练通过随机梯度下降，以及λ是用于控制无偏置softmax损耗和无偏置softmax损耗之间的权衡的权重原始三重态损失（1）。无偏软最大损耗F8赵怡茹，靳忠明，祁国军，卢洪涛，华贤生LLL L24 2LLLLLL2 44K+1发生器（G）鉴别器（D）见图4。生成器（G）和鉴别器（D）的架构。4.2对抗训练上面的基本模型训练了一个基准特征提取器F，在这里我们将展示它可以从对抗生成器生成的硬三元组中受益。在基本模型中，F是通过从训练集中随机抽样三元组来训练的，而不考虑它们的硬度。现在我们尝试在特征级别训练一个硬三元组生成器。如图4中的左侧虚线框所示，由G表示的生成器采用从F输出的输入特征向量F（x）∈R/L，并且产生相同维度的生成的特征向量生成器G由4个全连接层组成每个层后面都有BatchNormalization [10]和ReLU[18]，并且通过在输出全连接层和输入向量之间执行逐元素加法来计算输出向量。这种残差结构迫使G学习输入向量的偏移，这在训练阶段产生G的更快收敛。以这种方式，G只需要学习如何在特征空间中移动特征向量，而不是从头开始生成特征。另一方面，鉴别器D还取输入特征向量F（x）∈RL，并将其分类为 K+1 类之一 D 也有四个全连接层，其中前三个层后面是BatchNormalization和ReLU，最后一个是softmax层。我们使用学习率为α的minibatch SGD来训练网络F，D，和G逐步与第3节中介绍的损失函数。i) 用LF=LF，tri+µLD，real更新特征嵌入网络F，其中F是通过确保G生成的硬三元组中正对的距离至少比负对的距离小一个裕量m来训练的;同时，F的所有特征向量都应该被D正确分类。ii) 在此，D是crimiminat或D，其中LD=LD，real +βLD，fake，其中通过区分真实向量F与由G生成的伪对应物来学习D，并且LD，real还用于训练D以对标记的示例进行分类。iii) 用Lg=Lg，tri+γLg，cls更新硬三元组生成器G，其中G被训练以产生可以挑战F的硬三元组，同时通过保留训练示例的标签来一种对抗性的硬三重态生成方法9ePCIJL4.3从局部细节生成更难的三元组此外，我们试图建立一个更强大的提取器F，允许HTG创建更难的三元组从细粒度的局部细节，因此，视觉识别模型可以挑战更难的三元组的例子变得更加强大。事实上，局部特征在许多细粒度视觉识别任务中起着关键作用。为图像分类设计的典型深度神经网络擅长提取高级全局特征，但往往会丢失局部细节的特征。这可能会限制HTG探索局部细节以创建更难的三胞胎。例如，如果没有局部细节，HTG就无法生成这样的硬三元组，从而迫使模型在识别不同汽车时专注于最具区别性为了解决这个问题，我们引入关键点地图，通过专注于局部细节来训练HTG。例如，ResNet-18由四个顺序卷积块组成，并且最后一个卷积块之后的全连接（FC）层的输出被用作全局特征fglobal。卷积块-1的输出特征图表示为Xl∈RC×W×H。然后，我们添加一个称为关键点块的局部分支，其具有类似于卷积块的架构，以定位关键点的分布，这些关键点可以集中在最有区别的部分上以创建更难的三元组。高级语义特征图是稀疏的，并且我们假设关键点层的每个通道对应于特定类型的关键点，因此我们在关键点层的输出特征图上应用通道softmax来估计不同图像位置上的关键点的密度：勒齐杰Ml=Σ Σ（十一）CIJWw=1Hh=1lcwh关于Pl其是关键点块-1中的（i，j）处的通道c的输出特征。该softmax输出被用作逐通道关键点掩码，其允许我们执行Xl和Ml的逐元素乘积。生成的本地要素块-1的f1是通过在以下位置上的按通道求和来计算的：f l=ΣWi=1 ΣHj=1勒齐杰Ccij.在实验中，我们将在块-3和块-4处提取这样的局部特征然后将其与全局特征连接以形成最终输出特征fout=[fglobal;f3;f4]。5实验我们在四个真实世界的数据集上以两个性能指标评估所提出的方法回忆@K [12]和mAP。对于网络架构，我们选择在ImageNet ILSVRC-2012[25]上预训练的ResNet-18[8]第4.3节中描述的关键点我们在所有实验中使用相同的超参数，而不调整它们。输入图像首先调整为256× 256并进行裁剪ePXM10赵怡茹，靳忠明，祁国军，卢洪涛，华贤生224× 224。对于数据增强，我们使用具有随机水平镜像的随机作物进行训练，并使用单中心作物进行测试。对于第4.1节中的训练基本模型，小批量大小为128，三重边际为m= 0。1，且λ= 1。学习率α从0开始。01，并且每5个时期除以10以训练模型15个时期。对于第4.2节中的训练对抗性三元组生成器，小批量大小为64，μ=β=γ= 1。生成器网络被训练10个时期，其中学习率α被初始化为0。001并且每5个时期除以10。5.1数据集我们在实验中使用了四个数据集，这些数据集通常用于许多细粒度的视觉识别任务。我们遵循标准的实验协议来分割训练集和测试集，以便与现有方法进行公平比较。– CUB200 [36]数据集有200个鸟类类，包含11，788张图像，其中前100个类（5，864张图像）用于训练，其余100个类（5，924张图像）用于测试。查询集和图库集都来自测试集。– CARS196 [13]数据集包含196个类别的汽车和16，185张图像，其中前98个类别（8，054张图像）用于训练，其余98个类别（8，131张图像）用于测试。此外，查询集和图库集都来自测试集。– In-Shop Clothes Retrieval是[17]中使用的三个基准之一，它有7，982类衣服，52，712张图像。其中，3，997个类（25，882个图像）用于训练，其他3，985个类（28，760个图像）用于测试。测试图像被划分为查询集和图库集。查询集包含14，218个图像，图库集包含12，612个图像。– VehicleID [16]数据集包含26，267辆车的221，763张图像，其中训练集包含13，134辆车的110，178张图像，而测试集包含13，134辆车的110，178张图像。集合包含13，133辆汽车的111，585张图像。它比CARS196更具挑战性，因为不同身份的车辆被视为不同的类别，即使它们共享相同的汽车型号。继原-在[16]中，有三个不同大小的测试集。最小的测试集包含800辆汽车的7,332张图像。中等测试集包含1600辆汽车的12，995张图像。最大的测试集包含2,400辆汽车的20,038张图像。5.2基于生成的方法与基于挖掘的方法我们首先展示了我们提出的HTG方法的改进我们专注于CARS196数据集，并评估具有不同训练策略设置的模型。网络架构是ResNet-18，没有任何额外的分支。结果见表1。我们将随机抽样和在线硬示例挖掘（OHEM）[29]与我们的硬三元组生成（HTG）进行比较。为一种对抗性的硬三重态生成方法11为了训练OHEM，我们对32个身份进行采样，每个身份具有4个图像以形成小批量，并且针对每个锚数据挖掘最近的阴性样本和最长的阳性样本以构成三元组。实验结果表明，OHEM提高了召回分数的学习，从硬三元组和我们的HTG方法优于OHEM进一步的绝对2。在1分时，重新呼叫提高4%A/D，B/E和C/F的结果证明，去除softmax损失的偏差对各种训练策略都有显着的促进作用，这意味着无偏差softmax损失与基于距离的相似性损失更兼容。表1.在不同模型设置下，CARS 196上的召回率@K（%）模型培训softmax1248一随机偏置65.4 76.5 84.7 91.0B欧姆偏置67.1 78.1 86.2 91.7CHTG偏置69.3 79.2 86.7 92.0D随机无偏压 66.6 77.0 85.2 91.3E欧姆无偏压 68.2 78.7 86.5 92.0FHTG无偏压 70.6 79.9 87.3 92.95.3从局部注意在最后一节中，我们展示了具有全局ResNet-18特征的HTG优于其他比较方法。我们还考虑添加一个局部关键点分支，以最大限度地提高HTG生成硬三元组的能力。这可以允许HTG探索局部细节，使得可以产生具有细粒度细节的更硬的三元组，以进一步提高识别准确性。下面，我们将展示更多的竞争力的表现，可以实现由HTG与各种本地注意力模型。表2.CARS 196上的召回@1（%）评分香草 K-Branch ResAttention KPM随机66.671.972.372.7欧姆68.272.272.672.5HTG70.672.773.976.5为此，我们将没有任何修改的全局香草模型， K 分支 [46] 和ResAttention [37]与我们的关键点映射（KPM）进行比较。这些方法都是基于ResNet-18主干进行公平比较。K分支设计了8个分支来检测区分区域并对齐局部。ResAtten- tion使用注意力感知掩模提取局部特征。所有的架构都是12赵怡茹，靳忠明，祁国军，卢洪涛，华贤生图五.分别在VehicleID、CUB 200和In-Shop Clothes数据集上显示关键点地图用三种训练策略测试，结果示于表2中。注意力模型在不同的训练策略下都优于基本模型。值得注意的是，在注意力模型上，OHEM并没有像香草模型那样显著优于随机抽样的三胞胎。我们把这种性能退化归因于OHEM的局部最优性。相反，所提出的HTG成功地提高了注意力模型，特别是KPM模型的性能。这证明了HTG在探索局部细节以生成更难的三联体示例以训练更具竞争力的识别模型方面的能力。为了证明KPM能够找到关键点，我们通过在不同位置的C通道上获取最大响应来直观地说明检测到的关键点Vi，j= maxc∈1，···，C{Mc，i，j}（12）在图5中，关键点映射被叠加在它们的输入图像上。在VehicleID数据集上，车标、车灯、天窗和车顶天线的响应较高这些是对汽车模型进行分类的最具鉴别力的部分。为了区分同一型号的不同车辆之间的差异，该模型进一步本地化了更多定制的地标，例如车窗上的贴纸和放在汽车仪表板上的小物体。结果表明，该模型能够有效地发现这些细微的关键点。局部特征在细粒度图像识别任务中起着重要的作用虽然关键点块的局部分支不需要任何手动注释，但是期望通过从生成的硬三元组学习来定位有区别的部分，以区分细粒度图像类之间的细微差异。在CUB200数据集上，检测到的关键点通常位于眼睛，喙，翅膀和尾巴，这是有用的，以分类不同种类的鸟类。在In-Shop Clothes数据集上，检测领端、袖端和下摆部分。这些前-一种对抗性的硬三重态生成方法13示例表明，从所生成的硬三元组训练的所提出的模型成功地在非常细粒度的级别上定位了在对图像进行分类或识别时最具区别性的部分5.4与最新方法的在CUB200和CARS196数据集上，将所提出的模型与五种最先进的方法进行了比较。LiftedStruct [20]使用通过将批次内的成对距离的向量提升到成对距离的矩阵来充分利用训练批次StructuredCluster [32]使用了解嵌入空间的全局结构的结构化预测。SmartMining [7]提出了一种自适应控制器，可以自动调整智能挖掘超参数并加快收敛速度N对[31]提出多类N对损失，以利用每个锚点的一个以上的负样本。HDC [44]以级联方式集成了一组复杂性不断增加的模型，以在不同级别挖掘硬样本。表3显示了这两个数据集的Recall@K结果。我们提出的方法成功地提高了现有方法的召回@K，并获得了绝对5。与CUB200数据集上的HDC相比，在Recall@1上提高了9%，以及2. 在CARS196数据集上改善8%。表3.CUB200和CARS196的K（%）召回率数据集公司简介CARS196召回@K1 2 4 81 2 4 8[20]第二十话43.6 56.6 68.6 79.653.0 65.7 76.0 84.3[32]第三十二话48.2 61.4 71.8 81.958.1 70.6 80.3 87.8智能采矿[7]49.8 62.3 74.164.7 76.2 84.2 90.2N-Pair [31]51.0 63.3 74.371.1 79.7 86.5 91.6HDC [44]53.6 65.7 77.0 85.673.7 83.2 89.5 93.8我们59.5 71.8 81.388.276.5 84.7 90.4 94.0在In-Shop Clothes数据集中，FashionNet [17]是一种新型的深度模型，通过联合预测地标位置和大量属性来学习服装特征HDC也被纳入该数据集的比较中。表4报告了结果。相比之下，方法的问题与大量的类和有限的图像在每个类。所提出的方法显着提高了Recall@1得分从62。1%至80。百分之三。值得注意的是，所提出的方法不使用任何手动注释的地标和属性。FashionNet没有报告该任务的数值结果，FashionNet的结果参考[44]。在VehicleID数据集上，Mixed Diff + CCL [16]使用耦合的集群损失和混合差分网络结构。表5报告了关于车辆ID的结果。此数据集包含许多不同14赵怡茹，靳忠明，祁国军，卢洪涛，华贤生表4.召回@K（%）在店内服装检索，FN是FashionNet的缩写K1 10 20 30 40FN+接头[17]41.0 64.0 68.0 71.0 73.0FN+Poselets [17]42.0 65.0 70.0 72.0FN [17]53.0 73.0 76.0 77.0 79.0HDC [44]62.1 84.9 89.0 91.2我们80.3 93.9 95.8 96.697.1车辆具有相同的模型，它是一个理想的例子，显示了从硬三元组学习的优势。与HDC相比，我们的模型达到了绝对的7。百分之七5%/9。在mAP中，小/中/大测试集分别提高0%这四个数据集上的结果表明，该方法优于现有的最先进的方法。表5.车辆ID上的mAP（%）方法小介质大VGG+三重损失[16]44.439.137.1VGG+CCL [16]49.244.838.6混合差分+CCL [16]54.648.145.5HDC [44]65.563.157.5我们73.270.666.56结论在本文中，我们提出了一种新的算法，硬三元组生成通过对抗性训练学习的最佳嵌入的图像。一个特征提取器被推到区分相关的例子从不相关的，即使是最具挑战性的查询中生成的硬三元组。这种基于生成的方法避免了基于贪婪挖掘的方法陷入局部最优的问题四个真实世界的数据集上的实验结果表明，所提出的模型相比，国家的最先进的方法的优势。鸣谢。本文得到国家自然科学基金部分资助（No. 61772330、61533012、61472075）、创新行动计划基础研究项目（16JC1402800）、上海市科学技术委员会重大基础研究计划（15JC1400103）、美国国家科学基金会（NSF）资助项目#1704309和国际高级研究计划局（IARPA）资助项目#D17PC00345。一种对抗性的硬三重态生成方法15引用1. 郑，D.，Gong，Y.，Zhou，S.，王杰，Zheng，N.：基于改进三重丢失函数的多通道部件 cnn 的人员再识别。在： ProceedingsoftheIEEEConFeRénCeonCon PuterVis isonandPater nReg gnition中。pp. 13352. 崔， Y. ， Zhou ， F. ，中国科学院院士， Lin ， Y. ，（ 1996 年），Belongie，S.：使用深度度量学习进行细粒度分类和数据集自举，人类参与其中。在：ProceedingsoftheIEEE ConFe RénCeo nConP uterVis iso nandPater n Reg g nitio n中。pp. 11533. Denton，E.L.，Chintala，S.，费格斯河等：使用对抗网络的拉普拉斯金字塔的深度生成图像模型。在：神经信息处理系统的进展。pp. 14864. Edraki，M.，Qi，G.J.：具有流形边界的广义损失敏感对抗学习。在：欧洲计算机视觉会议论文集（ECCV 2018）（2018）5. 古德费洛岛Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A.Bengio，Y.：生成性对抗网。In：Advances inneural in Formalin ProocessSystems.pp. 26726. 哈德塞尔河Chopra，S.，LeCun，Y.：通过学习不变映射进行降维。In：ComputerVisionandPatternRecognition，2006IEEEcomputersocietyconferenceon. vol. 第2页。 1735- 1742年。02The Dog（2006）7. Harwood，B. Kumar，B.，Carneiro，G.里德岛Drummond，T.等：深度度量学习的智能挖掘 IEEE International Conference on Computer Vision（2017）8. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习在：IEEE计算机视觉和模式识别会议论文集。pp. 7709. 胡，J，卢，J，Tan，Y.P.：用于野外人脸验证的判别式深度度量学习在：IEEE计算机视觉和模式识别会议论文集中。pp. 187510. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议（ International Conference on MachineLearning）pp. 44811. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。IEEE计算机视觉与模式识别会议（2017）12. Jegou，H.，Douze，M.，Schmid，C.：最近邻的乘积量化。IEEEtransactionsonpater nalysisanal ysin13. Krause，J.，斯塔克M. Deng，J.，李菲菲：用于细粒度分类的3D对象表示。 In ： ProceedingsoftheIEEEInternationalConferenceonC 〇mputerVisionW〇rksh〇ps. pp. 第55414. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类。在：神经信息处理系统的进展。pp. 109715. 李杰，梁湘，魏，Y.，徐，T.，冯杰，Yan，S.：用于小物体检测的感知生成对抗网络。IEEE计算机视觉与模式识别会议（2017）16赵怡茹，靳忠明，祁国军，卢洪涛，华贤生16. 刘洪，田，Y.，杨，Y.，庞湖，加-地黄T：深度相对远程学习：区分类似车辆的区别。在： ProceedingsoftheIEEEConferenceonC 〇mputerVisisinandPattermRec 〇 gnitin中。pp. 216717. 刘志，Luo，P.，Qiu，S.，王，X.，唐X：Deepfashion：为结实的衣服提供具有丰富注释的识别和检索。 In ： Proceedings of the IEEE Con-Fe-nceonComuterVisi onandPatternRecognition. pp. 109618. Maas，A.L.，Hannun，A.Y.，Ng，A.Y.：整流器非线性改善神经网络工作声学模型。In：Proc.ICML.第30卷（2013年）19. Maaten ， L.v.d. ， Hinton ， G. ：使用 t-sne 可视化数据。 Journal ofmachinelearn-ingresearch9（Nov），257920. 哦宋HXiang，Y.，中国科学院，Jegelka，S.，Savarese，S.：通过提升的深度度量学习结构化特征嵌入 In ： ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition. pp. 400421. 帕克希O.M. Vedaldi，A.，Zisserman，A.，等：深度人脸识别。在：BMVC.第1卷，第6页（2015年）22. Qi，G.J.：基于Lipschitz密度的损失敏感生成对抗网络arXiv预印本arXiv：1701.06264（2017）23. Qi，G.J.，张，L.，Hu，H.，Edraki，M.，王杰，Hua，X.S.：全球与本地-生成对抗网在： IEEE计算机视觉和模式识别会议（ CVPR ）论文集（2018）24. Radford，A.梅斯湖Chintala，S.：无监督表示学习与深度学习卷积生成对抗网络arXiv预印本arXiv：1511.06434（2015）25. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A. Bernstein，M.等：Imagenet大规模视觉识别。InternatinalJour nalofComuterVison115（3），21126. Schroff，F.，Kalenichenko，D.Philbin，J.：Facenet：一种统一的人脸嵌入方法识别和聚类。在： Proceedings of the IEEE Conference on ComputerVisionandPatternRecognition中。pp. 81527. Schultz，M.，Joachims，T.：从相对比较中学习距离度量在：Avancesineuralinner matonpoce ssssysss in。pp. 第四十一28. 施，H.，杨，Y.，Zhu，X.，Liao，S.，Lei，Z.，郑伟，李S.Z.：嵌入用于人员重新识别的深

下载后可阅读完整内容，剩余1页未读，立即下载