对抗网络驱动的硬三元组生成：深度度量学习在图像检索中的新方法

149 浏览量更新于2024-06-20 收藏 784KB PDF 举报

"对抗性的硬三重态生成：基于对抗网络的深度度量学习中的图像检索方法的研究" 深度度量学习是一种关键的技术，它在多种视觉识别任务中扮演着核心角色，比如图像检索、人脸识别和行人再识别。其目标是通过学习得到能够最大化同类图像之间的相似度、最小化不同类图像之间距离的图像表示。为了达到这一目的，深度学习模型通常会以三元组的形式处理数据，每个三元组包括一个查询图像、一个正样本（同一类的图像）和一个负样本（不同类的图像）。这种方法旨在调整网络权重，使得正样本接近查询图像，而负样本远离。然而，传统的三元组挖掘方法存在一个问题，即它们倾向于选择当前网络难以区分的困难样本，而非全局最优的硬三元组。这些困难样本可能并不总是对网络优化最有价值。针对这个问题，文章提出了一种对抗性的硬三重态生成（HTG）方法，该方法利用对抗网络来生成真正有助于网络全局优化的硬三元组。这种方法能够更好地促进网络在区分不同类别间的相似图像和聚类同类别内变化大的图像方面的性能。 HTG的核心是构建一个对抗环境，使得网络在生成硬三元组的同时，也能够持续改进其区分和聚类能力。通过这种方式，网络不仅能在局部优化中找到困难样本，还能在全局优化中生成更有挑战性的三元组，从而提升模型的泛化能力和检索性能。在实验部分，该研究在多个具有挑战性的数据集上，如CUB200-2011（鸟类识别）、CARS196（汽车识别）、DeepFashion（衣物识别）和VehicleID（车辆识别）上验证了HTG的有效性。实验结果证明，采用对抗性硬三重态生成的方法比现有最先进的技术有显著的改进，显示了其在深度度量学习中的优势。总结而言，这篇文章探讨了深度度量学习中的一个重要问题，即如何有效地生成和利用硬三元组进行模型训练。通过引入对抗网络，提出的HTG策略能够优化网络在处理相似和不同类别的图像时的性能，从而提高图像检索任务的准确性和效率。这不仅为深度度量学习提供了新的思路，也为相关领域的研究和发展开辟了新的方向。

赵怡茹，靳忠明，祁国军，卢洪涛，华贤生

输入

图像

特征提

取器

（

）

鉴别器（D）

（K+1）-

分类损失

硬示例生

成器

（G）

三重损失

反三重损

失

Fig. 1.对抗性训练方法的架构。

硬三重态产生

我们的目标是学习一个特征嵌入网络来从图像中提取特征。所获得的

特征应当对类间相似性有弹性（即，硬反例）以及类内方差（即，硬

的正面例子）。与现有的基于挖掘的方法，仅仅依赖于现有的例子，

我们提出了一种替代方法，通过生成硬三元组，挑战的能力，特征嵌

入网络正确区分相关的例子，从不相关的对应物在这些三元组。所提

出的方法的架构如图1所示。

形式上，我们用

表示特征嵌入网络，其对于输入图像

的输出是

（

）

∈

。给定三元组

，

是正（相关）对，并且

，

是负（不相关）对。训练

的原始目标函数是最小化以下三重

态损失，

′

，

三

[

（

）

，

（

））

（

）

，

（

））

]

（

1）

当

（

，

）

−

2时，则

满足所需的

lid

e，并且与w e e

t e

t tt te nt o

正规

化

，并且d

[

]

，

max

（

，

0）

获取

其输入的

〇 i

ec〇

。然后，训练网络以找到负对之间的距离应该比正对之间的距

离大至少余量

的嵌入。

3.1

对抗三重态生成器

现在让我们考虑一个硬示例生成器

，它通过操纵输入

的特征表示

（

）来生成一个新的对抗样本

（

（x））

∈

。具体来说，

通过

将来自同一类别的向量分开，同时将来自不同类别的向量拉近，

形式上，我们可以最小化训练

的以下对抗性三元组损失，

，

[

（

））

，

（

）

（

））

，

（

）

]

（

2）

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

对抗网络驱动的硬三元组生成：深度度量学习在图像检索中的新方法

基于深度学习的图像检索研究

基于对抗生成网络的深度学习图像生成

一种基于生成式对抗网络的图像描述方法.pdf

ndvr-dml:基于深度度量学习的近重复视频检索的实现

tripletNet:具有三重态损失的图像检索

HydroViet_VOR:使用三重态网络（处理）检索卫星图像中的对象

促进幼儿深度学习的教学现场新样态：基于教与学的视角.pdf

matlab_基于Gabor滤波器组的多特征融合的图像检索算法_标准方差，峰态，能量，平滑度和一致性度量

基于深度学习的图像态势感知应用研究.pdf

通过双向三重态损失将图像和文本深层网络统一起来进行恢复

最新资源