没有合适的资源?快使用搜索试试~ 我知道了~
基于深度度量学习的困
172510基于深度度量学习的随机基于类别的困难示例挖掘0Yumin Suh 1 Bohyung Han 1 Wonsik Kim 2 Kyoung Mu Lee 101 ECE&ASRI,首尔国立大学,韩国2三星研究,三星电子0{ n12345,bhhan,kyoungmu } @snu.ac.kr wonsik16.kim@samsung.com0摘要0深度度量学习的性能在训练过程中大量依赖于挖掘困难负例的能力。然而,由于频繁的特征计算和最近邻搜索,许多度量学习算法在大规模数据集上需要难以处理的计算成本。因此,现有方法经常在训练速度和预测准确性之间存在权衡。为了缓解这个限制,我们提出了一种随机困难负例挖掘方法。我们的关键思想是采用类别签名,在训练过程中以较小的额外成本在线跟踪特征嵌入,并使用这些签名识别困难负例候选。给定一个锚定实例,我们的算法首先基于类别到样本距离选择几个困难负类,然后仅从选定的类别中在实例级别上进行精细搜索。由于大多数类别在第一步被丢弃,因此比穷举搜索更高效,同时有效挖掘大量困难示例。我们的实验证明,所提出的技术显著提高了图像检索的准确性;在几个标准基准数据集上实现了最先进的性能。01. 引言0深度度量学习是计算机视觉中各种任务的基本问题,包括图像检索[14, 23, 24, 6, 35],人物再识别[38,7],人脸识别[20,30]等。深度度量学习的目标是近似一个将数据(在我们的领域中为图像)映射到公共特征空间的特征嵌入函数。学习之后,视觉上相似的图像应该被聚类,而具有异质内容的图像应该相互分离。为了满足这个要求,可以考虑三元损失[20],该损失定义在训练集中所有图像的三元组上。三元损失惩罚了同一类别图像之间的距离大于不同标签图像之间的距离的情况。0批处理构造器0步骤1:类别级别的随机挖掘步骤2:实例级别的随机挖掘0特征提取器0类别签名0可训练参数损失0图1. 使用我们的随机困难示例挖掘的训练过程概述0三元损失的一个关键缺点是在训练中识别困难负例的计算成本很高,部分原因是嵌入函数在整个训练过程中发生变化,每次迭代都需要搜索违反所需约束的新三元组[23, 6, 30, 21,3,39]。基于三元损失的度量学习算法的朴素实现要求在每次迭代中通过特征提取器对整个训练数据集进行前向传播,并计算每对示例之间的距离,这在大规模数据集中是计算不可行的。现有方法已经探索了两个方向来减少计算开销同时保持准确性。一种方法是仅在单个小批次[20,7]中搜索困难负例,该策略需要大型小批次大小,例如[20]中的几千个,以确保具有足够数量的困难示例。另一种方法是利用使用预计算特征[18,6]的固定近似全局结构的数据集。然而,这种方法存在问题,因为每个示例的表示在训练过程中发生变化,因此全局结构也会更新。我们提出了一种随机困难示例挖掘技术来解决现有方法中的限制。72520我们从锚定类别的一组随机采样实例中识别最近邻类别,并仅从这些类别中提取困难示例。我们的关键思想是在训练过程中使用类别签名,跟踪嵌入函数的变化,并根据它们更新困难负类。假设实例级特征嵌入与其类别代表的距离较小,那么在近似计算样本之间的距离时,可以通过计算样本到类别的距离来近似计算样本之间的距离,从而避免在每次迭代中计算每对样本之间的距离。类别签名在每次迭代中以高效的方式进行更新。由于这个思想比穷举搜索更高效,它允许我们自适应地改变嵌入函数,并在每次迭代中更新图像表示。根据我们的实验证明,所提出的困难示例挖掘技术相对于标准基准数据集(包括CARS-196 [10],CUB-200-2011[29],In-shop retrieval [11]和Stanford online products[25])上的几种基线方法,在图像检索任务中提高了准确性。此外,通过采用交叉通道相关技术[4]进一步增强表示能力,我们的方法在标准数据集上实现了最先进的性能。02. 相关工作0困难示例挖掘是深度度量学习中加速收敛和增强学习嵌入的判别能力的一种流行技术[20, 7, 2,23]。为了减少识别困难示例的计算开销,现有的方法探索了两个方向:在每个小批量内进行精确搜索[20, 7,19]和从整个数据集进行近似搜索。本文侧重于利用类别成员信息高效地从整个数据集中挖掘困难负类。有几种方法可以通过类别级距离来近似计算实例之间的距离,以减少困难示例挖掘的计算成本。它们的共同策略是通过低计算成本识别邻近类别,并仅基于这些类别构建一个小批量[19, 30,32]。其基本假设是邻近类别很可能包含困难负例。为此,早期的工作使用预计算的嵌入来找到邻近类别,并在训练过程中固定它们。然而,这种方法的嵌入质量较差,导致挖掘性能低效,因为嵌入空间在训练过程中逐渐更新。为了解决这个问题,已经研究了邻近类别的自适应[23, 21, 18, 5,22]。在这个类别中的技术中,一种朴素的方法是使用随机样本的嵌入来表示其类别标签[23, 21]。表示质量可以改善0通过使用类别中示例的平均嵌入来证明[18,5]。然而,这需要高计算成本,因为它需要通过网络反复向前传递整个训练样本进行适应。此外,由于它们通常使用粗略的类别级别近似,它们在识别最难的示例时经常失败,特别是当类内变化很大时。Smirov等人[22]试图通过在挖掘的困难正负类成员中构建一个包含最难示例的小批量来缓解这个问题。然而,他们使用预计算的特征来检测每个类别中的最难示例,由于嵌入空间的更新,这是不准确的。我们通过引入类别签名来避免上述问题,类别签名跟踪嵌入空间的变化,并且额外的成本很小。具体而言,我们的算法首先基于类别到实例距离选择几个困难的负类,然后仅从所选类别中的实例级别进行细化搜索。由于大多数类别在第一阶段被丢弃,所以它比穷举搜索更高效,同时有效地挖掘大量困难示例。Movshovitz-Attias等人[14]和Wen等人[34]提出的方法与我们的方法有一定的关联性,因为类别代表与特征提取器一起进行联合训练。然而,他们的目标是使用类别代表来制定新的损失函数,而我们则使用它们进行困难负类挖掘。最近,已经提出了一些基于生成的方法来训练困难示例生成器,以避免昂贵的挖掘过程[1, 3,39]。对于给定的锚定实例,他们生成一个看起来类似于锚定类别但属于随机选择的负类的虚假示例。尽管他们试图在随机选择的类别中生成困难示例,但如果可以轻松区分所选类别,则其影响可能不显著。03. 提出的方法03.1. 概述0我们的目标是通过深度度量学习获得一个将图像 I映射到向量 x的最优特征提取器。所学函数的期望条件是使相似图像的表示之间的距离较小,同时将不相似的图像分开。两个图像之间的相似性通常由它们的语义信息定义,这通常是根据它们的类别标签是否相同来确定的。具有相同标签的图像对被认为是正样本,而具有不同标签的图像对被称为负样本。给定一个样本三元组 τ = [ x a , x p , x n ] ∈ T,其中包括一个锚点 x a 和一个具有标签 y a 的正样本 x p,以及一个具有标签 y n 的负样本 x n,三元组损失惩罚了锚点到正样本的距离不足够小于距离ω(τ)LT (X) =1|T |ω(τ) =72530形式上给出为负一的负值0ℓ T ( τ ) = max(0 , d ( x a , x p ) − d ( x a , x n ) + m ) ,(1)0L T ( X ) = 1 �0τ ∈T ω ( τ ) ℓ T ( τ ),(2)0其中 d ( x i , x j ) = ∥ x i − x j ∥ 2 , m 是 x a 到 x p 和x n 之间距离差异的边界,ω ( τ ) 表示三元组 τ的重要性。当每个三元组具有相同的权重时,即 w ( τ ) = 1,Eq. ( 2 ) 与传统的三元组损失相同,其表示为0τ ∈T ℓ T ( τ ) ,(3)0根据加权更多的半硬三元组可以提高性能的观察结果[7],我们在所有实验中使用以下二进制权重来表示 Eq.(2) 中的 ω (τ ) :0如果 ℓ T ( τ ) > 0 ,则为 1,否则为 0 。 (4)0在我们的实验中,与基于均匀权重的基准三元组损失相比,Eq. ( 4 )中的加权方案始终提高了准确性。为了便于基于三元组损失进行深度度量学习,每个小批量应包含许多困难的三元组示例,同时通过迭代使示例多样化以避免过拟合。我们的主要思想是学习和使用类别签名向量,以一种判别性的方式表示各个类别,以减少困难三元组搜索的计算开销。直观地说,如果两个类别在嵌入空间中靠得很近,一个类别中的实例很可能是相对于另一个类别的困难负样本。为此,我们首先从锚点类别中搜索最近的邻居类别,这是基于锚点类别中的样本到其他类别的距离。然后,我们在实例级别上只在已确定的最近邻类别的示例中寻找最近邻。我们随机地执行类别级别和实例级别的搜索,以增加小批量中的样本多样性。03.2. 通过类别签名进行邻居类别挖掘0给定一个锚点类别,我们的目标是找到基于它们的签名的最近邻类别,表示为 W = { w 1 , w 2 , ∙ ∙ ∙ w |Y| },这些签名通过使每个类别的签名与其成员的嵌入一致,同时最大化类别签名之间的区分度来进行优化。对于给定的具有标签 y x 的实例 x ,如果 x 的标签是 c,则样本到类别的相似性函数 S ( w c , x )应该很大,否则应该很小。因此,为了找到基于样本到类别相似性的最近邻类别,我们定义了以下损失函数:0图2.MNIST数据集的类别签名和个体实例的2D嵌入示例。圆圈和箭头分别表示实例和类别签名,这些签名由我们的模型给出。类别标签以颜色编码。0x 是 c,否则很小。因此,为了找到基于样本到类别相似性的最近邻类别,我们定义了以下损失函数:0LC(W, X) = -10N0x ∈X log(P(x; W)) (5)0= -10N0x ∈X log � exp(S(wyx, x))0c exp(S(wc))0�0= -10N0x ∈X log � exp(cosθyx) 0c exp(cosθc)0�, (6)0其中θc = ∠(wc,x)。它也可以解释为x相对于类别yx的对数似然。注意,我们使用ℓ2归一化的特征向量x,这是提高准确性的常用技巧。通过约束类别签名具有单位范数,即∥wc∥2 =1,我们可以使用余弦相似度来比较实例和类别签名的表示。理想情况下,如果c = yx,则θc = 0,否则θc =π/2。图2展示了在MNIST数据集上训练的实例和它们的类别签名的分布。给定W,我们可以通过相应的类别之间相似度和类别与样本之间相似度来近似两个样本x和x'之间的相似度,它们分别具有标签y和y',如下所示:0S(x, x') ≈ S(x, wy') ≈ S(wy, wy'), (7)0其中S(∙,∙)是两个向量之间的相似度。图3显示了In-shop检索和SOP数据集中,类别之间的平均样本距离与类别之间距离排名的关系。它说明了期望的样本距离随着类别之间的距离增加而增加。这个结果表明,基于类别之间距离得到的最近类别的质量相当好,并且支持我们用于困难样本挖掘的类别级别近似是有效的。72540图3.在In-shop检索和SOP数据集中,根据类别之间距离的排名,计算类别之间的平均样本距离,平均值是在100个随机锚定类别上计算的。这个结果表明,期望的样本距离与相应的类别之间的距离成正比。0迭代1 20000类别索引类别索引0(a)0(b)0图4.对于给定的锚定类别ca,在In-shop检索数据集中,每个小批量中选择的负类别的多样性如图所示。x轴和y轴分别对应于训练迭代和类别索引。突出显示的单元格表示所选类别。它显示了在随机困难样本挖掘(b)中,小批量中选择的类别在迭代中是多样的,而在算法1(a)中的确定性类别级别挖掘中则大部分固定。03.3. 批次构建0我们现在讨论如何构建小批量并利用识别出的困难样本进行训练。03.3.1 基线协议[38]0我们采用了Zhao等人的方法作为基线批次构建协议。在每次迭代中,它通过首先随机采样K个类别,然后从每个类别中随机采样η个图像来构建一个小批量。0类别,使得小批量大小M =Kη。损失由小批量中的每个可能的三元组组成。这种方法被广泛使用[38, 23,7],因为它简单且性能良好。注意,[23]是一种特殊情况,当K = M/2且η = 2时。03.3.2 通过硬类别挖掘改进基线0与基线协议相比,我们通过将每个小批量组合为从锚定类别和其(K-1)个最近类别中随机采样的实例来增加每个小批量中困难三元组的期望数量。形式上,给定每次迭代的锚定类别ca,其(K-1)个最近类别N由以下优化确定:0argmax N� Y0c ∈ NS(wc, wca) (8)0满足条件ca∈N且|N|=K-1,0其中Y是一组类别标签。一旦选择了最近的类别,就从每个类别中随机采样η个实例,构成一个小批量B。算法1描述了详细的过程。这种方法的一个缺点是,当类别的类内变异性较大时,类内样本之间的样本-样本距离的变异性变大。结果是,由类别签名测量的类别相似性误差过大,无法近似属于这些类别的实例的相似性。更严重的问题是naïve方法中采样的困难负类别的多样性有限。如图4(a)所示,给定一个锚定类别ca,在迭代过程中只有少数困难负类别被重复采样,而大多数困难负类别未被选择。这意味着每个锚定类别的训练只使用了有限数量的负类别。为了缓解这些限制,我们提出了一种随机困难样本挖掘方法。03.3.3 随机困难样本挖掘0我们不仅依靠类别签名来寻找最近邻类别,还使用了锚定类别中一组实例与其他类别的类别签名之间计算的距离。在每次迭代中,我们首先随机选择一个锚定类别和其中的一部分示例;给定一个锚定类别ca,我们构建了一个子集Bca,它是从类别中随机采样的η个示例。然后,我们根据Bca中的锚定实例与类别签名集合W\{ca}之间的实例-类别距离,搜索最近邻类别的池子。最终,通过收集该池子中的采样实例,确定了最近邻样本。使用实例-类别距离可以有效处理具有大类内变异性的类别。Ps =arg maxV′⊂{x|yx=c,c∈Pc}�v∈V′Sg(Bca, v)(11)subject to |V′| = β(K − 1)η,where β(≥ 1) is to increase the number of candidates forthe final selection of examples to be included in a minibatch.In a nutshell, Ps consists of top β(K − 1)η samples fromthe class set Pc, which have largest similarities Sg from theset of sampled anchor instances, Bca. Note that each mini-batch contains Kη instances, which include the elements inAlgorithm 2 Training with stochastic hard example miningParameters K, η1: for t = 1 : T do2:Random sample α(≥ 1)3:Random sample an anchor class ca4:Bca ← Sample η instances from {x|yx = ca}5:B ← Bca6:Get a class pool Pc using Eq. (10).7:Get a instance pool Ps using Pc and Eq. (11).8:Ba ← Random sample (K − 1)η elements from Ps9:B ← B ∪ Ba10:Perform one iteration of training to minimize theloss Eq. (12) using minibatch B11: end forBca and the subsampled instances from the nearest neighborclasses. Algorithm 2 summarizes the overall training pro-cess.Figure 4(b) illustrates the diversity of the selected nega-tive classes over iterations. Compared with Figure 4(a), theproposed stochastic hard example mining strategy allows toidentify more diverse classes over iterations and learns themodel more efficiently.3.3.4Computation efficiencySuppose that there are n samples in each of |Y| classes.The na¨ıve approach to find hard negative examples wouldrequire to scan the whole dataset, which requires |Y|n for-ward passes of the network in total for feature extraction.In contrast, our algorithm reduces the computational costfor feature extraction by first identifying a small set of near-est classes based on the learned class signatures and thensearching for the nearest instances only within the set. Con-sequently, the proposed method extracts features only fromcn samples, where c is a number of the candidate nearestclasses. Note that one needs to repetitively recompute fea-tures during training due to gradual update of embeddingspace. Since the feature extraction dominates the computa-tion time, our approach still has the advantage over the na¨ıveone despite the potentially large value of n.3.4. LossWe jointly train the parameters of feature extractor andthe class signatures W to minimize both triplet loss and theclass signature loss. We hope that joint learning of tripletand classification loss improves the accuracy of both tasksas reported in [6, 40]. The loss function is formally given byL(W, X) = LT (X) + LC(W, X),(12)where LT (·) and LC(·, ·) denote the triplet and the classsignature loss, respectively. Note that the gradient from the72550算法1 改进的基线模型,使用类别级别挖掘0参数 K, η01: for t = 1 : T do 2: 从Y中随机选择锚定类别ca 3: B← 从{x | yx = ca}中随机采样η个实例 4:通过公式(8)得到大小为(K-1)的N 5: for c ∈ N do 6:Bc ← 从{x | yx = c}中随机采样η个实例07: B ← B ∪ Bc 8: end for 9:使用小批量B执行一次迭代训练,以最小化损失函数Eq.(12) 10: end for0并有助于多样化确定的最近邻类别。此外,仅从所选类别中进行的改进的实例级别搜索可以降低计算成本。为了进行正式描述,首先定义了一组向量U和向量v∈V之间的相似性Sg(∙, ∙),其定义如下:0Sg(U, v) ≡ max u ∈ U S(u, v), (9)0其中U和V是向量的集合。我们首先根据锚定类别中的样本与其他类别的类别签名之间的距离,搜索最近邻类别,计算如下:0Pc = arg max V' � W\{wca0v ∈ V' Sg(Bca, v) (10)0满足条件|V'|=α(K-1),0其中 W表示一组类别签名,α(≥1)在每次迭代中随机选择,用于样本多样化。简而言之,Pc包含了从采样的锚定实例集合Bca中具有最大相似度Sg的前α(K-1)个负类别签名。我们使用Pc作为经过改进的搜索的类别候选集,从而减少了候选实例的数量。对于给定的Pc,为了使训练样本多样化,我们从实例池Ps中随机采样(K-1)η个实例。class signature loss is back-propagated all the way down tothe feature extractor.3.5. Feature ExtractorOur baseline feature extractor is almost identical to theoriginal version [6, 14] based on Inception v1 [27] exceptthat it has a batch normalization layer after the last averagepooling layer.Our feature extractor improves the baseline by introduc-ing the second-order pooling [4, 26, 13]. The second orderpooling actually exploits cross-channel correlation, whichturns out to be useful to improve several computer visiontasks including classification [4, 13]. For an input featuremap G ∈ Rw×h×c, the second-order pooling is defined byPooling(G) =1hw�xyvec(gxy ⊗ gxy),(13)where gxy is a feature vector in G at position (x, y), ⊗is the outer-product operator and vec(·) denotes the vec-torization of an input. We adopt a technique called Ten-sor Sketch [16, 4] to reduce the computational overhead re-quired for handling outer-product in Eq. (13). Refer to [16]for the details. We found that simply increasing the imageresolution increases the accuracy by better exploiting thespatial information. To enlarge the resolution of the inputfeature map to the second-order pooling layer, we drop thelayers from Inception v1 5a block. More specifically, weuse the network from the input to the Inception v1 4e block,followed by a 1 × 1 convolution (512-dim) and a batch nor-malization layer to extract the feature map G. Then, thesecond-order pooling is performed over the extracted fea-ture map followed by ℓ2-normalization.x′725603.6. 图像检索0我们基于一对图像表示之间的相似性进行图像检索。我们使用三元组损失来学习表示,其中包括随机硬负样本挖掘以促进训练。一对图像之间的相似性在概念上由以下公式给出:0sim(G, G') = 1/hw0�0g xy,g'x'y' 2,(14)0其中G和G'是两个图像的特征图。注意每个项都是非负的,因此任何具有非零强度的局部描述符gxy都会增加图像的相似性。在我们的实验中,这隐含地使得位于背景区域的局部特征具有较小的ℓ2范数,以避免对抗效应。表1显示,使用交叉通道相关性的模型始终提高了准确性。此外,随着输入分辨率的增加,准确性也增加。0表1.CARS-196和CUB-200-2011数据集中不同特征提取器输入分辨率的R@1(%)0方法 224×224 336×3360CARS-196 Inception v1 83.6 89.70通道相关性 86.9 91.30CUB-200-2011 Inception v1 55.1 60.90通道相关性 58.1 65.20从224×224到336×336。与基线相比,这个改变不增加参数数量,但在FLOPs计算上增加了大约2.25倍的计算量。04. 实验0本节描述了我们的实验设置,并报告了我们的算法与现有方法的性能对比。04.1. 数据集0我们在以下标准基准数据集上测试了提出的方法,所有实验中都没有使用真实边界框注释。0CARS-196 [10]这个数据集包含196个不同类别的16,183个汽车图像。我们使用前98个类别进行训练(8,052个图像),其余类别进行测试(8,131个图像),遵循[25]中的设置。0CUB-200-2011 [29]这个数据集基于200种不同的鸟类图像。我们使用前100个类别进行训练(5,864个图像),另外100个类别进行测试(5,924个图像),遵循之前的工作[25]。0In-shop retrieval [11]这个数据集有11,735个类别的54,642个服装物品图像。我们使用3,997个类别进行训练(25,882个图像),另外3,985个类别进行测试(28,760个图像),这遵循之前的工作[11]。在测试集中,14,218个图像用作查询,其余12,612个图像用作检索数据库。0Stanford在线产品(SOP)[25]这是一个大规模的数据集,包含22,634个类别的120,053个产品图像。训练集由11,318个类别的59,551个图像组成,测试集由11,316个类别的60,499个图像组成。04.2. 实现细节0我们描述了我们的实现细节,包括数据增强,超参数设置和优化方法。0数据增强在训练过程中,我们将输入图像调整为256×256,并进行标准的随机裁剪,将其裁剪为224×224,并进行随机水平翻转以进行数据增强。在测试过程中,我们首先将输入图像调整为256×256,然后将其裁剪为224×224的中心。We compare our method to the state-of-the-art meth-ods in Table.3-6. Since the backbone network architec-ture affects the retrieval accuracy, we show the architec-ture in the parenthesis.When compared to the existinghard sample mining method, SmartMining [6], ours achievehigher accuracy. Note that they provided the result only onsmall datasets. We also report the accuracy of proposedmining method applied to the channel-correlation modelwith higher input image resolution of 336 × 336 (Channel-correlation).In every dataset, our method outperformsthe previous state-of-the-art with comparable compuationalcost.[1] Shuo Chen, Chen Gong, Jian Yang, Xiang Li, Yang Wei, andJun Li. Adversarial metric learning. In IJCAI, 2018. 272570超参数 我们将批量大小设置为60(M =60)。根据批量大小,我们选择η =10用于小型数据集(CARS-196和CUB-200-2011),每个类别有60到80个样本,以及η = 5用于较大的数据集(In-shopretrieval和Stanford OnlineProducts),每个类别只有5到7个示例。在算法2中,α在每次迭代中从{3, 4, 5}中随机选择,对于CARS-196和CUB-200-2011,β =5,对于In-shop retrieval和SOP,α从{15, 20, 25}中选择,β =1。0优化 我们使用Adam[9]进行优化。初始学习率和权重衰减分别设置为1×10-4和5×10-4。学习率在第200到400个epoch之间按指数衰减到1×10-7。04.3. 评估指标0我们采用召回率@ K(R@K)指标进行评估。对于每个样本,从剩余的测试集中检索出K个最近邻。如果检索到的图像中至少包含一个来自相同类别的样本,则认为是正确的。召回率@K指标衡量了整个样本中正确样本的数量。距离度量使用欧氏距离,这在我们的情况下等同于余弦距离,因为特征已经进行了ℓ2归一化。04.4. 随机困难样本挖掘的效果0我们从难度的角度评估了提出的随机困难样本挖掘方法。图5显示了在训练的每个迭代中构建的小批量中具有非零损失的三元组数量。与随机采样[38]和类级别挖掘(算法1)相比,提出的随机困难负样本挖掘策略(算法2)明显更有效地找到具有非零损失的理想三元组。为了评估提出的随机困难类别挖掘的效果,我们将我们的方法(算法2)与基线协议[38]、困难类别挖掘(算法1)和我们的两个变体进行了比较。表2显示了所有比较方法的准确性。已知使用三元组损失的联合损失训练特征提取器可以提高准确性,相对于仅使用三元组损失的基线。为了区分困难样本挖掘和损失添加(公式5)的效果,我们展示了仅具有挖掘的结果(var2)和完整模型的结果。在var2中,类别签名损失不会反向传播到特征提取器。另一个变体(var1)用在ImageNet数据集上预训练的Inceptionv1提取的特征的类别平均值替换了提出的类别签名。表2显示,与所有数据集中的随机采样基线相比,提出的方法始终提高了准确性。我们重新实现了三种现有的挖掘方法[6, 21,30],以与提出的算法进行比较。为了公平比较,我们在算法中使用了相同的设置,除了挖掘策略,其中特征提取器通过三元组损失进行训练,而没有签名损失。如表2所示,提出的方法(var2)在所有比较方法中通常获得最佳准确性。0图5. 训练过程中每个小批量中具有非零损失的三元组数量的比较0我们将提出的方法与最先进的方法进行了比较,结果见表3-6。由于骨干网络架构会影响检索准确性,我们在括号中显示了架构。与现有的困难样本挖掘方法SmartMining[6]相比,我们的方法获得了更高的准确性。请注意,他们只提供了在小数据集上的结果。我们还报告了将提出的挖掘方法应用于通道相关模型,并使用更高的输入图像分辨率336×336(通道相关)的准确性。在每个数据集中,我们的方法在可比较的计算成本下优于先前的最先进方法。04.5. 与现有方法的比较05. 结论0我们提出了一种用于三元组损失的随机困难负样本挖掘方法。与现有的方法不同,我们的方法在训练过程中通过轻微的额外成本跟踪类别之间的邻居关系的变化。基于这些关系,它通过从候选样本池中随机采样困难样本来增加训练中使用的样本的多样性。实验结果表明,我们的方法始终提高了基线的准确性。0致谢这项工作得到了三星研究和韩国科学与信息通信部的视觉图灵测试项目(IITP-2017-0-01780)的部分支持。0参考文献Inception v172580表2. 与基线的召回率@K(%)比较0CARS- 196 CUB- 200 - 2011 在店检索 Stanford在线产品 K 1 2 4 8 1 2 4 8 1 10 20 30 1 10 10 2 10 30SmartMining [ 6 ](重现)72 . 7 82 . 2 88 . 4 92 . 7 50 . 2 62 . 5 73 . 3 82 . 7 − − − − − − − − Doppelganger [ 21 ](重现)80 . 7 87. 7 92 . 5 95 . 2 55 . 0 67 . 0 77 . 3 85 . 8 87 . 7 96 . 9 97 . 9 98 . 3 68 . 3 83 . 8 92 . 5 97 . 5 HowToTrain100k [ 30 ](重现)78 . 9 86 .5 91 . 6 95 . 0 53 . 4 65 . 2 75 . 7 83 . 8 87 . 0 96 . 5 97 . 5 98 . 0 69 . 2 83 . 7 82 . 0 97 . 00基线 [ 38 ] 78 . 2 86 . 0 90 . 9 94 . 2 52 . 4 64 . 4 74 . 9 84 . 2 86 . 4 96 . 5 97 . 9 98 . 4 67 . 8 84 . 0 93 . 2 97 . 90类别挖掘(Alg. 1 )81 . 3 87 . 8 92 . 6 95 . 6 52 . 9 64 . 8 75 . 6 84 . 1 88 . 0 96 . 7 97 . 8 98 . 3 70 . 6 84 . 9 93 . 1 97 . 70随机挖掘(Alg. 2 , var1 )81 . 3 88 . 3 92 . 3 95 . 5 54 . 1 66 . 3 76 . 7 84 . 8 87 . 3 96 . 3 97 . 4 97 . 9 68 . 7 82 . 4 90 . 8 96 . 20随机挖掘(Alg. 2 , var2 )82 . 5 89 . 2 93 .
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功