基于注意力的深度度量学习的集成方法

138 浏览量更新于2023-10-13 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

基于注意力的深度度量学习集成Wonsik Kim，Bhavya Goyal，Kunal Chawla，Jungmin Lee，KeunjooKwon三星电子三星研究院{wonsik16.kim，bhavya.goyal，kunal.chawla，jm411.lee，keunjoo.kwon} @ samsung.com抽象。深度度量学习旨在学习嵌入函数，其被建模为深度神经网络。该嵌入函数通常在学习的嵌入空间中将语义相似的图像靠近，而不相似的图像彼此远离最近，集成已经应用于深度度量学习以产生最先进的结果。作为集成的一个重要方面，学习者的特征嵌入应该是多样化的为此，我们提出了一个基于注意力的集成，它使用多个注意力掩模，使每个学习者可以参加对象的不同部分我们还提出了一个分歧的损失，鼓励学习者之间的多样性将所提出的方法应用于深度度量学习的标准基准测试，实验结果表明，它在图像检索任务上的表现优于最先进的方法。关键词：注意力，集成，深度度量学习1介绍深度度量学习最近一直在积极研究。在深度度量学习中，特征嵌入函数被建模为深度神经网络。该特征嵌入函数将输入图像嵌入到具有特定期望条件的特征嵌入空间中。在这种情况下，相似图像的特征嵌入要求彼此接近，而不相似图像的特征嵌入要求彼此接近。较大图像需要彼此远离。为了满足这个条件，已经提出了许多基于嵌入之间的距离的损失函数[3，4，6，14，25，27-29，33，37]。深度度量学习已经成功地完全应用于流行基准（如CARS）的图像检索任务中，196 [13]、CUB-200-2011 [35]、斯坦福在线产品[29]和店内服装[18]数据集检索。集成是一种广泛使用的训练多个学习器以获得组合模型的技术，其性能优于单个模型。对于深度度量学习，集成连接由多个学习器学习的特征嵌入，这通常在给定的图像对之间的距离约束下导致更好的嵌入空间集成成功的关键是个体学习者的高性能以及学习者之间的多样性。为了实现这一目标，已经提出了不同的方法[22，39]。然而，对于在深度度量学习中产生特征嵌入多样性的最佳架构，还没有太多的研究。2W. 金湾，澳-地Goyal，K.Chawla，J.李，K.Kwon一1一2一3output1输出3output2G G G共享参数S输入输入(a) （b）基于注意力的集成（ABE-3）Fig. 1. M-heads集成和基于注意力的集成之间的差异。两者都假定底层（S）的共享参数。(a)在M-头合奏，不同-针对不同的学习器（G1，G2，G3）训练了特征嵌入函数。(b)在基于注意力的集成中，单个特征嵌入函数（G）被训练，而每个学习器学习不同的注意力模块（A1，A2，A3）我们的贡献是提出了一个新的框架，以鼓励多样性的功能嵌入。为此，我们设计了一个架构，它有多个注意力模块多个学习者。通过针对不同的学习者关注不同的位置，训练不同的特征嵌入函数它们被正则化为散度损失，其目的是区分来自不同学习者的特征配备它，我们提出了M路基于注意力的集成（ABE-M），学习特征嵌入M个不同的注意力面具。所提出的架构表示在图中。第1段（b）分段。我们将我们的模型与我们的M-头集成基线[16]进行比较，其中为不同的学习者训练不同的特征嵌入函数（图1）。1（a）），并且实验证明所提出的ABE-M在较少数量的参数的情况下显示出显著更好的结果。2相关作品深度度量学习和集成深度度量学习的目的找到一个嵌入函数f：X→ Y，它将样本x从数据空间X映射到特征嵌入空间Y，使得当xi和xj语义相似时，f（xi）和f（xj）在某种度量上更接近。为了实现这一目标，在深度度量学习中，提出了对比[4，6]和三重[25，37]损失。最近，引入了更高级的损失，例如提升结构化损失[29]，直方图损失[33]，N对损失[27]和聚类损失[14，28]。最近，已经有研究在网络集成技术，报告更好的性能比那些单一的网络。早期的深度学习方法基于具有不同初始化的相同网络的直接平均[15，24]或使用训练样本的不同子集进行训练[31，32]。在这些以前的作品，参数共享是由Bachman等人介绍。[2]这就是所谓的伪集合。Lee等人提出了另一种参数共享集成方法。[16]第10段。Dropout[30]可以被解释为一种集成方法，它采用指数数量的具有高相关性的网络。除了dropout之外，Veitet al.[34]声明S3G2G1G输出3output2output1基于注意力的深度度量学习集成3剩余网络表现得像相对浅的网络的集合最近，集成技术也被应用于深度度量学习。Yuan等[39]建议以级联方式集成一组具有不同复杂度的模型。他们通过网络的早期层使用更容易的例子来训练深度监督级联网络，而更难的例子在后面的层中被进一步利用。Opitz等人[22]使用在线梯度提升来训练集合中的每个学习器。他们试图通过重新加权训练样本来减少学习者之间的相关性。Opitz等人[21]提出了一种有效的平均策略，其中具有新颖的DivLoss，其鼓励个体学习者的多样性注意机制已被应用于各种计算机视觉问题中。早期的研究利用RNN架构进行注意力建模[1，19，26]。这些基于RNN的注意力模型通过从图像中顺序地选择注意力区域，然后学习每个部分的特征表示，使用对象部分检测来解决分类除了RNN方法，Liuet al.[17]提出了完全卷积注意力网络，它采用了来自区域生成器的硬注意力。和Zhaoet al. [40]提出了多样化的视觉注意力网络，其针对不同的注意力掩模使用输入图像的不同缩放或然而，我们的ABE-M能够在不依赖于区域生成器的情况下学习不同的注意力掩模此外，ABE-M使用软注意力，因此，参数更新通过完全基于梯度的方式的反向传播是直接的，而[1，17，19，26，40]中的先前方法使用需要策略梯度估计的硬注意力Jaderberg等人[11]提出了空间Transformer网络，其使用参数化图像变换对注意机制进行建模。与前面提到的方法不同，他们的模型是可微的，因此可以训练in a fully充分gradient梯度based基础way.然而，他们的注意力仅限于一组预定义的和参数化的转换，这些转换不能产生任意的注意面具3基于注意力的集成3.1深度度量学习设f：X → Y是度量空间X和Y之间的等距嵌入函数，其中X是具有未知度量函数dX的N-X维度量空间，Y是具有已知度量函数dY的N-Y维度量空间.例如，Y可以是具有欧几里德距离的欧几里德空间或具有角距离的欧几里德空间中的单位球面。我们的目标是用深度神经网络从数据集D={（x（1），x（2），dX（x（1），x（2）近似f|x（1），x（2）∈X}，其中x是X的一个零。在我们不能得到度量dX的样本的情况下，我们考虑来自具有标签的数据集的标签信息作为度量dX的相对约束。对于e_x_a_e，从a_|x∈X，c∈C}，其中C是l个b的集合，对于（xi，ci），（xj，cj）∈ DC，对比度量约束可以定义如下：dX（xi，xj）= 0，如果ci=cj;dX（xi，xi）> mc，如果cii=cj，（一）4W. 金湾，澳-地Goyal，K.Chawla，J.李，K.Kwon其中m，c是任意裕度。针对（xi，ci）的三元组度量约束，（xj，cj），（xk，ck）∈DC可以定义如下：dX （ xi ， xi ） +mtdX （ xi ， xk ）， ci=cj 且 ci/=ck ，（2）其中mtd X（xi，xk）是余量。<注意，这些度量约束是如何对dX建模的一些选择，而不是如何对f建模的那些选择。一个嵌入函数f是等距或保距嵌入，如果对任意xi，xj∈X，有dx（xi，xj）=dY（f（xi），f（xj））.为了有一个等距嵌入函数f，我们优化f，使得嵌入到Y中的点产生完全相同的度量或服从dX的相同度量约束。3.2用于深度度量学习的深度度量学习的经典集成可以是对多个嵌入函数的度量进行平均的方法我们将用于Dee_p_r_i_e的集合度量函数定义为如下：d（x，x）=1集合，（f 1，...，fM） ijMΣMm=1dY（fm（xi），fm（xj）），（3）其中fm是独立训练的嵌入函数，我们称之为学习器。除了经典的系综，我们可以考虑两步嵌入函数的系综考虑函数s：X → Z，它是度量空间X和Z之间的等距嵌入函数，其中X是具有未知度量函数dX的N-X维度量空间，Z是具有未知度量函数dZ的N-Z维度量空间.我们考虑等距嵌入g：Z → Y，其中Y是一个具有已知度量函数dY的N-Y维度量空间。如果将它们组合成一个函数b（x）=g（s（x）），x∈X，则组合函数也是度量之间的等距嵌入b：X → Y空间X和Y。与参数共享集成[16]一样，使用独立训练的多个g m和单个s，我们可以得到多个嵌入函数b m：X → Y如下：bm（x）= g m（s（x））。（4）我们对另一种情况感兴趣，其中存在多个嵌入函数。具有多个s_m和单个g的情况b_m：X-Y如下：b m（x）= g（s m（x））。（五）注意，X中的一个点可以被多个学习者嵌入到Y中的多个点中。由方程式(5)，sm不必保留标签信息，而它只需要保持度量。换句话说，带有标签的点可以通过多个sm映射到Z中的多个位置，最后映射到Y中的多个位置。如果这是分类模型的集合，其中g近似于标签的分布，则所有s_m都应该是标签保留函数，因为s_m的输出变成一个分类模型g的输入。对于Eq. (5)，我们想要使sm关注X中的数据X的不同方面，同时保持单个嵌入函数g，其将复流形Z解开到欧几里得空间中。通过利用基于注意力的深度度量学习集成5iPRWViOCIGUQWVRWVGODGFFiPIU/HDUQHU 1/HDUQHU 2/HDUQHU 3图二、特征嵌入空间和发散损失的图示不同的汽车品牌代表不同的颜色：红色绿色和蓝色每个学习者的特征嵌入被描述为具有不同掩模模式的正方形。发散损失将使用相同输入的X中的点x可以映射到Y中的多个位置，我们可以鼓励每个sm将x映射到Z中的不同点zm。给定等距嵌入g：Z → Y，如果我们强制从x映射的Y中的ym彼此远离，则从x映射的Z中的zm也将彼此远离。注意，我们不能将该散度约束应用于zm，因为Z中的度量dz是未知的。我们将每个bm训练成X和Y之间的等距函数，同时应用Y中的ym之间的散度约束。如果我们将发散约束应用于经典系综模型或多头系综模型，它们不一定会引起多样性，因为每个fm或gm可以任意组成Y中的不同度量空间（参见第2节中的实验结果）6.2）。利用基于注意力的集成，由多个sm的度量空间的并集由单个嵌入函数g映射。3.3基于注意力的集成模型作为Eq. (5)，我们提出了基于注意力的集成模型，该模型主要由两部分组成：特征提取模块F（x）和注意力模块A（x）。对于特征提取，我们假设一般的多层感知器模型如下：F（x）=hl（hl−1（···（h2（hl（x）（6）Weeeekittototswitabranchingpotati，S（·）inclehl，hl−1，. . . ，hi+1，并且G（·）in cl ud eshi，hi−1，. . . ，h1。我们把S（·）看作是一个特殊的函数，ExtractorandG（·）是一个基于函数的全局函数，其中每个函数的输出都有相应的期望。对于注意模块，我们还假设一个通用的多层感知器模型，该模型输出一个具有通道、宽度和高度的三维斑点作为注意掩码。注意掩码中的每个元素都假定具有从0到1的值。给定上述两个模块，学习器m的组合嵌入函数Bm（x）定义如下：Bm（x）=G（S（x）◦Am（S（x），（7）其中，f表示逐元素乘积（图1）。（b）款。注意，相同的特征提取模块在不同的学习器之间共享，其中每个学习器都具有在Am（·）的时间段内的特征提取模块。注意力函数Am（S（x））输出具有与S（x）的输出相同大小的注意力掩码HGCVWTGGODGFFiPIURCEG我的天，我的天我的天，我的天我的天，我的天6W. 金湾，澳-地Goyal，K.Chawla，J.李，K.KwonMM该注意力掩码被应用于具有逐元素乘积的S（x S（X）〇Am（S（X））的被关注特征输出然后被馈送到G（·）上的全局特征中，以将全局特征馈送到一个向量。如果注意力掩模中的所有元素都是1，则模型Bm（x）被简化为传统的多层感知器模型。3.4损失上述注意力模型的训练损失定义为：ΣL（{（xi，ci）}）=Lmetric，（m）（{（xi，ci）}）+λdivLdiv（{xi}），（8）M当{（xi，ci）}是所有学习者样本和正则化子的集合时，Lmi（m）（·）是用于为学习者定义正则化子的集合，Ldiv（·）是用于使每个学习者Bm（x）的特征嵌入多样化的规则，并且λdiv是用于控制正则化子的强度的加权参数。更具体地，发散损失Ldiv定义如下：Σ ΣLdiv（{xi}）=max（0，mdiv−dY（Bp（xi），Bq（xi））2），（9）我p，q其中{xi}是所有训练样本的集合，dY是Y中的度量，并且mdiv是裕度。一对（B p（x i），B q（x i））表示由两个不同学习器嵌入的单个图像的特征嵌入。从现在开始，我们称之为自对，而正对和负对分别指具有相同标签和不同标签的特征嵌入对。发散损失鼓励每个学习者通过增加输入图像嵌入的点之间的距离来关注输入图像的不同部分（图11）。2）的情况。由于学习者共享相同的功能模块来提取特征，因此唯一不同的部分是注意模块。请注意，我们提出的损失并不直接应用于注意力掩码。换句话说，学习者之间的注意力掩模可能重叠。并且还可以使注意力掩模中的一些聚焦于小区域，而其他聚焦于包括小区域的较大区域。4执行我们使用GoogLeNet [32]作为基础架构执行所有实验。如图在图3中，我们使用在初始（3b）块之后的最大池化层的输出作为我们在一个特定函数S（·）处的目标，并且使用最大池化层的输出作为我们在一个特定函数G（·）处的目标。Inourimplementa-tion，我们将tionm（·）的模化为A′（C（·）），其中C（·）的值为从GoogLeNet的inception（4a）到inception（4e），这是所有人共享的。M学习者和A'（·）大小为1×1的480k并行计算存储器的计算为电子邮件预存处理S（·）的输出。这是为了效率在内存和计算机中。由于C（·）是共享学习器，因此前向和后向传播时间、存储器使用以及共享学习器的数目被定义为具有用于共享学习器（没有任何共享部分）的共享学习器A（·）。我们的初步实验表明，这种选择的实现没有基于注意力的深度度量学习集成714x14x48014x14x480...图3.第三章。基于注意力的集成（ABE-M）的GoogLeNet实现我们研究了不同的分支点和注意深度模块的影响。6.3.我们使用对比损失[3，4，6]作为我们的距离度量损失函数，其定义如下：1ΣL（{（x，c）}）=（1-y）[m-D2] +yD2，公制，（m） i我Ni、ji、j、cm，i，j+i、jm，i，j（十）Dm，i，j=dY（Bm（xi），Bm（xj）），其中{（xi，ci）}是所有训练样本和对应标签的集合，N是训练集合的数量，yi ，j是标签是否等于cj的二进制指示符，dY是有效的和有效的，[·]+dN不是有效的函数max（0， ·），并且dM是有效的函数的大小。margin_s_c和m_d_d_v的B ot h（在Eq. 8)设置为1。我们使用caffe [12]框架实现了所提出的ABE-M方法在训练期间，网络从ImageNet ILSVRC数据集上的预训练网络初始化[24]。网络的最后一层和注意力模块的卷积层被随机初始化，如Glorot等人所提出的。[5]的文件。对于优化器，我们使用随机梯度下降和动量优化器，动量为0.9，我们通过调整数据集的验证集来选择基本学习率。我们遵循早期的作品[29，38]进行预处理，除非另有说明，否则我们使用224×224的输入图像大小。所有训练和测试图像都被缩放，使得它们的长边为256，保持纵横比固定，并填充短边以获得256×256的图像。在训练过程中，我们将图像随机裁剪为224×224，然后随机水平翻转。在测试过程中，我们使用中心裁剪。我们从图像中减去ImageNet数据集的通道平均值。为了训练和测试裁剪数据集的图像，我们遵循[38]中对于CARS-196 [13]裁剪数据集，使用256×256缩放裁剪图像;而对于CUB-200-2011 [35]裁剪数据集，使用256×256缩放裁剪图像，具有固定的纵横比和较短的边填充。我们在nVidia Tesla M40 GPU（24 GBGPU内存）上运行我们的实验，这将ABE-8模型的批处理大小限制为64除非另有说明关注模块Am（·）......M注意面具14x14x480输入图像224x224x3特征提取模块全局特征包埋损失功能G（·）特征映射M特征映射M特征嵌入掩蔽前1x 1x（512/M）空间特征提取器S（·）FRQY1-SRRO1FRQY2-SRRO2iQFHSWiRQ（3D-3E）SRRO3（4天-4小时）（5个D-5个E）SRRO5OiQHDUiQFHSWiRQ（4D-4H）FRQY............8W. 金湾，澳-地Goyal，K.Chawla，J.李，K.Kwon我们使用64的批量进行实验。我们通过首先随机采样32个图像，然后对前16个图像进行正对，对下16个图像进行负对来对我们的小批量进行采样，从而使小批量的大小为64。除非另有说明，否则我们使用嵌入大小为512的方法报告结果。这使得单个学习器的嵌入大小为512/M。5评价我们使用所有常用的图像检索任务数据集进行实验，并使用Recall@K度量进行评估。在测试过程中，我们计算网络中所有测试图像的特征嵌入。对于每一个测试图像，我们然后检索前K个类似的图像从测试集不包括测试图像本身。如果K个检索图像中的至少一个图像具有与测试图像相同的标签，则该测试图像的召回分数为1我们计算整个测试集的平均值以获得Recall@K。我们在每1000次迭代后评估模型，并报告具有最高Recall@1的迭代的结果。我们表明，建议的ABE-M方法的有效性，在图像检索任务中常用的所有我们遵循与[29]相同的列车测试分割，以便与其他作品进行公平比较。– CARS-196 [13]数据集包含196种不同类别汽车的图像，主要用于我们的实验。该数据集分为8，144张训练图像和8，041张测试图像（两者均为98类）。– CUB-200-2011 [35]数据集由200种不同鸟类的11，788张图像组成。我们使用前100个类进行训练（5，864张图像），其余100个类用于测试（5，924张图像）。– 斯坦福在线产品（SOP）[29]数据集有22，634个类，120，053个产品图像。 11，318个类用于训练（59，551张图像），而其他11，316个类用于测试（60，502张图像）。– 店内服装检索[18]数据集包含11，735类服装，54，642张图像。遵循与[29]类似的协议，我们使用3，997个类进行训练（25，882张图像），并使用其他3，985个类进行测试（28，760张图像）。测试集被划分为3，985类（14，218幅图像）的查询集和3，985类（12，612幅图像）的检索数据库集由于CARS-196和CUB-200-2011数据集也由边界框组成，为了公平比较，我们使用原始图像和裁剪图像来报告结果。6实验6.1ABE-M与M型股骨头的比较为了显示我们的ABE-M方法的有效性，我们首先比较了ABE-M和M-头集成的性能（图1）。图1（a）），其中在CARS-196数据集上具有变化的如表1和图2所示。4，我们的方法明显优于M-头集成ABE-M的模型参数的数量比ABE-M少得多。基于注意力的深度度量学习集成9百分之九十百分之八十五百分之八十百分之七十五百分之七十百分之六十五百分之六十ABEM512M头5120 2 46参数数量（✓107）（一）百分之九十百分之八十五百分之八十百分之七十五百分之七十百分之六十五百分之六十ABEM512M头5120 2 4 6 8触发器（✓109）（b）第（1）款见图4。CARS-196上与基线的1次召回比较，作为（a）参数数量和（b）触发次数的函数。ABE-M和M-头的嵌入大小均为512M-其被认为是简单的，因为最简单的xtractorG（·）是一个抽象的概念。但是，ABE-M算法需要更多的注意力模块，需要更高的触发次数.随着M值的增加，这种差异变得越来越不显著。ABE-1仅包含一个注意力模块，因此不是集合，并且不使用发散损失。ABE-1的性能与1头相似我们还报告了合奏的个人学习者的表现从表1中可以看出，ABE-M512系综的性能随着M的增加而提高.个体学习器的性能也随着M的增加而增加，尽管个体学习器的嵌入大小减小（512/M）。对于M-头的情况没有看到相同的增加。此外，我们可以参考ABE-164、ABE-2128、ABE-4256和ABE-8512，其中所有个体学习器具有嵌入大小64。我们可以看到，随着M值的增加，个体学习者的回忆率明显增加。表1.CARS-196上与基线的K（%）召回率比较上标表示集成嵌入大小L6.2发散损失为了分析ABE-M中发散损失的有效性，我们在CARS-196上进行了没有发散损失的实验召回@1召回@1Ense姆布莱个体学习者paramsflopsK12481248（×107）（×109）1-头51267.277.485.390.7---–0.651.582-头51273.382.588.693.070.2±.0379.8±.5286.7±.0191.9±.371.182.254-头51276.684.289.393.270.4±.8079.9±.3886.5±.4391.4±.422.243.608-头51276.184.390.393.968.3±.3978.5±.3986.0±.3791.3±.314.366.28ABE-151267.377.385.390.9----0.972.21ABE-251276.884.990.294.070.9±.5880.3±.0487.1±.0792.2±.200.982.96ABE-451282.589.193.095.574.4±.5183.1±.4789.1±.3493.2±.361.054.46ABE-851285.290.593.996.175.0±.3983.4±.2489.2±.3193.2±.241.207.46ABE-16465.976.583.789.3----0.922.21ABE-212875.584.089.493.668.6±.3878.8±.3885.7±.4391.3±.160.962.9610W. 金湾，澳-地Goyal，K.Chawla，J.李，K.Kwon0.20.20.20.20.0Ͳ1相似性（一）0.01Ͳ1相似性（b）第（1）款0.01Ͳ1相似性（c）第（1）款0.01Ͳ1相似度1（d）其他事项图五.用不同方法训练的正（蓝色）、负（红色）、自身（绿色）对的余弦相似度直方图。自对是指不同学习者使用同一图像的特征嵌入对。(a)基于注意力的集合（ABE-8）使用建议的损失，（b）基于注意力的集合（ABE-8）没有发散损失，（c）8头集合，（d）8头集合具有发散损失。在基于注意的集成的情况下，发散损失对于每个学习者被训练以通过关注不同的位置来产生不同的特征是必要的。在没有发散损失的情况下，可以看到所有学习器学习非常相似的嵌入。同时，在M-头系综的情况下，没有施加发散损失的影响.表2.无发散损失Ldiv的ABE-M系综中K（%）回忆比较在CARS-196Ense姆布莱个体l学习者K12481248ABE-851285.290.593.996.175.0±0.3983.4±0.2489.2±0.3193.2±0.24ABE-8512非Ldiv69.778.8 86.2 91.569.5±0.1178.8±0.1486.1±0.15 91.5±0.09并将结果示于表2中。如我们所看到的，没有发散损失的ABE-M与其个体学习器的性能相似，而ABE-M的集成性能与其个体学习器相比我们还计算了正、负和自我对之间的余弦相似度，并在图中绘制。5.有发散损失（图5（a）），所有学习者学习不同的嵌入函数，这导致自我对的余弦相似性下降。无发散损失（图5（b）），所有学习器收敛到非常相似的嵌入函数，使得自对的余弦相似性接近1。这可能是因为所有学习者最终都学习了类似的注意力掩码，这导致了所有学习者都有类似的嵌入。我们将ABE-8在CARS-196上的学习注意力掩模可视化在图1中。六、由于空间的限制，只有三个学习者的八个和三个通道的480的结果该图显示了不同的学习者正在关注同一频道的不同部分。定性，我们提出的损失成功地多样化的注意力面具由不同的学习者。他们正在参加汽车的不同部分，如上部，底部，车顶，轮胎，灯等。例如，在第350通道中，学习者1关注汽车的底部，学习者2关注车顶，学习者3关注包括车顶的上部。在图的底部图6中，所有通道上的注意力掩模的平均值示出了学习的嵌入函数比背景更关注对象区域。频率频率频率频率基于注意力的深度度量学习集成11输入图像具有第27通道的注意掩码的具有第118通道的注意掩码的具有第350个注意力遮罩跨注意力面具学习器1学习者2学习者3学习器1学习者2学习者3学习器1学习者2学习者3学习器1学习者2学习者3见图6。每个ABE-8学习者在CARS-196上学习的注意力面具。由于空间的限制，只有三个学习者的八个和三个通道的480的结果进行了说明。每列显示不同输入图像的结果。不同的学习者注意到汽车的不同部分，如上部，底部，车顶，轮胎，灯等我们在表3中示出了具有发散损失的8头系综的实验结果。我们可以看到，发散损失并没有改善8头的性能。从图5（c）中，我们可以注意到，对于M-头，自对的余弦相似性接近于零。图5（d）示出了发散损失不显著影响自对的余弦相似性。正如我在SEC上所写的那样。3.2，我们假设Gm（·）的一个空间可以任意构成Y中不同的度量空间.表3.在CARS-196上具有发散损失Ldiv的M头集合中的召回@K（%）比较K1 2 4 88-头76.1 84.390.3 93.98头，带L刻度76.0 84.6 89.7 93.56.3消融研究为了分析模型各个方面的重要性，我们在ABE-8模型的CARS-196数据集上进行了实验，改变了一些超参数12W. 金湾，澳-地Goyal，K.Chawla，J.李，K.Kwon85.4%85.2%百分之八十五百分之八十四点八84.6%百分之八十四点四百分之八十四点二84.0%1234567起始块数（一）百分之八十六百分之八十四百分之八十二百分之八十百分之七十八百分之七十六百分之七十四池2在（3a）中，游泳池3在（4a）中在（4b）中分支点（b）第（1）款85.4%85.2%百分之八十五百分之八十四点八84.6%百分之八十四点四百分之八十四点二84.0%0.1 1 10100权重div（c）第（1）款图7.第一次会议。在改变超参数和架构时的Recall@1：（a）用于注意力模块Ak（·）的接收块的数量，（b）注意力模块的分支点，以及（c）权重λdiv。这里，inception（3a）被缩写为in（3a）一次固定一次，另一次固定一次。(More消融研究可参见补充材料。）注意深度模块的敏感性我们通过改变其中的起始块的数量来展示注意深度模块为了确保我们可以取注意掩码与注意模块的输入的元素乘积，注意掩码的维度应该匹配注意模块的输入维度。正因为如此，我们删除了注意力模块中的所有池层图图7（a）示出了在GoogLeNet中的注意力模块中具有从1（inception（4a））到7（ inception （ 4a ）到 inception （ 5b ））的不同数量的开始块的Recall@1我们可以看到，具有5个起始块（起始（4a）到起始（4e））的注意力模块表现最好。注意力模块的分支点是我们在空间特征向量S（·）和在G（·）上的向量之间分割网络的地方。为了分析注意力模块分支点的选择，我们保持注意力模块中的起始块的数目相同（即5），并将分支点从池2改变到起始（4b）。从图7（b）中，我们可以看到池3在我们的架构中表现最好。我们对所有分支点进行批量大小为40的实验对于ABE-M模型，用于G（·）的更多等式是对于所述独立向量的最小值。由于G（·）的顶点是一个抽象的概念，而S（·）的顶点是一个抽象的概念，因此它将满足整个网络的存储由于GPU的内存限制，我们从分支点pool2开始实验，并调整批量大小。对λdiv的灵敏度Fig. 图7（c）示出了λdiv对ABE-M模型的Recall@ K的影响。我们可以看到，λdiv= 1的性能最好，较低的值会迅速降低性能。召回@1召回@1召回@1基于注意力的深度度量学习集成136.4与最新技术我们比较我们的方法与当前国家的最先进的技术的结果我们的模型在图像检索的所有主要基准上表现最好。表4、表6和表7将结果与先前的方法进行比较，例如 CARS 上的 Lifted-Struct[29] 、 HDC [39] 、Margin[38]、BIER [22]和A-BIER [22]196 [13]，CUB-200-2011 [35]，SOP [29]和店内服装检索[18]数据集。裁剪数据集的结果列于表5中。表4.CUB-200-2011和CARS-196的K（%）回忆评分CUB-200-2011车 S-196K12481248[29]第二十九话26.437.749.862.321.732.346.158.9[29]第29话47.258.970.280.249.060.372.181.5N-Pairs64 [27]51.063.374.383.271.179.786.591.6[28]第二十四48.261.471.881.958.170.680.387.8[20]第二十话49.261.967.972.473.282.486.487.8智能采矿64[7]49.862.374.183.364.776.284.290.2[38]第38话63.674.483.190.079.686.591.995.1HDC384[39]53.665.777.085.673.783.289.593.8[36]第三十六话54.766.376.083.971.481.487.592.1[23]第二十三话57.568.778.386.282.089.093.296.1ABE-238455.968.177.485.777.285.190.594.2ABE-438457.869.078.886.582.288.692.695.6ABE-838460.271.480.587.783.889.793.295.5ABE-251255.767.978.385.576.884.990.294.0ABE-451257.969.379.586.982.589.193.095.5ABE-851260.671.579.887.485.290.594.096.1表5.CUB-200-2011（裁剪）和CARS-196（裁剪）的回忆@K（%）评分CUB-200-2011车S-196K12481248PDDM+三联体128[9]50.962.173.282.546.458.270.380.1PDDM +四联体128[9]58.369.279.088.457.468.680.189.4HDC384[39]60.772.481.989.283.889.893.696.2[38]第38话63.975.384.490.686.992.795.697.6A-BIER512[23]65.575.883.990.290.394.196.897.9ABE-251264.976.284.290.088.292.895.697.3ABE-451268.077.886.392.191.695.196.897.8ABE-851270.679.886.992.293.095.997.598.5†所有比较的方法都使用GoogLeNet架构，除了Margin使用ResNet-50 [8]和Proxy-NCA使用IncpeptionBN [10]14W. 金湾，澳-地Goyal，K.Chawla，J.李，K.Kwon表6. Stanford在线产品数据集（SOP）的召回@KK1101001000[29]第二十九话42.058.273.889.1[29]第二十九话62.179.891.397.4N-Pairs512 [27]67.783.893.097.8[28]第二十四67.083.793.2-[20]第二十话73.7---[38]第38话72.786.293.898.0HDC384[39]69.584.492.897.7[23]第二十三话74.286.994.097.8ABE-251275.488.094.798.2ABE-451275.988.394.898.2ABE-851276.388.494.898.2表7.店内服装检索数据集的召回@KK11020304050FasionNet+关节4096[18]41.064.068.071.073.073.5[18]第十八话42.065.070.072.072.075.0[18]第十八话53.073.076.077.079.080.0HDC384[39]62.184.989.091.292.393.1A-BIER512[23]83.195.196.997.597.898.0ABE-251285.296.097.297.898.298.4ABE-451286.796.497.698.098.498.6ABE-851287.396.797.998.298.598.77结论在这项工作中，我们提出了一个新的框架集成在深度度量学习领域。它使用基于注意力的架构，关注图像的部分。我们使用多个这样的注意力为基础的学习器为我们的合奏。由于集成受益于不同的学习者，我们进一步引入了发散损失，使每个学习者学习的特征嵌入发散损失鼓励每个学习者的图像的关注部分是不同的。实验结果表明，发散损失不仅增加了电子束的性能，而且与基线相比还降低了所有电子束的性能我们证明，我们的方法在几个图像检索基准上的表现优于当前最先进的技术，包括CARS-196 [13]，CUB-200-2011 [35]，SOP [29]和店内服装检索[18]数据集。引用1. Ba，J.，Mnih，V.，Kavukcuoglu，K.：多目标识别与视觉注意。2015年国际学习表征会议（International Conference on Learning2. Bachman，P.，Alsharif，O.预处理，D.：学习伪合奏。In：Advances inNeural Information Processing Systems（2014）基于注意力的深度度量学习集成153. Bell，S.，Bala，K.：用卷积神经网络学习产品设计的视觉相似性。Graphics 34（4），98（2015）4. Chopra，S.，哈德塞尔河LeCun，Y.：学习相似性度量有区别地，与应用到人脸验证。计算机视觉与模式识别（2005）5. Glorot，X.，Bengio，Y.：了解训练深度前馈神经网络的困难在：人工智能和统计学国际会议（2010年）6. 哈德塞尔河Chopra，S.，LeCun，Y.：通过学习不变映射来降低抽象性.计算机视觉与模式识别（2006）7. Harwood，B.VijayKumarB.，G.，Carneiro，G.里德身份证德拉蒙德，T.：深度度量学习的智能挖掘。在：计算机视觉国际会议（2017）8. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。计算机视觉与模式识别（2016）9. 黄，C.，Loy，C.C.，唐X：局部相似性感知深度特征嵌

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于注意力的深度度量学习的集成方法

深度学习的方法

深度度量学习详细介绍

软件度量，基于代码行的度量方法，基于功能点度量方法

基于深度学习的表情识别方式的国内外研究现状与发展动态

基于度量学习的ReID方法可以简要介绍一下吗？

基于度量的元学习范式

描述小样本学习、基于度量小样本学习、元学习三者之间的关系

基于度量的小样本学习发展情况

深度学习距离度量和评估指标

深度学习在曲线相似度度量中的应用

基于度量学习的行人重识别算法设计

1000字：基于相似性度量方法的交通流相似性分析的研究现状

基于相似系数的相似性度量方法

基于深度迁移学习通用盲去噪方法的python仿真

请详细描述基于深度学习的特征提取方法如何实现

基于相似系数的相似性度量方法简述

基于相似度的注意力机制的优缺点是什么

基于transformer的深度补全

最新资源