没有合适的资源?快使用搜索试试~ 我知道了~
1使用梯度注意力新加坡南洋理工大学lhuang018@e.ntu.edu.sgjianda001@e.ntu.edu.sgsinnopan@ntu.edu.sg摘要近年来,学习哈希在快速大规模图像检索中取得了成功。随着深度学习在许多计算机视觉应用中显示出其优越的性能,最近基于学习的哈希模型的设计已经从浅层哈希模型转向深层哈希模型。然而,基于我们的分析,我们发现深度哈希模型中使用的基于梯度下降的算法可能会导致一对训练实例的哈希码在优化期间同时朝着彼此的方向更新。在最坏的情况下,成对的哈希码在更新后切换它们的方向,因此,它们在汉明空间中的对应距离这使得整个学习过程非常低效。为了解决这个问题,我们提出了一个新的深度哈希模型,集成了一个新的梯度注意力机制。在三个基准数据集上的大量实验结果表明,与现有的深度哈希模型相比,该1. 介绍随着近年来互联网上视觉内容的爆炸式增长,学习哈希技术在大规模图像检索中越来越受到重视。通过将原始数据映射到二进制代码,同时保留汉明空间中的数据相似性信息,散列技术便于大规模图像数据的存储,并实现高效的近似最近邻搜索。在各种散列技术[29,28]中,监督散列已被证明可以有效地生成域相关和紧凑的代码,并实现令人满意的性能。随着深度学习的发展,最近开发的监督哈希模型建立在深度神经网络之上,为图像检索提供端到端解决方案[14,35,3,5,2,24]。在本文中,我们专注于基于深度学习的监督哈希模型。哈希的总体目标是学习相似性-保存二进制代码来表示图像。在大多数监督散列方法中,监督以成对相似性的形式提供,即,每个训练“示例”是具有标记的一对实例的形式,以表示成对的实例是相似还是不相似。请注意,虽然在一些散列方法[14,34]中,监督以三元组排名或列表排名的形式提供,但排名信息仍然取决于成对的相似性。因此,在大多数深度哈希模型中,损失函数或目标函数是基于对成对相似性的预测来设计的。在深度哈希模型中,与其他深度学习模型类似,常用的优化算法是梯度下降。基本上,给定标记的实例对,基于它们的相似性的预测误差,首先基于梯度下降来更新实例对的散列码,然后将分解的误差反向传播以经由梯度下降来更新其他模型参数。然而,基于我们在第3节中的分析,我们发现通过梯度下降来优化深度哈希模型可能会导致优化中的“困境”,其中实例对的哈希码可能总是在优化期间同时向彼此的方向更新。在最坏的情况下,成对的散列码可以在更新之后切换它们的方向,并且它们的内积或汉明距离保持相同。当一些训练对的更新陷入这种困境时,它们相应的损失不会减少,这就减慢了学习过程。由于上述困境是由反向传递一对训练实例的两个散列码的梯度引起的,克服该困境的解决方案是在反向传播期间选择性地忽略或降级该对中的一个散列码的梯度以这种方式,优化集中于仅优化每对中的一个实例的期望代码。因此,成对实例的散列码不会同时朝向彼此的方向移动。现在,剩下的问题是应该选择一对哈希码中的哪一个当考虑到小批量中的所有训练对时,这个问题变得更加复杂。52715272我∂θ我我i=1伊2受学习学习思想的启发[1,9],本文将哈希码更新选择准则的设计作为一个学习问题。具体来说,我们提出了一种梯度注意机制,通过神经网络对每对训练实例的哈希码利用梯度注意机制,可以减少上述困境,从而可以加速学习过程。总之,我们的贡献有三个方面:• 首先,我们提出了基于梯度下降的算法在学习深度哈希模型时的失败:汉明距离和内积对于二进制码是 本文给出两个二元码,用它们的内积sij=bi,bj和它们的连续松弛的内积sij=hi,hj来度量它们的相似性。与其他深度学习模型类似,深度哈希模型通常通过小批量随机梯度下降(SGD)优化为θ ← θ − αβ。通过反向传播计算模型参数θ在不同层的梯度。在深度哈希中,首先计算偏导数。然后,在hi的第k位ive处的偏导数iv学习过程可能会卡住,因为在优化过程中,一些散列码对倾向于彼此切换它们的方向。∂ℓ=Σ卡宾枪J∂ℓs这是一个很好的例子。(二)卡宾枪• 其次,我们提出了一种梯度注意机制最后,梯度/θ计算为其被集成在深度散列体系结构中,以解决上述学习问题,从而加速学习过程。∂ℓ=Σ∂θ我∂ℓ伊什岛伊什岛、(3)∂θ式中,n/nhi= [n/n h1,n/n h2,.,[2019 - 04 - 25]2019 -04 - 01 00:00:00• 第三,我们将我们提出的方法应用于不同的损失函数,并通过在三个大规模图像数据集上的大量实验验证其性能。2. 准备工作:深度哈希模型为了训练用于基于相似性的图像检索的深度哈希模型,我们给出N个实例{xi}N作为训练我我我优化的目标是更新模型参数θ。然而,尚不清楚中间变量(如h)在更新后如何变化为了分析h的更新行为,我们提出以下引理。引理1. 给定一个复合函数g (y),其中y = f(x)是一个标量,x是一个向量。 如果x通过梯度下降更新,即 x+= x − α g其中α是步长,则y集合,以及关于成对相似性的{sij}深度哈希模型M(θ;x)的目标是将输入实例{xi}映射到K维特征向量{zi},然后将它们二进制化以获得对应的二进制码{bi ∈ {± 1 } K },x近似地沿着其梯度的负值I. e. y+=f(x+)<$y−α<$<$g,其中r eα<$是某个正标度r。证据 通过应用f(x+)的一阶泰勒展开,在x上,我们有实例之间的相似性。这里θ表示模型的参数。一般来说,二值化是通过y+−y=f(x+)−f(x).Σx+−xx使用符号函数b=sgn(z)。然而,由于符号函数的不适定梯度,每个二进制码是=−α. 很好,xΣg=−αx. 很好,xΣ布雷格·奥吉y通常松弛为连续码h∈[−1,1]K¨ ¨2¨∂y ¨∂g ∂g通过用双曲正切函数tanh(·)替换符号函数进行训练。此外,我们用hk和bk分别表示h的第k个条目和b的第k散列的目标通常是基于预测的成对相似性设计的,其形式为Σmin(sij),(1)(i,j)∈P其中,k(·)是损失函数,P={(i,j)}是训练实例对的集合索引,并且sk i,j是训练实例对(i,j)的预测相似性。预测的相似度通过二元码之间的内积计算[2,3,35],即, sij=bi,bj或通过二进制码之间的重新松弛的汉明距离[5,14],即sij=bi−bj2。由于bi−bj<$2=1(K−bi,bj<$),5273x.2=−ᨨ=−α,¨∂x¨∂y ∂y¨¨其中α=α¨y¨。 这就完成了证明。通过将θ、h的任意位和tanh(M(θ))分别代入引理1中的变量x、y和f(x),我们发现在θ通过梯度下降更新后,连续码h沿着其负梯度变化。这使我们能够通过其梯度来研究h的变化,而不是深入到模型参数的梯度。3. 梯度下降为了研究基于梯度下降的深度哈希算法的局限性,我们首先关注一个简单的案例5274JIj我h h h且h+=hi=-1。 结果是它们的内积h+h+=−1在更新后保持不变,因此我J(a) hi和hj同步变号的困境h h h更新后的损失保持不变。在下一轮上升中-日,hi和hj都将转换其符号,而其相应的损失并不减少,并且这种情况反复发生。我们将这种现象称为通过梯度下降更新深度哈希模型的“困境”。请注意,当不同的对的代码被更新为远离彼此时,这种困境也会发生在它们身上在实践中,αij和αji可能很小,并且前面的上述情况可能不会一步到位。然而当|hi|<|αijhj|和|HJ|<|阿吉海|,两个代码将同时更改其符号,如图所示(b) hi 和hj不要在同一步1(a),这仍然导致不正确的相似性预测。为了克服上述困境并产生h h h最佳码,使得可以快速减少损失,可能的解决方案是降低同时改变成对码的符号的概率这是可以做到通过减小更新规模,即,αij和αji。在hi(c) 仅更新hjhihj梯度这样,两个代码改变符号的概率变得很小。在理想情况下,如果只有一个代码改变了它的符号,那么更新可以达到如图1(b)所示的最佳值为了减小更新规模,可以设置小的学习速率,然而,这可能导致缓慢的学习过程。另一种方法是添加量化损失,通过该量化损失,将相反的梯度添加到量化损失以减小其量化损失。图1.更新期间hi和hj可能发生的变化地平线-添加了tal轴,以更好地显示hi和hj的位置其中只有一对训练实例(i,j),其相似性基础事实是 它们彼此相似。 假设它们当前的一位连续码分 别 为 hi=−1 和 hj=1 。 损 失 的 简 单 定 义 为=1−sij=1−hihj。OBViously,the损失是正的,并且当前码不是最佳的,需要更新。hi和hj的梯度为伊什岛规模 然而,由于量化损失自然地阻碍了码的符号变化,其系数在目标函数中需要仔细控制否则,学习过程可能会很缓慢。注意,在图1(b)中,hj首先从+1向hj移动,并且在hi变为正数之后向后移动到+1。hj向hi移动的过程是不必要的-sary一个更好的解决方案是选择性地更新一个成对的代码,而保持另一个不变时,对它们的相似性的预测是不正确的。此代码更新∂ℓ伊什岛=ss伊什岛= −hj且∂ℓJ.J.=ssJ.J. =−hi,选择策略可以有效地避免符号切换问题,如图1(c)所示。然而,当预-分别 基于引理1,更新后的hi和hj的值(分别由h+和h+表示)可以表示如下:如果所述相似性是正确的,则最好更新hi和hj的符号值。因此,为了更新hi和hj,应当仔细地选择它们的梯度的权重,使得当预测的相似性小于1时仅更新一个码h+=hi−αij宜宜=hi+αijhj,相似性不正确,而当预测的相似性正确时更新两个代码为了实现这个想法h+=hj−αji ∂ℓ=hj+αjihi,j∂hj其中αij和αji是一些正标度因子。更新规则表明hi向hj方向移动,趋于与h j具有相同的值。H J也一样。注意,当hi和hj变得相同时,由于预测的相似性是正确的,所以哈希码是最佳的。然而,在最坏的情况下,通过假设αij和αji的值很大,例如,αij=αji=2,则有h+=hj=1在深度散列模型的顶部,我们提出了一种新的梯度注意机制来生成散列码对的梯度上的权重4. 梯度注意力网络我们提出的梯度注意机制适用于任何具有成对损失函数的深度哈希模型。如第3节所示,对于特定的对(i,j),如果预测的相似性不正确并且偏导数-zzzzzzzzz5275我我我JJij,i我的祖国卡宾枪我我ij,iij,jij,jij,iij,jβ=hk和hk的值都是反向传播的,hk和hk可以输入转换器和FC FC哈希层i j i j在同一步骤中改变符号,损失可能不会减少更新后为了在反向传播中产生适当的hk和hk导数的权重,我们建议训练一个gra,I j注意力网络,以产生对衍生物的注意力HK和HK。在hk和hk的导数为i j i j向后传递到θ,即由将梯度注意力网络应用于它们。然后基于hk和hk的加权导数而不是原始导数来计算θ的梯度考虑I j一批中的所有训练对,hk的加权导数被计算为图2.提出的深度哈希算法的网络结构方法。克什蒂克∂ℓ∂sˆijhk=∂ℓ=βij,isJαβkαK.K.,如果你愿意,(四)一个码对在同一步改变它们的比特,加快学习过程。因此,注意力权重的质量可以通过卡宾枪ij,jsijhk我在更新中丢失。利用梯度注意力网络,通过以下方式更新哈希模型的参数θ:其中βkKij,j是一对注意力权重,+对于二进制比特对Hk和Hk的导数,θ=θ−αg(θ),(7)I j分别通过将(4)中的加权导数在(3)中,我们获得了一个新的梯度,用g(k)表示,其中k是梯度注意力网络的参数,用于优化深度哈希模型。4.1. 梯度注意力网络的体系结构对于梯度注意力网络,我们将可能影响梯度下降中hk变化的因素作为输入。其中,g(k)是由梯度注意力网络生成的新梯度,k是梯度注意力网络的参数更新后的损失为(θ+)=(θ−αg()),损失的减少为(θ)−(θ+)。为了获得更好的梯度注意力网络,我们应该最大限度地减少损失。通过排除梯度注意力网络的常数项θ,我们得到了优化梯度注意力ik网络作为考虑单个对(i,j),hi的变化受到影响以其原始价值和衍生物的损失仅这一对,即J.J. 考虑到所有训练对,我hk的变化受其初始值的影响,最小θ(θ − αg(θ))。ϕ注意,(7)中θ的更新是通过最简单的形式我关于所有训练对的损失的导数,即(二)、因此,输入是hk,sij和。白藜芦醇我的SGD。在实践中,θ可以由任何一阶更新优化器,只要θ+是g(θ)的函数。和可以由任何优化器更新我们的算法我我的祖国卡宾枪提出的算法,梯度注意深度哈希(GAH),为了获得一对的第k位的注意权重,代码,注意力网络首先生成一个特征值,在算法1中进行了总结。kij,i对于每一边的对,然后通过一个softmax函数为exp(yk)5. 相关作品βk =ij,i(五)基于学习的散列方法已经被研究用于和ij,ikij,jexp(yk)+ exp(yk)exp(yk)exp(yk)+ exp(yk).(六)年 根据学习中使用的信息,它们被分类为基于无监督的[30,21,10,19],基于监督的[20,22,17,23]和基于半监督的[26,27]哈希模型。最近,基于深度学习的散列方法展示了优于对于梯度注意力网络的体系结构,它包含两个全连接层和100个隐藏单元。深度哈希模型和梯度注意力网络的整体架构二、4.2. 梯度注意力网络的损失函数在本节中,我们将介绍用于训练梯度注意力网络的损失函数。注意,提出梯度注意机制以降低概率预测相似度成对损失原网络转发梯度注意力网络原始网络的反向传播梯度注意力网络IJ和βy5276将手工制作的特征作为输入的浅层方法深度散列在[32]中首次提出,称为CNNH,它在两个独立的阶段学习哈希代码和基于神经网络的为了同时学习特征表示和哈希码,提出了DHHN [14]。后来,[16,35,3,2,5,33]提出了各种损失函数来保留相似性信息和不同的量化技术来解决二进制码的连续松弛问题。5277我H我我我算法1梯度注意深度哈希(GAH)1:重复2:从训练集中3:评估损耗θ(θ)并反向传播以获得在iveθ/θsθij处的4:Tak ehk、Tak e hj和T a ke h j作为梯度衰减的输入与标签无关且不可用的图像大约有180,000个。我们随机选取10000幅图像作为训练集,5000幅图像作为查询集,其余的作为数据库。ImageNet是视觉识别挑战的大规模图像基准测试,广泛用于评估每一个我∂sˆij∂hkk深度学习模型。 在数据集中,网络,以获得注意力权重yij,i5:计算βk和βk由(5)和(6)大于1. 200万张图片,每张图片都有一个类别标签ij,iij,j伊希斯从1000个类别中选出。我将以[3,5]为例,6: 计算新的导数β-kα-γ-射线ij,王空军ij,isijhk并将其反向传播以获得θ的梯度g(θ)。7:通过θ+=θ−αg(θ)更新θ8:将更新后的损失评估为θ(θ−αg(θ))9:使用反向传播更新数据库10:θ←θ+十一: 直到固定次数的迭代在我们的工作中,我们训练了一个额外的模型来改变反向传播中的梯度,这与学习优化有关。学习优化算法[1,15,31]最近被提出来学习生成一般目标函数优化的梯度下降。在[1]中,梯度生成器是RNN,其通过梯度下降来更新。在[15]中,学习优化是基于强化学习完成的。在[31]中,作者提出了一种分层RNN架构,该架构可扩展用于大规模问题。与现有的学习优化算法不同,我们提出的梯度注意力网络是专门为深度哈希模型设计的。此外,我们的梯度注意力网络只生成中间变量的梯度,原始网络参数的梯度由反向传播算法获得,而学习优化算法为每个参数生成梯度,不依赖于反向传播。6. 实验6.1. 数据集和设置为了评估所提出的算法GAH对最先进的哈希方法的性能,我们在三个基准数据集上进行了实验:CIFAR-10 [25],NUS-WIDE [6],ImageNet [7]。CIFAR-10由10个类组成,每个类包含6000幅32×32彩色图像。我们遵循[2,35,14,32],通过每类随机采样500个图像来构建训练集,通过每类随机采样100个图像来构建查询集。其余的图像被用作数据库进行检索。NUS-WIDE包含从Flickr收集的近27万张大多数图像与来自给定的81个概念的一个或多个标签相关联。取出后选择100个类别并在训练集中使用图像来形成数据库。我们从数据库中随机抽取每个类别的130张图像来训练哈希模型。验证集中的图像用作查询。作为现有散列方法中的一个通用协议,地面真实值相似性信息是根据类标签定义的。如果两个实例共享至少一个标签,则它们被认为是相似的,并将相似性分配为sij=1;否则,它们的相似性sij=0。注意,在以这种方式构造相似性标签之后,在数据集中观察到数据不平衡。对于CIFAR-10和ImageNet,不相似和相似对之间的比率大致等于类别的数量。对于NUS-WIDE,该比例约为5。哈希模型的性能基于三个指标进行评估:平均精度(MAP)、精度-召回曲线和汉明半径2内的汉明查找精度曲线。特别地,我们遵循[3,35]来评估CIFAR-10和NUS-WIDE数据集上返回的前5,000个样本以及ImageNet上返回的前1,000个我们将所提出的GAH的性能与九种经典或最先进的哈希方法进行了比较:两种是无监督方法LSH [4]和ITQ [10],两种是有监督的浅层方法ITQ-CCA [10]和KSH [20];五个是基于深度学习的方法CNNH [32],DNNH [14],DPSH [16],HashNet [3]和GH [24]。6.2. 实现细节我们用PyTorch实现了我们的模型所提出的GAH中的深度散列模型部分利用与AlexNet [13]相同的结构,除了最后的全连接层fc8被具有输出K维特征的全连接散列层替换,然后是激活函数tanh(·)。GAH的哈希模型的优化器是SGD,0。0005重量衰减,0. 9动量和步长衰减学习率。GAH的梯度注意力网络由两个完全连接的层和100个隐藏单元组成,并由Adam [12]优化图像的小批量大小固定为128。对于浅哈希模型,我们为它们提供DeCAF 7特性[8],即预训练的Alexnet的fc 7输出作为输入。对于训练哈希模型的损失函数,我们选择加权最大似然(WML)估计。H5278表1.平均精度(MAP)在三个不同位长的数据集方法CIFAR-10 NUS-WIDE ImageNet0.80.70.60.50.40.30.20.10 0.2 0.4 0.6 0.81召回(a) CIFAR-100.80.60.40.200 0.2 0.4 0.6 0.81召回(b) NUS-wide0.70.60.50.40.30.20.100 0.2 0.4 0.6 0.8 1召回(c) ImageNet图3.在三个数据集上的640.90.90.60.80.80.50.70.70.40.60.60.30.50.50.20.420 30 40 5060位数(a) CIFAR-100.420 30 40 5060位数(b) NUS-wide0.120 30 40 50 60位数(c) ImageNet图4.在三个数据集上的汉明半径2哈希码的定义为最小值(θ)θ Σ=wij(log(1+exp(γhi,hj))−γsijhi,hj),(8)(i,j)∈P其中P={(i,j)}是训练对的集合索引;γ是自适应sigmoid函数中的参数来制定其中S0={sij∈ S:sij=0}且S1={sij∈ S:sij= 1}。上述损失函数已广泛用于深度哈希方法[16,35,3,2],以及不同类型的量化损失。在我们的模型中,量化损失是不必要的,因为我们的模型不需要量化损失,以减少在训练过程中的代码符号切换的概率我们的损失函数自然地将hk和hk推到其二进制化值bi和bj,当hki ji j给定两个散列码的预测相似性的条件概率;并且是用于寻址im的权重。相似和不相似训练对之间的平衡问题,其定义为.|/|S 1|、|,如果sij=1,wij=与(sij− 0)的符号相同。(五)。注意,原始GH [24]提出了一个分类器上的哈希码,并训练最小化交叉熵损失。为了公平比较,我们假设在训练期间只有相似性标签可用,因此其损失函数被更改为(8)中的损失函数,其中量化损失在[24]中定义。1、如果sij=0,CNNHDNNHDPSHGHHashNetGAHCNNHDNNHHashNetDPSHGH GAHCNNHDNNHDPSHGHHashNetGAHCNNHDNNHDPSHGHHashNetGAHCNNHDNNHDPSHGHHashNetGAHCNNHDNNHHashNetDPSHGHGAH精度精密度精度精密度精度精度16位32位48位64位16位32位48位64位16位32位48位64位GAH0.69850.75310.76050.76070.72350.75760.76620.77330.50340.62310.65630.6821HashNet [3]0.68960.74460.75370.75660.72180.75610.75850.75920.46330.59910.64170.6563[24]第二十四话0.59270.66400.65180.67630.68400.74250.74300.74590.33830.48780.48330.4893[第16话]0.43550.57800.62460.63310.68220.71520.72630.73560.20220.35840.42140.4492DNH [14]0.48760.51820.50250.49820.55320.58270.59760.60810.43730.55650.55600.5813CNNH [32]0.48860.50230.52510.52160.52280.54360.54180.55300.22040.27200.30100.2941KSH [20]0.41380.49980.55190.56680.61350.67310.69600.72290.41120.52110.57310.5984ITQ-CCA [10]0.20400.15820.13590.12880.56750.53240.49050.46650.24810.39540.49230.5640ITQ [10]0.25590.26720.27860.30170.62000.64750.65910.66570.22670.32540.38270.4179LSH [4]0.17160.18580.20940.23500.36320.41920.46630.49800.06710.13030.19010.2406527920005000100015004000800100030002000600400500100020000100200300400500600700800迭代(a) CIFAR-1000 100 200 300 400 500600迭代(b) NUS-wide00 100 200 300 400 500 600迭代(c) ImageNet图5.有无梯度注意机制的方法比较:陷入困境的比特对数量0.650.60.550.50.450.520.5050.480.4550.430.620.60.5750.550.5250.50.40.355 1015时代(a) CIFAR-100.4050.38205 10 1520时代(b) NUS-wide0.4750.455 10 15 20时代(c) ImageNet图6.有无梯度注意机制的方法比较:通过训练过程的训练损失6.3. 结果和分析不同散列方法的平均精度如表1所示。从表1中可以看出,我们提出的GAH大大优于所有的比较方法。与基于深度学习的哈希方法相比,GAH的性能比最好的竞争对手HashNet高出约0。1%到3。9%。此外,GAH优于GH约1。5%至19。百分之三。请注意,HashNet、GH和GAH的损失函数和设置几乎相同,只是HashNet与连续学习技术集成以精确学习二进制代码,GH与离散优化技术和附加量化损失项集成,而GAH与梯度注意力网络集成。 因此,GAH在MAP中相对于HashNet和GH的优越性验证了梯度注意机制对生成高质量二进制代码的贡献。当与以深度特征作为输入的浅散列方法相比时,GAH实现了大幅度的提升它的表现超过了最好的竞争对手KSH,至少5。在所有数据集上占1%。这验证了基于端到端深度学习的哈希方法的先进性,该方法同时学习特征表示和二值化。图3显示了精确度-召回率曲线方面的检索性能。GAH优于比较方法。特别是,GAH在较低的召回水平下实现了更高的精度。这对于在实际系统中广泛实现的精度优先检索是理想的评估散列方法的性能在使用汉明查找的高效二进制代码检索中,其对于查询花费O(1)时间,我们在所有方法上测试汉明半径2内的精度。结果如图4所示. GAH算法在码长较小时的检索性能仍优于其他方法,表明其在大规模压缩码检索中的有效性然而,当码长较大时,其性能可能比DNNH、DPSH或GH弱.6.4. 梯度注意机制研究在这一节中,我们首先评估梯度注意机制对减少“困境”中的比特对数量的积极影响,“困境作为一个基线,我们在GAH中训练散列模型,没有集成梯度注意力网络,并将其表示为GAH 0。每20次训练迭代中陷入困境的位对的平均数量的结果如图5. 请注意,在本实验中,所有丢弃层都被禁用是的。结果表明,经过一定次数的迭代后,梯度注意机制有助于减少在同一步中改变其符号的位对的数量相比GAH0,GAH减少了位对的数量,伯在困境中约13。1%至61。200次迭代后,CIFAR-10的9%。在NUS-WIDE和Ima-geNet上,经过100次迭代后,减少百分比至少为26。1%和10。8%,分别。此外,我们测试了哈希模型的训练损失的减少,即。θ,以评估梯度衰减-GAH0GAHGAH0GAHGAH0GAHGAHGAH 0HashNet-halfGAHGAH 0HashNet-half训练损失GAHGAH 0HashNet-half平均处于困境的训练损失平均处于困境的平均处于困境的训练损失5280表2. ImageNet上不同梯度权重分配策略的比较表3. MAP@5000,无监督CIFAR-10。方法16位32位48位64位基线GAHB1B2B3B4GAH0.47960.49860.50570.5165MAP0.68212019 - 06 - 25 00:00:00[24]第二十四话0.41140.45900.49420.5034DeepBit [18]0.18110.21710.23910.2468ITQ [10]0.34610.38450.40800.4364LSH [4]0.20220.22160.23310.2992加速学习过程的机制。散列-Net [3]和GAH0用作基线。此外,如果梯度注意机制不起作用,它将为一对输出相同的权重,这类似于降低梯度第i个图像乘以zi,损失函数被定义为¨ ¨1Σ¨1¨的一半。 为了避免将学习加速归因于(θ)=<$hi,hj <$−cos(zi,zj)<$、(9)学习率较小的GAH 0和学习率为一半的HashNet也被用作基线,它们被表示为GAH 0-half和HashNet-half。从图6所示的结果中,我们观察到,当梯度注意力网络没有得到良好训练时,所提出的方法的训练损失在开始时很大。但其损耗下降速度比比较方法快,最终达到所有方法中损耗最低的.这些结果证实了梯度注意机制有助于加速学习过程。为了进一步验证梯度注意力方法的效果,我们将其与四种不同的基线进行比较,以生成哈希码对梯度上的权重:B1)将权重1随机分配给一个梯度; B2)为两个梯度分配随机权重; B3)将权重1分配给较大的梯度;B4)将权重0分配给较小的梯度。实验在ImageNet数据集上运行,代码为64位结果示于表2中。由于B1和B2的期望梯度方向与原始梯度方向相同,因此B1和B2的性能接近于原始梯度更新的模型。由于加权梯度方差较大,B1的性能略差于B2。对于B4,其性能优于B1、B2,略优于HashNet,这表明如果我们正确地选择一个配对码并在保持另一个不变的情况下更新它,哈希码的质量可以得到改善但总是选择梯度较大的代码进行更新并不是最佳策略。梯度注意机制能够产生比B4更好的权重,因此其性能最好。这验证了梯度注意机制对提高哈希模型的学习能力和生成高质量二进制代码的必要性6.5. 具有非监督损失函数的为了验证GAH在不同的成对目标函数上的性能,我们在无监督设置下对CIFAR- 10数据集进行了实验我们遵循[24,11]来最小化在欧几里得空间中编码的特征与汉明空间中的哈希码在欧氏空间中表示特征,N2?K?(i,j)∈P其中cos(·,·)表示余弦距离。为了比较性能,我们将相同的损失函数(9)应用于GH [24],并在CIFAR-10数据集上运行另外三种无监督哈希方法,包括DeepBit [18],ITQ [10]和LSH [4]。请注意,在这个实验中,我们每个类采样1000张图像作为查询集,剩余的50000张图像用作训练集和数据库。深度哈希模型的网络结构遵循[24,18]中的设置,基于VGG16。至于基于浅层学习的哈希方法,我们将VGG 16提取的4096结果显示在表3中。在不同的目标函数下,GAH方法仍能优于GH和其他竞争者。GAH对最佳竞争者GH的增益大于1。当代码长度为48或64时为1%。对于较小的代码长度(即,16位和32位),GAH的性能大大优于GH,约为4%。这些结果验证了梯度注意机制适用于不同的成对损失函数。7. 结论本文提出了二元码偶可能频繁地变换符号或方向,但它们在Hamming空间中的相似性保持不变的难题。这导致了学习过程的低效。为了解决这个问题,我们建议将哈希模型与一种新的梯度注意力机制相结合,以生成哈希码对梯度的适当权重。在三个有监督和无监督目标的基准数据集上的实验研究验证了梯度注意机制在加速深度哈希学习中的有效性确认这项工作由南洋理工大学助理教授(NAP)资助M4081532.020,MoE AcRF Tier 1资助2016-T1-001-159和微软亚洲研究院资助。25281引用[1] Marcin Andrychowicz , Misha Denil , Sergio Gomez ,Matthew W Hoffman , David Pfau , Tom Schaul ,Brendan Shillingford,and Nando De Freitas.通过梯度下降来学习。神经信息处理系统的进展,第3981-3989页,2016年[2] Yue Cao,Mingsheng Long,Bin Liu,Jianmin Wang,and MoE KLiss.基于深度柯西散列的汉明空间重构。在IEEE计算机视觉和模式识别会议论文集,第1229-1237页[3] Zhangjie Cao,Mingsheng Long,Jianmin Wang,and SYu Philip. Hashnet:深度学习,通过延续来散列。在ICCV,第5609-5618页[4] 摩 西 · 查 瑞 卡 来 自 舍 入 算 法 的 相 似 性 估 计 技 术 。ACMSymposium on Theory of Computing,第380-388页[5] 芷香切那,辛元娜,纪文卢阿,齐天,解州阿。通过差异最小化的深度哈希。在IEEE计算机视觉和模式识别会议的论文集,第6838-6847页[6] Tat-Seng Chua , Jinhui Tang , Richang Hong , HaojieLi,Zhiping Luo,and Yantao Zheng.Nus-wide:新加坡国立大学的真实网络在ACM图像和视频检索国际会议上,第48页。ACM,2009年。[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在计算机视觉和模式识别,2009年。CVPR2009。IEEE会议,第248-255页。Ieee,2009年。[8] Jeff Donahue , Yangqing Jia , Oriol Vinyals , JudyHoffman,Ning Zhang,Eric Tzeng,and Trevor Darrell.Decaf:用于通用视觉识别的深度卷积激活功能。机器学习国际会议,第647-655页,2014年[9] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。在机器学习国际会议论文集,第1126-1135页[10] Yunchao Gong和Svetlana Lazebnik。迭代量化:学习二进制代码的一种普罗克勒斯特方法。在IEEE计算机视觉和图案识别会议上,第817-824页[11] 胡孟秋,杨阳,沈富民,谢宁,沈衡涛。散列与角度重建 嵌 入 。 IEEE Transactions on Image Processing , 27(2):545[12] Diederik P Kingma和Jimmy Ba。 Adam:随机最佳化的方法。在国际会议上学习表示(ICLR),第5卷,2015年。[13] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年[14] 来寒江,闫盼,夜流,燕水城。同时使用深度神经网络进行特征学习和哈希编码工程.在IEEE计算机视觉和模式识别会议论文集,第3270-3278页[15] Ke Li和Jitendra Malik。学习优化。2017年国际学习表征会议[16] Wu-Jun Li,Sheng Wang,and Wang-Cheng Kang.基于特征学习的深度监督散列与成对标签在国际联合会议上的商业情报,第1711-1717页[17] Guosheng Lin,Chunhua Shen,Qinfeng Shi,Anton vanden Hengel,and David Suter.使用决策树对高维数据进行快速监督散列。在IEEE计算机视觉和模式识别会议上,第1971- 1978页[18] Kevin Lin,Jiwen Lu,Chu-Song Chen,and Jie Zhou.使用无监督深度神经网络学习紧凑的二进制描述符。在IEEE计算机视觉和模式识别会议论文集,第1183- 1192页[19] Wei Liu,Cun Mu,Sanjiv Kumar,and Shih-Fu Chang.离散图散列。在神经信息处理系统,第3419-3427页[20] W. 刘,J.王河,巴西-地吉,Y.Jiang,and S-F Chang.监督哈希与内核。在IEEE计算机视觉和模式识别会议上,第2074-2081页[21] Wei Liu,Jun Wang,Sanjiv Kumar,and Shih-Fu Chang.使用图表进行散列。在机器学习国际会议上,第1-8页[22] M. Norouzi和D.舰队压缩二进制码的最小损失散列。国际机器学习会议,第353-360页,2011年[23] Fumin Shen , Chunhua Shen , Wei Liu 和 Heng TaoShen。监督离散散列。在IEEE计算机视觉和模式识别上,第37[24] Shupeng Su , Chao Zhang , Kai Han , and YonghongTian.贪婪哈希:cnn中精确散列编码的快速优化。神经信息处理系统的进展,第806-815页,2018年[25] Antonio Torralba , Rob Fergus 和 William T Freeman 。8000万张小图片:非参数目标和场景识别的大数据集。IEEE Trans
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功