没有合适的资源?快使用搜索试试~ 我知道了~
4815信噪比:一种用于深度度量学习的鲁棒距离度量袁彤彤1,邓晓1,唐健2,3,唐一男1,陈炳辉11北京邮电大学,北京,中国2AI Labs,滴滴出行,北京,中国3美国纽约州锡拉丘兹市锡拉丘兹大学电气工程与计算机科学系{yuantt,whdeng,tn513,chenbinghui}@ bupt.edu.cn,tangjian@didiglobal.com摘要深度度量学习是一种学习判别特征来处理图像聚类和检索任务的方法,近年来受到了广泛的关注。已经提出了许多深度度量学习方法来构建损失函数的有效结构,并且已经显示出有希望的结果,这些方法确保相似的本文与传统的损失结构学习方法不同,提出了一种基于信噪比(SNR)的鲁棒SNR距离度量,通过从几何空间和统计理论的角度探讨我们的SNR距离度量的性质,我们分析了我们的度量的性质,并表明它可以保持图像对之间的语义相似性,这很好地证明了它适用于深度度量学习。与欧几里德距离度量相比,我们的S-NR距离度量可以进一步联合减少学习特征的类内距离和扩大类间距离。利用我们的SNR距离度量,我们提出了基于深度SNR的度量学习(DSML)来生成区分性特征嵌入。通过在CARS 196、CUB 200 -2011和CIFAR 10三个被广泛采用的基准上的大量实验,我们的DSML显示了其优于其他最先进的方法。此外,我们将SNR距离度量扩展到深度哈希学习,并在CIFAR 10和NUS-WIDE两个基准上进行实验,以证明我们的SNR距离度量的有效性和通用性。1. 介绍近年来,度量学习得到了广泛的研究,其目的是学习语义距离和嵌入,以便将相似的示例映射到*通讯作者流形上的邻近点和不相似的例子被映射为彼此分开[20,27,30,39]。与传统的距离度量学习相比,深度度量学习使用深度神经网络来学习数据的非线性嵌入,并且通过探索更多的损失结构来显示出显着的优势。随着这些学习技术的发展,深度度量学习已广泛应用于人脸识别[29,28],图像聚类和检索[33,20]。深度度量学习在生成区分特征方面取得了显著的成功。为了提高学习特征的性能,许多学习方法已经探索了目标函数中的结构,例如对比损失[9],三重损失[22,36],提升结构嵌入[20],N对损失方法[27]等。这些深度度量学习方法可以归类为结构学习方法,其重点是通过利用训练批次或增加负样本来为目标函数构建更有效的结构。然而,大多数结构学习方法只是简单地将欧氏距离作为语义距离度量,而忽略了距离度量在深度度量学习中发挥着不可忽视的作用与结构学习不同,一些度量学习方法[37,6]将新的距离度量用于度量学习。例如,Weinbergeret al.已经提出了度量学习中用于k-最近邻(kNN)分类的距离度量,即Mahalanobis距离[37],这表明度量学习算法的性能也取决于距离度量。 相反对于结构化学习方法,这些探索新的距离度量的方法可以被归类为远程学习方法。与结构学习方法相比,设计一个好的度量语义相似度的距离可以对区分性嵌入的学习产生更大的影响。因此,我们专注于设计一个新的和有效的距离度量。度量样本对之间的相似性对于度量学习至关重要最著名的距离度量是欧氏距离,它已被广泛应用于4816学习判别嵌入。然而,欧氏距离度量仅测量n维空间中成对样本之间的距离,缺乏保留相关性和提高样本对鲁棒性的能力因此,我们借用信号处理中定义的距离度量概念,即距离度量,设计了一种新的距离度量.信噪比(SNR),作为深度度量学习中的相似性度量。通常,信号处理中的SNR用于测量期望信号的电平与噪声的电平,并且SNR值越大意味着信号质量越高对于深度度量学习中的相似性测量,一对学习特征x和y可以被给定为y=x+n,其中n可以被视为噪声。然后,SNR是特征方差和噪声方差的比率。基于深度度量学习中SNR的定义,我们发现SNR有希望被公式化为用于测量配对特征之间差异的距离本文基于SNR的性质,提出了一种SNR距离度量来代替深度度量学习中的在空间分析和理论论证方面,说明了信噪比距离相对于欧氏距离的优越性与欧氏距离不同,SNR距离是一种更鲁棒的距离度量,它可以进一步联合减小学习特征的类内距离和扩大类间距离,并保持特征的相关性。此外,我们提出了一种基于深度信噪比的度量学习(DSML)方法,该方法使用信噪比距离度量作为相似性度量,以生成更具鉴别力的特征。为了展示我们基于SNR的方法的通用性我们的主要贡献可归纳如下。(1)据我们所知,这是第一个在深度度量学习中使用SNR来构建距离度量的工作。通过分析SNR距离度量的性质,我们发现它比欧氏距离具有更好的性能,可以广泛应用于深度度量学习。(2)提出了如何将信噪比距离度量融入到流行的学习框架中,并在DSML中给出了相应的目标函数(3)我们在三个广泛使用的图像聚类和检索任务的基准测试上进行了大量的实验(4)我们将基于SNR的度量距离扩展到深度哈希学习,并获得了有希望的实验结果。2. 相关工作2.1. 度量学习度量学习方法已广泛应用于图像检索、聚类和识别任务,引起了广泛关注。随着深度神经网络的发展,深度度量学习方法[5,21,15,10]在复杂的计算机视觉任务中表现出了良好的性能。为了区分不同深度度量学习方法的创新,我们将这些方法大致分为结构学习和远程学习方法,并简要介绍了这些方法的工作。与我们的工作相关,我们还介绍了基于著名的度量学习结构的深度哈希方法。2.1.1结构学习法最著名的结构学习方法是Hadsell等人提出的对比嵌入方法。[9]的文件。对比损失[9]的主要思想是相似的例子应该映射到流形上的附近点,而不相似的例子应该映射到彼此分开这一思想为深度度量学习中的目标函数在这项工作之后,随后的结构学习方法提出了具有不同结构的各种损失函数。例如,三联体丢失[22,36]由三联体组成,每个三联体由锚实例、阳性实例和阴性实例组成。三重态损失促使正距离小于负距离,并留有余量。提升结构损失[20]将批次内的成对距离向量提升到成对距离矩阵N对损失[27]通过允许在多个负样本之间进行联合比较来概括三重损失,这意味着特征对由来自相同标签的样本组成,而小批量中的其他对具有不同的标签。ALMN [1]提出通过生成的虚拟点来优化自适应大余量目标,而不是挖掘硬样本。除了这些工作之外,一些工作[22,26]试图在三重损失的基础上挖掘硬负数据,它们可以被视为增强的结构学习方法。与这些结构学习方法不同,我们的工作旨在为深度度量学习设计一个新的距离度量。由于大多数结构学习方法使用欧氏距离作为其相似性度量(N对损失中的内积可以被视为相似的欧氏度量),因此它们可以为我们的工作提供基线2.1.2远程学习方法与结构学习方法不同,远程学习方法探索了一种更优的距离度量,也有望提高深度度量学习的性能。在传统的度量学习[23,24]中,已经提出了一些通过使用Mahalanobis距离来度量样本的相似性的远程学习方法。例如,Globersonet al. [8]提出了一种在分类任务中学习马氏距离的算法。4817ΣWeinberger等人[37]展示了如何从标记的示例中学习用于kNN分类的Mahalanobis距离度量。Davis等[6]提出了一种信息论在统计理论中,SNR的标准定义是信号方差与噪声方差的比值[7],因此我们定义锚特征hi和比较特征之间的SNR。学习Mahalanobis距离函数。在深度度量学习中,我们注意到,为了更好地学习特征hj为:SNRi,j=var(hi)var(hj−hi)var(hi)var(nij)、(1)features,Wanget al.提出了一种远程学习方法,以约束三重三角形负点处的角度其中var(a)=ni=1(ai−µ)2n表示方差gles [34]. 此外,Chenet al. [2]能量守恒。a,μ是a的平均值。如果µ= 0,则var(a)=融合度量,以提高学习的泛化能力ni=1(ai)2.深度度量Chen等人[3]提出了基于混合注意力的解耦度量学习框架,用于学习区分性和鲁棒性的深度度量。然而,三角形的角度测量在测量两点的距离时具有局限性,不能将其视为通用的距离度量。在本文中,我们提出了一种通用的距离学习方法,该方法使用基于SNR的度量来测量深度度量学习中图像对的相似性。2.2. 散列学习与深度度量学习类似,深度哈希旨在学习区分嵌入,以保持与二进制特征中语义相似性的最近,已经提出了许多深度哈希方法[40,16,38,41,18,31,25,42受益于度量学习方法,一些深度哈希方法[17,14,35]建立在对比嵌入或三重嵌入上。为了扩展基于信噪比的度量方法的应用范围,并验证该方法的有效性,n信息论中的差异反映了信息-热情更明确地说,信号方差度量有用信息,而噪声方差度量无用信息。因此,提高信噪比i,j可以提高有用信息与无用信息的比值,反映出被比较特征可以更接近锚点特征。相反,降低SNRi,j可以增加噪声信息的比例,导致两个特征的差异更大因此,SNRi,j的值可以用来合理地度量一对特征之间的差异,这是度量学习中构造距离度量的必要条件SNR距离度量:在深度度量学习中,大多数基于欧氏距离度量的损失函数的约束是相似示例应该具有短距离而不相似的例子在特征上应该具有大根据这一约束条件,我们设计了一种新的距离度量作为深度度量学习的相似性度量。在信噪比定义的基础上,我们提出了我们的信噪比距离度量。一对特征hi和hj中的SNR距离ds被定义为:D (h,h)=1var(nij)=.(二)的度量,我们还提出了一个深信噪比为基础的S I jSNRijvar(hi)散列学习方法,其目的是产生相似性-通过使用我们基于SNR度量的损失层训练卷积神经网络来保留二进制代码3. 该方法特征中的成对距离通常由欧氏距离度量来测量,该度量很少改变[34]。然而,设计一个好的距离度量来度量图像之间的相似性对于提高深度度量学习的性能具有重要意义。因此,我们提出了一种新的基于SNR的深度度量学习度量。3.1. 基于SNR的度量定义:在深度度量学习中,给定两个图像xi和xj,学习的特征可以表示为hi=f(θ; xi)和hj= f(θ; xj),其中f是度量学习函数,θ表示学习的参数。 给定一对特征hi和hj,其中锚特征为hi,比较特征为hj。我们将锚特征hi表示为信号,并且将比较特征hj表示为噪声信号,则hi和hj中的噪声nij可以用公式表示为nij=hj−hi。值得注意的是,欧几里得距离dE中的交换性质(dE(hi,hj)=dE(hj,hi))在我们的SNR距离中不适用。因为ds(hi,hj)和ds(hj,hi)的值通常不相等,所以我们的SNR距离对哪一个是一对中的锚特征敏感为了说明SNR距离如何反映一对特征的差异,我们合成了一个32维高斯数据,N∈ {0,1}作为锚特征,高斯噪声序列,N∈ {0,σ2},其中σ2={0。2,0。五一0,2。0}。通过将噪声数据添加到锚特征中来合成比较特征,锚特征和比较特征的距离dS为{0。2,0。五一0,2。0}。如图1所示,较长的S-NR距离反映了锚特征与比较特征之间的差异较大。因此,S-应用于损失函数的NR距离可以具有与欧几里德距离类似的性质(即,相似的图像对应该在特征上具有短的SNR距离,而不相似的图像对应该在特征上具有大的SNR距离)。因此,我们可以使用SNR距离度量作为相似性度量,以取代深度度量学习中的欧氏距离度量。Σ=4818.我我E图1.曲线示出了32维合成锚特征的比较以及在不同SNR距离下的比较特征。优势分析:为了说明S-NR距离相对于欧氏距离的优越性,我们从几何空间和统计理论的角度对这两种距离进行了比较。定义了点a和b之间的欧几里得距离,图2.这个例子展示了SNR距离度量和欧氏度量如何影响欧氏空间中的特征。保持语义相似性的约束被描述为排斥力和吸引力。箭头线表示- t力,其中紫色线表示仅来自SNR距离度量的力,橙色线是欧几里得距离和SNR距离共享的力。如(a)中所示,对于相似图像,最小化欧几里得距离只能减小类内示例之间因为我们的情报局不-如:. ΣndE(a,b)=,i=1(ai − bi)2.(三)该算法考虑了特征到原点的欧氏距离,最小化信噪比距离也可以扩大类间欧氏距离。如(b)所示,对于不同的sam-对于SNR距离,根据等式(2)和(3),我们可以推导出,如果特征遵循零均值分布,因此,类间样本的欧氏距离应该增加。不同于欧几里得几何的约束力选择: dS(h j,hi)=var(nij)ΣM=m=1 (him−hjm)2ric,由增加SNR距离引起的约束力(即,橙色线和紫色线)可以协作,var(hi)dE(hi,hj)2Mm=1(him)2(四)更紧凑,导致更小的类内距离。我们还探讨了信噪比距离之间的关系,=d (h)2,其中dE(hi)表示从hi到原点O的欧几里得距离,M是学习特征的维数H. 如(4)所示,除了所述点的欧几里得距离之外若各特征的均值为零,且噪声与信号特征无关,则特征间的相关系数corr(·,·)可通过统计理论计算如下:配对特征,SNR距离还考虑了低点:cov(hi,hj)E(hi hj)从特征到原点的欧氏距离。corr(hi,hj)=var(h)var(h)=var(h)var(h)为了保持语义相似性,采用欧氏距离度量的损失函数约束,E(hi(hi=√I j+n(i j))=√I jE(h2)具有相同标签的特征对中的欧氏距离var(hi)var(hi+nij)var(hi)var(hi+nij)应该减少,而不同标签的特征对中的欧氏距离应该增加。不同var(hi)==var(hi)2+var(hi)var(nij)1var(nij)var(hi)从欧氏距离度量,损失函数与S-11NR距离度量可以对距离进行附加约束==。从原点到特征的欧氏距离。如图2所示,与欧几里得距离度量相比,1SNRij1 +dS(hj,hi)(五)由于SNR距离只度量特征对之间的欧氏距离,因此它不仅提供了欧氏距离的约束条件,而且还提供了一个额外的约束条件,在处理相似特征对时可以扩大类间距离,在处理不相似特征对时可以缩小类内距离。因此,在深度度量学习中,我们的SNR距离度量更强大,可以提高特征对的区分度和鲁棒性。1个以上1个以上4819根据(5),成对特征的相关系数增加SNR距离将降低不相似特征中的相关性,并且减小SNR距离将增加相似对中的相关性。因此,通过使用SNR距离而不是欧几里得距离,深度度量学习可以联合保留学习特征中的语义相似性4820我我我JIj1 2N3.2. 基于深度SNR的度量学习由于信噪比距离度量的优越性,信噪比距离可以提供比欧氏距离更有效的相似性度量。此外,SNR距离通常可以应用于深度度量学习的各种目标函数。为了实现基于SNR的深度度量学习(DSML),我们选择了四种有吸引力的深度度量学习结构,包括对比损失[9],三重损失[22,36],提升结构损失[20]和N对损失[27],以构建基于SNR的目标函数。DSML(N对):在原始N对丢失中,每个元组Ti由{xi,x+,x+,···,x+}组成,其中xi是对Ti的查询,x+是正例,并且x+(j=i)是反例。N对损失函数是连续的,由相似性而不是距离构造,并且相似性由内积Sij= hThj测 量,其不能直接由我们的SNR距离度量代替。因此,在我们的DSML(N-pair)中,我们构造了一个基于SNR的相似度,以使我们的基于SNR的度量适应N-pair学习框架。对于DSML(N对),h i和h j的相似性S ij为:12var(hi)2在DSML中,我们将学习的特征表示为hi∈Sij=DSij2=SNRij=var(h-h)2.(十一)(h1,···,hN).对于锚特征hi,正fea-那么,DSML(N对)的目标函数是:+−N真的是hi,负的一表示为hi。基于SNR距离度量,两个特征hi,hj在1ΣJ=Nlog(1+Σexp(Sij+−Sii+))+λLr(12)我们的DSML函数可以表示为:i=1jiDS =dS(hi,hj)= 1=ijSNRvar(hi−hj)var(h) 。(六)总之,在我们的DSM中定义的目标函数很容易在国家的指导下制定我们使用正则化λLr来约束fea-tures有零均值分布,正则化是深度度量学习中最先进的方法,这意味着我们基于SNR的度量具有良好的通用性,并且定义为:1ΣLr=λNi∈NΣM|m=1欣|、(7)有望在深度嵌入学习中得到广泛应用其中λ是具有小值的超参数。结合这四种学习结构,我们的DSML的基于目标函数的详细描述如下。DSML(SNR):对于基于SNR的对比嵌入,我们的DSML目标函数为:3.3. 基于深度信噪比的哈希学习散列学习方法的目标是为图像样本生成有为了表明我们的基于SNR的度量的通用性ΣNiJ=i=1dS(hi,h+)+Njj=1[α−dS(hj,h−)]+λLr,(8)我们将SNR距离度量部署到深度哈希学习。其中,Ni和Nj分别表示正对和负对的数目,α表示连续的裕度在iv e对处应变n e g,并且[·]+表示函数max(0,·)。DSML(tri):对于基于SNR的三元组嵌入,jective function定义为:ΣN通过使用基于SNR的对比度损失(8)作为目标函数 , 我 们 提 出 了 基 于 深 度 SNR 的 哈 希 方 法(DSNRH)。深度度量学习和深度哈希学习之间的主要区别在于,学习到的嵌入需要在哈希中被量化为二进制特征因此,在我们的DSNRH中,在学习特征h之后,我们使用符号函数B=sign(h)来生成二进制J=[dS(hi,h+)−dS(hi,h−)+α]++λLr, (9)我我i=1这限制了正SNR距离应该小于负SNR距离,具有余量α。在三元组嵌入学习中,我们生成所有有效的三元组,并对正三元组的损失进行平均。DSML(已提升):对于基于SNR的提升损失函数,我们将SNR距离dSij展开如下:用于汉明空间检索的代码,其中二进制代码B由M位二进制码组成.类似于现有的散列学习方法[14,35],相似性标签给出为:如果两个图像i和j共享至少一个标签,则它们相似,否则它们不相似。4. 实验J=12Ni(i,j)∈P^max(0,Ji,j)+λLr,我们主要进行深度度量学习的实验并将我们的DSNRH与一些最先进的深度哈希方法进行比较。Ji,j= max(max(i,k)∈N^α−βdSik,max(j,l)∈N^ α−βdSjl)+βdSij,(十)4.1. 深度度量学习的实验其中,P1和N2表示非线性对和非线性对,α表示裕度,并且β是确保损失收敛的超参数。4.1.1数据集我们选择细粒度的CARS 196和CUB 200 -2011以及粗粒度的CIFAR 10 [12]作为我们的数据集。J我+4821P+RΣ表1.使用Alexnet的CARS196结果任务图像聚类图像检索评分(%)F1NMI召回@1召回@2嵌入尺寸163264163264163264163264对比9.210.611.031.534.433.38.914.016.310.316.118.4DSML(中文)12.911.911.839.937.036.115.116.518.017.518.6201三重19.416.915.450.947.946.824.820.619.528.223.522.1DSML(三)25.633.134.452.556.857.438.546.349.142.049.852.4解除27.129.028.153.154.453.937.239.140.641.242.944.3DSML(已提升)30.232.133.654.155.656.735.340.343.838.944.047.5N对26.929.929.551.853.553.632.936.338.336.739.842.1DSML(N对)30.733.132.754.554.456.437.840.444.939.844.548.6表2.CUB 200 -2011与Alexnet的结果任务图像聚类图像检索评分(%)F1NMI召回@1召回@2嵌入尺寸163264163264163264163264对比14.618.719.341.646.647.415.825.729.718.028.632.7DSML(中文)19.619.722.747.547.850.522.227.233.125.330.636.4三重23.622.121.756.555.655.333.932.832.637.836.435.6DSML(三)36.139.040.363.064.065.645.749.851.649.353.554.9解除36.036.537.260.961.161.443.244.546.846.447.850.4DSML(已提升)41.343.945.863.564.565.446.048.851.049.451.954.4N对34.735.737.659.660.061.539.940.743.143.344.446.9DSML(N对)37.638.140.562.461.963.142.346.248.548.649.751.9深度度量学习实验我们遵循传统的方法来分割训练和测试数据:(1) CARS196数据集包含196个汽车模型的16,185张图像。训练集和测试集由196个模型的8,144幅图像和8,041幅图像组成。(2) CUB 200 -2011数据集[32]包括200种鸟类的11,788张图像。训练集和测试集分别由5,994幅图像和5,794幅图像组成,共200类。(3) CIFAR10数据集[12]包含10个类别的60,000张32x32彩色图像。每类随机抽取100幅图像作为测试集,其余59,000幅图像作为数据库集.从数据库集中,我们随机选择每类500张图像作为训练集。在测试集上报告了CARS 196和CUB 200 -2011的实验结果,并通过在数据库集中查询测试集来报告CIFAR 10的结果。4.1.2实施细节和评估指标我们的方法基于TensorFlow实现。我们采用AlexNet[13]进行深度度量学习。在或-M传播我们使用具有0.9动量的小批量随机梯度这些实验的所有输入图像都被调整为227 x 227,以适应AlexNet的输入大小。为了评估不同深度度量学习方法的性能,我们遵循[20,34]中的协议对聚类任务和检索任务进行实验。对于聚类任务,我们在CUB 200 -2011和CARS 196上进行了实验,并使用NMI和F1得分来衡量不同方法的性能。NMI由互信息比、类的平均熵和标签的熵定义。F1度量计算精确度(P)和召回率(R)的调和平均值,并且F1 =2PR。对于图像检索任务,我们计算了CUB 200 -2011和CARS 196上实验结果Recall@K的计算方法是,如果从测试数据中的K个最近邻居中检索到语义相似的图像,则每个查询将得分1。MAP是平均精度(AP)的平均值,每个查询der生成d维特征hi∈R,我们重新-ΣTP(t)δ(t)将最后一个分类器层fc8与嵌入层一起放置计算为AP@T=t=1不′,其中T是隐藏单位M对于训练,我们从ImageNet上预训练的模型中微调除嵌入层之外的层,并训练嵌入层,所有这些都是通过反向训练实现的。4822t′=1δ(t)返回的图像的数量,P(t)表示精度如果第t个检索结果是查询的真邻居,则δ(t)= 1,否则δ(t)= 0。我们4823图3.调用CARS 196和CUB 200 -2011上的@K曲线,嵌入大小为64。虚线表示基于欧几里得的方法,实线表示基于SNR的方法。表3.CIFAR10上AlexNet的检索结果欧几里德排序汉明排名评分(%)MAP59000F1@5000MAP59000F1@5000嵌入尺寸163264163264163264163264对比75.573.469.369.167.261.465.566.961.861.262.256.9DSML(中文)80.079.879.072.972.772.173.776.676.970.072.271.4三重75.977.375.870.771.270.371.973.774.367.370.269.8DSML(三)78.478.377.472.472.571.673.474.575.369.970.870.8解除63.754.655.560.652.052.060.352.153.954.950.050.8DSML(已提升)78.176.276.773.571.171.866.974.370.758.170.567.1N对53.551.139.549.547.537.848.448.938.645.946.437.3DSML(N对)62.164.156.657.158.852.155.262.053.650.257.349.6使用MAP@59000和F1@5000作为CIFAR 10的评价标准,其中MAP@59000表示返回的top-59000图像上的MAP,F1@5000表示返回的top-5000图像上的F1得分。4.1.3结果和分析表1和表2显示了深度度量学习方法在CARS 196和CUB200 -2011上的性能,我们通过比较基于欧几里得的深度度量学习方法与我们的DSML在不同嵌入大小下的结果,包括16,32,64。我们观察到,所提出的基于SNR的度量提高了所有基准数据集上最先进的度量学习方法在CARS 196和CUB 200 -2011数据集上的实验结果显示了相似的趋势:与我们的DSML相结合,对比、三重态、提升、N对损耗的性能改进都是显著的。图3显示了CARS 196和CUB 200 -2011上Recall@K的检索结果,嵌入大小为64。结果表明,我们的DSML明显优于其他相应的基于欧几里德的方法。我们可以发现图3中最突出的曲线是DSML(tri),它比其他方法具有最高的性能。表3显示了CIFAR10数据集上两种检索策略的检索任务的比较结果:图4.在CIFAR-10数据集排序和Hamming排序。欧几里德排序是常用的检索方法,它计算实值特征的欧几里德距离来生成排序列表。汉明排序是基于二进制特征并计算汉明距离。为了得到二进制码,在实验中,我们利用符号函数对实值嵌入进行了量化。如表3所示,我们的DSML方法仍然具有优于相关的基于欧氏距离的度量学习方法的结果。提升损失和N对损失的不满意结果表明,这些损失不适合CIFAR10数据集,具有大量的图像,但只有10个类。图4显示了fea的t-SNE可视化[19]。4824表4.CIFAR 10和NUS-WIDE上汉明排名的MAP@50000与 CNN-F。DPSH* 表示重新运行DPSH作者提供的代码方法CIFAR10方法NUS-wide16位24位32位48位16位24位32位48位[44]第四十四话0.6080.6110.6170.618[44]第四十四话0.6090.6180.6210.631DSCH [43]0.6090.6130.6170.620DSCH [43]0.5920.5970.6110.609DRSCH [43]0.6150.6220.6290.631DRSCH [43]0.6180.6220.6230.628DTSH [35]0.9150.9230.9250.926DTSH [35]0.7560.7760.7850.799[14]第十四话0.9030.8850.9150.911[第14话]0.7150.7220.7360.741DSNRH(我们的)0.9250.9320.9340.940DSNRH(我们的)0.8300.8400.8520.862用DSML(DSML)学习的结构和CIFAR-10上的对比实验结果表明,用DSM-L(DSM-L)学习的特征具有更清晰的区分结构,而原始的对比损失则呈现出相对模糊的结构。令人鼓舞的表现,我们的DSML是因为我们的SNR距离度量有更大的权力,扩大类间距离和减少类内距离比传统的欧氏距离度量。此外,我们的SNR距离度量还可以保留图像对中的相关4.2. Hashing学习实验4.2.1数据集我们在两个数据集上评估性能:CIFAR 10和NUS-WIDE,并通过查询数据库集中的测试集报告结果。(1) 对于CIFAR10 [12],我们每个类随机选择1000个图像作为测试查询集,其余图像作为训练集和数据库集。(2) NUS-WIDE [4]由269,648张图像和81个标签组成与DPSH [14]和DTSH [35]类似,我们利用21个最常见的概念选择195,834个图像作为实验数据集。我们在每个类别中随机抽取100张图像(总共2,100张图像)作为测试查询图像,其余图像用作训练集和数据库集。4.2.2实施细节和评估指标与DPSH [14]和DTSH [35]类似,我们在DSNRH中部署了CNN- F网络架构我们实验的输入图像我们还使用小批量随机梯度下降(SGD)与0.9的动量,并给小批量大小的图像为100。我们根据返回的前50,000个邻居报告MAP@50,000结果,二进制代码长度为16,24,32和48位。为了有一个公平的比较,大多数现有的实验结果是直接报告从以前的作品。4.2.3结果和分析我们将我们的DSNRH的检索性能与五种深度哈希方法进行了比较,包括DPSH [14],DTSH [35],DRSCH[43],DSCH [43],DSRH [44]。的我们实验的MAP结果见表4。我们可以发现,我们的DSNRH大大优于所有其他方法。DSRH、DSCH和DRSCH等深度散列方法的性能都不如我们的方法,它们在两个数据集上的平均MAP结果仅在60%以上。DPSH和DTSH也基于CNN-F网络架构,但精度较低。我们的DSNRH的性能测试表明,我们基于SNR的度量也可以提高哈希代码学习的鲁棒性。5. 结论在本文中,我们提出了一种基于信噪比(SNR)的鲁棒距离度量,作为深度度量学习的相似性度量。通过用我们的SNR距离度量代替欧几里得距离测量,我们构建了基于SNR的深度度量学习,它可以生成比基于欧几里得的深度度量学习更具鉴别力的特征。在图像聚类和检索任务的广泛实验中,我们的DSML在三个基准测试中显示出其优于最先进的深度度量学习作为对基于信噪比的散列算法的扩展,本文还提出了一种基于深度信噪比的散列算法,并在两个基准测试上进行了实验,实验结果表明了该算法的优异性能。基于我们基于SNR的相似性度量的通用性,我们相信我们基于SNR的度量有希望进一步应用于更多的深度学习模型。确认这项工作部分得到了国家自然科学基金项目.61871052、61573068、61471048和61375031 和 北 京 新 星 计 划 批 准 号 :Z161100004916088。4825引用[1] Binghui Chen and Wehong Deng. Almn:深度嵌入学习与几何虚拟点生成。arXiv预印本arXiv:1806.00974,2018。2[2] Binghui Chen and Wehong Deng.能量混淆对抗度量学习用于零拍摄图像检索和聚类。在AAAI人工智能会议上,2019。3[3] Binghui Chen , Xiaomi Deng , Jiani Hu , and HaifengShen.基于混合注意力的解耦度量学习零镜头图像检索。在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。3[4] Tat-Seng Chua , Jinhui Tang , Richang Hong , HaojieLi,Zhiping Luo,and Yantao Zheng.Nus-wide:新加坡国立大学的真实网络图像数据库载于ICMR,第48页,2009年。8[5] Yin Cui,Feng Zhou,Yuanqing Lin,and Serge Belongie.使用深度度量学习进行细粒度分类和数据集自举,人类参与其中。在CVPR,第1153-1162页,2016年。2[6] Jason V Davis,Brian Kulis,Prateek Jain,Suvrit Sra,and Inderjit S Dhillon.信息理论度量学习。ICML,第209-216页。ACM,2007年。第1、3条[7] 李·H·迪克。高维线性模型中的方差估计。Biometrika,101(2):269-284,2014. 3[8] Amir Globerson和Sam T Roweis。通过折叠类进行度量学习。NIPS,第451-458页,2006年。2[9] Raia Hadsell,Sumit Chopra,and Yann LeCun.通过学习一个不变映射来降低维数. 空,第1735-1742页。IEEE,2006年。一、二、五[10] 陈煌,陈昌来,唐晓鸥。局部相似性感知深度特征嵌入。在NIPS,第1262-1270页,2016年。2[11] Jonathan Krause,Michael Stark,Jia Deng,and Li Fei-Fei.用于细粒度分类的3d对象表示。见CVPRW,第554-561页,2013年。6[12] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告,Cite- seer,2009年。五六八[13] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NIPS,第1097-1105页,2012中。6[14] Wu-Jun Li,Sheng Wang,and Wang-Cheng Kang.基于特征学习的深度监督散列与成对标签在AAAI,第1711-1717页,2016年。三、五、八[15] Shengcai Liao,Yang Hu,Xiangyu Zhu,and Stan Z Li.通过局部最大发生表示和度量学习进行个体再识别。在CVPR,第2197-2206页,2015年。2[16] Kevin Lin,Jiwen Lu,Chu-Song Chen,and Jie Zhou.使用无监督深度神经网络学习紧凑的二进制描述符。在CVPR,第1183-1192页,2016年。3[17] Haomiao Liu,Ruiping Wang,Shiguang Shan,and XilinChen.用于快速图像检索的深度监督哈希。在CVPR,第2064-2072页,2016年。3[18] Liu,Fumin Shen,Yuming Shen,Xianglong Liu,andLing Shao.深度草图散列:基于手绘草图的快速图像检索。在CVPR中,第2862-2871页,2017年。3[19] Laurens van der Maaten和Geoffrey Hinton使用t-sne可视化 数 据 。 Journal of Machine Learning Research , 9(Nov):2579-2605,2008. 7[20] Hyun Oh Song , Yu Xiang , Stefanie Jegelka 和 SilvioSavarese。通过提升结构化特征嵌入进行深度度量学习。在CVPR中,第4004-4012页,2016年。一、二、五、六[21] Sakrapee Paisitkriangkrai , Chunhua Shen , and AntonVan Den Hengel.学习排名的人重新识别与度量合奏。在CVPR中,第1846-1855页,2015年。2[22] FlorianSchroffDmitryKalenichenkoJamesPhilbinFacenet:用于人脸识别和聚类的统一嵌入在CVPR,第815-823页,2015年。一、二、五[23] 马修·舒尔茨和托尔斯滕·约阿希姆从相对比较中学习距离度量。NIPS,第41- 48页,2004年。2[24] Shai Shalev-Shwartz,Yoram Singer和Andrew Y Ng。伪度量的在线和批量学习ICML,第9
下载后可阅读完整内容,剩余1页未读,立即下载
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)