没有合适的资源?快使用搜索试试~ 我知道了~
10665--双曲空间方鹏飞1、3,梅尔塔什·哈兰迪2、3,拉尔斯·彼得森31澳大利亚国立大学,2莫纳什大学,3DATA 61-CSIROPengfei. anu.edu.au,mehrtash. monash.edu,Lars. data61.csiro.au摘要在双曲空间中嵌入数据已被证明对许多高级机器学习应用(如图像分类和单词嵌入)是有益的。然而,由于双曲空间的弯曲几何形状(例如,计算一组点的Frechet平均值需要迭代算法)。此外,在欧几里德空间中,可以求助于不仅享有丰富的理论特性而且还可以导致优越的表示能力(例如,无限宽神经网络)。本文在双曲空间中引入了正定核函数。这带来了两个主要优点,1。核化将为无缝地受益于结合双曲线嵌入的核机铺平道路;以及2. 与核机器相关联的希尔伯特空间的丰富结构使我们能够简化涉及双曲数据的各种操作。也就是说,在弯曲空间上识别 我们的工作解决了这一空白,并在双曲空间中发展了几个有效的正定核,包括普适的正定核(例如,RBF)。我们全面研究了各种具有挑战性的任务,包括少镜头学习,零镜头学习,人的重新识别和知识蒸馏,显示了双曲表示的核的优越性。1. 介绍本文提出了一族正定(pd)核函数,将双曲空间中的表示映射到再生核Hilbert空间(RKHS),使我们能够无缝地利用核函数机来分析双曲空间.在机器学习社区中,欧氏空间一直是特征嵌入的这主要是因为高维向量空间是对我们熟悉的三维空间的自然推广我们生活在并执行用于比较的基本操作(例如,计算距离和相似性)是直接的。然而,在欧几里得空间中嵌入可能会损害和扭曲结构化数据的编码,从而丢失数据中固有的复杂几何信息例如,欧几里得空间无法对图结构数据中的分层信息进行编码[38]。最近在计算机视觉方面的几项研究表明,与使用欧几里得几何的常见实践相比,使用双曲几何嵌入图像和视频可能是有益的。这包括诸如文本蕴涵[18],图像分类和检索[32]以及图形分类[38]等任务。双曲空间的特征在于一个常数的负截面曲率(与欧几里得空间的平坦结构相反),并且不满足欧几里得双曲空间的一个有趣的特性是它们编码分层数据的能力,因为双曲空间的体积呈指数增长[22],从而增加了它们的表示能力。虽然一些研究已经成功地采用了双曲几何推理[18,32,8],工作与这种非线性空间的困难仍然压倒了他们更广泛的使用。例如,虽然在欧几里得几何中求平均是直接的,但其在双曲空间中的对应物由弗雷歇平均来近似。计算Frechet平均值需要迭代算法,并且可能很容易变得昂贵[31,40]。这促使我们开发内核,使其能够无缝地受益,并采用内核机器来分析双曲线数据。为了能够使用内核机器,需要有一个pd内核函数供其使用。不严格地说,核函数是相似性的度量。欧氏空间中的许多常见核被定义为欧氏距离(其实际上是空间的测地线距离)的函数。以RBF核函数k(x,y)=exp(ξd2(x,y))为例。这可能意味着,一旦测地线距离已知,就可以构造弯曲空间(双曲空间是一个)中的有效pd核。不幸的是,如图所示,情况并非如此在[30,15](比较,[30]中的定理6.2),因为这样的曲线10666内核配方:k(zi,zj)条件性能双曲正切核双曲RBF核双曲拉普拉斯核广义双曲Laplace核双曲二项式核K(z,z)= exp−ξf(z),f(z)RBFktan(zi,zj)=∠fD(zi),fD(zj)∠k(z,z)= exp−ξglap.2IjDIDJklap(zi,zj)=exp−ξf(z),f(z)k(z,z)=1−﹥f(z),f(z)﹥斌.DIDJΣΣIj..f(z),f(z)DIDJ2αDIDJΣ−αΣ-ξ >0ξ >0ξ>0, 0<α 1α >0PDpd , 通 用pd , 通 用pd,通用表1.双曲空间中提出的正定核及其性质的综述fD(z)=tanh−1(√cz)√z,c >0且z∈Dnczc空间与平坦欧氏空间不是等距的。有趣的是,在弯曲空间上定义pd内核的困难现在被认为是机器学习中的一个开放问题[14]。在本文中,我们使用庞加莱模型解决了双曲表示的pd核的设计挑战。在这里,我们提出了几个有效的pd双曲核,包括强大的通用的。为此,我们首先利用一个引理来构造一个有效的线性类核。利用这个引理,我们进一步定义有效的RBF和拉普拉斯内核的双曲几何。最后,我们提出了二项式核。表1总结了所提出的内核。这项工作的贡献包括:我们提出了四个双曲空间的pd核,即双曲正切核,双曲RBF核,双曲拉普拉斯和双曲二项式核,结合他们的理论分析。据我们所知,这是第一个工作,以发展pd内核在双曲空间。为了评估所提出的内核的能力,我们对各种视觉任务进行了彻底的实验,包括少镜头学习,零镜头学习,人员重新识别和知识蒸馏,并沿着深度神经网络(DNN)使用内核以获得丰富的推理模型从经验上讲,我们观察到了双曲空间中表示学习的核化的优越性。2. 相关工作几何约束学习几何约束在深度学习中得到了广泛的研究,这推动了网络对数据的复杂结构进行编码。通过拟合子空间[47]来提高集合的表示能力。在SVDNet中,正交性约束强制位于Grass-mannian流形上的全连接层,其使条目之间的特征去相关[50]。[39,41]中的工作还表明,在球形空间中嵌入对于相似性学习特别有效(例如,面部验证、聚类)与使用欧几里德空间相比。近年来,双曲几何由于其树状性质和计算能力而获得了极大的兴趣。在数据中编码分层关系。推广欧几里得几何中的基本运算,工作[18]开发了神经网络中的双曲层。以下工作进一步显示了双曲嵌入的成功,图形结构的数据,语言数据,视觉数据以及3D数据[38,21,32,4]。在[20,48]中还研究了更复杂的数据结构,其表示混合曲率几何中的数据。内核方法核方法已被广泛研究,并在广泛的机器学习方法中证明了其成功,例如,SVM、PCA和聚类[26]。核方法的主要思想是将输入样本投影到高维(甚至无限维)再生核希尔伯特空间(RKHS),其中投影数据可以用线性模型进行分析。为了避免显式提升到RKHS,内核技巧提供了一种简单的方法来生成RKHS中对的相似性度量。最近,通过将核方法推广到非线性几何形状来提高结构化数据的表示能力的尝试获得了越来越多的关注。在非欧几何上定义有效pd核的常见策略是采用适当的距离度量。在[29]中,作者提出了设计对称正定矩阵上的高斯核的主要理论框架所提出的理论被进一步 验 证 以 在 格 拉 斯 曼 流 形 上 开 发 高 斯 核 [30] 。Grassmann流形的核在[23]中进行了研究。使用Fisher信息度量的核是为[35]中的持久性图开发的。与我们的工作最接近的研究是Cho等的工作。[8],其在双曲空间中制定了支持向量机(SVM)为了简化非线性决策边界,在[8]中还引入了双曲空间然而,所提出的不定核不是通用的,因此破坏了通用近似性质[42]。与已有的工作相比,我们的工作发展了双曲几何上正定核的理论框架。作为一个补充概念的不定核,我们的工作kernelizes双曲空间,从而嵌入到一个高,可能是有限的,维希尔伯特空间双曲数据。在本文的其余部分,我们将提出的理论和评估算法在不同的挑战性的应用。··10667H×个.Σ注意ΥΓ(p)=p∈TD. 指数zz ze2x+1C·→CC∈CCΣΣ−zCCCCM对任意m∈N,z,cck(z,z)≥0∈ Z且dc(zi,zj)=√ctanh(.ΣΣΣ×→∈C3. 预备和背景3.1. 符号在形式上,我们用Hn,Rn,Rm×n和来表示n维双曲空间,n维欧氏空间,mn实矩阵空间和Hilbert空间.在整个论文中,矩阵和向量用粗体大写字母表示(例如,X)和粗体小写字母(例如,x)分别。矩阵转置(例如,X)nc并且对数映射是单射函数。 在本页中-per,我们利用单位切平面中的欧氏空间来定义双曲空间的核。4. 双曲空间在本节中,我们提出了双曲空间中的正定(pd)核 。 本 质 上 , 我 们 感 兴 趣 的 是 识 别 二 元 函 数 k(·,·):(Dn×Dn)→R,其中或载体(例如,x)由上标T表示,例如C cXT或XT。 tanh():R R,tanh(x):=e2x−1是双曲正切函数。3.2.双曲几何n维双曲空间Hn是具有常负曲率的黎曼流形[1]. 庞加莱球是一个n维双曲几何模型,其中所有的点都嵌入在一个n维球体内(或者在二维情况下嵌入在一个圆内,称为庞加莱盘模型)。形式上,具有曲率c的庞加莱球模型被定义为流形Dn={z∈Rn:cz1},黎曼度量gD(z)=λ2(z)·gE,其中λc(z)是共形因子,<表示再生核希尔伯特空间(RKHS)中的内积显然,并非所有二元函数都构成有效的内核,这意味着它们不一定实现RKHS。此外,欧氏空间中流行的内核将双曲点嵌入到RKHS中不仅在理论上是可行的,而且由于RKHS的有趣特性,还可以产生实际益处。这包括RKHS [26]、内核双样本测试[19]、神经正切内核[28]的代表性能力。在本文中,我们利用双曲几何的切空间定义了一组有效的pd核。我们从正式定义PD内核开始定义为21−cz2,并且gE=In是欧几里得度量定义1.( 正定核[3])设Z为张量此外,为了便于向量运算,可以使用M?bius回转向量空间y。对于zi,zj∈Dn的M¨bius加法定义为:非空集合。对称函数k(·,·):(Z ×ZΣ)→R是Z上的正定核当且仅当ziczj=(1+2czi,zj+czj2)zi+(1−czi2)zji,j=1i j i j ic i∈ R。1+2czi,zj+c2zi2zj2Dn上的测地距离为:(一)对我们的工作至关重要的是下面的引理;引理1. 设Z是一个非空集。考虑一个函数f(·):Z→Rn,其将Z的每个元素唯一地映射到2−1√Rn. 然后,k(zi,zj)=f(zi),f(zj)对于一个点zDn,在z处的切空间,记为TzDn,是一个内积空间,它包含在z处所有可能方向的切向量。点z处的黎曼度量gD是正定对称双线性的是Z上的pd内核。证据这个引理的证明可以直接从定义1得出。要看到这一点,请定义CnDn n在TzDc上的函数为gc(z):(TzDcTzDc)R. 前...ponential map提供了一种投影点pTzDnPoincare球Dn,如下所示:Fn×m:=注意Mf(z1),f(z2),···,f(zm)..√ λc(z)·ppΣΣcicjk(zi,zj)=cTKc=cTFTFc=Fc2≥0.Γz(p)=zc丹2)√cp.(三)i,j=1逆过程称为对数映射,其将点q∈Dn投影到z的切平面,给定Km×mi,j = k(zi,zj)称为格拉姆矩阵。基于引理1,我们提出利用如:Yz(q)=√2cλc(z)Ctanh−1(√c−zcq) −zcq.(四)Dn-Rn定义为,(1)A=0(zcz)√czfD(·):、(c−ziczj)。(二)√.10668五)10669C·.Σ¨¨.Σ⟨⟩-−e ··−·Z-ZZ0的情况。1CMMCci∈R,其中Σm-−(M × M)→R:k(mi,mj)=exp(−ξd(mi,mj))c i=0。·→ZΣ)→Σe在Dn上开发有效的pd内核。函数fD()具有各种独特的性质。首先注意,该函数是双射的并且fD(z)= Y0(z)。下一个定理建立定理2([ 30 ]中的定理6.2)。设M是完备黎曼流形 , dM 是 流 形 上 的 诱 导 几 何 距 离 . 高 斯 RBF 核 k(·,·):这是一个重要的属性,更好地证明了我们的选择定理1(曲线长度等价)。 D n中的曲线是:2是正定f或所有ξ>0当且仅当M是黎曼连续函数Dnc流形M与某个欧氏空间Rn等距。γ():[0,1]c.将起点γ(0)连接到终点γ(1)。定义由f D引起的距离为d ezi,zj:=fD(zi)−fD(zj)。(六)任何给定曲线γ的长度在de和几何距离dc下是相同的,直到1/λ~c的标度,其中reλ~c=2是原点处的共形因子证据由 于 篇 幅 所 限 ,证明仅作为本文的补充材料。有了fD,我们现在可以定义双曲空间4.1. 双曲正切核根据定理2,理论上不可能在双曲空间1上使用测地距离获得有效的RBF核。鉴于上述情况,我们建议使用de(·,·)并将双曲RBF核定义为krbf(zi,zj)=exp−ξfD(zi)−fD(zj)2.(七)为了表明Eq.(7)是有效的pd核,我们首先定义了负定(nd)核。定义2(负定核[3])。设Z是一个非空集。 对称函数k(·,·):(Z × R是Z上的负定核当且仅当Mi,j=1对任意m∈N,zi∈Z,cicjk(zi,zj)≤0i=0时最简单的pd核类似于欧几里得空间中的线性核,定义为注意pd和nd内核之间的区别。为ND内核,附加条件(即,MCi=0)ktan(zi,zj)=fD(zi),fD(zj). 我们称这个核为双曲正切内核,因为它可以被理解为线性内核Poincare球的单位切空间这个内核很有吸引力,因为它是无参数的,使其成为快速原型的理想选择双曲正切核的正定性的证明直接从引理1得出。4.2. 双曲RBF核函数高斯RBF核函数是欧氏空间中一种通用的核函数。在Rn中,RBF核可以写成k(xi,xi)=exp(ξxixj2),ξ>0,其中度量是Rn中的平方欧几里德距离。考虑到RBF核[9]的性质,非常希望将该核扩展到双曲空间。可以假定用测地线距离(即,当量(2))可以导致有效的PD内核。不幸的是,情况并非如此,如下面的玩具示例所示。i=0时是必需的. 下面的引理表明d2(·,·)=fD(zi)−fD(zj)引理2. 设为非空集。内射函数f():Rn 将每个向量映射到内积空间Rn上。则k(zi,zj):= f(zi)f(zj)2是负定的。证据由 于 篇 幅 所 限 ,证明仅作为本文的补充材料。下面的重要定理建立了正定核和负定核之间的定理3. ([3])设Z是非空集,k:(Z × Z)→R是核。核k(zi,zj)=exp(−ξΦ(zi,zj))对所有ξ > 0是正定的当且仅当Φ(·,·)是负定的。陈述d2(,)是nd的事实连同定理3得出我们的主张:例1. 考虑D3以及以下几点:0的情况。1885年0。65860. 30170. 2388z1=0。2330,z2=0。2053,z3=0。4155,z4=0。8290。0的情况。95260的情况。08940的情况。53570的情况。3790由方程式(7)是Pd。4.3. 双曲拉普拉斯核拉普拉斯核是另一个广泛使用的通用欧氏空间中的核,公式为k(xi,xj)=G r am矩阵(i. 例如,exp(−ξd2(zi,zj)),其中ξ=0。0 1)的负特征值为−3。0605× 10−5。对于上面的反例,根据以下定理,从测地线距离导出的RBF核exp(ξxixj),ξ >0。当将拉普拉斯核扩展到双曲空间时,我们使用以下定理来构建双曲空间的nd核1如果流形等距于某些欧氏空间Rn,则上的测地距离是Rn中的欧氏距离。然而,由于两种几何的曲率不同,不可能找到Dn和Rn之间的等距。10670≥Z × Z →Σ2αf(z),其中0<α<1。DJ.Z →ZZnCC我我 J我 J我Jriesk(zi,zj)=(1−t)−α=∞−α (−1)ntnholds我 JD我DJ.Σ4 [49] and ResNet-18 [24] CNN backbones in our ex-j=1我 J丁空间,这应该是适应认识看不见的定理4. ([3])若k:()R是负定的且满足k(zi,zj)0,则k α对0<α<1也是负定的.组合定理 3和定理4,并选择α=1,我们可以得到双曲拉普拉斯核为5. 实验首先,我们解释的推理与交叉熵的损失函数使用内核。具体地,对于具有标签l的训练样本fi,交叉熵损失由下式给出:2圈我. −ξd(feJ(z),f 我(z))Σ=exp.--Jexp(s(f,w))ξfD(z)−fD(z)Σ。拉普拉斯方程的更一般形式L=−log(ΣN)的情况下,exp(s(f,w))内核(即,广义双曲拉普拉斯核)可以是进一步定义为:kglap(zi,zi)=exp−ξfD(zi)−4.4. 双曲二项式核其中wi表示fi和N是数据集中的类数。然后,我们将我们的内核应用于Eq。(9)如:Kg(k(fi,wi))除了指数型核之外,我们还构造双曲二项式核。为了获得超-L=−log(ΣN)的情况。(十)g(k(f,w))在bolic binomial kernel中,我们使用以下引理。引理3. 设为非空集。一个内射函数f:Rn,将每个向量映射到内积空间Rn上。则k(z,z):= 1− ﹥f(z),f(z)﹥−α定义Z上的一个二项式核,当α>0且﹥f(z)﹥ <1时。证 据 根 据 文 献 [ 9 ] 中 的 引 理 4.8 , 如 果 函 数 k(·,·)可以分解为一个全泰勒级数,且每一项都是非负的,则我们可以说k(·,·)是一个有效的函数。 设t=∠f(ziΣ),f(zj. ),tΣhebinomialse-|1,其中二项式系数|<1, where thebinomial coefficientβ值:=这里,如果k(·,·)是非指数型核,则g(·)是exp映射。否则,g(·)是恒等映射。在本节的剩余部分中,我们将全面评估所提出的算法对各种具有挑战性的任务的有效性,即,少镜头学习、零镜头学习、人的再识别和知识蒸馏。补充材料中提供了本文中所做的所有实验的全部细节。5.1. 少数学习为所有n=0n.ΣQn(β−i+1)/i。可以看出.−αΣ(−1)nn>0时类,只给出每个新类的几个样本。α>0,这表明二项式核具有非负泰勒级数根据引理3,我们可以得到超-双曲二项式核函数类[49,27]。在我们的实验中,我们遵循一般的实践(即,5-1路1次和5路5次和15次查询图像)来评估模型。 我们使用管道原型网络(ProtoNet)[49]以及提出的内核来训练特征提取器。kbi n(z,z)=. 1−﹥f(z),f(z)﹥Σ−α,α>0。(八)在特征提取器方面,我们使用Conv-此外,考虑到非负性和完整的泰勒级数在上面的证明中,我们可以进一步声称双曲二项核满足充分必要条件[9]的推论4.57所示注1. 如前所述,我们利用了庞加莱球的单位切空间(即Dn)来定义双曲空间的pd核。这意味着使用D n的李代数来定义核。这种构造已经成功地用于其它歧管(例如,如在[30]中的SPD)。在本文中,我们采用卷积神经网络(CNN)的内核,以获得丰富的计算机视觉任务的模型。CNN将输入数据编码为分布在双曲空间中的向量。然后,所提出的内核被进一步用于训练网络。i=1(zi,zj)= expKDD我(九)j=1需要少量学习(FSL)来学习嵌入式10671实验此外,委员会认为, 四种流行的基准,即,miniImageNet[11],CUB[53],分层ImageNet[45]和采用少射-CIFAR 100(FC 100)[43]进行评估我们的算法我们用Conv-4和ResNet-18bones用于评估miniImageNet和CUB数据集,Conv-4主干用于评估分层ImageNet和FC 100数据集。有关每个数据集的统计和实施细节的更多详细信息,请参阅补充材料。表2、3、4示出了四个数据集的结果。我们观察到,我们的算法相比,他们的双曲线计数器的一部分和其他先进的方法,提高了几杆识别性能。此外,双曲RBF核的结果一般超过其他核的结果。例如,在5路5次设置中,双曲RBF核优于Hy-perbolic ProtoNet [32]3。42,2。68,4。52和2。64用于10672·----||Σj=1J我|Ls|exp- e(a)− v、miniImageNet,CUB,分层-ImageNet和FC 100,分别清楚地显示了通用内核的潜力和优越性。表2. 迷你ImageNet数据集上的少量分类结果,置信区间为95%5.2. Zero-shot学习零拍摄学习(ZSL)旨在识别在训练阶段看不到的对象[2,55]。我们首先建立一个基线网络的情况下,零杆识别。在训练阶段,我们随机采样Nb个可见的视觉特征为V=v1,. . .,vNb .所有的语义特征被投影到视觉空间,表示为E=e(a1),. . .,e(a|Ls|其中,Ls表示训练集中所看到的类的数量。在我们的实现中,嵌入函数(即,e())是一个简单的两层MLP,每层堆叠线性变换、ReLU激活和批量归一化。然后通过以下交叉熵类型损失来训练NbNb..−−ΣΣ1Lzsl=−日志expΣ(e(a) vi.Σ哪里 a*与共享同一标签五岛 基准网-表3. CUB数据集上的少量分类结果,置信区间为95%。t表示网络是自实现的。模型骨干单次拍摄5次射击MatchingNet [52]Conv-461岁16 ±0。8951岁31 ±0。9155. 92 ±0。9562. 45 ±0。98五十三15±0。84六十四02 ±0.20七十二86±0。70七十77 ±0。69七十二09 ±0.76七十六。11±0。6981. 90 ±0。6082岁53 ±0。14ProtoNet [49]Conv-4MAML [16]Conv-4联系网络[51]Conv-4DN4 [37]Conv-4[32]第三十二话Conv-4双曲正切核双曲RBF核双曲Laplace核双曲二项式核Conv-4Conv-4Conv-466岁。14±0。23七十98± 0。2268岁27 ±0。2369岁。05 ±0.2382岁11 ±0。15八十五21±0。1384. 64 ±0。1383岁00 ±0。14基线[6]ResNet-18六十五51±0。8767岁02 ±0.7767岁59 ±0。5869岁。96±1。01七十一88±0。91七十二36±0。90七十二86±0。2282岁85 ±0。5583岁58 ±0。5482岁75 ±0。5882岁70 ±0。6586岁。64±0。5183岁64 ±0。60八十五69±0。13基线++[6]ResNet-18联系网络[51]ResNet-18MAML [16]ResNet-18ProtoNet [49]ResNet-18MatchingNet [52]ResNet-18[32]第三十二话ResNet-18双曲正切核ResNet-18七十三。52±0。2288岁75 ±0。11双曲RBF核ResNet-1875. 79± 0。2189岁。98±0。11双曲拉普拉斯核双曲二项式核ResNet-18ResNet-1874岁37 ±0。2174岁46 ±0。2289岁。08 ±0.1289岁。28±0。11表4. 分层ImageNet和FC100数据集上的少量分类结果,置信区间为95%。†表示网络是自我实现的。模型分层-ImageNet FC 100i=1模型骨干单次拍摄5次射击MatchingNet [52]Conv-4四十三56±0。8444. 53 ±0。76四十八70±1。8450块44 ±0。8251岁24 ±0。7451岁78 ±0。96五十四43±0。2055. 31 ±0。73六十五77±0。6663岁11 ±0。92六十五32±0。70七十一02 ±0.6468岁99 ±0。69七十二67±0。15ProtoNet [49]Conv-4MAML [16]Conv-4联系网络[51]Conv-4DN4 [37]Conv-4DSN [47]Conv-4[32]第三十二话Conv-4双曲正切核双曲RBF核双曲Laplace核双曲二项式核Conv-4Conv-4Conv-455. 61 ±0。21五十六48±0。20五十六26±0。20五十六82±0。2074岁81 ±0。16七十六。09±0. 1675. 35 ±0。1575. 27 ±0。15单次拍摄5次射击单次拍摄5次射击[32]第三十二话五十四44±0。23七十一96±0。20三十七59±0。1951岁76 ±0。19双曲正切核五十四73±0。2274岁37 ±0。18三十七66±0。1752岁29 ±0。18双曲RBF核五十七78±0。23七十六。11±0。18三十八岁。93± 0。18五十四40±0。1810673×× ×工作在欧几里得空间上进行的使用补充材料中详细说明了ZSL的内核。四个数据集,即[2019 -04-14][2019 - 04 - 14][2019 -04 -14][2019 - 04][2019 - 04 - 19]AWA 2[2]被采用来评估我们的算法在gen-based中的额定ZSL(GZSL)设置。我们报告前1平均值类准确度(MCA),并且还计算调和平均值(HM)得分,即HM= 2US/(U + S)。有关每个数据集的统计数据和实施细节的更多详细信息,请参阅补充材料我们首先通过将它们与基线进行比较来评估我们的方法的有效性。如表5所示,每个双曲线核都对基线网络带来了显著的改进。例如,最简单的双曲正切核将HM值在基线上提高了六、1,21。六二十一9和14。SUN、CUB、AWA1和AWA2为1分别此外,功能强大的双曲RBF ker-nel或双曲拉普拉斯核继续提高表示能力,再次显示了用于嵌入学习的核设计的优越性为了进一步验证我们的方法的有效性,我们继续将我们的方法与几种流行的ZSL算法进行比较,包括最先进的非生成方法[56,36]。我们观察到,我们的双曲RBF内核和双曲拉普拉斯内核在四个数据集上实现了与最先进的方法竞争的结果。ZSL是一项非常具有挑战性的任务,虽然表5中的方法都没有在所有四个数据集上实现最佳性能,但它非常具有竞争力。因此,为了客观地建立这一点,我们采用弗里德曼检验2[10]比较算法。如表5的最后一列所示,排名列表清楚地表明我们的方法2弗里德曼检验是多个数据集的非参数测量。它分别对每个数据集的算法进行排名,并计算每个数据集的平均排名作为排名分数。10674表5. SUN、CUB、AWA1和AWA2数据集上的零炮识别结果。U和S分别表示不可见和可见类的准确度。HM是U和S的调和平均值。模型孙幼崽AWA1AWA2弗里德曼检验(等级)U S HMU S HMU S HMU S HMLATEM [55][第17话]DEM [57]ALE [2]SP-AENCRnet [56]Kaiet al. [36个]14.728.8 十九点五16.927.4 20.920.534.3 二十五点六21.833.1 二十六点三24.938.6 30.334.136.5 三十五点三36.342.8 39.315.257.3 二十四分23.853.0 三十二点八19.657.9 二十九点二23.762.8 三十四点四34.770.6 四十六点六45.556.8 五十点五47.447.6 47.57.3 71.7 十三点三13.468.7 二十二点四32.884.7 四十七点三16.876.1 二十七点五-58.174.7 六十五点四62.777.0 六十九点一11.577.3 20.017.174.7 二十七点八30.586.4 四十五点一14.081.8 二十三点九23.390.9 三 十七 点一52.678.8 63.156.481.4 六十六点七12.0(12)10.0(11)9.33(9)9.33(9)7.67(7)三点(四)2.83(3)8.67(8)基线22.838.0 二十八点五18.644.6 二十六点三29.876.4 四十二点九25.576.4 38.2双曲正切核双曲RBF核双曲Laplace核双曲二项式核29.442.0 三十四点六37.043.3 三十九点九35.144.2 39.126.943.8 三十三点三40.858.1 四 十七 点九44.657.8 50.346.256.1 50.739.856.9 46.852.385.2 六十四八59.084.6 六十九点五60.783.5 70.343.788.9 五 十八 点六37.188.5 五十二点三42.989.5 五十七点九分54.187.1 六十六点七39.890.5 五十五点四五点(五)2.67(2)1.83(1)5.67(6)具有双曲拉普拉斯核和双曲RBF核的ods通常是用于ZSL任务的最佳两个选项。5.3. 人员重新识别人员重新识别(re-ID)是视频/多摄像机监控任务中的重要应用[13,12]。在工作[32]之后,ResNet-50,在ImageNet上预先训练,被用作骨干网络,我们还在三个维度上进行实验,即:32、64、128,用于特征表示。Market-1501[58]和DukeMTMC-reID[46]行人数据集都用于评估我们的方法。我们使用平均精度(mAP)和累积匹配特征(CMC)的秩-1精度来评估我们的算法。与FSL和ZSL不同,我们在re-ID实验中使用广义双曲拉普拉斯核,因为我们观察到与双曲拉普拉斯核相比,广义双曲拉普拉斯核实现了相当好的性能详情请参阅补充材料。我们比较所提出的算法的方法[32]。如表6所示,我们观察到我们的算法对两个数据集的检索性能带来了积极的影响,特别是对于mAP值。在market-1501数据集中,与[32]相比然而,我们也观察到,二项式内核不能在不同的嵌入大小表现良好在DukeMTMC-reID数据集上,我们的方法在R-1和mAP值上都优于其双曲型对应方法,并且RBF核是最强大的核,在每个维度上都优于其他核。例如,双曲RBF核将R-1 / mAP值比工作[32]提高了5。六分之一。六三0/7。2和1. 9/6。8对于32、64和128的尺寸分别是这样。5.4. 知识蒸馏知识蒸馏(KD)是一种有效的方法来训练一个小的学生网络,在一个10675·i=1L−Σ表6. Market-1501和DukeMTMC-reID数据集上的人员重新识别结果。中的值表示低于[32]中的性能的结果。g-双曲拉普拉斯核表示广义双曲拉普拉斯核。型号DimMarket-1501 DukeMTMC-reID预先训练的更大的教师网络[25,7]。在教师-学生网络中,教师网络的输出充当训练学生网络的基础事实。对于训练图像(例如,X)时,教师网络和学生网络生成预测得分g=[g1, g2,. . .,g N]和p=[p1 ,p2,. . . ,pN],则表示相对于水平。注意,g和p由softmax函数归一化则KD损失由下式给出:kd=Ng ilog(p i)。我们使用ResNet-20作为教师网络,使用简单的4层CNN作为学生网络。我们报告了CIFAR-10和CIFAR-100基准测试的结果[33]。补充材料中总结了内核、网络架构和数据集的使用细节。我们使用top-1平均精度来评估网络。有关网络训练和相应超参数的更多详细信息,请参阅补充材料如表7所示,我们可以再次发现我们的双曲克尔-R-1地图R-1地图欧几里德[32]#3268.043.457.235.7双曲线[32]#3275.951.962.239.1双曲正切核#3275. 453.363.942.5双曲RBF核#3276.054.367.346.3g-双曲Laplace核#3278.756.364.140.7双曲二项式核#3275. 255.063.744.7欧几里德[32]#6480.557.868.345.5双曲线[32]#6484.462.770.848.6双曲正切核#6485.868.073.954.2双曲RBF核#6485.265.773.855.8g-双曲Laplace核#6485.468.473.350.6双曲二项式核#6483岁064.671.554.0欧几里德[32]#12886.067.374.153.3双曲线[32]#12887.868.476.555.4双曲正切核#12889.474.178.660.9双曲RBF核#12888.973.578.462.2g-双曲Laplace核#12887岁六个72.477.359.610676·核提高了基线上的精度,并且双曲RBF核带来了最大的性能增益,3 .第三章。四分之一CIFAR-10/CIFAR-100分别为5表7. CIFAR-10 / 100数据集的知识蒸馏结果。g-双曲拉普拉斯核表示广义双曲拉普拉斯核。模型CIFAR-10CIFAR-100基线80.549.9双曲正切核82.150.5双曲RBF核83.654.4g-双曲Laplace核83.253.9双曲二项式核81.651.8可以显著优于普通欧几里德核,再次表明所提出的核的合理设计。858075706560555045无核正切RBF Laplace二项式内核5.5. 进一步研究据我们所知,我们的工作是第一个develop pd核在双曲空间。也就是说,在[8]中开发了不定双曲核。我们比较和对比了这两个学派的思想。在这样做的时候,我们考虑了少量学习的问题,并遵循[32]的设置。对于不定核,我们使用[8]中提出的Minkowski内积核(详见补充材料)。我们已经评估了我们的pd内核和不 定 内 核 在 miniImageNet , CUB , tiredImageNet 和FC100数据集上进行5路5次学习的性能图图1示出了由不定核获得的性能与PD核的性能不匹配,清楚地示出了PD核用于双曲表示的潜力。9080706050miniImageNet CUB分层-ImageNet FC 100数据集图1.双曲表示的不定核与pd核的性能比较人们可能想知道双曲空间和它们的核与简单的欧几里得核相比最后,庞加莱球被嵌入到n维欧氏空间中,因此可以无缝地应用传统的内核。在图2中,我们使用迷你ImageNet数据集在少量学习任务中再次将所提出的内核与其欧几里得对应物进行比较。我们观察到:(1)欧氏空间和双曲空间中的核机器都为深度神经网络带来了性能增益(2)提出的双曲核图2.核函数在欧氏空间和双曲空间上的性能比较。备注2(采用双曲线几何学的良好实践)。很少有人研究双曲空间中的嵌入学习问题[4,32]。 但已有的工作是在原点的切空间中生成向量,并利用Γ 0()映射投影到双曲空间。该框架的缺点是,由于每个表示在单位元处被展平,换句话说,只有vec-非常接近原点的tors表示双曲线距离。相比之下,在我们的实验中,我们直接在庞加莱球中生成双曲表示。因此,我们观察到各种应用可以受益于高曲率(即,c).例如,在人的重新识别任务中,庞加莱球的曲率在我们的算法中是10- 2,而[32]中的工作将其设置为10- 5,这使得庞加莱球非常平坦。6. 结论本文提出了一个正定核族,以嵌入Hilbert空间中的双曲表示。在这样的核中,我们利用庞加莱球的单位切空间,并进一步定义有效的正定核单位切空间。所提出的核包括强大的通用核(即,双曲RBF核、双曲拉普拉斯核和双曲双项核)。我们评估了核在各种具有挑战性的应用中的有效性,例如少镜头学习,零镜头学习,人员重新识别和知识蒸馏,并且实证结果显示了通过双曲空间中的核进行嵌入学习的积极结果。未来的工作包括将所提出的内核开发到其他应用(即,自然语言处理和图形神经网络)。此外,我们发现核的有效性是依赖于数据的,我们想要开发一个规则,为给定的数据选择正确的核。双曲空间不定核双曲正切核双曲RBF核双曲拉普拉斯核双曲二项式核准确度(%)准确度(%)10677引用[1] P. -一个Absil,罗伯特Mahony,和Rodolphe Sepulchre。矩阵流形上的优化算法。普林斯顿大学出版社,2007年。三个[2] Zeynep Akata 、 Florent Perronnin 、 Zaid Harchaoui 和Cordelia Schmid。用于图像分类的标签嵌入PAMI,2015年。六、七[3] Christian Berg、Jens Peter Reus Christensen和Paul Res-sel.半群上的调和分析。Springer,1984年。三、四、五[4] Jiaxin Chen,Jie Qin,Yuming Shen,Li Liu,Fan Zhu,and Ling Shao.学习专注和层次表示的三维形状识别。在ECCV,2020年。二、八[5] 陈龙,张汉旺,肖军,刘伟,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功