没有合适的资源?快使用搜索试试~ 我知道了~
1××深度局部描述符视觉识别小组,FEE,CTU在布拉格摘要我们提出了一种基于神经网络激活的有效匹配核的核化深度局部补丁描述符。每个感受野的响应与其空间位置一起使用显式特征图进行编码。两个位置参数化,笛卡尔和极坐标,用于提供鲁棒性的不同类型的规范补丁错位。此外,我们分析了传统的架构,即。在卷积部分之后附加的全连接层以空间变化的方式对响应进行编码。与此相反,显式的空间编码中使用的描述符,其潜在的应用不限于本地补丁。我们在标准基准上评估描述符。这两个版本,编码32 - 32或64 - 64补丁,始终优于所有其他方法的所有基准。模型参数的个数与输入面片分辨率无关.1. 介绍局部特征提取和表示仍然是许多计算机视觉应用的重要组成部分,涉及许多不同的问题。一个常见的和良好的执行程序是一个序列的三个步骤:局部特征检测[16,27,29,6,25],局部补丁整流成规范形式,最后从规范补丁描述符构造[28,6,25,14]。局部块描述符的期望属性是两个描述符之间的欧几里德距离或点积指示它们是否匹配,即,局部特征大致来自3D场景的相同表面。描述符方法已经从手工制作转变为目前最成功的基于卷积神经网络(CNN)的方法[58,46,5,30,49,33]。完全卷积神经网络将图像或补丁作为输入并产生张量,其中每个空间位置处的向量可以被视为其感受野上的检测器响应。在可变大小或非对齐输入(如图像)的情况下,响应张量通常通过某种形式的全局池[40,19,39]转换为描述符,这会丢弃几何信息。的全局池类似于特征袋[13,48]或描述符聚合[37,18]。在固定大小的对齐输入的情况下,例如校正的图像块,张量被矢量化并进一步处理。矢量化与SIFT中的空间箱矢量化具有相似的解释[25]。通常,矢量化张量由单个全连接(FC)层处理[30,49],可以解释为空间的学习仿射(线性和偏置)变换,例如,白化和降维,或者作为具有有效匹配核(EMK)的空间相关嵌入[9,11](参见第3.2节)。这项工作的关键贡献是CNN模块,它明确地对纠正补丁的空间信息进行建模。它的适用性不限于本地描述符。由局部特征匹配得到的两个校正后的面片在一般情况下是不完全相同的。这种差异有两个来源,即成像过程中的外观变化和几何错位。前者来自于不同的光照条件、表面的非平面性、成像伪影等。后者是由所检测到的特征覆盖3D表面的略微不同的区域,或不正确的修补程序的整流所引起的。这些都是外观变化或探测器几何不变性不足的后果,即。仿射不变检测器作用于投影变换的表面。关于手工制作的特征描述符的先前工作已经表明,明确地解决几何未对准是有益的。处理此问题的一些方法是在SIFT中将梯度软分配给bin以及在不同[11]或多[32]坐标系中通过内核方法进行连续CNN在对外观变化进行建模方面很强大,而在对几何位移进行建模方面很弱(至少使用单个FC层)。最近的方法提出了在CNN中合并空间信息的不同方式[34,24],但它们的应用领域与局部描述符不同。在这 项 工 作 中 , 我 们 提 出 了 高 效 的 匹 配 内 核 ,explanetary编码的响应的空间位置的几何错位模型。为了对空间信息进行编码,以与手工制作的特征类似的方式使用基于内核的显式特征映射[11,32]。这可以看作是从软93949395××→装仓,即,重叠的感受野,以连续有效匹配内核。与具有FC层的模型相比,具有有效匹配内核的模型参数的数量不会随着输入补丁的分辨率的增加而增加,即。用于32 × 32片输入的模型具有与用于64 × 64的模型相同数量的参数。所提出的描述符的应用范围超出了局部斑块的应用范围,如:任务,其中编码空间位置是必不可少的[24,34]。本文的其余部分组织如下。第2节讨论了相关工作。传统的深局部描述符和建议的是在第3节中讨论。实施细节详见第4节。最后,我们在第5节中介绍并讨论了我们在标准基准点上的实验。2.相关工作在本节中,我们回顾了与手工制作和学习的局部特征描述符相关的先前工作。2.1. 手工制作的描述符有许多方法可以手工制作本地描述符。这些变体基于输入补丁的不同类型的处理,例如滤波器组响应[6,10,22,36,43],像素梯度[ 25,28,50,1],像素强度[25,28,50,43 ],像素梯度[ 25,28,50,1],像素梯度[ 25,50,1 ],像素梯度[26,50,关系[45,12,23,41]和像素强度的排序或排名[35,17]。最突出的方向是梯度直方图,最流行的手工制作的局部描述符,即SIFT也遵循这种方法[25]。文献[20,57,21,44,2,14]中存在若干改进和扩展。RootSIFT [2]变体有效地估计了Hellinger距离,并成为方法和任务的标准选择。核描述符来源于有效匹配核的概念[9],并形成了一种灵活的方式来设计具有所需不变属性的描述符。核描述符不仅用于局部补丁[11],而且还作为全局图像描述符[8,7]。Burdock等人的核描述符。[11]在当时被证明优于学习描述符。2.2. 学习描述符运动结构和照片旅游[55]等数据集产生了学习的局部描述符。学习的部分从它们的池化区域[55,47]和滤波器组[55]到降维变换[47]和嵌入[38]。学习也适用于内核化的描述符,如在监督框架由王等人。[54 ]第54段。在它们的情况下,局部描述符不是单独使用的,而是直接聚合成全局图像表示,而超级视觉是在图像级。内核局部描述符是与Mukundan等人的工作中的判别投影形式的监督学习相结合。[32 ]第32段。我们的工作受到他们的启发;我们使用相同的基于内核的位置编码,但是在卷积激活而不是像素属性之上。2.3. 描述符的深度学习对局部描述符学习的兴趣最近被深度学习所主导[46,58,15,56,5,3]。文献中的所有示例都使用由一系列常见CNN层组成的架构,类似于通用计算机视觉任务(如对象识别),但深度较低,参数较少。它们通常需要大量的局部补丁对或三元组形式的训练数据一些贡献是关于挖掘硬训练样本[46,30,26],不同的损失函数[5],不同的架构[49]或与局部特征检测器[56]联合训练。两个最新和最成功的深度本地描述器是L2-Net [49]和HardNet [30]。L2-Net也将损失函数应用于中间特征图,损失函数集成了多个属性。HardNet通过对批次样本中最硬的样本进行采样来扩展L2-Net,目前构成了最先进的描述符。它们的共同特征是在所有的模拟器中共享因此,卷积特征图的空间信息没有被显式编码,而是仅用标准FC层处理。3.方法我们首先介绍了文献中深度局部描述符的当前典型架构。然后,我们提供了一个不同的角度,制定这样的描述符匹配内核。它允许我们指出卷积特征映射的编码是如何以一种翻译变体的方式执行的,但没有显式地编码空间信息。最后,我们提出了我们的新的深度本地描述器,它是通过相同的匹配内核框架,并改善了这一缺点。我们受到手工制作的内核描述符的启发,将显式位置编码纳入深度网络中,以供本地描述器使用。所提出的描述符的概述如图1所示,3.1. 深度局部描述符深度局部描述符的传统架构由一系列卷积层组成,产生平移不变特征映射,以及最终的FC层。我们用函数表示描述符提取过程型号:RN×N 其中N是输入补丁的大小,D是最终描述符的维度。描述符9396一×∈∈∈××→一ˆ ˆ→2⊗→R一.2对于补片a∈RN×N,则由<$(a)∈RD或等价地给出其中W′= W/n2。此外,斑块相似性成为简化符号。ˆ⊤ˆΣp′q′我们表示网络的卷积部分,即。 全卷积网络(FCN),通过函数φ:阿吉卜p,q∈[ n]2(Wpφa+W)(Wqφb+W)RN×Nn×n×d. 生成的要素地图的大小nΣ=g(φp,p)g(φq,q),(4)与输入大小N和网络的结构有关。特征映射φ(a),等价地用φa表示,是fcap,q∈[ n]2英国足球俱乐部激活的3D张量,我们也将其视为2D网格,d维向量我们称这些向量为卷积描述符,并使用φp来表示n-n网格上坐标为p=(i,j)的向量,即p[n]21. 每个卷积描述符对应于等于特征图的感受野大小的输入块a标准做法是对3D张量φ a进行矢量化,并将其馈送到具有由矩阵W组成的参数的FC层RD×(n×n×d)和偏置W研发部 最终描述符构造为其中gfc:Rd[n]2RD是以平移变体方式编码卷积描述符的函数,取决于其在n n网格中的位置。匹配内核(4)中的公式将深度局部描述符相似性解释为n×n网格上所有位置对的相似性累积。它揭示了φa和φb中卷积描述符之间的匹配是在一个翻译变种方式在conven的情况下,编码函数g典型的深度局部描述符gfc(v,p)=Wpv+W′,(5)φa=Wvec(φa)+W,(1)其中vec表示张量向量化。局部描述符通常是归一化的,这等效地实现了通过引入一个归一化因子γa=1/λpro,导出描述子α=γαα。图块a和b之间的相似性(或距离)是估计的。⊤与内积(或欧几里得距离)配合使用。规范化描述符是用来比较补丁的一种方法,但是我们经常使用规范化描述符(而不是规范化描述 符)来说明使用哪个描述符变量。几个深层次的地方去-最近文献中的脚本,即L2 Net [49],Hard- Net [30]和GeoDesc [26]遵循这样的架构,并且可以以相同的方式制定。3.2. 匹配内核的观点我们提供了一个替代的,但等效的,深本地描述符的建设。我们把矩阵W看作n个2阶矩阵的级联,即n个2阶矩阵的级联.其中矩阵Wp和W′来自FC层的参数。在这项工作中,我们提出了一个新的编码函数g,不限于标准CNN架构(层),它显式地编码2D网格上的位置p3.3. 位置编码显式特征图[53]用于对位置进行编码。令f:RR2s+1是一个特征图,其中s是定义嵌入维数的设计选择. 这样的特征映射定义了具有核签名k的移位不变核K:R×R→R,使得K( α,β)=k(α−β)f(α)<$f(β)=K(α,β)=k(α−β).(六)构建核K(或特征映射f)以逼近Von Mises核[51]。我们提出了编码函数g xy :Rd×[n]2→RD(2s+1)giv enby⊤WG (φp,p)=φp<$f(x)<$f(y),(7)(1、1)。xyaap pW=0⊤(i,j)、(二)其中是克罗内克积,并且xp和yp提供笛卡尔坐标系2中的位置p的坐标。它是卷积描述符和⊤(n,n)其中Wp∈RD×d.现在可以写(1.WW..9397一明确表达自己的立场。它的灵感来自Mukundanet al的工作。[32]他们提出了一种手工制作的局部描述符,该描述符用像素梯度在补丁中的位置对其进行给出了两种编码的相似性作为a= ΣWpφp+W′,(3)通过G(φp,p)φ g(φq,q)=φp <$φq·k(x-x)·k(y-y)。p∈[ n]2xyaxybabpqp q(八)1[i]={1. . . [i]2=[i] × [i]2对于p =(i,j),xp = i和yp = j。9398XY一一一一一2∈2XY贴片卷积描述子Kronecker积联合编码(外观、位置)预先计算位置编码参数矩阵参数向量局部描述符图1.建议描述符的提取过程概述。我们提出的情况下,xanthxy(10),而其他变种执行以类似方式。m′=n2m。它等价于描述符相似度和和对应描述符的笛卡尔网格上的位置相似性。遵循手工描述符的描述符白化范例[32,4],我们提出了最终的本地描述符Σθ=p∈[ n]2wpMρθ gρθ(φp,p)+mρθ.(十二)Σxy=p∈[ n]2wpMxygxy(φp,p)+mxy(九)不同的参数化,即。使用不同的坐标系统,提供公差,以不同种类的错位之间的补丁。 笛卡尔提供了对跨-Σ=Mxywp gxy(φp,p)n+n2mxy,(10)定位不对准,而极坐标提供旋转公差和比例失调。为了从这两种类型的容差中受益,我们进一步使用组合编码,p∈[ n]2这两个坐标系,并且通过先前编码的协调而它被定义为函数其中Mxy∈RD×d(2s+1) 而mxyRD是参数 2gc:Rd×Rd ×[n]→R2D(2s+1)giv enby在训练过程中学习,而wp=exp(−ρp)是一个.pp pΣ⊤⊤˜ p ⊤权重根据距离ρp给出重要性,补丁的中心。注意,与(3)相同,gc(φa,φa,p)=(φa<$f(xp)<$f(yp)),(φa<$f(ρp)<$f(θp))(十三)矩阵,即,Mxy用于所有卷积描述符。结果,减少了所需参数的数量,并且在求和(10)之后可以有效地执行乘以Mxy类似于笛卡尔坐标系中的位置编码,我们还提供了其中,φ1用于表明两个编码不需要依赖于相同的FCNφ。下标c表示组合坐标系,但我们跳过xyρθ以简化表示法。在这项工作中提出的最终描述符是使编码w.r.t.极坐标系3,Σ⋆ψ c=wMg(φp,φp,p)+m(十四)gρθ(φp,p)=φp<$f(ρp)<$f(θp),(11)ACC ACp∈[ n]2FCN293992i−ca a其中Mc∈RD×2d(2s+1),左上标R3对于p=(i,j),ρp=<$(i-c)2+(j-c)2和θ=tan−1j−c,为了表示单独的FCN用于每个编码,其中c=(n+ 1)/2。相应的坐标系。p9400一2∈一一一××2222N={32,64}硬网N=32N=64s=1S=2φ285,984285,984φ285,984285,984FC1,048,5764,194,304嗯,嗯147,584409,728总1,334,5604,480,288总433,568695,712N={32,64}N={32,64}s=1s =2s=1S=2φ285,984285,984φ285,984285,984φ˜285,984285,984嗯,嗯295,040819,328嗯,嗯295,040819,328总581,0241,105,312总867,0081,391,296表1.不同模型的参数数量。卷积部分φ对于所有模型具有相同的架构。在φ和φ都出现的情况下,笛卡尔坐标和极坐标对r使用单独的卷积部分。这些规格对应于d=128和D=128。对于N等于32和64,所得的n分别等于8和16。由于篇幅有限,我们报告了M和m,但我们根据相应的表格引用Mxy和Mc,对于m也是如此。描述符ρθ具有与描述符xy相同的要求。我们的描述符的参数要求保持不变,不同的补丁大小N。4.实现细节在本节中,我们将提供有关聚合效率的实现细节,描述不同的架构及其所需的参数数量,最后讨论训练过程。4.1. 有效聚合我们描述了变体Bracxy的实现细节,但这些也以同样的方式适用于其他变体 向 量 wpf ( xp ) <$f(yp)∈R(2s+1),对位置进行编码p∈[n]对于大小为n×n的2D网格是固定的。 因此我们预计算并存储在矩阵F∈Rn×(2s+1)中。我们将3D张量φa重塑为矩阵ΦRn×d。给定这两个矩阵,并且由于矩阵与向量乘法的线性关系,我们可以将描述符重写为Σ每一个P的产品。为了计算(15),内存需求是n2d(2s +1)2个数字,而为了计算(16),只分配了n2(d+(2s +1)2)个数字。在我们的实验中使用设置d = 128和s = 2,存储器需求减少了20倍。9 .第九条。4.2.架构我们使用HardNet+ [30]架构进行卷积部分,因为HardNet+在所有基准上都达到了最先进的性能。我们也用它作为一个基线来进行比较.卷积部分φ的统计数据在表1(左)中描述。每个卷积层后面都是批量归一化和ReLU,而不使用偏差。表1(右)提供了HardNet+和我们的网络的参数总数,即具有显式xy=p∈[ n]2wp Mxy gxy(φp,p)+mxy,特征图(使用s=1和s=2频率),以及具有公共(φ)或单独(φ和φ)的联合编码Σ=Mxyp∈[ n]2Σ=Mwp gxy(φp,p)n+n2mxy,(15)wφp<$f(x)<$f(y)<$+n2m,卷积部分请注意,对于具有单独卷积部分和s=2频率的联合编码,所提出的网络需要与HardNet+大致相同数量的参数,输入补丁大小为32 × 32像素(N=32)。在所有其他设置的建议architec-xypappp∈[ n]2xy实际上,参数的数量显著减少。我-重要的是,较大斑块尺寸卷积部分φConv. 层参数矩阵形状#参数1[ 1、32、3、3]2882[ 32,32,3,3]9,2163[ 32、64、3、3]18,4324[ 64,64,3,3]36,8645[ 64,128,3,3]73,7286[ 128,128,3,3]147,456总285,9849401=M xyvec(ΦF)+n2mxy.(十六)乘法Φ<$F使计算内存高效,因为它避免了显式存储克罗内克(诸如64 - 64),其提供更好的性能,参数的数量对于所提出的架构保持固定。对于Hardnet+,对于64×64个输入补丁,FC层的参数数量增加了4倍9402×4.3.培训我们想强调显式空间编码的贡献,并提供与当前最先进的描述符构造的直接比较。为了避免同时改变很多东西,我们遵循与HardNet+完全相同的训练过程,我们在下面简要介绍该网络使用定义为以下的三重损失进行训练:(||南||ψ ˆ an − ψ ˆ n eg ||]+,||]+,(十七)作用于由锚、正(与锚匹配)和负(与锚不匹配)描述符形成的三元组一批大小为1024块的补丁是从512对锚正描述符构建的关于批次中的特定对,所有其他对的正描述符被认为是候选负描述符。最后,在批次中选择与锚点具有最小欧几里得距离的一个作为硬否定以形成三元组。我们使用随机梯度下降(SGD)来执行训练。总训练集由200万个锚正对组成,训练持续10个epoch。数据扩充采用随机面片旋转,缩放和翻转。学习率被设置为10,并且在10个时期内线性衰减到零动量等于0.9,重量衰减到10−4。随机正交初始化用于网络的权重[42]。该方法在PyTorch框架中实现5. 实验我们首先描述了我们的实验中使用的数据集和评估原型,然后给出定性结果,显示训练对补丁相似性的影响。最后,我们提出了我们的描述符的不同变体所取得的结果,并显示与最先进的比较。5.1. 数据集和协议。我们使用两个公开的补丁数据集,即PhotoTourism(PT)[55]和HPatches(HP)[4]。前者用于训练和评估,后者仅用于PT训练时的评估,以显示描述符的泛化能力PT数据集由以下3个单独的数据集组成:Lib-Risk、Notredame和Yosemite。每个由局部特征检测的差分高斯(DoG)检测器和验证通过SfM管道。每个集合包括大约50万个64 64贴片,与作为SfM验证结果的离散标签相关联。测试集由对应于相同(正)3D点的100k对贴片和对应于不同(负)3D点的相等数量的贴片组成使用的度量pxypθcHardNet+的RF图2.的位置p之间的相似性的可视化 n×n网格(行)在一个补丁和另一个整个补丁的不同方法(列)。热图被归一化为[0,1],红色对应于最大相似性。 红盒子是用来描绘p的感受野(RF)。用 来 衡 量 性 能 的 是 95% 召 回 率 时 的 假 阳 性 率(FPR@95)。模型在一个集合上训练,在另外两个集合上测试,并报告6个分数的平均值。HP数据集包含更高多样性的补丁,并且更真实。评估是在三个不同的任务,即验证,检索和匹配。尽管我们没有在HP上进行训练,但我们对所有3个训练/测试分割进行评估,并报告平均性能,以便将来进行比较。我们遵循惯例,在PT的Liberty上训练我们的描述符,以便在HP上进行评估我们将每个实验重复三次,使用不同的随机种子来初始化参数,并报告3次运行的平均值和标准差。我们对所有变体和数据集都遵循此策略。最近,已经引入了更大和更多样化的数据集[31,26]来改进局部描述符训练。这些被证明可以提高最先进的描述符的性能,甚至通过简单地替换训练数据集。我们没有将它们包括在我们的实验中,但预计对我们的描述符的影响也是类似的。5.2. 可视化斑块相似性。我们构造编码g(v,p),在聚合之前,对于我们的描述符和对于常规情况,并构造相似性图来分析po的影响9403×一×一一一一BQ一B∀ ∈∀∈测试自由Notredame优胜美地火车#参数是说没有哟李哟李没有HardNet+†1,334,5601.511.492.510.530.781.961.84HardNet+1,334,5601.43±0.021.25±0.032.35±0.030.48±0.010.74±0.022.15±0.011.61±0.10n=1867,0081.53±0.031.27±0.032.31±0.080.48±0.020.82±0.052.58±0.081.72±0.09C,s=21,391,2961.36±0.011.14±0.032.16±0.100.42±0.010.73±0.022.18±0.071.51±0.12表2.在PhotoTourism数据集上对所提出的描述符与最先进的描述符HardNet+进行性能比较。性能通过FPR@95测量。我们重复每个实验/训练3次,并报告平均性能和标准差。贴片大小为N=32。†:在原始工作中报告。位置编码我们在图2中展示了这种可视化。对于常规情况,我们选取位置p并计算相似性gfc(φp,p)<$gfc(φq,q),q[n]2,对于组合描述符的情况,我们计算相似性(Mcgc(φp,p)+mc)<$(Mcgc(φ,q)+mc),q[n]2。 我们观察到所有的架构,包括传统的架构,结果在p附近的大的相似性值。5.3. 结果和比较。我们训练和评估所提出的描述符的不同变体。如果没有另外说明,我们使用大小等于32 32的输入补丁,这是深度本地描述符的标准做法。我们进一步研究的情况下,64 - 64输入补丁。我们总是设置d=128和D=128。特征图的维数由s控制,我们在实验中将其设置为1或2复制HardNet+。 我们的实施,培训-训练过程和训练超参数基于HardNet+4。我们重现了它的训练,并报告了我们自己的结果,证明了我们的好处不是实施细节的结果我们报告了在原始出版物和我们在所有比较中复制的结果。消融研究的基线 我们训练和测试以下两个基线,看看位置编码的影响。首先,我们训练一个描述符,它以平移不变的方式编码φa中的卷积描述符,即。完全没有位置编码。它通过φa上的空间求和池来实现,并由下式给出:Σ在这种情况下,D-sum的维数等于d,而不是D然而,d=D=128,使得该描述符直接与所有其他描述符相比较。其次,我们训练一个描述符,它简单地通过连接来编码空间信息,即。φa的矢量化,其不提供对位置未对准的任何容差。它由下式给出cat=vec位置编码的影响 我们比较了我们的描述器与PT上的HardNet+,结果如表2所示。从概念上讲,它是使用FC层“馈送”卷积描述符的传统架构与我们基于内核的方法显式编码空间信息之间的比较我们的描述符(s=2)稍微优于HardNet+,而它的参数数量大致相同即使具有较少参数(s=1)的变体也执行类似的操作。对HP进行了更全面的比较,检查了显式空间编码的影响,并在图4中显示。首先,我们评估了作为消融研究一部分的Tissue SUM。平移不变量完全丢弃了空间信息。除了FCN φ的参数外,它不需要其他参数。与所有其他描述符相比,它的性能明显较低。我们还尝试在(18)中包含乘法和martamsum描述符BCAT是另一种不需要添加的情况-sum=p∈[ n]2好吧(十八)功能参数 它是一种“僵化”的翻译变体其对平移未对准的容限被限制到大的感受野所提供的量。尽管4https://github.com/DagnyT/hardnet维度非常大,它不是一个顶级的表演者。 甚至9404公司简介公司简介n=1φρθ,s=1n=2φρθ,s=2n=1HARD NET +c,s=2C,s=2A=2(64)HARDNET+(64)80 82 84 86 88 9084.29±0.1186.9288.70±0.0288.37±0.0488.72±0.0488.64±0.0989.02±0.1388.61±0.0488.87±0.0789.16±0.0689.45±0.0488.68±0.08公司简介公司简介n=1φρθ,s=1n=2φρθ,s=2n=1HARD NET +c,s=2C,s=2A=2(64)HARDNET+(64)3538.18±0.1751.3051.94±0.0951.83±0.0452.96±0.0552.58±0.0652.96±0.1653.09±0.1553.06±0.0753.73±0.0754.24±0.0753.50±0.1240 45 50 55公司简介公司简介n=1φρθ,s=1n=2φρθ,s=2n=1HARD NET +c,s=2C,s=2A=2(64)HARDNET+(64)6061.97±0.1869.9171.22±0.0871.39±0.0171.51±0.0571.61±0.0972.14±0.171.26±0.171.72±0.0872.29±0.0872.54±0.0271.49±0.1265 70 75图像验证mAP [%]图像匹配mAP [%]图像检索mAP [%]图3. HPatches基准测试的性能比较。训练是在PhotoTourism数据集的Liberty集上进行的,所有描述符都是相同的设置。性能通过平均精度(mAP)来衡量我们将每个实验/训练重复3次,并报告平均性能和标准差(除了由于非常高的维度仅训练一次的ECOCAT所有的描述符都有128个维度,除了ECOCAT有8192个维度。这些方法按w.r.t.排序。所需的参数数目(top是要求最低的,即,参数较少)。所有方法均采用贴片尺寸N=32进行培训和测试,除非报告(64)。RSIFTBriefORBSIFTBBOOSTDC-SDC-S2SMKDDDESCTF-ML2NET +HARD NET +†HARD NET+ HARD NET+(64)C,s=2⋆ψc,s=2(64)57.2157.9059.7464.3966.4670.0377.9078.8179.1881.3686.3888.4388.6188.6889.1689.450 20406080 100BBOOST简介ORBDC-SSIFTRSIFTDC-S2SDDESCTF-MMKDL2NET+HARD NET +†HARD NET+ HARD NET+(64)C,s=2⋆ψc,s=2(64)020 406010.2914.7215.1625.1025.7827.2127.7628.3432.7637.1645.4952.7653.0953.5053.7354.24ORBBBOOST系列SIFTRSIFTDC-S2SDC-STF-MMKDDDESCL2NET +HARD NET +†HARD NET+ HARD NET+(64)C,s=2⋆ψc,s=2(64)0 2026.3229.5234.1843.0443.2647.5748.5352.4153.5053.9863.5969.6671.2671.4972.2972.5440 60 80补丁验证mAP [%]图像匹配mAP [%]修补修复mAP [%]图4.在HPatches基准测试中与最新技术的性能比较。学习描述符的学习是在PhotoTourism数据集的Liberty集上进行的。手工制作的描述符用条纹条显示。性能通过平均精度(mAP)来衡量。我们描述符的性能是每个实验/训练重复3次的平均值。所有方法均采用贴片尺寸N = 32进行培训和测试,除非报告(64)。†:在原始工作中报告。我们的具有少至127K附加参数(不包括φ)的轻量变体恢复了由于缺乏空间信息而导致的大部分性能损失,即,w.r.t. SUM。该结果表明,深度本地描述符的FC层的常见选择可能过度参数化。这也不是最好的表现。我们的变体εεc,s=2在所有任务上都是最好的。与最新技术水平的比较。最后,我们在图4中对HP的最新技术水平进行了比较。比较包括一组手工制作和 学 习 的 本 地 描 述 符 , 即 RSIFT [2] , SIFT [25] ,BRIEF [12] , BBoost [52], ORB [41] , MKD [32] ,Deep-[2019 - 05- 15][2019- 05][201建议的描述符实现了最好的perfor-曼斯与128 D描述符在所有3个任务一致。6. 结论我们将传统的卷积局部描述符解释为有效的匹配内核,并表明它们通过最后一个FC层学习空间变体编码我们设计了一种新的局部描述符,明确编码的空间信息。我们使用一个组合的位置参数化处理不同来源的几何错位。它实现了相同的性能与国家的最先进的descriptor- tors与较少的参数,并始终优于他们在所有标准补丁基准与相同数量的参数。鸣谢本工作得到了GACR资助19- 23165 S、OPVVV资助项目CZ.02.1.01/0.0/0.0/16 019/0000765“信息学研究中心”和CTU学生资助SGS 17/185/OHK 3/3 T/13的9405引用[1] Ambai Mitsuru和Yuichi Yoshida。卡:紧凑和实时描述符。见ICCV,2011年。2[2] Relja Arandjelovic和Andrew Zisserman。每个人都应该知道的三件事CVPR,2012。二、八[3] Vassileios Balntas , Edward Johns , Lilian Tang , andKrys- tian Mikolajczyk. Pn-net:用于学习局部图像描述符的联合三重深度网络。在arXiv,2016。2[4] Vassileios Balntas , Karel Lenc ,Andrea Vedaldi, andKrys- tian Mikolajczyk.Hpatches:手工制作和学习的本地描述符的基准和评估在CVPR,2017年。四、六[5] Vassileios Balntas , Edgar Riba , Daniel Ponsa , andKrystian Mikolajczyk.使用三元组和浅层卷积神经网络学习局部特征描述符。在BMVC,2016年。一、二、八[6] Herbert Bay,Andreas Ess,Tinne Tuytelaars,and LucVan Gool.加速鲁棒特征(SURF)。CVIU,110(3):346-359,2008. 一、二[7] Liefeng Bo,Kevin Lai,Xiaofeng Ren,and Dieter Fox.基于分层核描述符的对象识别。CVPR,2011。2[8] 博烈风,任晓峰,迪特尔.福克斯。用于视觉识别的核描述符。NIPS,2010年12月。2[9] Bo Liefeng和Cristian Sminchisescu用于视觉识别的特征集之间的有效匹配核NIPS,2009年。一、二[10] 马修·布朗理查德·塞利斯基和西蒙·温德使用多尺度定向块的多图像匹配在CVPR,第1卷,第510-517页,2005中。2[11] 安德烈·伯里克利,乔治·托利亚斯和她的ve'Je'gou。具有隐式旋转匹配的内核局部描述符。InICMR,2015. 一、二[12] Micheal Calonder,Vincent Lepetit,Cristoph Strecha,and Pascal Fua. 简 介 : 二 进 制 鲁 棒 独 立 基 本 特 征 。ECCV,2010年。二、八[13] Gabriella Csurka,Christopher Dance,Lixin Fan,JuttaWillamowski和Cedric Bray。使用关键点包进行视觉分类。在ECCV研讨会统计学习计算机视觉,2004年。1[14] 董景明和Stefano Soatto。本地描述符中的域大小池:Dsp-sift. CVPR,2015。一、二[15] Han Xufeng,Thomas Leung,Yangqing Jia,Rahul Suk-thankar,and Alexander C Berg. Matchnet:Unifying fea-ture and metric learning for patch-based matching.CVPR,2015。2[16] 克里斯·哈里斯和迈克·斯蒂芬斯。一种组合的角点和边缘检测器。Alvey视觉会议,第15卷,第50页,1988年。1[17] Marko Heikkila,Matti Pietikainen和Cordelia Schmid。用局部二值模式描述感兴趣区域。Pattern recognition,42(3):425-436,2009. 2[19] Yannis Kalantidis Clayton Mellina和Simon Osindero。聚合深度卷积特征的跨维加权。ECCVW,2016年。1[20] Yan Ke和Rahul Sukthankar。PCA-SIFT:局部图像描述符的更见CVPR,第506-513页,2004年6月。2[21] Theo Gevers Koen van de Sande和Cees Snoek。评估对象和场 景识别 的颜色 描述符 。IEEE Trans. PAMI,32(9):1582-1596,2010。2[22] Iasonas Kokkinos和Alan Yuille。无尺度选择的尺度不变性CVPR,2008。2[23] Stefan Leutenegger , Margarita Chli , and Roland YSiegwart.Brisk:二进制鲁棒不变可扩展关键点。见ICCV,2011年。2[24] Rosanne Liu 、 Joel Lehman 、 Piero Molino 、 FelipePetroski Such 、 Eric Frank 、 Alex Sergeev 和 JasonYosinski。卷积神经网络和coordconv解决方案的有趣失败。在NIPS,2018年。一、二[25] David G.洛从尺度不变关键点中提取独特的图像特征。IJCV,60(2):91-110,2004. 一、二、八[26] Zixin Luo,Tianwei Shen,Lei Zhou,Siyu Zhu,RunzeZhang , Yao Yao , Tian Fang , and Long Quan.Geodesc:通过整合几何约束来学习局部描述符。在ECCV,2018。二、三、六[27] Krystian Mikolajczyk和Cordelia Schmid。尺度和仿射不变兴趣点检测器。IJCV,60(1):63-86,2004. 1[28] Krystian Mikolajczyk和Cordelia Schmid。局部描述符的性能评估。IEEE Trans. PAMI,27(10):1615-1630,2005年。一、二[29] Krystian Mikolajczyk , Tinne Tuytelaars , CordeliaSchmid , AndrewZisserman , JiriMatas , F.Schaffalitzky,T. Kadir和Luc Van Gool。仿射区域检测器的比较。IJCV,65(1/2):43-72,2005. 1[30] AnastasiaMishchuk,DmytroMishkin,FilipRadenovic,and Jiri Matas.努力了解邻居的婚姻状况:局部描述符学习损失。在NIPS,2017年。一二三五八[31] Rahul Mitra、Nehal Doiphode、Utkarsh Gautam、SanathNarayan、Shuaib Ahmed、Sharat Alkurran和Arjun Jain。用于改进补丁匹配的大型数据集。在arXiv
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功