没有合适的资源?快使用搜索试试~ 我知道了~
学习仿射区域的重要性及其在图像检索中的应用
重复性是不够的:通过可辨别性学习仿射区域Dmytro Mishkin[0000−0001−8205−6718]、Filip Radeno vic´[0000−0002−7122−2765]和JiˇriMatas[0000−0003−0863−4844]视觉识别组,机器感知中心,FEE,布拉格CTU{mishkdmy,filip.radenovic,matas}@cmp.felk.cvut.cz抽象。提出了一种学习局部仿射协变区域的方法。我们表明,最大限度地提高几何重复性不会导致局部区域,又名功能,可靠地匹配,这需要基于描述符的学习。我们探讨了影响这种学习和注册的因素:损失函数,描述符类型,几何参数化和匹配性和几何精度之间的权衡,并提出了一种新的硬负常数损失函数的仿射区域的学习。用硬负常数损失训练的仿射形状估计器- AffNet在词袋图像检索和宽基线立体方面优于最先进的技术。建议的训练过程不需要精确的几何对齐的补丁。源代码和训练权重可在https://github.com/ducha-aiki/affnet上获得关键词:局部特征·仿射形状·损失函数·图像检索1介绍在现有技术的流水线中利用形成对应的局部特征进行3D重建[1,2]、双视图匹配[3]、6DOF图像定位[4]。经典的局部特征也已成功用于为基于CNN的图像检索提供监督[5]。仿射协方差[7]是局部特征的理想属性,因为它允许由宽基线[8,3]分离的图像的鲁棒匹配,不像ORB [9]或高斯差分(DoG)[10]等依赖于在圆形邻域上进行的测试的尺度协变特征。这就是为什么Hessian-Affine检测器[7]与RootSIFT描述符[10,11]相结合是图像检索中局部特征的黄金标准[12,13]的原因仿射共变特征还提供更强的几何约束,例如,图像校正[14]。另一方面,经典的仿射自适应过程[15]在20%- 40%[8,16]的情况下失败,从而减少了检测到的局部特征的数量和可重复性它对显著的照明变化也不鲁棒[16]。检测到的特征的数量很重要的应用,例如,大规模3D重建[2],因此使用DoG检测器。缓解由仿射自适应过程的不可重复性引起的对应数量下降的问题,可以导致连接的3D重建和改进的图像检索引擎[17,20]。2D. Mishkin,F.Radenovic和J.麦塔斯本文对局部仿射形状的鲁棒估计做出了四个贡献。首先,我们的实验表明,局部特征的几何重复性不是成功匹配的充分条件仿射形状的学习增加了校正匹配的数量,如果它引导的估计对歧视性的地区,因此必须涉及优化的描述符相关的损失。其次,我们提出了一种新的损失函数的描述符为基础的注册和学习,命名为硬负常数损失。它结合了三重态和对比正损耗的优点。第三,我们提出了一种学习仿射形状,方向和潜在的其他参数相关的几何和外观特性的局部特征的方法该学习方法不需要精确的地面实况,这减少了对手动注释的需要。最后但并非最不重要的是,学习的AffNet本身在仿射形状估计方面明显优于现有重要的是,与事实上的标准[15]不同,AffNet不会显着减少检测到的特征的数量,因此它甚至适用于偶尔需要仿射不变性的管道1.1相关工作学习局部特征的领域最近一直很活跃,但注意力主要集中在学习描述符[21,22,23,24,25,26,27]和协变检测器[28,29,30,31]上。作者不知道任何最近的工作学习或改进的局部特征仿射形状估计。因此,最密切相关的工作如下。Hartmann等人[32]训练随机森林分类器,用于基于局部描述符预测特征丢弃“坏”点,从而加速3D重建流水线中Yi等人 [33]提出通过最小化正补丁之间的描述符距离来学习特征方向,即对应于3D表面上的相同点的那些。这允许避免手工挑选“规范”取向,从而学习最适合于描述符匹配的取向。我们已经观察到,直接应用仿射形状估计的方法[33]Yi等人[34]提出了一种用于学习描述符、方向和平移协变检测器的多阶段框架通过最大化交叉-联合和相应区域之间的重投影误差来训练检测器。Lenc和Vedaldi [30]引入了用于学习各种类型的局部特征检测器的“协变约束”。所提出的协变损失是局部仿射框架之间的差异的Frobenius范数。这种方法的缺点是,它可能导致的功能,虽然是可重复的,不一定适合匹配任务(见2.2节)。最重要的是,Yi等的共同缺点。[34]和Lenc和Vedaldi [30]方法的不同之处在于,它们需要知道补丁之间的确切几何关系,这增加了准备训练数据集所需的工作量。Zhang等人[29]提出将检测到的特征“锚定”到一些具有已知良好辨别能力的预定义特征,我们注意到,尽管显示图像的仿射协变功能,本文中提出的结果是平移协变功能。Savinov等人[31] A可重复性是不够的:通过可辨别性学习仿射区域3a11一一a0级一一用于特征检测器的无监督学习的排序方法。虽然这对于学习特征中心的坐标是自然和有效的,但是将其应用于仿射形状估计是有问题的。原因是它需要对许多可能的形状进行采样和评分。最后,Choyet al.[35]训练了这种方法与当前的工作有关,但这两种方法在几个重要方面有所不同首先,UCN使用了一个ImageNet预训练的网络,随后对其进行了微调。我们从头开始学习仿射形状估计第二,UCN使用密集的特征提取和从同一图像中提取的反例。虽然这对于短基线立体来说可能是一个很好的设置,但对于通常寻求仿射特征的宽基线来说,它并不起作用最后,我们提出了硬负常数损失,而不是对比之一。2学习仿射形状和方向2.1仿射形状参数化局部仿射框架由仿射矩阵的6个参数定义两个形成平移向量(x,y),其由关键点检测器给出,并且在本文的其余部分中,我们省略它并专注于仿射变换矩阵A,.ΣA=a11a 12a21a 22.(一)在矩阵A的许多可能的分解中,我们使用以下A=λR(α)A′=detA.cos αsinαΣ。 ′Σ0,(2)- sinαcosα′ ′21 22其中λ= detA是尺度,R(α)是方向矩阵,A′1是仿射形状矩阵,其中detA′= 1。A′分解为单位矩阵I和剩余形状A′′:.′A′=I+A′′=11Σ 。Σ。′′Σ0=1 0+11(三)′ ′21 22′′ ′′21 22我们表明,仿射变换的不同参数化显着影响基于CNN的局部几何估计的性能,见表2。2.2硬负常数损耗我们提出了一个损失函数称为硬负常数损失(HardNegC)。它是基于硬负三重边际损失[25](HardNeg),但距离最难1A′有一个(0,1)特征向量,保持垂直方向。一一一0 14D. Mishkin,F.Radenovic和J.麦塔斯1.01.0初始位置1.00.50.50.50.00.00.00.50.50.51.01.01.01.01.0经过150个亚当台阶1.00.50.50.50.00.00.00.50.50.51.01.01.0PosDist损耗HardNeg损失HardNegC损失Fig. 1. 说明所提出的硬负常数(HardNegC)损失的玩具示例优化问题。生成表示2D描述符的五对点,并且Adam [36]将损失最小化:正描述符距离(PosDist)[33]顶行:五对匹配点的相同初始位置箭头显示梯度方向和相对大小。底行:Adam优化150步后的点,轨迹用点表示。HardNeg丢失 一个困难与绿色和品红色点对,因为负的例子之间的两个积极的谎言。正距离的最小化仅导致到负示例的小距离所提出的HardNegC损失首先将相同的类点彼此靠近,然后将它们分布以增加到负对的距离。(即:最接近的)负示例被视为常数,并且L的相应导数被设置为零:L=1nΣi=1,nmax(0,1+d(si,si)−d(si,N)),L*= 0,(4)N其中d(si,si)是匹配描述符之间的距离,d(si,N)是到第i对的小批量中的最难否定示例N的距离d(si,N)=min(mind(si,sj),mind(sj,si))j/=ij 我在图1中的玩具示例上示出了用于学习[33]中的局部特征方向的正描述符距离损失(PosDist)与HardNegC和HardNeg损失之间的差异。生成2D空间中的五对点,并通过Adam优化器[36]针对三个损失函数更新它们的位置。位置1.00.5 0.00.51.027Dist. =0。负G. minAv96=0。县G. 阳性Av1.00.5 0.00.51.027Dist. =0。负G. minAv96=0。县G. 阳性Av1.00.5 0.00.51.027Dist. =0。负G. minAv96=0。县G. 阳性AvAvg.阳性区= 0.00Avg.最小负距离= 0.281.00.5 0.00.51.0Avg.阳性区= 0.23Avg.最小负距离= 0.851.00.5 0.00.51.0Avg.阳性区= 0.01Avg.最小负距离= 1.021.00.5 0.00.51.0可重复性是不够的:通过可辨别性学习仿射区域5收敛于第一个,但是不同的类点最终彼此靠近,因为到负类的距离没有并入损失中当来自不同类别的点位于彼此之间时,HardNeg边际损失有问题HardNegC损失行为首先类似于PosDist损失,将正点聚集在一起,然后将它们分布在空间中,满足三重边际标准。2.3形状配准的描述符损失探索局部特征重复性如何与描述符相似性相关联,我们进行了形状配准实验(图2)。在参考HSequences [37]照明图像中检测Hessian特征,并通过(身份)同态将其重新投影到序列中的另一个图像因此,重复性为1,重投影误差为0。然后,提取局部描述符(HardNet [25],SIFT [10],TFeat [23]和原始像素),并通过阈值为0.8的第一至第二最近邻比[10]匹配特征。Lowe [10]建议该阈值作为假阳性和假阴性之间的良好权衡。对于SIFT,22%的几何正确对应不是最近的SIFT,并且无论阈值如何,它们都不能匹配在我们的实验中,0.8的阈值对所有描述符都很有效,我们在所有实验中都使用了它,与以前的论文一致。注意,对于所有描述符,正确匹配的百分比,即使是完美的几何配准仅为约50%。Adam优化器用于更新仿射区域A以最小化基于描述符的损失:PosDist、HardNeg和HardNegC。顶部两行示出了针对两个图像耦合的A请注意,不涉及任何类型的培训。这样的描述符驱动的优化,不保持完美的配准,产生的描述符,成功匹配高达90%的照明变化下的检测。对于大多数不匹配的区域,仿射形状变成退化线-在顶部图中示出,并且退化椭圆的数量对于PosDist损失是高的; HardNeg和HardNegC表现更好。图2的底行示出了仿射形状对在每个图像中独立的实验的结果描述符损失的优化导致仿射形状上的几何误差误差E定义为A矩阵差值的均方误差2012年12月24日,E=i -Ai)2(五)i=1detA+detA再次,PosDist损失导致更大的误差。基于CNN的描述符、HardNet和TFeat在达到匹配性平台时导致相对小的几何误差,而对于SIFT和原始像素,形状发散。图3示出了当初始化的形状包括少量的重投影误差时的情况。6D. Mishkin,F.Radenovic和J.麦塔斯我1.00.80.60.40.23.02.52.01.51.00.51.00.80.60.40.23.02.52.01.51.00.51.00.80.60.40.23.02.52.01.51.00.51.00.80.60.40.23.02.52.01.51.00.50.00.00204060801000.00.00204060801000.00.00204060801000.00.00204060801001.01.01.01.00.80.80.80.80.60.60.60.60.40.40.40.40.20.20.20.20.01.00.80.60.40.20204060步骤801003.02.52.01.51.00.50.01.00.80.60.40.20204060步骤801003.02.52.01.51.00.50.01.00.80.60.40.20204060步骤801003.02.52.01.51.00.50.01.00.80.60.40.20204060步骤801003.02.52.01.51.00.50.00.00204060801000.00.00204060801000.00.00204060801000.00.00204060801001.01.01.01.00.80.80.80.80.60.60.60.60.40.40.40.40.20.20.20.20.00204060步骤硬网801000.00204060步骤TFeat801000.00204060步骤SIFT801000.00204060步骤像素80100图二. 匹配分数与几何重复性实验。仿射形状配准 对应特征的描述符损失的最小化。描述符损失:绿色-L2-描述符距离(PosDist)[ 33 ],红色-硬三重体边缘HardNeg [ 25 ],蓝色-提出的HardNegC。对HSequences、照明子集求平均值。所有功能最初都是完美注册的。前两排:两个图像的单个特征几何结构,第二和第二行:特征几何形状在每个图像中是独立的。顶行:对应特征(实心)的几何误差和非塌陷的百分比,即伸长率≤ 6,特征(虚线)。下一行:正确匹配的百分比。该实验表明,即使是完美的初始注册特征也可能不与任何描述符匹配-初始匹配分数大约为30分。百分之五十但它是可能的,以找到测量区域,这提供了两个区分性和重复性。PosDist损失挤压了大多数特征,导致最大的几何误差。HardNeg损失在存活特征的数量和几何误差方面产生最佳结果。HardNegC的表现略差于HardNegC,在匹配分数上略优于HardNegC。然而,HardNegC更容易针对AffNet学习进行优化2.4AffNet训练程序所提出的训练过程的主要块在图5中示出。首先,一批匹配的补丁对(Pi,Pi)i= l. n,其中Pi和Pi对应于3D表面上的同一点。旋转和倾斜变换矩阵(Ti,T′)是随机独立生成的。用(Ti,Pi)分别将面片Pi和Pi包装成A-变换面片.然后,裁剪32×32的中心块,并将一对变换后的块馈送到卷积神经网络AffNet中,其预测一对有限变换Ai,Pi,其被应用于Ti变换后的块。通过空间变换器ST的补丁[38]。因此,几何归一化的块被裁剪为32×32像素并馈送到描述符网络中,例如HardNet、SIFT或原始补丁像素,获取描述符PosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegC保留的省略号[%],点划线匹配/检测[%]保留的省略号[%],点划线匹配/检测[%]仿射矩阵MSE,实体仿射矩阵MSE,实体保留的省略号[%],点划线匹配/检测[%]保留的省略号[%],点划线匹配/检测[%]仿射矩阵MSE,实体仿射矩阵MSE,实体保留的省略号[%],点划线匹配/检测[%]保留的省略号[%],点划线匹配/检测[%]仿射矩阵MSE,实体仿射矩阵MSE,实体保留的省略号[%],点划线匹配/检测[%]保留的省略号[%],点划线匹配/检测[%]仿射矩阵MSE,实体仿射矩阵MSE,实体可重复性是不够的:通过可辨别性学习仿射区域71.00.80.60.40.23.02.52.01.51.00.51.00.80.60.40.23.02.52.01.51.00.51.00.80.60.40.23.02.52.01.51.00.51.00.80.60.40.23.02.52.01.51.00.50.00.00204060801000.00.00204060801000.00.00204060801000.00.00204060801001.01.01.01.00.80.80.80.80.60.60.60.60.40.40.40.40.20.20.20.20.00204060步骤硬网801000.00204060步骤TFeat801000.00204060步骤SIFT801000.00204060步骤像素80100图3.第三章。 通过优化相应特征的仿射参数来最小化描述符损失。对HPatchesSeq、照明子集求平均值顶行:对应特征的几何误差(实线)和未塌陷的百分比,即伸长率≤6,特征(虚线)。底行:分数正确匹配。所有特征最初具有相同的中等量的重投影噪声。从左到右:HardNet、SIFT、TFeat、均值归一化像素描述符。见图4。AffNet。特征图空间大小-顶部,#通道-底部。/2代表步幅2。(si,si). 描述符(si,ssteci)然后用于通过[25]中提出的程序形成三元组4).更正式地,我们找到仿射变换模型参数θ,使得估计的仿射变换A最小化描述符HardNegC损失:A(θ|(P,P))=argminL(s,s)(6)θ2.5训练数据集和数据预处理UBC Phototour [39]数据集用于训练。它由三个子集组成:Liberty、Notre Dame和Yosemite,每个约2 × 400k归一化64x64块,由DoG和Harris检测器检测。通过三维重建模型对补片进行了验证我们随机抽取1000万对进行训练。虽然正的点对应于3D表面上大致相同的点,但是它们不是完全对准的,具有位置、缩放、旋转和仿射噪声。我们随机生成的仿射变换,其中包括随机旋转倾斜从范围[0,t,m]均匀采样。PosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegCPosDistHardNegHardNegC保留的省略号[%],点划线匹配/检测[%]仿射矩阵MSE,实体匹配/检测[%]保留的省略号[%],点划线仿射矩阵MSE,实体保留的省略号[%],点划线匹配/检测[%]仿射矩阵MSE,实体匹配/检测[%]保留的省略号[%],点划线仿射矩阵MSE,实体8D. Mishkin,F.Radenovic和J.麦塔斯菲格五、Af fNet训练。在rgo随机精细变换Ti,Ti下的相应块被裁剪并馈送到Af fNet中,该AffNet将f精细变换Ai,A i输出到未知的标准形状ST补丁由可微分CNN描述符描述根据HardNegC损失,计算n×n描述子距离矩阵2.6实现细节CNN架构采用HardNet[25],参见图4,所有层中的通道数量减少了2倍,最后的128D输出被预测椭圆形状的3D输出所取代。网络公式为16 C3 - 16 C3 - 32 C32 -32 C3 - 64 C32 - 64 C3 - 3C 8,其中32 C32代表3x 3内核,具有32个过滤器和步幅2。零填充应用于所有卷积层以保留大小,除了最后一个。在每个卷积层之后添加BatchNorm [40]层,然后是ReLU [41除了最后一个,后面是双曲正切激活。在最后一个卷积层之前应用0.25速率的Dropout [42通过减去每个面片的平均值并除以每个面片的标准偏差,对32×32像素的灰度输入面片优化由SGD完成,学习率为0.005,动量为0.9,权重衰减为0.0001。学习率在20个时期内线性衰减[44]到零。训练是使用PyTorch [43]完成的,在Titan XGPU上花费了24小时;瓶颈是数据增强过程。Titan X上的推理时间为0.1 ms/补丁,包括CPU上完成的补丁采样和Baumberg迭代3实证评价3.1学习度量区域的损失函数和描述符我们训练了不同版本的AffNet和方向网络,其中仿射变换参数化和描述符的不同组合具有上述过程。基于HSequences [37]数据集的116个序列中每个序列的最难对上的正确匹配数(重投影误差≤3像素)的比较结果如表1和表2所示。所提出的HardNetC损失是没有“不收敛”结果的唯一损失函数在收敛的情况下,所有测试的描述符和损失函数导致可比较的性能,与前一节中的配准实验不同。我们认为这是因为现在CNN总是为一个补丁输出相同的仿射变换,不像以前的实验,重复的特征可能最终会有不同的形状。可重复性是不够的:通过可辨别性学习仿射区域9图六、 AffNet(上)和Baumberg(下)估计仿射形状。在参考图像中检测一个椭圆,另一个是来自第二图像的重新投影的最接近匹配Baumberg椭圆趋于更长,平均轴比为1.99与AffNet为1.63,中位数:Baumberg为1.72 vs 1.39 AffNet。统计数据是在Oxford5k上的16M特征上计算的。仿射变换参数化在表2中进行比较。当首先学习仿射形状并在仿射形状归一化的补丁上估计方向时,在一个网络中联合学习仿射形状和方向的所有尝试都完全失败,或者比两阶段过程表现得更差学习残差形状A”(等式(3)整体效果最好。注意,这样的参数化不包含足够的参数以包括特征取向,因此“联合”学习是不可能的。稍差的性能是通过使用单位矩阵之前的输出层中的可学习的偏见。3.2重复性仿射检测器的重复性:Hessian检测器+仿射形状估计器是基准标记的,遵循Mikolajczyk等人的经典工作。[8],但在VLBenchmarks工具箱[45]最近引入的更大的HSequences [37]数据集上HSequences由两个子集组成。照明部分包含57个具有自然和人工照明变化第二部分是视点,其中59幅图像六元组在比例、旋转方面有所不同,但主要是在水平倾斜方面。平均视点变化比来自Oxford-Affine数据集[8]的众所周知的涂鸦序列小一点在成对的图像中检测局部特征,通过地面真值同源性将其重新投影到参考图像,并且针对来自参考图像的每个区域找到最接近的重新投影区域。当对的重叠误差小于40%时,对应关系被认为是正确的给定图像对的可重复性得分是一个比率10D. Mishkin,F.Radenovic和J.麦塔斯表1. 学习仿射变换:损失函数和描述符比较。Hessian 检测器和HardNet描述符的HSequences [37]最硬图像对1-6上的正确匹配的重新投影错误的正确匹配≤3个像素。仿射形状如等式(1)中那样被参数化3 .第三章。n/c训练描述符/损失位置HardNegHardNegC仿射形状SIFTn/C385386硬网n/Cn/C388波兹南[15]298取向SIFT387379382硬网386383380主导方向[10] 339在两个图像之间的场景的公共部分中的正确对应的数量与较少数量的检测到的结果示于图7中。在[12]中实现的原始仿射形状估计过程表示为Baum SS 19,因为从尺度空间采样19×19块。AffNet从原始图像中采样32×32块所以为了公平比较,我们也测试了Baum版本,其中补丁是从原始版本中取样的图像,具有19和33像素补丁大小。AffNet在可重复性方面略优于Baumberg程序的所有变体,用于具有视点变化的图像,并且在对应数量方面更显着。对于仅具有光照变化的图像,差异甚至更大,其中AffNet的性能几乎与普通Hessian相同,这是这里的上限,因为这部分数据集没有视点变化。我们还在HPatches的Viewpoint子集上使用其他检测器测试了AffNet。 可重复性如下(无仿射自适应/Baumberg/AffNet):犬:0.46/0.51/0.52,哈里斯:0.41/0.44/0.47, 黑森 : 0.47/0.52/0.56 所 提出 的 方 法优 于 所 有检 测 器 的标 准(Baumberg)。这种差异的原因之一是特征拒绝策略。Baumberg迭代过程在三种情况之一中拒绝特征。第一,长轴与短轴比大于6的细长椭圆被拒绝。第二,接触图像的边界的特征被拒绝。对于AffNet后处理过程也是如此,但AffNet产生的细长形状较少:Oxford5k 16M特征的平均轴比为1.63,而鲍姆伯格1.99美元这两种情况在AffNet 中 发 生 的 频 率 较 低 , 使 存 活 特 征 的 数 量 增 加 了 25%。 我 们 比 较 了Baumberg与AffNet在第3.4节中相同数量的特征上。最后,其形状在十六次迭代内不收敛的特征被移除。这是非常罕见的,大约发生在1%的病例中。通过AffNet和Baumberg过程估计的形状的示例在图1中示出。六、可重复性是不够的:通过可辨别性学习仿射区域11112122112122表2. 学习仿射变换:参数化比较Hessian检测器和HardNet描述符的HPatchesSeq [37]最硬图像对1-6上的平均正确匹配数。案例比较,仿射形状结合事实上的手工制作的标准主导方向,仿射形状和方向单独或联合学习重新投影误差≤3个像素的匹配被视为正确用于学习的HardNegC损失和HardNetn/c取向112122(3)A″(a″,a″,a″)1 - 370 340(3) A"(1+a",a",1+a")0 -388 349表3. AffNet与Baumberg仿射形状估计器在宽基线立体数据集上,使用Hessian和自适应Hessian检测器,遵循协议[16]。匹配的数量图像对和内点的平均数量。盒装的。最佳结果以粗体显示。数据集中的图像对的数量为EFEVDOxAffSymBGDBLTLL[46个][3]第一章[八]《中国日报》[47个][48个][49个]检测器33包括15包括40包括46包括22包括 172 包括HesAff [7]337823840100834153171992634HesAffNet3311224840118137203192224636AdHesAff [16]3311133340133035190192862835AdHesAffNet33165442401567372752133648393.3宽基线立体声我们对宽基线立体进行了实验,遵循在[16]中定义的局部特征检测器基准协议,在双视图匹配数据集[47,48,46,49]的集合局部特征由HardNet++ [25]和HalfRootSIFT [50]描述的基准检测器检测,并由RANSAC [51]进行几何验证。报告以下两个度量:成功匹配的图像对的数量和每个匹配对的正确内点的平均数量。我们用Hessian中的AffNet和自适应阈值Hessian(AdHess)代替了Hessian-Affine结果示于表3中。AffNet在所有数据集中的注册图像对数量和/或正确内点数量方面都优于Baumberg,包括SymB中的绘画到照片对[47]和GDB中的多模态对[48],尽管它没有针对这些领域进行训练。数字估计偏见了解到主导当量矩阵参数init分别联合梯度[10](一)一(a11,a 12,a 21,a22)0n/cn/C(一)一(a11,a 12,a 21,a22)1编号36032012D. Mishkin,F.Radenovic和J.麦塔斯平均重复性60402002 3 4 56HPatches照明中位重复性60402002 3 4 56HPatches照明150010005000120010008006004002000平均对应次数2 3 4 56HPatches照明中位对应编号2 3 4 56HPatches照明平均重复性60402002 3 4 56HPatches视点中位重复性60402002 3 4 56HPatches视点30002500200015001000500025002000150010005000平均对应次数2 3 4 56HPatches视点中位对应编号2 3 4 56HPatches视点见图7。重复性和对应数量(顶部平均值,底部中位数)HSequences [37]。根据Mikolajczyk协议[8],将AffNet与事实上的标准Baumberg迭代[15]进行比较。左-具有照明差异的图像,右-具有视点和比例变化。SS -补丁[12] Hessian-Affine来自[12]。对于照明子集,没有自适应的Hessian的性能是上限,AffNet的性能接近它。每个映像的总运行时间如下所示(800x600个映像的基线HesAff +主梯度方向+ SIFT:无CNN组件- 0.4秒HesAffNet(CNN)+主梯度方向+ SIFT现在,数据被简单地从CPU传输到GPU,并返回每个阶段,这产生了主要的瓶颈。3.4图像检索我们对标准图像检索数据集Oxford5k [56]和Paris6k [57]进行了评估每个数据集包含图像(Oxford5k为5062,Paris6k为6391性能报告为平均精密度(mAP)[56]。最近,这些基准测试被重新审视,注释错误被修复,新的、更具挑战性的查询集被添加[18]。重新访问的数据集定义了新的测试方案:简单、中等和困难。我们使用多尺度Hessian-affine检测器[8]和Baumberg方法进行仿射形状估计。所提出的AffNet取代了Baumberg,我们将其表示为HessAffNet。HessAffNet的使用增加了所使用的特征的数量,对于Oxford5k从12.5M增加到17.5M,对于Paris6k从15.6M增加到21.2M,因为更多的特征在仿射形状适应中幸存下来,如第3.2节所述。我们还通过将AffNet特征的数量限制为与表4中的Baumberg-HesAffNetLess中相同来执行附加实验我们用手工制作的描述符RootSIFT [11]和最先进的学习描述符[23,25]评估了HesAffNet。首先,在传统的词袋(BoW)[58]图像检索管道中测试HesAffNet。使用k均值算法和近似最近邻搜索创建具有1M质心的平面词汇表[59]。图像的所有描述符都是无仿射Baum SS 19(original)Baum Img19Baum Img 33AffNet Img 33无仿射Baum SS 19(original)Baum Img19Baum Img 33AffNet Img 33无仿射Baum SS 19(original)Baum Img19Baum Img 33AffNet Img 33无仿射Baum SS 19(original)Baum Img19Baum Img 33AffNet Img 33无仿射Baum SS 19(original)Baum Img19Baum Img 33AffNet Img 33无仿射Baum SS 19(original)Baum Img19Baum Img 33AffNet Img 33无仿射Baum SS 19(original)Baum Img19Baum Img 33AffNet Img 33无仿射Baum SS 19(original)Baum Img19Baum Img 33AffNet Img 33平均重复性中位重复性平均对应次数中位对应编号平均重复性中位重复性平均对应次数中位对应编号可重复性是不够的:通过可辨别性学习仿射区域13表4. 在Oxford5k和Paris6k基准上对词袋(BoW)图像检索进行性能(mAP)评估。在独立数据集上学习由1M视觉词组成的词汇:Oxford5k词汇表用于Paris6k评估,反之亦然。SV:空间验证。QE(t):具有t个内点阈值的查询扩展。最佳结果以粗体显示。巴黎6k检测器-描述符弓+SV+SV+QE(15)+SV+QE(8)弓+SV+SV+QE(15)+SV+QE(8)HesAff–RootSIFT55.163.078.480.159.363.776.477.4HesAffNet-RootSIFT61.672.886.588.063.571.281.783.5HesAff–TFeat-M*46.755.672.273.843.851.865.369.7HesAffNet-TFeat-M*45.557.375.277.550.658.172.074.8HesAff–HardNet++60.869.684.585.165.070.379.179.9HesAffNetLess-HardNet++64.373.386.187.362.068.779.179.2HesAffNet-HardNet++68.377.889.091.165.773.483.383.3表5. 性能(mAP)的比较与国家的最先进的局部特征为基础的图像检索。词汇是在独立的数据集上学习的:牛津5k词汇用于Paris6k评估,反之亦然。所有结果都进行了空间验证和查询扩展。VS:词汇量。SA:单一任务。MA:多重任务。最佳结果以粗体显示。巴黎6k方法VSSA马SA马HesAff–SIFT–BoW-fVocab16M74.084.973.682.4HesAff–RootSIFT–HQE65k85.388.081.382.8HesAff–HardNet++–HQE65k86.888.382.884.9HesAffNet-HardNet++-HQE65k87.989.584.285.9分配给词汇表的相应质心,然后将它们与出现的直方图聚合成BoW图像表示。我们还应用了空间验证(SV)[56]和标准查询扩展(QE)[57]。在空间验证之后,利用具有15个(通常使用的)或8个内点的图像执行QE。比较结果见表4。AffNet在Oxford5k和Paris6k数据集上都取得了最好的结果,在大多数情况下,它的性能远远优于第二好的方法。该实验清楚地显示了在局部特征检测流水线中使用AffNet的好处。此外,我们比较国家的最先进的局部特征为基础的图像检索方法。学习了65k单词的视觉词汇表,并添加了汉明嵌入(HE)[60]技术,该技术进一步细化了具有128位二进制签名的描述符分配。我们遵循与HesAff-RootSIFT-HQE [ 13 ]方法相同的程序所有参数如[13]中所设置AffNet方法的性能在Oxford5k和Paris6k的局部特征上都是最好最后,在重新访问的R-Oxford和R-Paris上,我们比较了基于局部和全局特征的图像检索中最先进的方法:性能最好的细14D. Mishkin,F.Radenovic和J.麦塔斯表6. 性能(mAP,mP@10)与R-Oxford和R-Paris基准图像检索的最新技术比较[18]。SV:空间验证。HQE:汉明查询扩展。αQE:α查询扩展。DFS:全球扩散。最佳结果以粗体显示。中硬R-Oxford R-Paris方法地图 mP@10 地图 mP@10 地图 mP@10 地图 mP@10ResNet10167.286.080.798.940.754.961.890.6[ 54 ]第53话:我的世界69.884.088.996.940.554.478.594.6ResNet101-69.082.389.596.744.760.580.094.1ResNet5073.488.284.098.350.367.269.393.7HesAff–RootSIFT–HQE66.385.668.997.341.360.044.779.9HesAff–RootSIFT–HQE+SV71.388.170.298.649.769.645.183.9HesAffNet-HardNet++-HQE71.7
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功