没有合适的资源?快使用搜索试试~ 我知道了~
SOSNet:二阶相似正则化学习局部描述子
1SOSNet:局部描述子学习田雨润,1,2于欣,3范斌,1吴富超,1胡布·海杰嫩,4VassileiosBalntas,41自动化研究所模式识别国家重点实验室中国科学院,北京,中国2中国科学院大学北京3澳大利亚国立大学澳大利亚机器人视觉中心4Scape Technologies{yurun.tian,bfan,fcwu}@ nlpr.ia.ac.cnxin. anu.edu.au{huub,vassileios}@ scape.io摘要尽管二阶相似性(SOS)已经在图匹配和聚类等任务中取得了显著的成功,但它还没有被用于学习局部描述符。在这项工作中,我们探索SOS在描述符学习领域的潜力,建立在直觉上,即一对正匹配点应该表现出与嵌入空间中其他点相似的距离因此,我们提出了一个新的正则化术语,命名为二阶相似正则化(SOSR),遵循这一原则。通过将SOSR纳入训练,我们学习的描述符在几个具有挑战性的基准上实现了最先进的性能,这些基准包含从局部补丁检索到运动结构的不同任务此外,通过设计一个基于von Mises-Fischer分布的评价方法,我们将描述符空间的利用率与匹配性能联系起来,从而证明了我们提出的SOSR的有效性。大量的实验结果、经验证据和深入的分析表明,SOSR能显著提高学习描述子的匹配性能.1. 介绍描述局部补丁的过程是许多计算机视觉任务中的基本组成部分,例如3D重建[31,33],大规模图像定位[30]和图像检索[29]。早期的努力主要集中在手工制作的描述符的启发式设计,通过应用一组过滤器的输入补丁。近年来Yurun和Xin在Scape Technology实习时进行的研究†通讯作者(a) 三重态损失(b)三重态损失+SOSR图1.我们提出的SOSR对MNIST数据集的10位数学习的特征的定性结果[19]。每个数字在单位球上用不同的颜色表示。我们可以观察到,通过使用我们的SOSR方法,鼓励二阶相似性,更紧凑的个人集群学习与标准的三重损失。具有相应的基础事实的大数据集导致了大规模学习方法的发展,这刺激了描述符学习的工作浪潮。最近的研究表明,这些基于学习的方法能够显著优于手工制作的计数器[1,22]。基于学习的方法最重要的挑战之一是为训练阶段设计合适的损失函数由于最近邻匹配是直接使用欧几里德距离完成的,因此最近的大多数方法都集中在优化与第一或第二相关的目标上。der相似性(FOS),通过强制匹配对的描述符具有比非匹配描述符更小的L2距离[34,2,26,17,36,15]。二阶相似性(SOS)已用于图匹配和聚类任务[10,11,43],因为它可以捕获更多的结构信息,如形状和规模,同时对变形具有鲁棒性。1101611017扭曲和扭曲。另一方面,FOS和最近邻匹配仅限于两两比较。然而,将SOS用于大规模问题通常需要大量的计算能力[10,11,43],因此匹配和重建任务仍然依赖于蛮力或近似最近邻匹配[31]。在这项工作中,我们探讨了使用SOS学习高性能的本地描述符的可能性。特别是,我们有兴趣在训练过程中将SOS约束公式化为正则化项,以便在匹配阶段利用其功能,而无需任何计算开销。评价描述符也是一个关键问题。一个好的评价方法可以为设计描述器提供参考。性能指标,如假阳性率[7]和平均精度[1],都是广泛使用的。然而,目前还不清楚描述符空间的利用率,如类内集中度和类间分散度,对最终性能的贡献。因此,为了解释SOS对匹配性能的影响,我们进一步引入了基于von Mises-Fisher分布的评估方法[6]。我们的主要贡献是:(1)介绍了一种新的正则化方法,即二阶相似正则化(SOSR),它保证了二阶相似性(SOS)的一致性。据我们所知,SOS还没有被纳入到学习本地特征描述符的过程中。(2)通过将我们的SOSR与三重损失相结合,我们学习的描述符能够显着优于以前的描述符,并在与本地描述符相关的几个基准测试(3)提出了一种新的基于von Mises-Fisher分布的描述子空间利用率评价方法。所提出的评价方法可以说明超球上的描述符的分布和它们的匹配性能之间的联系。本文的组织结构如下:节中2、简要回顾相关工作。节中3、第二。4.介绍了我们的二阶相似正则化方法以及一种计算单位超球面上描述子的新方法随后,在SEC。5.给出了几个Chal-Chaling基准测试的结果。最后,我们在第二节中对我们提出的SOSR进行了消融研究。六、2. 相关作品局部斑块描述的早期工作集中在低水平过程,如梯度滤波器和强度比较,包括SIFT [21],GLOH [24],DAISY [39],DSP-SIFT [12]和LIOP [38]。全面的审查可以在[25]中找到。随着带注释的补丁数据集的出现[7],大量的数据驱动方法专注于使用机器学习改进手工制作的表示,ing方法。[8,9]的作者使用线性投影来学习判别描述符 , 而 凸 优 化 用 于 学 习 [35] 中 的 最 佳 描 述 符 采 样BinBoost [37]基于boosting框架进行训练,而在RFD[13]中,基于标记的训练数据学习最具区分力的接收字段BOLD [3]使用二进制强度测试的贴片特定自适应在线选择。卷积神经网络(CNN)使得能够从原始局部补丁进行端到端描述符学习,并且近年来已经成为学习局部补 丁 描 述 符 的 事 实 上 的 标 准 。 MatchNet [14] 采 用Siamese网络进行本地补丁匹配,而DeepCompare [40]进一步探索了各种网络架构。 Song等人 [27]提出了用于特征嵌入任务的提升结构化嵌入。DeepDesc [34]消除了对专门学习的距离度量层的需要,而是使用欧几里得距离和硬样本挖掘。TFeat [2]使用具有浅层卷积网络和快速硬否定挖掘的三重学习约束,L2Net [36]应用渐进式采样,其损失函数考虑了整个训练批次,同时生成归一化为单位范数的描述符。L2Net的体系结构被后来的作品广泛采用。硬网[26]通过实现简单的铰链三重损失与“批内最硬”挖掘,证实了挖掘策略的重要性,从而超过了L2Net。Keller等人 [17]建议通过混合上下文损失和尺度感知采样来学习一致缩放的描述符。而不是专注于补丁匹配,DOAP [15]强加了一个基于检索的排名损失,并实现了当前状态的艺术表现在几个基准。GeoDesc [22]集成了来自多视图引用的几何约束,通过改进训练数据来使学习过程受益[41]的作者提出了一个全局正交正则化项,以更好地利用单位超球。虽然最近在学习CNN补丁描述符领域的改进是显著的,但上述方法仅限于优化通过正负对的L2另一方面,由于SOS对形状失真的鲁棒性,基于SOS开发了图匹配算法[10,11,43]。此外,委员会认为,[20]证明了使用SOS可以实现更好的集群性能。因此,我们的核心思想是在训练阶段引入二阶相似性约束,以实现鲁棒的补丁描述。3. 具有二阶相似性的学习描述子在本节中,我们将介绍如何将SOS作为正则化项纳入我们的训练过程。由em-11018我我Jii =1...N我我我我利用FOS和SOS的损失,我们训练我们的网络,其中d(2)(xi,x+)度量xi和以端到端的方式。从{xj}j的角度看x+距离之间的差异i和{x+}j/=i,使用3.1. 预赛对于由N对匹配补丁组成的训练批次,将卷积神经网络应用于每个匹配补丁。为了实施SOS,我们将SOSR规范化术语表述为:1ΣN以提取其描述符。相应的正描述符对表示为{xi,x+}RSOS=Ni=1d(2)(xi,x+).(三)3.2. 一阶相似损失一阶相似性(FOS)损失,它强制匹配描述符之间的距离很小,而非匹配描述符之间的距离很大,已被广泛用于学习局部描述符[2,36,15,22]。在我们的方法中,我们首先采用损失项来约束FOS,如下所示:请注意,RSOS并不强制匹配描述符之间的距离减少或非匹配描述符之间的距离增加。因此,它不能单独使用而没有LFOS术语,只能作为常规使用化术语。3.4. 训练目标函数我们的目标是在FOS和SOS方面学习一个鲁棒的描述符,因此,我们的总目标函数是前,LFOS=1ΣNMax. 0,t+dpos−dneg2,按下:Niii=1dpos=d(xi,x+),LT=LFOS+RSOS,(4)其中两个项被相等地加权。我我dneg= min(d(xi,xj),d(xi,x+),d(x+,xj),d(x+,x+)),3.5. 实现细节ij,j/=ij iiJ(一)在训练过程中,我们观察到,使用所有样本其中,t是裕度,d(u,v)= u−v2是L2距离,dpos表示正对之间的距离而dneg表示负对之间的距离。我们采用与HardNet相同的挖掘策略[26]来找到“批次内最难”的否定。请注意,在Eqn。(1),我们使用二次铰链三重峰(QHT)损失代替常规铰链三重峰(HT)损失。与HT相比,QHT通过损失的大小对网络参数的梯度进行这意味着dneg−dpos越大,gra越小在小批量中作为RSOS项的输入导致了较差的结果。这是因为对于一个给定的配对-ing描述符,他们的许多不匹配的描述符已经很远了。因此,这些远距离负不需要进一步优化。随后,在这些“容易”的底片上计算的SOS受文献[11]中活动图概念的启发,我们采用最近邻搜索来排除每个正对中那些远离的负对设zi是第i个正对的类标号,ci是第i个我我谢谢节中6.1我们提供的证据表明,这一简单修改可以导致显著的性能改进。3.3. 二阶相似正则化一组类标签。 特别地,ci存储类标签其在第i个正对的K个最近邻(K因此,我们将每个ci的邻居选择标准定义为:ci={zj: xi∈KNN( xj)<$ x+∈KNN( x+)},除了由L施加的一阶约束之外,FOS ,它我j∈1。 . . N,jij(5)已经证明,将来自高阶相似性可以提高聚类[20]和图匹配[10]的性能。因此,我们建议施加二阶约束,以进一步监督描述符学习的过程。一个训练小批量可以看作是两组具有一一对应关系的描述器,即, {xi}i=1…N且{x+}i=1. N. 对于这种情况,我们定义二阶其中KNN(xi)表示描述器xi的K个最近邻。注意,在KNN(xi)和KNN(x+)集合之间存在交集的可能因此,ci的基数范围从K到2K。因此,在等式(3)中,我们计算第i对的SOS为:‚. ΣNi+(2)+。++211019.i ijxi和xi之间的相似性为:‚. ΣNd(xi,xi)=,(d(xi,xj)-d(xi,xj)).j i,zjc i(六)d(2)(xi,x+)=,(d(xi,xj)-d(x+,x+))2,(2)J I我们采用L2 Net的架构[36]来嵌入本地-将补丁校准为128维描述符。注意所有11020帧内我帧内描述符被归一化为单位向量。为了防止过度拟合,我们还采用了一个dropout层,其下降率为0.1 在最后一个卷积层之前。 类似于先前根据[6],κ可以从以下等式获得:作品[36,26],所有补丁的大小为32×32和nor-Iq/2(κε)1 ΣN通过减去每个贴片的平均值并除以每个贴片的标准差来实现我们使用PyTorch库A(κ)=我q/2−1=R<$=(κ)Ni=1xi2,(9)[28]来训练我们的局部描述符网络。我们的网络使用Adam 优 化 器 训 练 了 100 个 epoch [18] , α=0 。 01 ,β1=0。9和β2=0。999.第999章就像是在开玩笑对于训练超参数,训练对的数量N被设置为512,即,批量大小为1024,K设置为8,即,选择8个最近邻对来计算给定对的SOS,并且FOS损失中的余量t设置为1。4. 评价单位超球体的利用率假阳性率和平均精度等指标已被广泛用于评价描述符的性能[1,39]。然而,这些指标其中κ是κ的估计值,R<$称为平均合成长度。由于A(·)是贝塞尔函数的比,[4]没有解析逆,我们不能直接说eκ=A−1(R<$)。根据[5],κ可以近似为R<$的单调递增函数,其中R<$=0导致κ=0,R<$=1表示κ=∞。因此,R可以是用作测量κ的替代物。来自第i个类的描述符可以被解释为来自vMF分布fi(x)的样本|μi,κi)。聚类中心μi是来自vMF密度finte r(μ)的样本|V,Kinte r)。此外,为了评估单位超球面的利用率不能提供对学习的描述器的特性的了解,即,如何利用描述符空间,如类内和类间分布,向最后的表演致敬 为了调查这件事,R内部=1ΣMM我1 ΣMR'intraa,(十)我们的工作[41,36]可视化的积极分布,Rinter=Mi=1 μiǁ2,和负距离作为直方图。然而,虽然这种虽然可视化显示了距离分布,但它们未能捕获学习的描述符空间的结构。由于大多数现代方法依赖于规范化的描述,ρ=Rinter,R内其中M是类的总数,R′intra是tors,我们建议利用von Mises-Fisher(vMF)第i我课 在等式中(10),Rintra分布,它处理的是位于超球面上的单位向量(感兴趣的读者可以在[6]中找到更多信息)。一个q维描述符,可以被认为是(q−1)维上的一个随机点。单位超球面Sq−1。具体来说,随机单位向量x(即,如果它是一个q-变量vMF分布,概率密度函数如下:不f(x| μ,κ)= cq(κ)eκµx,(7)其中,q≥2且κ≥0。归一化常数cq(κ)定义为:κq/2−1R和Rinter分别度量类内集中度和类间离散度,比值ρ是一个总体评价。vMF分布已用于图像聚类[4]和分类[42]。然而,我们建议仅使用它来评估描述符空间的利用率,因为与分类任务不同,当前的局部补丁数据集不能保证足够的类内样本用于精确估计vFM参数,例如,广泛使用的UBC Phototour [7]数据集中的某些类只有2个样本,训练阶段的这种估计错误可能导致性能较差。cq(κ)=(2π)q/2Iq/2−1、(8)(κ)5. 实验其中Ik(·)是第一类k阶修正贝塞尔函数。vMF密度f(x| μ,κ)由平均方向μ和浓度参数κ参数化。κ用于表征从f(x)中提取的单位向量的强度|μ,κ)集中在平均方向μ,κ值越大表示浓度越高。特别地,当κ=0时,f(x| μ,κ)简化为均匀的分布在Sq−1上,当κ → ∞时,f(x| μ,κ)接近点密度。11021我们将我们的学习描述符命名为二阶相似网络(SOSNet)。 在本节中,我们将我们的SOSNet与几种最先进的方法进行比较,[24][25][26][27][28][29我们在三个公开可用的数据集上进行了实验,即UBCPhototour [7] , HPatches [1] 和 ETH SfM[32] 。 对 于TFeat [2],L2Net [36],HardNet [26]和11022火车约塞米蒂圣母院Liberty Yosemite Liberty NotredameMean NotredameYosemite测试自由SIFT [21]29.8422.5327.2926.55DeepDesc [34]10.94.405.696.99MatchNet [2]7.0411.473.825.6511.68.708.05L2Net [36]3.645.291.151.624.433.303.24CS L2Net [36]2.554.240.871.393.812.842.61[26]第二十六话1.472.670.620.882.141.651.57[26,41]1.722.890.630.912.101.591.64Michel等人[17个]1.792.960.681.022.511.641.77SOSNet1.252.840.580.871.951.251.46TFeat+[2]7.3910.133.063.808.067.246.64L2Net+[36]2.364.700.721.292.571.712.23[36]第三十六话1.713.870.561.092.071.31.76[26]第二十六话1.492.510.530.781.961.841.51HardNet-GOR+ [26,41]1.482.430.510.781.761.531.41DOAP+[15]1.542.620.430.872.001.211.45[16]第十五届全国人大常委会副委员长1.472.290.390.781.981.351.38公司简介1.082.120.350.671.030.951.03[22]第二十二话5.471.944.724.05SOSNet-HP+2.100.791.391.42表1. UBC phototour数据集上的补丁验证性能。数字表示95%召回率时的假阳性率。所有描述符都是128维的,除了TFeat是256。后缀“+”表示数据扩充。我们可以观察到,我们的SOSNet在所有情况下都优于其他方法。GeoDesc [22],我们使用作者发布的预训练模型,对于GOR [41],我们使用作者提供的代码。对于尺度感知描述符[17]和DOAP [15],我们从他们发表的论文中报告了他们的结果,5.1. UBC摄影之旅UBC Phototour数据集[7]是目前用于局部补丁描述符学习的最广泛使用的数据集。它由三个子集组成,自由,Notredame和Yosemite。对于该数据集的评估,模型在一个子集上训练,并在其他两个子集上进行测试我们遵循[7]的标准评估方案,使用作者提供的100K对,并报告了95%召回率的假阳性率。在表中。1,SIFT代表基线手工制作的描述器,其他是基于CNN的方法。如表所示。1,我们的SOSNet实现了最佳性能的显着保证金相比,国家的最先进的方法。请注意,DOAP将一个空间Transformer网络(SPOT)[16]纳入网络,以抵抗贴片中的几何失真。相比之下,我们的SOSNet不需要任何额外的几何形状整流层,但实现了卓越的性能。我们可以期待我们的方法的性能进一步提高,通过GeoDesc的训练数据集尚未公开。因此,将GeoDesc与其他方法进行比较可能是不公平的。结合了一个GeoDesc生成较差的结果,这是由于其训练数据集和UBC Phototour之间可能存在的差异。此外,值得注意的是,即使在HPatches(SOSNet-HP+)上训练,我们的描述符也能够紧密匹配性能最好的方法,这一点很重要,因为UBC和HPatches表现出截然不同的补丁分布。这证明了我们的方法的泛化能力。5.2. HPatchesHPatches数据集[1]由从116个视点和光照变化场景中提取的超过150万个补丁组成根据几何噪声的不同程度,提取的斑块可以分为三组:容易,困难,和强硬。有三个评估任务,补丁验证,补丁检索和图像匹配。我们在图中显示了所有三个任务的结果。二、 如图2,我们的SOSNet在所有三个任务上都优于最先进的方法,无论是在Liberty(-LIB)还是在HPatches(-HP)上训练的方法。值得注意的是,我们的描述符在检索任务中优于DOAP,即使DOAP采用了专门为最大化平均平均精度(mAP)的补丁检索设计的排名损失。这表明,我们的SOSR可以导致更多的判别描述符,而不需要专门的排名损失。11023EASY哈德强硬H贴片结果INTERINTRA维尤普伊勒姆SIFT63.35SIFT24.42SIFT42.10DDesc-Lib78.48DDesc-Lib26.48自由党50.68自由党80.56THB-Lib27.99DDesc-Lib52.72L2Net-Lib84.33L2Net-Lib42.27L2Net-Lib63.75HNet-Lib87.19DOAP-Lib49.54HNet-Lib69.00DOAP-Lib87.64HNet-Lib50.07DOAP-Lib69.74SOSNet-Lib87.69SOSNet-Lib51.44SOSNet-Lib70.30GeoDesc90.58GeoDesc58.13GeoDesc75.30SOSNet-HPa94.52SOSNet-HPa66.49SOSNet-HPa84.700 20406080 100020 406080 1000 2040 6080100补丁验证mAP [%]图像匹配mAP [%]修补修复mAP [%]图2.在HPatches的测试集分割'a'上的验证、匹配和检索结果标记的颜色表示易、难和强噪声。标记物的类型对应于实验设置的变体。5.3. ETH数据集与上述专注于补丁的数据集不同,ETH SfM基准[32]旨在评估运动结构(SfM)任务的描述符。该基准测试研究了不同方法在从一组可用的2D图像构建3D模型方面的表现。在这个实验中,我们通过量化SfM质量,即,测量配准图像的数量、重建的稀疏点、图像观测、平均轨迹长度和平均再投影误差。根据原模型[32],我们不进行比率检验,以研究描述符的直接匹配性能。表2显示了3D重建的评估结果,其中SOSNet表现出最佳的整体性能。特别地,SOSNet能够在与重建的3D模型的密度相关的度量方面显著优于其他方法,即,正则稀疏点的数量和观测的数量。值得注意的是,SOSNet产生的匹配比GeoDesc [22]更多与[32,22]中的观察结果类似,SIFT在所有测试中实现了最小的重投影误差,从而证明它仍然是图像匹配的有吸引力的选择这可以通过以下事实来解释:较少的匹配似乎导致较低的重投影误差的趋势。此外,由于所有描述符的重投影误差都小于1px,因此我们可以得出结论,该度量可能无法反映实际中描述符之间的性能差异。最后,我们可以观察到,与SIFT相比,我们的方法能够注册更多的图像例如,在Madrid Metropolis序列中,SIFT仅能够配准38%的可用2D图像,最终的3D模型,而我们的方法注册了65%的图像。这表明我们的方法更适合于大规模和具有挑战性的重建。6. 讨论在本节中,我们将执行几个实验,以更深入地分析SOSNet中的每个组件对其最终性能的贡献。除了报告FPR@95速率和mAP方面的匹配性能外,我们还演示了建议的SOSR和其他现有方法如何影响学习的描述符空间的结构,使用第2节中介绍的方法4.第一章6.1. 性能改进我们认为SOSNet的性能提升来自三个方面:1)我们采用的优化方法,2)QHT,以及3)建议的SOSR。首先,我们研究了不同优化方法的影响,其中两种最广泛采用的方法,即,随机梯度下降(SGD)和亚当[18]进行了比较。 对于SGD,我们使用的起始学习率为0的情况。01,并将其除以10,在第50个时期,并为亚当,我们使用的设置中描述的节。五、如可见于图3(a)和图3(b),亚当[18]导致更好的性能COM-我是SGD。请注意,使用铰链三重态(HT)损失与亚当已经超过了以前的最先进的方法,即,[15]这是一个复杂的排序损失。其次,我们比较QHT对HT。如图如图3(a)和图3(b)所示,从HT到QHT的性能改进对于SGD和Adam情况都是非常明显的。这主要是由于QHT损失通过损失的幅度自适应地对梯度即,d阴性-d阳性第三,我们将我们的SOSR与另一个常规进行比较-11024我#图片注册数量#稀疏点观察次数轨道长度重复。误差喷泉SIFT 111114K70K4.790.39pxDSP-SIFT1114K71K4.780.37pxL2Net1117K83K4.880.47pxGeoDesc1116K83K5.000.47pxSOSNet1117K85K4.920.43px海尔热舒SIFT 887.5K31K4.220.43pxDSP-SIFT87.7K32K4.220.45pxL2Net89.5K40K4.240.51px大地测量89.2K40K4.350.51pxSOSNet89.7K41K4.260.53px南楼SIFT 128128108K653K6.040.54pxDSP-SIFT128112K小行星666K5.910.58pxL2Net128170K863K5.070.63pxGeoDesc128170K小行星887K5.210.64pxSOSNet128十七万八千九一三K5.110.67px马德里大都市SIFT 1344500116K733K6.320.60pxDSP-SIFT46799K649K6.520.66pxL2Net692254k小行星1067K4.200.69pxGeoDesc809306K1200K3.910.66pxSOSNet844335K小行星1411K4.210.70pxGendarmenmarktSIFT 14631035三十三万八千小行星1872K5.5230.69pxDSP-SIFT979293K小行星1577K5.3810.74pxL2Net1168667k小行星2611K3.910.73pxGeoDesc1208779K2903K3.720.74pxSOSNet1201816K3255K3.9840.77px表2. ETH数据集[32]上SfM的评估结果。我们可以观察到,我们提出的SOSNet在注册稀疏点的数量和观测数量方面明显优于其他方法。这表明使用我们的描述符构建的模型明显更密集。最近在[41]中提出的作用项,即,全局正交正则化(GOR)。如图如图3(a)和图3(b)所示,SOSR在所有训练阶段都实现了显著且一致的性能改善,而有和没有GOR的FPR曲线有时是相互交叉的,显示出较小的性能增强,并且在[ 15 ]中也观察到了这种现象。总而言之,亚当,QHT和SOSR平均带来11。63%,5. 46%,19。49%的相对性能改进。注意,当计算由SOSR引起的相对性能增加时,我们对SGD和Adam从时期50到时期100的FPR@95相对于HT、QHT进行平均,其中相同的规则适用于Adam和QHT。6.2. K和N的影响如第4.每个训练批由N对小块组成,在每个训练批内,用K个最近邻来计算SOSR。在本节中,我们分析了超参数N和K对SOSNet匹配性能的影响。具体来说,我们改变N和K分别从256到2048和4到32。所有模型都在Liberty上训练,并在其他两个子集上测试,诺特丹和约塞米蒂。我们报告了图2中两个测试集的平均FPR@95。3(c)款。在所有设置中,N=512,K=8,性能最佳。6.3. 描述子空间分析为了可视化SOSR引起的描述符空间的变化,我们首先在MNIST[19]数据集。具体来说,我们修改了L2Net架构[36],将最后一个卷积层的输出通道数设置为3。该网络是用批量大小为20,即,每批包含10个类,2 每类图像。训练后,我们将描述符在图1中的单位球体上的分布可视化。它可以可以清楚地看到,SOSR使每个簇更加集中,从而表明在低维空间中强制SOS约束改善了FOS。与在单位球面上聚类10类图像不同,很难从数万个类中直接可视化S127上的描述符我们已经试过了-如tSNE的mensionality减少技术[23]。怎么-由于降维过程引入的失真,很难直观地得到关于描述符空间的结构的任何有洞察力的为了提供定量结果,我们采用了第2节中描述的评估方法。4.第一章具体来说,我们评估Eqn。(10)使用从HPatches数据集中随机选择的90K个类。为了避免像R帧内那样的R帧间的噪声估计,我们通过平均10K个随机测试来计算它,其中在第i个测试中,通过从所有类别随机采样描述符(每个类别一个描述符)来估计R帧间结果示于图4、几个在--110251.81.61.41.210.810203040506070#训练epoch(a) 与SGD合作。80901.81.61.41.210.810203040506070#训练epoch(b) 和亚当一起训练。809010.950.90.850.80.750.70.65032K(c) N和K的影响图3.性能改进分析。HT代表铰链三重,QHT代表二次铰链三重。所有模型都在Liberty上训练,FPR@95是Yosemite和Notredame的平均注意,SOSNet表示为QHT+SOSR。0.90.80.70.60.50.40.30.20.1R帧间/R帧内R帧间R帧内值得注意的是,在低维空间中(图1)。 1),SOSR有助于使更集中的类内分布,而在高维空间(图1)。(4)有利于阶层间分布的分散。我们认为这种现象与描述子的维数有关。 当描述符空间不太复杂时-例如,S2时,调整描述符分布的灵活性较小. 因此,为了确保高的二阶相似性,在大多数情况下,SOSR强制来自同一个类的描述符成为一个点。相反,对于高维描述符,难以想象或甚至难以想象空间,例如,S127,实验结果表明,SOSR导致更scat-图4.在HPatches数据集的平均结果长度方面的性能SIFT [21]被归一化为具有单位长度。可以得出有趣的观察结果:• 比率ρ根据性能排名而下降,即,SIFT TFeatL2Net HardNet<<<
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功