没有合适的资源?快使用搜索试试~ 我知道了~
2969基于CDF的动态软间隔普林斯顿大学摘要三元组损失被各种学习任务所采用,例如局部特征描述符学习。然而,其具有硬余量的标准公式仅利用每个minibatch中的部分此外,裕度通常根据经验选择或通过计算昂贵的验证来确定,并且在整个训练会话期间保持不变。 在这项工作中,我们提出了一个简单而有效的方法来克服上述限制。 其核心思想是用一个动态更新的非参数软保证金来代替硬保证金。主要的观察是,三元组的难度可以从三元组到决策边界的符号距离的累积分布函数中推断出来我们通过对实值和二进制局部特征描述符的实验证明,我们的方法在流行的基准测试中具有最先进的性能,同时无需确定最佳保证金。1. 介绍有效的图像匹配是计算机视觉、机器人和图形学中的一个基本问题。通常,图像匹配是两步过程,包括使用兴趣点检测器提取可重复的局部关键点,随后匹配对应于这些点的特征描述符传统的管道使用手工制作的描述符,如SIFT [15],它已在各种应用中证明是成功的然而,随着深度学习技术的发展,特征描述器的最新进展主要是基于学习这些学习的描述符通常比手工制作的描述符实现更高的匹配性能,在相同的长度(例如,128浮动,与SIFT一样)。存储和匹配成本的进一步降低可以通过二进制描述符来实现,二进制描述符被解释为位向量,并使用汉明距离而不是欧几里得距离进行比较。在本文中,我们证明了一个通用的架构(基于L2-Net [29])和训练过程(基于在HardNet [19]上)可以被修改为不仅学习浮点描述符,而且学习二进制描述符。修改后的网络在描述符性能方面提高了最新技术水平,但也突出了一个经常遇到的问题:匹配精度取决于超参数调整。特别是,许多表现良好的学习描述符使用相同的损失函数进行训练:一种三重态损耗,促使负对之间的距离超过正对之间的距离一定的余量。余量的目的是迫使网络使用从“较难”的三元组计算的梯度虽然现代方法通过引入硬负挖掘[3,19]或正则化[13,38]来提高性能,但训练的有效性从根本上取决于裕度的设置。由于最优裕度是问题相关的,并且通常是依赖于网络的,因此在实践中,裕度要么是基于有根据的猜测手动指定的,要么是以巨大的计算代价进行彻底调整的在这项工作中,我们提出了一个新的三重损失函数,它有三个主要特点:1)我们使用软余量而不是硬余量来充分利用每个小批量。2)软余量动态地适应训练的当前状态3) 该方法是无参数的:上述两个目标是在不需要任何用户可调超参数的情况下实现的。简而言之,与传统三重损失中使用的静态硬余量相反,我们认为我们的方法是动态软余量策略的一个实例,可以应用于各种学习问题。传统的三元组损失使用硬裕度作为恒定阈值,对三元组是否应该对梯度有贡献相反,我们通过使用每个小批中的所有三元组来使边缘变软,同时遵循简单的直觉,即与使用软余量的先前方法(例如具有松弛变量的SVM)相比,我们的公式不需要用于余量的“软度”的单独的用户可调参数我们的方法的动态性质是通过保持一个移动的概率密度函数(PDF)的不同-2970每个三联体中正负对之间的距离这可以被认为是每个三元组到决策边界的有符号距离权重是根据该PDF的积分分配的,本质上是根据每个数据点比其他最近遇到的数据点更难分类的概率成比例地对每个数据点进行加权因此,随着训练的进行,加权函数不断更新我们总结本文的主要贡献如下:• 提出了一种新的损失函数的基础上,动态软余量,可以作为一个现成的替代现有的三重损失没有用户可调的参数。• 统一实值和二进制描述符学习管道,采用相同的损失函数进行训练。• 证明我们的方法改进了实值和二进制描述符学习的最新技术水平。2. 相关工作有显着的本地功能以前的工作,我们专注于被广泛使用的描述符,或最近取得了最先进的性能。这些描述符通常分为实值和二进制描述符:虽然大多数现有的作品解决一个或另一个,我们表明,我们的动态软利润的方法,提高了两者。实值描述符:可能最成功的手工特征描述符是SIFT[15],它使用图像补丁的梯度场计算平滑直方图。PCA-SIFT [11]不计算直方图,而是直接应用主成分分析 图像的梯度。最近,基于学习的方法已经开始显示出有效性。 Simonyan等人[27]将特征学习公式化为凸优化问题。DeepDesc [26]使用成对的图像块,并采用Siamese网络来学习判别描述符,同时执行硬挖掘以提高性能。DeepCompare [37]开发了一个双流网络,其中一个流专注于图像的中心部分。TFeat [3]使用三元组丢失来学习描述符,并应用名为锚交换的三元组内硬挖掘方法。最近,Tian et al.L2-Net [29],采用更深层次的网络,设计了一种新的损失函数,要求真匹配在批处理中具有最小的2 ×2距离。HardNet[19]通过在每个批次中寻找硬底片进一步简化了这个想法,并实现了状态-最先进的性能使用一个单一的三重边际损失。DOAP[6]没有使用三重边际损失作为代理,而是直接优化了基于排名的检索性能度量,并使用相同的网络架构实现了更具竞争力的结果Keller等人[12]提出了一种混合上下文损失,它结合了三重和连体损失,比单独使用任何一种都要好。 [16]第十六话进一步利用来自多视图重建的几何约束,并展示了对3D重建任务的显著改进。二进制描述符:虽然实值描述符表现出良好的性能和适用性,但它们对存储和匹配都提出了挑战。流行的实值描述符(如SIFT)和最近的基于学习的描述符使用128个浮点数,或512字节。虽然可以通过量化浮点值[32,35]或应用主成分分析(PCA)[35,10]来减少描述符的长度来积极减少存储要求,但比较缩短的实值描述符仍然需要计算实值欧几里得距离。高效的手工二进制描述器通过使用输入图像补丁直接构建二进制字符串来改善这些问题。用于评估两个二进制描述符之间的距离的度量是汉明距离,其是在执行XOR操作之后的设置位的数量。汉明距离的有效计算可以利用支持硬件上的专用指令。流行的二进制描述符包括BRIEF [4]和ORB [24]使用的旋转BRIEF,它们通常依赖于使用预定义模式的强度比较。这显著降低了计算成本,尽管这也意味着这些二进制描述符对剧烈的照明变化的鲁棒性较低。DOAP [6]证明了一个好的二进制描述符也可以通过优化检索任务的平均精度一些最近的实值描述符可以通过取每个维度的符号来简单地转换为二进制描述符,并且L2-Net已经通过这样做在生成二进制描述符方面显示出有希望的还有更复杂的方法可以将浮点向量转换为二进制字符串,例如LSH[5]或LDAHash [28]。替换静态硬边距:DeepDesc [ 26 ]没有设置硬边缘,而是反向传播最硬的1/8样本,这可以被解释为动态硬边缘。人的重新识别是一个相关的主题,也使用三重边际。Wang等人。[34]对正对和负对应用两个单独的硬边距。页边距是动态调整使用手工制作的功能与交叉,经过验证但非常不直观的超参数(μ= 8和γ= 2.1)。他们的损失函数仍然通过二元决策对训练样本进行分类,因此是另一种情况,动态硬边距。Hermans等人[7]使用softplus函数来模拟软余量。然而,这个函数在整个训练过程中是固定的,我们将其视为静态软余量的一个实例。 此外,softplus有一个隐含的尺度超参数:1/β·log(1 + exp(βx)),其中β控制平滑度,默认为1.0。第5.6节包括与这些替代方案的比较,证明我们的动态软利润的有效性。2971普卢德普卢德3. 学习局部描述符我们的目标是检验所提出的动态软利润策略的有效性,我们的动机是三重边际损失只是迫使网络学习增加dneg和dpos之间的差,直到满足条件dneg如果µ设置得足够讨论了学习实值和二元局部有限元的应用,大D阴性–d> µ永远不会满足,µ L三重态 = 1和POS真实描述符作为背景,我们首先重新审视原始的三重边际损失,以及最先进的方法(如HardNet [19])所使用的网络架构和硬负挖掘方法。接下来,我们介绍一个改进的训练过程,可以学习高质量的二进制描述符。3.1. 实值描述符具有共享相同深度架构和权重的两个流的连体网络是学习描述符的自然选择之一。由于L2-Net的良好性能,大多数最近的工作采用L2-Net[29]作为骨干网络我们也使用L2-Net在这项工作中,只取代损失函数,以显示我们的方法的有效性。表示为F(·)的L2-Net将图像块x作为输入并产生k维描述符。给定两个输入图像块x和x′,它们在描述子空间中的距离记为D(F(x),F(x′)),其中D是距离度量。对于实值描述符,欧氏距离L=虽然µ= 1.0neg对于HardNet表现良好,是否存在更好的µ仍然是一个问题。3.2. 二进制描述符实值描述符的存储和计算成本可能很高,因为它们通常使用32位浮点数表示。另一方面,二进制描述符存储起来更紧凑,比较起来更快(使用汉明距离),因此在实时应用中很受欢迎。不幸的是,HardNet [19]只解决了实值描述符学习。下面,我们提出如何使其适应二进制描述符学习,这本身就是不可微的。在测试时,很容易将实值L2-Net输出转换为二进制描述符:我们简单地使用符号函数将输出转换为值的长度为k的向量-1和1这将两个描述符之间的汉明距离减少为点积:通常用作距离度量。在评估大量描述符之间的欧氏距离D·汉明.′ΣF(x),F(x).= k-F但是,F(x)2.(三)可能是昂贵的,如果特征向量是单位长度的(即,f(x)= 1)。由于两个单位向量之间的欧几里得距离可以使用点积计算:因此,与实值描述符一样,可以使用单个矩阵乘法来计算二进制描述符列表的成对汉明距离矩阵然而,符号函数的梯度是未定义的D欧几里德.′ΣF(x),F(x)√= 2F(x′),(1)在原点为零,其他地方为零因此,我们需要一个可区分的代理用于训练目的。因此,对L2-Net的输出进行归一化,我们使用双曲正切函数,可以计算成对距离ma。一个单一的矩阵乘法的一批描述符的排序为了利用这个好的属性,L2-Net将网络输出规范化为单位长度描述符。给定N对匹配的图像块,其中每对对应于物理世界中的唯一3D点,HardNet [19]根据Siamese网络输出的描述符计算成对距离矩阵距离矩阵中的对角元素对应于匹配对之间的距离。HardNet从距离矩阵中的非对角元素中挖掘其行和列中每个匹配对的最难否定请注意,这种挖掘与我们的软保证金对三元组进行加权是不同的过程,如下所述。欲了解更多细节,我们请读者参阅原始文件。如果我们将匹配对之间的距离表示为dpos,以及对应的最难的非匹配对之间的距离作为dneg,HardNet使用标准的三重容限损失进行训练,其中容限μ= 1.0:L三联体=max(0,µ+dpos(二)gent函数(tanh)将每个元素的输出压缩在训练过程中,我们在需要汉明距离可微时使用tanh,在需要完全二值化的其他情况下使用sign例如,在计算距离矩阵之前,描述符被完全二进制化,因为我们需要挖掘硬底片,就像正在测试当前批次一样。给定挖掘出的硬否定和距离度量,我们仍然可以使用三重丢失来学习二进制描述符。此时,选择最佳裕度变得更加困难:dneg和dpos之间的差可以与最大汉明距离一样大,最大汉明距离是描述符长度k。如果不运行一些训练/验证会话,很难确定适当的事实上我们已经确定,对于k= 256,最佳裕度是非直观值μ=32。4. 动态软余量在本节中,我们将讨论如何替换最先进的描述符学习方法所使用的三重标记丢失2972HardNet-Lib+Ours-Lib+1.41.21.00.80.61.51.41.31.21.11.0实值描述子125 0.25 0.375 0.5 0.625 0.75 0.875 1.0保证金3.0二进制描述符2.92.82.72.62.52.42.316 32 48 6496128160192224 256保证金0.40.2电话:+86-0511 - 8888888传真:+86-0511 -8888888dpos图2.改变三重边际损失所使用的边际。的网络在UBC PhotoTourism的Liberty子集上进行训练,并在其他两个子集上进行评估。左图和右图分别显示了实值和二进制描述符的性能。对于我们的结果,我们保留了三重边际损失使用的所有其他配置,只替换损失函数。图1.一个批次(1024份样本)中三联体(d阳性,d阴性)的散点图,使用标准三联体边际损失。红线是决策边界:d neg正确地大于其左上角的d pos。蓝色虚线是潜在的利润。0.375的(最佳)边界将点分成两个聚类(绿色和蓝色),其中蓝色聚类被认为是“足够好”的我们的动态加权三重损失我们首先分析了三重边际损失的训练行为,并通过一个例子解释了然后,我们解释了我们的方法如何消除余量,同时提高性能。4.1. 三重保证金损失的行为让我们首先分析学习实值描述符时三元组边缘损失的行为。对于单位长度的实值描述符,dneg和dpos之间的最大差值为2.0(dneg= 2.0,dpos= 0)。将边际设置为大于或等于2.0简单地将三元组边际损失转换为基本三元组损失(即,没有余量),其中没有三元组受到截断的影响在实践中,小于2.0的为了更好地理解这种行为,我们采用了一个预先训练的HardNet模型(在UBC PhotoTourism -Liberty 上 训 练 ) , 并 通 过 将(dpos,dneg)绘制为2D中的分散点来可视化一批样本数据中的所有三元组(图1)。在完美描述符的情况下,dpos应该小于dneg。这对应于红色显示的决策边界优化F(·)的直接方法是最大化从点(dpos,dneg)到决策边界的有符号距离,这相当于最小化基本三元组损失三重边距丢失设置边距,以便在决策边界的正确侧上足够远的点(对于假设边距,以µ= 0.375)从优化中排除。通过这样做,我们迫使网络专注于更难的三胞胎(接近,或在决策边界的错误一侧),而不具有受简单三元组影响的梯度。然而,图1显示了HardNet论文推荐的1.0的边距几乎没有影响,因为所有的三元组仍然在边距内。为了调查是否存在边缘的如图2左侧的蓝色曲线所示,确实存在更好的保证金选择如图1中所示,µ= 0.375排除了大量简单的三元组,让网络专注于更困难的情况。 图2,右边,显示了我们新的二进制描述符的相应图形。请注意,曲线的形状是不同的,最佳裕度取决于问题。当然,通过提高搜索的精度,甚至可以以更大的计算成本我们的结论是,找到最佳的利润率是一个不平凡的工作在实践中,可能需要广泛的验证。 在下面的部分中,我们将介绍我们的动态三元组加权方法,该方法避免了设置硬阈值,并根据网络的训练状态对小批量中的三元组进行加权。我们的方法产生的结果在图2中显示为红色虚线。4.2. 动态三重加权我们的方法与三元组边际损失具有相同的动机,因为小批量中的“较难”三元组对训练更有用。换句话说,“容易”的三元组应该在损失函数中被抑制,因为网络在这些三元组上的性能已经可能饱和。强调更难的训练示例的概念也是硬负挖掘被认为对最近学习的描述符的良好性能至关重要的主要原因。这项工作的关键观察是,我们可以直接测量一个三胞胎与其他三胞胎相比有多难,HardNet-Lib+Ours-Lib+d阴性平均FPR 95(%)2973POSiposneg积极d阳性−d阴性锚硬采矿底片d阳性−d阴性事实上,当这种情况发生时,损失函数几乎相等地加权这对于原始三元组裕度损失并不总是可能的,因为当每个三元组饱和时,优化将停止。isfiesdneg图2中的红线表明我们的方法在实值和二进制描述符两者上,一致地导致比三重标记丢失更好的性能5. 实验我们已经试验了三个基准测试:UBC图3.我们的动态三重加权方案。我们为每个难挖掘的三元组计算dpos-d每个三联体的损失为dpos-d通过查看其到决策边界的有符号距离(dpos-d为了衡量这一点,我们想知道有符号距离的概率分布函数(PDF)为了使聚合直方图更准确,我们为每个三元组计算dpos-d在我们的实现中,由于时间稳定的PDF是优选的,因此我们将其保持为指数衰减的移动直方图(在每个新批次上具有0.1的权重),类似于利用移动平均值的其他神经网络模块(例如,批量归一化[8])。PDF的一个示例如图3左下角所鉴于最近批次的难度分布,特定三联体的相对难度对应于具有较低d阳性这只是PDF的积分,或累积分布函数(CDF),如图3右下角所示小批量中最难的三元组导致CDF为1.0,而最容易的三元组对应于CDF为1.0。更一般地,CDF值为k%的三元组意味着它在经验上比最近批次内的由于这些CDF值具有直观的难度解释,因此我们直接将其用作权重。 给定一个大小为N的小批量,我们将加权三重损失(没有硬保证金)定义为:L= 1w·(di– dN我PhotoTourism [36],HPatches [2],and the Oxford Affine基准[18]。UBC PhotoTourism是一个经典的基于斑块的数据集,主要评估斑块验证任务,可以快速计算,并有效地进行描述符性能的初步分析。在实际应用中,补丁检索是一个更重要的任务,补丁验证任务往往不足以估计的描述符的性能 HPatches是一个更全面的基准测试,它包含更大的图像补丁集合,并在三个不同的任务上评估描述符:补丁验证,图像匹配和补丁检索。Oxford Affine基准包含具有不同类型失真的图像序列,这对于理解输入图像不理想时描述符的鲁棒性非常有用5.1. 执行我们采用尽可能类似于以前工作所使用的训练配置,以确保我们的新损失函数是最终结果的主要因素。对于训练,我们使用UBC PhotoTourism数据集[36]。它的三个子集中的每一个,被称为Liberty,Yosemite和Notre Dame,由超过400k的图像块组成,裁剪为64× 64,并使用高斯差分(DoG)关键点重新定向[15]。我们使用每个子集训练一个模型,并在其他两个子集上进行测试我们将每个补丁下采样为32× 32输入,这是L2-Net所需的 然后通过减去平均像素值并除以标准偏差来归一化每个块。通过随机翻转和旋转贴片90、180或270度来实现在线数据增强。UBC PhotoTourism数据集为每个补丁分配其3D点ID,用于识别匹配的图像补丁。每个3D点ID与假定匹配的面片列表相关联为了形成用于训练的大小为N的小批量,我们随机选择N个3D点而不进行替换,并选择两个补丁wi= CDF(di我neg).(五)对于每个选定的3D点。我们使用随机梯度下降(SGD),与mo-这个损失函数通过给它们分配低权重来自动拒绝“容易”的三元组。人们可能想知道,当dpos在能量和权重衰减分别等于0.9和10受HardNet和DOAP的启发,该网络进行了50k次迭代训练,学习率从0.1线性衰减到0。该批次)F()d−d×构建PDF阳性阴性查找重量整合F()F(PDFCDF–2974表1.对UBC PhotoTourism数据集的评估表明,使用我们的方法训练的实值和二进制描述符都优于最先进的技术。显示的数字为FPR 95(%)-越低越好。“+” and “*” denote training with data augmentation and anchor DOAP-ST+表示具有空间Transformer的DOAP描述符[9],以补偿几何噪声。描述符长度Notredame Yosemite Liberty Yosemite Liberty NotredameMean测试→自由Notredame优胜美地实值描述符SIFT [15]12829.8422.5327.2926.55[26]第二十六话12810.94.405.697.0[3]第三次世界大战1287.3910.313.063.808.067.246.64土耳其[38]1284.806.451.952.385.405.154.36[20]第二十话1287.449.843.483.545.026.565.98[29]第二十九话1282.364.700.721.292.571.712.23CS-L2-Net+[29]2561.713.870.561.092.071.301.76[19]第十九话1281.492.510.530.781.961.841.52DOAP+[6]1281.542.620.430.872.001.211.45DOAP-ST+[6]1281.472.290.390.781.981.351.38我们的+1281.212.010.390.681.511.291.18二进制描述符ORB [24]25659.1554.5754.9656.23[31]第三十一话6420.4921.6716.9014.5422.8818.9719.24[第28话]12849.6651.5852.9551.40DeepBit [14]25632.0634.4126.6629.6057.6163.6840.67[29]第二十九话1287.4410.293.814.318.817.457.02CS-L2-Net+[29]2564.016.651.902.515.614.044.12DOAP+[6]2563.184.321.041.574.103.873.01DOAP-ST+[6]2562.874.170.961.763.933.642.89我们的+2562.704.010.931.443.692.982.63对于所有实验,size设置为1024,以匹配HardNet和DOAP的公开实现为了方便未来的研究,我们将我们的实现打包为一个独立的PyTorch [21]模块。5.2. UBC摄影旅游每个UBC PhotoTourism子集都包含一个测试分割,其中包含10万对图像补丁,其中一半是真匹配,其余的是假匹配。我们采用常用的假阳性率在95%的真阳性召回率(FPR95)来评估如何以及拟议的描述符分类补丁对。 我们与现有的实值描述符集合进行了比较,包括手工制作的(SIFT [15]和root-SIFT [1])和学习的(DeepDesc [26],TFeat [3],GOR [38] PCW [20],L2-[29],HardNet [19],DOAP [6])。GeoDesc [16]没有被评估,因为它是在自定义数据集上训练的。我们还比较了现有的二进制描述符,包括ORB [24],BinBoost[31],LDAHash [28],DeepBit [14],L2-[ 29 ],[29],[29]。结果示于表1中。在相同的配置下,我们的方法优于所有现有的方法。DOAP-ST+使用 更 大 的 输 入 ( 42×42 ) 来 增 强 DOAP+ 和 空 间Transformer [9],这通过校正几何噪声显著提高了性能请注意,我们的方法也优于DOAP-ST+在 大 多 数 情 况 下 , 即 使 没 有 空 间 Transformer 。 与HardNet相比,我们的方法自动产生更好的性能,否则需要微调余量,甚至在不同的训练阶段手动调整余量5.3. HPatches最近引入的Balntas等人的HPatches基准测试。[2]在更复杂的设置中评估描述符。将不同量的几何噪声引入到测试图像块中,然后将其分类为HPatches在三个不同的任务上评估描述符:补丁验证,图像匹配和补丁检索。有关任务的更详细描述,我们请读者参阅他们的论文。图4比较了用所提出的方法训练的描述符和性能最好的实 值和二 进制描 述符 。按照 惯例, 使用在UBCPhotoTourism数据集的Liberty子集上训练的模型评估学习的描述符,并进行数据增强。对于所有描述符,我们不应用最初在HPatch中使用的ZCA规范化HardNet没有二进制版本,我们只需取符号即可获得HardNet-b+。毫不奇怪,使用我们的损失函数学习的实值和二进制描述符2975ORBLDAHashL2Net+bDOAP+b我们的+bUBC自行鲁汶壁格船树木树DIFFSEQSAMESEQVIEWPTILLUMEASYHARDTOUGHRootSIFTSIFTDDescTDE-M*L2Net+DOAP+HardNet+我们的+58.53%65.12%79.51%81.90%85.30%88.37%88.43%89.06%SIFTRootSIFTDDescTDE-M*L2Net+DOAP+HardNet+我们的+25.47%27.22%百分之二十八点零五32.64%43.98%51.36%52.76%53.25%SIFTRootSIFTTSP-M *DDescL2Net+HardNet+DOAP+我们的+31.98%33.56%39.40%39.83%53.73%60.64%百分之六十点六五61.72%ORBBBoostLDAHashL2Net-b+HardNet-b+我们的+DOAP-b+百分之六十点一五66.67%66.86%81.69%84.88%86.79%87.11%补丁验证mAP [%]BBoostORBLDAHashL2Net-b+HardNet-b+ DOAP-b+我们的+图像匹配mAP [%]百分之十四点七八百分之十五点三三百分之十五点五四31.95%39.66%43.51%45.69%ORBBBoostLDAHashL2Net-b+HardNet-b+ DOAP-b+我们的+修补修复mAP [%]百分之十八点八五22.45%22.95%42.89%49.01%53.73%55.12%图4. HPatches数据集上的评估[2]。评估是在HPatch的“完全”拆分上进行的。补丁检索任务使用最大数量的干扰项进行评估(与原始HPatches论文中使用的设置相同)。顶行:实值描述符比较。底行:二进制描述符比较。虽然HardNet和DOAP在简单的情况下都表现良好,但我们的描述符在困难的情况下更强大,从而实现了最先进的整体性能。50504040303020201010图5.在Oxford Affine数据集上对二进制(左)和实值(右)描述符进行评估。所有人都在UBCLiberty数据增强的子集,除了后缀为“++"的模型在 补 丁 验 证 任 务 上 表 现 良 好 , 这 与 我 们 在 UBCPhotoTourism数据集上的观察一致。在更具有挑战性的图像匹配和补丁检索任务,需要的描述符是更distinct-tive,我们的描述符优于所有现有的方法。5.4. Oxford数据集上的图像匹配在真实图像匹配场景中,图像可能经历各种失真,包括几何变换、模糊、照明变化和JPEG压缩。为了验证使用我们的方法学习的描述符是否容易受到特定类型的失真的影响,我们使用包含所有上述变换的牛津仿射数据集[18]进一步评估图像匹配性能。在这个数据集中,提供了单应性矩阵来帮助验证对应性。我们选择Harris-Affine检测器[17]从图像中提取关键点,并使用放大因子6裁剪图像块。我们严格遵守公共评估协议[18]。图5中报告了匹配分数。结果表明,我们的描述符可以承受在这个数据集中呈现的各种类型的失真,并实现状态-表 2. 对 两 种 图 像 检 索 引 擎 --VisualIndex 和 Hamming QueryExpansion(HQE)进行了评价. SA:单一分配。MA:多重任务。+:模型在UBC-Liberty子集上进行训练,并进行数据增强。++:模型使用UBC PhotoTourism和HPatches数据集进行训练。巴黎6k方法视觉索引HQE(SA)HQE(MA)目视HQE指数(SA)HQE(MA)RootSIFT67.1980.9983.6066.40 79.3280.36HardNet+73.0784.5885.4267.82 87.3488.35硬网++71.0184.5785.4468.96 87.1988.45我们的+72.9284.2985.9467.63 87.8388.54我们的++73.8085.4386.4271.66 88.5289.24最 先 进 的 结 果 。 还 请 注 意 , 我 们 使 用 UBCPhotoTourism和HPatches联合训练的描述符优于使用相同数据训练的HardNet。SIFTL2Net+HardNet+DOAP+我们的+硬网++我们的++UBC自行鲁汶壁格船树木树匹配分数29765.5. 图像检索局部特征描述符也经常用于图像检索。我们已经在两个图像检索引擎上评估了我们的方法:VisualIndex[33]和Hamming Query2977表3.将现有替代方案与静态硬余量进行我们的Dynamic SoftMargin方法动态软 UBCHPatch(mAP %)FPR95验证匹配检索实值描述符softplus[7]✗✓1.2089.0052.8460.72[34]第三十四话✓✗1.1888.8852.6360.36最难的1/8 [26]✓✗2.1985.8246.7456.51我们✓✓0.9589.0653.2561.72二进制描述符softplus[7]✗✓2.7386.3545.4554.23[34]第三十四话✓✗2.7686.3745.6054.19[26]第二十六话✓✗3.0985.5843.2452.97我们✓✓2.3186.7945.6955.12扩展[30],默认设置。按照惯例,我们使用Oxford5k[22]和Paris6k [23]数据集进行评估。词汇是独立学习的-在Oxford 5 k数据集上进行评估时,词汇是使用从Paris 6 k数据集提取的描述符学习的,反之亦然。在表2中,我们报告了平均精度(mAP)。请注意,我们使用所有数据(Ours++)训练的方法始终优于HardNet对应方法。5.6. 消融研究为了保持一致,我们再次使用在UBC PhotoTourism的Liberty子集上训练的模型进行以下实验。FPR95在其他两个子集上进行评估。静态硬余量的现有替代方案:在秒- 在第1节中,我们已经讨论了替换不期望的静态硬容限的三种先前尝试回想一下,它们中没有一个像我们这样既动态又柔软。由于这些基线要么最初是在不同的背景下提出的(例如,人的重新识别[34,7])或使用不同的学习方案(例如,对比损失与两阶段训练[26]),我们重新实施并调整这些方法到我们的管道中,以确保公平比较。表3显示了UBC PhotoTourism和HPatches的结果。我们的动态软策略优于所有基线方法。在我们的实验中,用最难的1/8三元组训练二元描述符[26]无法收敛,可能是因为1/8太有选择性,因此我们使用1/4代替。创建PDF的不同方法:在上述方法中,我们基于d pos-dneg的移动PDF对样本进行加权,主要是因为它与三重态的“硬”程度很好地相关。在更一般的上下文中,我们认为任何有效反映三元组“硬度”的变量都例如,我们从图1中观察到,可视化点的变化主要发生在dpos轴上,而沿dneg轴的变化较小。这意味着,与保持dpos表4.比较构建PDF的不同方法从UBC 构 建 的 PDFHPatch(mAP %)FPR95(%)验证匹配检索实值描述符dpos0.9889.1052.9361.37d阴性1.2088.5553.1560.36高斯1.0789.0552.9561.38d阳性0.9589.0653.2561.72二进制描述符dpos2.3086.9345.8155.19d阴性3.0285.5845.2153.27高斯2.3386.7245.6854.86d阳性2.3186.7945.6955.12D型阴性的PDF会降低效果我们还观察到,图3表明PDF近似为高斯分布,并且可以通过其均值和方差进行总结。这表明我们可以使用参数化PDF来替代我们目前使用的直方图表示,并节省额外的内存和计算。因此,我们已经探索了简单地维持dpos-d比较结果如表4所示,从中我们观察到,从dneg构建PDF确实会导致最差的性能。正如预期的那样,dpos是一个与d pos - d neg一样好的指标,这表明具有较大d pos的阳性样本对于训练更有用:这可以被认为是“硬正开采”。用简单的高斯分布近似估计PDF也是可行的,但是在性能上有小的牺牲,这表明实际分布是非高斯的。6. 结论在这项工作中,我们观察到,手动设置三重损失裕度的传统方法通常会导致次优结果。保证金的相反,我们提出了一种“动态软余量”策略,该策略在训练的每个阶段自动为太“容易”改进网络的数据点分配较低的权重。关键的见解是,三重态的相对“硬度”可以从距离差的移动PDF中推断出来。使用从该PDF计算的CDF作为权重会导致网络聚焦于较难的三元组。我们的方法可以应用于实值和二进制描述符学习,从而获得最先进的性能。未来的工作包括推广所提出的方法,其他类似的领域,经验利润率正在使用。例如,人脸验证和识别领域[25,7,39]也利用了三重损失,并且可能从我们的方法中受益。2978引用[1] Relja Arandjelovic和Andrew Zisserman每个人都应该知道的三件事在IEEE计算机视觉和模式识别会议(CVPR)中,第2911-2918页,2012年。6[2] Vassileios Balntas , Karel Lenc , Andrea Vedaldi , andKrys- tian Mikolajczyk. HPatches:手工制作和学习本地描述符的基准和评估。在IEEE计算机视觉和模式识别会议(CVPR),2017年。五、六、七[3] Vassileios Balntas , Edgar Riba , Daniel Ponsa , andKrystian Mikolajczyk.使用三元组和浅层卷积神经网络学习局部特征描述符。在BMVC中,第119.1-119.11页一、二、六[4] Michael Calonder、Vincent Lepetit、Christoph Strecha和Pascal Fua。简介:二进制鲁棒独立元素特征。欧洲计算机视觉会议(ECCV),第778-792页,2010年。2[5] Aristides Gionis,Piotr Indyk,and Rajeev Motwani.通过散列进行高维相似性搜索。在VLDB,第518-529页,1999中。2[6] 昆河,炎栾,斯坦.斯克拉罗夫。局部描述符优化平均精度。在IEEE计算机视觉和模式识别会议(CVPR)中,第596- 605页,2018年。二、六[7] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为三胞胎的丢失辩护,进行人员重新鉴定。arXiv预印本arXiv:1703.07737,2017。二、八[8] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv:1502.03167,2015。5[9] Max Jaderberg,Karen Simonyan,Andrew Zisserman,Koray Kavukcuoglu.空间Transformer网络。在神经信息处理系统的进展中,第2017-2025页,2015年。6[10] Herve' Je' gou,Matthijs Douze,Cordelia Schmid和PatrickPe' rez。将局部描述符聚集成紧凑的图像表示。在IEEE计算机视觉和模式识别会议,第3304-3311页2[11] Yan Ke和Rahul Sukthankar。PCA-SIFT:局部图像描述符的更有区别的表示。IEEE计算机视觉与模式识别会议(CVPR),2004年。2[12] Michel Keller , Zetao Chen , Fabiola Maffra , PatrikSchmuck,and Margarita Chli.使用尺度感知三元组网络学习深度描述符。在IEEE计算机视觉和模式识别会议(CVPR),2018。2[13] Vijay Kumar B G,Gustavo Kaziro,and Ian Reid.通过最小化全局损失函数,使用深度连体和三重卷积网络学习局部图像描述符。在IEEE计算机视觉和模式识别会议(CVP
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功