图像块匹配的指数损失与硬样本挖掘的网络优化

37 浏览量更新于2023-10-12 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4812更好更快：图像块匹配的指数损失王双1李俊1梁雪峰1、2窦泉1杨伯武1魏少伟1焦立成11中国陕西西安电子科技大学人工智能学院2日本京都京都大学xliang@xidian.edu.cn(a)（b）（c）（d）图1：在MNIST数据集上使用不同损失函数的聚类结果比较（a）和（b）使用暹罗损失，(c)和（d）使用三重态损失。(a)以及（c）使用线性损失，并且类内距离的平均标准偏差（STD）分别为0.71和0.81（b）和（d）使用我们提出的指数损失，类内距离的平均STD分别显然，具有指数损失的网络导致较小的类内距离，这减轻了分类的难度，特别是对于硬样本。摘要目前图像块匹配的研究主要集中在硬样本的学习上，因为简单样本对网络的优化贡献不大他们提出了各种各样的硬负样本挖掘策略，但很少从损失函数的角度来解决这个问题我们的研究表明，传统的暹罗和三重损失处理所有的样本线性，从而使训练时间消耗。相反，我们提出了指数连体和三重损失，它可以自然地更多地关注硬样本，而不太强调容易的，同时，加快优化。为了辅助指数损失，我们引入了硬正样本挖掘，以进一步提高效率。大量的实验表明，我们的建议提高了metric和描述符学习几个公认的基准，并优于国家的最先进的UBC数据集。此外，它也表现出更好的通用性，跨光谱图像匹配和图像检索任务。1. 介绍基于块的匹配技术已广泛应用于运动结构[41]、立体匹配[10]和图像检索[31]。早期的方法，如SIFT[23]和SURF [6]，主要关注手工特征描述符的设计。然而，它们缺乏捕获更高级别的结构信息的能力最近，基于深度学习的方法[2，3，13，19，24]已经在这项任务上显示出有希望的性能，特别是在有效性和可推广性方面[13，21，36]。根据目标函数，这些方法可以分为两类：度量学习和描述符学习。前者直接给出成对匹配概率[13，21，39]，而后者输出图像块的特征，其相似性在特征空间中测量[19，27，36，40]。这两种方法大多使用Siamese或三重损失来优化网络。然而，它们不能处理数据冗余的问题，因为训练数据是补丁对/三元组。当补丁的数量增长时，可能的非匹配补丁对/三元组呈指数增长。此外，大多数训练数据是容易负样本。通常，它们在几个训练时期后对网络优化的贡献很小，然后使训练耗时。为了解决这个问题，Zhanget al. [40]提出了一个正则化项，以充分利用描述符空间。Tian等人[36]引入了渐进采样策略，以更有效地生成样本。后来，一个最难的批处理策略，4813[19，27]用于挖掘坚硬的阴性样本。新兴的研究[5，35]已经证实，当应用硬样本挖掘时，准确性和效率得到了提高。然而，上述方法仍然存在两个弱点：(1)损失函数相对于特征距离（欧几里德距离）是线性的，因此网络线性地处理所有训练样本。这使得网络在一次迭代中惩罚较少的困难示例，并导致耗时的训练。(2)没有考虑硬正样本，这导致正训练数据也变得冗余。为了解决这些问题，我们提出了指数暹罗和三重损失，这可以在训练过程中自然地将更多的注意力放在硬样本与线性损失相比，指数损失实现了更好的聚类结果，如图所示。1、较大的类间距离和较小的类内距离。换句话说，聚类变得更紧凑，特别是对于硬样本（远离聚类中心的点）。为了帮助指数损失，我们应用积极和消极挖掘来选择用于训练的硬样本此外，我们基于工作[39]设计了一个共享特征网络，作为度量和描述符学习的基本网络，当应用我们的指数损失时，它表现出更好的泛化能力。我们的贡献有三个方面：（1）提出了描述符学习和度量学习的指数Siamese损失函数和三重损失函数。与线性函数相比，它们使网络更关注硬样本：（2）引入了硬正样本挖掘，使学习收敛更快;（3）设计了一个度量学习和描述学习的共享特征网络。在基准测试上的大量实验表明，该方法在图像匹配问题上达到了最先进的性能，在图像检索任务上优于其他方法。2. 相关工作对于图像块匹配问题，基于深度学习的方法可以分为两大类：度量学习和描述符学习。我们在下面简要回顾这些方法。2.1. 度量学习MatchNet [13]设计了一个用于特征提取的双塔连体网络，遵循三个全连接层，用于测量特征对的相似性。考虑到效率和准确性之间的权衡，Zagoruyko等人。[39]探索了几种不同的网络结构，包括2通道网络（2-ch）和中央环绕（CS）架构。2-ch将两个补丁视为2通道图像，而CS在训练期间学习多分辨率信息。两人都表示，可观的性能改进。Kumar等人[21]提出了一种全局损失来缓解过拟合问题，其最小化和最大化非匹配对和匹配对之间的相似性的平均值。此外，它可以最小化两个分布的方差。据我们所知，没有硬样本挖掘策略应用于度量学习。相反，我们引入了一个硬负挖掘来加速训练。2.2. 描述符学习与度量学习不同，描述符学习学习特征描述符并直接测量特征空间中的成对距离。最近，许多工作应用Siamese网络[21，25]和三重网络[3，16，21]结构来学习描述符。具体而言，Simoet al.[35]利用具有对比损失的Siamese网络来学习区分性描述符。Balntas等人[3]设计了一个新的强大的损失函数，称为softPN，它结合了softmax ratio loss [16]和软否定挖掘策略。Zhang等人[40]提出了一个正则化项来提高特征空间的表达能力，它可以与任何损失函数（如Siamese和triplet losses）合作L2Net [36]提出了一种渐进式采样策略，使网络能够在几个时期内访问大量样本，并在UBC基准测试中报告了值得注意的性能[8]。后来，Scale aware [19]和HardNet [27]利用更有效的基于批次的采样策略来挖掘硬阴性样本。更重要的但是，过多的超参数会导致复杂的训练过程。为了提高性能，在大多数描述符学习方法中，一个有效的解决方案是引入或涉及硬负样本挖掘策略。然而，很少有研究从损失函数的角度来解决这个问题，或者考虑硬正样本。我们提出新的解决方案将在下面详细介绍3. 方法本文首先给出了指数损失函数的概念和分析，然后介绍了硬正样本和硬负样本的挖掘方法最后，给出了共享特征网络的具体实现。3.1. 指数损失函数由于指数损失函数是基于Siamese和三重态损失的，我们首先简要地回顾了它们连体损失通常被设计用于图像块对。暹罗损失的最流行的变体是对比损失[11，12，26]。为了简单起见，我们首先用公式表示一个一般的4814AP22222APMNAP一个一个AP一个ShShShSeS e▶ ▶ ▶ ▶0distγ−α）1/βDistα1/β探针γ+α）1/β探针ShSh ShSeS e▶ ▶ ▶ ▶α1/γDistβ+α）1/γ分布0概率（Pβ−α）1/γprob(a) 连体缺失（dist）（b）三联体缺失（dist）（c）连体缺失（prob）（d）三联体缺失（prob）图2：指数（蓝色曲线）和线性（绿色线）损失与成对特征距离或成对匹配概率的关系图顶行和底行分别表示正样本和负样本。(a)和（b）用于描述符学习，并且水平轴是成对距离。(c)和（d）用于度量学习，横轴是匹配概率。纵轴是损失。Se和Sh分别表示易溶样品和难溶样品的范围。Siamese loss [19，35] as：LSiamese=Dap+[α−Dmn]+，（1）其中（a，p）表示匹配的片对（正样本），（m，n）表示非匹配的片对（负样本）。 D ap=f（a）−f（p）2和D mn =<$f（m）− f（n）<$2是两个补丁的特征描述符之间的欧几里得距离。 f表示可微的将图像补丁映射到归一化特征描述符的深度网络。[z]+=max（z，0）。暹罗损失被设计为使正对尽可能接近，而将负对分离得远于边际距离α。可以看出，它只考虑补丁对的绝对距离。图2（a）（绿线）描述了成对距离和损失之间的关系。顶行和底行分别表示阳性和阴性样本。对于正样本，网络训练的贡献损失随着两块图像之间的特征距离具有较大距离的对是硬正样本，具有较小距离的对是易样本。类似地，负样本的损耗随着两个贴片之间的请注意，具有较小距离的对是硬负样本。三重态损失是针对贴片三重态设计的。给一个补丁三重态损耗要求负距离必须大于正距离a裕度α。因此，它们考虑了正负对之间的相对关系类似于暹罗的损失，图。图2（b）（绿线）示出了传统的三重态损耗也是线性函数。指数损失。近年来，大多数文献[15，19，29，34，35，37，38]都采用l~ 2欧氏距离作为函数D.几项研究[11，18，26，33]改为应用l2平方欧氏距离;然而，研究[15，37]得出结论，l2损失使模型更容易崩溃，使用l2损失更稳定。我们的研究表明，少数极硬的样品可能导致训练停滞，只发生在早期阶段。对于其他样本，其梯度仍在合理范围内因此，我们只在第一个训练阶段应用l2损失，然后在后续训练中用l2实验结果表明，l2损失法具有较快的收敛速度和较好的性能.与l2损失相比，l2损失相对于成对特征距离是非线性的。我们认为这是性能增益的本质，然后讨论描述符学习中的连体和三联体损失的一般形式：三元组{a，p，n}，片对（a，p）表示正对，并且（a，n）是负对。具体来说，三重边际损失[5]定义为：L暹罗（dist）=DβL三重态（dist）=[Dβ+[α−Dγ]+，γ+α]+，（三）L =[D ap− D an+ α]+。（二）其中β>0和γ>0是控制损失函数的变化率的指数级当β=γ= 1时，ShSeShSe积极负损失损失▶▶损失▶损失▶损失损失▶▶损失损失▶▶（P（D）（D）- -D4815MNAP一个AP他们是传统的暹罗损失（方程。1）和三元组注意，三元组损失保持为0，直到匹配概率-损失（等式2）的情况。当β1和γ1= 1，我们将它们它比边际大随着概率的增加，指数损失。图中的蓝色曲线。2（a）和（b）显示损失和成对特征距离之间的关系。对于具有小特征距离的正样本图中的顶部图。图2（a）示出了当距离较小时，指数暹罗损失保持较小的值（左侧）。当距离增加时，阳性样本变得更难区分。预计网络将更加关注硬样本。由于指数函数的性质，指数暹罗损失随着距离的增加而迅速增长（右侧），其中Se和Sh表示容易和困难样品的范围，re-crack。对于具有较大特征距离的负样本（容易负样本），指数暹罗损失具有较小的损失，如图底部右侧所示。第2段（a）分段。请注意，当易负样本的特征距离大于一定余量时，损失变为0。随着距离的减小，负样本变得更难区分。指数Siamese损失迅速增加，并为那些硬样本保持更大的损失值，这迫使网络从这些数据中学习更多。指数三联体损失函数与指数连体损失函数类似，如图所示第2段（b）分段。唯一的区别是，在距离大于裕度之前，不会对容易的阳性样本进行惩罚。实验表明，最佳参数设置为β=2，γ=2。相反，传统的损失随着成对的距离，因此不能有效地让网络减少对简单样本的关注，而更多地关注困难样本，这导致收敛缓慢。这个思想可以很容易地转移到度量学习，其输出是正对匹配概率Pap和负对匹配概率Pmn，Pan。因此，连体和三重态损失的一般形式可以重写为：损失呈指数级增长，这迫使网络更多关于硬样品。从图2（c）和（d）可以看出，指数损失值小于线性损失值。实际上，它不会影响结果，因为当应用指数损失时，硬样本比容易样本贡献更多的损失。虽然硬样本在训练数据中占少数，但其累积损失比线性损失大得多。实验表明，最佳参数设置为β=2，γ=0。3、学习度量。为了简单起见，我们将线性连体和三重态损耗命名为线性-SLoss和线性-TLoss，将指数连体和三重态损耗命名为Exp-SLoss和Exp-TLoss。玩具问题为了证明指数损失的有效性，我们在MNIST[22]数据集上训练了一个简单的网络与[19]中的BN网络一样，批量归一化（BN）[17]和ReLU [28]被添加到每个卷积层之后，除了最后一个。输入为28×28灰度补丁。输出特征描述符通过降维处理并在2D上可视化飞机我们使用Adam优化器使用指数损失和线性损失来训练网络[20]。初始学习率为0.001。指数和线性损失函数的边际被设置为2。图1显示了聚类结果。我们可以看到，与线性损失相比，指数损失导致更小的此外，我们可以观察到，使用暹罗损失的集群是更紧凑的比那些使用三重态损失。这与损失函数的定义是一致的。连体丢失鼓励阳性样本尽可能接近，而三联丢失只是试图迫使阳性样本更接近所有阴性样本。3.2. 硬正负样本挖掘仅使用指数损失可能无法保证L暹罗（概率）=PβL三联体（prob）=[Pβ+[α−Pγ]+，γ+ α]+。（四）最佳性能。由于训练数据中易样本所占的比例通常较大，网络从硬样本中学习的机会这是原因图2（c）和（d）描述了成对匹配概率和损失之间的关系。在上图的右侧，容易的正样本具有更高的匹配概率，然后，指数损失对它们的惩罚较小。随着概率的降低，损失增加缓慢，有效地削弱了易正样本的影响。当概率进一步降低时（图的左侧），正样本变成硬样本，指数损失迅速增加。类似地，容易的负样本由于小的匹配概率而保持较小的惩罚，如底部图的左侧所示新兴研究引入了许多数据采样和挖掘策略[3，5，19，24，27，37]。与这些方法主要集中于硬负样本不同，我们注意到也存在硬正样本，可以帮助网络训练。因此，我们使用我们的指数损失优化网络，并为描述符学习进行硬正样本和负样本挖掘受HardNet [27]中阴性样本的最难批量策略的启发，我们为每个minibatch选择n个阳性对，然后通过交叉配对产生n（n−1）个负对。这些对被馈送到暹罗网络中。网络输出- -P4816图3：我们的共享功能网络的架构。成对特征描述符。然后，计算成对距离矩阵，为每个正对选择硬负对（更多细节可以在[27]中找到）。此外，受Simoet al.[35]，我们提出了一个硬正样本挖掘。在所有n个正样本的前向传播之后，仅选择具有较大距离的前k对作为用于反向传播的硬正样本剩余的易阳性样本不通过网络反向传播。我们采用三元组网络[3，21]进行度量学习。输入三元组由两个负对和一个正对组成。类似于Balntas等人引入的三重否定挖掘策略。[3]中，我们用匹配概率代替因此，在这项工作中，度量学习的硬负挖掘是选择具有较大负匹配概率的样本3.3. 共享特征网络为了证明我们的指数损失函数的有效性，我们需要一个通用的网络描述符学习和度量学习。不幸的是，由于特定的目标，目前没有这样的网络存在。因此，我们设计了一个基于SPP网络的特征网络[39]，它可以被描述符学习和度量学习共享。图3显示了它的架构，其中包含四个卷积块。每个块具有结构：Conv-BN-ReLU-Conv-BN-ReLU。第二和第三块包含扩张卷积。SPP运算符[14]被添加到卷积块的顶部，有一个4层金字塔池（8×8，4×4，2×2，1×1）。对于描述符学习，我们构建了一个Siamese网络[21，25]它有两个分支。它们具有相同的结构，并且由共享特征网络组成，该共享特征网络遵循用于生成特征描述符的全连接层。当阳性样本被送入网络，硬样本，根据第3.2节中所述的程序挖掘。对于度量学习，我们构建了一个具有三个相同分支的三元组网络。每个分支也具有共享要素网络，但遵循两个完全连接的层。最后一层输出匹配概率。类似于2通道方法[1，39]，每个输入对都被转换为2通道图像格式。三个分支取两个负-分别作为输入，并产生三个匹配概率。然后，应用硬负样本挖掘。网络结构的更多细节在补充材料中给出。4. 实验为了证明我们的建议的优越性，我们将其与最先进的技术[19，21，27，36，39，40]进行了比较。三个基准：UBC数据集[8]，RGB-NIR场景数据集[9]和Hpatches [4]。前两个数据集主要用于评估补丁匹配性能，其通过95%召回率（FPR95）的假阳性率来衡量FPR95越小，该方法实现的性能越好。Hpatches专门用于评估描述符的鲁棒性。通过平均精密度（mAP）评价试验mAP越大越好。4.1. 数据集UBC Benchmark也被称为Brown数据集，它包含三个子集：Liberty、Notredame和Yosemite，Liberty的唯一补丁数量为450k，Notredame为468k，Yosemite为634k。利用高斯差分（DOG）或Harris检测器提取数据集中的斑块仅对应于同一3D点的面片被视为匹配。在[19，27，36]之后，我们在三个集合中的每个集合上进行训练，然后报告其他两个子集上的FPR95以及所有子集的平均值和标准差（STD）。RGB-NIR Benchmark是一个跨光谱图像匹配基准。它由477张以RGB近红外（NIR）所有图像补丁都是通过RGB图像中的SIFT [23]提取的一半是匹配对，另一半是不匹配对。在[1，32]之后，我们在国家子集上进行训练，并在其他8个子集上报告FPR95：野外，森林，室内，山区，旧建筑，街道，城市和水。Hpatches Benchmark是最近提出的一个更大更全面的数据集。它由116个层序组成，其中57个层序主要受光照影响，59个层序主要受ge-度量变形每个序列包括参考图像和五个目标图像。在使用DoG、Hessian-Hessian和Harris-Laplace算法提取关键点时，会引入额外的几何噪声。根据噪声的大小，将样本分为三个级别：EASY，HARD和TOUGH。该基准定义了三项任务：块验证、图像匹配和块检索。我们使用mAP来衡量所有三个任务的性能。4.2. 培训设置实验中的输入是64*64灰度图像块。对于描述符学习，网络由SGD优化器[7]训练，初始学习率为0.1，4817γβ1.02.03.04.00.1 0.3 0.5 1.01.050.901.16 一点四1.140.751.12 零点九五1.010.780.79 0.811.550.910.78 0.79γβ0.51.02.03.00.5 1.0 2.0 3.01.971.092.24 6.232.221.371.12 两点1.152.23 一点零三1.111.111.991.22 一点零七(a) 具有不同β和γ的Exp-Tloss（prob）。（b）具有不同β和γ的Exp-Tloss（dist）。（c）FPR95，根据不同的bs和mr。表1：对不同指数阶数、β和γ、批量大小和开采率的消融研究。(a)在度量学习中，通过具有不同β和γ的Exp- Tloss实现FPR 95;（b）在描述符学习中，通过具有不同β和γ的Exp-Tloss实现FPR 95;（c）在描述符学习中通过改变批量大小（bs）和挖掘比率（mr）实现的FPR 953.553.042.532.0方法Fature dim平均线性-Tloss（prob）+128 1.56210 5 10 1520训练时期1.51.00 5 10 1520训练时期表3：使用指数损失函数的HardNet [27]的FPR95。+ 表示数据增强。硬阳性样本挖掘的有效性。以来图4：线性和指数度量（左）和描述符（右）学习的损失。动量0.9，重量衰减1 e-5。我们设置余量α=2，总共训练我们的网络20个epoch。学习率每5个epoch减半。对于度量学习，我们设置裕度α=1，并使用Adam优化器[20]，初始学习率为2 e-4。为了进行公平比较，只有即时翻转和水平旋转应用于数据增强。培训是基于Pytorch [30]和NVIDIA GeForce RTX 2080 Ti从头开始的。4.3. 消融研究指数级选择。由于指数阶数β和γ控制了损失率相对于成对匹配概率或特征距离的变化率，因此我们首先考察了它们如何影响网络性能我们改变β和γ，并在UBC数据集的Liberty子集上训练网络[8]。计算其他两个子集的平均FPR 95并示于表1（a）和（b）中。可以看出，度量学习网络达到最低FPR 95=0。当β=2和γ=0时，3.当β = 2，γ = 2时，描述子学习网络的学习效果最好。然后，我们应用这些设置来检验训练效率同时应用不同的损失函数。图4显示了FPR 95与训练时期的关系。显然，指数损失比线性损失收敛得更快，三重损失的表现略好于暹罗损失。因此，我们应用指数三重损失函数Exp-TLoss，并为后续实验提供最佳参数设置。从一批n个正样本中选出前k个硬样本，测试了k和批量大小对网络性能的影响。开采率定义为（n-k）：K. 使用不同批量64，128，256，512和表1（c）列出了0：1、1：8、1：4、1：2、1：1的开采比例。可以看到，批量大小为128的训练平均达到较低的FPR95值，同时，挖掘比例为1：2，产生最佳结果。指数损失的普遍性。我们想测试我们的指数损失函数如何影响其他网络，然后将其应用于HardNet [27]，该方法报告了比其他方法更好的性能。为了公平比较，我们只更换损失函数，其他设置保持不变。表3显示，指数损失分别使度量和描述符学习的FPR95减少37%和20%。此外，我们观察到描述符学习中的HardNet只需要一半的训练时间就可以达到最佳性能。4.4. UBC基准数据集我们首先将我们的建议与最广泛使用的UBC数据集上的八种最先进的方法进行比较，并在表2中列出所有子集的FPR95，平均值和STD。对于度量学习，不同子集的性能差异很大。与SNet [21]相比，我们的建议在Liberty上训练时将FPR95降低了88%和78%。由于Liberty中的补丁主要受旋转和视角变化的影响，指数损失迫使网络从这些硬样本中学习更多，以获得更好的准确性。当在Notredame上训练时，我们的建议不如SNet。我们认为有两个原因：（1）Notredame先生BS时间：2019 - 01 - 18 00：00：0064 1.131.071.111.23 一点二七128 1.09 1.12 一点零七一点零三1.13256 1.111.141.101.09 一点三五度量学习Exp-TLossLinear-TLoss Exp-SLossLinear-SLoss描述符学习Exp-TLossLinear-TLoss Exp-SLossLinear-SLossFPR95FPR95实验-损耗（概率）+1280.98线性-Tloss（dist）+1281.25Exp-Tloss（dist）+1281.004818TL+AS+GOR深度比较2ch-2stream+CS SNet-GLoss+L2Net+Exp-Tloss（prob）+规模感知HardNet+Exp-Tloss（dist）FPR95方法特征NOT YOS LIB YOS LIB NOT均值STD Dim LIB NOT YOS度量学习SIFT[23] 128 29.84 22.5 27.29 26.55 3.04MatchNet[13]40966.9010.773.875.6710.888.397.742.56[21]第二十一话2566.398.431.842.836.615.575.272.27[39]第39话2564.557.402.012.524.754.384.271.75[39]第39话2564.857.201.902.115.004.104.191.81[21]第二十一话3843.694.910.771.143.092.672.711.42实验-损耗（概率）+1280.441.071.631.853.782.271.841.04描述符学习[40]第四十话1281.955.404.805.156.452.384.361.63L2-Net[36]1283.645.291.151.624.433.303.231.46[36]第三十六话2562.554.240.871.393.812.842.611.20[36]第三十六话1282.364.700.721.292.571.712.221.27CS L2-Net+[36]2561.713.870.561.092.071.301.761.05[19]第十九话1280.682.511.791.642.961.021.640.79[27]第二十七话1280.531.961.491.842.510.781.510.69Exp-Tloss（dist）1280.471.321.161.102.010.671.120.49表2：我们的提案和UBC基准的最新技术之间的PFR95比较。+ 表示数据增强。LIB：自由，而不是：Notredame，YOS：Yosemite.遭受更多的几何变形，并导致一些前，tremely硬样本，这影响了22我们的建议;（2）SNet使用中心-环绕（CS）网络[39]，该网络学习多尺度信息并且对几何变形具有鲁棒性。虽然CS提高了每-网络的复杂性和训练成本上升21显著为了保持效率，我们在我们的建议中没有采用CS虽然我们的网络架构与DeepCompare，我们实现了显著的改进。202224对于描述符学习，我们有类似的结果。我们的亲-当在Notredame上训练时，由于它涉及CS结构，因此它略逊于CS L2-Net [36]与最好的描述符学习方法HardNet [27]相比，我们的建议在所有子集上实现了较低的FPR95值，而无需使用任何数据增强。此外，FPR95的较低均值和STD表明我们的方法对不同数据更鲁棒。为了说明有效性和效率，我们还在图中绘制了FPR95与训练成本的关系。五、实验结果表明，该方案在性能和效率上都优于其他方案4.5. RGB NIR场景数据集为了证明我们的建议的普遍性，我们进行了实验，这个跨光谱图像补丁匹配基准。由于成像机制的不同，图像对之间存在着明显的外观差异.我们将我们的建议与可以处理交叉光谱数据的最先进技术进行了比较，并显示培训时间（h）图5：FPR95与所有竞争描述器和度量学习方法的训练成本。我们的是粗体。结果见表4。对于度量学习，我们的建议具有FPR 95的最低均值。然而，现场性能劣于SCFDM [32]，这导致所有子集上的STD更大。我们发现，Filed是最具挑战性的子集，SCFDM是专门为交叉光谱数据设计的。对于描述符学习，我们的建议比HardNet [27]更好，分别将FPR 95的平均值和STD降低了26%和55%。特别是，两个最具挑战性子集的FPR 95值：农田和山地减少了50%。4.6. Hpatch基准我们将我们在描述符学习中的建议与TPEG-M [5]，L2 Net [36]和HardNet [27]进行比较，204819方法野外森林室内山地老建筑街道城市水平均STD度量学习pseudo-siamese [1]17.019.8211.1711.866.758.255.6512.0410.313.35泰国+[1]15.7910.7611.6011.155.277.514.6010.219.613.44双通道+[1]9.960.124.408.892.302.181.586.404.473.37SCFDM+[32]7.910.873.935.072.272.220.854.753.482.26实验-损耗（概率）+10.150.551.051.441.381.341.291.842.422.96描述符学习PN-Net[3]24.563.916.5615.996.849.514.4115.6210.926.74PN-Net+[3]20.093.276.3611.535.195.623.3110.728.265.32Q-Net[2]20.803.126.1112.325.426.573.3011.248.615.57Q-Net+[2]17.012.706.169.614.613.992.838.446.864.48[36]第三十六话16.770.762.075.981.892.830.6211.115.255.44[27]第二十七话10.890.221.873.091.321.301.192.542.803.17Exp-Tloss（dist）+5.550.242.301.511.452.151.441.952.071.44表4：我们的建议和RGB-NIR场景数据集的最新技术之间的FPR 95比较TAL-M *L2NetHardNetNIPSL2Net+HardNet+NIPS我们HardNet+HardNet+FB我们的FB0 5081.90%84.46%86.19%86.69%87.12%87.70%88.43%89.29%百分之九十点零七100TAL-M *L2NetL2Net+HardNetNIPSHardNet+NIPS我们的HardNet+HardNet+FB我们的FB02032.64%百分之四十点八二45.04%48.24%50.38%51.15%52.76%54.64%56.17%406080100TAL-M *L2NetL2Net+HardNetNIPSHardNet+NIPSHardNet+我们的HardNet+ FB我们的FB52.03%59.64%63.37%65.26%66.82%69.44%69.57%72.66%75.04%0 50 100补丁验证mAP [%]图像匹配mAP [%]修补修复mAP [%]图6：在HPatches数据集上验证、匹配和检索任务的性能比较。标记的颜色指示噪音水平：容易（绿色），硬（蓝色），强硬（红色）。SAMESEQ（）和SAMESEQ（）表示验证任务中反例的来源ILLUM（×）和VIEWPT（×）表示匹配任务中光照和视点变化的影响后缀表示训练集（FB：整个UBC数据集，没有后缀：Liberty）。Hpatches benchmark [4].图6显示了结果。当在Liberty上训练方法时，我们的建议仅在补丁检索任务中略优于HardNet。当在整个UBC数据集上训练时，我们的建议在所有任务中表现最好。我们认为性能的提升来自于更大规模的硬样本挖掘。然后，指数损失迫使网络从这些信息数据中学习更多。最终，网络在不同的任务上变得更加强大。请注意，我们的建议提高了perfor-mance更大的艰难和艰难的测试比简单的测试没有应用数据增强，并始终实现改善序列与照明（ILLUM）和视点（VIEWPT）的变化，这是最艰巨的所有这些结果都证明了我们的建议具有更好的鲁棒性。5. 结论在本文中，我们提出了指数三元组和连体损失的补丁匹配任务，这使得网络自然地将较少的注意力放在容易的训练样本上，而将更多的注意力集中在困难的样本上，以加速学习。为了验证指数损失的有效性，我们设计了一个共享特征网络，可以应用于描述符学习和度量学习。在硬样本挖掘的支持下，我们的建议在UBC基准上的有效性和效率方面优于其他国家的最先进的。此外，在跨光谱图像匹配和图像检索任务中也表现良好，表现出较好的通用性。致谢本课题得到了国家自然科学基金（No.61771379）、国家自然科学基金创新群体基金（ No.61621005 ）、中央高校基础研究基金（ No.JC1904 ）、长江学者和高校创新团队计划（No.IRT 15R53）的资助。4820引用[1] Cristhian A Aguilera 、 Francisco J Aguilera 、 Angel DSappa、Cristhian Aguilera和Ricardo Toledo。使用深度卷积神经网络学习交叉谱相似性度量。在CVPR，2016年。五、八[2] 克里斯提安·阿吉莱拉，安吉尔·D·萨帕，克里斯提安·阿吉莱拉和里卡多·托莱多。基于四元组网络的互谱局部描述符。传感器，17（4）：873，2017年。1、8[3] Vassileios Balntas ， Edward Johns ， Lilian Tang ， andKrys- tian Mikolajczyk. Pn-net：用于学习本地图像描述符的联合三重深度网络。 CoRR， abs/1601.05030 ，2016。一、二、四、五、八[4] Vassileios Balntas ， Karel Lenc ，Andrea Vedaldi， andKrys- tian Mikolajczyk.Hpatches：手工制作和学习的本地描述符的基准和评估在CVPR，2017年。五、八[5] Vassileios Balntas ， Edgar Riba ， Daniel Ponsa ， andKrystian Mikolajczyk.使用三元组和浅层卷积神经网络学习局部特征描述符。在BMVC，2016年。二、三、四、七[6] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。冲浪：加快了强大的功能。在ECCV，2006年。1[7] 我在博图。Stoc hasticGr adientDescentTric ks，第7700卷，第421-436页2012年1月。5[8] Matthew Brown和David G.洛使用不变特征的自动全景图像拼接。IJCV，74（1）：59-73，2007. 二、五、六[9] Matth e wBrown和SabineSüsstrunk。用于场景类别识别的多光谱筛选CVPR，2011。5[10] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR，2018年。1[11] Christopher B Choy，JunYoung Gwak，Silvio Savarese，and Manmohan Chandraker.通用通信网。在NIPS，2016年。二、三[12] R. Hadsell，S. Chopra和Y.勒昆通过学习不变映射来降低维数。CVPR，2006。2[13] 韩旭峰、梁建民、贾阳青、苏坦卡、王建民.伯格。Matchnet ： Unifying fea- ture and metric learning forpatch-based matching.CVPR，2015。一、二、七[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。2014年，在ECCV。5[15] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失，进行人员重新鉴定。 CoRR ，abs/1703.07737，2017。3[16] Elad Hoffer和Nir Ailon使用三重网络的深度度量学习CoRR，abs/1412.6622，2014年。2[17] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML ，2015。4[18] 王建，周峰，文石磊，刘晓，林元庆。带角度损失的深度度量学习InICCV，2017. 3[19] Michel Keller ， Zetao Chen ， Fabiola Maffra ， PatrikSchmuck，and Margarita Chli.学习具有规模的深度描述符-4821感知三元组网络。在CVPR，2018年6月一二三四五7[20] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。四、六[21] Vijay Kumar B G，Gustavo Kaziro，and Ian Reid.通过最小化全局损失函数，使用深度连体和三重卷积网络学习局部图像描述符在CVPR，2016年6月。一、二、五、六、七[22] Yann Lecun 、 Leon Bottou 、 Y Bengio 和 PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE，86：2278- 2324，12 1998. 4[23] David G.洛基于fpr95不变关键点的独特图像特征。IJCV，60（2）：91-110，2004. 一、五、七[24] Zixin Luo，Tianwei Shen，Lei Zhou，Siyu Zhu，RunzeZhang ， Yao Yao ， Tian Fang ， and Long

下载后可阅读完整内容，剩余1页未读，立即下载