互光谱图像块匹配中的特征差异学习网络

79 浏览量更新于2023-10-12 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3017AFD-Net：用于互光谱图像块匹配的窦泉1梁雪峰1、2王双1魏少伟1李伟1宁虎燕1焦立成1中国陕西西安电子科技大学人工智能学院2日本京都京都大学shwang@mail.xidian.edu.cn摘要跨不同谱域的图像块匹配我们认为原因有二：1.传统方法学习的鉴别特征较弱; 2. 两个图像域之间的显著外观差异。为了解决这些问题，我们提出了一个聚合特征差异学习网络（AFD-Net）。与仅依赖于高层特征的其他方法不同，我们发现其他层次的特征差异也提供了有用的学习信息。因此，多层次特征差异被聚合以增强区分。为了使特征在不同的领域保持不变，我们引入了一个基于实例归一化（IN）的领域不变特征提取网络。为了优化AFD-Net，我们借用了大余量余弦损失，它可以最小化匹配和非匹配样本之间的类内距离，最大化类间距离大量的实验表明，AFD-Net在跨光谱数据集上的性能大大优于现有技术，同时在单光谱数据集上也表现出相当的推广能力。1. 介绍建立图像之间的局部对应关系在许多计算机视觉任务中起着至关重要的作用，例如。图像检索[19]、多视图立体重建[29]和图像配准[35]。最近，交叉光谱图像匹配受到越来越多的关注，因为不同的光谱域提供了互补信息[10，15，24]。例如，可见光谱本课题得到了国家自然科学基金项目（No.61771379）、国家自然科学基金创新研究群体项目（No.61621005）、中央高校基础研究基金项目（No.JC 1904）和长江学者和高校创新研究团队项目（No.IRT 15R53）的资助。图1. 在互谱数据集中，对于匹配（M）和非匹配（N）样本，特征差（ FD ）和聚合差（ AD ）在不同层处的变化及其标准差（STD）。可见光图像（VIS）和近红外图像（NIR）可以相互补偿丰富的颜色信息和高纹理结构[2]。因此，跨不同领域的图像匹配成为一个新的挑战。传统的匹配方法是基于手工的局部特征描述符，如SIFT [21]，SUR- F [6]，GISIFT [10]和形状上下文[7]。它们在可见光图像上表现得相当好。然而，如图1、由于不同的成像机制，互谱图像在像素级上出现显著差异，严重降低了手工特征匹配的性能。近年来，基于深度学习的方法在图像匹配的特征学习中显示出了前所未有的优势一般来说，有两大类：描述符学习[3，5，16，22，30，32]和度量学习[2，11，25，38]。描述子学习方法通过卷积网络提取输入图像块的高级特征，并通过特征距离度量它们的相似性。相反，度量学习方法通过在特征提取网络之后添加分类器网络，将此问题转化为二进制分类任务（匹配和不匹配）通常，该框架通过交叉熵损失来优化。可以看出，这两种方法都仅仅依赖于高级特征，因为它们更抽象和不变。3018旋转，透视和尺度[17，27]。我们发现，其他层次的特征也是有用的，由于涉及更多的纹理信息，和补丁对的特征差异（FD）可以有助于匹配预测。这是因为FD可以抵消匹配样本的相同信号，但放大非匹配样本的不同信号。不幸的是，这些丰富的信息还没有用于图像补丁匹配。在图1中，我们使用一个样本对和一组60K样本来说明特征差异（FD）。上图表示样品的FD。中间的曲线表示每层图像块对一般来说，一个大的STD文件的注释信息丰富图1显示的FD是递减，ING为匹配（红线）和不匹配（红点线）的样本时，深入到网络。因此，高级特征可能不足以区分硬样本。相反，我们聚合相邻的FD并通过卷积运算器顺序处理它们，并将它们命名为聚合差异（AD）。下面的图表示样品的AD。有趣的是，匹配样品的AD的STD（蓝线）最初减小，并且在更深的层中趋于稳定。与此相反，非匹配样本（蓝色虚线）出现无表增加。这一观察启示我们，AD聚合了更多的低层信息，为特征学习带来了更多的区分性学习信号。因此，我们提出了一个聚合特征差异学习网络，AFD-Net，用于跨光谱图像块匹配任务，如图所示。二、除了提高特征区分度之外，跨光谱图像匹配还面临跨不同域的特征不变性的问题。由于交叉光谱图像之间的显着外观变化，学习/设计域不变特征是不平凡的，很少有研究解决这个问题。新兴研究[23，33]报告称，实例规范化（IN）可能会消除外观差异。因此，我们引入了一个域不变的特征提取网络，通过应用IN，它不仅减少了由主成分变化引起的差异此外，我们发现广泛使用的Soft-max损失并不是我们方法的最佳选择，因为它只鼓励欧几里得空间中的特征可分性，但忽略了区分[20，28，34，36]。相反，匹配问题需要较大的类间距离的可分性因此，我们借用人脸识别中的大边际余弦损失与Softmax损失不同，LMCL在余弦空间中学习特征，最小化类内距离，最大化匹配和非匹配样本之间的类间距离。简而言之，我们对这项工作的贡献有三方面：(1) 提出了一种用于跨光谱图像块匹配的聚合特征差异(2) 引入实例归一化（IN）方法，提出了一种域不变特征提取网络，该网络可以消除由于光谱和光照变化引起的图像外观差异(3) 实验表明，我们的方法优于国家的最先进的跨光谱和单光谱补丁匹配基准。2. 相关工作2.1. 基于深度学习的方法基于深度学习的图像匹配方法主要分为两种类型：描述符学习和度量学习。他们通过卷积网络提取图像块的深层特征，然后通过特征距离或度量网络测量特征的相似性[2，3，5，11，16，22，25，30，32，38]。作为描述符学习的先驱，Siamese网络[30]使用具有相同结构和共享权重的两个CNN分支来学习用于比较一对图像块的区分特征，并通过铰链嵌入损失进行优化。与成对比较不同，Balntaset al. [5]提出了一种采用三元组比较的PN网络，通过使用软PN损耗来强制匹配对的距离必须小于任何非匹配对的距离，后来，Aguileraet al.[3]将PN-Net直接应用于互光谱图像块匹配，提出了一种四元组网络（Quadruplet Network，Q-Net）。相反，L2-Net [32]和HardNet [22]从挖掘硬样本的角度解决了图像匹配问题他们提出了小批量穷举负采样策略，并选择了硬负样本作为主要的训练数据。这些策略在单光谱图像块匹配中表现良好，达到了最先进的水平。与此同时，Vijay Kumaret al.[16]在成对和三重组合网络中引入了全局损失，其目的是最小化匹配样本的平均特征距离，最大化非匹配的平均距离，最小化类内距离的方差。或者，度量学习通过在特征提取网络之后添加度量网络来将匹配任务转换为二进制分类任务。输出是匹配的标签。MatchNet [11]是最早的度量学习方法之一，它利用暹罗网络进行特征提取，并通过3019图2. 提出了聚合特征差异学习网络的框架。它有三个组成部分：域不变特征提取网络、度量网络和特征差异学习网络。域不变特征提取网络用于通过卷积（CN）提取图像块对的特征，度量网络用于推断匹配标签，特征差异学习网络用于提取多层次的特征差异。在框架的浅层，实例规范化（IN）和批量规范化（BN）用于提取不变和区分特征。整个框架由两个大裕度余弦损失函数（LMCL）联合优化完全连接的网络。Zagoruyko和Komodakis [38]分析了各种网络架构，以比较图像补丁，即。并通过对暹罗网络、伪暹罗网络和双通道网络的仿真，得出双通道网络性能最好的结论。然而，上述方法大多集中在单光谱图像的匹配。很少有研究考虑了交叉谱域的问题。Aguilera等人[2]直接应用Siamese网络、Pseudo-Siamese网络和双通道网络进行互光谱图像匹配。后来，Quan等人。[25]提出了一种SCFDM方法，通过共享特征空间学习跨域不变特征。值得注意的是，上述方法都只考虑了高层特征，而忽略了低层特征的有效通过对比，我们发现其他层的特征差异可以放大有用信号，提高特征区分度。因此，我们提出了一个aggre- gated特征差异学习网络的跨光谱图像补丁匹配。2.2. 归一化方法Ioffe和Szegedy [14]引入了批量归一化（BN），通过减少内部协变量偏移来提高CNN训练的学习率和收敛速度。许多研究报告了它在许多计算机视觉任务上的优越性[18，26，39]。因此，它已成为许多知名网络的默认组件，例如。[31]，[32]，[33]，[34]。毫不奇怪，它也被HardNet用于单光谱图像匹配[22]。虽然保留了区分特征，但基于BN的CNN容易受到外观变化的影响[23]。与BN不同，实例规范化（IN）对外观变化，这通过训练和测试短语期间实例的均值和方差来标准化特征。IN通常应用于风格转换任务，因为它能够删除特定于实例的对比信息[33]。然而，IN干扰了特征识别。在这项工作中，我们仔细地将IN和BN集成到特征提取网络中，以发挥它们的优势，I.E.在不同的域或照明变化上是不变的，并保持足够的区分度。与其他区域自适应方法相比，IN和BN的结合是简单有效的，它可以在不增加计算量的情况下消除2.3. 损失函数损失函数在图像匹配问题中起着至关重要的作用，它决定了网络的训练速度和性能。度量学习的公认损失是Softmax损失。然而，Softmax损失仅强调具有不同标签的特征的可分性，并且不足以最大化用于分类硬样本的特征区分度许多新兴的损失函数- 已经提出了减少类内方差（紧凑性）和增加类间距离（可分离性）。Wen等人[36]提出了一个中心损失，使类内紧凑。Liu等[20]提出了Angular-softmax（A-softmax）损失，通过归一化权值来学习角度判别特征。同时，他们还引入了角边来加强类间的可分性。后来，Wangetal. [34]提出了一种大裕度余弦损失（LMCL）算法，通过归一化权值和特征向量对A-softmax算法进行了改进，并在决策边界之间引入了余弦裕度。在本文中，我们采用LMCL优化我们的网络。3020我我3. 所提出的网络为了解决跨光谱图像块匹配问题，我们提出了一种聚合特征差异学习网络（AFD-Net），如图所示。2.AFD-Net是com-AD（L，L−1）=<$L−1（DL−1）<$DL，AD（L，L − 1，L − 2）=<$L −1（<$L −2（D L −2）<$D L −1）<$D L，AD（L，L − 1，L − 2，. 1）= L−1（. 1（D1））DL，（二）其中，Dl表示第l个中的特征差异，Dl=|.|. l（·）表示lth卷积过程由两个子网构成：上面的一个具有结构域11不变特征提取网络和度量网络，损失函数为大余量余弦损失（LMCL）;下面的一个是我们的特征差异学习网络，它聚合了来自上层子网络的多层次特征差异，以获得更多的判别信息。详情见下文。3.1. 特征差异学习网络Siamese网络[2]是一个成功的架构，用于广泛的视觉任务。因此，我们在这项工作中采用一个标准的连体匹配网络有一个两个分支的特征提取网络，它们共享权重，见图的上部。2.给定一对图像块（P1，P2），特征提取网络分层地提取特征（F1，F2），l=1，. . .，L，使用卷积块，块，它可以重新提取的功能，从功能不同-同时，统一两个相邻级别的特征图的大小拼接是沿着通道连接两个特征图的操作。上部和下部子网络两者被联合优化。在训练过程中，上层指导特征提取网络的学习过程，下层主要优化聚集特征差异的学习。而下层的输出是整个框架的结果。3.2. 域不变特征提取网络由于互光谱图像是由互成像机制形成的，不同光谱图像的像素和低层特征保持了相应域的私有属性。他们天生就扩大了-l l两个图像之间的主要特征距离互谱由卷积层、归一化层激活功能。然后，度量网络根据来自最后一个常规块的高级别特征推断匹配标签y传统的方法通过沿着通道连接两个图像块来直接比较两个图像块的特征图。对于匹配样本，由于样本块内容的不同，不同样本之间存在较大的特征方差，从而导致较大的反之，匹配样本的特征差异可以抵消这种方差，减小类内距离。同时，它还可以放大非匹配块的差异因此，可以通过从高级到低级聚合那些特征差异（FD）来获得更具区分性的特征因此，我们提出了一个聚合特征差异学习网络（AFD-Net），以获得更好的性能，请参阅图的下半部分。2.具体来说，我们在多个级别上聚合特征图的差异，AD。可以看到它有更丰富的训练信息（见图中的底行）。①的人。网络基于聚合特征差异预测匹配标签：y=M（AD），（1）其中M（·）是度量网络。为了保持特征不变性而又具有丰富的区分度，原生信息，我们从高到低汇总FD。根据数据的特点，图像匹配期望所提取的特征在不同的域中是实例规范化（IN）已被报道能够消除外观变化。然而，它也会丢失有用的内容信息并妨碍模型功能[23]。相反，批量归一化（BN）可以显着加快训练速度，提高模型性能。因此，它一直是最流行的CNN架构中的默认组件。在这项工作中，我们精心集成IN和BN到特征网络中，以提取域不变特征，而不会降低特征识别。我们的分析表明，领域的属性主要存在于低层特征中，而高层特征中的大部分是抽象信息。因此，我们在特征提取网络的浅层（CN-BN-Relu-IN- Relu）应用IN后BN，以减少不同区域引起的特征变化，而在深层（CN-BN-Relu）仅应用BN，以保持特征的区分度。请参考图中的域不变特征提取网络。2、我们的设定3.3. 优化函数在度量学习方法中，图像块匹配任务被视为分类问题。因此，广泛使用的损失函数是Softmax损失。给定一个训练图像块对（P1，P2）及其相关系数，可以是柔性的，例如两个水平、三个水平或更多个水平，响应匹配标签yi.基于训练数据集{（P1，P2），yi}i=1. N，网络可以通过我我3021N哎我，我Softmax损失函数：LSoftmax= −1ΣN logpi，N i=1p=e<$Wyi<$$>hi <$cos（θyi，i），（3）表1. 跨光谱图像块匹配数据集VIS-NIR中的九个类别的图像块对的数量。第二章 Wej ij=1j，i其中N是训练样本的数量，pi是对应于给定标签的第i个训练样本的后验概率，hi是第i个样本的最后一个全连接层的输入，W j是最后一个全连接层的第j列中的权重，并且相应的偏置被假设为零，θj，i是Wj和hi之间的角度。然而，Softmax损失只鼓励特征可分性，而忽略了区分度。对于匹配任务，预先收集所有可能的样本进行训练是不切实际的。我们期望特征可以很好地推广到其他看不见的样本。它要求特征具有足够的区别性，而不仅仅是可分离的。为此，我们采用大裕度余弦损耗（LMCL）来优化我们的AFD网络。LMCL通过使用L2范数对特征向量和权重进行归一化，将Softmax损失重新表示为余弦空间，这使得优化仅取决于角度并消除径向方差[20，34]。此外，存在余弦裕度m来扩展两个类别之间的决策边界，这可以增加类间可分性并减少类内变异。图3. 来自交叉光谱数据集的六个图像块对。左边是可见光谱（VIS）图像块，右边是近红外（NIR）图像块。第一行是匹配样本，第二行是非匹配样本.图像块匹配算法的基础上，我们还在单光谱数据集，即多视角立体相关数据集上进行了测试，以说明它具有更好的推广性。4.1. 数据集VIS-NIR补丁数据集已被用作[2，3]中的基准交叉光谱图像补丁数据集，用于评估Aguilera [2，9]从公共VIS-NIR场景数据集收集的度量学习和描述符学习方法。它有九个类别，总共包括超过160万个VIS-NIR斑块对，其中每个斑块LLMCL=−1ΣNi=1log（pci），尺寸为64×64。在图像中的SIFT点周围裁剪补丁，VIS图像补丁的一半，它们对应的NIR图像块形成匹配s（cos（θ）−m）pci=e，对，另一半VIS图像补丁和随机NIRs（cos（θy，i）−m）<$2scos（θj，i）（四）ei受+ej=l，ji=yi图像块组成非匹配对。表1列出了每个类别的补丁对数量图3W=W，hi=hi，cos（θj，i）=W Thi，显示了来自数据集的补丁对的六个样本。类似ǁW ǁ阿吉对于研究[2，3，25]，我们的框架也是在其中W和h的定义类似于Eq. 3、s是比例参数m是余弦余量。我们应用两个LMCL对特征差分网络和域不变特征提取网络进行联合优化优化是基于随机梯度下降（SGD）和动量。4. 实验为了证明AFD-Net的有效性，我们在跨光谱数据集VIS-NIR补丁数据集上对其进行了评估，并将其与四种手工特征方法（SIFT [21]，GISIFT [10]，EHD [1]，LGHD [4]）和八种深度特征方法进行了比较。学习最先进的技术，包括暹罗网络[2]，伪暹罗网络[2]，2通道网络[2]，PN- Net [5]，Q-Net [3]，L2-Net[32]，HardNet [22]和SCFD-M [25]。虽然AFD-Net设计用于交叉频谱国家类别和其余类别的测试。值得注意的是，不同类别之间存在显著差异。因此，当网络具有很强的泛化能力时，可以在所有测试类别上获得满意的匹配多视图立体对应数据集也被称为Brown，它是一个单光谱图像数据集，由从3D反射中采样的对应块组成[8]。它有三个子集：自由女神、圣母院和优胜美地。每个子集包含450K、468k、634K唯一图像块及其对应的3D点ID。每个贴片都围绕一个兴趣点裁剪，高斯（DOG），大小为64×64。这些块分别构成100K、200 K和500 K标记对-ly. 这些对中有一半是匹配的，它们具有相同的3D点ID。另一半是具有不同3D点ID的非匹配对。一对中的贴片可能没有-类别Number类别Number类别Number国家277504领域240896森林376832室内60672山151296老建筑101376街164608城市147712水1431043022图4. 在VIS-NIR数据集上具有不同聚集配置的AFD-Net的FPR 95性能。AD（0）是一个一般的暹罗网络，AD（L，L − 1，. ）表示AFD-Net使用从Lth，L-1th，. l evels.工作台在照明、旋转、平移和透视方面的变化。以前的研究[8，11，32，38]将其视为标准评价数据集。因此，我们遵循这些研究，在一个子集上训练我们的框架，并选择另外两个子集的10万个样本进行测试。4.2. 培训所有训练和测试都在NVIDIA GTX 1080 GPU上实现。训练过程是基于大间隔余弦损失（LMCL），在小批量下的随机梯度下降（SGD）小批量的大小为256，动量为0.9，初始学习率为0.01，衰减因子为0.9。所有样本均归一化为[0，1]，并通过随机翻转、随机旋转（90°、180°、270°）和随机对比度变化进行数据增强。95%召回率下的假阳性率（FPR 95）被用作匹配性能的评估指标[2，3，22，25，32]。较小的FPR95表示较好的匹配性能。4.3. 消融研究由于我们提出了一个具有域不变特征提取网络（实例归一化和批量归一化，IBN）和LMCL损失的聚合特征差异学习网络（AFD-Net），因此值得评估框架中这些组成部分的有效性。在VIS-NIR贴片数据集上进行评估，根据FPR 95结果及其在8个测试类别上的平均值。AFD-Net：由于FD的聚合可以是灵活的，我们首先评估我们的AFD-Net与不同的聚合配置。请注意，在此测试中应用了域不变特征网络和LMCL所有可能(a) （b）山区（c）街道（d）水(e)森林（f）室内（g）旧建筑（h）城市图5. 八个测试类别的VIS图像。第一行中的图像具有比第二行少的边缘和纹理特征。配置为AD（0）、AD（5，4）、AD（5，4，3）、AD（5，4，3，2）和AD（5，4，3，2，1），其中，AD（0）表示没有任何聚集的一般暹罗网络; AD（5，4）指出第5层和第4层的FD是聚合的. 这与其他配置类似。结果示于图4.可以看出，AD（0）（暹罗网络）的性能是最差的。与此相反，AD（5，4），AD（5，4，3），AD（5，4，3，2）和AD（5，4，3，2，1）全部实现重大改进。具体而言，FPR 95在八个类别中的最大改善分别为33.90%，75.00%，42.47%，61.58%，44.64%， 47.50%，76.92%，AFD-Net的平均改善率从32.20%提高到38.98%。这表明聚合特征差异具有更好的区分性，并且在跨光谱图像块匹配任务中是有效的。图中的另一个观察。当聚集更多的FD时，FPR 95的变化存在一个总体趋势，即FPR 95的均值先减小后增大。我们认为这种下降是由中间层的特征造成的，因为它们比高层特征具有更多的纹理信号，并且对谱域、旋转和光照不变性。聚集的FD进一步增强了特征区分度。然而，FPR95的增加是由于低级别的特征图具有更多的纹理信息，但对像素级的变化敏感，不稳定性较低。因此，存在一个权衡。具体来说，AD（5，4，3）在田野、山区、街道和水域类别上达到最佳匹配性能。相反，AD（5，4，3，2）在Forest和Oldbuilding上表现更好，在Urban上几乎是最好的。AD（5，4，3，2，1）在室内类别中具有最好的结果。我们认为这些类别有更多的边缘和纹理信息，如图所示。5，这使得AD（5，4，3，2）和AD（5，4，3，2，1）具有改进的性能。由于AD（5，4，3）是平均最好的，我们在后续的实验中将这种配置应用于AFD-Net。3023设置领域森林室内山老建筑街城市水是说无LMCL6.170.202.132.861.150.850.752.582.09公司简介4.360.092.041.630.760.620.282.011.47IBN-LMCL3.470.081.480.680.710.420.291.481.08IBN-Softmax4.430.092.781.171.650.661.532.241.82表2. 采用不同的归一化方法和损失函数，AFD-Net在VIS-NIR数据集上的FPR 95性能。归一化方法包括：没有规范化“NO”，只有批量规范化“BN”和组合实例规范化（IN）和BN“IBN”。损失函数包括Softmax损失“Softmax”和大裕度余弦损失“LMCL”。最好的表现是粗体。1001011001010.1火车：国家//测试：现场1 5 10 15 20时代火车：国家//测试：山1 5 10 15 20时代100101100101火车：国家//测试：室内IBN-LMCL无LMCL12.94三点九五三点二十六2.022.342.011.821.682.451.831.351.202.132.041.481 5 10 15 20时代火车：国家// 试验：平均值25.31IBN-LMCL无LMCL5.434.452.542.771.921.691.491.452.381.581.202.091.471.081 5 10 15 20时代SM领域SM领域SM领域100.153.66100.254.20100.354.05200.154.12200.253.47200.354.86300.153.99300.254.21300.354.10表3. 当改变LMCL的参数（s，m）时，FPR95。AFD-Net接受了国家类别的培训，并接受了外地类别的测试。参数为s = 20，m = 0。25因此，我们将在后续实验中使用此设置。与使用Softmax损失的结果相比（见表2），IBN-LMCL在所有类别上都优于IBN-Softmax，尤其是在室内、老建筑和城市，其匹配精度分别提高了46.76%、56.97%和81.05%IBN-LMCL的平均FPR 95降低了40.66%。这个结果经验表明LMCL比Softmax损失更适合匹配问题。图6. 采用不同的归一化方法对AFD-Net的训练效率进行了比较。选项。IBN实现了更快的收敛和最佳FPR95。归一化：由于我们的域不变特征提取网络使用实例归一化（IN）和批量归一化（BN）来消除域方差并保留判别信息，因此我们设置了三种均使用大余量余弦损失（LMCL）的配置它们是无任何归一化，NO-LMCL;仅使用批量归一化，BN-LMCL;以及同时使用实例和批量归一化，IBN-LMCL。比较结果列于表2中。可以看出，IBN-LMCL在除Urban之外的七个类别中表现最好，但以非常小的优势排名第二。FPR 95的平均值这个结果证实了IN确实消除了某些域属性，并且BN保留了判别信息。我们还使用不同的归一化测试了训练效率，并在图中绘制了FPR 95对训练时期的曲线。6.这清楚地表明，域不变特征提取网络（IBN-LMCL）实现了更快的训练收敛。损失函数：由于损失函数决定了网络学习的最终目标，通过与Softmax损失函数的比较，验证了LMCL的有效性。在LMCL损失中有两个参数（s，m），我们首先根据先前研究[34]中的原则评估它们。表3中的结果显示了最佳参数。4.4. 互谱图像匹配为了证明AFD-Net在交叉光谱图像块匹配问题上的有效性，我们将其与十二种最先进的方法进行比较，并将结果列于表4中。可以看到AFD-Net在所有测试类别上都优于其他方法具体而言，它在平均FPR 95方面比HardNet提高了61.43%的匹配性能[22]。值得注意的是，HardNet [22]和SCFDM [25]分别位于第二位和第三位。SCFDM是专门为跨光谱图像匹配而设计的，通过空间连接模式和特征鉴别约束从共享特征空间学习特征HardNet应用穷举硬样本挖掘进行训练，这迫使网络学习更多的区分特征。但是，它们只使用高级功能。同时，HardNet缺乏跨谱的特征不变性，其损失函数只强调匹配样本与非匹配样本之间的局部裕度类似地，SCFDM中使用的损失函数也不能最小化类内距离。与之相比，AFD-Net通过聚合多个层次的特征差异来放大有用的学习信号，通过域不变归一化去除谱差异，并通过LMCL使类内距离更加紧凑。因此，AFD-Net在跨光谱图像块匹配任务上优于50.77IBN-LMCL无LMCL16.2113.309.745.737.955.375.964.397.715.004.236.174.363.47FPR9543IBN-LMCL无LMCL6.938.164.743.44 2.822.093.041.911.04 1.061.002.861.630.68FPR95FPR95FPR953024模型领域森林室内山老建筑街道城市水平均传统方法SIFT [21]39.4411.3910.1328.6319.6931.1410.8540.3323.95GISIFT [10]34.7516.6310.6319.5212.5421.807.2125.7818.60EHD [1]33.8519.6124.2326.3217.1122.313.7719.8020.87LGHD [4]16.523.787.9110.667.916.557.2112.769.16描述符学习PN-Net DA [5]20.093.276.3611.535.195.623.3110.728.26Q-Net DA [3]17.012.706.169.614.613.992.838.446.91[32]第三十二话16.770.762.075.981.892.830.6211.115.25[22]第二十二话10.890.221.873.091.321.301.192.542.80度量学习暹罗DA [2]15.7910.7611.6011.155.277.514.6010.219.61[2]第二次世界大战17.019.8211.1711.866.758.255.6512.0410.312-通道DA [2]9.960.124.408.892.302.181.586.404.47[25]第二十五话7.910.873.935.072.272.220.854.753.48AFD-Net DA3.470.081.480.680.710.420.291.481.08表4. 在VIS-NIR场景数据集上比较了我们的建议和十二种最先进的方法中的FPR 95。所有方法都在国家类别上进行了培训，并在其他八个类别上进行了测试DA表示在训练过程中使用数据增强最好的表现是粗体。培训约塞米蒂圣母院自由优胜美地自由圣母院测试自由Notredame约塞米蒂是说[16]第十六话9.9113.453.915.4310.659.478.80[16]第十六话10.7713.904.475.5811.8210.969.58[16]第十六话6.398.431.842.836.615.575.27PN-Net [5]8.139.653.714.238.997.216.98Q-Net DA [3]7.6410.224.073.769.347.697.12DeepDesc [30]10.904.405.696.99[32]第三十二话2.364.700.721.292.571.712.22[22]第二十二话1.492.510.530.781.961.841.51MatchNet [11]6.9010.773.875.6710.888.397.44DeepCompare 2ch-2stream DA [38]4.857.201.902.115.004.104.19[38]第38话4.557.402.012.524.754.384.26[25]第二十五话1.474.541.291.962.915.202.89AFD-Net DA1.532.310.470.721.631.881.42表5. 在多视点立体对应数据集上比较了我们的建议和十二个最先进的方法中的FPR95。4.5. 多视点立体匹配为了证明我们的建议的普遍性，我们还比较了AFD-网络与12个国家的最先进的方法在一个单一的光谱图像数据集，即。多视图立体对应数据集[37]。结果列于表5中。可以看出AFD-Net优于其他方法-再次平均。特别是，当训练数据集是Liberty和Yosemite时，它的表现最好。HardNet和L2-Net由于采用了非常严格的采样策略，也取得了较好的匹配性能，分别位居第二和第三位。与HardNet和L2-Net相比，AFD-Net将平均FPR 95降低了5.96%（从1.51降至1.42）和36.04%（从2.22 1.42）。结果表明，AFD-Net和HardNet在单光谱数据集上的性能改进小于在交叉光谱数据集上的性能改进。我们认为，单光谱图像没有域差异，因此，我们的域不变特征提取网络的贡献较小的补丁匹配任务。然而，在不使用硬采样策略的情况下，我们的聚合特征差异和 LMCL 损失仍然使 AFD-Net 优于 mHardNet和L2-Net。这一结果也证明了一个更好的推广性，AFD-Net.5. 结论我们提出了一个聚合特征学习网络（AFD-Net），它利用多层次的特征差异，学习更多有用的信号从FD跨光谱图像块匹配任务。此外，我们引入了一个域不变的特征提取网络，使用实例归一化（IN）和批量归一化（BN）。IN可以去除交叉光谱图像中的光谱变化和单光谱图像中的光照变化，BN可以保留区分特征。为了进一步提高特征的区分度，我们借用大裕度余弦损失（LMCL）进行网络优化。在跨光谱图像块匹配数据集（VIS-NIR）和单光谱图像块匹配数据集上进行了评价实验。结果表明，AFD-Net达到了最先进的匹配性能。在未来的工作中，我们将研究一个完整的和有效的方法，硬样本挖掘AFD-Net。3025引用[1] 放大图片作者：Cristhian Aguilera，Fernando Barrera，Felipe Lincolras，Angel D.萨帕和里卡多·托莱多多光谱图像特征点。传感器，12（9）：12661[2] 克里斯提安弗朗西斯科？阿奎莱拉安吉尔？阿奎莱拉萨帕，克里斯提安·阿奎莱拉，还有里卡多·托莱多。使用深度卷积神经网络学习在CVPR，第1-9页[3] 克里斯提安安吉尔？阿奎莱拉萨帕，克里斯提安·阿吉莱尔和里卡多·托莱多.基于四元组网络的互谱局部描述符。传感器，17（4）：873，2017年。[4] 克里斯提安安吉尔？阿奎莱拉萨帕和里卡多·托莱多Lghd：一种用于匹配非线性强度变化的特征描述符。在IEEE ICIP，2015年。[5] Vassileios Balntas ， Edward Johns ， Lilian Tang ， andKrys- tian Mikolajczyk. Pn-net：用于学习本地图像描述符的联合三重深度网络。预印本arXiv：1601.05030，2016年。[6] Herbert Bay，Andreas Ess，Tinne Tuytelaars，and LucVan Gool.加速健壮功能（冲浪）。计算机视觉图像理解，110（3）：346[7] Serge Belongie Jitendra Malik和Jan Puzicha。使用形状上下文的形状匹配和物体识别。IEEE TPAMI，24（4）：509[8] 马修·布朗，华刚，西蒙·温德。局部图像描述符的区分学习。IEEE TPAMI，33（1）：43[9] 马修·布朗和萨宾·萨斯特伦克用于场景类别识别的多光谱筛选在CVPR，第177-184页[10] 达米恩·菲尔梅尼希马修·布朗萨宾·斯特伦克rgb-nir图像多光谱兴趣点配准。在ICIP，第181-184页[11] 韩旭峰、梁建民、贾阳青、苏坦卡、王建民.伯格。Matchnet ： Unifying fea- ture and metric learning forpatch-based matching.在CVPR，第3279-3286页[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射在ECCV，第630-645页[13] Gao Huang，Zhuang Liu，Laurens Maaten，and Kilian Q.温伯格密集连接的卷积网络。在CVPR中，第2261-2269页[14] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，第448-456页[15] 作者：Felix Juefei-xu，Dipan K.帕尔和马里奥·萨维德斯基于互谱联合判别学习和重构的Nir-vis异构人脸识别。在CVPR，第141- 150页[16] B. G. Vijay Kumar，Gustavo Carneiro和Ian Reid。通过最小化全局损失函数，使用深度连体和三重卷积网络在CVPR中，第5385-5394页[17] Yann Lecun，Yooney Bengio，and Geoffrey Hinton.深度学习Nature，521：436[18] Tsung-Yi Lin ， Piotr Dollar ， Ross Girshick ， KaimingHe，B-harath Hariharan，and Serge Belongie.用于目标检测的特征金字塔网络。在CVPR中，第936-944页[19] 刘培忠，郭景明，吴驰义，蔡丹林深度学习和压缩域特征的融合，用于基于内容的图像检索。IEEE TIP，26（12）：5706[20] 刘未央，温延东，余智定，李明，拉吉比丘，宋乐Sphereface：用于人脸识别的深度超球面在CVPR中，第6738-6746页[21] David G.洛从尺度不变关键点中提取独特的图像特征。IJCV，60（2）：91[22] Anastasiya Mishchuk，Dmytro Mishkin，Filip Radenovic和Jiri Matas。努力了解邻居的边际：局部描述符学习损失。预印本arX- iv：1705.10872，2017年。[23] Pan Xingang，Ping Luo，Jianping Shi，and Xiaoou Tang.一次两个：通过 ibn-net 增强学习和泛化能力参见ECCV，第464-479页[24] Peter Pinggera，Toby Brecket，Horst Bischof.基于稠密梯度特征的CVPR

下载后可阅读完整内容，剩余1页未读，立即下载