深度神经网络在计算机视觉中的应用与几何匹配任务的进展

34 浏览量更新于2023-10-13 收藏 1.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2D和3D几何对应穆罕默德·E.Fathy1，Quoc-Huy Tran2，M.Zeeshan Zia3，PaulVernaza2，and Manmohan Chandraker2， 41Google Cloud AI3微软Hololens2NEC Laboratories America，Inc.4加州大学圣地亚哥分校抽象。兴趣点描述符推动了计算机视觉中几乎所有问题的进展深度神经网络的最新进展已经实现了任务特定的学习描述符，其在许多问题上优于手工制作的描述符我们证明了常用的度量学习方法不能最佳地利用卷积神经网络（CNN）中学习到的特征层次结构，特别是当应用于几何特征匹配任务虽然应用于CNN的最深层的度量损失通常被期望产生与任务无关的理想特征，但事实上，不断增长的感受野以及跨步效应导致较浅的特征在高精度匹配任务中更好。我们利用这种洞察力，在多个层次的特征层次结构的明确监督，以更好地正则化，学习更有效的描述符的背景下，几何匹配任务。此外，我们建议在CNN的不同层使用激活图，作为通常用于匹配任务的多分辨率图像金字塔我们提出了采用这些想法的具体CNN架构，并在多个数据集上评估它们的2D和3D几何匹配以及光流，展示了最先进的结果和跨数据集的泛化。关键词：层次度量学习·层次匹配·几何对应·稠密对应1介绍可重复的高曲率点检测器[24，37，40]的出现预示着计算机视觉的革命，将该领域的重点从整体对象模型和图像块的直接匹配[67]转移到高度区分的手工制作的描述符。这些描述符在计算机视觉中的一系列问题上留下了印记，创建了流水线来解决光流[9]，物体检测[18]，3D重建[51]和动作识别[55]等任务。当前的十年见证了一场广泛的革命，这是由深度神经网络的广泛使用所带来的。然而，计算机视觉在M期间记录此工作的一部分。 E. F a thy s i n t e r n s h i p a t e C L a b a m e ri c a。代码和模型将在http://www.nec-labs.com/mas/HiLM/上提供。2M. E. Fathy，Q.-H. 特兰，M。Z. 齐亚山口Vernaza和M.钱德拉克图1：我们的分层度量学习保留了CNN特征表示中各种抽象级别的最佳对于几何匹配，我们结合了深层的鲁棒性，吸收更大的不变性，与浅层的本地化灵敏度。这允许学习更好的特征，以及更好的对应搜索策略，该策略逐步利用从较高召回率（鲁棒性）到较高精度（空间区分）的特征。经过广泛的工程努力，已证明端到端的学习解决方案是不可渗透尽管最近做出了一些努力[28，54，8]，但深度学习解决方案在运动恢复结构（SfM）[56]和物体姿态估计[44]等问题上的表现事实上，我们看到一个共识正在形成，即一些采用兴趣点检测器和描述符的系统将继续存在，但利用深度学习来处理它们的各个组件可能是有利的最近，一些卷积神经网络（CNN）架构[61，16，65，58]已经提出了学习强几何特征描述符以匹配图像的目的，并且已经产生了混合结果[49，6]。我们假设CNN学习表示层次的能力，这使得它们对于许多视觉识别任务非常有价值，当涉及到低级几何特征学习时，它会成为一个障碍，除非在训练和推理中做出特定的设计选择来利用该层次。本文提出这种策略的问题的密集几何对应。最近的工作采用各种度量学习损失并从最深层提取特征描述符[61，16，65，58]，期望损失将在损失层的位置之前产生良好的特征。相反，一些研究[64，68]表明，更深层响应于高级抽象概念，并且通过设计对输入图像中的局部变换保持不变然而，发现较浅的层对局部结构更敏感，这不被用于仅使用较深层的几何对应的大多数基于深度学习的方法所利用。为了解决这个问题，我们提出了一种新的分层度量学习方法，结合了最好的特点，各级功能层次结构，同时实现鲁棒性和定位灵敏度。我们的框架具有广泛的适用性，我们通过分别在KITTI Flow [42]和3DMatch [65]数据集上改进2D和3D数据模式此外，我们利用最近的研究，强调了仔细整理培训过程的重要性：（一）通过深入监督[31，33]中间语义特征+对外观变化鲁棒的定位几何特征+对局部结构敏感的定位高序度规学习和匹配（HiLM）几何对应的层次度量学习与匹配3特征层来学习任务相关的特征，以及（ii）实时硬负面挖掘[16]，迫使每次迭代训练都能实现更多。最后，我们利用CNN本身生成的中间激活图作为传统上用于实现粗到精匹配的图像金字塔的代理[17]。因此，在测试时，我们采用了一个分层匹配框架，使用更深的功能来执行粗匹配，从更大的上下文和更高层次的视觉概念的好处，其次是一个细粒度的匹配步骤，涉及搜索较浅的功能。图1说明了我们提出的方法。总的来说，我们的贡献包括：– 我们证明，虽然在理论上度量学习应该产生良好的功能，无论层的损失是适用于，事实上浅的功能是优越的高精度的几何匹配任务，而更深的功能有助于获得更大的召回。– 我们利用深度监督[31，33]进行特征描述符学习，同时在多个层采用硬否定挖掘。– 我们提出了一个CNN驱动的方案，粗到细的层次匹配，作为一个有效的和原则性的替代传统的金字塔方法。– 我们通过比较最先进的几何匹配方法和特征融合基线，以及对我们提出的解决方案进行烧蚀分析，实验验证了我们的想法。我们评估了2D和3D兴趣点匹配和细化以及光流的任务，展示了最先进的结果和泛化能力。我们在第2节回顾文献，并在第3节介绍我们的框架。我们在第4节讨论实验结果，在第5节总结论文2相关工作随着深度神经网络的使用，出现了许多新的想法，这些想法既与学习的特征描述符有关，也与以端到端的方式直接学习低级视觉任务的网络有关，我们将在下面进行回顾。手工制作的描述符。SIFT [40]，SURF [7]，BRISK [32]被设计用于补充高曲率点检测器，[40]甚至提出了自己的检测器算法。事实上，尽管人们对学习方法感兴趣，但它们仍然是最先进的精确度[49，6]，即使它们在实现高召回率方面不太有效。学习的描述符。虽然早期的工作[59，39，36]利用CNN的中间激活图进行关键点匹配的任意损失训练，但最近的方法依赖于显式度量损失[63，22，61，16，65，60，66]来学习描述符。在CNN的最后一层使用对比或三元组损失背后隐藏的假设是，这种显式损失将导致相关特征出现在特征层次结构的顶部。但也有人观察到，CNN的早期层是学习局部几何特征的层[64]。因此，许多这些作品表现出优越的性能，手工制作的描述符的语义匹配任务，但往往落后于几何匹配。4M. E. Fathy，Q.-H. 特兰，M。Z. 齐亚山口Vernaza和M.钱德拉克匹配2D。LIFT [61]是一种用于端到端兴趣点检测和匹配的中等深度架构，其使用单个层次结构级别的特征并且不执行密集匹配。通用对应网络（ UCN ） [16] 将 Siamese 设置中的完全卷积网络与空间Transformer模块[26]和用于密集对应的对比损失[15]像他们一样，我们使用GPU来加速k-最近邻，以进行实时的硬负挖掘，尽管是在多个特征学习层上。最近，AutoScaler [58]在输入图像的多个尺度上显式地应用学习的特征提取器虽然这解决了深层在基于对比度损失进行学习时可能具有不必要的大感受野的问题，但我们认为，CNN在多个级别上“查看图像“更优雅，而不是在简单的过程中进行多个级别的学习。3D匹配用于在3D体素网格表示中匹配的描述符由3DMatch [65]学习，其采用具有对比损失的30x30x30cm3体素网格它通过利用RGB-D场景重建来执行自监督学习，以获得用于训练的地面真实对应标签，优于最先进的手工制作的描述符[48]。因此，3DMatch提供了一个额外的测试平台来验证我们的想法，在那里我们报告了将我们的分层度量学习和匹配方法结合起来的积极结果学习光流。最近的工作通过以端到端的方式训练CNN [20，25]，然后通过条件随机场（CRF）推理[45]来捕获详细的边界，从而实现了光流的最新结果。我们还证明了我们的匹配光流基准的功效。然而，我们没有使用大量工程或端到端学习来最小化流量指标，而是表明我们的匹配以及现成的插值[45]已经产生了很好的结果。深度监督。最近的工作[31，33，34]表明，通过正则化训练过程，为CNN的中间层提供显式监督可以在看不见的数据上产生更高的性能。然而，据我们所知，这个想法既没有在关键点匹配的任务上进行测试，也没有对学习到的中间特征进行评估。我们在工作中做到这两点。图像金字塔和层次融合。下采样金字塔一直是计算机视觉的稳定装置，用于跨多个尺度利用信息[41]。最近，已经开发了许多技术用于融合CNN内不同层的特征并以高分辨率产生输出，例如，语义分割[23，46，43，12]，深度估计[21]和光流[20，25]。受[17]图像对齐的启发，我们认为深层CNN层中不断增长的感受野[64]提供了一种在多个尺度上解析图像的自然方式因此，在我们的分层匹配方案中，我们采用从具有更大感受野和更高级别语义概念的更深层提取的特征[68]来粗略定位对应点，然后使用更浅的特征进行精确定位。我们使用我们的方法比以前的特征融合方法，例如，在对应性估计的增益。[23、43]。几何对应的层次度量学习与匹配5LFE-Conv：1283x3CCL损失FE-Conv：1283x3L2-标准化硬负开采L2-标准化Conv-1：967x7/S2Conv-1：967x7/S2ReLU/LRN/Max-Pool：3x3/S2ReLU/LRN/Max-Pool：3x3/S2Conv-2：2565x5/S1Conv-2：2565x5/S1精确匹配ReLU/LRN/Max-Pool：5x5/S1ReLU/LRN/Max-Pool：5x5/S1受限匹配Conv-3：5123x3/D4Conv-3：5123x3/D4粗匹配Conv-4：5123x3/D4L2-标准化硬阴性采矿L2-标准化Conv-4：5123x3/D4Conv-5：5123x3/D4FE-Conv：1281x1CCL损失FE-Conv：1281x1Conv-5：5123x3/D4图2：我们提出的想法的一个实例。请注意，硬负挖掘和CCL损失（红色块）与训练相关，而匹配（蓝色块）与测试相关。左右连体分支中的卷积块（绿色）共享权重。‘S’3方法在下文中，我们首先确定框架背后的一般原则，然后提出实现这些原则的具体神经网络架构。在本节中，我们将讨论限于2D图像的模型我们在第4.3节中详细介绍并3.1分层度量学习我们遵循标准的基于CNN的度量学习设置，作为Siamese架构提出[15]。这涉及两个具有绑定权重的全卷积网络（FCN）[38]，解析同一场景的两个图像我们在与训练点对应的位置从中间卷积层激活图中提取特征在训练时，将单独的对比损失应用于特征层次结构中的多个级别，以鼓励网络学习嵌入函数，该嵌入函数最小化匹配点的描述符之间的距离，同时最大化不匹配点之间的距离。对应对比损失（CCL）。我们借用[16]中引入的相应对比损失公式，并从[15]改编这里，ΦI（X）表示从第I个特征级的第I个特征级提取的特征。l′在像素位置x处的参考图像I;类似地，φI（x′）表示特征L从目标图像I’的第l个像素位置x′。令D表示三元组（x，x’，y）的数据集，其中x是参考图像I中的位置，x’是目标图像I’中的位置，并且当且仅当（x，x’）是匹配时，y∈{0， 1}设m是裕度参数，并且c是窗口大小。我们定义：IφI（x）我爱你（I）φl（x）：=l，dl（x，x）：=<$φl（x）− φl（x）<$2.（一）φI（x）6M. E. Fathy，Q.-H. 特兰，M。Z. 齐亚山口Vernaza和M.钱德拉克L然后，我们的训练损失L对多个水平l上的CCL损失求和：ΣLL：=Σy. d2（x，x′）+（1−y）. （max（0，m-dl（x，x′）2.（二）l=1（x，x′，y）∈D深度监督。我们的理由在应用CCL损失在多个层次的功能层次结构是双重的。最近的研究[31，33]表明，深度监督有助于改善正则化，通过鼓励网络早期学习任务相关特征。其次，可以在一个网络内同时监督深层和浅层进行匹配。硬负采矿。由于我们的训练数据仅包括正相关数据，因此我们实际上对“在飞行中”的数据进行了隔离，我们采用UCN [16]的方法，但与之相反，我们的硬否定挖掘独立于每个被监督的特征级别。网络架构。我们在图2中可视化了上述想法的一个具体实例，为任务调整了VGG-M [11]架构。我们保留了前5个卷积层，用ImageNet分类预训练的权重初始化它们[47]。我们使用来自语义分割文献[62，12]的想法，通过（a）消除第二卷积层和池化层中的下采样（将其步幅值从2设置为1）（b）将第二层的池化窗口大小从3x3增加到5x5以及（c）扩大[62]后续卷积层（conv3、conv4和conv5）以保持它们预先训练的感受野。在训练时，向网络提供一对图像和一组点对应。该网络在训练期间以Siamese方案[15]复制（具有共享权重），其中每个子网络处理一对图像中的一个图像;因此，在每次前馈通过之后，我们有4个特征图：2个浅特征图和2个深特征图，分别来自第二和第五卷积层（conv2，conv 5）。我们在这些相同的层（conv2，conv5）之后应用监督我们还使用UCN [16]中使用的GoogLeNet [52]基线进行了实验具体来说，我们在第四个卷积块（初始4a/输出）之后使用1x 1卷积层和L2归一化来增强网络，以学习深度特征，如UCN中那样。此外，为了学习浅层特征，我们在第二个卷积层（conv 2/3x 3）之后增加了一个3x 3卷积层，然后进行L2归一化，但在相应的非线性ReLU压缩函数之前。我们分别基于第二卷积层conv 2/3x 3和初始4a/输出层之后的归一化输出来提取浅特征图和深我们提供GoogLeNet变体的详细架构作为补充材料。网络培训。我们在Caffe [27]中实现了我们的系统，并使用ADAM[29]在P6000 GPU上使用10−3的基本学习率训练我们的网络进行50K次迭代。预先训练的层以0.1的学习率乘数进行微调，而新添加的特征提取层的权重通常使用X的方法进行初始化。我们使用一个指定的参数几何对应的层次度量学习与匹配7D10- 4和L2权重正则化。在训练过程中，每一批由三个随机选择的图像对组成，我们从每一对中随机选择1K个正对应。我们的系统的VGG-M变体需要大约43个小时来训练，而我们基于GoogLeNet的变体需要30个小时来训练3.2分层匹配我们如前一节所述调整和训练我们的网络，使用从不同层提取的特征优化网络权重以进行匹配然而，我们发现，来自不同深度的特征提供了互补的能力，正如早期工作[64，68]所预测的那样，并由我们在第4节中的经验评估所证实具体地，从较浅层提取的特征对于较小的距离阈值（精度）获得优异的匹配精度，而从较深层提取的特征对于较大的距离阈值（召回率）提供更好的精度这种从粗到精的匹配在计算机视觉中是众所周知的[41]，然而最近的工作强调了如何将CNN特征层次结构用于任务（至少在图像对齐的背景下[17]）更鲁棒。为了建立对应关系，我们如下比较输入图像I和I′的深特征和浅特征。假设参考图像I中的浅特征坐标ps和深特征坐标pd通过下式相关：pd=ps* 1/f，缩放因子为f，我们首先使用深度特征描述符φI（pd）“d”在参考图像I中找到目标图像I中的点pd，其中φI（p）D d最接近φI（pd）。1接下来，我们细化p′d′d通过在ps=pd*f周围的半径为32像素的圆内搜索（假设输入的图像具有结构化，因此，f′=f）以查找p（h），其中h为零的f eatedescriptorφI（p（′））接近于φI（ps），形成acrespondence（ps，q（′））.s s s s我们提出的分层匹配在CUDA上实现，并在P6000 GPU上运行，平均需要8。41秒密集提取特征并计算大小为1242× 376的一对输入图像的对应关系。4实验在本节中，我们首先将我们提出的2D对应关系估计方法与标准度量学习和匹配方法、特征融合以及用于提取对应关系的最先进的学习和手工制作方法进行比较。接下来，我们展示了我们的对应估计方法可以应用于光流，并与最近的光流方法进行比较。最后，我们将我们的想法融入到最先进的3D全卷积网络中[65]，并显示出更好的性能。在下文中，我们将我们的方法表示为HiLM，HiLM是Hiarchical metricL earning andM atching的缩写4.1二维对应实验我们根据经验评估我们的想法对不同的方法密集对应估计。我们首先考虑度量学习和匹配方法1如果pd是随机的，我们使用灵活的线性规划来计算φI（pd）。8M. E. Fathy，Q.-H. 特兰，M。Z. 齐亚山口Vernaza和M.钱德拉克conv1−netconv2−netconv3−netconv4−netconv5−net超柱融合自上而下-融合HiLM（conv2+conv3）HiLM（conv2+conv4）HiLM（conv2+conv5）HiLM（conv2+conv5）(a)conv3-net（b）hypercolumn-fusion图3：在我们的评估中，两个基线架构的一个暹罗分支。通过截断图2中VGG-Mconv 3之后的所有层并添加卷积层、L2归一化和CCL损失来获得conv 3-net（a）。其他convi-net基线也以类似方式获得。在超列融合基线（b）中的conv1之后添加1x1最大池化层，以对conv1特征图进行下采样，以用于与其他特征图的有效级联。‘S’90 10080907080607050604050304020103001 2 3 4 5 6 7 8 910阈值（像素）20102030405060708090100阈值（像素）(a)小阈值上的准确度（b）大阈值上的准确度图4：用于KITTI Flow 2015上的2D对应性估计的不同基于CNN的方法的准确性。基于从单个卷积层2中提取的特征集，其中我们基于图2中的VGG-M基线分别训练五个网络。五个网络中的每一个都有不同的深度，我们用convi-net来指代第i个网络，以表明网络在第i个卷积层（convi）被截断，对于i ∈ 1，2，.，五、我们通过在最后一层（convi）的输出之后添加卷积层、L2归一化和CCL损失来训练convi-net网络图3（a）显示了conv 3-net基线的一个分支作为示例。此外，我们还将我们的方法与两种替代方案进行了比较，用于融合来自语义分割思想的不同层的特征[23，43]。一种是hypercolumn-fusion- 图3 （ b ），其中来自所有层（第一层到第五层）的特征集针对每个兴趣点和一组 1 x 12LIFT [61]不是为密集匹配设计的，因此不包括在我们的实验中。请注意，LIFT也仅使用来自单个卷积层的特征Conv-1：96 7 x7/S2最大池：1x 1/S2Conv-1：96ReLU/LRN/Max-Pool：3x3/S2ReLU/LRN/Max-Pool：3x3/S2Conv-2：256ConcatConv-2：256ReLU/LRN/Max-Pool：5x5/S1ReLU/LRN/Max-Pool：5x5/S1Conv-3：512FE-Conv：Conv-3：5123x3/D4Conv-4：512L2-标准化CCL损失Conv-5：512CCL损失conv1−netconv2−netconv3−netconv4−netconv5−net超柱融合自上而下-融合HiLM（conv2+conv3）HiLM（conv2+conv4）HiLM（conv2+conv5）HiLM（conv2+conv5）准确度（PCK）准确度（PCK）几何对应的层次度量学习与匹配9SIFT黛西KAZEUCNHiLM（VGG−M）HiLM（GoogLeNet）准确度（PCK）我我我我10090809070806070506040 5030402030102001 2 3 4 5 6 7 8 910阈值（像素）10102030405060708090100阈值（像素）(a) 小阈值范围(b)大阈值图5：基于CNN和手工制作的方法在KITTI Flow 2015上进行2D对应性估计的准确性。训练卷积核以在L2归一化和CCL损失之前融合特征。我们不是像[23]中那样对更深的特征图进行上采样，而是通过将多个卷积/池化层的步幅设置为1，同时适当地扩大后续卷积，以更高的分辨率提取深度特征，如图3所示。我们考虑的另一种方法是自顶向下融合，其中类似于[43]的细化模块用于通过与较低级别的特征相结合来逐步细化网络中的顶级conv5特征，直到conv2（请参阅补充材料以了解详细信息）。我们在KITTI Flow 2015 [42]上进行评估，其中所有网络都在80%的图像对上进行训练为了进行公平的比较，我们对所有方法使用相同的训练-测试分割，每个图像对使用1 K对应关系进行训练，并进行50 K次迭代。在测试期间，我们使用每个图像对（使用所有未被遮挡的梯度流获得）中的对应关系 {（ xi ， x’ ） }来进行评估。 Specifically，eachmetodpedictsapointx与参考图像i中的点xi匹配的目标图像中的点x i。评估指标。根据先前的工作[39，16，58]，我们使用正确关键点百分比（PCK）作为我们的评估指标。给定像素阈值θ，P_CK可以作为预检测的像素x的检测值，该像素在θp中与地面实况对应点x’相距（因此被认为是正确的匹配到θ像素）。单层和特征融合描述符。我们在图4中绘制了针对考虑中的所有方法获得的PCK曲线，其中我们基于像素阈值范围将这些图显示，对于较小的阈值，较浅的特征（例如conv2-net与73. 89%@5个像素）提供比更深的（例如，conv5-net与61. 78%@5像素），除了conv 1-net表现最差。因此，更深的特征对于更高的阈值具有更好的性能（例如，conv5-net与87. 57%，而conv 2-net为81。36%@15像素）。这表明，为了获得最佳性能，需要利用网络产生的更浅和更深的特征，而不仅仅是最后一层的输出SIFT黛西KAZEUCNHiLM（VGG−M）HiLM（GoogLeNet）准确度（PCK）10M. E. Fathy，Q.-H. 特兰，M。Z. 齐亚山口Vernaza和M.钱德拉克该图还表明，虽然用于融合特征的基线方法改善了较小阈值的PCK（例如，超柱融合69. 41%，而conv 5-net为61。78%@5像素），它们不能与简单的基于conv2的特征（例如，conv 2-net与73. 89%@5像素）。我们的完整方法的不同变体对于较小的阈值（例如， HiLM（conv2 + conv4），80。17%@5像素），而不会损失更高阈值的准确性。事实上，我们的方法能够优于conv2特征（例如，conv 2-net与73.89%@5像素），尽管它使用它们来细化由更深层估计的粗略对应。这是由更深的特征对局部结构的相对不变性来解释的，这有助于避免匹配具有相似局部外观但属于不同对象的补丁。概括。我们还进行了跨域泛化能力的实验。具体来说，我们在MPISintel [10]上训练HiLM（conv2+conv5），并在KITTI Flow 2015上进行评估，如前所述，将结果绘制在图4中（黑色曲线）。正如预期的那样，与在KITTI上训练的相同模型相比，Sintel模型是低于标准的（72。37% vs. 79. 11%@5像素），然而它优于超列融合（69. 41%）和自上而下融合（63. 14%）在所有PCK阈值上接受KITTI培训。相似推广结果在与HPatches交叉训练时获得[6]（详情请参见补充资料）。手工制作的描述符。我们还比较了（a）我们的HiLM（conv 2 +conv 5，VGG-M），（b）基于GoogLeNet/ UCN的方法变体（在第3节中描述），（c）原始UCN [16]和（d）以下手工制作的描述符的性能：SIFT [40]，KAZE [2]，DAISY [53].我们使用与先前实验中使用的相同的KITTIFlow 2015评估集为了评估手工制作的方法，我们使用它们来计算参考图像中的测试像素处的描述符（对于其地面真实对应是可用的），并将所得描述符与在两个方向上的4像素间隔的网格上的目标图像上计算的描述符进行匹配。图5比较了产生的PCK，并显示我们的HiLM（VGG-M）在较小阈值（例如， HiLM （ VGG-M ）， 43 。 26% ，而 UCN 为 29 。 38%@2 像素）。这种性能差异不是基线偏移的结果，因为我们的GoogLeNet变体（与UCN相同的基线网络）与我们的VGG-M变体相比具有相似或略好的性能。该图还指示了基于CNN的描述符对局部结构的相对较高的不变性，这允许它们获得较高百分比的粗略定位的对应关系（例如：UCN 83. 42%，HiLM（VGG-M）为85。08%，HiLM（GoogLeNet）为85。18%，全部在10像素阈值处）。4.2光流实验在本节中，我们将展示我们的几何对应获得光流的应用我们强调，这里的目标不是超越已经广泛设计的光流方法[4，50，25]，包括直接最小化流量度量（终点误差），例如。FlowNet2 [25].几何对应的层次度量学习与匹配11（一）(c)（b）第（1）款(d)图6：光流管道。(a)输入图像。(b)初始HiLM匹配。(c)经过一致性检查和运动约束的过滤匹配(d) 使用 EpicFlow [45] 插值后。表 1 ： KITTI Flow 2015 的定量结果。遵循KITTI惯例：这些方法通过它们的“F1-全部”误差进行排名粗体数字表示最佳结果，而下划线数字是次佳结果。请注意，FlowNet2 [25]直接优化流量度量，而 SDF [4] 和 SOF [50] 需要语义知识。然而，我们认为从流程基准中获得洞察是有用的，因为任务（即几何对应和光流）在概念上是相似的。网络架构。对于密集光流估计，我们利用GoogLeNet [52]作为我们的骨干架构。然而，在测试时，我们修改训练的网络以获得密集的每像素对应关系。为此：（i）我们将第一卷积层和池化层（conv1和pool1）中的步幅设置为1，（ii）我们将第一池化层（pool1）的内核大小设置为5而不是3，（iii）我们将第二卷积层（conv2）的膨胀偏移设置为4，以及（iv）我们将第二池化层（pool2）的步幅设置为4。这些变化使我们能够以与输入图像相同的分辨率（WxH）获得浅层特征图，并以W/4 xH/ 4获得深层特征图，并且与通过网络的所有层以全分辨率处理特征图的方法相比，可以更快地获得密集的每像素对应关系，并且对GPU内存的Procedure. 我们首先使用我们提出的方法提取和匹配输入图像这些初始匹配通常被离群值或不正确的匹配所污染。因此，我们遵循AutoScaler[58]的方案来去除离群值。特别地，我们使用[-240，240]x[-240，240]的窗口来强制执行局部运动约束，并且使用0像素的阈值来执行前向-后向一致性检查。然后将这些过滤后的图6示出了该过程的示例。方法Fl-bgFl-fgFl-all[25]第二十五话百分之十点七五8.75% 百分之十点四一SDF [4]8.61% 26.69% 11.62%SOF [50]14.63% 27.73% 16.81%CNN-HPM [5]百分之十八点三三24.96% 百分之十九点四四HiLM（我们的）23.73% 21.79% 23.41%SPM-BP [35]百分之二十四点零六百分之二十四点九七24.21%12M. E. Fathy，Q.-H. 特兰，M。Z. 齐亚山口Vernaza和M.钱德拉克图7：KITTI Flow 2015的定性结果。第一行：输入图像。第二行：DeepFlow2[59]。第三行：EpicFlow [45]。第四行：SPM-BP [35]。第五排：HiLM。红色表示高误差，而蓝色表示低误差。定量评价。我们将KITTI Flow 2015的定量评估结果列于表1中。如前所述，我们的目标不一定是获得最佳光流性能，而是我们希望强调我们能够提供高质量的兴趣点匹配。事实上，许多最近的作品[4，50]专注于在显式对象类的级别上将丰富的域先验嵌入到他们的模型中，这使得他们能够在数据丢失时做出很好的猜测（例如，由于闭塞、截断、同质表面）。然而，在我们的比较中，我们能够胜过几种方法，除了[25]对于前景像素（即通过Fl-fg，HiLM与21. 79%，其他方法为24。96比35 28%，不包括[25]与8。75%）。正如预期的那样，我们在图像中存在相对较少结构的区域（例如背景），并且对于这样的区域，采用强先验模型的方法[4，50]具有显著的优点。然而，即使在背景区域上，我们也能够击败或与大多数竞争对手（即由Fl-bg，23. 73%对18。33比30 60%），包括为光流提出的机器，如[59，45，13]。总的来说，我们优于表1中评估的6种最先进的方法（即，由F1-所有），包括[58]的多尺度对应方法定性评价。我们在图7中绘制了一些定性结果，以对比DeepFlow 2[59]，EpicFlow [45]和SPM-BP [35]与我们的方法。正如前面的讨论所预期的那样，由于强大的局部结构，我们在属于车辆的图像区域上观察到我们的方法的优越结果，而例如在第一列（第四行）中，SPM-BP[35]在蓝色汽车上完全失败。我们观察到我们的方法的估计误差主要在被遮挡（其他汽车的周围）或截断（图像的下部）的区域，其中竞争的方法也有很高的误差。几何对应的层次度量学习与匹配134.33D对应实验为了证明我们对不同数据模式的贡献的一般性，我们现在考虑将我们在第3节中提出的方法扩展到3D对应估计。在下文中，我们首先介绍我们的网络架构的细节，然后讨论我们的定量评估的结果网络架构。我们使用3DMatch [65]作为我们的基线架构。我们在3DMatch的第二个卷积层之后插入两个3x3x3卷积层（每个步长为2）和一个5x5x5池化层（步长为1），以获得512维向量，该向量用作浅层特征描述符。我们的深度特征描述符是在第八个卷积层之后以与3DMatch相同的方式计算的。我们的分层度量学习方案再次使用两个CCL损失（第3.1节）同时学习浅层和深层特征描述符。我们在这个实验中禁用了硬否定挖掘，以便与3DMatch进行公平的比较。我们的网络在Marvin [1]中实现，并在TITAN XP GPU上使用10−3的基本学习率进行137K迭代的随机梯度下降训练。我们使用3DMatch提供的预训练权重来初始化网络中的公共层，其学习率乘数为0。1，而新添加的层的权重使用X的方法初始化，并且具有等于1的平均值。0. 使用与3DMatch相同的过程生成用于训练的对应数据。议定书3DMatch使用固定的关键点位置和二进制标签来评估推定对应的分类准确性。由于我们的方法使细化与浅的功能，从而转移假设的对应位置在空间中，我们定义了一个协议，适合测量细化性能。我们采用PCK作为我们的评价指标，类似于2D实验。我们生成的测试数据组成的10K地面实况对应使用3DMatch的过程。我们使用以[65]之后的参考关键点（在参考这与60X60X60cm3区域（在目标“图像”中具体而言，我们将该区域划分为30 x30 x30 cm-3的子体积，并采用我们的分层匹配方法来穷举搜索4其描述符与参考描述符最相似的子体积。特别是，一旦使用更深的特征描述符的粗匹配产生在60x60x60cm3区域中的近似位置，我们将通过浅特征描述符的细化约束到从粗匹配返回的近似位置周围的15cm的搜索半径。定量评价。我们比较了我们的完整框架，即HiLM（conv2 +conv8）与使用分层度量损失训练但依赖于深度或浅层特征进行匹配（分别为HiL（conv8）和HiL（conv2））的变体，以及仅使用深度特征的3DMatch。图8显示了在10K测试中计算的所有竞争方法的PCK曲线3实际上，地面实况关键点对应位于该区域的中心，但是该知识无论如何都不可用于该方法。4我们在搜索子体积时沿所有三个维度使用3cm的采样间隙以减少计算成本。14M. E. Fathy，Q.-H. 特兰，M。Z. 齐亚山口Vernaza和M.钱德拉克3DMatchHiL（conv2）HiL（conv8）HiLM（conv2+conv8）35100309025807020601550104053001 2 3 4 5 6 7 8 910阈值（cm）2010 15 20 25阈值（cm）(a) 小阈值范围(b) 大阈值图8：用于3D对应性估计的不同基于CNN的方法的准确性通过3DMatch的过程生成的对应关系。从结果来看，我们用分层度量学习训练的浅层特征能够在大多数PCK阈值（例如，PCK阈值）上优于它们的深层特征。 HiL（conv2），21。50%，而HiL（conv8）为20。78%@9cm）。通过利用深层和浅层特征，我们的完整框架实现了比其变体更高的PCK数，并在所有PCK阈值（例如，3DMatch）上优于HiLM（conv2 + conv8），24。36%，而3DMatch为22。04%@9cm）。5结论和未来工作我们从最近的研究[64，68]以及关于CNN架构的传统直觉中汲取灵感卷积网络架构自然地学习特征的层次结构，因此，在深层应用的对比损失将返回对局部图像结构不太敏感的我们建议补救这一点，采用功能在多个层次的特征层次结构的兴趣点描述。此外，我们利用最近的想法在深度监督明确获得任务相关的功能在中间层。最后，我们利用增加层深度的感受野增长作为代理，以取代传统的粗到细的图像金字塔匹配方法。我们彻底评估这些想法实现为具体的网络架构，具有挑战性的基准数据集。我们对显式关键点匹配任务的评估优于手工制作的描述符、最先进的描述符学习方法[16]以及包括超列融合和自上而下融合的各种消融基线。此外，即使没有广泛的工程或利用更高级别的语义场景理解，光流计算的评估也优于几种竞争方法最后，用我们的想法增强最近的3D描述符学习框架[65]可以提高性能，暗示更广泛的适用性。我们未来的工作将探索我们的对应关系的应用，例如灵活的地面建模[30，19，3]和几何配准[14，65]。3DMatchHiL（conv2）HiL（conv8）HiLM准确度（PCK）准确度（PCK）几何对应的层次度量学习与匹配15引用1. Marvin：一个极简的仅支持GPU的N维ConvNet框架。http：marvin.is，访问时间：2015-11-102. Alcantarilla，P.F.，Bartoli，A.，Davison，A.J.：KAZE功能。In：ECCV（2012）3. Ansari，J.A.，Sharma，S.，Majumdar，A.，Murthy，J.K.，克里希纳，K.M.：地球是不平坦的：移动相机拍摄的静止和静止的地球图像在：ArXiv（2018）4. 白，M.，罗，W.，Kundu，K.，乌尔塔松河：光流的语义信息挖掘与深度匹配。In：ECCV（2016）5. 贝勒角Varanasi，K.斯特里克，D.：基于CNN的阈值铰链嵌入损失光流匹配。在：CVPR（2017）6. Balntas，V.，Lenc，K.，Vedaldi，A.，Mikolajczyk，K.：HPatches：手工制作和学习本地描述符的基准在：CVPR（2017）7. 贝HTuytelaars，T.，古尔，L.V.：SURF：加速强大的功能。In：ECCV（2006）8. Brachman

下载后可阅读完整内容，剩余1页未读，立即下载