文件标题：全局运动相干性的可学习修剪

108 浏览量更新于2024-01-22 收藏 7.08MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3237LMCNet（d）全球一致性拟合（e）局部一致性提取（f）内点概率用于对应修剪的可学习运动一致性刘媛1刘玲杰2程琳1董振3王文平1，4王1香港大学2MPI Informatics，Saarland Informatics Campus3武汉大学4德州农工大学摘要运动相干性是区分真假对应的重要线索。由于稀疏假定对应的稀疏性和不均匀分布，在稀疏假定对应上建模运动相干性具有运动一致性的先验知识对参数设置很敏感，并且难以处理复杂的运动模式。在本文中，我们介绍了一个网络称为拉普拉斯运动相干网络（LMCNet）学习运动相干性对应修剪属性。我们提出了一种新的配方的拟合相干运动的对应关系图上的光滑函数，并表明，这种配方允许一个封闭形式的解决方案，由图拉普拉斯算子。这种封闭形式的解决方案使我们能够在学习框架中设计一个可微层，以从假定的对应关系中捕获全局运动相干性。全局运动相干性进一步与由另一个局部层提取的局部相干性组合以鲁棒地检测内点对应。实验表明，LMCNet在动态场景的相对摄像机姿态估计和对应打印方面具有优于现有技术的性能1。1. 介绍估计两个图像之间的对应关系是计算机视觉任务中的一个基本问题，例如运动恢复结构（SfM）[19]，视觉定位[45]，图像拼接[10]和视觉SLAM [32]。对应性估计的标准流水线依赖于局部特征匹配来建立一组推定对应性，其包含许多假对应性（即，out-liers）。为了防止离群值影响下游任务，通常应用对应关系修剪算法来选择由真实对应关系组成的可靠子集（即，内点）。最流行的对应修剪方法是RANSAC [18]及其变体[52，14，2，12]，*通讯作者1 代码和补充材料可以在项目页面中找到： https://liuyuan-pal.github.io/LMCNet/图1.给定一组假定的对应（a），存在多个合理的对极几何，例如，（b）及（c）。然而，真对应（c）通常是运动相干的，而假对应（c）通常是运动相干的，(b) 并不是。在本文中，我们设计了一个名为LMCNet的网络，通过全局一致性拟合（d）和局部一致性提取（e）来显式地利用对应的运动一致性。因此，LMCNet能够稳健地预测它们的内点概率（f），其中较亮的颜色意味着较高的内点概率。其通过找到符合诸如对极几何或单应性之类的任务特定几何模型的最大子集来检测真实对应。然而，由于假定对应的大的离群值比率，可能存在多个可行的几何模型，这使得RANSAC及其变体难以识别正确的几何模型。除了特定于任务的几何模型之外，真实的对应关系还符合称为运动相干性的更一般的运动模型，这意味着相邻像素共享类似的运动，而虚假的对应关系通常是随机分散的，如图所示1（a-c）.运动一致性补充了任务特定的几何模型，并且是在存在多个合理几何模型时确定真实对应关系的关键为了对运动一致性进行建模，现有的工作提出了局部[5，29]或全局手工规则[23，22]来找到一致性对应。然而，在由局部描述符生成的稀疏对应上建模运动相干性是具有挑战性的。首先，与密集通信合理的对极几何模型...（a）推定的对应关系（b）几何模型（一）（c）几何模型（二）3238在诸如光流估计[26，6，7]的估计中，由局部描述符生成的假定对应是离散和稀疏的，这使得估计潜在的平滑运动场更加困难。第二，假定的对应通常不均匀地分布在图像上，因为在纹理区域中通常存在许多检测到的关键点，而在无纹理区域中存在很少的关键点。这种不均匀的分布使得很难找到对对应的一致性约束。第三，观察到的场景可能具有复杂的结构，例如深度的突然变化，使得底层运动场仅是分段平滑的，这给寻找运动边界带来了困难[22]。由于这些挑战，现有的工作要么需要针对不同的数据集进行仔细的参数调整[22，23]，要么在运动模式复杂时可能失败[29，5]。我们解决这些问题，提出了一个神经网络的工作，学习运动的连贯性属性的correspondence修剪。与手工制定的运动一致性规则相比，神经网络具有更强大和灵活的表示能力，可以从数据中学习更复杂的运动模式并可靠地检测运动边界。设计可微分层来捕获运动相干性是采用基于学习的方法的关键传统的全局运动相干性模型[22，23]通常涉及不可微的迭代凸优化求解器，其不能用于训练网络端到端。为了解决这个问题，我们提出了一种新的制定的运动连贯性的属性，通过平滑函数拟合的对应关系图我们称之为拉普拉斯运动拟合（ LaplacianMotion Fitting，LMF），并通过对图拉普拉斯的分解，得到了一个简单的封闭形式的解，这使得我们能够设计一个可微的相干残差层，简称为CR层，从假定的对应关系中捕获全局运动相干性。除了全局一致性模型，真实对应在其局部邻域中也具有运动一致性支持对应[5]。在此基础上，我们设计了一个局部相干层，简称为LC-Layer，从这些相邻的支持对应中提取局部运动相干性。通过整合全局和局部运动相干层，我们设计了一个称为拉普拉斯运动相干网络（LMCNet）的网络，该网络将对应关系的坐标或其他可选特征作为输入，并输出每个对应关系是内点的概率。我们进行了广泛的实验，以证明所提出的神经网络在两个任务的有效性：相对相机姿态估计，和对应prun- ing的动态场景。在这两项任务中，LMCNet都比其他基线方法具有更好的性能，证明了其稳健选择内点的能力和增强对象跟踪或视频对象识别。我们的贡献如下。1. 我们提出了一种新的运动一致性的公式，它具有一个简单的封闭形式的解决方案，通过分解图拉普拉斯。2. 我们提出了可微层，它的工作，共同鲁棒地捕捉稀疏假定对应的运动相干性。3. 我们设计了一个用于对应关系修剪的神经网络，并证明了它在动态场景的相对姿态估计和对应关系修剪问题上的有效性。2. 相关作品2.1. RANSAC相关对应剪枝RANSAC [18]及其变体[38，52，43，1，37，2，3，14，51，12]是通过找到符合特定任务几何模型的最大子集来从假定对应然而，这些方法可能会失败时，多个合理的几何模型都有大量的支持对应。一些作品通过使用边缘化[2，3]、退化检测[14]、学习采样假设[9]或密度估计[51]等技术来解决这个问题。在本文中，我们诉诸于另一个有用的运动相干性属性的内层对应，而不是仅仅依赖于特定于任务的几何模型。2.2. 用于对应修剪的深度网络随着深度学习方法的进步，DSAC [8]，PointCN [31]和DFE [39]等开创性工作证明了通过神经网络以坐标作为输入对对应进行分类的可行性。后续工作通过插入全局聚类层[60]，注意力机制[47，13]或引入新的邻域定义[61]来改进架构。这些方法主要集中在设计一个对应的置换等变算子，并将学习过程视为黑箱。相比之下，我们在深度神经网络中显式地引入了运动相干属性，以确保在训练过程中学习到这种属性。2.3. 运动相干性运动相干性[59，33]在计算机视觉中已经探索了有许多作品[26，6，7，11，54，34，41，42，20，33]，其集中于将运动相干性约束应用于密集对应性估计任务，诸如光流。然而，在稀疏对应上拟合平滑运动场要困难得多。BF [23]和CODE [22]提出了一种基于稀疏对应的全局运动相干其他一些作品[29，5]使用局部一致性来找到运动相干对应。3239i、j2212这些手工制作的规则或模型取得了令人印象深刻的性能，但仍然难以处理复杂的运动模式，需要仔细的参数调整不同的在我们的方法中，我们提出了一个新的公式，通过拟合一个光滑的函数，通过图形的我们构造了一个图G={V，E}，其中V中的节点表示所有假定的对应，并且E包括每个对应到其k-最近邻居的边di，j=ci− cj<$2。我们计算相关的权重，拉普拉斯算子我们进一步设计全球和本地的产品，边wi，j=exp（−d2/σ2），其中σ是预定义的可平铺的层来捕捉运动的连贯性，这使我们的网络从数据中学习更复杂的运动模式比那些手工制作的方法。2.4. 图像匹配以前，关于图像匹配的工作主要集中在学习重复检测器[25，58，16，40，4，17，46]或区别性描述符[28，27，24，49，50，30，53，15]。然而，最近的工作[31]表明，图像匹配的性能提出了几种基于深度学习的模型来学习修剪对应关系[31，39，60]或匹配常数，并且对于所有节点，wi，i=0。然后，我们定义邻接矩阵i∈x 为A=[wi ， j] ，次矩阵D=diag （ [di=jwi，j]）和拉普拉斯矩阵为L=D−A。这里，我们通过v=[vi，j]来定义矩阵或向量v，其分量是vi，j，并且使用dia g（v）来表示对角矩阵，其对角元素是V的组成部分。对于每一个对应，我们计算它的运动，{mi=（mx，i，my，i）=（ui−xi，vi−yi）}。我们的目标是估计一组平滑运动{si=（sx，i，sy，i）}，这些运动尽可能与输入运动{mi}一致我们将问题公式化如下，描述符[44，56]。我们的方法属于基于深度学习的对应关系修剪器的范畴3. 方法中国尽量减少{si|i=1，.，N}我si−mi2Σi、jwi，jsi−sj2，（1）我们提出了一种新的架构LMCNet的对应修剪。给定N个假定的对应关系{ci=其中，ηsi-miη2惩罚估计运动si与输入运动mi的偏差，η是预定义的con，stant，而wi，jsi−sj2是平滑度成本，（xi，yi，ui，vi）|i=1，.，N}和它们的可选D0-dimFeA-2tures{fi∈Rd0}，其中（xi，yi）和（ui，vi）是两个对应关键点的图像坐标，我们的目标是估计假定对应ci是真实对应的概率{pi}在本节的其余部分，我们首先介绍我们的新公式的运动连贯性，称为拉普拉斯运动拟合秒。3.1. 然后，LMCNet的关键组件，即相干残余层，和本地相干层，在第2节中详细阐述。3.2与次级3.3.最后，我们描述了整个体系结构。3.4以及SEC中的一些实施细节。三点五3.1. 拉普拉斯运动拟合运动相干性是指真实对应具有彼此相似的运动，而虚假对应随机散布。最常用的模型[22，21，59]通过首先从假定的对应关系中恢复潜在的连续平滑运动场来然后，真和假的对应关系，可以区分根据他们从恢复的运动场的偏差。然而，为了恢复潜在的运动场，这样的公式通常涉及不可微的迭代为了解决这个问题，我们提出了一种新的制定运动的连贯性，估计一组光滑的离散运动的图形编码的假定对应的邻接。我们表明，这种提法允许一个简单的封闭形式的解决方案，通过分解图拉普拉斯算子，它可以用于构建一个可微层的网络。使两个相邻的核心之间的运动变化归一化，响应si和sj根据权重wi，j。通过将 si 和 mi 聚合成矩阵形式 s=[si]∈RN×2 和m=[mi]∈RN×2，我们可以将问题（1）重写如下，最小化Tr（（s-m）<$（s-m））+ηTr（s<$Ls），（2）S其中，s*Ls被用作正则化项，因为它测量了图形信号s的平滑度[35]。问题（2）有一个封闭形式的解决方案，如下面的propo中所述我们把证明及其与以前的运动相干理论的联系[59，33，22]留在补充材料中提案1. 设Laplacian矩阵L的特征值分解为L=UΛU，其中Λ=diag（[λi]）是特征值λi和U是相关的特征向量。则问题（2）的解为s=Udiag（[1/（1+ηλi）]）Um。记R（η）<$Udiag（[1/（1+ηλi）]）U<$。然后，通过R（η）m-m计算平滑运动和输入运动之间的残差。由于只有真对应才能很好地被平滑运动R（η）m拟合，而假对应不能，所以真对应的残差将显著小于虚假的通信。因此，通过对剩余运动的L2-范数进行阈值处理，可以区分真对应和假对应。整个3240FL'l ll l ll(a) 输入对应（b）LMF的输出（c）残差图2.（a）2000份推定的信函。绿色对应为真，红色对应为假。（b）LMF的输出对应(c)内点（绿色）和离群点（红色）的运动残差范数分布直方图以1作为最大值进行归一化在算法1中总结了称为拉普拉斯运动拟合（LMF）的过程二、算法1：拉普拉斯运动拟合数据：输入对应关系{ci=（xi，yi，ui，vi）}，神经网络从训练数据中自动学习复杂运动模式的代表性能力。我们不是直接对残余运动进行阈值处理，而是将LMF应用于由神经网络提取的对应特征fl∈RN×d，以找到一个光滑特征集f′∈RN×d。然后，歧视光滑强度η和内点阈值εl′结果：成为内点的概率{pi}1计算{ci}上的拉普拉斯矩阵L;2L=UΛU的特征分解;3计算运动m=[mi]=[（ui−xi，vi−yi）];4计算平滑运动s=[si]=R（η）m;5找到内点{pi=1，如果i=0，则i=1;计算复杂性。对于一个图的Laplacian矩阵，它的特征值λi是非负的.当λi增加时，1/（1+ηλi）变得足够小，因而可以忽略。据此，我们可以只利用ke个最小特征值及其相应的特征向量来计算R（η），即把U∈RN×N改为RN×ke。这种简化实质上将R（η）的计算复杂度从O（n2）降低到O（n）。图构造。在我们的实现中，通过将每个对应与其在坐标空间ci∈R4中的k-最近邻连接来构造图，坐标空间ci∈ R 4是CODE [22]中提出的这个比拉特-单个空间允许找到分段平滑运动场而不是全局平滑运动场。同时，图形构造可以是相当灵活的。我们还可以采用[61]中提出的仿射相容性来进行图的仿射变换，以利用检测到的仿射变换。3.2. 相干剩余层到目前为止，我们已经提出了LMF算法的运动对应修剪。然而，由于假定对应的稀疏性和不均匀分布，需要专家知识来仔细地调整阈值η和平滑强度η，以便实现更好的性能。为了避免这种情况，我们将LMF纳入学习框架，以便我们可以利用强大的特征可以从残差fl-fl中提取，通信的分类我们考虑的问题估计平滑的特征，最小化Tr（（f′−fl）<$（f′−fl））+ηTr（f′<$Lf′），（3）L其类似于问题（2），用特征f1代替输入运动m。然而，特征f1是由神经网络经由多层抽象提取的，因此问题（3）比问题（2）中拟合单个平滑运动场更一般化。如果需要，这些特征可以简单地是运动或任何其他更复杂的相干属性，如局部仿射变换[23，21]，这些特征在训练期间由神经网络隐式学习。根据命题1，问题（3）的解也由f′=R（η）fl给出。在此基础上，提出了一种新的相干残差层（CR-Coherence Residual Layer）。层）由，fl+1= ContextNorm（fl−R（η）fl），（4）其中fl+1是输出特征，并且ContextNorm [31]包含用于特征提取的全连接运算符和实例规范化运算符。正向传送CR-Layer通过R（η）fl隐式地解决问题（3），并从残差fl− R（η）fl中提取特征。由于整个过程只涉及矩阵乘法，CR-层是可区分的，因此可以并入网络。同时，我们还从数据中学习平滑强度η，使其成为一个可训练的参数。3.3. 局部相干层除了在对应性上拟合全局平滑函数之外，运动相干性的另一个重要观察结果3241图3.真对应（绿色）具有运动一致的支持邻居，而假对应（红色）的邻居随机分散。真正的对应往往在它们的邻域中具有运动一致的支持对应，而错误的对应则不具有这种支持对应。典型的例子如图3所示。基于这种观察，我们引入了一个新的层，称为局部相干层（LC层）。具体来说，给定第i个对应的特征fl，i，我们首先通过fl，i−fl，j计算对应与其邻居（i，j）∈ E之间的特征差。特征差异度量了第i个对应的邻域。然后，LC层定义为，fl+1，i= MaxPool（{MLP（fl，i-fl，j）}），（5）（i，j）∈E层和聚类层，用于提取其他信息，如底层的对极几何。在[60]中提出了这里使用的聚类层，其通过可区分池化到kc个聚类（Diff- Pool）、聚类之间的顺序感知过滤（OAFilter）和解池化到原始对应（DiffUnpool）来实现。LMCBlock中的所有层都将d维特征作为输入和输出.因此，应用跳过连接以将输入添加到所有层上的输出这些跳过连接是重要的，因为CR层和LC层都仅保留对应关系之间的相对信息，而这种跳过连接保留绝对信息。我们还在LC-Layers中使用瓶颈结构，其将输入特征编码为较低维度dl，然后提取低维度特征上的局部一致性特征，最后将维度提升回d。3.5.实现细节在我们的实现中，对应关系的坐标由摄像机内部矩阵（如果可用）归一化，或者使用输入图像大小归一化到范围[-1，1]。对于邻接矩阵的构造，我们使用k=8个邻居和σ =0。1.一、我们使用标准化的图拉普拉斯矩阵L=D−1/2LD−1/2来计算其中MLP是多层感知器，MaxPool是最大-池化运算符，将所有相邻要素池化，得到单个特征向量，并且fl+1，i是该对应关系的输出特征，其包含关于其邻域中的局部相干性的信息。3.4. 架构概况.我们的网络架构如图4所示。给定输入对应关系，Geome- try Embedding是处理输入坐标c∈RN×4，产生d维特征f1∈RN×d。如果存在与对应关系相关联的可选特征，我们将使用另一个ContextNorm层（特征嵌入），我们将其添加回几何嵌入的输出。然后，特征由称为LMC块的4个块处理，这是LMCNet的主要特征提取模块最后，用一个由全连通层和sigmoid函数组成的概率预测器对LMC块fout∈ RN×d的输出特征进行处理，得到内点概率p=[pi] ∈ RN.LMCBlock。说明了LMC块的结构图五、将LC层置于顶部以提取来自对应邻域的一些有用信息，并且CR层被放置在几个其它层之后，使得其输入处于更高的抽象级别，从而更灵活。除了所提出的LC层和CR层之外，LMC块还包括两个ContextNormR（η）和只有最小的ke=32个特征值，选择相关联的特征向量。在所有的CR层中，η初始化为10.0。LMCBlock中的特征维度d和聚类数nc都是128，LC-Layers中使用的瓶颈特征维度dl如果预测的内点概率大于0.95，则将相应值确定为内点有关体系结构和培训过程的更多详细信息当实现LMF算法时，我们使用ke=128个特征值，平滑强度η=10。0，阈值为0。025损失对于动态场景的图像对，我们使用二进制交叉熵损失样本进行训练。对于相对姿态估计中的图像对，我们使用额外的几何损失矩阵[60，39，19]，其中我们通过加权8点算法[19]估计基本矩阵，并计算从地面实况对应到估计的对极线的距离作为损失。4. 实验4.1. 评估协议为了证明我们的方法的有效性，我们评估了三个模型，这是LMF算法，LMCNet仅以坐标为输入，LMC-Net以坐标和局部描述符为输入（LMCNet-F）。我们报告的相对姿态估计和对应修剪动态场景的性能。3242LMCNet几何嵌入Prob预测器LMCBlock X4特征嵌入(a) 输入对应（b）架构（c）概率图4. (a)输入对应关系。红色代表假对应，绿色代表真对应。(b)LMCNet的架构。特征嵌入是可选的。(c)输出为内点的概率。颜色越鲜艳，概率越高。图5. LMCBlock由7层组成。[47]第四十七话29.0848.1365.49OANet [60]29.1248.2865.37超级胶水[44]30.4951.2969.72相对姿势数据集。室外YFCC 100M [48]LMCNet34.6253.8670.53数据集和室内SUN3D [57]数据集用于关系。LMCNet-F35.9155.6872.35主动姿态估计我们使用与[60]相同的训练测试分割输入假定对应关系是从每个图像上的2000个SIFT [25]描述符的最近邻域匹配中生成的。我们认为小距离（≤0. 01在归一化的图像坐标中）到它们的地面实况核线作为真实对应。用于图像对，本质矩阵估计的RANSAC预测的真实对应，然后分解为旋转和平移。动态场景数据集。动态场景数据集包含具有动态对象的图像。我们使用DE-TRAC数据集[55]进行评估。DETRAC数据集包含交通监控中的图像，因此背景是固定的，主要的动态对象是汽车。我们在每幅图像上提取2048个SuperPoint [16]特征，并通过最近邻域匹配提取假定的对应关系。由于数据集中只有不同汽车实例的注释边界框，因此如果对应关系连接同一实例的两个边界框，则我们将其视为真对应关系，而如果对应关系连接不同实例或连接具有背景的实例，则对应关系为假，如图7所示。我们使用提供的训练-测试分割，其中60个序列（样本30 k图像对）用于训练，40个序列（样本4k图像对）用于测试。我们还在补充材料中包括DAVIS [36]数据集指标.在相对姿态估计的任务中，我们计算在阈值5○ 、 10○ 和 20○ 处姿态准确度曲线的曲线下面积（AUC），与所使用的相同表1.在YFCC 100M数据集上设置AUC。所有方法都使用由SIFT描述符的最近邻域匹配产生的假定对应。方法AUC@5○ AUC10○ AUC20○比检验4.5111.6223.02LPM [29]2.817.4015.36大湄公河次区域[5]4.3611.0821.68代码[22]3.528.9118.32LMF3.348.8518.04[31]第三十一话5.6414.8829.32[47]第四十七话5.9715.6930.98OANet [60]5.9415.7931.03LMCNet6.7717.1432.55LMCNet-F8.8619.6434.96表2.在室内SUN3D数据集上设置LMCNet和其他基线方法的AUC。[44]。在动态图像对的对应修剪任务中，我们报告了精确度，召回率和F1分数。4.2. 相对姿态估计基线。我们认为传统的手工修剪器，包括LPM[29]，GMS [5]和CODE [22]，以及基于学习的修剪器，包括PointCN [31]，At-tenCN [47]和OANet [60]作为基线方法。我们还包括SIFT+SuperGlue [44]的结果，LMCBlockLC层上下文规范CR层企业简介LC层上下文规范CR层方法AUC@5○ AUC10○ AUC20○比检验24.0940.7158.14MAGSAC [2]28.2444.8661.53LPM [29]10.4818.9129.26大湄公河次区域[5]19.0532.3546.79代码[22]16.9930.2343.85LMF16.9129.4943.44[31]第三十一话27.3944.6161.223243输入PointCNOANetLMCNet图6.输入对应（行1），PointCN [31]（行2）、OANet [60]（行3）和LMCNet（行4）的输出绿色对应是正确的（距离真正的核线很小），而红色对应是不正确的。在具有相同学习率的相同训练集上，除了SuperGlue[44]，我们直接使用其补充材料中报告的结果[44]。结果定量结果见表1和表2。一些定性的结果提供在图。六、结果表明，LMCNet优于所有的基线方法的所有姿态度量。进一步添加描述符作为输入（LMCNet-F）导致约1.5%-2%的改进[31]第三十一话84.2789.3486.26[47]第四十七话85.3488.5386.89OANet [60] 82.70 87.66 84.53LMCNet87.23 88.79表3.LMCNet和其他基线模型在DETRAC数据集上的精确度、召回率和F1得分4.3. 动态场景在DETRAC数据集上，我们将LMCNet与用于相对姿态估计的相同基线方法进行了比较。表3中的定量结果表明，LMC- Net在所有指标上都优于所有基线方法。从图7中的定性结果可以看出，LMCNet能够鲁棒地找到运动相干对应，而基线方法可能包括一些假对应或忽略一些稀疏的真实对应。注意，运动的位移高达数百像素，并且我们无法使用基于光流的方法来产生合理的结果。3 2 2 32 34.62 53.86 70.533 2 2 64 34.71 53.79 70.63表4. LMCNet在YFCC 100M数据集上的消融研究。“#Block”表示模型中使用的 LMCBlock 的数量。 “#CR-Layer” and“#LC-Layer” means the number of these two layers used inevery4.4. 分析消融研究。为了证明LC层和CR层的有效性，我们对YFCC 100M数据集进行了消融研究，并在表4中报告了结果YFCC 100M数据集。为了实现，我们直接使用方法精度召回F1得分[29]第29话：我是一个人，我是一个人。LPM [29]85.1252.2763.47[22]第22话，只需要一个人，大湄公河次区域[5]84.8976.9280.01响应作为输入。对于基于学习的方法，我们-代码[22]83.6377.8679.95正确使用发布的代码，并对这些方法进行训练LMF82.8478.6679.35两个数据集。在手工制作方法中，LMF的结果与全局方法CODE相似[22]#块#CR-层#LC-层Ke AUC@5○AUC@10○AUC@20○但不如本地方法GMS [5]。这是由于3003229.3848.0064.86不均匀分布的对应关系3203232.7251.6669.49全局方法很难确定统一的全局3223234.6253.8670.53修剪的阈值。但是，学习运动连贯性-3113231.4950.7367.65通过CR-Layers实现的网络，1223233.1852.3268.92运动模式，从而实现更好的性能。5223234.3154.2271.073221632.5851.7269.513244输入PointCNOANetLMCNet图7. DETRAC数据集上的PointCN [31]（行2）、OANet [60]（行3）和LMCNet（行4）的输入对应关系（行1）、输出对应关系。黄色表示对应关系在背景中，绿色表示正确，红色表示假阳性，蓝色表示假阴性。注意，输入包括前景和背景对应。为了清晰的可视化，我们在所有图像对上随机绘制512个对应关系，忽略第2、3和4行中的背景对应关系基线模型将所有CR层和LC层替换为具有几乎相等的计算复杂度和参数数量的ContextNorm层。结果表明，添加CR层可以使所有姿态AUC提高2-5%我们还展示了块的数量和每个块中使用的层的数量如何影响LMCNet的添加更多的块会导致轻微的改进，而减少CR层和LC层的数量会显着降低性能。CR层中不同数量的特征向量。如第3.1中，我们可以使用k个最小特征值及其相关特征向量来计算CR层。为了显示特征向量ke的数量如何影响性能，我们用不同的ke训练LMCNet，并在表4中报告结果。结果表明，与使用32个特征向量相比，仅使用16个特征向量显著降低了性能然而，将数量从32增加到64不会带来显著的性能改善。有鉴于此，为了提高计算效率，我们在LMCNet中使用了32个特征向量。与基于学习的描述符和匹配器兼容。在表5中，我们使用SuperPoint [16]作为局部描述符，使用Super-Glue [44]作为匹配器，在SUN 3D数据集和ScanNet数据集上报告了使用或不使用LMCNet的在这个实验中，SuperGlue和SuperPoint只使用了1024个关键点，但仍然比使用2000 个SIFT 特征获得了更好的性能。在ScanNet数据集上，我们使用与SuperGlue [44]中使用的完全相同的实验设置，并使用来自ScanNet训练集的20k图像对微调LMC-Net模型。结果表明，应用LMCNet作为修剪器可以进一步提高在所有情况下估计的姿态的准确性数据集描述匹配器修枝机 AUC @ AUC@表5.使用SuperPoint（SP）[16]描述符和SuperGlue（SG）[44]匹配器在室内SUN3D数据集上设置LMCNet的AUC。NN是指最近邻匹配器。两个数据集。有关本实验的定性结果和细节，请参见补充材料。5. 结论本文设计了一种新的结构LMC- Net来学习运动一致性，以实现相应的剪枝.我们提出了一种新的公式LMF的运动一致性通过拟合一个光滑的函数，通过图拉普拉斯算子的分解，这使得我们能够设计一个可微的CR层，以捕捉全局运动一致性的神经网络。此外，我们还设计了一个LC层，从对应的邻域中提取局部相干信息。结合这两个相干层，提出的LMCNet在相对姿态估计和动态场景的对应修剪方面取得了优异的性能。致谢。本研究获香港研究资助计划的“优配研究基金”（17210718）资助。5○10○20○SPNN/4.6612.4925.39SUN3D SPNNLMCNet6.7617.2532.90SPSG/7.0917.8233.26SPSGLMCNet8.1320.3637.55SPNN/9.4321.5336.40ScanNet SPNNLMCNet12.3228.1547.13SPSG/16.1633.8151.84SPSGLMCNet16.4135.3354.983245引用[1] 丹尼尔·巴拉斯和吉赛尔·马塔斯图形切割的勒索在CVPR，2018年。[2] 丹尼尔·巴拉斯，吉瑞·马塔斯，和贾娜·诺斯科娃。Magsac：边缘化样本共识。在IEEE计算机视觉和模式识别会议论文集，第10197-10205页[3] Daniel Barath ， Jana Noskova ， Maksym Ivashechkin ，and Jiri Matas.Magsac++是一款快速、可靠、准确的稳健评估工具。在IEEE/CVF计算机视觉和模式识别会议论文集，第1304-1312页[4] 阿克塞尔·巴罗佐-拉古纳、埃德加·里巴、丹尼尔·庞萨和克里斯-蒂安·米科莱奇克。Key.net：通过手工制作和学习cnn过滤器进行关键点检测。在IEEE计算机视觉国际会议论文集，第5836- 5844页[5] JiaWang Bian ， Wen-Yan Lin ， Yasuyuki Matsushita ，Sai-Kit Yeung，Tan-Dat Nguyen，and Ming-Ming Cheng.GMS：基于网格的运动统计，用于快速，超鲁棒的特征对应。在CVPR，2017年。[6] 迈克尔·J·布莱克和帕德马纳班·阿南丹。一个光流鲁棒估计的框架。载于ICCV，1993年。[7] Michael J Black和Paul Anandan。多运动的鲁棒估计：参数和分段光滑流场。计算机视觉与图像理解，63（1）：75[8] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother。用于摄像机定位的可微分变换。在CVPR，2017年。[9] Eric Brachmann和Carsten Rother。神经引导RANSAC：学习在哪里对模型假设进行采样。在ICCV，2019年。[10] 马修·布朗和大卫·G·劳。利用不变性特征实现全景图像的自动拼接。国际计算机视觉杂志，74（1）：59[11] 托马斯·布洛克斯和吉坦德拉·马利克大位移光流：变分运动估计中的描述符匹配。 Transactions on patternanalysis and machine intelligence，33（3）：500[12] Luca Cavalli ， Viktor Larsson ， Martin Ralf Oswald ，Torsten Sattler，and Marc Pollefeys.Adalam：重新审视手工离群值检测。arXiv预印本arXiv：2006.04250，2020。[13] 陈智，范阳，陶文兵。Gla-net：一种用于失配消除的具有引导损耗的注意力网络。ArXiv，2019年。[14] Ondrej Chum，Tomas Werner，和Jiri Matas.不受主导平面影响的双视图几何估计在CVPR，2005年。[15] 弗朗索瓦·达蒙、马蒂厄·奥布里和帕斯卡尔·莫纳斯。学习引导局部特征匹配。 arXiv 预印本 arXiv ：2010.10959，2020。[16] 丹尼尔·德托内，托马斯·马利谢维奇，安德鲁·拉比诺维奇. Superpoint：自我监督的兴趣点检测和描述。在IEEE会议上，计算机视觉和模式识别研讨会，第224-236页，2018年。[17] Mihai Dusmanu ， Rocco ， Tomas Pajdla ， Marc Polle-feys，Josef Sivic，Akihiko Torii，and Torsten Sattler.D2-net：一种可训练的cnn，用于联合检测和描述局部特征。arXiv预印本arXiv：1905.03561，2019。[18] Martin A Fischler和Robert C Bolles。随机样本一致性：模型拟合应用于图像分析和自动制图的范例。Communications of the ACM，24（6）：381[19] 理查德·哈特利和安德鲁·齐瑟曼计算机视觉中的多视图几何学。剑桥大学出版社，2003年。[20] Xinghui Li ， Kai Han ， Shuda Li ， and Victor AdrianPrisacariu. 双分辨率对应网络。 arXiv 预印本arXiv：2006.08844，2020。[21] Wen-Yan Lin，Siying Liu，Yasuyuki Matsushita，Tian-Tsong Ng，and Loong-Fah Cheong.平滑变化的仿射缝合。在CVPR 2011中，第345-352页。IEEE，2011年。[22] Wen-Yan Lin，Fan Wang，Ming-Ming Cheng，Sai-KitYeung，Philip HS Torr，Minh N Do，and Jiangbo Lu.代码：基于特征对应性的决策边界。Transactions onpattern analysis and machine intelligence，40（1）：34[23] Wen-Yan Daniel Lin，Ming-Ming Cheng，Jiangbo Lu，Hong- sheng Yang，Minh N Do，and Philip Torr.全局运动建模的双边在ECCV，2014年。[24] 刘元，沈泽宏，林智轩，彭思达，宝虎军礼物：通过组cnn学习变换不变的密集视觉描述符。神经信息处理系统的进展，第6992-7003页，2019年。[25] 大卫·G·洛从尺度不变的关键点中提取独特的图像特征。国际计算机视觉杂志，60（2）：91-110，2004年。[26] 布鲁斯·D·卢卡斯和金田武夫一种迭代图像配准技术及其在立体视觉中的应用。美国国防部高级研究计划局图像理解，第121430页，1981年。[27] 罗紫欣、沈天威、周磊、张家辉、姚姚、李世伟、田芳、龙泉。Contextdesc：跨模态上下文的局部描述符增强。在IEEE计算机视觉和模式识别会议论文集，第2527-2536页[28] 罗紫欣、沈天威、周磊、朱思宇、张润泽、姚姚、田芳、龙泉。 Geodesc：通过整合几何约束来学习局部描述符。在欧洲计算机视觉会议（ECCV）的会议记录中，第168-183页[29] Jiayi Ma，Ji Zhao，Junjun Jiang，Huabing Zhou，andXiaojie Guo. 局部保持匹配。国际计算机视觉杂志，127（5）：512[30] Anastasiia Mishchuk，Dmytro Mishkin，Filip Radenovic和Jiri Matas。努力了解邻居的边界：局部描述符

下载后可阅读完整内容，剩余1页未读，立即下载