MQ-Net和MF-Net来预测RANSAC生成模型的质量、加速基本矩阵估计并提高准确性

186 浏览量更新于2023-10-26 收藏 779KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15744h的残差直方图n个块点-模型残差（px）线性（bx1）批次归一化Leaky ReLU线性（高x1）批次归一化Leaky ReLU学习在RANSACDaniel Barath，Luca Cavalli，Marc Pollefeys苏黎世联邦理工学院计算机科学系计算机视觉与几何组dbarath@ethz.ch摘要我们提出了模型质量网络，简称MQ-Net，用于预测RANSAC内部生成的模型的质量，例如基本矩阵的姿态误差。它取代了传统上使用的评分技术，例如，RANSAC的内点计数、MSAC的截断损失和MAGSAC++的基于边缘化的损失。此外，最小样本过滤网络（MF-Net）被提出用于早期拒绝可能导致退化模型或与场景几何形状不一致的最小样本，例如，由于手性约束。我们在来自公共真实世界数据集的54450个图像对上显示，所提出的MQ-Net在准确性方面大大优于最先进的结果。建议的MF-网络加速基本矩阵估计的五倍，并显着减少了基本矩阵估计时间，同时略有提高精度以及。此外，我们的实验表明，consen- sus最大化，即内点计数，是不是一个固有的良好措施的模型质量相对姿态估计。代码在https://github.com/danini/learning-good-models-in-ransac。1. 介绍1981年Fischler和Bolles提出的RANSAC（RandomSample Consensus）算法RANSAC及其变体已经成功地应用于广泛的视觉任务，短基线立体[40，42]，宽基线匹配[23，24，28]，运动分割[40]，几何图元检测[35]，增量和全局运动结构管道的姿态图初始化[3，33，34]，图像马赛克-ing [14]，并执行[2，19，46]，或初始化通用多模型拟合算法[17，27]。简而言之，RANSAC通常重复地选择数据点的最小子集并拟合模型，一个3D平面到三个点，一个基本矩阵到五个2D点对应，模型假设h网络函数残差的误差预测图1. MQ-Net：模型假设的质量预测。对应于三个2D-3D对应的6D姿态。模型的质量以其支持的基数来衡量，即，inlier数据点的数量。最后，最高质量的模型，抛光，例如，通过对所有内点进行最小二乘拟合或数值优化，返回。在本文中，首先，我们专注于提高RANSAC评分的学习为基础的方法。其次，我们通过学习拒绝可能导致退化解的最小样本来加速鲁棒估计。自RANSAC的发表以来，已经提出了许多修改来替换原始算法的组件。为了通过更好地模拟数据中的噪声来提高精度，研究了不同的模型质量计算技术例如，MLE-SAC [41]通过最大似然过程及其所有有益特性来估计质量，尽管是在关于点分布的某些假设下。在实践中，MLESAC结果往往优于普通RANSAC的内点计数，并且它们对手动设置的内点-离群点阈值不太敏感。[41]在《古兰经》中，模型误差乙状%点15745通过将常数损失分配给异常值而被模拟为截断的二次误差（即，具有大于内点-外点阈值的残差的点在MAPSAC [39]中，估计被公式化为根据最大后验概率估计数据分布参数和模型质量的在最近提出的MAGSAC++ [6]中，模型质量计算被公式化为一系列噪声尺度上的边缘化。假设内点残差具有χ2分布。这使得MAGSAC++比其他鲁棒估计器对内点-离群点阈值的敏感性要根据最近的调查[22]，MAGSAC++0.100.080.060.040.020.0025.0° -180.0°5.0° -10.0°1.0° -5.0°0.0° -0.1°2019 - 05 - 15 00：00：00点-模型残差（px）是目前最精确的鲁棒估计器。精细解释内点和离群点分布，trans-scoring技术通常将数据视为离群点均匀分布在场景中的混合物。然而，这种假设在真实场景中很少得到满足，其中异常值倾向于形成空间相干结构，从而使均匀性假设无效并误导评分函数[18]。虽然一致性最大化是计算机视觉中的一个积极研究领域[20，29，38]，但最大化内点数并不一定会找到所需的模型参数[41]。为了证明这一点，图2显示了从[36]的真实图像对每条曲线显示了10 000个姿态的平均残差分布，其误差落在图例中所示的区间内。例如，绿色曲线显示了从姿态计算的分布，误差在[1μ m，5μ m]之间。值为0。75接近。0的情况。04%。因此，0。04%的点数为0。75Sampson距离，用于具有此类误差的姿势。基本上，曲线下面积就是内围值比。请注意，平均而言，几乎完美的模型（红色曲线）比合理准确但不完美的模型（绿色）具有更少的内点这表明内点最大化不是模型质量的固有良好度量，至少在估计相对姿势和使用桑普森距离时。为了更好地对内点分布进行建模，我们提出了一种新的评分技术，该技术经过训练，可以从点到模型残差预测模型质量，而无需对实际分布进行明确的假设。为了构建然后学习的残差直方图，我们使用合理大的内点-离群点阈值，该阈值适用于广泛的场景，而无需进一步的超参数调整。由于这个阈值对于选择最终的内点集来说太大了，我们还提出了一个数据驱动的内点选择策略。该方法直接取代了现代RANSAC框架中的评分函数，VSAC [18].在现代RANSAC中，模型估计通常继续进行简并性和手征性测试以拒绝与场景几何不兼容的模型，如DEGENSAC [11]。一些模型，例如。单应性，允许图2. 共识最大化并不支持最佳模型。平均残差分布超过10000图像对。每条曲线显示相对姿态的残差分布，误差落在曲线名称中所示的区间内。垂直轴显示具有特定点到模型残差（Sampson距离;水平轴）的点的百分比。直接对最小样本执行检查，因此，如果样本没有通过测试，则通过跳过模型估计和质量计算来显著地加速鲁棒估计器。除了加速之外，拒绝退化模型也提高了准确性，因为这样的模型通常具有高的内点计数[8，18]。然而，对于对极几何估计，在估计基本或基本矩阵之前，不存在可以应用于最小样本的这种检查。我们提出了一个网络来预测一个最小的样本的概率，导致退化模型时，估计极几何。我们训练了一个非常轻量级的网络，它对点和图像都是不变的。它在模型估计之前有效地拒绝了最小样本，因此，导致显着的速度提高，同时也略微提高了精度。训练数据是从对可用训练图像的显式后模型退化检查自然合成的。该算法进行了测试的基本和essential矩阵估计54 450图像对PhotoTourism数据集。所提出的评分和样本过滤技术一起与现有技术（例如，中值误差是MAGSAC++误差的一半）。2. 模型质量网络在本节中，我们描述了模型质量网络（MQ-Net），该网络被提出用于从直方图中学习模型误差，该直方图是从比相当大的最大阈值更接近的点的点到模型残差构建的，例如，3个像素用于基本或基本矩阵估计。%点15746−- -∈∈∈∈最大值max{P × →（伊赫赫0.003525.0° - 180.0°（平均内值比= 0.04）1.0° - 5.0°（平均内值比= 0.49）0.0° - 0.001°（平均内值比= 0.19）0.00300.100.050.00250.080.040.00200.060.030.00150.00100.040.020.00050.020.010.00000.000.00点-模型残差（px）点-模型残差（px）点-模型残差（px）图3. 差、好和完美相对姿势的直方图和内点比率。10000个相对姿态实例的平均残差直方图，其中旋转和平移误差的最大值介于两者180度，（中）1度5、（右）0到0。001年。模型的平均内点比率写在标题中。请注意，中间图中中等准确姿势的内点比率高于右侧图中几乎完美姿势的内点比率。2.1. 残差直方图最先进的算法尝试将点到模型残差中的噪声建模为具有高斯[39，41]或χ2[4，5]分布。然而，我们发现，假设内点或离群点残差分布遵循真实世界场景中的特定模型是不自然的，因此必然导致次优解决方案。图2示出了残差（即，桑普森误差）分布平均超过10 000个相对姿态从PhotoTourism数据集。我们仅使用特定曲线的相对姿态，其中旋转和平移误差的平均值（与地面实况相比;以度为单位）在图例中显示的范围内。我们不是猜测实际的分布，而是从点到模型的残差中学习它。我们创建残差histograms与hN箱只使用残差小于一个相当大的内-外阈值最大。如[6]所示，参数最大值R+ 给定一个估计的模型 θRd （ dN ），例如，根据RANSAC内的最小样本，直方图的第i个区间i∈[0，h）中的值计算为1i（i+1）b=≤R（p，θ）<，我其误差在1μ m至5μ m之间。左边显示了不准确姿势的直方图。平均内点比率在标题中。虽然不准确的姿势很容易与准确的姿势区分开来，但有趣的是，合理的好模型的平均内点比率高于几乎完美的模型。这意味着纯粹基于内点比率的评分技术，例如。RANSAC和MSAC，无法找到最准确的相对姿态的性质。2.2. 数据生成为了生成训练和验证数据，我们首先用已知的地面真实相对姿态加载每个图像对。我们在两个图像中检测到8000个SIFT关键点，以获得合理密集的点云重建和精确的相机姿态[43]。我们将相互最近邻检查与标准距离比测试[21]相结合，以建立临时对应关系，如[43]中所建议的。为了能够了解准确姿势的残差看起来如何，我们计算地面实况1的直方图，并将其存储为预测目标为零。我们生成|P|Hp∈Ph10姿态与完美的旋转和平移矢量旋转一个随机旋转矩阵。此外，还增加了10个姿势，其中R：研发R+是残差函数，并且. 是Iverson括号，如果里面的条件成立，则为1，否则为0。bi的值基本上是残差落在区间I=imax，（i +1）max.图3中示出了相对姿态的示例直方图。直方图平均超过10 000个问题的实例。右边的图显示了近似零误差的姿态直方图-这些是我们直接从地面真实COLMAP[ 32 ]重建生成的在中期的一个，姿势是合理的准确，但不是完美的。完美的平移和旋转矩阵乘以随机旋转。最后，通过均匀随机抽取最小样本，估计隐含模型，计算其误差w.r.t.地面真实姿势，并存储它们的残差直方图。预测目标总是平移和旋转误差的平均值w.r.t.到地面真实姿势，除以180度。因此，它被归一化为区间[0，1]。从每个图像对生成总共121个样本我们发现，一般来说，分别学习旋转和平移错误比学习统一的分数更有效。这是预期的，因为由于投影几何学的性质[15]，平移和旋转中的误差不能从点到模型残差中分离出来。%点%点%点15747|× P →∈|i=1WPP∈≤≤P × →×P → P→{1}|n∈ P}我−∈我我我我我···I{|∈ I <$≤ }<$I· ··≤≤γ|P|γD {}2.3. 培训损失与网络由于能够在0和1之间对目标进行归一化，我们可以将问题视为二进制分类，其中0是准确的模型，1是不准确的模型。这个假设意味着条件密度pγ（y x）是如下的伯努利分布：p（y当y = 1时，x）=ψf γ（x） ;1−fγ（x），否则，其中fγ（x）是点估计，γ是模型参数，x是输入，我们得到一组=（xi，yi）M的训练数据，如前一节所述为了通过最小化负对数似然来训练网络，我们可以使用二进制交叉熵（BCE）损失，如下所示：-log p γ（y |x）= − [y log f γ（x）+（1 − y）log（1− f γ（x））]。然而，由于最终目标是在最准确的模型中区分最佳模型，因此学习准确模型的histogram比学习不准确模型更重要。因此，我们将损失函数修改为-logp γ（y| x，w）= −（1−f γ（x））[y log f γ（x）+（1 − y）log（1 − f γ（x））]。其中S：Rd×R是评分函数，α [0，1]是加权参数，f γ（θ）是给定模型θ的网络的误差预测。我们使用α = 0。因此，在我们所有的实验中，取预测分数和实际内围值比率的平均值。3. 最终模型抛光所提出的基于学习的评分技术在计算残差直方图时使用了相当宽的内点-离群点阈值λmax该阈值在实践中太宽，因此，它不太适合选择通过所提出的技术得分最高的模型的内点。从RANSAC的角度来看，这是相当有问题的，RANSAC总是以最小二乘拟合或对最终的内点集进行数值优化来结束。因此，我们提出以下策略来确定可用于模型重新估计的一组内点。假设我们给定一组初始内点， =pR（p，θ）<最大值p，点到模型残差函数R：RdR，评分函数S′（：Rd×R）=fγ（θ）和模型拟合函数F：×估计模型参数θ的R d从集合中进行R d点对应，其中×是的幂集。请注意，评分S′仅使用网络的预测，而不与内点比率相结合我们假设最大阈值λmax足够宽以容纳真实阈值0λmax（即，由噪声标度σ表示）。因此，我们的任务是解决其中w是加权参数[9]。按目标误差加权为（1 f γ（x））w会将高损失分配给与精确模型的直方图相似的直方图。这允许最大值∈[0，S′（F（I），P）（1）该网络可以更好地区分准确的模型，同时降低不准确模型的重要性。这是由以下事实激发的：如果例如在估计的旋转矩阵中的误差是80μ s或100μ s，则从估计的观点来看是可忽略的。相比之下，将高分分配给具有10分之一误差的旋转，将低分分配给具有10分之一误差的旋转是极其重要的。我们使用一个相当简单的网络，使所提出的技术是快速的。为了做到这一点，我们使用大小为s1的n1N个线性层，每个层后面都有一个1D批量归一化，一个泄漏ReLU和一个dropout层，参见图1。由于将问题视为二元分类，我们选择sigmoid函数作为最后一层。根据我们的测试，w=4，nl=5，SL=1024导致准确的结果，同时快速。有趣的是，我们发现，我们的学习分数与传统的内围值比率的混合比单独使用的两个分数更好，这表明每个分数都提供了另一个没有提供的区分信息。因此，最终模型得分计算如下：S（θ，P）=α<$p∈P<$R（p，θ）<<$max）+（1−α）f（θ），哪里n= p pR（p，θ）ϵ-是的让我们认识到，导致不同的时间间隔是有限的。该阈值设置了与interval[0，max]内的点到模型残差集一致的阈值。让我们递增地对来自I的点的残差排序为0 = r1=···= rm≤ r m+1≤···≤ Rm≤r|我|其中m是最小样本量。通过逐步增加阈值，找到了最大化S′（F（λ））的阈值，其中λ0=rm+1，λ1=rm+2，，|我|−m=r|我 |并且因此将这些点一个接一个地添加到最终的内点集合。最佳阈值是其中来自隐含内点集的模型的预测得分θ= F（θ）最大化学习得分S′（F（θ））的阈值。算法在Alg.1.一、我们做两个重要的笔记。一、评分功能S′ 不能随内点集的大小单调增加，例如如在普通RANSAC的内围计数中那样。否则，最佳值为最大值。这就是我们为什么用S′而不用S的唯一理由。其次，如果我们将点一个接一个地包括到当前内点集中，估计过程可能会很因此，优选地将残差集划分为k15748RANSAC评分+ LSQ MSAC评分+ LSQ MAGSAC++评分+ LSQ MQ-NetMQ-Net + MF-Net←我←P我联系我们|≤∈I}→|我|−∈算法1最终模型拟合。输入：Ir1≤···≤ r|我|-内点残差;δ-步长输出：θθ1：k←m+1，s←0，I←2：当k≤|我|做3：kpR（p，θ）R Kp第四章：θ kF（k）d模型估计第五章：SS（θ k，）d评分计算6：ifs >sthend新的迄今为止最好的模型7：s←s，I←Ik8：k←k+δ d增加样本量基础矩阵估计0.50.40.30.20.12 4 6 8 10成功阈值（度）0.70.60.50.40.30.20.12 4 6 8 10成功阈值（度）图 4. 召回率曲线示出了具有 RANSAC 、 MSAC 和MAGSAC++评分的普通RANSAC的召回率（垂直轴），随后是对最终组内点的最小二乘拟合;具有所提出的MQ-Net的RANSAC的召回率，其中使用MF-Net过滤和不组和做k而不是m估计。我们在实验中使用k = 10。在该算法中，除了最大阈值之外，没有使用其他阈值。4. 最小样本滤波网络在大多数估计任务中，最小样本往往导致退化模型或隐含不可能的潜在场景的模型。例如，这种情况是当单应性表示在两者之间翻转的平面时视图，即，第二个摄像头从后面看到它。对于单应性，这种情况可以通过简单地检查最小样本来识别。然而，没有这样的解决方案，发现退化配置之前epipolar几何估计。像DEGENSAC [11]和QDEGSAC[13]的现有技术总是需要执行昂贵的对极几何估计来识别退化的最小样本。在实践中，这意味着在识别退化情况之前不必要地估计模型和计算质量在本节中，我们提出了MF-Net（最小样本过滤网络），这是一个预测最小样本导致退化模型的概率的网络。这与之前训练网络进行离群值拒绝的工作[7，25，31，45]有根本的不同：虽然它们对可用对应关系的完整上下文进行编码以过滤不符合相机运动的内容，但我们反而对最小样本进行评分以预测其退化性，而不依赖于底层运动。这导致了在不学习运动先验的情况下使用极其轻量级的模型的可能性和要求，这将阻碍跨数据集的泛化。我们将MF-网定义为MF ω：R4m[0，1]，一个参数为ω的参数函数，它将一个具有m个对应的极小样本xR4m虽然这个问题有一个精确的解析解，但它需要昂贵的模型估计和质量计算，我们希望用一个便宜得多的概率解来代替。MF-Net需要遵守对应排序的不变性和图像按架构排序的不变性，而与学习的参数ω无关。我们从PointNet [30]中汲取灵感，通过使用共享MLP独立处理每个对应关系，并使用全局最大池化操作在对应关系中共享信息，实现点排序不变性。另一方面，图像退化仅跨越两种可能性，因此我们在预测最终退化分数之前在组合和最大池特征上运行我们的主干。补充材料中显示了该体系结构。我们训练MF-Net将最小样本分类为退化或有效，并通过对来自真实图像对应的随机最小样本运行经典退化测试来产生训练数据。我们使用具有双逆频率加权的二进制交叉熵损失和平衡类，使得输出概率表示与训练集中退化样本的频率无关的伯努利分布的参数[44]。我们的目标是在不明显损失准确性的情况下实现加速，因此网络置信度的最佳过滤阈值不是一个微不足道的选择。因此，我们通过观察结果的准确性和速度来调整训练集子集的阈值，如第5.3节和图所示。五、RANSAC评分+ LSQ MSAC评分+ LSQ MAGSAC++评分+ LSQ MQ-NetMQ-Net + MF-Net召回召回15749对于基本矩阵，我们训练网络识别以下情况。（1）最小求解器返回至少一个实数解。（2）本质矩阵至少有m+1个内点，其中m=5是最小样本量。(3)至少有一个姿势，从ES分解-估计的基本矩阵，它三角测量所有correspons-dences从最小样本在两个摄像机前。对于基本矩阵，我们检查H-退化的最小样本[11]以及与本质矩阵相同的标准5. 实验在本节中，我们将所提出的基于深度学习的评分技术与原始RANSAC内点计数[12]、广泛使用的MSAC[41]的截断二次损失和最先进的MAGSAC++ [6]方法进行了比较。为此，我们实现了简单的RANSAC，并将最终模型重新估计步骤应用于所有找到的内点。然后，我们用MSAC，MAGSAC++和所提出的RANSAC的评分函数替换该 RANSAC 的评分函数。对于RANSAC、MSAC和MAGSAC++，我们应用LSQ拟合，然后应用Levenberg-Marquardt [26]数值优化，从所有发现的内点估计最终模型参数。对于建议的评分，我们运行第3节中提出的算法。置信度设置为0。999，最大迭代次数为10000。所提出的基于学习的方法适用于2048大小的批次。生成的直方图由100箱估计基本矩阵和225箱基本矩阵。通过使用SNN比率阈值0来过滤匹配。9 .第九条。所有方法都使用PROSAC采样器[10]对按SNN比排序的对应性进行采样。为了测试这些方法，我们使用了2020年CVPR教程RANSAC中的问题和数据集[1]。这些数据来自CVPRIMW 2020摄影旅游挑战赛。使用RootSIFT特征和相互最近邻匹配获得对应关系为了计算精度，我们使用测试集中的所有场景，每个场景包含4950个图像对。因此，在总共54450个图像对上计算精度。所提出的基于学习的技术在所提供的训练集上进行训练和验证。对于RANSAC，MSAC和MAGSAC++，我们使用[1]中调整的超参数。我们测试了三个版本的MQ-Net，这取决于它所训练的问题我们训练它的基本矩阵（F），本质矩阵估计（E）和这两个问题的simul-simulation（EF）。在EF的情况下，相同的网络运行的基本和本质的矩阵估计。不同的是，MF-Net要么在基本矩阵上训练，要么在本质矩阵上训练。mAA@10μ↑中位值（）↓时间 (ms)↓模型打分R不EURRϵtAVGMEDRANSAC [12]0.640.322.1911.201.122.10MSAC [41]0.630.312.3912.141.353.88MAGSAC++[6]0.640.312.3312.251.353.95MQ-Net（E）0.620.292.2915.099.734.74MQ-Net（F）0.660.341.8310.988.543.82MQ-Net（英、法）0.700.351.6710.458.423.75MQ-Net + MF-Net0.700.361.6310.201.761.65表1. 基本矩阵估计所报告的值是旋转和平移mAA@10μ s分数;以度为单位的中值误差（gR和gt）;以及以毫秒为单位的运行时间。MQ-Net（E）和（F）分别在基本和基本矩阵估计上训练MQ-Net（E F）在这两个问题上都进行了训练。最后一行显示通过MF-Net过滤的结果。5.1. 基础矩阵估计为了估计基本矩阵，我们使用7点算法[15]作为最小解算器，使用归一化的8点算法[16]从非最小样本进行估计。表 1 报告了 10° C 时的旋转和平移平均平均精度（mAA）;以度为单位的中位误差（mRR和mdt），以及整个稳健估计的运行时间（t）（以毫秒为单位）。mAA分数计算为在10μ m处裁剪的召回曲线下的面积。与传统技术相比，MQ-Net的所有三种变体都显著提高了准确性。最好的结果是通过同时对这两个问题进行训练的网络来实现的。中值旋转误差是MAGSAC++误差的72%。中值翻译误差减少了2. 05度。MF-Net能够将该方法加速五倍，同时提高精度。MQ-Net与MF-Net相结合的方法比传统方法更快、更准确召回率曲线如图4（顶部）所示。成功阈值（水平轴;以度为单位）定义了被认为是准确的相对姿态的误差上限。误差计算为旋转和平移误差的最大值。垂直轴示出了通过使用特定成功阈值而被认为是准确的姿势的比率5.2. 本质矩阵估计为了估计基本矩阵，我们使用5点算法[37]作为最小解算器。在最终的模型抛光阶段，我们使用Levenberg-Marquardt数值优化[26]优化姿态，以最大限度地减少姿态误差。表 2 报告了整个鲁棒估计过程的旋转和平移mAA@10μ s分数、以度为单位的中值误差（μR和μt）以及以毫秒为单位的运行时间（t）。所提出的算法的所有三个变体导致比传统技术更好的准确性。同样，最好的结果是由在两个方面训练的网络实现的。15750∈我mAA@10μ↑中位值（）↓时间（ms）↓模型打分R不EURRϵtAVGMEDRANSAC [12]0.700.461.765.411.641.61MSAC [41]0.710.471.675.211.942.73MAGSAC++[6]0.710.471.645.031.962.69MQ-Net（E）0.760.610.992.567.435.94MQ-Net（F）0.760.610.982.516.625.43MQ-Net（英、法）0.780.620.942.405.383.75MQ-Net + MF-Net0.790.620.912.344.333.35表2.基本矩阵估计所报告的值是旋转和平移mAA@10μ s分数;以度为单位的中值误差（gR和gt）;以及以毫秒为单位的运行时间。MQ-Net（E）和1.41.21.00.80.60.40.20.0置信阈值（econ f）（F）分别在基本和基本矩阵估计上进行训练。MQ-Net（EF）在这两个问题上都进行了训练最后一行显示通过MF-Net过滤的结果。问题中值误差和mAA@10μ m均大幅改善。该算法的中位误差是传统算法的一半。MF-Net显著加快了鲁棒估计的速度，同时也提高了准确性。我们认为，早期的样本拒绝起着更大的作用，在更困难的问题与更高的比例离群最小样本，这是基本矩阵相比，本质矩阵的情况。我们证实了这一说法与补充，在那里我们观察到加速到一个数量级，在较硬的设置进一步的实验。召回曲线在图的底部4.第一章成功阈值（水平轴;以度为单位）定义了什么样的错误被接受为成功。该误差是旋转和平移误差的最大值。垂直轴是使用特定成功阈值被认为是成功的姿势5.3. 样本剔除我们从[1]的训练集中调整了4950个场景Notre DameFront Facade图像对的MF-Net我们比较了传统的算法，运行手性和退化检查后，模型估计;和提出的一个，首先运行MF-Net，估计模型从幸存的样本，最后，应用传统的检查估计的模型。置信度阈值conf[0，1]用于拒绝预测置信度小于conf的样本。没有深度过滤的传统算法在WPconf=0时运行。对于这个实验，我们没有通过SNN比率进行过滤。图图5示出了所提出的技术和传统技术的结果的比率作为WGCconf的函数。显示的属性是旋转（RORR）和平移（RONT）错误和运行时间。垂直线的位置使过滤达到最佳精度。对于基本矩阵，将阈值设置为0。8导致几乎一个数量级加速。准确度平均提高20%图5. MF-净阈值影响。旋转（gR）和平移（gt）误差以及运行时间除以gconf=0的情况，并绘制为基本（E）和基本（F）矩阵估计的滤波置信度阈值g conf的函数。情况gconf=0意味着不应用深度滤波。垂直线的位置使阈值达到最佳精度。对于基本矩阵，导致最准确结果的阈值为0。7，这将运行时间减少到近五分之一。准确度平均提高了17%。5.4. 消融研究：直方图大小我们测试所提出的评分方法与不同大小的直方图。基本矩阵估计的平均和中位数旋转和平移误差以及运行时间报告见表3。我们测试了在基本或基本矩阵估计上训练的网络，以及同时在这两个问题上训练的网络。直方图大小在第一列中。mAA评分一起增加，中位误差与直方图大小成反比- 直方图越密集，误差越低。最好的结果是由2500箱组成的直方图。请注意，虽然可以使用更大的直方图运行，但它既占用内存又耗时。我们对基本矩阵估计运行相同的测试mAA评分、中位旋转和平移误差以及运行时间报告见表4。同样，我们测试了在E或F估计上训练的MQ- Net，并且同时测试了这两个问题。有趣的是，直方图大小与基本矩阵估计相比对结果有相反的影响。直方图越小，结果越好。通过100或225个箱获得最佳结果。在测试中，我们选择了225，因为它的平均结果比使用100个箱更准确。5.5. 消融研究：模型重新估计E和F估计结果分别见表5和表6。测试了四种策略：没有最终模型抛光;使用所有比最大值更接近的内点;使用第3节中提出的算法，不对残差进行分组（Ino）和10组（I10）。（F）时间）eR（Fet（F）（E）et（E）eR（E比15751我我mAA@10μ↑中位值（）↓时间 (ms)↓LSQR不EURRϵtAVGMEDW/O0.550.233.5716.786.833.13我的最大0.670.312.1811.357.043.21我在1100.740.700.380.361.331.639.0310.2028.498.427.793.75表3.用于E估计的直方图大小。旋转和平移-lationmAA@10分;中位数误差（gR和gt;单位为ms）;以及运行时间（单位为ms）被绘制为直方图大小的函数。mAA@10μ↑中位值（）↓时间 (ms)↓在ER不EURRϵtAVGMED1000.620.292.2915.095.942.672250.610.272.4415.575.962.726250.590.262.5816.166.092.7316000.560.233.3517.356.382.8625000.520.214.0918.346.782.99训练F1000.660.341.8310.988.092.442250.660.341.8411.228.453.756250.660.321.8611.778.563.9016000.630.322.0612.098.693.9825000.650.301.9612.099.174.20在E F上训练1000.700.351.6910.298.083.662250.700.351.6710.458.423.756250.690.341.7610.688.123.7216000.640.292.0610.995.943.9825000.640.292.0111.149.164.20表4.用于F估计的直方图大小。旋转和平移-lationmAA@10分;中位数误差（gR和gt;单位为ms）;以及运行时间（单位为ms）被绘制为直方图大小的函数。在没有重新拟合的情况下，结果纯粹是通过所提出的技术获得最佳分数的最小样本模型的准确性，而没有任何LSQ重新估计模型参数。当模型从所有低于最大残差的内点重新估计时，结果如预期的那样不准确。这证明需要一个自适应的内点选择策略。在不对残差进行分组的情况下应用所提出的策略是非常准确的，但比其他变体慢五倍。将残差代入表5. 基本矩阵的模型再估计。罗塔-在10分的情况下，mAA和翻译mAA;中位数误差（gR和gt;以度为单位）;以及基本矩阵估计的运行时间（以ms为单位）。具有不同最终重新拟合策略的信息：无抛光（w/o）;重新拟合所有比最大值更接近的内点threshold（cmax）; re-用建议的技术拟合，不对残差进行分组（Ino）;建议的方法有10个组（I10）。mAA@10μ↑中值（）↓时间 (ms)↓LSQR不EURRϵtAVGMEDW/O0.660.452.225.474.252.17我的最大0.160.0730.0934.294.252.17我在1100.790.780.620.620.990.912.452.3427.975.3810.383.73表6. 本质矩阵的模型再估计。值班表-在10分的情况下的mAA和翻译mAA;中位误差（gR和gt;以度为单位）;以及基本矩阵估计的运行时间（以ms为单位）。采用不同的最终重新拟合策略：无抛光（w/o）;重新拟合所有比最大值更接近的内点。阈值（cmax）;使用所提出的技术重新拟合，而不对残差进行分组（Ino）;建议的10组方法（I10）。10组，因此，仅进行10次非最小模型估计导致类似的准确性，同时速度快。6. 结论我们提出了两种新的基于学习的方法MQ-net和MF-Net，通过学习找到具有小误差的模型来提高鲁棒估计精度，并通过早期拒绝最小样本来加快速度MQ-Net，加上一个新的自适应模型重新估计策略和MF-Net，导致结果优于国家的最先进的大幅度，同时运行速度比其准确性较低的替代品。MQ-Net使用一个单一的模型，在基本和基本矩阵估计上进行联合训练，在数千个图像对上对这两个问题产生了最准确的这些算法可以直接插入到最先进的RANSAC流水线中，VSAC[18].此外，我们证明了一个有趣的属性，这种强大的估计问题：共识最大化并不一定导致最准确的相对构成。致谢。这项工作得到了苏黎世联邦理工学院博士后奖mAA@10μ↑中值（）↓时间 (ms)↓在ER不EURRϵtAVGMED1000.750.601.052.653.522.302250.760.601.032.693.632.386250.760.611.002.613.752.4716000.760.610.992.564.792.5925000.760.611.002.624.172.76训练F1000.750.601.012.604.363.012250.750.601.022.594.503.036250.750.611.012.584.543.1316000.750.610.992.565.073.7625000.760.610.982.515.403.76在E F上训练1000.770.620.952.394.353.012250.770.620.962.444.493.036250.770.620.962.474.493.1116000.770.620.952.455.073.5125000.780.620.942.405.383.7515752学金和谷歌重点研究奖的支持。15753引用[1] D. Barath，T-J.Chin，O.Chum，D.米什金河Ranftl和J.马塔斯RANSAC在2020年教程。在CVPR，2020年。六、七[2] D. Barath和J. Matas。Progressive-X：高效、随时、多模型拟合算法。在ICCV，2019年10月。1[3] D. Barath，D.米什金岛艾哈特岛Shipachev和J. Matas。全局SfM 的有效初始姿态图生成。在 CVPR中，第14546-14555页，2021年。1[4] D. Barath，J. Noskova，M. Ivashechkin，and J. Matas.MAGSAC++，一个快速、可靠、准确的鲁棒估计器。在CVPR，2020年。3[5] D. Barath，J. Noskova，and J. Matas. MAGSAC：边缘化样本共识。在CVPR，2019年。https://github.com/danini/magsac. 3[6] D. Barath，J. Noskova，and J. Matas.边缘化样本共识。IEEE TPAMI，2021。二三六七[7] E. Brachmann和C.罗瑟Neural-guided RANSAC：学习在哪里采样模型假设。在CVPR中，第4322-4331页，2019年。5[8] M. Bujnak，Zu.Kukelova和T.帕杰拉多视点场景重建中基于投票的鲁棒焦距在ACCV，第13-24页。Springer，2009. 2[9] Nontawat Charoenphakdee ， Jayakorn Vongkulbhisal ，Nut- tapong Chairatanakul，和Masashi Sugiyama.关于类后验概率估计的焦点损失：理论观点。在计算机视觉和模式识别会议上，第5202-5211页，2021年。4[10] O. Chum和J.马塔斯与PROSAC渐进样本一致性匹配在CVPR中。IEEE，2005年。6[11] O. Chum，T. Werner，and J. Matas.不受主平面影响的双视图几何体估计。在CVPR中。IEEE，2005年。二、五、六[12] M. A. Fischler和R. C.波尔斯随机样本一致性：模型拟合的范例及其在图像分析和自动制图中的应用。ACM通讯，1981年。一、六、七[13] J-M Frahm和Marc Pollefeys。（准）简并数据的Ransac（qdegsac）。在CVPR，第1卷，第453IEEE，2006年。5[14] D. Ghosh和N.卡博奇图像拼接技术综述。视觉传达和图像表示杂志，2016年。1[15] R. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，2003年。三、六

下载后可阅读完整内容，剩余1页未读，立即下载