SfM问题中基于深度学习的方法的改进及优势分析

120 浏览量更新于2024-01-22 收藏 1.44MB PDF 举报

深度学习

3D重建

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8953再论深层双视运动结构*王建元1，*钟怡然1，戴玉超2，Stan Birchfield3，张凯浩1，NikolaiSneianski3，李宏东11澳大利亚国立大学，2西北工业大学，3英伟达摘要双视图运动恢复结构（SfM）是三维重建和可视化SLAM的基础。现有的基于深度学习的方法通过从两个连续帧恢复绝对姿态尺度或从单个图像预测深度图来公式化该问题，这两者都是不适定问题。相比之下，我们建议通过利用经典管道的适定性来我们的方法包括：1）预测两帧之间的密集对应的光流估计网络; 2）从2D光流对应计算相对相机姿态的归一化姿态估计模块;以及3）尺度不变深度估计网络，其利用对极几何来减小搜索空间、细化密集对应并估计相对深度图。大量的实验表明，我们的方法优于所有国家的最先进的两个视图SfM方法的KITTI深度，KITTI VO，MVS，场景11，和SUN3D数据集在相对姿态和深度估计的一个明确的Margin。1. 介绍双视点运动恢复结构（SfM）是从单目序列的两帧图像中估计摄像机运动和场景几何形状的问题。作为3D重建和视觉同步定位与映射（vSLAM）的基础，这个重要的问题在包括自动驾驶、增强/虚拟现实和机器人技术在内的广泛应用中找到了出路双视图SfM的经典方法遵循首先匹配两个图像之间的特征/边缘的标准管道，然后从这些匹配中推断运动和几何形状[8，22，30，14，12，11，47，52]。当成像条件良好时（恒定照明、漫射和刚性表面以及非重复视觉纹理），匹配-* 表示平等贡献，按字母顺序排列Yiran为通讯作者。当Yiran在华盛顿州雷德蒙德的NVIDIA实习时，工作已经完成了一部分。过程是良态的。而且，一旦找到匹配，就可以恢复运动和几何形状。几十年来，在这一领域工作的研究人员通常需要至少两个视图，并且他们的方法仅恢复了相对相机运动和相对场景几何形状（即，形状达到未知比例因子）。在没有场景中的尺度或可识别对象的先验知识的情况下，不可能从单个视图恢复场景几何[18，48，44，25]。类似地，不可能从场景的两个视图推断绝对比例[17]。随着深度学习的兴起，一些研究人员最近探索了基于神经网络的双视图SfM解决方案。这些方法中的大多数属于两类之一。在第一类中，我们称之为类型I，该问题被视为单目深度和姿态回归的联合优化任务[53，46，32]。使用两个网络：一个从单个图像估计最大深度，另一个从两个输入图像预测最大这两个网络在推理过程中独立地起作用。在第二类中，表示为类型II，缩放的相机姿态和缩放的深度从图像对推断，并且经由多视图几何结构迭代地细化[39，35，36]。虽然深度学习的力量允许I型和II型解决方案实现令人信服的结果，但我们注意到它们的公式试图解决上述不适定问题之一在本文中，我们重新审视了深度学习在双视图SfM中的应用我们的框架遵循经典的SfM流水线，即在图像帧之间匹配特征以产生相对的相机姿态，然后从该姿态估计相对深度通过在经典管道中结合深度学习的优势，我们能够避免不适定性，这使得我们的方法能够在多个基准测试中获得最先进的结果。我们的方法和现有管道之间的比较如图1所示。我们的方法首先使用深度光流网络[50，40]估计两帧之间的密集匹配点，从中采样一组高度可靠的匹配，以便通过GPU加速的经典五点算法[24]与RANSAC [13]计算相对相机姿势由于这些8954我我我我1(a)类型(c)我们的方法规格化摄影机姿势��光学流估计器目标图像光流匹配掩蔽2011年，2011年参与者（��2011112002年，2002年参与者（��Y，22⋯目标图像��乌恩，乌恩参与者（��Y， Y）nn姿势网单帧深度预测5点算法RANSAC参考图像深度网归一化深度规格化摄影机姿势，尺度不变深度模块本征矩阵E(b)类型参考图像缩放相机姿势，深度假设平面规格化摄影机姿势：正、反目标图像成本量归一化深度姿势网光束法平差尺度不变匹配骨料软参数图像对参考图像缩放的深度比例不变深度模块深度网图1. 我们的方法和以前的深单目结构从运动的方法之间的比较。我们制定相机姿态估计作为一个二维匹配问题（光流）和深度预测作为一个一维匹配问题沿极线。在相比之下，先前的方法遭受不适定性（在类型I的情况下是单帧深度预测，或者在类型II的情况下是缩放估计）。相对相机姿态具有尺度模糊性，估计的深度也遭受尺度模糊性。因此，我们认为，为了监督估计的尺度模糊深度与（缩放的）地面真实深度，我们提出了一种尺度不变的深度估计网络，很好地理解，相机姿态以及深度图可以单独从图像匹配点计算，而无需任何其他信息[26]。1给定一组图像匹配点，坐标，x=100xy1且x′=x′y′Σ⊤我我我我我我具体损失，以估计最终的相对深度图。由于深度估计网络的搜索空间由于摄像机姿态而被减少到极线，因此它比直接三角测量光流产生更高的精度利用已知的摄像机固有矩阵K，两视图SfM任务是找到摄像机旋转矩阵R和平移向量t以及对应的3D齐次点Xi，使得：与估计的摄像机姿势。我们展示了EF-通过在KITTI深度上的姿势和深度估计中xi=K I|0ΣXix′=K EURR|tXii.（一）KITTI VO、MVS、Scenes11和SUN3D数据集。我们的主要贡献归纳如下：1) 我们重新审视了深度学习在SfM中的使用，并提出了一个新的深度双视图SfM框架，该框架避免了不适定性。我们的框架结合了最好的深度解决该问题的经典方法由三个连续步骤组成：1）从图像匹配点xi和x′计算本质矩阵E; 2）从本质矩阵E提取相对相机姿态R和t; 3）用三角形法对匹配点xi和x′进行三角剖分学习和古典几何学2) 我们提出了一个尺度不变的深度估计模块来处理地面真实深度和估计深度之间的不匹配尺度。3) 我们的方法优于所有以前的方法在各种基准的相对姿态估计和深度估计下的两个视图SfM设置。2. 双视图几何：回顾与分析相机姿态以获得3D点X1。这个管道中的所有步骤都是适定问题。基本矩阵E可以使用以下等式用至少5个匹配点求解：x′ <$K− <$EK−1xi= 0<$i。（二）R和t可以使用矩阵分解从E计算，使得E=SR，其中S是斜对称的矩阵，R是一个双线性变换矩阵。对于ny非零，双视图SfM的任务是估计相对于比例因子α，αt×R=αt R=αE，×动态相机姿势和密集的深度图，合适的单目镜框。在经典的几何视觉中，它是1不包括退化的情况。8955有效的解决方案，相对相机位姿估计存在尺度模糊可以通过具有全局尺度模糊性的三角测量来计算3D点Xi上述方法假设所有图像点都完美匹配的理想情况。为了处理真实场景中的不匹配点，研究人员已经建立了一个经典的标准管道来估计来自两个连续帧的几何信息[17]。2.1. 经典标准管道经过数十年的发展和完善，经典标准流水线[17]被广泛用于许多传统的最先进的SfM和vSLAM系统[30，33，1]。由于几乎所有的几何信息都可以从图像匹配点中恢复，因此关键是恢复一组（稀疏或密集）精确的匹配点。为此，流水线通常从稀疏（或半密集）不同特征提取和匹配开始以获得稀疏匹配点，因为稀疏匹配比密集匹配更准确。为了进一步细化匹配结果，RANSAC方案[13]用于过滤不适合多数运动的匹配点。这些异常值通常包括场景中的不匹配和动态对象。在从细化的匹配点检索相机姿态之后，可以经由三角测量来计算这些点的深度。在一些情况下，如果期望估计密集深度图而不是稀疏3D点，则可以使用多视图立体匹配算法来恢复具有估计的相机姿态的密集深度因此，这条管道的致命传统的匹配算法通常在非朗伯、模糊和无纹理的表面上精度低。然而，深度学习可以在很大程度上缓解这种短缺[34，37，40，51，6，23]。有了足够的训练数据，这样的网络就可以学会处理这些场景。在我们提出的方法中，我们利用深度光流网络[40]来计算这些对应关系。2.2. 基于深度学习的方法如前所述，双视图SfM需要估计相机姿态和密集深度图。现有的基于深度学习的方法将问题表述为姿势和单目深度回归（类型I）或姿势回归和多视图立体匹配（类型II）。我们在下面分析这两种方法。I型方法由单目深度估计网络和姿态回归网络组成。双视图几何约束被用作自监督信号以正则化相机姿态和深度图[53，46，28，5，2，32]。因此，这些方法大多是自我监督的.由于单视图深度估计是固有的不适定，如前所述，这些方法是有趣的，在本质上受限于他们能不能很好地解决这个挑战问题。它们依赖于训练数据中的先验知识，仅在给定单个图像的情况下预测深度。此外，由于双视图几何约束仅适用于静止场景，因此SfMLEarner [53]模拟估计可解释性掩模以排除动态对象，而GeoNet [46]利用光流模块通过比较刚性流（由相机姿势和深度图计算）与非刚性流（由光流模块计算）来屏蔽这些离群值。其他方法专注于实现更鲁棒的损失函数，例如ICP损失[28]，运动分割损失[32]或极线损失[5]。类型II方法需要两个图像帧来估计测试时的深度图和相机姿态（与类型I方法不同，类型I方法从单个帧估计深度）。大多数有监督的深度方法都属于这一类。作为一个PI-DeMoN [39]连接一对帧，并使用多个堆叠的编码器-解码器网络来回归相机姿势和深度图，隐含地利用多视图几何。[35，7，41，36]通过用明确实施多视图几何约束的优化层替换相机姿态和深度图之间的通用层，例如，BANet [35]用一组深度基[49]参数化密集深度图，并将捆绑调整作为可扩展层强加到网络架构中。Wang等人。 [41]使用回归相机姿势来约束光流的搜索空间，通过三角测量估计密集的深度图DeepV2D [36]分离了相机姿态和深度估计，通过最小化几何重投影误差迭代更新它们。类似地，DeepSFM [42]从DeMoN [39]启动其姿态估计，对附近的姿态假设进行采样，以捆绑调整姿态和深度估计。然而，在地面实况深度作为监督的情况下，它需要姿态回归模块以绝对比例估计相机姿态，这通常不可能仅从一对或一系列单目帧[17]。为了缓解这种不适定问题，他们利用数据集先验和场景的语义知识来估计绝对规模。3. 方法在本节中，我们提出了一个新的深度双视图SfM框架，旨在解决经典SfM 管道的致命弱点（即，匹配）。我们的方法能够找到更好的匹配点，因此更准确的姿势和深度图，特别是对于无纹理和遮挡区域。同时，它遵循经典方法的智慧，以避免不适定问题。通过结合这两个世界的最好的，我们的方法能够实现最先进的结果，优于所有其他国家，8956NX我们的方法有明显的优势。遵循经典的标准流水线[17]，我们将两帧运动恢复结构问题公式化为三步过程：1）匹配帧之间的对应点，2）估计基本矩阵，从而估计相对相机姿态，以及3）估计未知比例因子的密集深度图。这些步骤以及用于训练的损失函数将在以下小节中详细描述。3.1. 光流估计作为计算机视觉中的一个基本问题，光流估计已经被广泛研究了几十年[20]。随着深度学习的最新进展，深度光流方法现在主导各种基准[16，4]，并且可以处理大位移以及无纹理、遮挡和非朗伯表面。在我们的框架中，我们利用最先进的网络DICL-Flow [40]来生成两个连续帧之间的密集匹配点。该方法使用位移不变的匹配成本学习策略和soft-argmin投影层，以确保网络学习密集的匹配点，而不是图像流回归。该网络在合成数据集（ FlyingChairs [9] 和 FlyingThings[29]）上进行了训练，以避免数据泄漏，即，网络没有在任何测试数据集上训练。3.2. 本质矩阵估计在纹理丰富的区域进行管理。在掩模内的位置处的光流匹配由具有GPU加速的RANSAC过滤在检索基本矩阵E之后，使用矩阵分解来恢复相机姿态（R，t3.3. 尺度不变深度估计一旦我们恢复了最大比例的相对相机姿态，利用来自光流估计的密集匹配点，我们就可以通过执行三角测量来计算密集深度图。然而，这种方法不会利用极线约束。因此，我们通过将搜索空间约束到从相对相机姿势计算的极线来再次执行匹配。这个过程类似于多视图立体（MVS）匹配，但有一个重要的区别：我们在推理中没有绝对尺度。对于最大比例的相对姿态，如果我们要用地面真实深度直接监督深度估计网络，则在相机运动的比例和深度图的比例之间将存在失配。以前的方法。为了解决这个悖论，以前的方法要么使用尺度不变损失[10]，要么用深度网络回归绝对尺度[39，36，42]。标度不变损失ΔSI被定义为：- 是的Σ2SI=log（dx）−log（dX传统的估计相机姿态的方法是-哪里dx和dx是的地面真相和 es-在两个图像帧之间进行匹配的目的是匹配稀疏点，例如，，SIFT特征[27]。然后，给定一组匹配点，估计部门h.，respectiv ely，η（d，d）=1log（dx）−log（dx）在像素X处;以及得双曲余切值. N是xParticix'和相机固有矩阵K，本质矩阵[26]E可以从五点算法恢复Rithm [31，24]。通过将基本矩阵分解为E=[t]×R时，旋转矩阵R和平移向量t可以恢复到尺度模糊度。通常，使用鲁棒拟合技术（如RANSAC [13]）过滤匹配点中的离群值RANSAC算法从随机抽取的最小匹配集中重复估计本质矩阵，并在一定准则下选择匹配点比例最大的解。与之前所有基于深度学习的方法从输入图像中回归相机姿势不同，我们使用匹配点来计算相机姿势。关键问题是：如何鲁棒地从光流中过滤噪声密集匹配，以便只保留高质量的匹配？有多种方法可以过滤掉不可靠的匹配点，例如流不确定性、一致性检查或使用网络回归掩码。从经验上讲，我们发现简单地使用SIFT关键点位置（注意，我们不使用SIFT匹配）来生成掩码在所有数据集中都能很好地工作。假设是光流更快，像素数，测量两个深度图之间的平均对数差。当用于直接深度回归流水线时，尺度不变损失为网络学习引入了模糊性，因为网络可以为每个样本输出具有不同尺度的深度图。这种损失可能会妨碍平面扫描的原理，其中期望跨序列的帧具有一致比例的深度图。平面扫描[21]是执行极线约束的过程，其将搜索空间从2D减小到1D。平面扫描供电网络在训练和测试过程中需要一致的规模。例如，如果我们用绝对尺度训练一个网络，并用归一化尺度测试它，它的性能将显著下降（我们在4.4节中提供了一个消融研究）。由于不可能从两个图像中恢复绝对尺度，因此一些先前的方法[39，36，42]使用网络来回归尺度以模仿推理中的绝对尺度这种策略稍微简化了规模悖论，代价是使问题再次不适定。比例不变匹配。为了解决这一悖论并保持问题的良定性，我们提出了一个尺度不变的8957LLl=1=10如果地面实况摄像机姿态（R，t）和地面实况深度dx 都给定，我们还可以通过计算 2D 点的刚性流ux<$x′−x来更新光流网络x：x′K[R|t]（K−1x）dxx.（七）= 1.25图2.不同比例因子在平面化过程中的作用1刚性流可以用作监督信号，使用估计的光学流来计算距离：扫对于某个像素，我们将其六个深度hypothe可视化-在目标帧中使用不同的颜色。作为比例因子α，变化，抽样分布不同。ΣL流量=X（ux−ux）2.（八）匹配过程以恢复最大比例的密集深度图。在数学上，给定一个像点x，我们生成-ateL匹配候选{x′}L：然后，我们的框架的总损失函数由下式给出L总=L深度+ λL流量。（九）l l=1x′K[R|t]（K−1x）d1、（四）我们设置λ = 1来微调光流估计器，或者λ =0来使用在合成数据集上预训练的流模型。其中dl=（L×dmin）/l，（l=1，.，L）是深度假设，dmin是固定的最小深度。在标准平面扫描设置中，匹配候选项的采样分布根据比例而变化如图2所示，二、相反，将平移向量归一化为t t/α，使得<$t<$2 = 1，因为我们不知道问题的绝对尺度。将归一化平移t替换为等式中的t（4）对于固定的{dl}L，匹配候选的分布{x′}L都不随尺度变化4. 实验在本节中，我们提供了我们的框架在各种数据集上的定量和定性结果，显示了与最先进的SfM方法的一致性。我们还提供了一个广泛的消融研究，以证明我们的框架设计。由于双视图SfM问题的尺度模糊性，我们使用与[36，35]相同的缩放策略对于所有实验，我们的光流估计器是[40]，而l l=1为了使估计深度和地面实况深度一致，根据Eq.（4），我们需要相应地缩放估计的深度d，以匹配地面实况深度d：dgtd，（5）其中，αgt指的是地面实况标度。这种尺度不变的匹配策略在我们的框架中起着至关重要的作用，因为它使我们的网络不再受到尺度不对准问题的困扰。请注意，我们的竞争对手无法从比例不变匹配中获益，因为他们通常通过预测绝对比例来避免比例失调详细讨论见第4.4节。3.4.损失函数我们的框架以端到端的方式进行训练，并监督地面实况深度图和地面实况尺度。给定预测深度d和地面实况深度d，我们使用Huber损失来监督深度：深度估计器基于[21]。实现细节(such作为优化器或网络的超参数）被提供在补充材料中。4.1. 数据集KITTI Depth[16]主要用于自动驾驶场景中的单目深度评估，不考虑相机运动和动态对象。包含697个用于测试的单帧的本征分裂[10]是用于评估单目深度估计的广泛使用的分裂。为了适应双视图SfM评估，我们配对附近的帧。此外，由于本征分裂包含具有几乎静态的相机运动或许多移动对象的多个帧（这导致双视图SfM的不适定情况），因此我们过滤掉这些帧以产生本征SfM分裂（256帧），从而在良好条件的场景中评估SfM算法。具体来说，我们首先将每个帧与其下一帧配对，然后手动删除这些具有较小相对平移（小于0）的帧对。5我-ΣL深度=X埃什胡贝尔.Σαgtdx−dx、（六）ters）或包含大型动态对象2.KITTI VO[16]主要用于评估相机姿态估计。它包含十个序列（超过20k其中，n（z）= 0。5z2if |z|<一、|z−0。5|否则，请执行以下操作。应该注意的是，我们预测的深度是按比例8958的，并且在推理时不需要地面真实比例。帧）与地面实况相机姿势。根据2.我们定义了一个动态对象，它占据了场景的20%以上的像素作为一个大的动态对象。8959表1. KITTI深度数据集上的深度评估。我们将我们的结果与最先进的单帧深度估计方法进行比较KITTI深度特征分裂的深度SfM方法。我们评估所有的SfM方法下的两个视图SfM设置一个公平的比较。“特征SfM”分割（256帧）不包括接近静态或在类型S表示有监督的单帧深度估计。注意，类型I方法是自监督方法。粗体表示最好。分裂类型方法低越好越高越好绝对相对值Sq RelRMSERMSE日志D1-所有δ1。25δ1。252δ1。253本征S[15]第十五话0.0720.3072.7270.1200.1630.9320.9840.994[45]第四十五话0.072-3.2580.1170.1760.9380.9900.998SfMLEarner [53]0.2081.7686.8560.283-0.6780.8850.957[46]第四十六话0.1551.2965.8570.233-0.7930.9310.973我CCNet [32]0.1401.0705.3260.217-0.8260.9410.975GLNet [5]0.0990.7964.7430.186-0.8840.9550.979IIBANet [35]0.083-3.6400.134----[36]第三十六话0.0640.3502.9460.1200.1420.9460.9820.991我们0.0550.2242.2730.0910.1070.9560.9840.993本征SfMS[15]第十五话0.0670.2952.9290.1080.1300.9490.9880.995[45]第四十五话0.0650.2973.1720.1060.1680.9450.9890.997II[36]第三十六话0.0500.2122.4830.0890.0910.9730.9920.997我们0.0340.1031.9190.0570.0310.9890.9980.999设置[53]，我们使用来自左摄像机的连续帧，在“09“和“10“序列的所有2700帧上测试我们的姿态估计精度MVS、场景11和SUN3D。 MVS是由[39]从几个室外数据集收集的。与KITTI不同的是，它是通过视频序列与近距离场景构建的，MVS有来自各种来源的户外场景。场景11 [39]是由随机形状和运动生成的合成数据集。因此，它被标注了完美的深度和姿态，尽管图像并不真实。SUN3D [43]提供带有噪声深度和姿势注释的室内图像。我们使用由[39]后处理的SUN3D数据集，该数据集丢弃了具有高照片一致性错误的样本。4.2. 深度评测我们对KITTI Depth、MVS、Scenes11和SUN3D数据集进行深度评估。KITTI深度我们使用七个常用的深度度量将我们的框架与两种类型的深度SfM方法进行比较[10]。我们还利用一个视差度量D1-所有3，因为它测量深度估计的精度。由于I型方法是自监督的，并且它们都在推理中执行单帧深度估计，因此我们报告了最先进的监督单图像深度估计方法[15，45]的结果，因为它们可以被视为I型方法的上限。定量结果见表1。虽然只有使用在合成数据集上训练的流估计器，我们的方法在各种度量上具有明显的余量，例如，，2. 273对2 727在RMSE。特别是，我们的方法在很大程度上优于DeepV2D，尽管3立体视差离群值的百分比我们使用KITTI提供的焦距和基线将估计的深度转换DeepV2D使用地面实况相机姿势和五帧序列进行训练。注意，在本征分裂中存在不严格满足刚性SfM假设的多个帧，诸如静止场景。当仅保留满足SfM假设的帧时，即，，在特征SfM分裂上，我们的方法实现了更好的准确性，具有3。1%对9. 1%，D1-全部。图3示出了与最先进的监督单图像方法[15]和深度SfM方法[36]相比的一些定性结果。MVS、场景11和SUN3D。我们使用[39]的度量在双视图SfM设置下将我们的框架与最先进的II型方法进行比较。我们在推理中使用与[42]相同的迭代深度细化策略进行公平比较。如表2所示，我们的方法在所有三个数据集中的所有指标上都实现了优于先前最先进的II型方法的性能图4提供了一些定性结果。4.3. 相机姿态估计我们比较了KITTI VO，MVS，Scenes11和SUN3D数据集上的I型和IIKITTI VO. 如[54]中所示，我们测量相对平移误差terr和相对旋转误差rerr的姿态估计精度。对于所有结果，我们通过最小二乘优化将预测轨迹与地面实况对齐[38]。与I型SfM方法[53，2，32]和全序列视觉里程计方法[54]相比，我们的方法实现了最佳姿态估计在图5中，我们可视化了第9和第10序列上的全序列odom-dom轨迹我们的结果与地面实况轨迹更加一致。值得注意的是，我们的模型只在合成数据集上训练，而其他方法则在KITTI VO上进行了微调8960表2. MVS、场景11和SUN3D数据集上的深度和姿态估计结果。Base-SIFT和Base-Matlab来自[39]。方法MVS数据集场景11数据集Sun3D数据集L1-inv深度Sc-inv L1-rel构成Rot TranL1-inv深度Sc-inv L1-rel构成Rot TranL1-inv深度Sc-inv L1-rel构成Rot TranBase-SIFT0.0560.3090.361 21.180 60.5160.0510.9001.027 6.179 56.6500.0290.2900.286 7.702 41.825Base-Matlab---10.843 32.736---0.917 14.639---5.920 32.298COLMAP [33]--0.3847.96123.469--0.625 4.834 10.682--0.623 4.235 15.956[39]第三十九话0.0470.2020.3055.15614.4470.0190.3150.248 0.809 8.9180.0190.1140.172 1.801 18.811LS-Net [7]0.0510.2210.3114.65311.2210.0100.4100.210 4.653 8.2100.0150.1890.650 1.521 14.347BANet [35]0.0300.1500.0803.49911.2380.0800.2100.130 3.499 10.3700.0150.1100.060 1.729 13.260[42]第四十二话0.0210.1290.0792.8249.8810.0070.1120.064 0.403 5.8280.0130.0930.072 1.704 13.107我们0.0150.1020.0682.4173.8780.0050.0970.058 0.2762.0410.0100.0810.057 1.391 10.757图3. KITTI数据集上的定性结果。顶行中的黄色圆圈和方框突出显示了我们的方法更准确地捕获的微小极点。图像DeepSFM我们的GT表3. KITTI VO数据集上的姿势估计精度。粗体表示最好。对于姿态估计，我们的方法使用在合成数据上训练的光流模型GANVO [2]的结果由其作者提供。方法Seq. 09Seq. 10t误差（%）rerr（μ/100m）t误差（%）rerr（μ/100m）SfMLEarner [53]8.283.0712.202.96GANVO [2]11.523.5311.605.17CCNet [32]6.921.777.973.11LTMVO [54]3.491.035.811.82我们1.700.481.490.55图4. 在MVS、Scenes11和SUN3D数据集上的定性示例，我们的方法始终获得更好的结果。数据集，并采取更多的帧来估计相机姿态。MVS、场景11和SUN3D。竞争对手使用地面实况姿势在这三个数据集上训练他们的姿势估计模块，而我们使用地面实况姿势使用等式来微调我们的光流模型。（八）、我们还使用DeMoN [39]的度量在表2中报告了姿态估计精度。我们的方法在所有三个数据集上都以明显的优势击败了以前的最先进技术，例如。，60。在MVS数据集上的翻译估计方面提高了8%，在Scenes11数据集上的旋转估计提高了5%此外，我们还验证了刚性流监督的有效性，公式（8）见表4。通过微调，平移误差被大大抑制，旋转误差显著减小。值得注意的是，我们在合成数据集上训练的模型已经达到了与以前方法相当的性能。图5. KITTI VO数据集上的视觉轨迹。我们在KITTI VO数据集的Seq.09（左）和Seq.10（右）上将我们的方法与其他基于深度学习的SfM4.4. 框架分析和论证从光流估计相机姿态。有多种方法从光流中提取相机姿态我们考虑两种方法：深度回归和经典的五点算法[24]与RANSAC方案。对于深度回归方法，我们构建了一个类似于[41]中使用的PoseNet，其中ResNet50 [19]作为特征返回-SUN3D场景11MVS8961表4. 光流微调的效果。在刚性流监督的帮助下，我们的微调模型比在合成数据上训练的模型实现了更好的相机姿态结果模型MVS场景11SUN3D腐Tran腐Tran腐Tran我们合成的3.63710.9840.587 6.6171.670 12.905我们的微调2.4173.8780.276 2.0411.39110.757骨，使用图像对和光流作为输入。对于五点算法，我们使用流匹配对作为输入。我们还通过使用SIFT匹配来设置基线。为了过滤掉错误匹配和离群值，我们比较了不同的掩蔽策略，例如流不确定性图（每像素softmax操作的输出），学习的置信度图和SIFT特征位置。我们在MVS数据集上评估这些方法，见表5。深度回归方法具有几乎恒定的性能，而不管不同的输入和掩蔽策略。最好的选择是使用基于SIFT特征位置的掩码流匹配。4处理未对齐的刻度。从两视图图像中完全恢复绝对尺度是不可能的。如果我们想直接使用地面实况深度进行监督或通过广泛使用的尺度不变损失[10，39]，这种尺度模糊性问题将造成麻烦。我们验证了所提出的尺度不变的深度估计模块的KITTI深度本征分裂的效果。基线遵循我们的流水线，但没有尺度不变的深度模块。它只是在估计的深度和地面深度上使用Ehuber损失，而不管它们的尺度如何，这迫使网络隐式地学习尺度。如表6所示，我们的尺度不变深度模块实现了与“Oracle Pose”非常相似另一方面，尺度不变损失的性能与基线方法相似，这表明这种损失不能处理尺度问题。其他框架上的尺度不变匹配。尺度不变匹配是专门为我们的管道设计的，用于处理深度估计中的尺度模糊性。第以前的深度SfM方法（如DeepV2D）不会遇到这个问题，因为它们迫使网络用比例回归相机姿势，然后使深度缩放。这意味着，这些方法不能受益于尺度不变匹配。作为证明，我们将我们的尺度不变匹配应用于DeepV2D，并在KITTI Eigen数据集上进行测试。性能增益较小：Abs Rel，0的情况。064比0 063和RMSE从2。946比2 九三八我们的高级性能受益于整个新提出的深SfM管道，而不是一个单一的组件。以来所有组件都紧密耦合在我们的管道中，替换其中任何一个都将导致严重的性能下降。4请注意，我们使用SIFT特征检测来获得最先进的结果，而SIFT特征匹配表现不佳，并且没有使用。表5. 从光流估计相机姿态。我们比较了不同的方法来估计相机姿态从光流的MVS数据集。“CNN”表示基于卷积神经网络的姿态回归网络，具有地面实况姿态监督。“5点”表示具有RANSAC方案的五点算法。我们还比较了不同的流掩蔽策略。方法输入稀疏掩码腐TranCNN颜色-6.65217.834CNN彩色+血流-6.43717.216CNN彩色+血流不确定6.52817.107CNN彩色+血流信心6.53217.511CNN彩色+血流SIFT锁定6.51217.2315点SIFT匹配-10.62229.7315点流量匹配-15.67337.2925点流量匹配不确定4.92312.1275点流量匹配信心4.61411.0225点流量匹配SIFT位置2.4173.878表6. 处理未对齐的刻度。我们比较了不同的策略来处理KITTI本征分裂的估计深度和地面真实深度之间的失调尺度。‘Scale “神谕”意味着使用地面实况进行训练和推理。使用地面真实姿势进行训练的结果比基线差，这验证了缩放问题。战略绝对相对值Sq RelRMSERMSE日志基线0.0890.3183.1200.129GT姿势训练0.1210.4383.4210.175规模库存损失0.0840.3022.9810.116规模库存匹配0.0550.2242.2730.091Oracle Scale0.0530.2162.2710.089甲骨文姿势0.0520.2122.2690.0885. 结论在本文中，我们重新讨论了基于深度神经网络的双视图SfM问题首先，我们认为，基于深度学习的SfM方法将深度估计或姿态估计表述为不适定问题。然后，我们提出了一个新的深度双视图SfM框架，遵循经典的适定性SfM管道。大量的实验表明，我们提出的方法优于所有国家的最先进的方法，在姿态和深度估计有一个明确的利润。在未来，我们计划将我们的框架扩展到其他SfM问题，如三视图SfM和多视图SfM，其中循环一致性和时间一致性可以进一步约束这些已经适定的问题。鸣谢戴玉超课题得到国家自然科学基金（61871325）和国家重点研究发展计划（ 2018AAA0102803 ）的部分资助。Hongdong Li 得到了 ACRV （ CE 140100016 ）、 ARC-Discovery（DP 190102261）和ARC-LIEF（190100080）赠款。我们要感谢Shihao Jiang、Dylan Campbell和Charles Loop提供的有益讨论，以及KeChen提供的NVIDIA AV汽车现场测试图像8962引用[1] Sameer Agarwal，Yasutaka Furukawa，Noah Snavely，Ian Si-mon，Brian Curless，Steven M Seitz，and RichardSzeliski.一天建成罗马。Communications of the ACM，54（10）：105-112，2011. 3[2] Yasin Almalioglu、Adriad Risqi U Saputra、Pedro PB deGusmao、Andrew Markham和Niki Trigoni。Ganvo：无监督的深度单眼视觉里程计和深度估计与生成对抗网络。2019年国际机器人和自动化会议（ICRA），第5474-5480页。IEEE，2019年。三、六、七[3] M. Berkshire，T. Poggio和V. Torre。早期视力问题。Proceedings of the IEEE，76（8）：869-889，Aug. 1988.1[4] Daniel J Butler ， Jonas Wulff ， Garrett B Stanley 和Michael J Black。一个用于光流评估的自然主义开源电影。在欧洲计算机视觉会议（ECCV）的会议记录中，第611Springer，2012. 4[5] 陈宇华，科迪莉亚·施密德，克里斯蒂安·斯明奇斯-埃斯库.单目视频中具有几何约束的自监督学习：连接流，深度和相机。在国际会议计算中。目视，第7063-7072页，2019年。第三、六条[6] Xuelian Cheng ， Yiran Zhong ， Mehrtash Harandi ，Yuchao Dai ， Xiaojun Chang ， Hongdong Li ， TomDrummond，and Zongyuan Ge.用于深度立体匹配的分层神经架构搜索。神经信息处理系统的进展，33，2020。3[7] Ronald Clark，Michael Bloesch，Jan Czarnowski，StefanLeutenegger，and Andrew J Davison. Ls-net：学习解决单目立体的非线性最小二乘。arXiv预印本arXiv：1809.02966，2018。第三、七[8] A. 戴维森岛 D. 里德， N 。 D. Molton 和 O. 斯塔塞MonoSLAM：实时单相机SLAM。IEEE Transactions onPattern Analysis and Machine Intelligence（PAMI），29（6）：1052-1067，2007。1[9] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流 In Int.确认补偿目视第2758-2766页，2015年。4[10] David Eigen，Christian Puhrsch，Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统的进展，第2366-2374页，2014年四，五，六，八[11] J. 恩格尔河谷Koltun和D.克莱姆斯直接稀疏测程法。在arXiv：1607.02565，2016。1[12] J. Engel，T. Scho？ps和D. 克莱姆斯LSD-SLAM：大规模直接单目 SLAM 。 2014 年欧洲计算机视觉会议（ECCV）。1[13] Martin A Fischler和Robert C Bolles。随机样本一致性：模型拟合应

下载后可阅读完整内容，剩余1页未读，立即下载