直接可微摄像机位姿估计的DiffPoseNet网络及其性能评估

119 浏览量更新于2023-10-25 收藏 1.82MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6845DiffPoseNet：直接可微摄像机位姿估计切森M. 放大图片作者：Pamesh wara，GokulHari，CorneliaFer müller，NitinJ. Sank et，YiannisAloimonos马里兰大学帕克分校马里兰州大学城{cmparam9，hgokul，fermulcm，nitinsan，jyaloimo} @ umd.edu摘要当前用于相机姿态估计的深度神经网络方法依赖于用于3D运动估计的场景结构，但这降低了鲁棒性，从而使得交叉数据集泛化困难。相比之下，从运动构造的经典方法利用光流估计3D运动，然后计算深度。然而，它们的准确性在很大程度上取决于光流的质量为了避免这个问题，已经提出了直接方法，其将3D运动与深度估计分离，但是仅使用正常流形式的图像梯度来计算3D运动。本文介绍网络NFlowNet，用于正常流量估计，用于强制执行鲁棒和直接约束。特别地，法向流用于估计基于cheirality（深度正性）约束的相对相机姿态。我们通过将优化问题公式化为可重构的cheirality层来实现这一点，该层允许端到端学习相机姿势。我们进行了广泛的定性和定量评估所提出的DiffPoseNet我们将我们的方法与KITTI，TartanAir和TUM-RGBD数据集上现有的最先进的方法进行1. 介绍定位能力对于移动机器人应用至关重要，基于视觉的解决方案通常是首选，因为尺寸、重量、功率限制和鲁棒定位方法的可用性。许多数学框架和深度学习方法已经在视觉里程计（VO）或同时定位和映射（SLAM）的保护伞下针对视觉定位问题开发[12，38然而，它们的性能低于通常遇到的具有挑战性的条件下，在野外，涉及不断变化的照明，场景与无纹理的地区，和动态对象。经典的本地化方法[5，8，9，24]依赖于因此，图像之间的稀疏特征对应关系或密集运动场（光流）的计算。光流估计中的一个困难是由于噪声引起的偏差[15，16]。例如，如果在片中，在一个方向上的梯度比另一个方向上的梯度多，则它们的估计光流将偏向主导方向。尽管在过去的十年中，许多基于学习的方法已经提出来改进光流估计，但是这种行为仍然存在于光流方法中。这一点在图中得到了证明1，给出了本文提出的正常流算法与文献中的三种光流算法的误差可以看出，所有流算法在非均匀梯度分布的区域中具有大的误差。为此，该领域的先驱者评论说，光流在图像梯度方向上的投影对偏差是有弹性的，并且可以鲁棒地计算。这种投影称为正常流。在过去的几十年中，已经提出了许多直接使用空间梯度进行3D运动恢复的方法。这些方法通常称为直接方法。原则上，这样的方法是鲁棒的，并且在计算上比基于流的基于特征的方法更便宜，然而，尽管正常流量公式的优点，计算方法来估计正常流量还没有足够的鲁棒性，允许部署在野外。因此，光流一直是自我运动估计的首选表示，近年来得到了深度学习算法的高精度和速度的支持[22，26，35]。为了提高相机姿态估计（自我运动）的鲁棒性，我们提出了第一个正常流网络NFlowNet。此外，为了独立于来自正常流的场景结构来估计姿态，直接方法利用最小约束。当光流或对应关系可用时，使用与深度无关的极线约束来估计然而，与这些2D测量不同的是，正常流是1D的，因此深度不能从将其与场景几何形状和3D运动相关的方程中消除不对场景结构做假设，唯一的6846图1.顶行：NFlowNet与三种不同光流方法（SelFlow [30]，LiteFlowNet [21]和PWC-Net [43]）相比的端点误差图底行：顶行中以红色突出显示的区域的放大终点错误图。光流是由于相机经历平行于壁的平移。它在梯度方向不均匀的区域有很大的误差。值得注意的是，在矩形形状的砖上，由于水平边缘而存在比由于垂直边缘而存在的（水平）梯度多得多的（垂直）梯度，并且这导致错误的流量估计。类似地，在仅存在一个梯度方向的小生境的边缘上，存在误差。本文中的所有图像在计算机屏幕上以200%的缩放比例以彩色观看效果最佳。可以施加在场景上的约束是深度正性[34]或手性约束[49]。Cheirality指出场景必须在相机前面才能被成像，因此深度必须是正的。当对正常流强制执行时，该约束可用于估计相机姿态，而无需对场景深度或形状做出假设由于手征条件是一个不等式约束，因此是不可微的，直到最近才能在深度学习管道中使用它为此，我们利用隐式微分[18]框架实现的可微分编程范式[2]将手性优化重新表述为可微分层，从而以端到端的方式训练我们的姿势网络。在这项工作中，我们设计了一个新的正常流网络NFlowNet，并将其与一个可微的手征层进行鲁棒的姿态估计。我们的贡献（为了便于理解）可以总结如下：• 我们引入网络NFlowNet来估计正常流。这种估计的鲁棒正常流，超出本文，是有用的应用程序需要计算有效的解决方案，在计算机视觉和机器人的导航任务• 我们制定的姿态估计从正常流使用cheirality（或深度积极性）约束作为一个可微优化层。• 大量的定性和定量实验结果突出了我们的方法的鲁棒性和跨数据集的通用性，而无需任何微调和/或重新训练。2. 相关工作2.1. 法向流和摄影机姿势几个作品已经开发了直接的方法，使用正常的流的姿态估计。这个想法是，正常的流量可以解释为“梯度方向上的光流投影”。因此，给定法向流矢量，光流被约束到半平面[1]。如果3D运动仅仅是由于平移，则这限制了扩展的焦点，即，平移轴与图像平面[34]的交点为半平面。基于这个概念，[20]提出了不同的算法来解决仅平移的情况，[40]分析了该方法将场景建模为分段平面，[7]解决了3D运动和校准[6]，并且[23]增加了用于组合多个流场的约束。不做深度假设，[14]开发了对正常流符号的约束，其在几何上分离旋转和平移流分量，并且可以作为模式匹配来实现。其他人提出了通过搜索图像中的线来分离3D运动分量的技术，其中某些3D运动分量被抵消[39，51]。最近[4]通过用光滑函数近似手征约束来建模手征约束，这允许使用现代优化技术。该方法首先从正常流动中求解3D运动，然后使用深度上定义的正则化进行细化。Experimentalresultsdemonstratethattheproposedpipeline outperforms other flow based ap- proaches.受这些发现的启发，我们遵循类似的管道，但我们在神经网络方法中开发了约束6847ΣΣ.Σ∇不||第二章I||x~n−伊ΣΣ∂I∂I2.2. 基于学习的摄像机位姿估计基于学习的相机姿态（ VO ）模型的早期研究[44][28][27]主要集中在建模为绝对姿态/相对姿态回归问题的监督然而，这些方法需要真实世界的地面实况姿态，这通常是难以获得的。为了减轻对地面真实数据的需求，提出了自监督VO。SfMLEarner [52]通过最小化扭曲图像和输入图像之间的光度损失来同时学习深度和姿势。[50]和[53]将该思想扩展到姿态、深度和光流的联合估计。基于学习的模型在对来自新环境的图像进行测试时会出现泛化问题。大多数VO模型都是在相同的数据集上训练和测试的最近，TartanVO [45]通过将相机内在函数直接纳入模型并使用大量数据进行训练来解决泛化问题。可微优化层（或可微编程）[2，18]的最新进展已经实现了新一代的可推广姿态学习方法。[25]通过摄像机姿态和光流的双层优化将对极几何约束嵌入到自监督学习框架BlindPencil [11]将几何模型拟合算法（Pencil算法，RANSAC）嵌入隐式差分层。所有上述工作都集中在重建结构（通过网络或优化）和/或光流对应以用于估计相机运动。在我们的工作中，我们解决了强大的姿态估计只依赖于结构的cheirality约束和正常的流量。最后，我们利用两全其美的概念，使加速使用数据先验和新的数据概括数学优化。3. 拟定方法网络架构如图1所示。二、它由NFlowNet组成，NFlowNet是一种用于估计正常流量的网络（第4节），然后用于自适应相机姿态估计（或里程估计）（第5节）。相机姿态估计在三个步骤中进行。首先，我们使用监督训练初始化PoseNet，并将连续图像作为输入（Sec. 5.1）。接下来，通过嵌入在正常流上定义的手性约束，使用可微优化来估计姿态（Sec. 5.2）。这样，类似于经典的SfM方法，独立于深度来估计姿态。在最后一步中，通过使用来自手征约束的姿态估计来最小化正常流中的误差，通过自监督细化损失来细化PoseNet中的姿态。4. NFlowNet正常流量预测从视频中进行运动分析的第一步是计算图像运动表示。大多数方法是-从而检测和跟踪不同特征或计算基于梯度的光流。后者是通过假设在一个点处的强度Ix x=x yT在短时间内保持恒定，瓦尔δ峰这被称为亮度恒定约束[49]：I（x，y，t）=I（x+uδt，y+vδt，t+δt）（1）这里u和v指的是图像像素运动。近似方程（1）利用一阶泰勒展开，我们得到等式（1）。（二）：∂I ∂I ∂Iu+v=（2）阿格什·阿格什·阿格什我们把沿梯度方向的流动的分量称为法向流动。将空间梯度表示为I=、流为u=uvT，正常值流矢量n（2D矢量）被定义为：n=（u·I）I（3）||I||2使用亮度恒定性约束（等式1），1），可以直接从空间和时间图像导数I计算法向，如n=−It<$I。由于仅此约束不足以确定二维图像运动，因此需要引入附加约束。 Traditionally, variational methodscombin- ing multiple global smoothness assumptions,have beenthe光流估计的主要方法，并且最近它们已经被深度学习算法所取代。然而，由于对训练数据集的强烈依赖，这些方法往往在具有很少特征或重复纹理的区域上执行低于标准，并且由于过度平滑，特别是当图像中的流动的大小显著变化时，这些方法在边界区域中执行低于标准仅在时空导数上计算正常流是不可靠的并且容易出错。因此，我们提出了一种新的正常流网络称为NFlowNet。我们使用编码器-解码器卷积神经网络，我们以监督的方式训练它。给定图像对，正常流描述平行于图像导数的像素运动。为了学习正常流量，我们利用TartanAir数据集。具体来说，我们使用Eq。3计算地面实况正常流量。我们使用网络预测之间的l2损失来训练监督的NFlowNetn和地面实况n，即，argminn−n2（4）在实验部分（Sec.7），我们表明，NFlowNet可以推广到真实世界和其他数据集，无需任何微调或重新训练。6848不不∈∈DT;×=t−−22z0−−yx0Ω如果时间的绝对位姿由下式给出，X^~^~图2.我们提出的DiffPoseNet框架的概述。我们的网络从一个新的正常流量估计网络NFlowNet和第一粗略姿态估计。接下来，使用所提出的可微分手性层来估计精细姿态5. 正态流的自适应姿态估计我们使用深度网络来回归相对姿态，即相机在后续时间步长之间的3D刚性运动，并表示为Pt+1。接下来解释绝对姿势和相对姿势之间的对比不tTtR其中TtR3×1和RtSO（3）。在线性速度假设下，t和t+ 1之间的相对姿态为：表示为VT，并由下式给出：argminV−V5.2.用于精细位姿估计的可微手征层为了实现连续姿态的自监督学习（给定初始化值），我们提出利用手性约束或深度正性约束，其规定所有世界点必须在相机前面，即，有积极的深度。该条件已被经典地用于运动问题的结构中，以从集合中消除物理上可能的相机姿势V=Tt+1−TtDT对数RTRt+1（五）计算的解决方案。利用手征而不是广受好评的对极常数或场景平面性约束的主要原因是由于在图像处理中的极简主义这里，dt是t和t+ 1之间的时间增量，logm是矩阵对数运算符，并且将向量k×转换为相应的反对称矩阵0−ΩzΩy假设。由于在我们的公式中，深度积极性是使用正常流来实施的，这反过来又对场景结构做出了最小的假设，因此我们的公式以显著的准确性推广到新场景（第二节）。6.2.2）。让我们用数学的方法来定义这些约束。将像素x处的正常流（标量）的大小表示为nx5.1.用于初始化姿态估计的在第一阶段，我们使用CNN+LSTM学习粗略的相对姿势。CNN层学习的特征表示被传递给LSTM进行顺序建模。我们使用监督l2损失之间的地面真相图像梯度的方向为gx（单位向量），我们有1nx=n2=Z （gx·A）V+（gx·B），（8）其中，V表示在小的时刻内的恒定平移速度和旋转速度，并且Z（P^=^预测姿态（P=（美国）。阿克斯在这里，V和V表示平移和旋转pose的一部分。方向用XYZ欧拉角。表示为λ a加权参数，我们使用反向传播解决以下优化：V，使流场扭曲，Zx使流场缩放，矩阵A和B确定运动流场如何分别由于平移和旋转速度而投影到图像平面上，并且由下式给出：P~×=（六）VVΩ是所考虑的点的深度直观地，6849ΣΣRR˜中国Pc˜˜˜˜·B）电子邮件nx−（gx·B）=Z˜Σ˜ ˜ΣΣΣA=−1 0x（9）0 −1y上层问题在受到由下层问题施加的约束的情况下被解决，并且接下来被正式定义。xy−（x2+ 1） y...ΣΣΣnX-（gxR让我们来看看EQ。（8）两个组成部分的nor-精氨酸EPPP Pnx−gx· .（gx）·A）VrAVc−Bc主流：取决于深度的平移分量和与深度无关的旋转分量。如果我们从两者中减去旋转分量服从argminEPrR（ρx（Vc，Vc））（十四）边，我们得到1XEq.的低级问题（第二行）（14）强制手征约束以获得姿态P_r，其我们可以强制左手边（反旋正常流）和右手边（平移分量）必须具有相同的符号。由于深度（Zx）是正的，所以下面的乘积，我们记为ρx（V，λ），是正的，即，ρx（V，V）=（（gx·A）V）·（nx−（gx·B）V）>0（12）为了获得用于优化的目标函数，我们可以通过将ρx传递给平滑函数（例如ReLU函数[4]）来对手性约束进行建模。由于深度学习管道要求函数是二次可微的，因此我们选择GELU函数，这是ReLu函数的平滑近似。将负GELU函数表示为，并将所有x值的平均值表示为E，然后我们获得以下最小化，用于估计相对相机姿态：argminE（（ρx（V，λ）））（13）{V，}在重新估计运动的阶段中，我们简单地在由鲁棒的拟牛顿优化算法实现的优化中使用约束（13我们顺序地求解优化，一步为V，另一步为λ，因为ρx（V，λ）在这些参数中是双线性的。最初的估计来自第二节的PoseNet估计。第5.1条在我们的实现中，我们使用L-BFGS算法[55]。这些步骤（Sec. 5.1和5.2）在网络中的前向传递中执行。5.3.自我监督优化让我们将从我们的PoseNet获得的粗略姿态表示为Pc=Vcc。这是进一步细化的手层，我们表示这个细化的姿态为Pr=来自NFlowNet的正常流量与使用运动参数Pc和由运动参数Pr表示的隐式深度项计算的流量之间的一致性。在实践中，我们通过上层进行反向传播，以使用从Pr通过下层的监督来细化姿势Pc。使用隐式微分，从较低层计算的所有内容都是梯度，并且这一步是与所使用的优化器无关。具体来说，我们推导出的PIPr，这是计算的产品的二阶导数。(The感兴趣的读者参考[18]，eq. (15)了解详情。）值得注意的是，我们依赖于一般-NFlowNet的可实现性，因此它不是微调的。6. 实验6.1. 实现细节6.1.1数据集我们使用TartanAir [46]数据集中的八个环境（娱乐，老城，邻里，灵魂城市，日本小巷，办公室，办公室2，海滨城市）进行训练，两个环境（废弃工厂和医院）用于测试我们的NFlownet网络。对于里程评估，我们使用Tartan挑战测试数据[46]。我们还对KITTIOdometry [17]和TUM-RGBD [42]数据集进行了广泛的实验，以评估我们提出的系统的鲁棒性和泛化性能。6.1.2网络和优化层对于NFlowNet，我们使用基于EVPropNet [37]的编码器-解码器架构来直接回归稀疏正常流。编码器包含具有卷积层的残差块，并且解码器包含具有转置卷积层的残差块。我们选择数字-Vr阿吉尔. 现在，我们使用Pr来细化我们的PoseNet残差块和转置残差块的BER为2，姿态以获得姿态的更准确预测。最终的自适应姿态估计作为网络中的双层最小化来执行[18]，其中，B=（y2+1）−xy−x（十）（g x·A）V.（十一）然后用于计算上层损失函数中的正常流量误差（第一行）。上层损失迫使6850扩展因子（每个块后神经元数量增加的因子）为2。我们使用计算的均方损失来反向传播梯度，6851¨−·˜¨2××↓×方法×˜地面实况和预测的正常流量，如方程式所示。4.第一章我们使用Adam优化器来训练我们的网络，学习率为10−4，批量大小为8，持续400个epoch。我们的PoseNet架构受到[44]的启发，CNN阶段的VGG-16编码器[13]和两个LSTM层，每个层有250个隐藏单元用于递归层阶段。我们最初使用TartanAir数据的一个子集训练这个模型30个epoch，以获得一个粗略的估计来初始化Cheirality层。 We use the Adam opti- mizer and set a fixedlearning rate of 10−5. 我们在训练时考虑六个连续图像帧的序列和八个批量大小。在测试时间期间，我们仅使用两个连续的图像帧来估计图像It和It+1之间的相对相机姿态。对于优化层，我们使用L-BFGS [10]求解器。线搜索函数设置为强Wolfe [48]，迭代次数设置为100，梯度范数被裁剪为100。我们用PoseNet提供的粗略预测初始化了优化器。我们的整个系统是在Python 3.7和PyTorch 1.9中实现的。6.1.3培训和测试程序整个培训计划包括三个阶段。首先，我们只使用上述训练策略以监督方式训练NFlowNet和PoseNet。然后，我们冻结NFlowNet，并通过细化损失以自我监督的方式联合训练PoseNet使用四个Nvidia P6000 GPU进行了120个epoch的自我监督训练因为他的手投影光流（u）和地面实况（n）之间的PEE被定义为：PEE=nIu（15）||2||2为了评估从我们的模型回归的相对姿态6.2. 实验结果6.2.1正常流量在第一个案例研究中，我们对NFlowNet进行了定量评估。我们将我们的网络与各种风味的光流方法进行比较：（a）监督（PWC-Net [43]，LiteFlowNet [21]）和（b）自我监督（SelFlow [30]）。在表1中，我们给出了正常流量的定量评价。我们用TartanAir训练了我们的NFlowNet和微调的opti- cal流量网络（8个环境）。我们证明了PEE错误的前四个序列的环境abandonfactory和hospital。NFlowNet的性能比光流网络好6倍。通过学习正常流，我们约束网络集中在突出的功能（边缘，纹理），而不是在无纹理区域的密集对应通过这种表1. PEE（投影端点误差）的不同国家的最先进的方法相比，我们的NFlowNet。层，停止标准是当目标函数为小于10- 20或迭代次数超过300。在测试过程中，我们的最终姿态预测是通过将PoseNet先验信息与NFlowNet的预测一起传递到手征层来获得的。由于我们的自我监督细化训练，先前的PoseNet估计有助于手征优化过程的更快收敛（需要少于5次迭代）。总体而言，NFlowNet需要15 ms，而粗略的PoseNet需要8 ms。Cheirality层每次迭代平均花费8 ms来细化估计。推理时间是使用Nvidia 2070 MaxQGPU针对320 - 640的图像分辨率获得的。6.1.4评估指标为了评估我们的NFlowNet并与其他光流网络进行比较由于正常流量仅沿梯度方向定义，因此我们使用投影端点误差（PEE），这是[19]中提出的平均端点误差（AEE）误差度量的废弃工厂医院000001002003000 001002003param参数(M)LiteFlownet [21]2.561.821.932.153.172.682.451.93 五点三七[43]第四十三话0.951.641.482.352.922.281.47 8.75[31]第三十一话1.151.751.562.211.761.831.07 一百二十六点九[30 ]第30话0.730.520.641.910.510.730.655.11NFlowNet（我们的）0.720.540.570.630.820.440.570.71 2.726.2.2姿态估计在本节中，我们将我们的DiffPoseNet框架与各种最先进的相机姿态估计方法进行比较。这些方法可以大致分为：（a）纯深度学习模型，（b）纯基于几何约束的模型，以及（c）在学习管道中引入某种形式的几何约束的混合深度学习模型。我们在MH 000 -007序列中的TartanAir挑战数据上展示了我们模型的绝对轨迹误差（ATE），并将其与表2中的TartanVO和ORB-SLAM结果进行了比较。在这个实验中，我们比这两种方法的性能高出3.4。我们在表 3 中给出了 TUM-RGBD 序列（ 360 ，desk，desk 2，rpy，xyz）的ATE。我们实现↓6852↓−U--有竞争力的结果，因为TUM RGBD很难表2.TartanAir [46]数据集MH序列上的ATE（m）↓由于滚动快门、运动的单眼视觉方法模糊和大旋转。这就是纯几何约束显示出巨大优势的地方。我们相信我们的工作可以通过补偿差分层中的卷帘快门来进一步改进，我们认为这是未来潜在的研究方向。重要的是要强调我们的方法方法000 001 002 003 004 005 006 007[32]第三十二话1.300.042.37 2.45二十一点四十七分二点七三[45]第四十五话0.26两点零点九四一点零七3.191.002.04我们的2.56零点三一一点五七0.720.82一点八三一点三二一点二十四表3.TUM-RGBD [42]基准上的ATE（m）↓在TartanAir数据集上进行了训练，并直接在其他数据集来突出跨数据集的泛化，而无需任何微调或重新训练。我们还提出了相对位姿误差，具体地说，平均平移RMSE漂移（trel，单位为%）和平均旋转RMSE漂移（rrel，单位为m/100 m），用于比较，KITTI数据集序列06、07、09和10（见图3）。误差度量是在100-800米长的轨迹上计算的在表4中，我们比较了我们的模型（Diff-表4. KITTI [17]数据集上各种姿态估计方法的相对姿态误差（trel和rrel）结果。请注意，粗体表示最佳结果，下划线表示次佳结果。PoseNet）与（a）纯深度学习模型（TartanVO[45]，GeoNet [50]，UnDeepVO [29]，DeepVO [44]，Wang et al.[47] ），（ b ）基于纯几何约束的方法（ORB-SLAM [32]，VISO 2-M [41]）和（c）BiLevel-Opt [25]，一种通过可微层实现对极约束的方法。选择测试序列，使其不与用于比较的深度学习模型中的训练集重叠。请注意，与TartanVO类似，我们的训练仅在TartanAir上执行，并且不对KITTI数据集执行任何微调或重新训练无论如何，我们与其他在类似数据上训练/微调的方法相比具有竞争力，从而证明了我们的跨数据集泛化。表4还列出了我们的消融研究，比较了我们在KITTI管道中的不同配置。'Ours（no-SS）'表示在KITTI地面实况姿态上微调的粗略PoseNet的结果。‘Ours (no-CL)’denotes Diff- Posenet 'Ours（OF）'表示DiffPoseNet的结果，其中通过将光流投影到图像梯度上而不是NFlowNet来计算法向流。我们注意到，我们从上述结果推断（也见图1）。4）深度学习模型在平移误差（t rel）方面通常优于经典的基于几何约束的方法，这可以归因于尺度漂移问题。这有时可以通过执行昂贵的全局束调整和环路闭合来解决然而，在我们的实验中，我们没有在模型中使用闭环过程。具有可微优化器层的模型，如DiffPoseNet（我们的）和BilevelOpt [25]，实现了两全其美，具有较低的相对旋转误差竞争力方法06070910t相对rrelt相对rrelt相对rrelt相对rrelDeepVO [44]5.425.823.914.60--8.118.83Wang等人[47个]----8.041.516.230.97[29]第二十九话6.201.983.152.48--10.634.65[50]第五十话9.284.348.275.9326.939.5420.739.04TartanVO [45]4.722.954.323.416.033.116.892.73[25]第二十五话----4.360.694.041.37[32]第三十二话18.680.2610.960.3715.30.263.710.3VISO2-M [41]7.346.1423.6119.114.041.4325.23.84我们的（无SS）5.233.154.833.927.124.318.333.74我们的（无CL）4.232.434.282.765.133.185.892.98我们的（CL-1-iter.）3.192.034.132.534.721.714.822.57我们的（OF）3.032.083.892.134.240.724.121.56我们2.941.764.062.354.020.513.951.23用几何方法比如ORB-SLAM6.2.3姿态估计对于大多数摄像机姿态估计方法，算法的性能也受外部因素（如照明、天气和传感器噪声）的影响这些外部因素往往会导致运动场的错误，并导致姿态估计失败或发散。在这种情况下，我们提出了一个鲁棒性分析，通过注入噪声到运动场。我们研究了基于正常流的手性层对极层的鲁棒性[25]。我们在正常流和光流中人工注入错误，并在这些条件下评估我们的框架的性能。该误差被建模为加性均匀噪声（α），其中[α，α]是噪声上的界。我们只在梯度方向上将这种噪声引入正常流和光流，在梯度方向上正常流是明确定义的，以使校正。型坯展图5示出了相对位姿误差trel和rrel在λ值为0、5、10、15、20%时的情况。这里，BiLevelOpt是指使用极线约束层[25]的姿态估计，其中光流作为输入。方法360书桌办公桌2 rpyxyzORB-SLAM 2 [33]-0.0160.078-0.004DeepTAM [54]0.1160.0780.0550.0520.054TartanVO [45]0.1780.1250.1220.0490.062我们0.1210.1010.0530.0560.0486853××3002001000−100−200−1000 100200300400x（m）0−50−100−150−200−100−50 0 50 100x（m）3002001000−100−200−1000100200300400500x（m）7006005004003002001000−50 0 50 100 150x（m）(a) Seq. 05(b) Seq. 07(c) Seq. 09(d) Seq. 10图3.我们的DiffPoseNet和其他最先进的KITTI数据集方法之间的轨迹定性比较1.00.80.60.40.20.0DeepVO土工网TartanVODiffPoseNet（我们的）0 200 400 600 800 1000帧7. 结论和未来工作在这项工作中，我们结合了经典的直接相机姿态估计方法和深度学习的优点，利用可微编程概念。具体来说，我们解决了估计的问题，交配相对相机姿势使用的图像序列。为了实现这一点，我们引入了DiffPoseNet框架。作为该框架的一部分，我们引入了一个称为NFlowNet的正常流网络，它可以预测精确的运动场图4.我们的模型和基于VO的纯学习模型在KITTI -07中的相对旋转误差（单位：μ m/帧）上的比较。图5.KITTI-10上姿态估计的正常流表示的鲁棒性评估。通过在梯度方向上投影SelFlow光流预测（我们选择SelFlow，因为它在本文中使用的请注意，与其他方法相比，我们的DiffPoseNet对噪声更具弹性，并且失败我们欠这种鲁棒性缺乏强约束，在我们的方法相比，其他方法，无论是依赖于强大的功能或强大的光度一致性。我们相信，精心设计的优化问题可以产生鲁棒的姿态估计神经网络，这些神经网络可以很好地推广到新的数据集，同时对噪声具有鲁棒性，这是大多数最先进的方法中很少看到的能力[3，36]。在具有挑战性的情况下，对噪声和偏差的适应能力更强。此外，我们提出了一个可微分的cheiral- ity层，当与NFlowNet耦合时，可以估计鲁棒和准确的相对相机姿势。对具有挑战性的数据集：TartanAir、TUM- RGBD和KITTI进行了全面的定性和定量评价我们证明了我们的方法在噪声场景和跨数据集泛化下的有效性，我们的方法优于以前的最先进的方法。特别是，NFlowNet可以输出精确的运动场，速度高达6我们相信这将为摄像机姿态估计问题开辟一个新的方向。当前预训练的posenet在优化管道中扮演“初始化”的角色。由于我们提出DiffPoseNet作为一个通用的框架，我们将在未来的工作中用更好的姿态估计器取代PoseNet此外，目前的方法只专注于静态场景（没有移动对象），我们计划扩展管道，包括移动对象的分割。8. 确认这项工作得到了海军研究办公室的部分支持，切森M. Parameshwara由William Hodos博士论文助教支持。y（mGround TruthDeepVOGeoNetTartanVODiffPoseNet（我们的）y（m相对旋转误差（每帧）y（my（m6854引用[1] Yiannis Aloimonos和Zoran Duric。使用正常流量估计International Journal of Computer Vision，13（1）：33[2] 布兰登·阿莫斯和J·齐科·科尔特。Optnet：作为神经网络层的微分优化。国际机器学习会议，第136-145页。PMLR，2017年。[3] Adithya Prem Anand ， H Gokul ， Harish Srinivasan ，Pranav Vijay，and Vineeth Vijayaraghavan.视频动作识别中光流网络的对抗补丁防御。2020年第19届IEEE机器学习和应用国际会议（ICMLA），第1289- 1296页[4] FranciscoBarranco，CorneliaFermuüller，YiannisAloimonos，and Eduardo Ros.使用时空梯度联合直接估计三维几何和三维运动模式识别， 113 ：107759，2021。[5] Michael J Black和Paul Anandan。多个运动的鲁棒估计：参数和分段光滑流场。计算机视觉与图像理解，63（1）：75[6] 我是说Brods和CorneliaFerm uille。从图像导数进行自校准。 International Journal of Computer Vision ， 48（2）：91[7] 托马斯·布罗兹，科妮莉亚·费尔·穆勒，还有扬尼斯·阿洛伊·莫诺斯.视频中的形状在诉讼中。1999年IEEE计算机协会计算机视觉和模式识别会议（ Cat 。 No PR00149），第2卷，第2146- 2146页。IEEE计算机学会，1999年。[8] ThomasBrox ， Andre 'sBruhn ， NilsPapenberg ，andJoachimWeickert.基于翘曲理论的高精度光流估计。欧洲计算机视觉会议，第25-36页。Springer，2004.[9] 托马斯·布洛克斯和吉坦德拉·马利克大排量光学流量：变分运动估计中的描述符匹配。IEEE Transactions onPattern Analysis and Machine Intelligence，33（3 ）：500[10] Richard H. Byrd ， Peihuang Lu ， Jorge Nocedal ， andCiyou Zhu. 有界约束优化的有限内存算法。 SIAMJournal on Scientific Computing，16（5）：1190[11] Dylan Campbell，Liu Liu，and Stephen Gould. 用鲁棒可微几何优化方法端到端解决盲透视n点问题在欧洲计算机视觉会议上，第244-261页。Springer，2020年。[12] Andrew J Davison，Ian D Reid，Nicholas D Molton，andOlivier Stasse. Monoslam：实时单摄像机猛击。IEEETransactionsonPatternAnalysisandMachineIntelligence，29（6）：1052[13] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在 IEEE InternationalConference on Computer Vision的Proceedings，第2758-2766页[14] Corne l iaFerm uüller. 将Passivenavigation视为模式识别问题。国际计算机视觉杂志，14（2）：147[15] Corne l iaFermuller，RobertPless，andYiannisAloimonos.大内错觉作为有偏流量估计的伪影。Vision Research，40（1）：77[16] Cornel iaFerm uüller， Da vidShulman ， andYiannisAloi-monos. 光流的统计。计算机视觉与图像理解， 82（1）：1[17] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在计算机视觉和模式识别会议中，2012年。[18] 史蒂芬·古尔德理查德·哈特利迪伦·约翰·坎贝尔深度声明网络。 IEEE Transactions on Pattern Analysis andMachine Intelligence，2021。[19] Bas J. Pijnacker Hordijk，Kirk Y. W. Scheper和GuidoC.H.E. de Croon基于事件光流的微型飞行器垂直着陆 J.Field Robotics，35：69 - 90，2018。[20] Berthold KP Horn和EJ Weldon。重新覆盖运动的直接方法. International Journal of Computer Vision，2（1）：51[21] Tak-Wai Hui，Xiaoou Tang，and Chen Change Loy. Lite-FlowNet：一种用于光流估计的轻量级卷积神经网络。在IEEE计算机视觉和模式识别会议论文集（CVPR）中，第8981-8989页[22] Edd

下载后可阅读完整内容，剩余1页未读，立即下载