自监督的环内单应模型拟合方法用于相对位姿估计

19 浏览量更新于2023-10-16 收藏 1.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5705环内单应模型拟合的自监督相对位姿Bruce R.Muller和William A.P. 英国约克大学史密斯计算机科学系{brm512，william.smith} @ york.ac.uk摘要我们提出了一种自监督的方法，用于道路场景的相对姿态估计。通过利用局部地平面的近似平面性，我们可以使用从估计的地面相对姿态导出的单应性经由图像之间的交叉投影来提取自监督信号。我们通过在网络训练循环中包括经典的图像对齐来增强交叉投影感知损失。我们使用预先训练的语义分割和光流来提取近似对齐图像和RANSAC之间的地平面对应关系，以找到最佳拟合单应性。通过分解到地面相对姿态，我们得到了伪标签，可以用于直接监督。我们表明，这种极其简单的几何模型对于视觉里程计具有竞争力，而更复杂的自监督方法必须结合相对姿势学习深度估计。代码和结果视频：github.com/brucemuller/homographyVO。1. 介绍图像间相对姿态的估计在视觉测距、图像拼接、运动恢复结构、变化检测和增强现实等计算机视觉应用中具有重要意义。自动驾驶汽车技术的快速发展使人们特别关注VO。基于局部特征提取和匹配的视觉对象分割方法是视觉领域的经典问题，但其脆弱性、对无纹理场景的识别失败以及速度慢等问题。另一方面，在过去的5年中，基于深度学习的方法已经证明自己是强大的，并提供快速推理。然而，由于这些方法仅被训练为在训练集上总体上是最优的，因此它们不一定为给定图像对提供最优解，并且因此缺乏可以精确地对准被正确匹配的特征的经典方法的精度。此外，大多数基于学习的VO技术依赖于用于监督学习的地面实况相对姿态标签。这些标签很难收集，从不一致的覆盖范围，必须同步和几何校准相对于相机。自我监督方法提供了一种替代方法，可以利用大量未标记的驾驶视频。最常见的是，这些方法同时学习深度和相对姿态估计，使得可以通过将一个图像交叉投影到另一个图像中来获得监督信号[13]。在许多情况下，相对姿态估计只是寻求学习深度估计的副产品虽然深度本身非常有用，但它需要估计每个图像的潜在数百万个深度值这是一个不适定问题，基于学习的方法往往会过度拟合其训练数据中的偏差[9，23]。深度误差将影响相对姿态的准确性，反之亦然，因此如果目标仅是估计相对姿态，则该方法不一定是我们提出了一种相对姿态估计的方法，结合了自监督学习与经典的特征匹配和对齐。我们利用这样的事实，即对于自动驾驶应用，场景内容（即，道路场景）包含近似平坦地平面的显著区域。这使得我们能够仅使用单应性在图像之间进行交叉投影（并因此获得监督信号）。通过明确地强制道路场景的平面性质，我们极大地简化了网络必须解决的任务，同时保留了自我监督的好处。此外，我们通过在网络训练循环中使用经典的图像对齐来改进和提供替代的监督信号。具体而言，我们做出以下贡献：1. 我们使用几何匹配网络回归9D地面相对姿态，该网络可以处理重叠图像对上的任意姿态变化。2. 使用估计的单应性经由可微交叉投影提供外观损失。3. 我们通过将不可微的光流加上RANSAC过程应用于图像的由se标记为地平面的区域来计算精细的单应性5706VGG特征提取特征提取前科地平面相对姿态经纱预训练FA感知-损失fB后列车HOFHθHOF{ROF，tOF}i→jHEM-损失{Rθ，tθ}i→j图1.我们估计地面相对姿态使用几何匹配网络训练没有标签，没有估计深度。通过假设局部平面场景，我们可以计算视图之间的单应性，并使用它通过交叉投影提供自监督信号。我们的培训分为两个阶段：1.使用基于由预训练的VGG [26]网络提供的深度特征的感知损失，2. 通过单应性估计模块（HEM），其利用模型拟合（光流+ RANSAC）来拟合单应性，我们将其分解为相机相对姿态以进行监督。HEM也可以在测试时使用，以提高性能。智能分割网络这提供了伪标签，因此是自我监督的另一个来源。4.在推理时，基于光流的细化可以应用于网络输出之上，以提高VO等任务的准确性。据我们所知，9D参数化作为自监督VO的网络输出是新颖的。没有其他姿态估计工作利用这种方法，并且通常采用6 DoF相机相对姿态，选择学习场景规则性，而不是利用它。此外，保持几何参数化的通用性更强大，因为我们可以从中提取多个有用的变换。此外，通过在序列中的所有重叠图像对上应用变换同步，可以将来自我们的方法的估计的相对姿态用于轨迹估计。我们使用这种方法来评估我们的方法在KITTI VO基准。由我们的简单几何模型和基于光流的细化提供的自监督与需要密集深度估计的最先进的自监督方法相比具有很强的竞争力。2. 相关工作自监督相对姿态大多数自监督VO方法将网络输出参数化为密集深度和6 DoF相机相对姿态[5，7，11，13，14，19，33，35]，允许将一个图像交叉投影到另一个图像的透视图中，然后直接比较以形成训练损失。D3VO [30]是KITTI里程计基准中最具竞争力的纯单稳态方法。他们利用具有光照变换和估计不确定性图的姿势深度网络来提供类似于[13]的改进的自监督训练损失。然而，他们仅使用深度、姿态和不确定性地图预测来对整个序列执行离线、非线性束调整，这使得它类似于经典的基于优化的方法，而不是直接比较快得多的直接回归方法。LT-MVO [37]通过使用递归CNN在时间上约束轨迹，但也依赖于姿态深度网络，实现了自监督方法的最佳VO结果。6DoF相机相对姿态。高度竞争的自监督方法[11，14，27，28]依赖于密集的深度估计。最近，方法使用密集光流[20，24，34，38]与相机相对姿态或深度估计来形成自监督信号。作为相机相对姿态和密集深度估计任务的参数化倾向于将估计限制到相邻或时间上接近的视频帧。此外，估计数千个深度或流量参数是一项要求很高且不适定的任务，很难训练。例如，Mon-odepth 2 [13]在深度估计方面表现得非常好，但在姿态估计方面表现得很差。这意味着使用姿势和深度网络的方法容易出现一个网络影响另一个网络的准确性的问题。蒂瓦里等人[27]试图解决这个问题，但依赖于经典的SLAM和潜在的昂贵的优化例程，如捆绑调整和环路闭合。虽然存在处理直接单应性估计的工作[8，25，29]，但我们专门处理道路场景相对姿态估计，因此不与这些方法进行比较。这些方法中没有一种利用道路场景中的基本已知几何学：地面近似为平面。相反，我们建议相对于地平面进行参数化，通过已知的几何形状进行交叉投影以形成训练损失，从而完全避免使用第二个网络估计密集深度的要求。请注意，我们参数化的一个有用的结果是，我们可以从我们的地面相对姿态获得道路深度。此外，我们的方法，而约束到一个平面模型，是高度灵活的，因为它允许估计任意的相对姿态。虽然像ORB-SLAM 2 [22]这样的经典方法是一种强大的方法，但它们通常会因稍大的姿态变化而失败（我们的参数化对此是鲁棒的），并且通常依赖于密集的光束平差和环路闭合。道路场景是高度规则的，但Dijk等人表明，回归单应性估计模块(Not可微）匹配VGGVGG57072我普通道路深度网络简单地利用对象的垂直此外，他们还表明，广义深度精度取决于对象的伴随特征（例如，阴影）。当迫使网络以黑箱方式在大型数据集上毫无理由地学习时，我们明确地对道路平面的规则性进行建模，以帮助避免这种过度拟合。架构考虑许多方法关联姿态网络输入图像，假设卷积的感受域将足以捕获用于准确姿态的特征的局部变化，但这仅有利于帧之间的相对姿态的微小变化。Rocco等人[25]使用几何匹配体系结构来直接估计几何变换，以将对象实例合成地扭曲成类似的透视图。受传统特征匹配流水线的启发，它们的体系结构由具有共享权重的单独特征提取分支和新颖的匹配层组成，基本上允许基于两个图像之间的假定特征匹配的回归我们选择他们的架构是因为它可以有效地捕捉准确传达几何透视的对应关系，并避免使用与我们的任意姿态估计论文一致的输入级联。[10]的工作使用这个网络[25]直接为他们的人体姿势系统估计薄板样条，用于试穿衣服。据我们所知，我们是第一个使用几何匹配架构[25]进行3D相对姿态估计的任务。感知损失和模型拟合通过风格转移和图像去噪[17，31]的工作得到普及，我们选择最初使用感知损失而不是图像差异的每像素损失进行训练，这提供了更广泛的收敛范围。这避免了像素级损失所需的照明假设的问题，这通常需要添加更多的正则化项。据我们所知，我们是第一个使用感知损失，主要关注VO评估，也是第一个根据相机对周围的局部几何形状来参数化深度姿势。灵感来自Kolotouros et al.[18]我们选择了图2.我们的地面相对坐标系（9D参数化）包括四个平移和五个旋转部分。用于网络输入对的两个摄像机i和j的具体来说，我们预测两个摄像机的高度，摄像机j的平面位置，以及两个摄像机的滚动和俯仰，所有这些都相对于被定义为在摄像机i正下方的地平面上的原点。我我Hj→iIi→j图3.局部道路场景平面几何形状允许经由具有同态的向后翘曲的可区分的交叉投影。我们用单应性变换一个规则的点网格从地面相对姿态角计算，以采样网络输入。红色边界表示图1中扭曲模块的输入。参数化，我们如何从中提取相机相对姿态，以及我们如何从我们的参数化计算单应交叉投影，用于映射两个相机之间的道路平面像素。最后，我们解释了如何处理平面交叉投影中存在的使用9D表格WARR9进行参数化（见图10）。2），我们将相机i和j的地面相对姿态写为：使用循环中的模型拟合方法，（z）（x）（年）（z）优化我们的学习模型，并允许推理时间优化。虽然[6]等其他作品也受到[18]的启发，但据我们所知，我们是第一个将该概念应用于单应性运动估计设置的人。3. 双视图地面相对几何我们建议预测两个视图相对于其本地地平面的。我们的新参数化是相对于地面的，如图所示。2. 参数a-=（ci ，i，i，cj ，cj ，cj ，j，j，j）。（一）如图所示，我们定义了一个局部坐标系，其中相机i位于原点正上方，光轴与y轴对齐，并且地平面与z=0重合。因此，存在三个自由度对于摄像机i：滚转（Roll）（ Rolli ）和俯仰（Pitch）（Rolli）与局部地面的方向及其离地面的距离（c（z））。摄像机j由六个参数指定：cj=[c（x），c（y），c（z）]，j j j该平面具有9个自由度：3个自由度相对于第一摄像机限定平面，6个自由度相对于第一摄像机限定第二摄像机。在本节中，我们详细介绍了我们的地面相对. . . . . . . . . . . . . . . . . . . . . . . .. .. . . . . . . . . . . . . . . . . . . . . . . .. .. . . . . . . . . . . . . . . . . . . . . . . .. .. . . . . . . . . . . . . . . . . . . . . . . .. .. . . . . . . . . . . . . . . . . . . . . . . .. .. . . . . . . . . . . . . . . . . . . . . . . .. .. . . . . . . . . . . . . . . . . . . . . . . .. .扭曲正则坐标采样器5708旋转由横摇、俯仰和y a w（θj，θj和θj）定义。我们使用车辆运动以这种方式自然地表示，5709我我Cali、j01 0j jj简化了每个参数的先验。例如，在无偏运动序列上，面向前方且光轴平行于地平面对准的相机将具有零平均俯仰和滚转。我们强调，我们的表示- tation描述了两个摄像机相对于本地地平面的位置。这完全是局部参数化，其中它并不意味着局部地平面与全局z= 0平面对准，即重力的方向不一定与z轴对准因此，在小运动可以近似为平面运动的假设下，我们可以描述非平面运动序列。相机相对姿态是根据我们的地面相对姿态计算的，稍后将用于估计绝对姿态轨迹。此外，这对我们在第五节中提出的自我监督的第二阶段也很重要使用相机角度和中心，我们可以计算世界到相机的旋转和平移：R（，，）=Rz（）Rx（）Ry（）Rx（90○）t（c，n，n，n）=-R（n，n，n）c（2）世界坐标（z向上）通过固定旋转Rx（90○）转换为相机坐标（z与光轴对齐）。两个视图的世界到摄像机转换从我们的参数化（1）和（2）计算为：Ri=R（Rai，Rai，0），ti=t（[0，0，c（z）]>，Rai，Rai，0）（3）Rj=R（j，j，j），tj=t（[c（x），c（y），c（z）]>，j，j，j）如图在图2中，我们将摄像机i定义为正向（x-i= 0）并且直接在局部坐标系（c（x，y）= 0）上方。用于在相机i到j的坐标系之间变换的相机相对姿态由下式给出：Ri！j=RjR>i，ti！j=tj-Ri！（4）单应性将位于具有8 DoF的局部地平面上的两个视图我们的地面相对姿态的参数化（1）跨越9个自由度。比例模糊性解释了额外的维度，因为两个视图之间的单应性对于缩放地面相对平移（或等效地，地平面上方的相机中心）是因此，在全球范围内仅利用平面对应来估计地面相对姿态是不可行的然而，道路场景数据集（如KITTI [12]）通常包括参数的校准，如局部地平面上方的摄像机高度。此外，诸如加速、转弯、路面颠簸等的车辆运动可能导致安装的摄像机的高度变化。通过使用校准高度作为先验训练损失，我们软约束平均校准高度（以及因此尺度），解决未知尺度模糊性。此外，相机高度、滚动和俯仰的这些先验正态分布在校准值周围，因此我们可以处理小的变化。4. 预培训：通过感知损失学习请参照图1、我们分两个阶段训练网络。在这里，我们描述了使用先验和外观损失从头开始进行预训练的自监督方法。4.1. 培训前损失先验知识对于大多数道路场景数据集，相对于道路的平均相机高度、侧倾和俯仰是已知的。对于KITTI数据集，我们的运动模型假设θ和θ的平均值为零度，并且摄像机在道路平面上方的校准高度c（z）的平均值为1.65 me。这一变化是正态分布的。执行在这个运动模型中，我们使用先验损失函数：平面交叉投影我们建议在一个Lpri=（c（z）-c（z））2+（c（z）-c（z））2+2+2+2+2（七）通过交叉投影输入图像iCaljCali j i j进入对方的视角，形成一种外观上的一致性损失。这是直接的，由于我们的approption- tion的局部平面性。通过从我们的地面相对表示导出单应性，场景的主要平面部分，即道路，可以被准确地交叉投影。局部z= 0地平面上的点到相机k的变换由单应性给出：其中我们将相机高度、滚动和俯仰表示为c（z），对于每个摄像机对（i，j），i i，j和i i，j都是独立的。感知损失我们将一个输入图像交叉投影到另一个人的观点（通过Eqn。(6))并在它们之间形成感知损失以初始地自我监督我们的网络我们在两个图像之间使用对称的L2损失，并在2个尺度上求和以提高收敛性：Hk（Kk，Rk，tk）=Kk[RkS>tk]，S= 100米，（5）Lpe=XkVG25710我G（ds（Ij，s））-VGG（ds（Ii！j，s））k21（s）其中Rk，tk由（3）和Kk导出提供s=1Mj1摄像机内部然后，我们可以组合用于俯视同一平面的两个相机的两个同形-+kVG G（ds（Ii，s））-VGG（ds（Ij！i，s））k2（s）我（八）- PHY将图像i中的位置映射到地平面上的点以及图像j中的对应位置：嗨！j=HjH-1。（六）其中ds（I，s）是通过因子s对I进行的可微下采样，VGG是从VGG-16的前七个卷积层[26]（ImageNet预训练）中推断出的特征图M5711目标预训练光流网络预训练SegNet（离线）2i、j弯曲源H的图4.不可微单应性估计模块（见图1）：我们使用预先训练的光流网络来估计一个网络输入与经由地面相对姿态输出变换的对应输入之间的点对应。预先训练的语义分割网络隔离道路平面点，使得RANSAC可以用于鲁棒地估计道路平面单应性。以及M（s）是交叉投影图像中在尺度s的翘曲坐标内的像素的数量。可微分交叉投影是通过遵循空间Transformer网络[16]使用的采样方法实现的（见图1）。（3）第三章。特别是，可微双线性利用采样，其中交叉投影图像Ii！j是通过将来自摄像机i的图像Ii扭曲到摄像机j的视角中而形成的。首先，我们使用姿态参数（1）从网络输出计算一个逆同伦-p h yHj！i与（5）和（6）。其次，我们通过组合坐标，形成齐次坐标矩阵XR3 <$HW在一个规则的网格中标出通过应用Hj！对于每个坐标，我们形成变换坐标的网格。最后，我们在变形坐标处使用可微双线性采样来采样图像Ii：Ii！j=样本（Ii，Hj！iX）。总损失为预先训练我们的网络形成从感知损失和先前损失的加权（选择为平衡两项）和：Ltotal=w1Lpe+w2Lpri，其中w1= 1，w2=287000。有关体系结构和进一步培训的详细信息，请参阅补充材料5. 培训后：循环中的模型拟合在上一节中，我们依靠网络来学习基于感知损失的图像到单应性函数，其中后向梯度必须相干地通过双线性采样器。在本节中，我们展示了我们可以直接从图像对中提取单应性，然后利用场景的基本知识，将其分解为相机相对姿态，以直接监督网络并在测试时估计相机相对姿态。预测成分分割光流图5.光流和分割网络的性能其对应的目标j。为了简单起见，我们选择使用预先训练的光流网络（FlowNet 2 [15]）来估计Ij和Ii之间的流量！j，但它是值得注意的可以采用用于特征匹配的其它方法我们从源点Ps的规则网格中计算像素目的地点Pd为Pd=Ps+OF （ Ii ！ j ， Ij ），其中 OF 表示使用FlowNet2的推断多个场景部件可以包含平面性（例如，卡车、建筑物），这可能与来自图像对的单应性估计相冲突我们通过使用预先训练的语义分割网络过滤非道路像素来显式隔离道路平面[36]：P（road）=maskroad（Ps），P（road）=maskroad（Pd）5.1. 单应性估计模块（HEM）S哪里D掩码道路表示滤除非道路像素。（九）图 4说明了我们的方法，其中我们使用直接在不可微模中用于估计Ii！j和Ij。我们用方程（1）从网络输出φ中形成一个均匀图Hφ六、其用于将源图像I扭曲成透视图在原始未变形图像上计算一次（离线）分割。光流被应用于整个变形和目标图像，并随后被掩蔽。此外，路面仍然是在一个自然的角度后，翘曲和扭曲的非平面区域似乎没有RANSAC5712{}！！！！I jI j我！J！我！J我！J埃普思DOF.Inpet+分期的Seq. 9Seq. 10方法D6SNS犯错误犯错误吃犯错误犯错误吃LTMVO [37]333333.490.01011.305.810.01811.80TBG [34]337336.930.004-4.660.006-[24]第二十四话333376.920.01829.07.970.03113.77[32]第三十二话3333728.720.098158.423.900.09043.04SfM [35]333378.280.03124.3112.200.03020.87SC-SfM [5]3377711.200.034-10.100.050-单2 [13]3377711.470.03255.477.730.03420.46我们的（PLoss mono 2-net）7777716.690.05858.8816.720.07132.0我们的（PLoss）7777711.300.04328.6811.660.06016.48我们的（HEM测试）737776.130.01715.737.380.03311.80HEM Train（英语：HEM Train）777737.140.02316.278.580.03111.72我们的（HEM训练+测试）737736.530.01819.657.190.03712.77表1.KITTI的目视里程计结果其中，rerr（○/m）和rerr（○/m）分别为平移误差和旋转误差来破坏光流精度。图5显示了光流和分割在我们的情况下工作得很好（参见补充材料以获得其他结果和流键）。基于道路平面语义分割的允许为估计许多对应分但这包含大量噪音。因此，我们利用OpenCV RANSAC例程[2]来鲁棒地拟合HO-RANSAC。训练或测试时的mographic模型：HOF=RANSAC（P（road），P（road））. 这里的一个缺点是，在实践中，我们使用OpenCV实现[1]获得了这四种可能的解决方案。我们使用领域知识来排除这四种可能性中的三种。一般来说，这些法线中的两个往往是负的y分量，一个物理上不可能的-是的为了在剩余的两条法线之间进行选择，我们选择最接近（0，1，0）T的法线（假设相机总是近似垂直于路面），并采取相关联的相机相对姿态sd（OF）（OF）需要来自网络的合理的初始单应性以用于I j和I i之间的良好光流！J. 这很容易是Rij，ti j作为我们的精确解。最后，我们可以用损失来微调我们的网络通过使用我们预先训练的网络从感知损失中实现。单应性HOF是表示-LHEM=kR✓我！J-我！（10）第二我们应该如何更新原始的单应性COM-从我们的网络H* *(1)和（6）），我们更新为：H（OF）=H<$HOF。我！J5.2. 单应分解虽然有可能计算出H和H（OF）之间的损失，以便向网络提供自监督信号，但我们的经验是，它是无效的。相反，我们发现我们通过将H（OF）分解为可用于直接监督网络输出的相机相对姿态参数来实现性能的提高。一般来说，任何单应性都可以通过使用Malis和Vargas [21]的分析方法作为H（OF）的封闭形式解分解为四种可能的平面相对姿态！ {R（OF），t（OF），n}k，其中我们有摄像机-相对旋转和平移Ri！j和ti！j，实际上，平面法线n与单应性H（OF）相关，（OF）RT-Ik+kt（OF）我！J2我！J5713其中，i！j，t，i！j}是来自等式1的输出姿态。（四）、6. 实验我们使用KITTI VO数据集[12]评估我们的姿势估计管道，并在原始数据集上进行训练，省略了通常用于测试的序列09和10。训练对在所有序列上进行混洗。我们训练和测试对由目标It和源Is组成由零到四个相邻帧分隔的图像如图所示1，我们在两个连续的阶段训练几何匹配网络首先，我们使用第4节中概述的感知损失（称为PLoss）进行预训练其次，我们使用第5节中描述的HEM损失（称为HEM Train）来改进PLoss模型。另外，我们在测试时将HEM应用于PLoss（称为HEM测试）。最后，我们在测试时将HEM应用于HEM训练模型（称为HEM训练+测试）。在使用这些日益完善的模型来推断且k=0，1，2，3I j它表示可能的解决方案。在在测试序列上的相对姿态，我们使用trans-pose方法5714伪地面实况物理损耗HEM-Train+测试图6. KITTI定性结果，最佳放大视图。图像是一个网络输入与其扭曲的对端的组合左：地面实况，其中我们假设地平面交叉投影的固定先验值中间：我们的完整地面相对姿势结果与感知损失预训练。右：我们的HEM在训练和测试时应用于PLoss预训练模型。图7.序列09和10上路径长度的平移和旋转误差。我们比较了训练前的感知损失（ PLoss ），训练后的 HEM （ HEM-Train）以及测试时的额外应用（HEM-Train+Test）。Arrigoni et al.[4]（概述于相机相对姿态，需要相邻或顺序输入用于推断或训练，训练用于密集估计的附加网络（例如，光流、可解释性掩模、回流模块），并且需要分阶段的训练过程。虽然我们确实使用预先训练的网络来进行感知损失，光流和分割，但这只是用于推理而不是训练。虽然LTMVO [37]和TBG [34]执行最准确，但它们的方法更具限制性和结果表明，使用我们的HEM进行训练可以显着提高我们的网络性能我们的方法与领先的自我监督方法具有很强的竞争力，同时保持灵活性和不受约束。此外，我们的方法易于训练，易于使用，并且我们可以处理任意姿势变化（例如，在接合处的相对端）。此外，我们还表明，使用我们的PSoss方法和Monodepth 2 [13]姿势网络产生的结果比我们使用的匹配网络要差得多。此外，我们注意到，使用标准的像素损失很难训练。接近的竞争对手（LTMVO，TBG和CC）试图同时学习密集深度，光流和姿态网络的鲁棒特征，以估计成千上万的参数-我们使用单个网络仅估计9个参数（大大简化了训练），同时表现出色或表现非常有竞争力。此外，LTMVO LSTM模块容易过拟合，对权重初始化敏感，内存密集，并且可能需要延长的训练时间。TBG [34]和CC [24]在很大程度上依赖于训练多个网络来进行场景和运动重建，这对准确训练是一个挑战。我们已经评估了试验序列中梯度变化更快的特定部分的轨迹（高度与水平距离），如图11所示。9，在道路场景强烈倾斜的情况下显示出准确的对于每个图像对，我们假设路面是局部平面的-我们仍然可以处理梯度变化的场景，并且有效地适应补充材料）以获得绝对姿态BRbi 和通过一系列平面补片来接近曲面。在实践中，道路安全施工指南[3]ti用于VO评估。由于我们提出的方法不依赖于在任何直接监督方面，我们的比较集中在铅-这是完全自我监督的方法，只依赖于一个单一的相机。在表1中，我们提供了序列09和09的 VO评分。10. 我们使用 KITTI 基准平移（ % ），旋转误差（deg/m）和绝对轨迹RMSE（m），如[37]中所示平移和旋转误差被测量为在所有可能的连续性（100，.，800)（详见[12]）。我们与领先的单目自监督方法进行比较，并显示这些方法之间的关键差异，这些方法封装了各种级别的约束和方法复杂性。从左到右，方法分为：训练密集深度网络，仅估计6 DoF足够的排水拱度似乎是在大多数情况下，道路将平滑地倾斜，而不超过1/12的最大坡度。此外，任何离群值将由鲁棒变换同步算法[4]处理，该算法另外不依赖于场景假设，并且准确地处理非平面绝对轨迹。定性结果见图。6.我们使用伪地面实况，因为我们使用相机相对地面实况，并使用相机高度和旋转的假定固定先验将其转换为地面相对。在第一个示例中，地面实况表现不佳（可能是由于相对于地面的未知滚动），在我们的PLoss版本中，道路线（绿色）等特征对齐，但其他特征全局未对齐（红色），尽管我们的HEM方法显著5715地面实况SfMLEarner单深度2LTMVOCC我们的HEM-Train+测试5004003002502001505004003002001000-200电话：+86-021 - 88888888传真：+86-021-88888888x（m）100500-50-100-150-200900 100 200 300 400 500600x（m）3002001000-400-300两百-1000100200300x（m）300801507020060501004010050030020-100100-50-100-150-200电话：+86-21 - 6666666传真：+86-21-66666666x（m）-10电话：+86-020 -88888888传真：+86-020 - 88888888x（m）-100-50050100150x（m）200250300350图8.序列09、10、11、13、14和15的KITTI视觉里程计轨迹。我们与领先的自监督方法进行比较，序列11，13，14和15在训练和测试时应用我们的单应性估计模块（HEM-Train+Test）实现了非常有竞争力的性能。对于序列09和10，我们比较了我们的训练方法：单独的预先训练的感知损失（PLoss），以及在训练（HEM-Train）和测试时间（HEM-Train+Test）时使用我们的单应性估计模块（HEM）的后训练。10-1-60-50-40-30-20-100x（m）-4-6-8-10-550-500-450-400-350x（m）30-2-320-410- 5-260-240-220-200-180-160一百四十z（m）-6-4-2 0 2 4x（m）图9.在梯度变化迅速的情况下，垂直轨迹保持稳健我们有效地将一系列平面拟合到弯曲的路面上。纠正这些错误。示例显示出越来越多的细化，特别是在倒数第二个示例中，尽管我们的PLoss已经找到了合适的旋转并且在估计准确的平移时失败，但是我们的HEM能够正确地恢复准确的变换。最后一个例子显示了一个失败的情况下，我们的HEM方法是无法实现对齐（见井盖），可能是由于过度眩光的道路平面，导致高平移误差。总之，PLoss模型在视觉上表现得非常好，但倾向于在一个方向上不对齐特征HEM细化能够校正这些误差，但可能容易出现照明问题，例如动态阴影（例如，见图的最后两个例子。5用于由于移动车辆的阴影而导致的不一致）。在图7中，我们显示了平移和旋转误差如何随序列09和10上的轨迹路径长度而变化。一般来说，每种方法都会细化误差，但有趣的是，我们观察到在测试时应用HEM后，序列10上的旋转误差更高。在图8中。我们示出了对基准测试集以及序列09和10上的三个轨迹的预测。对于基准序列，我们比较领先的自我监督的方法。我们的方法非常有竞争力，特别是在序列14上，测试图像与其余的测试序列非常不同，并且在序列13上非常具有挑战性，具有显著的转弯和高度变化。7. 结论我们提出利用已知的局部平面几何形状的道路场景与9D地面相对姿态，以大大简化学习过程，并使两个新的超视信号。我们说明了通过地平面从交叉投影图像的初始外观损失监督。此外，据我们所知，我们是第一个采用不可微的在环单应性细化作为相对姿态估计的自我监督的来源此外，我们还证明了将单应模型直接拟合和分解到道路平面可以在训练期间生成姿态伪标签，此外，在推理时，这允许独立于网络进行额外的细化，解决数据集偏差。我们在KITTI VO数据集上评估了我们的方法，并显示出与领先的自监督方法非常有竞争力的结果，这些方法严重依赖于密集深度或光流的参数化学习。对于未来的工作，我们计划将我们的方法的平面约束扩展到更复杂的几何模型，并利用更丰富的语义理解。地面实况PlossHEM-TrainHEM-Train+测试地面实况PlossHEM-TrainHEM-Train+测试地面实况SfMLEarner单深度2LTMVOCC我们的HEM-Train+测试地面实况SfMLEarner单深度2LTMVOCC我们的HEM-Train+测试地面实况SfMLEarner单深度2LTMVOCC我们的HEM-Train+测试y（mz（mz（mz（my（mz（my（mz（mz（my（m5716引用[1] OpenCV：decomposeHomographyMat. https：//docs.opencv.org/3.4/d9/d0c/groupcalib3d.html#ga7f60bdff78833d1e3fd6d9d0fd538d92.访问时间：2022年10月19日。[2] OpenCV：findHomography. https://docs.opencv的网站。org/3.4/d9/d0c/groupcalib3d.html#ga4abc2ece9fab9398f2e560d53c8c9780.完成日期：2022年10月19日。[3] 道路/现场交通管制/车辆固定。https://www.hse.gov.uk/comah/sragtech/techmeffic.htm。访问时间：2022-08-26。[4] Federica Arrigoni、Beatrice Rossi和Andrea Fusiello。SE（3）中多视图的光谱同步。SIAM Journal on ImagingSciences，9（4）：1963[5] Jiawang Bian，Zhichao Li ，Naiyan Wang，HuangyingZhan，Chunhua Shen，Ming-Ming Cheng，and Ian Reid.来自单目视频的无监督尺度一致深度和自我运动学习。神经信息处理系统的进展，32：35[6] 本杰明·比格斯，奥利弗·博因，詹姆斯·查尔斯，安德鲁·菲茨吉，罗伯托·西波拉。谁把狗放外面了？循环中期望最大化的3D动物重建。欧洲计算机视觉会议，第195-211页。Springer，2020年。[7] Vincent Casser、Soeren Pik、Reza Mahjourian和AneliaAngelova。没有传感器的深度预测在AAAI人工智能会议论文集，第33卷，第8001-8008页[8] Daniel DeTone，Tomasz Malisiewicz，and Andrew Rabi-novich. 深度图像单应性估计。 arXiv 预印本 arXiv ：1606.03798，2016。[9] 迪克和克鲁恩神经网络如何在单个图像中看到深度在ICCV，第2183-2191页[10] Haoye Dong ， Xiaodan Liang ， Xiaohui Shen ， BochaoWang，Hanjiang Lai，Jia Zhu，Zhiting Hu ，and JianYin.多位姿导引虚拟试穿网路之研究。在IEEE/CVF计算机视觉国际会议论文集，第9026-9035页[11] 拓峰、谷冻冰。SGANVO：无监督深度视觉里程计和深度估计与堆叠的生成对抗网络。IEEE Robotics andAutomation Letters，4（4）：4431[12] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在2012年IEEE计算机视觉和模式识别上，第 3354-3361 页。IEEE，2012。[13] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel J Brostow.深入研究自我监督的单目深度估计。在IEEE计算机视觉国际会议论文集，第3828-3838页[14] Ariel Gordon ， Hanhan Li ， Rico Jonschkowski ， andAnelia Angelova.来自野外视频的深度：来自未知相机的无监督单目深度学习。在IEEE/CVF计算机视觉国际会议的论文集，第8977-8986页[15] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变。在IEEE计算机视觉和模式识别会议的论文集，第2462-2470页[16] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。神经信息处理系统的进展，28：2017[17] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694-711页。施普林格，2016年。[18] Nikos Kolotouros ， Georgios Pavlakos ， Michael JBlack，and Kostas Daniilidis.学习通过循环中的模型拟合重建3d人体姿势和形状。在IEEE/CVF计算机视觉国际会议论文集，第2252-2261页[19] Ruihao Li，Sen Wang，Zhiqiang Long，and DongbingGu. UndeepVO：通过无监督深度学习的单眼视觉里程计。2018年IEEE机器人和自动化国际会议（ICRA），第7286IEEE，2018年。[20] Chenxu Lu

下载后可阅读完整内容，剩余1页未读，立即下载