没有合适的资源?快使用搜索试试~ 我知道了~
自监督深度视觉里程计:连续帧相关性和对抗学习的结合
2851自监督深度视觉里程计王顺凯李飞薛欣 *查 子科严宏斌北京大学机电工程学院机器感知教育部重点实验室-商汤机器视觉联合实验室{李顺凯,飞雪,欣旺顺顺,子科.严}@ pku.edu.cnzha@cis.pku.edu.cn摘要我们提出了一个自我监督的学习框架,视觉里程计(VO),结合了连续帧的相关性,并利用对抗学习。先前的方法将自监督VO处理为局部运动结构(SfM)问题,其通过最小化扭曲和捕获的图像之间的光度损失来从单个图像恢复深度并且从图像对恢复相对姿态。由于单视图深度估计是不适定问题,并且光度损失不能区分扭曲图像的失真伪影,因此估计的深度是模糊的并且姿态是不准确的。与以前的方法相比,我们的框架学习了帧到帧相关性的紧凑表示,并通过合并顺序信息进行更新。更新的表示用于深度估计。此外,我们将VO作为一个自我监督的图像生成任务,并利用生成对抗网络(GAN)。生成器学习估计深度和姿态以生成变形的目标图像。该方法利用高层次的结构感知来评估生成图像的质量 在KITTI和Cityscapes数据集上的实验表明,该方法在保持细节的情况下获得了更准确的深度,并且预测姿态的性能明显优于最先进的自监督方法。1. 介绍智能体理解3D环境并推断自我运动的能力对于许多现实世界的应用至关重要,例如自动驾驶[7],机器人[14] 和 虚 拟 / 增 强 现 实 [30]。 由 于 同 时 定 位 与 映 射(SLAM)和视觉定向(VO)问题在三维几何中有着明确的意义,因此VO/SLAM作为一个多视图几何问题已经被研究了几十年。这些经典的方法[11,12,15,25,29] perfor-平等贡献图1.我们的方法概述。该网络将光流提取到一个紧凑的代码中,LSTM将其合并以聚合历史信息并改进先前的估计。深度和姿态估计被视为一个图像条件生成任务,并提供作为输入信号的细化代码。几何推理被用来重建一个扭曲的图像,通过视图合成和评价。我在常规场景中表现良好,但在具有挑战性的条件下却失败了,因为它们固有地依赖于低级别的特征对应。由于深度学习通过提取高级特征来捕获结构化特征,因此已经应用了许多基于学习的VO方法来突破经典方法的限制[19,33,34,36,37,41]。然而,监督学习需要大量的标记数据,这是繁琐的或不切实际的获得。最近的工作一直试图通过以自我监督的方式耦合深度和姿态估计来解决这个问题[39,42]。由于图像序列是唯一的输入,所有的估计都应该映射到图像空间进行自我监督。该映射通常通过视图合成进行,并且定义了光度损失以最小化合成图像与真实图像之间的差异。在自监督VO中,深度和姿态的估计以耦合的方式同时学习,准确的深度有助于精确的姿态估计,反之亦然。关于自监督VO的先前工作从单个2852风景作为不适定问题,输出深度是模糊的,因此预测的姿态也是不准确的。然而,可以通过利用连续帧之间的相关性来消除深度估计中的然而,由于图像序列的数据冗余,它是不够的,整合的信息,多帧沿RGB通道堆叠它们。在本文中,我们提出学习帧之间相关性的紧凑表示(称为“代码”),并通过长短期记忆(LSTM)整合代码来积累顺序信息。该代码提供了连续帧的相关性,这有助于生成清晰的深度图并减少长序列上的累积误差。另一方面,不准确的深度和姿态会导致合成图像中的失真伪影(图11)。3),由于像素级对应性,难以通过光度损失来消除。为了准确地估计深度,需要一种新的具有结构感知的评价标准在本文中,我们将VO作为一个自我监督的图像生成任务来处理,并利用生成式对抗网络(GAN)[18]。生成器学习估计深度和姿态以合成变形图像,而判别器利用结构感知和更高层次的理解来评估合成图像的质量。这个双人游戏促使生成器估计更准确的深度和姿势,而机器人能够用结构感知区分失真伪影。我们的方法的概述如图所示。1. 不同于单视图估计,我们的方法产生清晰的深度与额外的信息,不能从一个单一的图像检索。通过将光流编码成紧凑代码来获得信息,并且通过LSTM合并和细化多个帧的代码整个框架被视为具有对抗学习的生成模型在训练过程中,时空一致性作为自我监督被强制执行。我们的论文的主要贡献可以总结如下:• 我们建议利用长序列的时空相关性,以显着减少估计误差和规模漂移的自我监督VO。• 我们将自监督VO视为生成模型,并利用对抗学习进行自监督姿势和深度估计。我们的方法优于国家的最先进的自我监督的方法显着,并给出了可比的结果与监督的方式。大量的实验证明了该模型的优越性。此外,具有时空一致性的自监督对抗学习的思想也可以为VO/SLAM和基于视频的计算机视觉研究带来启示。2. 相关作品人类能够在短时间内感知3D环境并推断自我运动,但智能体很难具备类似的能力。几十年来,VO/SLAM一直被认为是一个多视图几何问题传统上,它通过最小化摄影测量[12]或几何[29]重投影误差来解决,并且在规则环境中工作良好,但在具有挑战性的条件下失败,如动态对象和突然运动。鉴于这些局限性,近年来,人们利用学习技术对VO进行了研究,并提出了许多具有良好性能的方法。有监督的方法制定VO作为一个有监督的学习问题,并已提出了许多方法具有良好的效果DeMoN [33]以端到端的方式联合估计姿态和深度。受…的启发在经典的VO/SLAM中,Deep-TAM [41]利用两个网络进行姿态和深度估计。DeepVO [34]通过递归地估计姿势将VO视为序列到序列学习问题。监督学习的局限性在于它需要大量的标记数据。地面实况的获取通常需要昂贵的设备或高度人工标记,并且一些收集的数据是不准确的。LIDAR获得的深度是稀疏的,Kinect的输出深度包含大量噪声。此外,一些地面真理是无法获得的(例如,光流)。以前的工作试图用合成数据集解决这些问题[9],但合成数据和真实世界数据之间总是存在差距。自监督方法为了减轻对基础事实的依赖,最近已经针对VO提出了许多自监督方法自监督学习的关键是找到内在的关联和约束在训练数据中。SfMLEarner [42]利用深度和姿态的地理度量相关性来以耦合的方式学习它们两者,其中学习的掩模用于掩盖不满足静态场景假设的区域。作为第一个用于VO的自监督方法,SfMLEarner将深度和姿态估计与图像扭曲耦合,这成为最小化光度损失的问题。继承这一思想,已经提出了许多自监督VO,包括对损失函数的修改[22,26],网络架构[3,4,22,28,40],预测内容[39]以及与经典VO/SLAM的组合[5,38]。例如,GeoNet [39]扩展了框架,以联合估计具有前后一致性的光流,从而推断不稳定区域,并在自监督VO方法中实现了最先进的性能。尽管有其可行性,但自我监督VO的表现仍不及监督VO。除了直接监督的有效性之外,一个关键原因是他们主要关注几何性质[42],而很少关注问题的序列性质。在这些方法中,只有2853′在网络中处理几个帧(不超过5个),同时丢弃先前的估计,并且从头开始进行当前相反,性能可以通过考虑顺序观测的几何关系来增强我们的方法不同于以往的技术在formulat- ING自我监督VO作为一个顺序学习问题。帧到帧的相关性被表示为紧凑的代码,并且通过LSTM集成顺序信息。与普遍的单视图深度估计相比,我们的框架估计深度的代码条件是一个单一的图像和处理VO作为一个生成任务。通过对抗学习,我们的方法提供了更清晰的深度和更准确的姿态估计。3. 方法在本节中,我们将详细介绍我们的方法。整个框架由四个部分组成(图)。2)的情况。编码器从光流中提取高级特征,并在第二节中将其转换为紧凑的代码3.1,代码被聚合并在第3.1节中由LSTM进一步细化。3.2.生成器估计深度和姿态的条件下,细化代码和图像在第二节。3.3-3.4 在Sec.3.5判断合成视图的真实性。最后,在第二节中定义了训练中使用的损失函数。三点六3.1. 编码器视觉测距法估计连续图像对之间的相机运动。在经典的VO/SLAM中,这种估计是通过特征对应或光度一致性来计算的。与以前的直接从原始图像估计的自监督方法不同,我们为网络提供了用于深度和姿态估计的帧到帧对应的表示作为帧到帧对应的方式,可以通过计算连续图像之间的光流来获得每个像素的视差和运动在我们的框架中,我们计算光流[13]并将其提取到大小为128的紧凑表示(称为c t= C(F(I t−1,I t))。(一)提取的CT将与历史信息合并,并用作深度和姿态估计的侧输入3.2. 顺序信息聚合仅从几个帧估计深度和姿态容易产生误差累积和尺度漂移。问题在我们的框架中,我们使用LSTM [20]将VO建模为自监督顺序学习问题。作为递归神经网络(RNN)的一种扩展,LSTM引入了一个细胞来自适应地记忆和遗忘信息LSTM将当前帧It的代码ct融合到可预测信息中。直观地说,长期信息被记忆为先验信息,而短期记忆用于推断当前状态。通过递归单元的特征流携带了丰富的先前状态信息,使精细输出能够改善当前估计′ct,ht=U(ct,ht−1),(2)′其中ct表示包含历史信息的细化码,并且ht-1,ht是时间t-1的隐藏状态,t,分别。3.3. 深度估计在现有文献中,深度是从单个图像I估计的。D=D(I).(三)作为一个不适定问题,估计的深度在整体上是合理的,但在细节模糊。另一方面,简单地堆叠多个帧不会改善深度估计的结果[42]。为了获得清晰的深度,应该提供多个视图的相关性作为不能从单个图像检索的附加信息由于3D场景的高度有序性和规则性,深度可以通过具有单个图像的紧凑特征来有效地表示[6]。由于两帧的运动视差反映了场景中每个部分的距离,我们′提供细化的代码Ct作为深度估计的侧输入Dt=D(It,ct).(四)作为图像条件深度生成过程,由卷积层将It提取到特征图中,其′进一步与网络中的Ct级联然后随后是具有跳跃连接的上采样层。3.4. 姿态和掩模估计大多数自监督VO方法直接从图像回归姿势,但未能利用两个视图的深度。在经典方法中,通过RGBD配准来解决来自图像和深度的姿态回归,例如使用图像特征检测进行初始猜测和使用鲁棒3D对应进行姿态细化[23,31]。为了利用颜色和深度信息,我们将图像和深度图堆叠成2个RGBD图像,用于从t-1到t的可以通过利用长序列上的相关性来减轻。这种提法是呼吁自我监督ˆtt−1 =P((It−1,D<$t−1),(It,D<$ t))。(五)连续估计,因为它利用传入观测和时空一致性作为自我监督。不2854在获得姿态和深度之后,图像变形用于视图合成。的齐次坐标2855不图2.我们的框架的说明。编码器将两个连续图像的光流压缩成紧凑的代码,该代码由LSTM聚合和细化。DepthNet估计以细化代码和输入图像为条件的深度。估计的深度与图像连接用于姿势和掩模预测,而扭曲图像的真实性由鉴别器判断。鉴别器在测试阶段被排除。目标视图pt和源视图pt-1中的像素通过[42]pt−1KTt−1Dt(pt)K−1pt,(6)其中K表示相机固有函数。我们使用可微双线性采样作为[42]。 这样,合成的IM-年龄I和It可用于自我监督。然而,视图合成建立在场景是静态的而没有照明变化和遮挡的假设上,这在实践中经常被违反。为了克服这个问题,我们的框架学习预测每像素maskMtasabeliefinhowwsuccessfulatar getpixelis在视图合成期间渲染[42]。因此,加权光度损失为对遮挡、无纹理区域、动态对象和照明变化不鲁棒在这些具有挑战性的条件下,存在多个具有相似幅度的局部最小值。在训练过程中,网络往往会陷入其中任何一个,具有模糊的深度和错误的姿势,导致不准确的重建(图1)。(3)第三章。以前的一些研究已经意识到这个问题[39,40],并试图通过明确建模运动分割和光流来消除这个干扰因素,但取得的改进有限相反,失真伪影容易被鉴别器检测到。GAN取得的令人信服的结果已在许多图像生成任务中得到成功证明对抗性学习促使网络学习更灵活的分布,以解决欠拟合问题并克服梯度局部性。在自我-Lpho=Σ ΣMt(p)<$It(p)−It(p)<$1。(七)在有监督范式下,VO可以看作是一个条件图像生成任务pI=G(ctt−1,ct|I t−1,I t).(八)3.5. 鉴别器我 是分布p,我生成t′ ′真正考验光度损失在自监督VO中被广泛使用变 形 后 的 结 果 如 图 1 所 示 。 3. 尽 管 卷 积 神 经 网 络(CNN)提取高级特征以防止经典VO/SLAM中的低级特征问题,但是损失函数仍然基于像素级,而不是在具有更高级别理解的更大感受野上进行评估。由于像素级对应性和光度一致性假设,光度损失′′2856从ct-1,ct到潜在空间p码。在训练过程中,生成器试图欺骗识别器-通过生成更好的姿势和深度。与此同时,giv-作为辅助信息,该方法试图通过预测真实性概率D(I_t)来区分伪造者|It)。ADVERSARIAL训练克服了Eq.(7)产生精确的深度和姿势,而不需要预先准备。运动分割和光流的显式建模2857C不并且它们之间没有几何一致性。实际上,这些相对姿态可以通过沿着轨迹累积它们而被转换成统一的坐标。根据刚体变换,给定一组变换如A→B→C→D,A BTD满足以下约束[22]TB·TC·TD=TD,A B C ATB·TC=T C(十二)A B ATC·TD=TD,图3.根据估计的深度和姿态的变形图像的示例。顶行:捕获的图像,中行:SfMLEarner的扭曲图像[42],底行:扭曲了我们的方法可见,不准确的预测会导致B C B为了加强轨迹的一致性,我们每八帧扭曲图像上的失真伪影相比现有的LTC1ΣNΣp文献中,我们的方法合成更准确的扭曲图像。这个最小-最大博弈的价值函数可以用公式表示:Ni ii=1t∈[2,4,8]其中p(di+t)是直接从(Ii,根据[21]伊I+tLGAN= min maxV(G,D)ci)和(Ii+t,ci+t),pri是级联的6-DoF连续相对变换的姿态。G D GAN损失在等式中(9)作为辅助的自我监督= EItpreal[log(D(I t|It))]+(九)用于合成图像。最终损失函数为E′ ′C[lo g(1−D(I)t|It))]。t−1,ctp码3.6. 损失函数外观损失为了克服像素级对应问题,我们从加权光度损失和结构相似性度量(SSIM)[35]测量重建图像。Lap=Lreg(M)+(1−α)LphoLfinal=λaLap+λsLsmo+λtLTC+λgLGAN。( 十四)4. 实验在本节中,我们将介绍实施细节,并显示定性和定量结果与其他方法相一致。最后,消融研究是用来测试我们的框架中的每个组件的有效性+1αSSIM(I(x,y),I(x,y))、(十)4.1. 实现细节N2x为ohLreg(M)是一个正则化项,用于保证网络收敛到平凡解,在[42]中有详细说明。N是训练小批量中的图像数量SSIM的滤波器大小设置为10×10,α设置为0.85。深度的不连续性通常发生在存在强图像梯度的地方。类似于[4,40],我们引入了边缘感知的平滑损失,以加强深度1Σ如图2、我们的框架包括4个子网络。DepthNet和PoseMaskNet都由编码和解码部分组成。 编码器由步幅为2的6个卷积下采样层组成,并且解码器将提取的特征转换为具有解卷积层的深度或掩码深度和掩模都在4个尺度中预测。为了保留图像的高级和详细信息,在相应分辨率的编码器和解码器之间使用跳过连接同时,PoseMaskNet的编码部分也跟随着2个全连接层,以回归Eu-Lsmo=Nx为ohǁ∇xDˆ(x,y)ǁe−ǁ∇xI(x,y)ǁ+(十一)更小的角度和6-DoF姿态的平移。编码器和解码器遵循与(x,y)e−yI(x,y)。虽然基于LSTM的框架足以通过过滤掉连续变换之间的噪声来提供更准确的姿态,但估计的Tt−1仍 然是相对姿态。没有任何关系DepthNet的编码部分。从编码器提取的特征然后通过平均池化层以输出128通道向量。除输出层外,每一层均采用批量归一化和重逻辑单元.我 们 的 模 型 由 PyTorch [32] 在 单 个 NVIDIA GTX28581080Ti GPU上实现。所有子网络都经过训练2859方法监督数据集帽绝对相对值平方相对RMSERMSE日志δ1。25δ1。252δ1。253列车组均值-K80m0.3614.8268.1020.3770.6380.8040.894Eigen等人[10]粗深度K80m0.2141.6056.5630.2920.6730.8840.957Eigen等人[10]罚款深度K80m0.2031.5486.3070.2820.7020.8900.958Liu等[27日]深度K80m0.2011.5846.4710.2730.6800.8980.967[42]第四十二话-K80m0.2081.7686.8560.2830.6780.8850.957[28]第二十八话-K80m0.1631.2406.2200.2500.7620.9160.968[39]第三十九话-K80m0.1551.2965.8570.2330.7930.9310.973Zhan等[第四十届]立体声K80m0.1351.1325.5850.2290.8200.9330.971我们-K80m0.1501.1275.5640.2290.8230.9360.974Garg等人[16个]立体声K50m0.1691.0805.1040.2730.7400.9040.962[42]第四十二话-K50m0.2011.3915.1810.2640.6960.9000.966[28]第二十八话-K50m0.1550.9274.5490.2310.7810.9310.975[39]第三十九话-K50m0.1470.9364.3480.2180.8100.9410.977Zhan等[第四十届]立体声K50m0.1280.8154.2040.2160.8350.9410.975我们-K50m0.1460.9274.1070.2160.8190.9430.981[42]第四十二话-CS+K80m0.1981.8366.5650.2750.7180.9010.960[28]第二十八话-CS+K80m0.1591.2315.9120.2430.7840.9230.970[39]第三十九话-CS+K80m0.1531.3285.7370.2320.8020.9340.972我们-CS+K80m0.1361.0645.1760.2890.8300.9420.976表1.通过Eigen等人的分裂,在KITTI数据集上得到了单节点深度估计结果。[10]第10段。K和CS分别指KITTI和Cityscapes数据集。至于监督,“深度”意味着在训练期间使用地面实况深度,“立体”意味着在训练期间使用具有两个相机之间的已知基线的立体图像序列,并且“-”意味着不提供监督。结果分别以80米和50米为上限。对于误差度量Abs Rel、Seq Rel、RMSE和RMSElog,值越小越好;至于准确性度量δ <1。25,δ <1。252和δ <1。25、价值越高越好。以自我监督的方式。在训练过程中,图像被调整为128×416,并应用数据增强(随机旋转、缩放、颜色抖动)以防止过度拟合。如WGAN [2]中所建议的,随机梯度下降用于鉴别器,并且Adam [24] opti.β1=0时,9,β2=0。99用于所有其他网络。 LSTM的长度设置为15,加权因子λa、λs、λt、λg分别设为0.75、0.1、0.14和0.01。训练批量大小设置为4,权重衰减为3×10−4,迭代次数为100,000次。 最初的学习-每15,000人的死亡率设定为10−4,减少一半迭代 网络会以速度每帧18毫秒。4.2. 深度估计我们把Eigen等人的分裂。[10]并使用单眼图像来训练和测试深度估计。通过将稀疏激光扫描的深度点投影到图像中来获得地面实况深度,并且将深度预测插值为与地面实况相同的大小以进行评估。为了解决比例模糊问题,预测深度乘以比例因子以将中值与地面实况匹配。根据[17]中的评价方案,最大深度的50 m和80 m阈值均用于评价。与以前的方法一样,我们还在Cityscapes数据集[8]上对网络进行了预训练,并在KIT-TI上进行了微调,以测试其在不同环境中的适应性。我们提供了与具有深度监督的相关作品[10]或具有已知相机基线的校准立体图像进行自我监督的比较所示表1中,我们的方法优于所有的自我监督的方法,并实现了与监督的结果相当。特别是,KITTI和Cityscapes数据集不仅在场景内容上不同表1的底部行中的结果表明,我们的方法在不同的环境中通用性很好。由于增强的边缘和细节只占深度图的一小部分,因此深度精度的提高有限。图4示出了通过不同方法估计的深度的定性示例。可以看出,有些方法在恢复汽车的深度时存在困难,并且会错误地判断几个物体的深度由于代码提供了帧到帧的对应关系,与单视图深度估计方法相比,我们的方法产生了更清晰的深度。此外,受益于对抗学习,估计深度保留了边界和薄结构,这在细节上更准确。4.3. 姿态估计此外,我们将我们的方法应用到KITTI里程计数据集的姿态估计。该数据集包含11个具有地面真实姿势的驾驶场景。为了进行公平的比较,我们遵循与[39,42]相同的训练/测试划分,使用序列00-08进行训练,09-10进行测试。使用绝对轨迹误差(ATE)的平移和旋转的姿态估计的性能进行评估。我们的方法与SfMLEarner [42],GeoNet [39],Vid2Dpeth [28],Zhan等人进行了比较。[40]以及经典SLAM中的代表性框架ORB-SLAM(简称)是通过跟踪模块实现的,2860图4.从KITTI数据集上的测试中选择的深度估计我们的方法表现出更好的预测细节结构,低纹理区域和阴影区域比其他自监督VO方法。估计的深度在近距离和远距离区域都很清楚方法Seq.09Seq.10[29]第二十九话:0.064±0.1410.064±0.130[29]第二十九话:0.014±0.0080.012±0.011[42]第四十二话0.021±0.0170.020±0.015[42]第四十二话0.016±0.0090.013±0.009Zhan等[第四十届]0.013±0.0090.013±0.008[28]第二十八话0.013±0.0100.012±0.011[39]第三十九话0.012±0.0070.012±0.009我们0.0030±0.00140.0029±0.0012表2. KITTI里程计数据集中序列09和10的绝对轨迹误差(ATE)。我们的方法优于所有其他基线的一个很大的保证金。图5. KITTI数据集上不同方法的轨迹。我们的方法在旋转和平移两方面都表现出更好的测距法。cal光束法平差和ORB-SLAM(full)处理具有环闭合和全局光束法平差的整个序列两种版本的ORB-SLAM都使用单一比例尺的地图,这有利于获得具有一致比例尺的精确轨迹为了解决单目VO中的比例模糊问题,使用比例因子将图像与地面实况对齐[40]。如表2所示,我们的方法显著优于所有其他基线,序列09-10的轨迹绘制在图2中。5.此外,尽管LSTM只能处理有限数量的帧,但我们的方法仍然比ORB-SLAM(完整)更好,无需任何全局优化(例如循环闭合,束调整和重新定位)[29]。这表明,我们的方法是能够产生准确的姿态估计,通过将短期对应和长期里程计中的依赖性4.4. 消融研究为了研究每个组件的重要性,我们对我们的方法的各种版本进行消融研究基线是我们的框架,去除了代码、LSTM、轨迹一致性损失和冗余。所有实验均在KITTI数据集上进行,结果示于表3、4和图3中。六、如图如图6(b)所示,单视图深度估计容易被RGB图像中的纹理和颜色分布误导。极深不复,天深以颜色相近,以为与白壁相同。相比之下,我们的方法通过考虑额外的信息来避免这些该代码对帧到帧对应进行编码,这提供了深度估计的显著改进。恢复的深度在轮廓上更加清晰,并且在近距离和远距离区域都保留了微小的对象。此外,对抗性学习进一步提高了性能,2861方法数据集帽绝对相对值平方相对RMSERMSE日志δ1。25δ1。252δ1。253基线K50m0.2181.4625.8370.2750.7230.9080.967基线+代码K50m0.1621.1784.5330.2360.8110.9330.973基线+代码+GANK50m0.1520.9374.1200.2170.8160.9390.979基线+代码+LSTMK50m0.1480.9394.2710.2170.8160.9410.977基线+代码+GAN+LSTMK50m0.1500.9314.1160.2160.8190.9430.979Baseline+code+GAN+LSTM+TCK50m0.1460.9274.1070.2160.8190.9430.981表3.我们的方法的各种版本的深度估计的消融研究。基线表示我们的框架没有代码,LSTM,鉴别器(即GAN)和轨迹一致性(TC)损失。图6.消融研究我们的方法的深度估计B表示我们的基线方法,这是我们的框架,没有代码,LSTM,鉴别器(即GAN)和轨迹一致性(TC)损失。5. 结论表4.消融研究姿态估计的各种版本,我们的方法对KITTI序列09和10。B表示基线。时间信息实际上改善了深度。至于表4中的姿态估计,我们的基线方法比文献中的其他自监督VO方法(表2)表现得好得多这可能主要是因为联合使用深度和图像进行姿态估计(E-1)。Q.(5))。此外,LSTM结合了多帧的历史信息,从而轨迹一致性的实施也带来了有希望的改进,因为它在多个姿态估计之间实施几何一致性由于深度主要在边缘和细节上得到改善,这占据了很小的比例,因此精度增益有限。然而,改进的细节是非常重要的RGBD匹配的姿态回归。因此,深度精度的轻微我们提出了一个自我监督的VO框架,减少了长序列的累积误差,以实现准确的姿态和深度估计。该框架利用连续帧间的时空一致性,以自监督的方式结合历史信息来减少估计误差此外,我们建议通过GAN范式将VO作为一个自监督我们的方法优于文献中的自我监督和传统VO基线,消融研究验证了我们框架中每个组件的有效性。在未来,我们将把我们的框架扩展到无监督的端到端SLAM。这也是值得研究的代码学习我们的框架,这可能有助于语义分割,表面法线估计和密集的三维重建。此外,开发一种自监督的在线细化技术,以适应 地 学 习 新 的 环 境 中 飞 行 也 是 一 个 有 趣 的 问 题VO/SLAM和其他三维计算机视觉研究。致 谢 。 本 研 究 得 到 国 家 重 点 研 究 发 展 计 划( 2017YFB1002601 ) 和 国 家 自 然 科 学 基 金(61632003,61771026)的资助。方法Seq.09Seq.10基线0.0072±0.00250.0070±0.0023B+码0.0069±0.00210.0065±0.0020B+code+GAN0.0064±0.00190.0062±0.0019B+代码+LSTM0.0045±0.00150.0043±0.0015B+code+GAN+LSTM0.0036±0.00130.0036±0.0012B+code+GAN+LSTM+TC0.0030±0.00140.0029±0.00122862引用[1] 菲利波·阿莱奥蒂,法比奥·托西,马特奥·波吉,斯特凡诺·马特托西亚.用于无监督单目深度预测的生成对抗网络。在ECCV,2018。[2] 马 丁 ·阿 乔 对 ky , 苏 米 特 ·钦 塔 拉 和 Le'onBottou 。Wasserstein生成对抗网络ICML,2017。[3] V Babu , Anima Majumder , Kaushik Das , SwagatKumar,et al.深入了解UnDEMoN:用于深度和自我运动 估 计 的 无 监 督 深 度 网 络 。 arXiv 预 印 本 arXiv :1809.00969,2018。[4] V Madhu Babu,Kaushik Das,Anima Majumdar,andSwagat Kumar.UnDEMoN:用于深度和自我运动估计的无监督深度网络在IROS,2018年。[5] Dan Barnes , Will Maddern , Geoffrey Pascoe , andIngmar Posner.分心:城市环境中鲁棒单目视觉里程计的自我监督分心学习。在ICRA,2018年。[6] Michael Bloesch、Jan Czarnowski、Ronald Clark、StefanLeutenegger和Andrew J Davison。CodeSLAM:学习密集视觉SLAM的紧凑,优化表示在CVPR,2018年。[7] 陈 晨 毅 , 阿 里 · 谢 夫 , 阿 兰 · 科 恩 豪 泽 , 肖 健雄 .DeepDriving : LearningAffordanceforDirectPerception in Autonomous Driving.在ICCV,2015年。[8] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Tim-oBuckfeld , MarkusEnzweiler , RodrigoBenenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的城市景观数据集在CVPR,2016年。[9] Alexey Dosovitskiy,Philipp Fischer,Eddy Ilg,PhilipHauss- er,Caner Hazirbas ,Vladimir Golkov, PatrickVan Der S-magt , Daniel Cremers , and ThomasBrox.FlowNet:用卷积网络学习光流。在ICCV,2015年。[10] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度在NIPS,2014。[11] Jakob Engel,Vladlen Koltun,and Daniel Cremers.直接稀疏测距法。IEEE Transactions on Pattern Analysis andMachine Intelligence,40(3):611[12] Ja k obEngel,ThomasScho¨ ps,andDanielCremers. LSD-SLAM:大规模直接单眼SLAM。2014年,在ECCV。[13] 贡纳·法尼贝克基于多项式展开的两帧运动估计斯堪的纳维亚影像分析会议,2003年。[14] Christian Forster , Simon Lynen , Laurent Kneip , andDavide Scaramuzza. 与 多 个 微 型 飞 行 器 协 作 的 单 目SLAMInIROS,2013.[15] ChristianForster , MatiaPizzoli , andDavideScaramuzza.S-VO : 快 速 半 直 接 单 眼 视 觉 里 程 计 。InICRA,2014.[16] Ravi Garg,Vijay Kumar BG,Gustavo Carneiro,and IanRei-D.用于单视图深度估计的无监督CNN:拯救几何在ECCV,2016年。[17] C le'mentGodard , OisinMacAodha , andGabrielJBrostow.具有左右一致性的无监督单目深度估计。在CVPR,2017年。[18] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing X-u 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成对抗网络。在NIPS,2014。[19] Joao F Henriques和Andrea Vedaldi。MapNet:一种用于环境测绘的空间存储器。在CVPR,2018年。[20] SeppHochr eiter 和 J ür genSchmidhube r. 长 短 期 记忆.Neural Computation,9(8):1735[21] Phillip Isola,Junyan Zhu,Tinghui Zhou,and Alexei AE-fros. 使 用 条 件 对 抗 网 络 的 图 像 到 图 像 翻 译 。 在CVPR,2017年。[22] Ganesh Iyer , J Krishna Murthy , Gunshi Gupta ,Madhava Krishna,and Liam Paull.自我监督端到端视觉里程计的几何一致性。2018年在CVPR工作室[23] Christian Kerl,Jurgen Sturm,and Daniel Cremers.用于RGB-D相机的密集视觉SLAM。InIROS,2014.[24] Diederik P Kingma和Jimmy Ba。亚当:一种随机优化方法。2015年,国际会议[25] Georg Klein和David Murray。照相手机上的并行跟踪和ISMAR,2009年。[26] Ruihao Li,Sen Wang,Zhiqiang Long,and DongbingGu. UndeepVO:通过非监督深度学习的单眼视觉里程计。在ICRA,2018年。[27] Fayao Liu,Chunhua Shen,Guosheng Lin,and Ian Reid.使用 深度 卷积神 经场 从单目 图像 学习深 度。IEEETransactionsonPatternAnalysisandMachineIntelligence,38(10):2024-2039,2016。[28] Reza Mahjourian,Martin Wicke,and Anelia Angelova.使用3D几何约束从Monocular视频中进行深度和自我运动的无监督学习在CVPR,2018年。[29] Raul Mur-Artal,Jose Maria Martinez Montiel,and JuanD Tardos. ORB-SLAM:一种通用的、精确的单通道SLAM系统。IEEE Transactions on Robotics,31(5):1147[30] Richard A Newcombe、Shahram Izadi、Otmar Hilliges、David Molyneaux 、 David Kim 、 Andrew J Davison 、Pushmeet Kohi、Jamie Shotton、Steve Hodges和AndrewFitzgibbon。KinectFusion:实时密集表面映射和跟踪。ISMAR,2011年。[31] Jaesik Park,Qian Yi Zhou,and Vladlen Koltun.彩色点云配准再访。InICCV,2017.[32] Adam Paszke、Sam Gross、Soumith Chintala和GregoryChanan。PyTorch https://github.com/pytorch/pytorch,2017.[33] Benjamin Ummenhofer、Huizhong Zhou、Jonas Uhrig、Niko-laus Mayer 、 Eddy Ilg 、 Alexey Dosovitskiy 和Thomas Brox。DeMoN:用于学习单目立体声的深度和运动网络。在CVPR,2017年。[34] Sen Wang , Ronald Clark , Hongkai Wen , and NikiTrigoni. DeepVO
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 基于Springboot的医院信管系统
- 基于Springboot的冬奥会科普平台
- 基于Springboot的社区医院管理服务系统
- 基于Springboot的实习管理系统
- TI-TCAN1146.pdf
- 基于Springboot的留守儿童爱心网站
- S32K3XXRM.pdf
- Ansible Automation Platform 快速安装指南 v3.8.1
- Ansible Tower 发行注记 v3.8.1-76页
- C语言笔记-考研版(进阶)
- Design_of_Analog_CMOS_Integrated_Circuit20200602-85440-9wt61m-with-cover-page-v2 (1).pdf
- Ansible Automation Platform 安装和参考指南 v3.8.1-59页
- 浅析5G技术在工业互联网领域的应用研究
- 查重17 岑彩谊-基于otn技术的本地承载网-二稿 .docx
- 自考计算机应用基础知识点.doc
- 数据库系统安全、技术操作规程.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功