没有合适的资源?快使用搜索试试~ 我知道了~
185750t-1超越追踪:深度视觉里程计的记忆选择和姿势优化北京大学2中航工业北京长城航空测控研究所3北大-商汤机器视觉联合实验室{feixue,xinwang cis,lishunkai,wangqiuyuan}@pku.edu.cnjerywangjq@foxmail.com,zha@cis.pku.edu.cn摘要大多数以前的基于学习的视觉里程计(VO)方法采取VO作为一个纯粹的跟踪问题。相比之下,我们提出了一个VO框架,通过合并两个额外的组件,称为内存和精炼。Memory组件通过采用自适应和高效的选择策略来保存全局信息。细化组件通过采用时空注意机制进行特征提取,利用存储在内存中的上下文改进先前的结果在KITTI和TUM-RGBD基准数据集上的实验表明,我们的方法比最先进的基于学习的方法有很大的优势,并且与经典的单目VO方法相比具有竞争力。特别是,我们的模型在具有挑战性的场景中,如纹理较少的区域和突然的运动,经典的VO算法往往会失败,实现出色的性能。1. 介绍视觉里程计(VO)和视觉同时定位和映射(V-SLAM)通过利用连续帧之间的一致性从图像序列中估计相机位姿。作为自动驾驶和机器人技术中的一项基本任务,VO已经被研究了几十年,并且已经开发了许多优秀的算法[7,8,10,20,30]。最近,随着卷积神经网络(CNN)和递归神经网络(RNN)在许多计算机视觉任务中取得令人印象深刻的性能[4,6,12,34],已经提出了许多端到端模型这些方法要么与CNN联合学习深度和自我运动[16,19,36,37,39],要么利用RNN引入时间信息[14,图1.概述我们的框架。与现有的基于学习的方法,制定VO任务作为一个纯粹的跟踪问题相比,我们引入了两个有用的组件,称为记忆和精炼。Memory模块通过采用自适应上下文选择策略来保存较长时间的信息细化模块通过采用时空特征重组机制来改善以前的输出。22,31由于深度图的高维度,帧的数量通常被限制为不超过5. 虽然时间信息是通过重现单元聚合的,但RNN无法长时间记住以前的观察结果[27],导致历史信息的使用有限此外,上述方法很少注意到传入的观测值的重要性,以改善以前的结果,这是至关重要的VO任务。由于小基线引起的几何不确定性(特别是对于手持设备),从图像片段直接估计相机运动容易产生大的误差因此,随着时间的推移,误差积累变得越来越严重,因为全局姿态是从逐帧姿态集成的。在经典的VO/SLAM系统中[20],本地地图、,−不218576根据在多达数百帧上的共同可见性图来建立,在该共同可见性图上执行光束法平差以联合优化所有对应的姿态。因此,以前的和新的观测值都被纳入优化,从而减轻了累积误差受经典VO/SLAM系统[7,20]的启发,我们引入了一个有效的组件,称为Memory,它可以自适应地保存累积的信息。由于采样频率高,帧间内容该算法采用直观有效的策略来减少冗余,而不是用蛮力来保持每个时间步的累积信息由于先前姿态的误差将随时间传播到当前估计,因此有必要细化先前结果内存包含更多的全局信息,可以自然地利用这些信息来优化以前的结果。因此,引入了一个Refining组件Refining模块通过将每个视图与Memory对齐来将全局姿态估计作为配准问题。时空注意机制被应用于存储在存储器中的上下文以用于特征选择。我们的框架的概述如图所示。1.一、编码器将成对的图像编码为高级特征。跟踪模块接受序列特征作为输入,使用卷积LSTM [25]将当前观察融合到累积信息中以保留空间连接,并产生相对姿态。跟踪RNN的隐藏状态自适应地保存在内存插槽中。Refining模块使用另一个卷积LSTM改进了以前的结果,使经过改进的结果能够通过递归单元来改进以下输出。我们的贡献可归纳如下:• 我们提出了一个新的端到端VO框架,包括跟踪、记忆和提炼组件;• Memory组件采用自适应的高效策略保存积累的信息;• 一个时空的注意力机制是用于提炼组件提取有价值的功能。我们的方法优于国家的最先进的学习为基础的方法,并产生竞争力的结果对经典的铝出租。此外,它在经典算法由于纹理不足或突然运动而失败的具有挑战性的条件下工作良好。本文的其余部分组织如下。节中2、讨论了单目里程计的有关工作。节中3、详细描述了我们的体系结构。所提出的approach的性能进行比较,与当前国家的最先进的方法在第二节。4.第一章我们在第二节结束了论文。五、2. 相关作品视觉里程计已经研究了几十年,并且已经提出了许多优秀的方法。传统上,VO通过最小化几何重投影误差[10,18,20]或光度误差[7,8,30]来解决。这些方法大多适用于常规环境,但在无纹理场景或突然运动等具有挑战性的场景中会失败。在CNN和RNN出现之后,VO任务已经用深度学习技术进行了探索。已经提出了许多方法来处理经典单目VO/SLAM系统中的挑战,例如特征检测[1],深度初始化[28,34],尺度校正[35],深度表示[2]和数据关联[3,17]。尽管它们的性能很好,但它们使用经典框架作为后端,因此不能以端到端的方式部署。本文主要研究基于学习的端到端单目虚拟现实系统。无监督方法模仿传统的运动结构,SfmLearner [39]使用光度误差作为监督信号从单目图像片段学习单视图深度和自我运动。遵循相同的场景,Vid2Depth [19]采用在估计的3D点云上执行的差分ICP(迭代最近点)损失,以加强两个连续帧的预测深度图的一致性GeoNet [36]从单目视图联合估计深度,光流和自我运动为了应对从单目图像序列恢复的运动的尺度模糊性 , Depth-VO-Feat [37] 和 Un- DeepVO [16] 扩 展 了SfmLearner的工作,以接受立体图像对作为输入,并利用已知基线恢复绝对尺度。尽管这些无监督方法打破了需要大量标记数据进行训练的限制,但由于光度损失的脆弱性,只能在序列中处理有限数量的连续帧,导致高几何不确定性和严重的误差积累。监督方法DeMoN [29]通过将结构从运动公式化为监督学习问题,以端到端的方式联合估计深度和相机姿势 。DeepTAM [38] 通 过 两个 单 独 的子 网 络 扩 展了DTAM [21],分别指示姿态和深度估计的跟踪和映射。DeMoN和DeepTAM都取得了很好的结果,但需要高度标记的数据(深度,光流和相机姿态)进行训练。MapNet [12]提出了一种用于定位的非中心空间记忆,但在合成环境中只能获得离散的方向和位置。VO可以通过RNN表示为顺序学习问题。DeepVO[31]利用LSTM [13]来18577为当前相对运动预测引入历史知识。基于DeepVO,ESP-VO [32]在统一的框架中推断姿势和不确定性。GFS-VO [33]考虑了特征对不同运动模式的可区分性,并使用双分支LSTM分别估计旋转和平移。此外,采用ConvL-STM单元[25]来保留特征的空间连接。还有一些其他的工作集中在通过施加相对姿态的约束来减少定位误差[4,14,22]。几何不确定性可以通过使用RNN或LSTM聚集更多的时间信息来部分减少不幸的是,RNN或LSTM在记忆长期历史知识方面受到限制[27]。在这里,我们通过自适应地保留作为记忆的当前单元的隐藏状态来扩展视野。因此,以前的有价值的信息可以继承的时间比只保持在单一的当前隐藏状态更长。此外,所有这些方法都忽略了新的观察的重要性,以改善前一个姿态,这是必不可少的VO任务。通过调整Refining模块,可以通过将过滤的特征与Memory对齐来更新先前的姿势。因此,进一步减轻了误差累积。3. 方法编码器提取高层次的功能,从连续的RGB图像在第二节。第3.1条跟踪模块接受连续的功能作为输入,聚合时间信息,灰,并产生相对构成秒。3.2. 跟踪RNN的隐藏状态被自适应地选择以构造记忆(Sec. 3.3)进一步细化第节中的先前结果。三点四分。我们设计的损失函数,同时考虑相对和绝对的位姿误差在秒。三点五3.1. 编码器我们利用CNN将图像编码为高级特征。 光流已被证明是有用的估计帧到帧的自我运动的许多当前的作品[22,31我们设计了基于Flownet的编码器[6]它预测两个图像之间的光流。编码器保留Flownet的前9个卷积层,将一对图像编码为1024通道2D特征图,并沿RGB通道连接。该过程可以描述为:X t=F(I t−1,I t).(一)Xt∈RC×H ×W表示时间编码器ConvLSTMSE3层、、− ,−,−图2.我们框架的跟踪模块是在卷积LSTM上实现的[25]。相对相机姿态由SE(3)层[5]从递归单元的输出中产生。时间信息被保存在隐藏状态中。3.2. 跟踪跟踪模块将当前观测融合到累积信息中,并计算两个连续视图之间的相对相机运动,如图所示。二、序列建模我们采用prevent LSTM [13]对图像序列进行建模。在这种情况下,通过循环单元的特征流携带丰富的累积-形成先前输入以推断当前输出。请注意,DeepVO [31]和ESP-VO [32]使用的标准LSTM单元需要1D向量作为输入,其中忽略了特征的空间结构。ConvLSTM单元[25]是LSTM的一种扩展,具有卷积下的卷积,在跟踪RNN中采用,用于保留视觉线索的空间公式,并扩展递归单元的容量,以记住更多的知识。可以通过以下方式控制循环过程:O t,H t=U(X t,H t−1).(二)Ot表示在时间t的输出。Ht和Ht−1是当前和最后一个时间步的隐藏状态。相对姿态估计相对运动可以直接从成对的图像中恢复。但由于短基线带来的几何不确定性,直接估计容易产生误差积累. 问题可以通过引入更多的历史信息来缓解。继承积累的知识,再流单元在每个时间步的输出自然用于姿态估计.SE(3)[5]层根据时间t的输出生成6自由度运动Pt,t-1。理论上,每个视图的全局姿态可以通过将预测的相对姿态整合为t由函数F从两个连续图像It-1和It。Qti=1 Pi,i−1P0(P0表示世界的原点姿态,H、W和C表示获得的特征图。[31]和ESP-VO [32]。 AC-然而,累积误差将变得越来越严重,18578′′t−1t−1t−1−1(一)(b)第(1)款(一)(b)第(1)款图3. (a)改进模块将当前观察与存储在存储器模块中的上下文对齐,以进行绝对姿态估计。(b)利用最后一个输出作为指导,重新组织上下文和当前观察结果。因此降低了整个系统的性能。然而,由于缺乏3D环境的显式几何表示,神经网络无法构建全局地图来帮助跟踪。幸运的是,时间信息记录在重现单元的隐藏状态中。虽然信息是短时的,但这些不同时间点的隐藏状态可以被收集并重新显示。图4.使用最后一个输出作为指导,从内存中提取特征我们考虑(a)中存储在存储器中的每个上下文和(b)中上下文的每个通道的相关性。3.4. 精炼一旦记忆被构建,精炼模块通过将相应的观察与记忆对齐来估计每个视图的绝对姿态,如图所示。3 .第三章。我们使用ConvLSTM采用另一个循环分支,使先前经过优化的输出能够通过循环单元来改进下一次估计,如下所示:组织为隐式映射的一部分(在第2节中讨论)。3.3)。OA,HA=UA(XA,HA)的情况。 (五)t t tt−13.3. 记住XA,OA和HA是输入,输出和隐藏状态,t t t记忆模块是一个神经模拟器,时间tHA表示时间t−1的隐藏状态。 U A地图通常用于经典的VO/SLAM系统[20]。考虑到LSTM不能长时间记住信息[27],我们显式存储不同时间点的递归单元的隐藏状态以延长时间跨度。一个简单的选择是通过将整个序列上的所有隐藏状态存储为 M={m1,m2,...,m N-1,m N},其中m i表示序列中的第i个隐藏状态,N是隐藏状态的大小。指示绝对姿态估计值的循环分支。第所有这些变量都是3D张量,将在下面的章节中讨论。时空注意力虽然所有的观察都被融合并分布在N个隐藏状态中,但存储在内存中的每个隐藏状态都对不同的视图有区别地贡献。为了区分相关信息,采用注意机制。 我们利用最后的-ory buffer. 由于两个连续图像的内容是把OA因为两个人之间的关系,重叠太多,记住每个隐藏状态是多余的。相反,仅选择关键状态由于两帧之间的差异与姿势一致,我们利用运动距离作为度量来决定是否存储当前隐藏状态具体来说,当前隐藏状态不会被放入内存中,除非插槽中当前视图和最新视图之间的视差足够大。这里,利用旋转和平移距离:序列中的视图非常小。′具体地,我们利用函数G为当前视图t生成所选择的存储器Mt:′Mt=G(0 A,M).(六)时间注意力旨在考虑每个mi对特定视图的姿态估计的贡献来重新加权存储器中的元素。 因此,如′图4(a),Mt可以定义为所有el的线性平均值北卡罗来纳州exp(wi)||Rotmi−Rotmi−1||2≥θRot,(3)M中的元素为Mt=αi′′121′22…1 2′−1′…0−1…′0′′×1 ×1′18579t−1m i. α i= Nk=1exp(wi)||Transmi -Transmi−1||2 ≥θTrans .(四)表示归一化权重。 Wi=S(OA(i)这一战略既保证了不同观点的共同可见性,又保证了全球信息的存在由于收集了先前的和新的观察结果,因此可以使用存储器来优化先前的姿势。是根据余弦相似度计算的权重函数表示为S。由于Memory中的所有元素都被公式化为3D tensor,因此保留了空间连接。在这个框架中,我们不仅关注记忆中的哪一个元素起作用,i=118580不不更重要的作用,而且每个元素对最终结果的影响更大。我们试图在特征级找到相应的共同可见的内容因此,我们将注意力机制从时间域扩展到时空域,并加入了一个额外的通道偏好特征注意力机制。以每个通道的灰度图为单位,根据最后一次输出对每个视图重新加权。如图4(b),该过程被描述为:4. 实验我们首先在第二节讨论我们的框架的实现细节4.1.接下来,我们将我们的方法与KITTI [9]和TUM-RGBD上的最新方法进行[26]第二十六话第4.2节和第4.3分别。最后,在第2节中进行消融研究。4.44.1. 执行训练我们的网络采用单目RGB图像序列,′Mt= ΣNi=1α iC(β i1m i1,β i2m i2,., β iC miC)。(七)序列作为输入。图像大小可以是任意的,因为我们的模型不需要像DeepVO [31]和ESP-VO [32]那样将特征压缩为向量。我们用11个孔-mij∈RH×W表示存储器中第i个元素的第j个通道。βij是在Ot−1的第j个通道和mi之间的相关性上定义的归一化权重。C沿着通道维度连接所有重新加权的特征图。我们计算两个矢量化特征图之间的余弦相似度来分配权重。绝对位姿估计该指导还对编码为高级特征的观察结果执行,以显示′直到相关的视觉线索,表示为Xt。两人重组记忆和观察沿着通道堆叠,通过核大小为3的两个卷积层进行表示为XA的融合特征是要馈送到卷积递归单元中的最终输入然后,(3)层根据输出OA计算绝对姿态。注意,通过递归单元,隐藏状态将细化结果传播到下一个时间点进一步改进了以下预测。3.5.损失函数我们的模型分别在Tracking和Refining模块中学习相对和绝对姿势。因此,由相对和绝对姿态误差组成,损失函数被定义为:1Σt我们的模型可以接受动态长度的输入。对于KITTI和TUM-RGBD数据集,参数k设置为100和1对于KITTI数据集,θRot和θT范围而对于TUM-RGBD数据集,值为0.01(rad)和0.01(m)。缓冲区大小N用序列长度初始化,但缓冲区可以在不被完全占用的情况下使用编码器在FlyingChairs数据集上进行预训练[6],而网络的其他部分则使用MSRA [11]进行初始化。我们的模型由PyTorch实现[23]在NVIDIA 1080Ti GPU上。亚当[15],β1= 0。9,β2= 0。99作为优化器。网络的训练批量为4,权重衰减为4×10−4,总共迭代150,000初始学习率设置为10−4,每60,000次迭代减少一半。4.2. KITTI数据集上的结果KITTI数据集[9]是最有影响力的户外VO/SLAM基准数据集之一,广泛用于经典[10,20]和基于学习的作品[16,19,31,32,36、37、39]。它由22个在城市和高速公路环境中以相对较低的采样频率(10 fps)以高达90 km/h的速度捕获的序列组成。Seq 00-10提供了原始数据,其中地面实况表示为6-DoFL本地=不i=1||2+k||φi−1,i−φi−1,i||二、||2,(八)考虑复杂城市环境的运动参数序列11-21仅提供原始数据。在我们的实验中,左侧RGB图像的大小调整为1280 x 384ΣtL全局=(||p0,i−p0,i||2+k||φ0,i−φ0,i||(2)、(9)用于训练和测试。我们通过使用Seq 00,02,08,我i=1Ltotal=Llocal+Lglobal,(10)其中,pi−1,i、pi−1,i、φi−1,i和φi−1,i分别表示三个方向上的预测和地面真实相对平移和旋转;p0,i、p0,i、φ0,i和φ0,i分别表示重新发送预测的和地面实况的绝对平移和旋转。Llocal、Lglobal和Ltotal分别表示局部、全局和总损失t是序列中的当前帧索引k是用于平衡旋转和平移误差的固定参数11858109用于培训,Seq 03、04、05、06、07、10用于评价。基线方法基于学习的基线包括监督方法,如DeepVO [31],ESP-VO [32],GFS-VO [33],以及无监督方法,如SfmLearner [39],Depth-VO-Feat [37],GeoNet [36],[19]第十九章:一个人的世界 单目VISO2[10](VISO 2-M)和ORB-SLAM 2 [20]用作类基线。误差度量,即,对于长度从100、200到800米的所有测试序列,均采用平移和旋转误差的平均均方根误差(RMSE)。18582序列方法03 04 05 06 07 10平均值t相对rrelt相对 rrelt相对 rrelt相对 rrelt相对 rrelt相对rrelt相对 rrel[16]第十六话5.006.175.492.133.401.506.201.983.152.4810.63 4.655.653.15[37]第37话15.58 10.692.922.064.942.355.802.076.483.6012.45 3.467.984.04[36]第三十六话19.21 9.789.097.5420.12 7.679.284.348.275.9320.73 9.0413.12 7.38[19]第十九话27.02 10.39 18.921 .一、1951.13 21.86 58.07 26.83 51.22 36.64 21.54 12.54 37.98 18.24[39]第三十九话10.78 3.924.495.2418.67 4.1025.88 4.8021.33 6.6514.33 3.3015.91 4.67DeepVO [31]8.496.897.196.972.623.615.425.823.914.608.118.835.966.12[32]第三十二话6.726.466.336.083.354.937.247.293.525.029.7710.26.156.66GFS-VO-RNN [33]6.363.625.952.365.852.5514.58 4.985.882.647.443.197.683.22GFS-VO [33]5.443.32二、911.303.271.628.502.743.372.256.322.334.972.26我们3 .第三章。32二、102.961.76二、591 .一、254.第一章931 .一、903 .第三章。071 .一、763 .第三章。941 .一、723 .第三章。471 .一、75trel:100、200至800 m长度上的平均平移RMSE漂移(%)。rrel:长度为100、200至800 m的平均旋转RMSE漂移(μ m/100 m)表1. KITTI数据集上的结果。DeepVO [31],ESP-VO [32],GFS-VO [33]和我们的模型是在Seq 00,02,08和09上训练的监督方法。SfmLearner [39],GeoNet [36],Vid 2Depth [19],Depth-VO-Feat [37]和UndeepVO [16]以无监督的方式在Seq 00-08上训练。SfmLearner和UnDeepVO的结果来自[34],而对于GeoNet,Vid 2Depth和Depth-VO-Feat,姿势是从官方发布的预训练模型中恢复的。最好的结果被突出显示。(a)相对于路径长度的平移。(b)相对于路径长度的旋转。(c)翻译速度。(d)逆速度旋转。图5.不同路径长度和速度下的平移和旋转平均误差与基于学习的方法的比较如表1所示,我们的方法在所有测试序列上的性能都优于DeepVO [31],ESP-VO [32]和GFS-VO-RNN [33](没有运动解耦)。由于DeepVO,ESP-VO和GFS-VO只考虑存储在单个隐藏状态中的历史知识,错误积累严重。通过考虑GFS-VO中特征对不同运动模式的区分能力,该问题得到了部分缓解,而我们的方法更有效。同时,我们在表1中提供了无监督方法的结果。由于单眼VO方法包括-18583由于SfmLearner [39],GeoNet [36],Vid2Depth [19]遭受尺度模糊性,短序列片段的帧到帧运动单独与地面实 况 对 齐 以 固 定 尺 度 。 虽 然 它 们 在 由 5 个(SfmLearner,GeoNet)或3个(Vid2Depth)帧组成的序列上实现了有希望的性能,但是当在整个序列上整合姿势从立体图像中提取比例恢复,UnDeepVO[16]和Depth-VO-Feat [37]获得了与DeepVO,ESP-VO和GFS-VO竞争的结果,而我们的结果仍然要好得多。请注意,在我们的模型中只使用单眼图像。我们进一步评估了不同路径长度和速度下的平均旋转和平移误差。五、由于我们的方法提供了新的信息来改进以前的结果,因此有效地减轻了长路径长度上的累积误差。此外,我们的算法的这一优势也可以看出,在处理高速situa- tions。GFS-VO [33]还通过解耦运动实现了有希望的旋转估计。不幸的是,它不能提供健壮的翻译结果。与 经典 方法 的比 较表 2显 示了 VISO 2-M [10]、ORB-SLAM 2 [20](有和没有循环闭合)和我们的方法的结果。VISO 2- M算法是一种纯单目视觉的逐帧姿态恢复算法.然而,ORB-SLAM 2是一个强基线,因为两个版本都利用局部束调整来联合优化姿态和全局地图。我们的模型始终优于VISO 2-M。由于全局显式几何约束,ORB-SLAM 2 [20]在旋转估计方面实现了卓越的性能。然而,与我们的方法相比,它在长序列(Seq 05,06,07)18584Seq OursVISO2-M方法ORB-SLAM 2 ORB-SLAM 2[10个国家][20个](LC)[20]t相对 rrel t相对rreltrelr relt relr rel03 3.32 2.10 8.47 8.82 2.28 0.4004 2.96 1.76 4.69 4.49 1.41 0.14 1.07 0.1705 2.59 1.25 19.22 17.58 13.210.221.860.2406 4.93 1.90 7.30 6.14十八块六毛八0.264.960.1807 3.07 19.11 10.960.371.870.3910 3.94 1.72 32.99 3.710.303.760.29Avg 3.47 1.75 17.48 16.520.282.620.28表2.VISO 2-M [10],ORB-SLAM 2(带和不带循环闭合)[20]和我们的方法在KITTI数据集上的结果其通过全局束调整来减小。而对于短序列(Seq 03,04,10),两个版本和我们的方法的性能非常接近。ORB-SLAM 2与循环闭合的结果之间的小差异表明,我们的新框架保留并有效地使用了全局信息。由Depth-VO-Feat、GFS-VO、ORB-SLAM 2和我们的方法估计的轨迹的可视化在图中示出。六、Depth-VO-Feat虽然在立体图像上训练,但存在严重的误差积累。GFS-VO和ORB-SLAM 2在简单环境中与我们的模型产生接近的结果(Seq 03,10),而我们的方法在复杂场景中表现出色(Seq 05,07)。4.3. TUM RGBD数据集上的结果我们在TUM-RGBD数据集[26]上测试了我们模型的泛化能力,这是一个由许多VO/SLAM算法[8,20,38]使用的流行公共基准。该数据集由手持相机在室内环境中收集,具有各种条件,包括动态对象,无纹理区域和突然运动。该数据集提供了彩色和深度图像,而在我们的实验中只使用了单眼RGB图像。与移动汽车捕获的数据集不同,由于手持捕获模式,该基准测试中的运动包含复杂的模式。我们选择一些序列用于训练,其他序列用于测试(详细信息可在补充材料中找到),并使用平均绝对轨迹误差(ATE)评估常规和挑战性条件下的性能。与经典方法的比较由于很少有基于单眼学习的VO算法尝试处理手持摄像机记录的复杂运动,因此我们交替地将我们的方法与当前最先进的经典方法进行比较,包括ORB-SLAM 2 [20]和DSO [7]。如表3所示,它们在具有丰富纹理的场景(fr 2/桌子,fr 2/360绑架,fr 3/坐着静态,fr 3/nstr tex近环,fr 3/str tex远)上产生了有希望的结果,然而图6.地面实况,ORB-SLAM 2 [20],Depth-VO-Feat [37],GFS-VO [33]和我们的模型在KITTI基准的Seq 03,05,07和10(从左到右)上的轨迹。我们的结果是可比的。由于ORB-SLAM 2 [20]依赖于ORB [24]功能来建立对应关系,因此它在没有丰富纹理的场景中失败(fr3/nstr ntex近环,fr 3/str ntex远,fr 2/大橱柜)。利用具有大梯度的像素进行跟踪,DSO [7]在具有结构或边缘的场景中工作良好(fr 3/str ntex far,fr 3/str tex far)。当纹理不充分时,它不能达到良好的性能。ORB-SLAM 2和DSO都很难工作在没有纹理和结构的场景中(fr 2/大柜,fr 3/nstr ntex近环),并且在面对突然运动时倾向于失败(fr 2 pioneer 360,fr 2/ pioneer slam3)。相比之下,我们的方法能够应对这些挑战,因为深度学习在提取高级特征方面的能力,以及我们提出的减少错误的有效性。轨迹的可视化如图所示。7 .第一次会议。4.4. 消融研究表3还显示了一项消融研究,说明了我们框架中每个组件的重要性。基线是我们的模型去除记忆和精炼模块,类似于[31跟踪模型在常规和挑战性条件下都表现不佳,因为单个隐藏状态中的历史知识对于减少累积错误是低效的。幸运的是,内存组件通过明确引入更多的全局信息来缓解问题,并大大改善了跟踪模型在常规和挑战性序列上的结果通过逐步去除时间注意和空间注意,我们进一步测试了从记忆和观察中选择特征所采用的时空注意策略。我们观察到,这两种注意力技术都是至关重要的,以提高重新-18585图7.通过我们的方法在TUM-RGBD数据集上恢复的原始图像(顶部)和轨迹(底部)[26](从左到右:fr3/str tex far,fr2/poineer 360,fr3/str ntex far,fr3/nstr ntex near loop)。轨迹与规模恢复的地面实况一致序列Desc.弦/特克斯/突变运动帧ORB-SLAM2[20个]DSO[七]《中国日报》我们(跟踪)我们(无温度衰减)我们(w/o spatatten)我们fr2/desk是/是/否29650.041X0.1830.1640.1590.153fr 2/360绑架是/是/否14310.1840.1970.3130.2250.2240.208fr 2/先锋360是/是/是1225XX0.2410.13380.0760.056fr2/pioneer slam3是/是/是2544X0.7370.1490.10650.0850.070fr 2/大柜是/否/否1011XX0.1930.1930.1770.172fr 3/坐位静态是/是/否707X0.0820.0170.0180.0170.015fr 3/nstr ntex近环否/否/否1125XX0.3710.1950.1570.123fr 3/nstr tex近环否/是/否16820.0570.0930.0460.0110.0100.007fr3/str ntex far是/否/否814X0.5430.0690.0470.0390.035fr3/str tex far是/是/否9380.0180.0400.0800.0490.0460.042表3.对TUM-RGBD数据集的评价[26]。这些值以[m/s]为单位描述平移RMSE。ORB-SLAM 2 [20]和DSO [7]的结果是从官方发布的源代码中使用推荐参数生成的。我们的(跟踪)是一个只包含跟踪组件的网络。我们的(w/o temp atten)表示模型将所有记忆平均为输入,而没有时间注意力。我们的(w/o spat atten)是去除空间注意力但保留时间注意力的模型。结果,特别是在具有挑战性的条件下(fr 2/pioneer360,fr 2/pioneer slam 3,fr 3/nstr ntex近环路)。5. 结论在本文中,我们提出了一个新的框架学习,ING单眼视觉里程计在一个端到端的时尚。在这个框架中,我们结合了两个有用的组件,称为记忆和精炼,分别专注于引入更多的全局信息和改善以前的结果与这些信息。我们利用一个自适应的和有效的选择策略来构建存储器。此外,在细化模块中,采用时空注意机制进行改进后的结果通过循环单元传播信息,进一步提高了后续估计的精度.实验表明,我们的模型优于以前的基于学习的单目VO方法,并在KITTI和TUM-RGBD基准测试中与经典VO方法相比具有竞争力。此外,我们的模型在具有挑战性的条件下获得了出色的结果,包括无纹理区域和突然运动,经典方法往往会失败。在未来,我们考虑将工作扩展到一个完整的SLAM系统,包括跟踪,映射和全局优化。此外,还将引入辅助信息,如IMU和GPS数据,以增强系统。确认本 课 题 得 到 了 国 家 重 点 研 究 发 展 计 划( 2017YFB1002601 ) 和 国 家 自 然 科 学 基 金(61632003,61771026)的资助18586引用[1] P. Agrawal,J. Carreira和J.马利克学习通过移动来观察。在ICCV,2015年。2[2] M. Bloesch , J. 恰 尔 诺 夫 斯 基 河 克 拉 克 , S 。Leutenegger,以及A. J·戴维森CodeSLAM-学习密集视觉SLAM的紧凑,可优化的表示。在CVPR,2018年。2[3] S. L. Bowman,N.阿塔纳索夫Daniilidis和G. J·帕帕。语义SLAM的概率数据关联。在ICRA,2017年。2[4] S. Brahmbhatt,J. Gu,K. Kim、J. Hays和J.考茨Map-Net : Geometry-aware Learning of Maps for CameraLocalization(地图网络:用于摄像机本地化的地图几何感知学习)在CVPR,2018年。第1、3条[5] R.克拉克,S。Wang,中国山核桃A. Markham,N.Trigoni和H.文VidLoc:一种用于6-DoF视频片段重定位的深度时空模型。在CVPR,2017年。3[6] A. 多索维茨基山口Fischer、E.Ilg,P.豪塞尔角哈齐尔巴斯Golkov,P. van der Smagt,D. Cremers和T.布洛克斯Flownet:用卷积网络学习光流。在ICCV,2015年。一、三、五[7] J. Engel,V. Koltun和D.克莱姆斯直接稀疏Odome-尝试。TPAMI,2018年。一、二、七、八[8] J. Engel,T. Scho ¨ ps和D. 克莱姆斯LSD-SLAM:大规模直接单目SLAM。2014年,在ECCV。一、二、七[9] A. Geiger,P. Lenz,和R.盖革,等.乌塔松我们准备好了吗?KITTI Vision Benchmark Suite。CVPR,2012。5[10] A. Geiger、J. Ziegler和C.斯蒂勒Stereoscan:实时密集三维重建。在2011年第四期。一、二、五、六、七[11] K. 他,X。Zhang,S.Ren和J.太阳 深入研究Rectifiers:Imagenet分类性能超越人类水平。在ICCV,2015年。5[12] J. F. Henriques和A.维达尔迪MapNet:一个用于地图环境的以所有中心为中心的空间存储器在CVPR,2018年。一、二[13] S. Hochreiter和J.施密特胡博长期短期记忆。神经计算,1997年。二、三[14] G. Iyer,J. K. Murthy,K. Gunshi Gupta和L.保罗自我监督端到端视觉里程计的几何一致性。在CVPR研讨会,2018年。第1、3条[15] D. P. Kingma和J. BA.亚当:一种随机优化方法。2015年,国际会议。5[16] R. Li,S.Wang,Z.Long和D.顾UnDeepVO:通过无监督深度学习的单眼视觉里程计。在ICRA,2018年。一、二、五、六[17] K.- N. Lianos,J.L. Sch oünber ger,M.Pollefeys和T.萨特尔河视觉语义里程计。在ECCV,2018。2[18] H. Liu,M. Chen,G. Zhang,H. Bao和Y.豹ICE-BA:用于视觉惯性SLAM的增量、一致和高效光束平差在CVPR,2018年。2[19] R. Mahjourian,M. Wicke和A.安杰洛娃使用3D几何约束的单目视频深度和自我运动的无监督学习。在CVPR,2018年。一、二、五、六[20] R. Mu r-Artal和J. D. 塔尔多。ORB-SLAM 2:一个开源的SLAM系统,用于单目、立体和RGB-D相机。T-RO,2017年。一、二、四、五、六、七、八18587[21] R. A.纽科姆,S。J.Lovegrove和A. J·戴维森DTAM:实时密集跟踪和映射。见ICCV,2011年。2[22] E. Parisotto , D. Singh Chaplot , J. Zhang 和 R.Salakhutdi- nov. 使用基于注意力的递归网络进行全局姿态估计在CVPR研讨会,2018年。第1、3条[23] A. Paszke,S.格罗斯,S。Chintala和G.Chanan Pytorchhttps://github.com/pytorch/pytorch,2017年。5[24] E. Rublee ,V. Rabaud ,K. Konolige 和G. 布拉 德斯 基ORB:一个有效的替代SIFT或SURF。见ICCV,2011年。7[25] X. 施,Z.Chen,H.Wang,中国山杨D.杨,W。Wong和W.哇哦。卷积LSTM网络:降水临近预报的机器学习方法。2015年,在NIPS中。二、三[26] J. Sturm,N. Engelhard,F. Endres,W. Burgard和D.克雷默斯。RGB-D SLAM系统的评估基准。InIROS,2012. 五七八[27] S.苏赫巴托尔河szlam,J.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功