没有合适的资源?快使用搜索试试~ 我知道了~
1神经视觉惯性里程计陈昌浩1,Stefano Rosa1,苗亦姝2,Chris Xiaoxuan Lu1,WeiWu3,Andrew Markham1,Niki Trigoni11牛津大学计算机科学系2MO智能3腾讯摘要用于视觉惯性里程计(VIO)的深度学习方法已被证明是成功的,但它们很少关注用于处理不完善的输入传感数据的鲁棒融合策略我们提出了一种新的端到端的选择性传感器融合框架的单目VIO,融合单目图像和惯性测量,以便估计轨迹,同时提高鲁棒性的现实生活中的问题,如丢失和损坏的数据或坏的传感器同步。特别是,我们提出了两种融合方式的基础上不同的掩蔽策略:确定性软融合和随机硬融合,我们与以前提出的直接融合基线进行比较。在测试过程中,该网络能够选择性地处理可用传感器模态的特征,并生成大规模的轨迹我们提出了一个全面的调查性能的三个公共自动驾驶,微型飞行器(MAV)和手持VIO数据集。结果表明,融合策略的有效性,提供更好的性能相比,直接融合,特别是在存在损坏的数据。此外,我们研究了融合网络的可解释性,通过可视化不同场景中的掩蔽层和不同的数据损坏,揭示了融合网络和不完美的感官输入数据之间有趣的相关性。1. 介绍人类能够通过多模态感知感知空间中的自我运动。光流(视觉线索)和前庭信号(惯性运动感)是确定自我运动的两个最敏感的线索[9]。在计算机视觉和机器人领域,以视觉惯性测距法(VIO)的形式整合视觉和惯性信息是一个很好的研究课题[17,20,19,11,29],因为它通过提供鲁棒和准确的姿势信息来实现移动代理的无处不在的移动性。此外,摄像头和惯性传感器成本相对较低,功耗低,高效且广泛应用于地面机器人、智能手机和无人机(UAV)。现有的VIO方法通常遵循标准管道,该标准管道涉及特征检测和跟踪以及传感器融合策略的微调。这些模型依赖于手工制作的特征,并基于过滤[20]或非线性优化[19,11,29]融合信息。然而,在融合之前天真地使用所有特征将导致不可靠的状态估计,因为不正确的特征提取或匹配会破坏整个系统。可能并且确实发生的实际问题包括相机遮挡或在低光条件下操作[40]、惯性传感器内的过量噪声或漂移[26]、两个流之间的时间同步或空间未对准[21]。最近关于应用深度神经网络(DNN)解决视觉惯性里程计[30]或视觉里程计[18,7]的研究在准确性和鲁棒性方面表现出竞争力尽管DNN擅长提取代表自我运动的高级特征,但这些基于学习的方法并没有明确地模拟现实世界中的退化来源。 在不考虑可能的传感器误差的情况下,所有特征被直接馈送到其他模块中,用于[4,7,18]中的进一步姿态回归,或者如[30]中那样简单地级联。当输入数据被破坏或丢失时,这些因素可能会对VIO系统出于这个原因,我们提出了一个通用的框架,模型功能选择强大的传感器融合。选择过程取决于测量的可靠性以及自运动和环境的动态性。提出了两种备选特征加权策略:以确定性方式实现的软融合;以及硬融合,其引入随机噪声并且直觉地学习以保持最相关的特征表示,同时丢弃无用的或误导性的信息。这两种架构都是以端到端的方式进行训练的。通过对选择过程进行明确建模,我们能够通过可视化传感器融合掩模来展示所选特征与环境/测量动力学之间的强相关性,如图所示。1054210543正常数据损坏数据硬软视觉掩模惯性掩模直线行驶视觉掩模惯性掩模失踪视觉掩模惯性掩模部分闭塞硬软视觉掩模惯性掩模转折视觉遮罩惯性遮罩视觉遮罩惯性遮罩模糊+椒盐噪声时间错位图1:在不同条件下学习的硬融合和软融合掩模的可视化(左:正常数据;中间和右边:损坏的数据)。视觉和惯性侧中所选特征的数量(硬)或权重(软)可以反映自运动动态(在转向期间惯性特征的重要性增加)和数据损坏条件。在图1中显示。我们的研究结果表明,从不同模态提取的特征(即,视觉和惯性运动)在各种条件下是互补的:惯性特征在快速旋转时贡献更大,而视觉特征在大平移时是优选的(图6)。因此,选择性传感器融合提供了对每个传感器模态的潜在优势的洞察。我们还演示了如何将选择性传感器融合,使VIO强大的数据损坏通常在现实世界中遇到的情况。本工作的主要贡献如下:• 我们提出了一个通用的框架来学习选择性传感器融合,使更强大和准确的自我运动估计在现实世界中的情况。• 我们的选择性传感器融合掩模可以被可视化和解释,提供对每个流的相对强度的更深入的了解,并指导进一步的系统分析。TEM设计• 我们通过考虑传感器退化的七个不同来源,在当前公共VIO数据集之上创建具有挑战性的数据集,并进行新的完整的研究了在存在损坏数据的情况下深度传感器融合的准确性和鲁棒性。2. 具有选择性融合的在本节中,我们将介绍神经视觉-惯性里程计的端到端架构,这是我们提出的框架。图2(顶部)显示了该架构的模块化概述,包括视觉和初始编码器、特征融合、时间建模和姿态回归。我们的模型采用一系列原始图像和IMU测量,并生成相应的姿态变换。除了我们的新功能融合,管道可以是任何通用的深VIO技术。在特征融合组件中,我们提出了两种不同的选择机制(软和硬),并将它们与直接(即,均匀/未加权的掩模)融合,如图2(底部)所示。2.1. 特征编码器视觉特征编码器视觉编码器从一组两个连续的单眼图像xV中提取潜在表示。理想情况下,我们希望视觉编码器学习几何意义的特征,而不是与外观或上下文相关的特征。出于这个原因,我们使用FlowNetSim [10]作为我们的特征编码器,而不是像其他基于DL的VO方 法 [43 , 42 , 41] 中 常 见 的 那 样 使 用 PoseNet 模 型[18]Flownet提供了适用于光流预测的功能。 该网络由九个卷积层组成。感受野的大小从7×7逐渐减小到5×5,最后减小到3×3,前六个月的步幅是2 每一层后面都有a ReLU非线性,除了最后一个,我们使用来自最后一个卷积层aV的特征作为我们的视觉功能:aV=f视力(xV)。(一)10544IMUIMUIMUt-1惯性数据惯性编码器惯性特征视觉特征时态建模LSTMLSTMLSTM位姿回归FCFC摆t型IMU堆叠图像视觉编码器GumbelSoftmax不掩模掩模图2:我们的神经视觉-惯性里程计架构概述,提出了选择性传感器融合,包括视觉和惯性编码器,特征融合,时间建模和姿态回归。在特征融合部分,我们比较了我们提出的软,硬选择性传感器融合策略与直接融合。惯性特征编码器:惯性数据流具有很强的时间分量,并且通常在比图像(100 Hz)更高的频率(100 Hz)下可用。受IONet [6]的启发,我们使用两层双向具有128个隐藏状态的LSTM作为惯性特征编码器。如图2所示,将每两个图像之间的惯性测量x1的窗口馈送到惯性特征编码器,以便提取维度特征向量a1:aI=f惯性(xI)。(二)2.2. 融合功能我们现在将由两个编码器从原始数据序列产生的高级特征与融合函数g组合,该融合函数g组合来自视觉aV和惯性aI通道的信息以提取有用的组合特征z用于未来的姿态回归任务:z=g(aV,aI).(三)有几种不同的方法来实现这种融合功能。目前的方法是直接将两个特征连接在一起进入一个特征空间(我们称这种方法为直接融合g直接)。然而,为了学习鲁棒传感器融合模型,我们提出了两种融合方案-确定性软融合G-soft和随机性硬融合G-hard,其根据当前环境动态和数据输入的可靠性来明确地对特征选择过程进行建模。我们的选择性融合机制重新加权级联惯性视觉功能,由级联功能本身的指导。融合网络是另一种深度神经网络,并且是端到端可训练的。细节将在第3节中讨论。2.3. 时间建模和姿态回归自我运动估计的基本原则要求对时间依赖性进行建模以导出准确的姿态回归。因此,递归神经网络(双层双向LSTM)在时间步长t处输入组合特征表示zt及其先前的隐藏状态ht−1,并模拟了特征序列。 经过网络的循环,一个完整的-连接层用作姿态回归器,将特征映射到姿态变换γt,表示时间窗口上的运动变换。yt= RNN(zt,ht−1)(4)3. 选择性传感器融合直觉上,每种模态的特征为回归姿势转换的任务提供了不同的优势。在视觉惯性里程计(VIO)的情况下尤其如此,其中单目视觉输入能够估计3D场景的外观和几何形状,但不能确定度量尺度[11]。此外,光照、无纹理区域和运动模糊的变化会导致不良的数据关联。同时,惯性数据是内感受/自我中心的,通常与环境无关,并且在视觉跟踪失败时仍然是可靠的[6]。然而,来自低成本MEMS惯性传感器的测量被不可避免的噪声和偏差破坏,这导致比功能良好的视觉里程计链更高的长期漂移。我们的观点是,简单地认为所有功能都是正确的,而不考虑退化,这是不明智的,将导致不可恢复的错误。FC时间特征融合LSTMLSTMLSTM软熔硬熔10545a_v错误 在本节中,我们提出了两种不同的选择性传感器融合方案,用于显式学习特征选择过程:软(确定性)融合和硬(随机)融合,如图3所示。另外我们也s软面膜S一热硬掩模提出了一个简单的传感器融合方案-3.1. 直接融合一个简单的方法来实现传感器的融合,视觉惯性软选择分布最大参数u硬选择分布VIO 框 架 中 的 一个 重 要 方 面 在 于 使 用 多层 感 知 器(MLP)来组合来自视觉和惯性通道的特征理想情况下,系统学习以端到端的方式执行特征选择和预测。因此,直接融合被建模为:特色Features(一)软融合特征概率视觉特征惯性特征随机变量Gumbel分布其中,[aV;aI]表示级联的MLP函数,一个V和一个I3.2. 软融合(确定性)现在,我们提出了一个软融合方案,明确和确定性模型的特征选择。类似于广泛应用的注意力机制[33,39,14],该函数通过调节视觉和惯性通道来重新加权每个特征该函数是确定的和可微的。在此,引入一对连续掩模sV和sI,以在将这些特征传递到时间建模和姿态回归之前实现对所提取的特征表示的软选择(b)硬融合(随机)图3:我们提出的软(确定性)和硬(随机)特征选择过程的说明。传播特征或阻挡特征的遮罩。这种机制可以被视为特征图的每个分量的切换器,其是由参数化伯努利分布实现的随机神经。然而,随机层不能通过反向传播直接训练,因为梯度不会通过离散的潜变量传播。为了解决这个问题,REIN-FORCE算法[38,24]通常用于构建梯度估计器。在我们的例子中,我们采用了一种更轻量级的方法-与其从有限元中确定性地学习面具,SV=SigmoidV ([aV(6)图中,硬掩模sV和sI从伯努利分布重新采样,由α参数化,其条件为sI=SigmoidI([aV;aI])(7)其中sv和si分别是应用于视觉特征和惯性特征的掩码,并且其由神经网络确定性地参数化,以视觉av和惯性特征ai两者为条件。sig-moid函数确保每个特征将在范围[0,1]内重新加权。然后,视觉和惯性特征是元素方面的与它们对应的软掩码相乘作为新的重新加权向量。选择性软融合函数被建模为gsoft(aV,aI)=[aV<$sV; aI<$sI].(八)3.3. 硬融合(随机)除了上面介绍的软融合,我们提出了一个变种的融合方案-硬融合。硬融合不是用连续值重新加权每个特征,而是学习一个随机函数,但添加了随机噪声:sVp(sV|aV,aI)= Bernoulli(αV)(9)sIp(sI|aV,aI)= Bernoulli(αI).(十)与软融合类似,特征与其对应的硬掩模元素相乘作为新的重新加权向量。随机硬融合函数被建模为ghard(aV,aI)=[aV<$sV; aI<$sI].(十一)图 3 ( b ) 示 出 了 所 提 出 的 基 于 Gumbel-Softmaxresolution的硬融合的详细工作流程。一对概率变量αV和αI以连接的视觉和惯性特征向量[aV; aI]为条件:αV=SigmoidV([aV;aI])(12)αI=SigmoidI([aV;aI]),( 13)其中概率变量是n维向量a_ia_ia_v10546α=[π1,...,πn],表示每个fea的概率,10547我在位置n处的True被选择或不被选择。Sigmoid函数使每个向量在[0,1]范围内重新加权。Gumbel-max技巧[23]可以有效地绘制给定类别概率πi和随机变量πi,从类别分布中采样s,然后独热编码执行5004003002001000-100150100500-50-100s= one hot(arg max[log πi])。(十四)我-200-300-200-1000100200300X(m)-150-250-200-150- 一百-50050X(m)这是由于对于任何B[1,...,n][13]:(a) Seq 05视力下降。500(b) Seq 07视力下降。150argmax[i我+logπ]πii∈B(十五)40030010050它可以被看作是一个过程中添加独立的Gumbel扰动的离散概率变量。在实践中,随机变量R0i是从Gumbel分布中采样的,Gumbel分布是可以近似分类样本的单重上的连续分布:2001000-100-300-200- 一百0100200300X(m)0-50-100-150-250-200-150- 一百-50050X(m)=−log(−log(u)),u<$Uniform(0,1)。 在等式14中,argmax运算是不可微的,因此Softmax函数被用作近似:(c) (d)具有所有降解的Seq 07图4:KITTI数据集上的估计轨迹。顶行:视力下降的数据集(10%咬合,10%h=Δexp((log(πi)+Δi)/τ),i = 1,…n,(17)模糊,10%缺失数据);底行:数据全部Ini=1 exp((log(πj)+πj)/τ)降解(各5%)。在这里,GT,VO,VIO,Soft和其中τ>0是调制重新采样过程的温度。3.4. 关于神经VIO和经典VIO的基本上,软融合以确定性的方式温和地重新加权每个特征,而硬融合根据环境及其可靠性直接阻止特征。一般来说,软融合是直接融合的简单扩展,有利于处理输入传感数据中的不确定性。相比之下,硬融合中的推理更困难,但它提供了更直观的表示。随机性使VIO系统具有更好的泛化能力和对不完美感官数据的更高容忍度。硬融合的随机掩码充当归纳偏差,将特征选择过程与预测分离,这也可以通过对应于输入传感数据的不确定性来容易地解释。过滤方法根据视觉和惯性模态的过去状态和当前观测结果更新其信念[25,20,15,2]。”Learning” withinthesemethodsisusuallyconstrainedtogainandcovariances [这是一个确定性的过程,噪声参数是事先手动调整的。相反,深度学习方法完全从数据中学习,隐藏的递归状态仅包含与回归变量相关的信息。我们的方法模型的功能选择过程中明确使用软,硬掩模。宽松地说,所提出的软掩模可以被视为类似于调整增益和协方差矩阵硬的意思是地面真相,神经视觉模型,神经-具有直接、软、硬融合的真实视觉惯性模型。4. 实验我们在三个众所周知的数据集上评估我们提出的方法:用于自动驾驶的KITTI里程计数据集[12]、用于微型 飞 行 器 的 EuRoC 数 据 集 [5] 和 用 于 手 持 设 备 的PennCOSYVIO数据集[28]。演示视频和其他细节可以在我们的项目网站上找到1.4.1. 实验设置和基线该 架 构 使 用 PyTorch 实 现 , 并 在 NVIDIA Titan XGPU上进行训练。我们选择了神经视觉模型和神经视觉惯性模型作为我们的基线,在我们的实验中分别称为Vision-Only(DeepVO)和VIO-Direct(VINet)。神经视觉模型使用视觉编码器,时间建模和姿势回归,如图2中我们提出的框架。神经视觉惯性模型与直接融合使用相同的框架,在我们提出的选择性融合,除了特征融合组件。所有网络,包括使用Adam优化器,以8的批量大小训练基线,学习率lr=1e-4。网络内部的超参数对于一个公平的比较。在经典的过滤方法,但基于潜在的数据GTVOVIO软硬GTVOVIO软硬GTVOVIO软硬GTVOVIO软硬Y(mY(mY(mY(mπi10548代之以代表1https://changhaoc.github.io/selective传感器融合/10549表1:在存在不同种类的传感器数据损坏的情况下不同传感器融合策略的有效性。对于每种情况,我们报告绝对平移误差(m)和旋转误差(度)。模型Vis闭塞离子降解模糊缺失IMUDegra噪声和偏置日失踪传感器De空间灰度时间仅视觉0.117,0.1480.117,0.1530.213,0.4560.116,0.1360.116,0.1360.116,0.1360.116,0.136VIO Direct0.116,0.1100.117,0.1070.191,0.1550.118,0.1150.118,0.1630.119,0.1370.120,0.111VIO软件0.116,0.1050.119,0.1040.198,0.1490.119,0.1050.118,0.1290.119,0.1280.119,0.108VIO硬0.112,0.1260.114,0.1100.187,0.1590.114,0.1200.115,0.1400.111,0.1460.113,0.1334.2. 数据集KITTI Odometry数据集[12]我们使用序列00,01,02,04,06,08,09进行训练和测试网络在序列05、07和10上,不包括序列03,因为相应的原始文件不可用。GPS提供的图像和地面实况以10 Hz采集,而IMU数据以100 Hz采集。EuRoC微型飞行器数据集[5]它包含来自微型飞行器(MAV)的紧密同步的视频流,携带立体相机和IMU,由两个环境中的11个飞行轨迹组成表现出复杂的运动。我们使用序列MH 04难以测试,并留下其他序列进行训练。我们将图像和IMU分别下采样到10 Hz和100 Hz。PennCOSYVIO数据集[28]由四个序列组成,其中用户携带多个视觉和惯性传感器,这些传感器刚性连接。我们使用序列bs,as和bf进行训练,af进行测试。图像和IMU分别下采样到10 Hz和100 Hz。4.3. 数据降级为了提供对传感器数据退化的影响的广泛研究并评估所提出的方法的性能,我们通过向原始数据添加各种类型的噪声和遮挡来生成三类退化数据集4.3.1视力退化遮挡:我们在每个样本的随机位置,在样本图像的顶部覆盖一个尺寸为128×128像素的掩模。由于灰尘或污垢,传感器或靠近传感器的静止物体[37]。模糊+噪声:我们对输入图像应用σ=15像素的高斯模糊,并附加椒盐噪声。当相机或光线条件发生重大变化时,可能会发生运动模糊和噪音[8]。缺失数据:我们随机去除10%的输入图像。当数据包由于负载过大或传感器临时断开连接而从总线上丢失时,可能会发生这种情况。如果我们经过一个非常贫穷的地区,照明,例如隧道或地下通道。4.3.2IMU退化噪声+偏置:在已经有噪声的传感器数据之上,我们向加速度计数据添加加性白噪声,并在陀螺仪数据上添加固定偏置。这可能是由于传感器温度升高和机械冲击,导致不可避免的热机械白噪声和随机行走噪声[26]。缺失数据:我们随机地移除两个连续随机视觉帧之间的惯性样本的窗口。当IMU测量不稳定或数据包从总线上丢失时,可能会发生这种情况。4.3.3交叉传感器退化空间错位:与初始外部校准相比,我们随机地改变相机和IMU之间的相对旋转。这可能是由于轴未对准和不正确的传感器校准[20]。我们统一建模高达10度的错位。时间错位:我们在输入图像窗口和惯性测量窗口之间应用时移。这可能是由于独立传感器子系统之间的时钟相对漂移而发生的[21]。4.4. 对数据篡改鲁棒表1显示了与基线相比,提议的数据融合策略的相对性能。特别是,我们与DeepVO [36](仅限视觉)实现进行了比较,最后与VINet [30](VIO Direct)的实现进行了比较,VINet [30]通过连接视觉和惯性特征使用了朴素的融合 图4显示了在存在目视和组合降解的情况下所得试验方法的目视比较。在视觉降级集中,通过添加遮挡、模糊+噪声和去除图像来随机降级输入图像,每次降级的概率为10%。在完整退化集中,来自数据集的图像和IMU序列被所有七种退化损坏,每个概率为5%作为一个度量,我们总是报告相对平移和旋转估计10550表2:自动驾驶场景的结果[12]。正常数据视力退化所有降解仅视觉0.116,0.1360.177,0.3550.142,0.281VIO Direct0.116,0.1060.175,0.1640.148,0.139VIO软件0.118,0.0980.173,0.1500.152,0.134VIO硬0.112,0.1100.172,0.1510.145,0.150表3:无人机场景的结果[5]。正常数据视力退化所有降解仅视觉0.00976,0.08670.0222,0.2680.0190,0.213VIO Direct0.00765,0.05400.0181,0.06960.0162,0.0935VIO软件0.00848,0.05640.0170,0.05330.0152,0.0860VIO硬0.00795,0.05890.0177,0.05650.0157,0.0823表4:手持场景的结果[28]。正常数据视力退化所有降解仅视觉0.0379,1.7550.0446,1.8490.0414,1.875VIO Direct0.0377,1.3500.0396,1.2230.0407,1.353VIO软件0.0381,1.2520.0399,1.1660.0405,1.296VIO硬0.0387,1.2960.0410,1.2060.0400,1.232以避免使用全局参考系来计算误差的方法的缺点一些有趣的行为出现在表1中。首先,正如预期的那样,所提出的融合方法优于VO和基线VIO融合方法时,受到降级。我们的直觉是,视觉特征可能是局部的和离散的,因此,错误的区域可以被消除,这将有利于融合网络在主要依赖于视觉时。相反,惯性数据是连续的,因此如由软融合方法执行的更渐进的重新加权将更好地保留这些特征。由于惯性数据对旋转更重要,这可以解释这种观察。更有趣的是,软融合总是改善角度分量估计,而硬融合总是改善平移分量估计。表5:与经典方法的正常数据全可视度发生率+模糊全传感器度数KITTI0.116,0.044失败2.4755,0.0726失败EuRoC0.0283,0.04020.0540,0.05910.0198,0.0400失败4.5. 自动驾驶、无人机场景和手持场景的结果表2显示了存在正常数据、所有组合目视降解和所有组合目视+惯性降解的KITTI数据集的汇总结果特别是,我们比较了两种深度方法:DeepVO(仅限视觉)和VINet(VIO Direct)的实现。我们可以看到与表1相同的融合行为。表3报告了EuRoC的误差结果。与KITTI类似,软融合策略始终改善角度估计,而硬融合始终改善平移估计。有趣的是,在手持sce-0.80.70.60.50.40.3 0.4 0.5 0.6 0.7选定视觉特征比率图5:七种数据退化场景下视觉和惯性特征选择率的比较。Nario(表4),在关于翻译分量的不同融合策略之间存在较小的显著差异。这可能是由于数据集的大小和运动的性质很小,导致网络在线性平移上略微过拟合。然而,硬融合仍然改善了视觉和惯性退化的存在下的两个错误。这可以归因于直接融合方法对视觉数据的过拟合,而从室外到室内的一些过渡引入了照明变化和遮挡。4.6. 与经典VIO的对于KITTI,由于IMU和图像之间缺乏时间同步,OKVIS [19]和VINS- Mono [29]都无法工作。相反,我们 提 供 了 MSCKF [15]2 实 现 的 结 果 。 对 于 EuRoCMAV,我们与OKVIS进行比较[19]3。如表5所示,在KITTI上,MSCKF失败,由于图像丢失而完全退化;在EuRoc上,OKVIS处理丢失的图像,但由于时间对准不良,两个基线都失败,传感器完全退化。基于学习的方法达到了相当的位置/翻译误差,但传统方法的定向误差总是较低。因为DNN擅长从原始图像中提取特征和回归翻译,而IMU改进了过滤方法,以在正常数据上获得更好的定位结果。有趣的是,基于学习的融合策略的性能在存在损坏的数据的情况下优雅地降低,而滤波方法在存在大的传感器噪声和未对准问题的情况下突然失败4.7. 选择性聚变的解释将硬掩模引入到我们的框架中,使我们能够定量和定性地解释融合过程。首先,我们分析了不同情景下每种模态的贡献由于硬熔块2代码可以在以下网址找到:https://uk.mathworks.com/matlabcentral/ fileexchange/43218-visual-inertial-odometry3代码可以在https://github.com/ethz-asl/okvis图像遮挡图像模糊图像缺失IMU噪声IMU缺失空间失调时间失调选定的惯性特征比率105510.550.50.450.40.350.30.2501 2 340.90.80.70.60.50.40 1 2 3 4由于OKVIS [19]提出了一种基于关键帧的方法,该方法联合优化了视觉特征重投影和惯性误差项,因此这些图像都是手工制作的半直接[32]和直接[34]方法已被提出,以努力走向无特征方法,去除特征提取管道以提高速度。最近的VINet [30]使用神经网络来学习视觉惯性导航,但0.550.50.450.40.350.30.25旋转速度10-3(a) 惯性旋转0 1 23平移速度0.90.80.70.60.50.4旋转速度10-3(b) 视觉旋转电话:+86-0512 - 88888888传真:+86-0512-88888888平移速度只是以一种朴素的连接方式融合了两种模态我们为深度特征融合提供了一个通用的框架,并在不同的场景中优于直接融合。用于定位的深度神经网络最近的数据驱动的视觉里程计方法已经获得了很多关注。学习方法的优点是它们对缺乏特征、动态闪电连续性、条件,运动模糊,准确的相机校准,这是很难建模的硬[31]。Posenet [18]使用卷积神经网络(CNN)从单目图像进行6-DoF姿态回归。CNN和(c) 惯性平移(d) 视觉翻译长短期记忆(LSTM)网络在[7,36]中,显示出与传统方法相当的结果,图6:初始/视觉特征数量与旋转/平移量之间的相关性。某些特征根据它们的可靠性,为了解释图5显示,在大多数场景中,与惯性特征相比,视觉特征占主导地位非阻塞性视觉功能超过60%,强调了这种方式的重要性当遇到小的视觉退化时,如图像模糊,我们没有看到明显的变化,因为FlowNet提取器可以处理这种干扰。然而,当视觉退化变得更强时,惯性特征的作用变得显著。值得注意的是,这两种模式在阻塞的存在下同样惯性特征占丢失图像的90%以上。在图6中,我们分析了线速度和角速度与所选特征之间的相关性。这些结果还表明,惯性特征的信念如何在大旋转的存在下更强,例如。旋转,而视觉特征随着线性平移的增加而更可靠。有趣的是,在低平移速度(0.5m / 0.1s)下,只有50%至60%的视觉特征被激活,而在高速(1.5m / 0.1s)下,60%至75%的视觉特征被使用。5. 相关工作传统上,视觉-惯性方法可以根据其信息融合方法大致分为三类:[17]、固定滞后平滑器[19]和完全平滑方法[11]。在经典的VIO模型中,其fea-耗氧物质几种方法[43,41,42]使用视图合成作为非监督信号来训练和估计自我运动和深度。其他基于DL的方法可以在密集视觉SLAM [3]、通用地图[4]、全局姿态[27]、深度定位和分割[35]的学习表示我们研究了多模态数据在退化场景中对鲁棒深度定位的贡献。多模态传感器融合与注意力我们提出的选择性传感器融合与注意力机制有关,广泛应用于神经机器翻译[33]、图像字幕生成[39]和视频描述[14]。受嵌入空间中固定长度向量的限制,这些注意力机制在生成单词序列时计算焦点图以帮助解码器。这与我们的设计意图不同,我们的设计意图是将多模态传感器融合用于视觉惯性测距,并应对更复杂的误差源和自运动动力学。6. 结论在这项工作中,我们提出了一种新的研究端到端的传感器融合视觉惯性导航。提出了两种特征选择策略:确定性软融合和随机硬融合,在确定性软融合中,从级联的视觉和惯性特征学习软掩模,在随机硬融合中,Gumbel-softmax响应用于学习随机二元掩模。基于大量的实验,我们还提供了有见地的解释选择性传感器融合,并调查不同的退化和自我运动的情况下,不同的模态的影响。致谢:这项工作得到了EPSRC Program Grant MobileRobotics的部分支持:实现未来的普及技术(GoWEP/M019918/1)。选定的惯性特征比率选定的惯性特征比率选定视觉特征比率选定视觉特征比率10552引用[1] C. 主教模式识别与机器学习。Springer,2006年。5[2] M. Bloesch,M.Burri,S.Omari,M.Hutter和R.西格沃特采用直接光度反馈的迭代扩展卡尔曼滤波视觉惯性里程计。The International Journal of Robotics Research,36(10):1053-1072,2017。5[3] M. Bloesch , J. 恰 尔 诺 夫 斯 基 河 克 拉 克 , S 。Leutenegger,以及A. J· 戴 维 森 CodeSLAM Learning a Compact ,Optimisable Representation for Dense Visual SLAM. 在CVPR,2018年。8[4] S. Brahmbhatt,J. Gu,K. Kim、J. Hays和J.考茨用于相机定位的地图的几何感知学习。在CVPR中,第2616-2625页,2018年。1、8[5] M. Burri,J. Nikolic,P. Gohl,T. Schneider,J.雷德S. Omari,M.W. Achtelik和R.西格沃特欧洲微型飞行器数据集。国际机器人研究杂志,2016年。五、六、七[6] C. Chen C.,马缨丹属X. Lu,中国茶条A. Markham和N.三角Ionet:学习治愈惯性里程计漂移的诅咒。2018年AAAI人工智能会议(AAAI)。3[7] R.克拉克,S。Wang,中国山核桃A. Markham,N.Trigoni和H.文VidLoc:一种用于6自由度视频的深度时空模型-成形夹重新定位。在CVPR,2017年。1、8[8] F. Couzinie-Devy,J.孙,K.Alahari和J.庞塞学习估计和去除非均匀图像模糊。在CVPR,第1075-1082页,2013年。6[9] C. R. Fetsch,A. H.特纳湾C. DeAngelis和D. E.安-吉拉基。在自我运动知觉过程中视觉和前庭线索的动态重新加 权 Journal of Neuroscience , 29 ( 49 ) : 15601-15612,2009. 1[10] P. Fischer,E. Ilg,H.菲利普角Hazrbas,P. V. D. 斯马格特D. Cremers和T.布洛克斯FlowNet:用卷积网络学习光流。2015年国际计算机视觉会议,ICCV。2[11] C.福斯特湖Carlone,F. Dellaert和D.斯卡拉穆扎实时视觉惯性导航的流形上预积分。IEEE Transactions onRobotics,33(1):1-21,2017。一、三、八[12] A. Geiger,P. Lenz,C. Stiller和R.乌塔松视觉与机器人技术的结合:KITTI数据集。国际机器人研究杂志,32(11):1231-1237,2013。五、六、七[13] E. J. Gumbel 极值统计理论及一些实际应用:系列讲座。联合S. 的政府打印.办公室,1954年。5[14] C.霍里,T.霍里,T. Y.李,Z.张湾,澳-地Harsham,J.R. Hershey,T. K. Marks和K.苏美基于注意力的多模态融合视频描述。IEEE计算机视觉国际会议论文集,2017-2017年10月:4203-4212。四、八[15] J. S. Hu和M. Y.尘基于三焦点张量几何学的滑动窗口视觉IMU里程计见ICRA,第3963-3968页IEEE,2014。五、七[16] E. 张,S.Gu和B.浦耳使用gumbel-softmax进行分类arXiv预印本arXiv:1611.01144,2016。410553[17] E. S. Jones和S.索阿托视觉惯性导航、映射和定位:一种可扩展的实时因果方法。The International Journal ofRobotics Research,30(4):4071、8[18] A. Kendall,M.Grimes和R.西波拉Posenet:用于实时6-dof 相 机 重 新 定 位 的 在 Proceedings of the IEEEinternational conference on computer vision , pages2938-2946,2015中。一、二、八[19] S. Leutenegger,S.Lynen,M.博塞河Siegwart和P.毛-盖尔。基于关键帧的非线性优化视觉惯性里程计。TheInternational Journal of Robotics Research,34(3):314-334,2015. 一、七、八[20] M. Li和A. I.穆里基斯高精度、一致的基于EKF的视觉惯 性 里 程 计 。 The International Journal of RoboticsResearch,32(6):690-711,2013。一、五、六[21] Y. 灵湖,澳-地鲍Z.Jie,F.Zhu,Z.Li,S.唐,Y。Liu,W.Liu和T.张某基于优化的视觉惯性里程计中变化相机-IMU时间偏移的建模在2018年欧洲计算机视觉会议(ECCV) 1、6[22] C. J.麦迪逊,A. Mnih和Y. W.茶具体说明:离散随机变量 的 连 续 松 弛 。 arXiv 预 印 本 arXiv : 1611.00712 ,2016。4[23] C. J. Maddison,D. Tarlow和T.敏卡 A* 抽样。在NIPS,第1-9页,2014年。5[24] A. Mnih和K.格雷戈尔信念网络中的神经变分推理和学习arXiv预印本arXiv:1402.0030,2014年。4[25] A. I. Mourikis和S.I. 鲁梅利奥蒂斯一种用于视觉辅助惯性导航的多状态在Pro-CENTRAL- IEEE机器人和自动化国际会议,第3565-3572页,2007年。5[26] N. Naser,El-Sheimy;海英,侯;小吉。 基于Allan方差的 惯 性 传 感 器 分 析 与 建 模 。 IEEE Transactions onInstrumentation and Measurement , 57 ( January ) :684-694,2008。1、6[27] E. Parisotto,D. S. Chaplot,J. Zhang,and R.萨拉赫季诺夫使用基于注意力的递归网络进行全局姿态估计。在CVPR,2018年。8[28] B. Pfrommer,N. Sanket,K. Daniillem和J.克利夫兰Penncosyvio:具有挑战性的视觉惯性里程计基准。在2017年IEEE机器人与自动化国际会议,ICRA 2017,新加坡,新加坡,5月29日-2017年6月3日,第3847-3854页,2017年。五、六、七[29] T. Qin、P.Li和S.沈Vins-mono:一个强大和通用的单眼视 觉 惯 性 状 态 估 计 器 。 IEEE Transacti
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功