基于鲁棒上下文Transformer网络的惯性导航方法

56 浏览量更新于2023-12-01 收藏 3.06MB PDF 举报

惯性导航

位置预测

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文CTIN：用于惯性导航的鲁棒上下文Transformer网络饶冰冰，1埃桑卡齐米，1，2丁一凡1德乌M希拉，2弗兰克M。Tucker，3王立强11美国佛罗里达州奥兰多市中佛罗里达大学计算机科学系2Unknot.id Inc.，关闭IN，USA3美国陆军CCDC SC，奥兰多，佛罗里达州，美国摘要最近，数据驱动的惯性导航方法已经证明了它们使用经过良好训练的神经网络从惯性测量单元（IMU）测量中获得精确位置估计的能力。本文提出了一种新的鲁棒的基于上下文变换的惯性导航网络（CTIN），用于精确预测速度和轨迹。为此，我们首先设计了一个基于ResNet的编码器，该编码器通过局部和全局多头自注意来增强，以从IMU测量中捕获空间上下文信息。然后，我们融合这些空间表示与时间的知识，利用多头注意力的Transformer解码器。最后，利用减少不确定性的多任务学习来提高学习效率和速度和轨迹的预测精度。通过在广泛的惯性数据集上进行广泛的实验（例如，RIDI、OxIOD、RoNIN、IDOL和我们自己的模型），CTIN非常健壮，性能优于最先进的模型。1介绍惯性导航是一项永无止境的努力，以估计状态（即，位置和方向）（例如，IMU传感器，通常是加速度计和陀螺仪的组合，由于其优越的能量效率、移动性和灵活性，在从移动设备到自主系统的广泛应用中起着重要的作用（Jumberopouloset al. 2015年）。然而，这些传统的基于牛顿的惯性导航方法不仅表现出较差的性能，而且还需要与日常使用场景不兼容的不切实际的约束。例如，捷联式惯性导航系统（ STINS ）（Titterton、Weston和Weston2004）可能通过执行IMU测量的双重积分来获得错误的传感器位置，这是由于积分的指数误差传播。为了补偿这种累积误差，基于步的行人航位推算（PDR）方法依赖于人类行走运动的先验知识，通过检测步、估计步长和航向以及更新每步的位置来预测轨迹。然而，在零速度更新中，IMU必须连接到脚上（Foxlin2005），否则受试者必须步行Copyright © 2022 ， Association for the Advancement ofArtificial Intelligence（www.aaai.org）. All rights reserved.向前运动，使运动方向在身体坐标系中保持恒定（Brajdic和Harle 2013）。此外，惯性传感器通常与使用扩展卡尔曼滤波器的附加传感器和模型相结合（Bloesch等人，2009）。2015）提供更准确的估计，其中典型的传感器包括 WiFi （ Ahmetovic 等人，2016），蓝牙（Li，Guo和Li2017），LiDAR（Zhang和 Singh2014 ）或相机传感器（ Leutenegger 等人，2015）。尽管如此，这些与附加传感器的组合正在对仪器安装、能源效率和数据隐私提出新的挑战。例如，视觉惯性里程计（VIO）基本上取决于环境因素，诸如照明条件、信号质量、模糊效应（Usenkoet al.2016年）。最近，越来越多的数据驱动的方法，如IONet（Chenetal.2018a ）、 RoNIN （ Herath ， Yan 和Furukawa2020 ）和 IDOL （ Sun ， Melamed 和 Ki-tani2021）已经证明了他们使用经过良好训练的神经网络从IMU测量中获得准确估计的能力，其性能优于上述方法。然而，当将神经网络技术应用于IMU测量时，仍然存在巨大的挑战：1）大多数现有的数据驱动方法利用基于序列的模型（例如，LSTM（Hochreiter和Schmidhuber1997））来学习时间相关性，但未能捕获多变量时间序列之间的空间关系。2）在空间和时间维度上挖掘IMU测量值之间丰富的上下文信息用于惯性特征表示的研究工作较少3）在这些纯神经惯性模型和黑盒神经惯性模型中，惯性测量和模型输出的不确定度通常被假设为一个固定的协方差矩阵，由于它们在自然界中会发生剧烈的、不可预料的波动，这就带来了很大的不准确性和很低的鲁棒性。针对上述问题，提出了一种新的鲁棒上下文Transformer网络，用于从IMU测量数据中回归速度和预测轨迹本文的主要贡献归纳如下：• 设计了一种新的基于ResNet的具有注意机制的编码器来探索空间信息。• 提出了一种新的多头自注意机制，以探索惯性测量单元测量的惯性特征表示的上下文信息。arXiv：2112.02143v1 [cs.RO] 2021年12+v：mala2255获取更多论文不−B−B- -BB−−BBBωωω00BθBBBBB• 利用减少不确定性的多任务学习来提高学习效率和速度和轨迹的预测• 据我们所知，CTIN是第一个基于Transformer的惯性导航模型，只使用IMU测量。本文的其余部分组织如下。第二部分介绍了惯性导航的背景和相关工作。第3节介绍了体系结构概述。评价已在第4节中讨论。第5节提出结论。2背景2.1IMU模型从技术上讲，由IMU提供的3D角速度（ω）和3D加速度（α）会受到基于某些传感器属性的偏置和噪声的影响，如等式12所示：ωt=rt+bt+nt（1）αt=rα+bα+nα（二更）公式4中f的函数，其中f表示公式3中的变换。[P n，vn，Rn]t=f（[P n，vn，Rn]t−1，[α，ω]t），（4）缺点和解决方案：然而，使用惯性测量单元进行定位会导致显著的漂移，这是由于陀螺仪和加速度计感测固有的偏差和噪声会在双积分过程中迅速爆炸。使用纯数据驱动的模型与惯性导航的IMU测量已经显示出有前途的结果，在行人航位推算系统。为了解决等式4中的误差传播问题，我们将连续积分和分段惯性测量的循环打破为独立的窗口，然后利用序列到序列神经网络架构（ Sutskever ，Vinyals 和 Le2014;Bahdanau ，Cho和Bengio2015;Wuet al. 2016;Vaswaniet al. 2017）来从IMU测量的输入窗口m预测速度和位置，如等式5所示。[Pn，vn]1：m=Fθ（Pn，vn，[Rn，α，ω]1：m），（5）其中，F表示一个潜在的神经系统，t t t从IMU样本进行变换以预测位置，其中rω和rα是由gy测量的真实传感器值。速度，其中Pn，vn是初始状态。tt 0 0分别在时间戳t处的示波器和加速度计;bω和bα是时变偏差;nω和nα是噪声值，2.3相关工作t t t其通常遵循零均值高斯分布。2.2惯性跟踪根据牛顿力学（K ok，Hol和Schon2017），状态（即，位置和方向）（例如，行人）的距离可以从IMU测量的历史来估计，如等式3所示：Rn（t）=Rn（t−1）（t）（3a）传统的基于牛顿的惯性导航解决方案可以从IMU传感器中受益，以近似位置和方向（K ok，Hol和Schoün2017）。在捷联惯性导航系统（STINS）（Savage1998）中，使用陀螺仪测量的积分过程提供的旋转矩阵将加速度计测量从身体旋转到导航框架，然后减去地球重力。之后，可以通过对校正后的ac进行二重积分来获得n（t）=exp（dtω（t1））（3b）2vn（t）=vn（t−1）+n（t）（3c）n（t）=（Rn（t−1）<$α（t−1）−gn）dt（3d）Pn（t）=Pn（t−1）+vn（t−1）dt（3e）这里，时间戳t处的取向Rn（t）用相对取向（celerometer读数（Shen，Gowda和RoyChoudhury2018）。多次积分会导致指数误差传播。为了补偿这种累积误差，基于步的行人航位推算（PDR）方法依赖于人类行走运动的先验知识，通过检测步、估计步长和航向以及更新每步的位置来预测轨迹此外，惯性传感器与附加传感器融合，在两个离散时刻t和t1，其中ω（t1）测量物体在时间戳（t1）处在身体坐标系（由b表示）中相对于导航坐标系（由n表示）的适当角速度。Rn可以用来旋转a测量x∈[ω，α]从身体坐标系b到导航坐标系n，用表达式Rn<$x表示=Rn<$x<$（Rn）T其中<$是以下的哈密尔顿乘积：扩展卡尔曼滤波器（EKFs），以提供更准确的估计。典型的传感器包括WiFi（Ah-metovic等人，2016）、蓝牙、LiDAR （Zhang 和Singh2014）或摄像头传感器（ Leutenegger 等人， 2015 ）。例如，（ Wagstaff ，Peretroukhin和Kelly2019）利用一种用于对由跑步和步行组成的行人活动进行分类的模型，为两个四元数在我们的例子中，导航框架被定义为使得Z轴与地球重力gn对准在等式3c3d中，速度矢量vn（t）用其时间差ω（t）更新，该时间差ω（t）是通过使用Rw（t1）将α（t1）旋转到导航帧并丢弃重力gn的贡献而获得的。最后，位置Pn（t）通过在方程3e中积分速度而获得。因此，给定当前IMU测量（即，α，ω），新的系统状态（即，P n，v n和R n）可以从先前的状态使用一个零速检测（ZUPT）。数据驱动的方法。最近，越来越多的研究工作利用深度学习技术从IMU测量中提取信息，并在位置估计中获得有竞争力的结果（Chen et al.2018 a，a;Herath，Yan，andFurukawa2020;Dugne-Hennequin，Uchiyama，and Lima2021）。IoNeT（Chen et al. 2018a）首次提出了一种LSTM结构，以回归2D极坐标中的相对位移并连接以获得位置。在RIDI（Yan，Shan和Furukawa2018）中，+v：mala2255获取更多论文YY关注*ReLU*SoftmaxCov：1x1查询*钥匙：1x1查询：1x1Concat价值：1x1钥匙：3x3价值：1x1X（一）.全球自我关注X（b）. 局部自我关注IMU缓冲器旋转矩阵(VIO、博弈向量、二重积分）IMU[，1：m不vel×空间编码器（Nx）添加ReLUBN1x1转换1x1全球时间解码器（Nx）z添加范数前馈添加规范VelheadMLPvel1：m自我关注BN ReLU1x1转换3x3自我关注BN ReLU1x1转换多机头h关注添加法线掩码自我注意MLP多任务丢失覆盖1：m~R[n，n]1：m空间嵌入位置编码嵌入时间盖头图1：所提出的用于惯性导航的上下文Transformer模型的总体工作流程RoNIN（Herath、Yan和Furukawa2020），IMU测量首先从主体框架旋转到导航为了利用IMU样本的时间特性，我们利用大小为m的滑动窗口来准备数据集使用设备定向。当RIDI回归一个V-在时间戳t，由X 1表示：m=[xt-m+1，. . . ，xt]。从IMU测量的历史数据中提取位置向量，对偏差进行优化，然后对修正后的IMU样本进行二次积分，估计位置。RoNIN直接从IMU传感器测量序列回归2D速度，然后积分位置。除了单独使用网络进行姿态估计外，Backprop KF（Haarnoja等人，2016）中还提出了端到端可微分卡尔曼滤波器框架，其中噪声参数经过训练以产生最佳状态估计，并且不一定能够最好地捕获测量误差模型，因为损失函数取决于滤波器输出的精度在AI-IMU（Brossard，Barrau和Bonnabel2020）中，状态空间模型与小型CNN模型结合，以学习回归模型，从而使用地面真实值的MSE损失生成不确定性协方差噪声测量TLIO提供了一个神经模型来回归速度，类似地，我们采用具有相同窗口大小的滚动机制来构建速度的真实值：gt1：m。总之，每个风中的IMU样本从IMU主体框架旋转（即， ω b，α b）到导航帧（即， ω n，α n）。• 嵌入。我们需要计算IMU样本的特征表示，然后将其送入编码器和解码器。Spatial Embedding使用1D卷积神经网络，然后进行批量归一化和线性层来学习空间表示 ;Temporal Em- bedding 采用 1 层双向LSTM模型来利用时间信息，然后添加由可训练神经网络提供的位置编码。• 空间编码器。该编码器包括N个相同的层。从技术上讲，它映射一个输入序列的IMU样本X1：m的连续重复序列城市预测和不确定性联合（刘等。2020年）。预测进一步应用于卡尔曼滤波器框架中-再现不z=（z1，. . . ，z m）。捕捉空间知识-作为一种创新，其中卡尔曼滤波器的协方差噪声在IDOL（Sun，Melamed和Kitani2021）中，以端到端的方式利用了两个独立的网络。第一个模型用于预测方向，以避免智能手机API的方向估计不准确。接下来，使用世界坐标系中的IMU测量值来使用第二模型预测速度。3我们的方法3.1系统总体如图1所示，CTIN是一种基于变换的编码器-解码器架构，使用堆叠自注意和卷积模块进行空间编码器，堆叠自注意和逐点全连接层进行时间解码器。总体工作流程描述如下：• 数据准备最初，IMU样本是来自陀螺仪和加速度计的数据的边缘的IMU样本在每个时间戳，我们加强ResNet- 18中的核心瓶颈块的功能（Heet al. 2016）通过用局部自注意层替换空间卷积并且在最后的11个下采样卷积之前插入全局自注意模块（参见第3.2节中关于注意的细节）来实现。所有其他结构，包括层数和空间下采样，都将保留。修改后的底颈层重复多次以形成空间编码器，其中一个块的输出是下一个块的输入。• 时间解码器。解码器还包括N个相同层的堆叠在每一层中，我们首先执行一个掩蔽的自我注意子层，以提取时间维度中的依赖关系。掩蔽强调了时间戳t处的输出可以仅取决于时间戳小于t处的IMU样本的事实。接下来，我们在编码器堆栈的输出上进行多头注意力子层，以将空间和时间信息融合到单个矢量表示中，然后通过++v：mala2255获取更多论文不不→××--2vθ××××××∈H··∈QKT{}∈|FNF一个位置方向的全连接前馈子层。我们还在每个子层周围使用残差连接，然后进行层归一化。• 速度和协方差。最后，两个基于MLP的分支头回归输出2D速度（即，vel1 ：m）和相应的协方差矩阵（cov1：m）。位置可以通过对速度积分来求得.协方差模型，de-注：xR2×2 其中x是系统状态，可以描述训练期间地面真实速度与它们的对应预测之间的分布差异。考虑到这一点，考虑当前系统状态x的速度yv的概率可以通过多变量高斯分布近似（ Russell 和Reale2021）：1pc（yv|x）=π（2π）2|（x）|×矩阵WQ、WK、WV和γ来从IMU样本中探索空间和时间知识。• Encoder中的全局自我关注。它触发了不同空间位置的特征交互，如图1（a）所示。从技术上讲，我们首先使用三个分离的1D11卷积将X变换为Q、K和V。之后，我们获得全局注意力矩阵（即，γ（Q，K））之间的关系。最后，通过γ（Q，K）V计算最终输出Y。此外，我们还采用了多头注意，共同总结信息，从不同的子空间表示在不同的空间位置。• Encoder中的局部自关注。虽然执行在整个特征图上的全局自我注意可以实现有竞争力的性能，它不仅尺度差，而且错过了上下文信息，exp（−1（y−F（x））Tn（x）−1（yv− Fθ（x），（六）邻居钥匙因为它将查询和键视为一组孤立的对，并独立地学习它们的成对关系，而无需探索丰富的上下文值得一提的是，我们还利用具有不确定性减少的多任务学习来实现所需的性能（参见第3.3节中的详细信息）。3.2惯性导航注意力可以被认为是将针对一组键值对（K，V）的查询Q映射到输出的过程（Vaswani et al. 2017;Han et al.2020年）。它们都是维度为d的矢量表示。输出被计算为加权值之和，其中权重γ（Q，K）根据查询与对应键的兼容性函数计算，表示为ATT（Q，K，V）=γ（Q，K）V.本文使用了两种γ（Bahdanau，Cho和Bengio 2015;Wanget al.2018年）：（1）因此，我们在他们之间为了缓解这一问题，一系列研究工作（Huet al.2019;Ramachandran et al.2019;Zhao ， Jia ， andKoltun 2020;Liet al. 2021;Yao等人2022）在本地区域内使用自我注意力（即，3 3网格）来有效地促进自注意学习，并增强输出聚合特征图的代表性。在本文中，我们遵循这一轨迹，并设计了一种新的惯性导航局部自注意，如图1（b）所示。特别是，我们首先雇用在3 3的网格内的所有相邻键上进行3 3组卷积，以提取每个键的局部上下文表示，由C1=XW K，33表示。在此之后，注意力矩阵（即， γ（Q，C1））通过γ的级联版本来实现，其中W γ是11卷积并且Q被定义为X。接下来，我们通过γ（Q，C1）×V计算目标特征图C2，Q和K，将每个结果元素除以dk，并且ap-所有IMU sam之间的全局上下文交互使用softmax函数获得权重：γ（Q，K）=softmax（softmax）。(2)受关系网络的启发（San-toroet al. 2017），我们研究了一种级联形式：γ（Q，K）=ReLU（Wγ[Q，K]），其中[，]表示级联，Wγ是将级联向量投影到标量的权重向量。自我注意网络通过对序列中的每对标记施加注意力来计算输入序列的表示，而不管它们的距离如何（Vaswaniet al.2017）。从技术上讲，给定IMU样本XRm×d，我们可以直接对X执行以下变换以获得Q，K和V：Q，K，V=XWQ，XWK，XWV，其中WQ，WK，WV Rd×d是可训练参数。通常，这些中间向量在不同的位置被分割成不同的表示子空间（即，h=8 ， dk=d ）， e. 例如，在一个实施例中，K=[K1，. . . ，Kh]，其中KiRm×dk。对于子空间，注意力输出通过head i=ATT（Q i，K i，V i）计算。最终的输出表示是由多个注意力头生成的输出的级联： MultiHead （ Q ， K ， V ） =[headi，. . . ，头部h]。在本文中，编码器和解码器完全依赖于注意力机制，采用不同的设置进行嵌入请。最终输出Y通过局部上下文C1和全局上下文C2之间的注意力机制融合。• 解码器中的多头注意力。我们继承了香草Transformer Decoder 的设置，用于注意力机制（Vaswani et al. 2017年）。换句话说，我们采用三个单独的线性层分别从X生成Q、K和V，并利用以下两两函数：点积来计算注意力矩阵（即，γ（Q，K））。最后，通过γ（Q，K）×V计算最终输出Y。3.3联合学习速度和协方差我们利用具有不确定性减少的多任务学习来提高两个回归任务的学习效率和预测精度，即，二维速度及其协方差的预测。受（ Kendall ， Gal ， andCipolla2018;Liuetal.2020;Yaoetal.2021;Yangetal.2021）的启发，我们通过最大化具有不确定性的高斯似然来推导多任务损失函数（ Kendall andGal2017）。首先，我们将似然定义为高斯分布，其均值由模型输出pu（yθ（x））=（θ（x），δ2），其中δ是观测噪声标量。接下来，我们推导出模型最小化目标作为两个模型输出yv（速度）和yc（协方差）的负对数似然+v：mala2255获取更多论文vCLvLLLL2vvvMt=1不不不载体Nexus 5L（ Fθ，δv，δc）表1：用于评估导航模型的公共数据集的描述4.1数据集和基线=− log（p u（y v，y c| Fθ（x）=− log（p u（y v| Fθ（x））× pu（yc| Fθ（x）= −（log（p u（y v| Fθ（x））+log（p u（y c|Fθ（x）=−（log（N（yv;Fθ（x），δ2））+log（N（yc;Fθ（x），δ2）数据集如表1所示，具有丰富运动上下文的所有所选数据集（例如，手持、口袋和腿）由多个受试者使用两种设备收集：一种是收集IMU测量值，另一种是提供接地v c1212真理，就像位置和方向。所有数据集以8：1：1的比例分为训练、验证和测试数据集2δ2+ logδc对于除CTIN之外的测试数据集，有两个子集：`VelocityLoss11x`C变量无功损耗一个用于也包括在训练和验证集中的对象，另一个用于未看见的对象。更多信息=2δ2Lv+2δ2Lc+ logδvδc，关于数据集的信息可以在补充材料中找到。v其中δvC和δ（七）c是速度的观测噪声，基线选定的基准模型如下：• 捷联惯性导航系统（捷联惯导系统）协方差，分别。速度和协方差损失函数由v和c表示，并描述如下：积分速度损失（IVL，v）不是在预测速度（v）和地面实况值（v）之间执行均方误差（MSE），而是首先从v）积分预测位置（参见等式3e），然后针对IMU样本的相同段内的地面实况位置差定义L2范数，由p表示。此外，我们计算v和v之间的累积误差，表示为Le. 最后，Lv被定义为Lp+Le。协方差NLL损失（CNL，c）根据等式6中的协方差矩阵，我们将最大似然损失定义为速度的NLL，并考虑其相应的协方差λ：L c = − log（pc（yv|（x））物体的位置可以从线加速度的二重积分（减去地球重力）获得。为此，我们需要使用设备方向将加速度从身体坐标系旋转到导航坐标系，并对旋转的加速度执行两次积分运算以获得位置（Savage1998）。• 行人航位推算（PDR）：我们利用开源计步算法（Murray和Bonick2018）来检测脚步，并沿设备前进方向更新每一步的位置。我们假设步长为0.67米/步。• 鲁棒IMU双重集成（RIDI）：我们使用原始实现（Yan，Shan和Furukawa2018）为RIDI和OxIOD数据集中的每个设备附件训练单独的模型对于其余的数据集，我们分别为每个数据集训练一个统一的模型，因为附加-=1（y2v -f（x））T（x）−1（yv1-f（x））+2 ln|（x）|（八）在这些数据集中的数据采集期间的部分是混合的。• 鲁棒神经惯性导航（RoNIN）：我们使用= 1天−f（x）≠1|（x）|原始实现（Herath、Yan和Furukawa2v（x）+ 2ln2020）以评估所有三种RoNIN变体（即，R-有大量的研究工作为神经网络不确定性估计提出了各种协方差参数化（ Liu et al.2020;Russell andReale2021）。在这项研究中，我们简单地定义了沿对角线的方差，这是参数化的两个系数的速度。4实验在本节中，我们根据以下五个数据集评估CTIN：LSTM，R-ResNet和R-TCN）。4.2评估指标根据第3节介绍的方法产生的预测速度，通过对速度进行积分，可以计算出用于评估定位精度的主要度量是具有各种定义的均方根四个具有代表性的前期研究工作。CTIN是简单的-在Pytorch 1.7.1（P aszkeet al. 2019年）和培训估计误差：RMSE=.1微米E（x，x<$）在NVIDIA上使用Adam优化器（Kingma和Ba2015）RTX 2080Ti GPU。在训练过程中，根据验证数据集上的模型性能，利用提前停止 30 个耐心（Prechelt1998;Wang et al.2020）来避免过度拟合其中m表示数据点的数量;Et（xt，xt）rep。表示位置之间的估计误差（即，x t）及其对应的一个（i. 例如，在预测的路径中。在这项研究中，我们定义了以下指标（Sturm et al. 2011年）：数据集年份IMU采样频率受试者数量序列数地面运动源真相上下文瑞迪2017 Lenovo Phab2 Pro200 Hz1098Google Tango手机四个附件：腿口袋，公共（严，山，古川2018）袋，手，身体OxIOD2018年iPhone 5/6，7 Plus，100 Hz5158Vicon四个附件：手持、痘疤手提包、手推车et，Public（Chen et al. （2018年b）浪人2019Galaxy S9，Pixel 2 XL200 Hz100276华硕Zenfone AR自然连接设备公共（Herath，Yan和Furukawa2020）偶像2020年iPhone 8100 Hz1584卡茨·斯滕特自然连接设备公共（Sun，Melamed和Kitani2021）CTIN2021三星Note，Galaxy200 Hz5100Google ARCore自然连接设备由我们自己收集，并将很快X+v：mala2255获取更多论文−- − −- − −数据集测试对象度量性能（米）Perf. 改进罪PDR瑞迪浪人CTINCTIN优于RoNINR-LSTMR-ResNetR-TCNR-LSTMR-ResNetR-TCN瑞迪看到吃6.3422.768.182.552.333.251.3945.36%40.10%57.13%T-RTE8.1324.899.342.342.362.641.99百分之十五15.78%24.80%D-RTE0.521.390.970.160.160.170.1132.47%32.26%35.91%看不见吃4.6220.568.182.781.972.061.8633.07%5.40%9.68%T-RTE4.5831.1710.512.952.472.432.4915.66%-0.70%-2.36%D-RTE0.361.191.090.150.140.140.11百分之二十八21.22%22.72%OxIOD看到吃15.369.783.783.872.403.332.3240.10%3.52%30.27%T-RTE11.028.513.991.561.831.490.6260.40%66.27%58.67%D-RTE0.961.162.300.200.560.190.0761.94%86.67%61.21%看不见吃13.9017.727.165.223.516.163.3435.90%4.61%45.69%T-RTE10.5117.217.652.652.512.611.3350.00%47.18%49.15%D-RTE0.891.102.620.290.490.240.1355.57%73.45%45.48%浪人看到吃7.8926.6416.825.113.996.184.629.49%-15.81%百分之二十五点二三T-RTE5.3023.8219.503.052.833.272.817.70%0.69%百分之十三点九一D-RTE0.420.984.990.220.190.200.18百分之十八点九四2.75%百分之十点一五看不见吃7.6223.4915.758.735.767.495.6135.77%2.60%25.11%T-RTE5.1223.0719.134.874.504.704.488.04%0.42%4.61%D-RTE0.431.005.370.290.250.260.2512.63%0%的百分比4.83%偶像看到吃21.5418.449.794.574.444.682.9036.49%34.63%37.98%T-RTE14.9314.537.971.721.581.771.3521.47%百分之十四点五四23.46%D-RTE1.071.140.970.190.260.180.13百分之二十八点三九48.21%百分之二十五点一二看不见吃20.3416.839.545.603.815.893.6934.19%3.28%37.40%T-RTE18.4815.679.071.991.672.211.6516.73%百分之一点零二25.30%D-RTE1.361.311.040.200.220.200.1525.36%30.14%25.52%CTIN看到吃5.6312.054.882.222.392.021.2842.25%46.45%36.68%T-RTE5.3416.394.212.102.011.731.2938.54%35.87%百分之二十五点五五D-RTE0.500.790.180.110.160.110.08百分之二十八点九一50.56%24.61%表2：总体轨迹预测精度。最好的结果显示在粗体前面。(a)（b）第（1）款图2：CTIN和RoNIN变体模型在CTIN数据集上的性能比较• 绝对轨迹误差（ATE）是估计误差的RMSE ：Et=xtxt. 该度量显示了轨迹之间的全局一致性，并且误差随着路径长度的增加而增加。• 时间归一化相对轨迹误差（T-RTE）是时间间隔窗口跨度上的平均误差的RMSE（即， t i= 60秒）。估计误差的形式定义为Et=（xt+tixt）（x≠t+tix≠t）. 这个指标衡量的是估计的本地一致性和地面真理之路。• 距离归一化相对轨迹误差（D-RTE）是当对象行进一定距离d时跨所有对应窗口的RMSE，如在我们的情况下d 被设置为 1 米。估计误差由 Et=（xt+td）给出xt）（xt+td其中td是时间间隔需要遍历的距离d。• 位置漂移误差（PDE）测量最终位置+v：mala2255获取更多论文（在时间戳m处）在总行进距离上的漂移（i. 例如，郑和。 len）：（xm−xm）/tr aj. 透镜4.3整体性能表2显示了整个测试数据集的实验轨迹误差。它表明，CTIN可以在ATE，T-RTE和D-RTE指标方面在大多数数据集上实现最佳结果在RIDI-unseen测试用例中，R-TCN可以获得比CTIN更小的T-RTE数; R-ResNet 报告 RoNIN-seen 的最小 ATE为 3.99 。特别是，与R-LSTM、R-ResNet和R-TCN相比，CTIN将所有可见测试数据集的平均 ATE 分别提高了34.74%、21.78%和37.46%;所有未见过测试数据集的相应数字分别为34.73%、3.97%和29.47%。RoNIN 变体的主要限制（即， R-LSTM ， R-ResNet和R-TCN）的缺点是它们不捕获光谱+v：mala2255获取更多论文(a)（b）第（1）款图3：CTIN数据集上建议的注意力层的有效性。“*-atts” means CTIN or R-ResNet models with attention functionalities; “*-Conv” represents the models using a conventional spatial convolution图4：在CTIN数据集上评估的具有不同损失函数的CTIN网络的性能。跨时间序列的相关性，这妨碍了模型的因此，我们提出的方法在这些基线上取得了更好的性能，这是令人信服的该表还表明，CTIN可以很好地推广到看不见的测试集，并且在测试集上优于所有其他模型。PDR示出了由于加加速度计算引起的一致和精确的更新而导致这种机制导致长轨迹上的PDR故障随着时间的推移，由于累积的航向估计，轨迹趋于漂移，漂移将急剧增加，这导致分散的运动轨迹形状。R-LSTM在大规模的并行计算中没有显示出令人满意的结果。与R-LSTM和R-TCN相比，CTIN的优势是显着的。结果显示，智能手机的噪声传感器测量值存在较大的漂移。4.4消融研究在本节中，我们仅评估模型行为、CTIN数据集上CTIN中使用的注意力层和损失函数的有效性有关其余数据集的实验设置和可视化的更多信息，请参阅补充模型行为。CTIN和三种RoNIN变体之间性能比较的实验结果如图2所示。在图2a中，每个图都显示了整个测试数据集上所选度量的累积密度函数（CDF）。CTIN的蓝线比其他图更陡，这表明对于所有呈现的指标，CTIN显示的总体误差显著低于所有RoNIN变体。如图2b所示，尽管CTIN的总体MSE高于R-Resnet并且小于R-LSTM和R-TCN，但是其位置漂移误差（即，PDE（%））最小（即，最好的）。因此，CTIN执行bet-比所有的RoNIN变体都要好。注意力的有效性。在本文中，我们提出了一种新的注意机制，利用空间特征空间之间的局部和全局依赖性，然后利用多头注意层来结合空间和时间信息，以提高速度预测的准确性。为了评估它们的有效性，我们使用CTIN/R-ResNet及其不具有/具有注意机制能力的变体进行了一组实验实验结果如图3所示。图3a显示了CTIN-Atts和R-ResNet-Atts模型优于没有attention层的模型此外，CTIN-Atts在所有指标上都表现最好，CTIN-Conv的性能优于所有R-ResNet变体。在图3b中，CTIN-Atts和R-ResNet- Atts具有比CTIN-Conv和R-ResNet-Conv更低的速度预测的平均MSE损失和最小的PDE。总的来说，CTIN和R-ResNet可以从所提出的注意力机制中受益损失函数。在本节中，我们评估多任务丢失的性能（即，IVL+CNL）采用不同的损失函数，如均方误差（MSE）、积分速度损失（IVL）和协方差NLL损失（CNL），进行了一组对比实验，对模型进行了训练。如图4所示，损失IVL+CNL的CTIN实现了ATE和D-RTE指标的最佳性能5结论在本文中，我们提出了CTIN，一种新的鲁棒的上下文变换为基础的模型，从IMU测量段回归准确的2D速度和轨迹为此，我们首先设计了一个基于ResNet的编码器，通过局部和全局的多头自注意层来捕获IMU测量的空间上下文信息，从而指导有效注意矩阵的学习，从而增强惯性表征能力。我们进一步融合这些空间表示与时间的知识，边缘利用多头注意力的Transformer解码器。最后，利用不确定性进行多任务学习，以提高学习效率和二维速度的预测精度。通过在广泛的惯性数据集上进行广泛的实验（例如，RoNIN、RIDI、Ox-IOD、IDOL和CTIN），所提出的模型是非常鲁棒的并且优于最先进的模型，诸如RoNIN和RIDI。+v：mala2255获取更多论文引用Ahmetovic，D.; Gleason，C.; Ruan，C.; Kitani，K.;高木，H.;和Asakawa，C. 2016. NavCog：盲人导航认知助手。第18届国际人机交互与移动设备和服务会议论文集，90Bahdanau，D.;周，K.;和Bengio，Y. 2015.神经机器翻译通过共同学习对齐和翻译。在2015年5月7日至9日在美国加利福尼亚州圣地亚哥举行的第三届学习表征国际会议上，跟踪程序。Bloesch，M.; Omari，S.; Hutter，M.;和Siegwart，R.2015.使用直接基于EKF的方法的鲁棒视觉惯性里程计。 2015 年 IEEE/RSJ 智能机器人与系统国际会议（IROS），298-304。美国电气与电子工程师协会。Brajdic，A.;和Harle，R. 2013.不受约束的智能手机上的步行检测和步数计算。在2013年ACM普适和普适计算国际联合会议上，225Brossard，M.; Barrau，A.;和Bonnabel，S. 2020. AI IMU航位推算IEEE Transactions on Intelligent Vehicles， 5（4）：585Chen ， C. ，中国科学院 ; 卢， X.; Markham ， A.; 和Trigoni，N. 2018年a。爱奥尼特：学习治愈惯性惯性轨道漂移的诅咒。在AAAI人工智能会议论文集，第32卷。Chen，C.，中国科学院;赵，P.; Lu，C. X.;王，W.;Markham，A.;

下载后可阅读完整内容，剩余1页未读，立即下载