神经惯性定位

78 浏览量更新于2023-10-25 收藏 18.1MB PDF 举报

位置估计

室内定位系统

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

breakthrough in inertial navigation [10,14,22] allows us toobtain such motion history using an inertial measurementunit (IMU). What is missing is the technology that mapsa motion history to a location. This papers addresses thisgap, seeking to open a new paradigm in the localizationresearch, named “inertial localization”, whose task is toinfer the location from a sequence of IMU sensor data.Indoor localization is a crucial technology for location-aware services, such as mobile business applications forconsumers, entertainment (e.g., Pokemon Go) for casualusers, and industry verticals for professional operators(e.g., maintenance at a factory).State-of-the-art indoorlocalization systems [5] mostly rely on WiFi, whoseinfrastructure is ubiquitous thanks to the demands onInternet of Things (IoT). Nevertheless, accuracy of WiFibased localization depends on infrastructure (i.e number ofaccess points) thus cannot scale easily to non-commercialprivate spaces.IMU is a powerful complementary modality to WiFi,which has proven effective for the navigation taskrecently [10,14,22]. IMU 1) works anytime anywhere (e.g.,inside a pocket/bag/hand); 2) is energy efficient to be analways-on sensor and 3) protects the privacy of bystanders.This paper introduces a novel inertial localizationproblem as a task of estimating the location from a historyof IMU measurements. The paper provides the first inertiallocalization benchmark, consisting of 53 hours of motiondata and ground-truth locations over 3 buildings.The66040神经惯性定位0Sachini Herath 1 � David Caruso 2 Chen Liu 2 Yufan Chen 2 Yasutaka Furukawa 101 加拿大不列颠哥伦比亚大学 2 Reality Labs, Meta, Redmond, USA0图1.从IMU测量到位置估计。给定惯性传感器数据（左），我们的方法（中）使用神经惯性导航技术找到一系列速度向量；然后训练一个场景特定的基于Transformer的神经架构，将速度序列映射到位置概率。图中显示了我们办公室数据集的示例定位结果。颜色显示了输入（左）、中间表示（中）和位置（右）之间的时间对应关系。0摘要0本文提出了惯性定位问题，即从一系列惯性传感器测量中估计绝对位置的任务。这是室内定位研究中一个令人兴奋且未被探索的领域，我们提供了一个包含53小时惯性传感器数据和相关地面真实位置的丰富数据集。我们开发了一种解决方案，称为神经惯性定位（NILoc），它使用神经惯性导航技术将惯性传感器历史转换为速度向量序列；然后使用基于Transformer的神经架构从速度序列中找到设备位置。我们只使用了IMU传感器，与WiFi、摄像头和其他数据源相比，IMU传感器具有节能和保护隐私的优势。我们的方法速度显著更快，并且即使与需要楼层平面图并且运行速度慢20到30倍的最先进方法相比，也能取得竞争性的结果。我们在https://sachini.github.io/niloc上分享我们的代码、模型和数据。01. 引言0*通讯作者sherath@sfu.ca。（这项工作是Sachini在Meta担任实习生时完成的一部分。）66050本文还提出了一种有效的解决方案，称为神经惯性定位（NILoc）。NILoc首先使用神经惯性导航技术[10]将IMU传感器数据转换为速度向量序列，剩下的任务是将速度序列映射到位置。惯性定位的挑战在于这个剩余任务中的高度不确定性。例如，静止运动可以在任何地方，短距离前进运动可以在任何走廊。为了克服这种不确定性，我们的方法采用了基于Transformer的神经架构[27]（能够对复杂的长序列数据进行编码），并结合了一个时序卷积网络（通过压缩输入序列长度来扩展时间容量）和一个自回归解码器（处理任意长的序列数据）。本文的贡献有三个方面：1）一种新颖的惯性定位问题，2）一个新的惯性定位基准，3）一种有效的神经惯性定位算法。我们将分享我们的代码、模型和数据。02. 相关工作02.1. 室内定位0室外导航主要使用卫星GPS。室内定位通常依赖于多个数据源，如图像、WiFi、磁场或IMU。我们根据输入模态来回顾室内定位技术。0基于图像的定位从查询图像估计相机的6DoF姿态。经典方法是检测特征像素，建立2D到3D或2D到2D的对应关系，并解决透视n点（PnP）问题[23]。深度学习的兴起使我们能够通过端到端网络来学习这些步骤[30]。另一类神经架构直接回归姿态参数[13]。InLoc[24]是一个基于图像的室内定位系统，报告了69.9％的查询的定位误差在1米以下。尽管精确，图像模态在为移动应用提供服务时存在一些主要缺点：相机需要直接的视线，消耗大量电池，并透露有关旁观者的信息。0基于WiFi或蓝牙的无线定位是室内定位的主流模态[3，21，29]。无线接收器可以随时随地工作，而WiFi基础设施由于不断增长的物联网市场需求而无处不在。无线模态的精度不如基于图像的方法，并报告了最小10米的误差半径[9]。本文研究惯性定位作为一种有效的补充模态。0活动和磁场是室内定位的其他模态。基于IMU传感器数据的活动识别通过提供位置线索。0预先确定的活动类型和位置之间的映射[12，31]。特定位置的磁场扭曲也可以通过现场调查来构建定位系统[1，18，26]。0IMU和楼层平面图融合允许经典滤波方法（例如粒子滤波器）通过使用惯性导航来传播粒子并使用楼层平面图来重新加权粒子进行定位[25]。这种方法对惯性导航中的累积传感器误差非常敏感。短期运动历史（五秒钟）与楼层平面图之间的相关性可以提供额外的先验信息来加权粒子[16]，但需要起始位置和方向来初始化系统。我们采用一种新颖的基于Transformer的神经架构，即使在严重弯曲的情况下，也可以从长时间运动历史中回归位置。我们的方法不需要楼层平面图，这通常会忽略瞬态物体（例如椅子/桌子）并且需要定期更新，因此提供了一个有吸引力的替代方案。02.2. 惯性导航0惯性导航通过IMU传感器数据估计相对运动，即通过加速计测量线性加速度和通过陀螺仪测量角速度。深度学习在最近几年取得了重大进展，通过学习卷积神经网络（CNN）[8]或LSTM [11]中的重复人体运动，产生了准确的3DoF[10]和6DoF[14，22]轨迹。主要误差源是消费级陀螺仪中的偏差，即使经过校准，这些偏差也会累积成显著的方向误差，即使在5分钟的运动后也可能达到20度。我们的惯性定位算法首先使用惯性导航从IMU数据中估计一系列速度向量。03. 惯性定位问题0惯性定位是仅通过IMU传感器数据的历史记录来估计主体在环境中的位置的任务。它包括训练阶段和测试阶段，即不使用楼层平面图或外部位置信息。在测试阶段，输入是加速度（加速计）、角速度（陀螺仪）和可选的磁场（指南针）测量的序列，每个测量都有3个自由度。输出是给定时间戳集合的位置估计，当地面真实位置可用时。在训练阶段，我们有一组输入IMU传感器数据和输出位置。0指标：定位精度通过以下两种方式进行衡量：1）在距离阈值（1、2、4或6米）内的正确位置估计的比例（％）[24]；2）在角度阈值（20或40度）内的正确速度方向的比例（％）。位置比例是主要指标，而方向比例衡量了时间一致性。66060建筑物0环境完整数据集测试集0尺寸分辨率 #T（#S）持续时间长度按序列按长度0[m2] [像素/米] [小时] [公里] #T（平均[min]） #T（100m）0大学A 62.8 × 84.4 2.5 151（52）25.57 65.35 25（12.07）750大学B 57.6 × 147.2 2.5 91（3）14.64 56.93 20（12.28）600办公室C 38.4 × 11.2 10.0 81（1）12.91 21.36 12（15.48）360表1.惯性定位数据集包括两个大学建筑和一个办公空间。表格显示了轨迹数量（#T），数据收集中的主体数量（#S）以及完整数据集和测试集的长度统计。0重新定位任务扩展：我们提出了一种惯性重新定位任务，与惯性定位不同之处在于先验地知道位置R2（和可选的运动方向SE（2））。该任务表示一种场景，其中使用WiFi每隔几分钟获取全局位置，而在此期间使用IMU传感器进行重新定位以提高能源效率。04.惯性定位数据集0我们提供了第一个惯性定位数据集，包含两个大学建筑和一个办公空间的53小时运动/轨迹数据。表10总结了数据集统计信息，图2可视化了所有地面真实轨迹叠加在楼层平面图上。每个场景都是一个平坦的地面，位置以2D坐标给出，不包含垂直位移。如果有的话，提供了场景的楼层平面图像，用于定性可视化，其中描绘了建筑结构（例如墙壁、门和窗户），但不包含椅子、桌子和沙发等临时物体。0数据收集：我们使用智能手机收集IMU传感器数据和地面真实位置。在未来，增强现实设备（例如Meta的Aria眼镜，Snap的Spectacles）将允许收集与IMU和相机数据紧密耦合的自我中心数据集。我们在这项工作中使用了两台设备：1）一台手持式3D跟踪手机（GoogleTango，AsusZenfoneAR），具有内置的视觉惯性SLAM功能，可以产生地面真实相对运动，其中Z轴与重力对齐；2）一台标准智能手机，在自然的手机操作（例如放在口袋里，手中或用于通话等）下记录IMU传感器数据。我们使用Tango区域描述文件[6]将地面真实轨迹与一个公共坐标框架对齐，然后手动与楼层平面图对齐。大学A包含来自RoNIN数据集[10]的数据，手动与楼层平面图对齐。IMU传感器数据和地面真实位置都以200Hz的频率记录。0测试序列：我们随机选择六分之一的轨迹作为测试数据，其平均持续时间为13.3分钟。我们还从每个测试序列中随机裁剪三个固定长度的子序列（100米）形成测试集。0图2.惯性定位数据集包含基于视觉惯性SLAM的IMU测量和地面真实位置的三个建筑物。地面真实轨迹以随机颜色显示，叠加在相应的楼层平面图上。（图像尺寸以米为单位）。0NILoc数据集已经去除了主体的身份信息，不包含任何图像或视频数据。05. NILoc: 神经惯性定位0我们的系统NILoc不是通过IMU测量来回归位置，而是利用神经惯性导航技术[10]将IMU传感器数据序列转换为速度向量序列，其中我们的核心任务是将速度向量转换为位置估计。01 RoNINResNet模型以IMU数据的频率估计速度。为了处理没有或几乎没有运动的时期（例如坐下），我们根据行程距离重新采样速度。具体而言，我们将速度向量相加，直到其长度大于相当于位置图中一个像素的距离，然后采样一个聚合向量。66070图3. 神经惯性定位系统图。我们使用两个分支的Transformer架构从速度输入中估计位置似然。仅在训练中使用的路径显示为虚线。0高不确定性是任务中的挑战。NILoc采用了两个基于Transformer的网络分支的神经架构[27]，能够使用复杂运动数据的长时间历史来减少不确定性。“速度分支”对速度向量序列进行编码，其中一个时间卷积网络将时间维度压缩以进一步增加时间感受野。“自回归位置分支”对位置似然序列进行编码，能够自回归地在长时间范围内产生位置估计。网络根据训练数据对每个场景进行训练。本节解释了这两个分支（第5.1节）0以及训练方案（第5.3节）和数据增强过程（第5.4节），在缺乏足够的训练数据时证明有效。05.1. 速度分支0该分支使用历史速度数据估计位置序列。它由三个网络模块组成：基于TCN的速度压缩器、Transformer速度编码器和翻译感知位置解码器。基于TCN的速度压缩器：Transformer功能强大但内存密集。我们使用一个时间卷积网络（TCN）[2]将速度序列长度压缩了10倍，使我们能够处理更长的运动历史。具体而言，我们使用一个具有10个感受野的2层TCN将长度为T的2D速度向量序列{vt}压缩成长度为T/10的d维度2特征向量序列{v't}：02维度d设置为建筑物A、B和C的288、470和448，以与其楼层面积和分辨率成比例。0{v1, v2, ..., vT} → {v'1, v'2, ..., v'T/10}.0Transformer编码器：Transformer架构[27]将压缩的速度向量{v't}作为标记，并通过连接帧索引的d/2维三角位置编码来初始化每个特征向量f t ：0f t = [v't, {cos(wit)}, {sin(wit)}]0w i = exp(-log(10000d' (i = 1, 2, ..., d/4)02d). 每个标记的输出嵌入e t也是一个d'维向量，编码位置似然。编码器有两个自注意力网络块。每个块都有8路多头注意力的2个标准Transformer编码器层。第一个块后的特征向量也传递给另一个分支（即自回归位置分支）。0翻译感知位置解码器：最后一个模块对每个单独的嵌入e t进行操作。首先，e t被重新排列成图像特征体积（3D张量3），并通过具有转置卷积的3层全卷积解码器进行上采样。最后一层是一个“翻译感知”的1×1卷积，其参数在像素之间不共享。为了考虑不确定性，输出位置被表示为大小为W×H的2D似然图L t：L(x, y)。这个翻译感知层允许03维度（宽度、高度、通道）分别为24x18x1、16x44x1和14x48x1，对应三个场景A、B和C4地图范围由地面真实位置的轴对齐边界框确定。我们选择分辨率（每米像素数），使得像素总数约为300万（见表1）。66080网络可以轻松学习与翻译相关的信息，例如“人们从不来到这个位置”或“一个人总是经过这个门口”。05.2.自回归位置分支0位置分支将来自速度分支和先前位置似然的速度特征相结合，先前位置似然来自其过去的推理或外部位置信息（如WiFi）。位置分支与速度分支具有相同的架构，但有两个区别。首先，我们使用ConvNet将每个W×H似然图转换为d'维向量，而不是基于TCN的速度压缩器。我们使用相同的三角位置编码（但维度为d'而不是d/2以匹配维度），将其添加到向量中。其次，在每个自注意层之后（即在每个添加-规范化层之前），我们通过交叉注意力将速度特征从速度分支注入位置分支。其余的架构保持不变。注意，两个分支都预测位置，并具有不同的权衡（见第6.4节的消融研究和讨论）。在推理时，我们首先以滑动窗口的方式评估速度分支以计算速度特征向量。位置分支获取最多20帧的位置似然历史记录：{L t , L t − 1 , ∙ ∙ ∙ L t − 19}。L 0编码外部初始位置信息（例如来自WiFi）或者如果不可用则使用均匀分布。在输出中，初始化为帧t'的似然的节点将在帧t' +1上有一个似然估计。因此，我们为一个帧推断20次似然，通过从第一个推断结果到最后一个逐渐减小权重，计算加权平均作为最终似然，权重从1.0减少到0.05。05.3.训练方案0我们在两个分支上使用交叉熵损失。地面真实似然是一张零强度图像，除了地面真实位置的一个像素值为1.0。我们使用并行计划采样[17]来训练自回归位置分支，而不是展开循环推理。该过程有两个步骤。首先，我们将GT似然传递给所有输入令牌并进行预测。其次，我们以概率rteacher（称为教师强制比率）保留输入令牌中的GT似然，同时用预测的似然替换其余节点。反向传播仅在第二步中进行。在前50个时期中，rteacher设置为1.0，并在每5个时期后减少0.01。05.4.合成数据生成0Transformer架构需要大量的训练数据。我们在不同的时间窗口上裁剪数据05. COVID大流行进一步增加了数据收集的挑战。0为了增加训练样本，我们采用以下三个步骤来合成更多的训练样本：1）计算训练轨迹的似然图（即它们经过的位置）；2）从高似然区域随机选择一对位置；3）解决一个优化问题，生成一条平滑的轨迹，经过高似然区域。给定合成的轨迹，我们根据行程距离采样速度向量，就像在预处理步骤中一样，这些速度向量直接传递给基于TCN的速度压缩器进行训练。所有步骤都是标准的启发式方法，详细信息请参见补充材料。06.实验结果06.1. 基准方法0据我们所知，以往的工作没有单独使用IMU数据进行室内定位。因此，我们与以下三种融合IMU和楼层平面图的技术进行比较。请注意，我们的方法是唯一一种仅使用IMU数据而不使用楼层平面图图像的惯性定位方法。我们简要解释一下这三种技术。 •粒子滤波器（PF）维护一组粒子，每个粒子存储位置、朝向方向以及偏差/比例误差校正项。从给定的初始位置周围的高斯分布或其他情况下的均匀分布开始，系统根据惯性导航结果和楼层平面图信息（即如果在可行走区域之外则减小粒子权重）更新粒子的状态。我们选择与加权中位数x/y坐标最接近的粒子作为位置预测。 •学习先验（LP）[16]也是一种基于粒子滤波器的方法，但使用深度网络来帮助更新粒子权重。通过UNet[20]提取的楼层平面图特征和LSTM[11]提取的运动特征之间的点积计算得到位置似然，用于加权粒子。由于代码不可用，我们使用我们的本地实现。请注意，该方法需要初始位置和方向，并且仅针对SE(2)的重定位任务进行评估。 •条件随机场（CRF）基于最先进的地图匹配系统[28]，该系统从楼层平面图计算可达性图，使用惯性导航结果在图节点之间进行转换，并使用维特比算法进行回溯和确定位置。我们对该系统进行了一些修改，以更好地适应我们的需求。0在大学A中，6个运动受到建筑结构（例如墙壁和房间）的控制，建筑蓝图被用作楼层平面图。对于大学B和办公室C，椅子和桌子等临时物体起到更重要的作用，但在蓝图中并不显示。因此，我们将合成数据生成过程中的可能性图作为楼层平面图进行二值化处理。1APF1.8CRF15.032.546.353.661.770.514.231.947.054.753.061.09.5 / 3.7BPF1.03.87.09.017.027.76.416.828.634.038.151.61.8 / 1.4CRF12.433.648.753.762.065.718.449.868.671.571.877.218.8 / 5.4CPF19.730.946.058.621.838.218.328.943.855.221.038.04.3 / 4.2CRF26.336.243.752.131.346.344.360.572.180.544.464.938.1 / 16.81RelocR2PF21.4CRF33.259.778.987.771.783.831.760.379.486.771.784.321.3 / 8.866090建筑方法0固定短序列 (100 m) 完整测试序列运行时间 cpu/gpu (秒) ↓0距离 ↑ A处的成功率(%) 距离 ↑ A处的成功率(%) 距离 ↑ A处的成功率(%) 距离 ↑ A处的成功率(%)0我们的方法 16.7 28.9 38.8 44.6 46.8 54.1 23.4 44.8 62.6 69.5 65.6 74.8 0.3 / 0.10我们的方法 47.6 69.3 74.5 77.3 67.9 75.1 49.4 73.1 80.1 82.0 72.7 80.7 1.2 / 0.20我们的方法 69.9 78.1 83.4 87.2 51.8 67.4 72.9 80.5 85.2 89.1 53.4 69.7 2.4 / 0.70(a) 惯性定位0任务方法0固定短序列 (100 m) 完整测试序列运行时间 cpu/gpu (秒) ↓0距离 ↑ A处的成功率(%) 距离 ↑ A处的成功率(%) 距离 ↑ A处的成功率(%) 距离 ↑ A处的成功率(%)0我们的方法 50.9 69.3 77.7 82.0 65.0 74.9 50.8 69.3 78.7 82.6 65.5 76.2 1.3 / 0.30RelocSE（2）0粒子滤波器（PF） 22.9 41.5 62.8 73.7 51.5 68.2 15.1 30.8 47.0 54.9 41.8 56.0 2.1 / 6.70学习先验（LP） 9.7 27.1 55.3 70.2 49.2 69.8 4.0 13.2 29.5 40.5 36.9 54.3 7.0 / 2.70条件随机场（CRF） 36.5 64.4 82.7 90.6 74.2 86.6 31.9 61.0 79.8 86.9 72.1 85.1 21.4 / 8.80我们的方法 52.8 71.1 79.4 83.4 66.7 76.6 51.4 70.1 79.6 83.8 66.5 77.4 1.3 / 0.30（b）惯性重定位：3个建筑物的平均指标。（请参见补充材料以获取每个建筑物的结果）0表2.NILoc在显著较低的运行时间下实现了竞争性的准确性。我们将NILoc（我们的方法）与需要楼层平面图作为输入的三种方法进行比较：粒子滤波器（PF），学习先验（LP）和条件随机场（CRF）。报告了给定误差距离阈值和角度（A）阈值下的成功率（SR）。运行时间是每1分钟运动序列的平均CPU或GPU时间。每列显示最佳和次佳结果，分别用橙色和青色表示。0定位重定位 R 2 重定位 SE（2）模型参数 SR（%）在距离 → 2m 4m 2m4m 2m 4m0无NILoc（仅RoNIN [10]） - - - - 10.5 25.7 -0无速度分支的损失 14.8 22.9 16.1 24.3 16.1 24.3 7.5M0无速度压缩器 3.6 7.6 6.7 12.3 7.2 12.0 10.2M0无TA位置解码器（FC） 5.3 10.4 6.8 13.3 8.6 14.7 211.0M0无TA位置解码器（CNN） 39.5 58.3 48.8 68.6 51.1 71.1 10.2M0我们的方法（速度分支输出） 52.5 72.1 - - - - 10.5M0我们的方法 44.8 62.6 54.1 70.4 56.0 73.0 10.5M0表3.消融研究。第一行是惯性导航算法。接下来的四行是从我们的完整系统中去除一个技术组件后的结果。对于第4行和第5行，我们去除了平移感知位置解码器，并分别用全连接层（FC）或全卷积解码器（CNN）替换。最后两行比较了速度分支和位置分支的预测，其中后者是默认预测，也是我们在其他地方报告的结果。在建筑物A上的两个距离阈值（m）的成功率（%）是指标。0任务：1）将RoNIN的结果用作速度输入；2）将搜索邻域扩大1.5倍，以处理惯性导航中的尺度不准确性；3）在固定窗口内进行周期性的反向传播，以便与其他准实时基线进行比较。06.2. 实现细节0我们在Pytorch-Lightning[4]中实现了所提出的系统。训练时，我们使用了AdamW优化器[15]。学习率初始化为0.0001，进行了30个epoch的预热[7]，然后按照0.75的因子进行调整。66100图4.定性可视化：对于建筑物A的一个轨迹，我们展示了三种方法（列）在一个定位和两个重定位任务（行）上的结果。粒子滤波器和CRF除了IMU输入外，还需要楼层平面图。颜色渐变（蓝色 → 红色 →绿色）编码了时间。我们标记了每个序列的物理尺寸，并报告了距离阈值为2、4和6米的成功率（%）。更多可视化结果请参见补充材料。0图5. 该图显示了三个任务的成功率指标，同时变化误差距离阈值。除了我们的方法，所有基线方法都需要楼层平面图作为输入，以及IMU。报告了三个建筑物的平均得分。0每10个epoch后，当验证损失不减少时，将学习率按0.75的因子进行调整。我们将训练数据的六分之一随机选择作为验证集。在主要实验中，我们将真实数据和合成数据结合进行训练。具体而言，我们在组合数据集上进行训练直到收敛（700个epoch），然后仅使用真实数据集进行微调（400个epoch）。总训练时间约为GeForce RTX 2080Ti上的3天，NVIDIA Tesla V100GPU上的1天。对于RoNIN软件，我们从官方网站[10]下载了训练好的模型。请注意，除非另有说明，否则我们的结果表示预测结果。0通过自回归位置分支进行初始化。0对于基准方法，我们使用Pytorch [4]和CuPy[19]在CPU和GPU上实现。为了公平起见，我们使用相同的楼层平面分辨率和基于距离的采样来提取速度。我们使用网格搜索来找到所有基准方法的超参数。0对于定位任务，我们使用粒子或位置可能性的均匀分布进行初始化。对于重新定位任务，我们使用自回归位置分支进行初始化。0（分别是SE(2)），我们从围绕地面真实位置的高斯分布中初始化粒子，并对于朝向使用均匀分布（分别是从位置和朝向周围的高斯分布中初始化粒子），或者提供第一帧（分别是前两个输入帧）的地面真实可能性图。661106.3. 评估0表2a是我们的主要结果，对三个建筑物的定位任务进行定量评估。NILoc在大多数条目中取得最佳结果。唯一的例外是对于固定的短序列，建筑物A与CRF相比。请注意，CRF使用楼层平面信息，而我们的输入仅为IMU。CRF的计算量大，比我们的方法慢30倍，甚至需要动态规划来全面搜索与楼层平面的所有可能对齐。表2b显示了重新定位任务的结果，平均值为三个建筑物。所有方法在更多初始化信息的情况下都能提高性能。虽然NILoc在较低的距离阈值下（即通常非常准确）取得了最佳结果，但CRF在整体上的性能更好，但代价是计算开销大和对楼层平面图像的要求。图5观察到相同的结果，绘制了在一系列阈值范围内的基于距离的成功率（平均值为三个建筑物）。粒子滤波器的性能较差，其主要限制来自于其无法处理惯性导航轨迹中的累积漂移。学习先验结合了粒子滤波器和学习将运动与位置关联的神经网络。然而，他们只使用LSTM和ConvNet对5秒的运动数据进行编码，这不足以消除歧义。NILoc使用强大的基于Transformer的架构处理大约一分钟的运动数据，克服了不确定性。另一个观察结果是，所有基准方法都明确地整合速度以更新位置信息。NILoc不会将这个整合公式固定下来，完全依靠学习将速度与位置相关联，这可能使我们的方法对惯性导航中的累积漂移更加稳健。图4提供了建筑物A的一个轨迹的定性可视化。粒子滤波器和CRF以大约200Hz估计位置，而NILoc大约为20Hz。我们在绘制轨迹时对NILoc位置进行了插值，图中的点状条纹是不连续预测的插值伪影。如右下方的惯性导航轨迹所示，这不是一个容易的任务，轨迹受到显著的累积漂移的影响。尽管如此，我们的系统能够为大多数帧推断出正确的位置。06.4. 切除研究0表3是一个切除研究，评估我们系统中各种技术组件的贡献。第一行与一种最先进的惯性导航方法进行比较，我们的方法和所有基准方法都表现出色（也参见图4）。接下来的四行显示了在我们的系统中逐个删除四个组件时的基于距离的成功率。0主系统。表格显示，训练网络时在两个分支上都使用损失函数非常重要。特别有趣的是第二行。位置和（速度的前半部分）分支都只使用位置分支的损失进行训练，其性能显著下降。第三行显示了惯性导航任务中高不确定性的挑战。当输入运动历史减少10倍且没有基于TCN的压缩器时，成功率甚至降至个位数。最后两行比较了我们完整系统的速度分支和位置分支的预测。速度分支不考虑先前的位置可能性，无法解决重新定位任务。然而，在定位任务中，它的性能优于位置分支，并且计算效率是位置分支的两倍。07. 限制和未来工作0我们的方法存在两种主要的故障模式。首先，在开放空间（例如，中庭），人体运动往往不遵循模式，任何位置都可能是答案。其次，在存在对称性或重复性的情况下，多个位置可能同样可能。我们的方法设计为在第一个输入窗口之后不使用任何未来帧信息，以便能够部署为实时系统，在高度不确定性下预测可能会突然跳变。我们未来的工作是利用在IMU中捕获的身体运动信号，但目前被惯性导航和基于距离的速度采样丢弃，以克服不确定性。例如，当一个人打开门、洗手或点咖啡时，IMU信号会有所不同，这为定位提供了有效的线索。有关更多定性可视化（即位置轨迹作为静态图像和视频以及更多建筑物中的更多样本）和定量消融研究（例如，无合成数据，无计划采样，或与TCN作为骨干而不是Transformer进行比较），请参阅补充材料。我们分享我们的代码、模型和数据，以促进惯性定位领域的进一步研究。0社会影响：惯性定位可能是室内GPS的关键组成部分。移动应用程序可能能够在室内空间的任何地方记录24/7的位置历史记录，这些空间往往比室外更私密（例如，在房屋内或休息室内）。智能手机开发者应该了解给予IMU传感器数据的影响，并为应用程序定义适当的访问控制。从积极的一面来看，惯性定位可以在设备上进行，这将允许更高程度的隐私控制，相比其他数据模态。0致谢：该研究得到了NSERC8项发现基金、NSERC发现基金加速补助和DND/NSERC发现基金补助的支持。我们感谢Weilian Song、Saghar Irandoust和FuyangZhang对数据集的贡献。[5] Google.Fused Location Provider API.https://developers.google.com/location-context/fused-location-provider. 1[6] Google. Project tango. https://get.google.com/tango/. 3[7] Priya Goyal, Piotr Doll´ar, Ross Girshick, Pieter Noordhuis,LukaszWesolowski,AapoKyrola,AndrewTulloch,Yangqing Jia, and Kaiming He. Accurate, large minibatchsgd:Training imagenet in 1 hour.arXiv preprintarXiv:1706.02677, 2017. 6[9] Sachini Herath, Saghar Irandoust, Bowen Chen, YimingQian, Pyojin Kim, and Yasutaka Furukawa. Fusion-DHL:Wifi, imu, and floorplan fusion for dense history of locationsin indoor environments.In 2021 IEEE InternationalConference on Robotics and Automation (ICRA), pages5677–5683, 2021. 266120参考文献0[1] Naoki Akai and Koichi Ozaki.高斯过程用于大规模室内环境中基于磁力地图的定位。在2015年IEEE/RSJ国际智能机器人与系统会议(IROS)上，页4459-4464。IEEE，2015年。 20[2] Shaojie Bai, J Zico Kolter, and Vladlen Koltun.通用卷积和循环网络用于序列建模的实证评估。arXiv预印本arXiv:1803.01271，2018年。 40[3] Zhenghua Chen, Qingchang Zhu, and Yeng Chai Soh.基于智能手机惯性传感器的室内定位和跟踪，带有iBeacon校正。IEEE工业信息学报，12（4）：1540-1549，2016年。 20[4] William Falcon和PyTorch Lightning团队。PyTorchLightning，2019年3月。 6 , 70[8] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.深度残差学习用于图像识别。在IEEE计算机视觉和模式识别会议论文集中，页770-778，2016年。 20[10] Sachini Herath，Hang Yan和YasutakaFurukawa。RoNIN：野外稳健的神经惯性导航：基准，评估和新方法。在2020年IEEE国际机器人与自动化大会（ICRA）上，页3146-3152。IEEE，2020年。1，2，3，6，70[11] Sepp Hochreiter和J¨urgenSchmidhuber。长短期记忆。神经计算，9（8）：1735-1780，1997年。2，50[12] Yoshihiko Kamiya，Yanlei Gu和ShunsukeKamijo。基于上下文的大型购物中心室内定位。在2019年IEEE国际消费电子大会（ICCE）上，页1-6。IEEE，2019年。20[13] Alex Kendall，Matthew Grimes和RobertoCipolla。Posenet：用于实时6自由度相机重定位的卷积网络。在IEEE国际计算机视觉会议论文集中，页2938-2946，2015年。20[14] Wenxin Liu，David Caruso，Eddy Ilg，JingDong，Anastasios I Mourikis，Kostas Daniilidis，VijayKumar和JakobEngel。TLIO：紧密学习的惯性测距。IEEE机器人与自动化快报，5（4）：5653-5660，2020年。1，20[15] Ilya Loshchilov和FrankHutter。解耦的权重衰减正则化。在国际学习表示会议上，2019年。60[16] DennisMelamed。可学习的时空地图嵌入用于深度惯性定位。硕士论文，卡内基梅隆大学，匹兹堡，宾夕法尼亚州，2021年6月。2，50[17] Tsvetomila Mihaylova和Andr´e FTMartins。用于变压器的定期抽样。在第57届计算语言学协会年会：学生研究研讨会论文集中，页351-356，2019年。50[18] Qun Niu，Tao He，Ning Liu，Suining He，Xiaona

下载后可阅读完整内容，剩余1页未读，立即下载