视觉-惯性里程计数据集及测试台

106 浏览量更新于2023-10-13 收藏 2.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

访问数据和文档：https://github.com/AaltoVision/ADVIOADVIO：一个用于视觉惯性里程计的Santiago Cortés1[0000− 0001− 7886− 7841]、Arno Solin 1[0000− 0002− 0958−7886]、Esa Rahtu 2[0000− 0001− 8767− 0864]和Juho Kannala 1[0000− 0001− 5088−4041]1 芬兰埃斯波阿尔托大学计算机科学系{santiago.cortesreina，arno.solin，juho.kannala}@aalto.fi2芬兰坦佩雷坦佩雷理工大学esa. tut.fi抽象。行人视觉-惯性里程计缺乏现实和开放的基准数据集，使得难以在已公布的方法中查明差异。现有的数据集要么缺乏完整的六自由度地面实况，要么限于具有光学跟踪系统的小空间。我们利用纯惯性导航的进步，并开发了一套通用的和具有挑战性的现实世界的计算机视觉基准集的视觉惯性里程计。为此，我们构建了一个测试台，配备了iPhone、GooglePixel Android手机和Google Tango设备。我们提供广泛的原始传感器数据，这些数据几乎可以在任何现代智能手机上访问，并提供高质量的地面实况跟踪。我们还将Google Tango、ARCore和Apple ARKit的视觉惯性轨迹数据集涵盖室内和室外情况，包括楼梯、自动扶梯、电梯、办公环境、购物中心和地铁站。关键词：视觉-惯性测距·导航·基准1介绍近来已经出现了用于基于摄像机和惯性测量单元（IMU）来跟踪手持或可穿戴移动设备的运动的各种系统和方法。既有公开的方法（例如[14，16，2，12，21]），也有封闭的专有系统。后者的最近示例是Google的ARCore和Apple的ARKit，它们在各自制造商的旗舰智能手机型号上运行具有内置视觉惯性里程计的移动设备的其他示例是GoogleTango平板设备和MicrosoftHololens增强现实眼镜。发展的主要动力2科尔特斯、索林、拉赫图和卡纳拉Google Pixel（ARCore姿势）Google Tango（原始姿势、区域学习姿势、鱼眼视频、点云）Apple iPhone 6s（ARKit姿势）原始传感器数据：• 视频• 加速计• 陀螺仪• 磁力计• 晴雨表• GNSS徒手-保持运动地面实况（6自由度姿态）Fig. 1. 定制的捕获装置左侧是Google Pixel智能手机，中间是Google Tango设备，右侧是Apple iPhone 6s。用于智能移动设备的里程计方法是实现需要精确实时跟踪自我运动的增强现实应用这样的应用在许多领域都有重要的价值，比如建筑和设计、游戏和娱乐、远程呈现以及教育和培训。尽管对视觉惯性里程计有着显著的科学和商业兴趣例如，由于每个系统的性能取决于所使用的算法和传感器，因此很难公平地比较方法的进步和算法的贡献，因为硬件和软件的贡献因素可能是混合的。此外，由于许多现有数据集要么在小空间中捕获，要么利用比低成本消费者设备可行的传感器硬件好得多的传感器硬件，因此难以评估当前解决方案将如何扩展到智能手机上的中程或远程测距或大规模同时定位和地图绘制（SLAM）此外，使用智能手机传感器捕获的真实传感器数据的可用性以及足够准确的地面实况将有利于加快学术研究的进展，并降低新研究人员进入该领域的门槛。公共数据集和基准作为快速进步的驱动力的重要性已经在许多计算机视觉问题中得到了明确的证明，例如图像分类[9，19]，对象检测[13]，立体重建[10]和语义分割[13，6]，仅举几例。然而，关于视觉惯性里程计，没有公开可用的数据集或基准可以允许在典型的智能手机环境中评估最近的方法。此外，由于开源软件文化在这一研究领域并不像在图像分类和对象检测领域那样普遍，因此研究环境并不适合促进快速进展。此外，由于上述原因，该领域有可能只有由大型公司资助的大型研究小组才能进入，这将减缓进展并削弱开放的学术研究。ADVIO：用于视觉惯性里程计的真实数据集3地板523.6米地板419.2米地板314.7米Floor 210.1米Floor 15.6米(a) 商场内部视图（b）Tango点云地板0 0.0m(c) 自动扶梯数据集图二、考虑了多楼层环境，如（a）。在商场中捕获的点云（b）和自动扶梯/电梯路径（b）中的探戈轨迹（红色）与（c）中的地面实况具有相似的形状如果放大，可以在（c）中看到周期性运动在这项工作中，我们提出了一个数据集，旨在促进智能手机和其他具有低成本传感器的移动设备的视觉惯性里程计和SLAM方法的开发（即滚动快门相机和基于MEMS的惯性传感器）。我们的传感器数据是使用标准iPhone 6s设备收集的，并且包含地面实况姿态轨迹和来自以下传感器的原始同步数据流：RGB摄像机、加速度计、陀螺仪、磁力计、平台提供的地理坐标和气压计。总的来说，收集的序列包含约4.5公里的不受约束的手持运动在各种环境中的室内和室外。图2中示出了一个示例序列。这些数据集是在公共场所收集的，符合当地有关拍摄和出版的立法。地面实况计算结合最近的纯惯性导航系统（INS）[24] 基于精确的平面布置图频繁地手动确定位置。我们的地面实况的质量得到验证，其准确性得到估计。除了基准数据集之外，我们还比较了视觉惯性里程计方法，包括三个最近的专有平台：ARCore开启Google Pixel设备、iPhone上的Apple ARKit和Google Tango平板设备，以及两种最近公布的方法，即ROVIO[2，1]和PIVO[25]。用于比较的数据是用具有三种装置的捕获装置收集的，并且在图1中示出。为每个设备实现了数据捕获的自定义应用程序。我们工作的主要贡献概述如下：– 具有6个自由度的姿势地面实况的iPhone传感器数据的公共数据集，用于在涉及不同环境中的运动并且还包括楼梯、电梯和自动扶梯的现实生活用例中对单目视觉惯性测距法进行基准测试。– 比较最先进的视觉-惯性里程计平台和方法。– 一种通过将纯惯性导航与手动位置定位相结合来在现实用例中收集智能手机里程计的地面实况的方法。4科尔特斯、索林、拉赫图和卡纳拉表1. 相关数据集的概述。种子[5]KITTI[10]NCLT[4]欧洲RoC[3]PennCOSYVIO[18]提出年20062012201520162017(this纸张）载体轮式机器人车赛格威MAV手持设备手持设备环境室内/室外户外室内/室外室内室内/室外室内/室外场景设置校园规模城市规模校园规模2个房间校园内150米的小路3栋建筑（行走4次）+ 室外场景硬件设置距离（总计）3D点云自定义10公里J-自定义39公里JJ自定义147公里JJ自定义800米-J自定义600米J-标准智能手机4.5公里JJ地面实况GPS/视觉标签GPS/IMUGPS/IMU/激光MoCap/激光视觉标签IMU+定位精度维姆dmdm普拉姆dmdm-m2相关工作尽管视觉惯性里程计（VIO）是用于手持和可穿戴设备的实时跟踪的最有前途的方法之一，但是缺乏用于对不同方法进行基准测试的良好的公共数据集。相关基准应包括视频和惯性传感器记录，其具有优选地用消费级智能电话传感器捕获的同步时间戳。此外，数据集应该是真实的，并说明现实的用例。也就是说，它应该包含具有稀缺视觉特征的挑战性环境，室内和室外，以及变化的运动，还包括没有平移的快速旋转，因为它们对于单目视觉测距是有问题我们的工作是解决这一需求的第一项工作。关于纯视觉里程计或SLAM，有几个可用的数据集和基准[23，6，8，26]，但它们缺乏惯性传感器数据。此外，这些数据集中的许多数据集是有限的，因为它们（a）使用地面车辆记录并且因此不具有快速旋转[23，6]，（b）不包含低纹理室内场景[23，6]，（c）用定制硬件（例如：鱼眼镜头或全局快门相机）[8]，（d）缺乏全6自由度地面实况[8]，或（e）受限于小环境，因此对于SLAM系统是理想的，但不适合用于中远程导航的基准测距[26]。然而，除了纯视觉数据集之外，还有一些包含惯性传感器数据的公共数据集，例如[10，5，4，3，18]。这些数据集中的大多数都是用固定在轮式地面车辆上的传感器记录的。例如，广泛使用的KITTI数据集[10]包含来自移动汽车的多个摄像机的LIDAR扫描和视频。使用具有RTK校正信号的非常精确的GPS/IMU定位单元获得地面实况。然而，IMU数据仅以10Hz的频率捕获，这将不足以跟踪快速移动的手持设备。此外，即使高频IMU数据可用，KITTI也具有上述约束（a）、（b）和（c），这限制了其对于智能电话里程计的有用性。KITTI的另一个类似之处是，我们也使用纯惯性导航与外部位置固定来确定地面实况。在我们的情况下，GPS定位被替换为手动位置定位，因为GPS不可用或可用。ADVIO：用于视觉惯性里程计的真实数据集5在室内进行管理。此外，与KITTI相比，通过利用惯性导航[24]的最新进展，我们能够使用iPhone的惯性传感器进行地面实况计算，因此不依赖于难以连接到手持设备的高级IMU。在我们的情况下，手动定位是根据参考视频确定的（图1）。3a），其通过视觉识别可以从精确的建筑物平面图或航拍图像准确定位的地标来查看记录器。不使用光学方法来建立地面实况的好处这使得我们的基准也适用于评估VIO方法的遮挡鲁棒性[25]。与KITTI一样，Rawseeds[5]和NCLT[4]数据集是用轮式地面车辆记录的。它们都使用定制传感器（例如全向相机或工业级IMU）。这些数据集用于评估缓慢移动的车辆的里程计和自定位，并且不适合于对用于手持设备和增强现实的VIO方法进行基准测试。与我们最相关的数据集是EuRoC [3]和PennCOSYVIO [18]。EuRoC提供了通过全球快门立体相机和微型飞行器（MAV）机载的战术级IMU捕获的视觉和惯性数据[17]。序列记录在两个不同的房间，配备了运动捕捉系统或激光跟踪器，以获得准确的地面实况运动。在PennCOSYVIO中，数据采集是使用一个手持设备进行的，该设备包含两个Google Tango平板电脑，三个GoPro Hero 4相机和一个类似于EuRoC中使用的视觉惯性传感器单元。这些数据是通过在宾夕法尼亚大学校园内多次行走150米的路径收集的，地面实况是通过光学标记获得的。由于需要光学定位来确定地面实况，EuRoC和PennCOSYVIO都仅包含来自少数环境的数据，这些环境都是相对小规模的。此外，两个数据集都使用相同的高质量定制传感器和宽视场立体相机[17]。相比之下，我们的数据集包含大约4.5公里的序列，这些序列是在几个不同的建筑物和不同的户外环境中的多个楼层用常规智能手机传感器记录的。此外，我们的数据集包含楼梯，电梯和自动扶梯中的运动，如图2所示，以及临时遮挡和缺乏视觉特征。我们不知道任何类似的公共数据集。不同数据集的性质总结于表1中。我们灵活的数据收集程序的有利因素是利用纯惯性导航的最新进展以及手动定位[24]。事实上，确定地面实况的方法是我们工作的贡献之一。此外，作为第三个贡献，我们提出了一个比较最近的VIO方法和专有的国家的最先进的平台的基础上，我们具有挑战性的数据集。3材料这些数据是用三个设备（iPhone 6s，Pixel，Tango）刚性连接到铝架上记录的（图1）。①的人。此外，我们还捕获了6科尔特斯、索林、拉赫图和卡纳拉(a) 参考（b）Tango（鱼眼镜头）（c）iPhone图三. 从三个同步相机同时捕获的帧的示例。外部参考相机（a）用于手动定位，以在单独的后处理阶段中确定地面实况轨迹。过程中与外部摄像机，这是查看记录仪（图（3）第三章。之后从外部相机的视图确定相对于2D地图（即，结构平面图图像或航拍图像/地图）由于设备是手持式的，在大多数固定位置，高度被给定为地板水平上方的恒定距离（具有合理的不确定性估计），使得优化可以拟合最佳地平衡来自固定位置和IMU信号的信息的轨迹（细节在第2.2节中）。4）. 使用网络提供的时间来同步来自所有四个设备的数据流。也就是说，在捕获会话开始时通过网络时间协议（NTP）请求来同步设备时钟。记录期间，所有器械均连接至4G网络。此外，为了能够分析相同坐标系中的数据，我们通过捕获棋盘的多个视图来校准所有相机的内部和外部参数这在每个阶段之前进行，以考虑运输和储存期间的小移动记录的数据流列于表2中。3.1原始iPhone传感器捕获iOS数据收集应用程序是在Swift 4中开发的。它保存惯性和视觉数据同步到苹果ARKit姿态估计。所有单独的数据点都在内部打上时间戳，然后与全球时间同步。使用Kronos Swift NTP客户端3获取全球时间。使用运行iOS 11.0.3的iPhone 6s捕获数据。使用相同的软件和相同的iPhone来收集参考视频。之所以选择这种型号，是因为iPhone 6s（2015年发布）在硬件方面比大多数最新的旗舰iPhone更接近普通智能手机，并且与Google Pixel硬件匹配良好。3https://github.com/lyft/KronosADVIO：用于视觉惯性里程计的真实数据集7表2. 设备捕获的数据装置数据格式单位捕获率地面实况构成位置/取向公制位置100 HziPhoneARKit pose视频GNSS晴雨表位置/方向RGB视频纬度/经度压力公制位置分辨率1280×720世界坐标（包括Meta）kPa60 Hz60 Hz1Hz10Hz陀螺仪角速率rad/s100 Hz加速计比力G100 Hz磁力计磁场µT100 Hz像素ARCore姿势位置/取向公制位置30 Hz探戈原始姿态位置/取向公制位置60 Hz区域学习鱼眼视频点云位置/方向灰度视频3D点公制位置分辨率：640×480点彩色60 Hz60 Hz5Hz在捕获期间，相机由ARKit服务控制。它执行通常的自动曝光和白平衡，但焦距保持固定（ARKit返回的相机矩阵在捕获期间存储）。分辨率由ARKit控制，为1280×720。这些帧被打包成H.264/MPEG-4视频文件。GNSS/网络位置数据通过CoreLocation API收集。位置以“kCLL位置最佳”的期望精度被请求。定位服务提供纬度和经度、水平精度、高度、垂直精度和速度。加速计、陀螺仪、磁力计和气压计数据通过CoreMotion API收集多个数据流的近似捕获速率在表2中示出。磁力计的气压计样本包含气压和相关的相对高度读数。3.2Apple ARKit数据捕获原始数据的同一个应用程序正在运行ARKit框架。它提供与每个视频帧相关联的姿态估计。姿势保存为平移向量和以欧拉角表示的旋转。每个姿势相对于由电话创建的全局坐标框架。3.3Google ARCore数据我们基于Google的ARCore示例4编写了一个应用程序像ARKit一样，姿势数据包含到捕获的第一帧的平移与ARKit不同，方向存储为单位四元数。请注意，捕获速率比ARKit慢。我们不会将视频帧或传感器数据保存在Pixel上。拍摄是在运行Android 8.0.0 Oreo的Google Pixel设备上完成的，并使用Tango Core AR开发者预览版（Tango core版本1.57：2017.08.28-release-ar-sdk-preview-release-0-g0ce07954 ： 250018377 ：stable）。4https://github.com/google-ar/arcore-android-sdk8科尔特斯、索林、拉赫图和卡纳拉3.4谷歌探戈数据[11]基于Paraview项目5开发和发布的数据收集应用程序进行了修改，以收集相关数据。该捕获包括设备相对于第一帧的位置、全局坐标中的取向、鱼眼灰度图像以及由第一帧创建的点云。深度传感器Tango服务在运行 Android 4.4.2 并使用 Tango Core Argentine （ Tango Core 版本 1.47 ：2016.11-22- argentine_tango-release-0-gce 1d 28 c8：190012533：stable）的Project Tango平板上运行。Tango服务产生两组姿势，称为原始测距和区域学习6。原始里程计是在没有长期记忆的情况下逐帧构建的，而区域学习使用正在进行的地图构建来闭合环路并减少漂移。两个轨迹都被捕获并保存。3.5参考视频和地点本文的一个重要贡献是灵活的数据收集框架，使我们能够在大型环境中捕捉现实的用例。在这样的条件下，使用视觉标记、动作捕捉或激光扫描仪进行地面实况是不可行的。相反，我们的工作利用纯惯性导航以及手动定位，如第4.1节所述。为了获得定位，我们记录了一个额外的参考视频，该视频由一个在距离实际收集器很短的距离内行走的辅助人员捕获图3a示出了这种视频的示例帧。参考视频允许我们确定数据收集设备相对于环境的位置，并获得纯惯性导航方法的手动位置定位（受测量噪声影响）[24]。在实践中，生产的位置固定作为后处理步骤，使用本文开发的位置标记工具。在该工具中，人们可以浏览视频，并在相应的平面图图像上标记手动定位。在容易确定设备相对于楼层平面图图像的位置的情况下（例如，在自动扶梯的开始和结束、进入和离开电梯、穿过门或走过建筑物拐角）插入位置定位。在我们所有的录音中找到足够多的这样的例子来建立一个准确的地面事实。注意手动确定设备位置而不是定向就足够了初始位置定位必须进一步从平面布置图图像的像素坐标变换成度量世界坐标。这是通过首先使用手动测量的参考距离（例如支柱之间的距离）将像素转换为米来然后，使用手动确定的界标点（例如，柱子或楼梯）和楼层高度测量来将楼层平面图图像相对于彼此配准。5https://github.com/Kitware/ParaViewTangoRecorder6https://developers.google.com/tango/overview/area-learningADVIO：用于视觉惯性里程计的真实数据集9i=14方法4.1地面实况地面实况是[24]中提出的纯惯性测距算法的实现，其中添加了使用外部参考视频记录的手动注视点3.5）。在用于地面实况的惯性导航系统中使用的IMU数据源自iPhone，并且是作为数据集的一部分共享的相同数据。此外，针对iPhone IMU获取了附加的校准数据，其考虑了加性陀螺仪偏差、加性加速度计偏差和乘性加速度计比例偏差。iPhone姿态跟踪（位置和方向）的推断如[24]中所述实现，其中添加了将状态估计与附加校准数据和手动固定点融合。姿态跟踪对应于以固定点和外部校准为条件的INS估计.pp（tk），q（tk）|IMU，校准，{（ti，p i）}NΣ、（1）其中p（tk）∈R3是电话位置，q（tk）是时刻t k处的定向单元四元数。不动点集由时间-位置对（ti，pi）组成，其中手动不动点 pi ∈ R 3 被分配给时刻 ti。“I M U ” 是指整个轨道上的所有加速度计和陀螺仪数据。通过不强制电话轨迹匹配点，而是在位置固定中包括具有25cm的标准偏差的高斯测量噪声项（在所有方向上），来考虑固定点位置中的不确定性和不准确性。这允许估计跟踪与修复不一致。当在楼层之间移动时，位置定位被给出为具有未知高度的3D位置或2D点。推断问题最终用扩展的卡尔曼滤波器（前向传递）和扩展的[24]技术细节。由于这里不需要实时计算，我们也可以使用批处理优化，但这不会导致结果的逐帧手动检查计算的轨迹，并通过额外的固定点细化姿势轨迹，直到轨迹与所有三个摄像机和平面图图像中看到的移动相图2c示出了估计的地面实况轨迹的示例。垂直线是一个电梯乘坐（停止在每个楼层）。如果放大，可以看到步行引起的周期性还可以从补充材料中的示例视频检查所获得的准确度。4.2评估指标对于在收集数据时动态捕获的里程测量结果，我们提出以下评估度量。所有数据首先在时间上与相同的全局时钟（在捕获数据时由NTP请求获取）对齐，该全局时钟10科尔特斯、索林、拉赫图和卡纳拉(a) 办公室室内（b）城市室内（商场/地铁）(c)城市户外（城市）（d）郊区户外（校园）图4. 来自数据集的示例帧。有7个序列来自两个独立的办公楼，12个序列来自城市室内场景（商场和地铁站），两个来自城市室外场景，两个来自郊区（校园）室外场景。似乎给出精确到约1通过最小化设备偏航和滚动轨迹之间的中值误差该对准考虑了设备之间的时间配准误差和测距方法中的内部延迟。在时间对准之后，由三个设备提供的轨道被切割成覆盖相同时间跨度的相同长度，因为在利用不同设备的记录的开始和停止时间中可能存在几秒的差异。垂直方向已与重力对齐为了说明设备、方法估计和地面实况之间的相对姿态，我们基于每种方法中的前60秒估计来估计估计轨迹和地面实况之间的平面刚性变换（2D旋转和平移）（但是，使用整个路径不会对结果产生明显影响）。不使用校准的相对姿势的原因是，特别是ARCore（偶尔还有ARKit）在轨迹开始时显示出疯狂的跳跃，这将产生相当大的影响并破坏该方法的那些数据集。对齐的轨迹都从原点开始，并且我们针对由每种方法给出的每个输出测量相对于地面实况的绝对误差。绝对位置误差的经验累积分布函数定义为F（d）= 位置误差数≤dn= 1Σnn1ei≤d，（2）i=1其中，1E是事件E的指示函数，e∈Rn是与地面实况相比的绝对位置误差的向量，并且η是位置的数量。该函数表示位置估计值与地面实况的距离小于d米的比例ADVIO：用于视觉惯性里程计的真实数据集115数据和结果该数据集包含在六个不同位置捕获的23个单独的记录。所有序列的总长度为4。47公里，总时长1小时8分钟。有19个室内和4个室外序列。在室内序列中，平均每3.7米（或3.8秒）存在一个手动固定点，并且在室外每14.7米（或10秒）存在一个手动固定点。补充材料中说明了所有序列的地面实况3D轨迹，其中还给出了额外的细节。此外，补充视频中还说明了其中一个录音及其地面实况。数据集序列和环境的主要特征简要描述如下。我们的数据集主要用于对中远程里程计进行基准测试。最明显的用例是大空间中的室内导航，但为了完整起见，我们还包括了室外路径。室内序列是在一个7层高的购物中心（135000平方米），在地铁站，并在两个不同的办公楼。购物中心和车站位于同一建筑群内。地铁和公交车站位于底层，在收集的视频中可以看到大量移动的人和偶尔的大型车辆，这使得纯粹的视觉里程计具有挑战性。此外，商场的较低楼层包含大量移动的人。图2示出了商场的整体视图以及地面实况路径示例和Tango点云（图1）。第2b段）。图4b示出了来自商场和车站的示例帧。用例尽可能逼真，包括楼梯、电梯和自动扶梯中的运动，以及临时遮挡和缺乏视觉特征的区域。有10个序列从商场和两个从车站。在两栋办公楼的大厅和走廊进行办公楼录音他们包含一些人在一个静态的位置和一些人移动。序列包含爬楼梯和乘坐电梯。有关闭和打开（玻璃）电梯序列。示例帧在图4a中示出。室外序列记录在市中心（市区，两个序列）和大学校园（郊区，两个序列）。图4c和图4d示出了来自两个位置的示例帧。城市户外拍摄通过城市街区进行;它们包含开放空间、人和车辆。郊区的户外拍摄是通过人口稀少的地区进行的。他们包含一些步行的人和一些车辆相遇。大部分空间都是开放的。室外序列的平均长度为334。6米，从133米到514米不等。室外序列是在一天中的不同时间采集的，说明了几种日光条件。图5a示出了从地面实况提取的不同运动度量的直方图图5a示出了速度直方图，其具有反映三种主要运动模式的三个峰值。从慢到快依次是自动扶梯、楼梯和步行。图5b示出了包含自动扶梯乘坐和正常行走两者的仅一个序列的速度直方图。取向直方图显示，电话通常保持在相对于载体的相同位置反映航向方向的俯仰角具有接近均匀的分布。12科尔特斯、索林、拉赫图和卡纳拉0 1 23(a) 速度，所有数据0 1 2 3(b) 速度、自动扶梯/步行−π−π/20π/2−π/20π/2−π(c) 方向，滚动(d) 方向，偏航(e) 室内办公室通道图五、（ a）速度直方图;峰值对应于自动扶梯、楼梯和步行。（b）关于自动扶梯乘坐/步行的一个数据集的直方图。（c-d）滚转和偏航的直方图。(e)ground-truth （）、ARKit （）、ARCore （）、Tango/Raw（）、Tango/Area learning（）、ROVIO（）和PIVO（）的路径5.1基准测试结果我们使用原始iPhone数据和在相应设备上运行的三种专有解决方案（Pixel上的ARCore，iPhone上的ARKit和平板电脑上的Tango）评估了两个研究级VIO系统。使用的研究系统是ROVIO [2，1，20]和PIVO[25]。ROVIO是一种相当新的方法，已被证明在高质量IMU和大视场相机数据上工作良好。PIVO是一种最新的方法，与使用智能手机数据的Google Tango[25]相比，该方法显示出有希望的结果。对于这两种方法，使用了来自原始作者的实现（ROVIO作为maplab7的一部分）（在仅里程计模式下，没有地图构建或循环闭合）。我们使用预先校准的相机参数和从相机到IMU的刚性变换，并且预先估计过程和测量噪声尺度参数。出于测试目的，我们还对原始数据运行了两种仅视觉里程计方法（DSO [7]和ORB-SLAM 2 [15]）。两者都能够跟踪路径的子集，但是小视场、旋转的快速运动和具有挑战性的环境导致它们无法成功跟踪整个路径中的任何一个。一般来说，专有系统比研究方法更有效，如图7所示。在室内序列中，所有专有系统通常都工作良好（图1）。（见第7a段）。Tango具有最佳性能，ARKit表现良好且稳健，只有少数明确的失败案例（第95百分位数为10米），ARCore偶尔会失败，显然是由于不正确的视觉循环闭合。包括室外序列稍微改变度量（图7b）。 ARKit拥有7https://github.com/ethz-asl/maplab25米ADVIO：用于视觉惯性里程计的真实数据集13100米30米(a) 一条城市室外小径（b）一条室内购物中心小径见图6。示例路径显示在（a）中过早停止的地面实况（）、ARKit（）、ARCore（）、Tango/Raw（）和Tango/Area learning（）。MapdatacO penStreetMap. 地面实况修复点被标记在一个结构图R0V10和PIV0分叉并且未示出。在室外序列中漂移的严重问题。在定向误差方面，所有系统都是准确的，与地面实况的平均误差小于2◦<这是由于如果陀螺仪被很好地校准，则通过积分陀螺仪的定向跟踪执行得很好。如图7所示，研究方法对于我们的iPhone数据具有挑战性有许多序列，其中两种方法完全不同（例如图（六）。另一方面，也有序列，他们的工作相当不错。这可以部分地通过以下事实来解释：R0V10和PIV0两者都估计IMU的校准参数（例如，校准时间）。加速度计和陀螺仪偏置），并且两个软件都不直接支持给出预校准的IMU参数作为输入。ROVIO仅考虑加速度计偏差，其在许多序列中显示为位置的指数爬行。我们提供的地面实况IMU校准参数与我们的数据，因此，它将有可能评估其性能也与预校准值。可替代地，序列的一部分适当的系统可以受益于工厂校准的参数。图5e和图6示出了结果的示例在这些情况下，所有商业解决方案都运行良好。尽管如此，ARCore在户外道路的开始还是遇到了一些问题。此外，在多层情况下，漂移通常更严重，并且存在专有系统也具有明显故障的序列。总的来说，ROVIO存在长期遮挡以及视觉和惯性数据不一致的问题。此外，在图5e中，其具有明显不准确的标度-最有可能是由于加速度中的未建模标度偏差，这对于也显示出多重偏差的消费级传感器显然是不够的[22]。另一方面，PIVO使用具有加速度计偏差和倍增加速度计偏差的模型。然而，使用PIVO的主要挑战似乎是，如果没有合适的运动，则从零开始对每个序列的各种IMU参数进行在线校准需要相当长的时间，因此会减慢收敛到正确轨道的速度。14科尔特斯、索林、拉赫图和卡纳拉持仓比例1 10的情况。八点零分80的情况。6060的情况。4040的情况。2020−1101001011020−110100101102(a)（b）绝对误差（m），所有数据集见图7。位置误差的累积分布：ARKit（）、ARCore（）、Tango/Raw（）、Tango/Area learning（）、ROVIO（）和PIVO（）。6讨论和结论我们已经提出了第一个公开的基准数据集，用于使用标准智能手机传感器的手持设备的远程视觉惯性里程计该数据集包含23个序列记录在不同的真实环境中的多个楼层的室外和室内。层序总长4.5 km。此外，我们提供了三个专有的视觉惯性里程计平台和两个最近的学术VIO方法，我们使用的原始传感器数据的定量比较。据我们所知，这是ARKit、ARCore和Tango的首次背靠背比较。苹果的ARKit在大多数场景下表现良好。只有在一个室外硬序列中，ARKit出现了经典的惯性航位推算故障，估计的位置失去了控制。Google的ARCore显示出比ARKit更具有攻击性的视觉循环闭合使用，这在分散在轨道（视觉相似区域之间）的假阳性“跳跃”中可见。Tango中的专用硬件使其占据上风，这也可以在图7中看到。区域学习是测试的最稳健和准确的系统。然而，所有系统在开放式电梯中表现相对较好，其中玻璃墙让摄像机在电梯移动时看到开放的大厅。在封闭电梯的情况下，没有一个系统能够将惯性运动与静态视觉场景相协调。从ROVIO和PIVO的结果中可以清楚地看出需要这种数据集。社区需要具有挑战性的窄视场和低级IMU数据，以开发和测试新的VIO方法，这些方法可推广到客户级硬件。收集过程可很好地扩展到新环境。因此，在未来，数据集可以扩展一个合理的小的努力。该数据集的目的是使视觉惯性里程计方法的公平比较，并加快在这一研究领域的发展。这是相关的，因为VIO是目前用于实现增强现实的移动设备的实时跟踪的最常见的方法。有关数据集和下载链接的更多详细信息，请访问https://github.com/AaltoVision/ADVIO。持仓比例ADVIO：用于视觉惯性里程计的真实数据集15引用1. Bloesch，M.，Burri，M.，Omari，S.，Hutter，M.，西格瓦特河：基于迭代扩展卡尔曼滤波器的直接光度反馈视觉惯性里程计。国际机器人研究杂志36（10），10532. Blösch，M.，Omari，S.，Hutter，M.，西格瓦特河：鲁棒视觉惯性里程计使用直接基于EKF的方法。国际智能机器人与系统会议（InternationalConference on Intelligent Robots and Systems，IROS）pp. 298-304.德国汉堡（2015）1，3，123. Burri，M.，Nikolic，J.Gohl，P.，Schneider，T.，Rehder，J.，Omari，S.，Achtelik，M. W.，西格瓦特河：EuRoC微型飞行器数据集。International Jour-nal ofRobotics Research35，11574. Carlevaris-Bianco，N.，Ushani，A.K.，Eustice，R. M.：北密歇根大学校园长期愿景和LIDAR数据集。International Journal of RoboticsResearch35，10235. Ceriani，S.，Fontana，G.，Giusti，A.，Marzorati，D.，Matteucci，M.，米廖雷D.Rizzi，D.，Sorrenti，D.G.，Taddei，P.：用于室内自我定位和绘图的Rawseeds地面实况收集系统。Autonomous Robot27（4），353四、五6. Cordts，M.，Omran，M.，Ramos，S.，Rehfeld，T.，Enzweiler，M.，Benenson河弗兰克，美国，Roth，S.，Schiele，B.：Cityscapes数据集用于语义城市场景理解。IEEE计算机视觉和模式识别会议（CVPR）。pp.3213-3223。拉斯维加斯，美国（2016）2，47. Engel，J.，Koltun，V.Cremers，D.：直接稀疏测距法。IEEE Transactions on模式分析和机器智能40（3），6118. Engel，J.，Usenko，V.C.，Cremers，D.：单目视觉里程计的光度校准基准。arXiv预印本arXiv：1607.02555（2016）49. Everingham，M.Eslami，A.，凡古尔湖威廉斯岛Winn，J.，齐瑟曼，A.：PASCAL可视化对象类的挑战：回顾展。International Journal of ComputerVision（IJCV）111（1），9810. Geiger，A.，Lenz，P.乌尔塔松河：我们准备好自动驾驶了吗的KITTI视觉基准套件。在：计算机视觉和模式识别（CVPR）的IEEE会议论文集。pp. 3354-3361. Providence，Rhode Island（2012）2，411. Laskar，Z.，Huttunen，S.，Herrera，D.Rahtu，E.，Kannala，J.：鲁棒的循环闭包用于通过组合测距法和视觉对应来进行场景重建。图像处理国际会议（International Conference on Image Processing，ICIP）pp. 2603凤凰城，亚利桑那州，美国（2016年）812. Li，M.，Kim B.H.Mourikis，A.I.：手机上的实时运动跟踪，惯性感应和卷帘快门相机。国际机器人与自动化会议（ICRA）论文集。pp.第471213. Lin，T.，Maire，M.，Belongie，S.J.，Hays，J.，Perona，P.，Ramanan，D.多拉尔P. ， Zitnick ， C.L. ： Microsoft COCO ：上下文中的公用对象。 In ：Proceedings欧洲计算机视觉会议（ECCV）pp. 740-755.瑞士苏黎世（2014年）214. Mourikis，A. I.，Roumeliotis，S.I.：一种多状态约束卡尔曼滤波器辅助惯性导航国际机器人与自动化会议（ICRA）论文集。pp. 3565-3572.罗马，意大利（2007）115. Mur-Artal河 Tardós，J.D.： ORB-SLAM 2：一个开源的SLAM系统单目、立体和RGB-D相机。IEEE Transactions on Robotics33（5），125516科尔特斯、索林、拉赫图和卡纳拉16. Mur-Artal河Tardós，J.D.：具有地图重用的视觉惯性单目SLAM。Roboticsand Automation Letters2（2），79617. Nikolic，J. Rehder，J.，Burri，M.，Gohl，P.，Leutenegger，S.，Furgale，P.T.，西格瓦特河：一个同步视觉惯性传感器系统与FPGA预处理的精确实时 SLAM 。 IEEE International Conference on Robotics and Automation（ICRA）pp. 431-437.中国香港（2014）518. Pfrommer，B.，Sanket，N. Daniilidis，K.，克利夫兰，J.：PennCOSYVIO：具有挑战性的视觉惯性里程计基准。在：IEEE机器人与自动化国际会议（ICRA）的会议录中。pp. 3847-3854。新加坡（2017）4，519. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，

下载后可阅读完整内容，剩余1页未读，立即下载