‘深度驱动的智能手机人体肖像数据集’

13 浏览量更新于2023-10-25 收藏 1.51MB PDF 举报

数据集

状态估计

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

21318SmartPortraits：深度驱动的手持智能手机人体肖像数据集，用于状态估计，重建和合成Anastasiia Kornilova Marsel Faizullin Konstantin Pakulev Andrey Sadkov DenisKukushkin Azat Akhmetyanov Timur Akhtyamov Hekmat Taherinejad Gonzalo Ferrer斯科尔科沃科技学院人工智能技术中心（CAIT）图1.从左上角开始：SmartPortraits数据集视频中的帧示例，这些视频使用智能手机和钻机上的外部深度相机在不同的自然环境中捕捉人类肖像，具有不同的闪电条件右下：记录的轨迹（红色摘要我们提出了一个数据集的1000个视频序列的人的肖像记录在真实和不受控制的条件下，通过使用手持智能手机伴随着一个外部的高品质的深度相机。收集的数据集包含200个以不同姿势和位置拍摄的人，其主要目的是弥合从智能手机和下游应用程序（如状态估计、3D重建、视图合成等）获得的原始测量之间的差距。数据收集中使用的传感器是智能手机在记录期间，智能手机闪光灯用于提供周期性的二级光源。提供了最前面的人的精确掩模以及其对相机对准精度的影响。为了评估的目的，我们比较了多种国家的最先进的相机对准方法，通过使用运动帽，多种方法，并激励在视图合成和3D重建任务中进一步使用数据集中可用的所提供的轨迹。1. 介绍人和一般物体的真实感渲染最近已经实现了前所未有的细节和真实感水平[4，27，46，49，76，87，93，94]，在远程呈现，VR和AR中具有潜在这些方法中的大多数相比之下，重构和渲染的许多潜在用途是智能手机或其他消费级设备的理想候选应用，其传感器每年都在改进，但质量仍然有限我们的目标是创建一个数据集，在野外条件模拟智能手机用户。SmartPortrait数据集1是为了弥合这一差距而做出从人们那里获得的真实的原始数据，真系统我们提供智能手机视觉惯性实验台标记为肖像捕捉，我们报告的结果，1https://MobileRoboticsSkoltech.github.io/SmartPortraits/21319从手持智能电话和下游重构应用（例如3D肖像再现、视图合成等）中获得。链接这两个视图的关键组件是相机姿态状态估计。通常的做法是通过使用可靠但计算要求高的运动结构（SfM）算法（如COLMAP [71]或多模态SLAM方法[13，41，68，80]）来获得这些姿态。我们的数据集中提供的轨迹1）。许多视图合成方法[28，49，57，74]仅通过使用状态估计方法生成自己的数据集。这些单相机自由视点图像只能在场景是静态的情况下考虑。我们要求志愿者尽可能保持静止，同时从近距离和中距离记录它们的半环形轨迹我们观察到，大多数志愿者稍微改变了他们的姿势，所以我们应该期待一定程度的位移，这将问题转化为非静态。SmartPortrait数据集是在不同的闪电条件下在各种炮台中获得的，再加上智能手机定期发出的闪光。智能手机摄像头配备了高质量的深度传感器，增加了鲁棒性和多模态性。我们提供了一个记录的数据集，包括智能手机视频图像，IMU数据，完美的时间对齐，以及来自AzureKinect DK的外部深度相机评估包括两个步骤：首先，我们比较最有前途的方法与从运动捕捉（MoCap）系统获得的参考轨迹其次，对于某些环境，不可能部署MoCap系统。因此，我们提供了一个参考轨迹，从严格的最佳性能方法中获得，并通过使用非参考度量[40]提供了误差的上限。在进一步的评估中，我们对视觉SLAM，SfM和基于视觉惯性的方法的多种最先进的方法进行了基准测试接下来，我们希望将相机姿态估计问题与两个下游任务连接起来：使用COLMAP [72]，ACMP [89]和SOTA视图合成算法（ NeRF [49] ，FVS [66]， SVS[67]）进行3D重建。这些应用将有助于我们理解姿态估计的重要性及其与其他任务的相关性。道德考量。我们要求数据集中的所有参与者签署同意记录他们的肖像，并将其公开发布用于纯学术目的。我们在协议中明确指出，他们有权随时删除他们的所有数据。2. 相关工作捕捉人类数据总是针对特定的任务，例如，人脸、肖像、面部表情、手势、全身等。有办法解决这些问题。我们的数据包括人体肖像，或人的上半身，并且与许多其他捕捉人体数据的作品存在本节根据用于获得这些数据的传感器组对现有文献进行了综述。稍后，我们将讨论一些应用，最后，我们将提出一些状态估计方法作为单自由视点记录的要求。运动捕捉系统[1，3]利用多个定制相机来准确检测反射或红外标记。它们是一种流行的方法，用于通过跟踪标记捕获人体数据并将其与视频同步：HumanEva[77]，Human3.6M [35]和INRIA [90]。一个负面影响是，它要求志愿者在他们的身体上穿特殊的套装，改变他们的衣服外观。多个摄像头克服了这个问题，并消除了对标记的需要。它们是一种非常流行的方法来捕捉身体表情和细节，保持模型的视觉示例包括形状捕获[85]，可流式自由视点[17]，AIST [83]，Panoptic工作室[38，39]，500个摄像头的混合，BUFF [95]用于人体姿势和形状估计，Humbi [92]用于身体表情，[28，87]用于头部肖像，或照片般逼真的全身化身[8]。这些设置在实践中非常精确地同时捕获相同的事件，例如动态的人。然而，它们是昂贵的，难以在不同的环境中部署，并且需要相当大的努力来校准和同步它们。受控的闪电条件也成为在数字化人类时获得精细详细的几何重建的重要特征[32，74，85]。SmartPor-traits包括在智能手机闪光条件下的一些图像，使得闪电源与光学传感器框架一致，并且产生与环境闪电下不同的结果一些尝试试图降低多相机设置的苛刻要求，其中需要许多传感器和闪电源。一种解决方案是增强用单个深度传感器[10，33，42，75，91]或多个深度传感器[21，34，96]获得的数据。其他方法试图减少运行中的摄像机数量，但仍能获得相当准确的结果[98，99]。在极端情况下，人们会希望一个单一的相机自由视点，无论是采取多张照片或视频[5，89]。这也是我们数据集的目的。从捕获用于人重建和渲染任务的人体数据的数据集的角度来看，我们观察到以下建模类：全身建模（ Dynam-icFAUST [11] ， BUFF [95] ，人物快照[6]），衣服建模（3DPompeople [59]，SIZER [81]），头部/躯干部位建模（UHDB 11 [82]，Nerfies [57]，Portrait Neu- ral Radiance [57]），或适用于几个任务中的应用程序（RenderPeople，Humbi [92]）。还有一些众包数据集，如MannequinChallenge [44]，TikTok21320EuRoC MAV TUM-VI TUM RGB-D PennCOSYVIO KAIST VIO ADVIO我们的酒店预订网_2018 © hotelsreservations.com. All rights reserved_联系我们环境中室内室内/户外室内/室外室内/室外室内舰载MAV手持机/机器人手持机无人机手持机手持机聚焦MAV VIO/SLAM VIO RGB-D SLAM手持VIO无人机VIO手持VIO/SLAM人类数字化中的VIO/SLAM。照相机立体灰色：2x752x480@20HzIMU ADIS164483轴加速度/陀螺仪@200Hz立体灰度：2x1024x1024@20HzBMI1603-轴加速度/陀螺仪@200HzRGB-D：640x480@30HzKinect 3轴加速度@500Hz• 4 RGB：1920x1080@30Hz•立体灰度：2x752x480@20Hz• 鱼眼灰：640x480@30Hz• ADIS 16488 3轴加速度/陀螺仪@200Hz• Tango 2 3轴加速度@128Hz• Tango 2 3轴陀螺仪@100Hz• RGB：640x480@30Hz•立体红外：640x480@30HzPixhawk 4 Mini 3轴加速度 / 陀螺仪@100Hz• RGB：1280×720@60Hz•鱼眼灰：640x480@60HzMP67B3-轴加速度/陀螺仪@100Hz• RGB：1920x1080@30Hz• 深度：640x576@5Hz• LSM 6DSO三轴加速度计/陀螺仪@500Hz• MPU-9150三轴加速度计/陀螺仪@500Hz时间同步hw hw hw hw，sw数据sw hw，sw+帧同步点云（someseq）×距离11 seq，0.9 km 28 seq，20 km 39 seq x几米4 seq，0.6 km 14 seq x several m23 seq，4.5 km 1000 seq，6.6 km地面实况• 3D位置(someseq），激光跟踪仪@20 Hz• 3D姿态（一些序列），MoCap@100Hz• 3D pcd（一些序列），激光跟踪仪3D姿势，MoCap@120Hz（部分gt）• 3D姿态，Mo-Cap@300Hz（部分gt）• 3Dpcds，Kinect@5Hz3D摆姿势，视觉30Hz时的标记3D姿势，MoCap@50Hz• 3D姿态，IMU+ 手动定位@100Hz• 3D pcds，Tango@5Hz• 3D 姿态（一些序列），MoCap@240Hz•3D姿态，COLMAP/RGB-DSLAM@5HzAcc.1 mm 1 mm（静态情况）1毫米（相对）15厘米1毫米0.1 - 1米[86] 1毫米- 1厘米表1.针对状态估计的常见Visual（V）和Visual Inertial（VI）基准数据集概述从社交网络收集的数据集[36]可用于重建任务。我们的数据集是独一无二的，因为它记录了由高质量外部深度数据支持的消费者级数据（智能手机）最近出现的神经隐式表示方法允许绕过获得场景的准确3D结构的需要，而是隐式地对其进行建模，例如通过考虑占用[48]，符号距离函数[56]或体积密度[46，49]。特别是，已经有几个作品成功地使用神经隐式表示来创建逼真的肖像化身[27，28，57，74，87]。不幸的是，当场景包括动态元素时，并且这是人的视频记录的情况下，相机姿势或自由视点和3D场景的状态估计不是那么微不足道的。在3D人体重建的下游任务中，存在两个主要变体：自由形式[15，69，70]和基于模型[6，47，55]。因此，当将摄像机的数量减少到单个摄像机并且在非静态条件下工作时，因为我们的数据集中的志愿者静止不动但并非不动，则状态估计成为允许手持单摄像机视频用于人类数字化的关键成分。无论是在学习模型时补偿相机姿势[45]还是根据记录进行估计，这些姿势的质量都将是任何下游任务的决定性因素据我们所知，当人类处于传感器的主要焦点时，没有直接解决状态估计方法的评估的数据集。摄像机姿态的状态估计包括诸如视觉里程计（VO）[22，25]、视觉惯性Odom-Strike（VIO）[9，41，43，62]的技术。同步定位和映射（SLAM）的变体，其中包括用于全局姿态对准的估计，视觉SLAM（V-SLAM）[29，51，52，80]或视觉惯性SLAM（V-SLAM）[29，51，52SLAM）[13，31，61，68]和运动结构（SfM）[71]，所有这些都与应用于智能手机中可用到目前为止，有许多可用的数据集[12，14，16，18，19，30，37，58，73，79，86，100]，这些数据集因其焦点，记录环境，传感器载体以及记录的数据量和地面实况的准确性而变化很大我们简要描述了主要数据集的主要特征，并与我们的数据集进行了比较（见表1）。EuRoC微型飞行器（MAV）数据集[12]专注于MAV的VIO和SLAM以及3D重建。作者采用了一对立体摄像机硬件同步与安装在微型飞行器上的IMU采集数据序列在两个室内环境。Kaist VIO [37]是另一个专注于飞行器VIO的室内数据集，它专门解决了包含纯旋转/剧烈运动的VIO挑战场景TUM-VI [73]是用于评估VIO算法的数据集。与其他提到的数据集相比，它因其大小，记录序列的多样性以及使用更高分辨率的相机而脱颖而出。TUM RGB-D [79]仅具有使用手持或安装在机器人平台上的Kinect传感器捕获的室内序列。该数据集包括用于正确评估RGB-D SLAM方法的具有挑战性的场景。Pen- nCOSYVIO [58]是另一个VIO基准，包含各种具有挑战性的序列。它不仅包括旋转运动，还包括硬视觉条件。该数据集使用的传感器数量比任何其他相关数据集都要多：3个GoPro摄像头，一个集成VI传感器和2个安装在一个摄像头上的Google ProjectTango平板电脑21321·图2.录音平台的前后视图。传动实验然而，如[73]中所指出的，与TUM-VI等数据集相比，该设置在相机和IMU之间产生较低的同步精度ADVIO [18]专注于智能手机和具有低成本传感器的移动设备的基准VIO和SLAM方法。它包含在公共场所记录的不同的大型室内和室外环境。我们的数据集包含室内环境中的人的记录，并专注于人的多样性，他们的衣着，环境和闪电条件，完全不受控制，旨在重现智能手机用户的日常生活条件与同样使用异构传感器的PennCOSYVIO、KAIST VIO和ADVIO相比，我们采用了[24]中更精确的混合硬件/软件第3.1节）。由于记录环境的特殊性，我们基于收集的传感器数据提供伪地面实况姿态，如[18]中所述，其质量以类似于[58]的方式通过捕获验证序列来估计5.2）。3. 记录平台我们的数据集旨在提供中等价格智能手机捕获的真实环境中的人体肖像数据。为了满足这些要求，我们设计了一个便携式手持平台，该平台具有三星S10 e智能手机（RGB相机，1920 x1080 p，30 fps; IMU，500Hz，闪光灯，1 Hz）和高端深度传感器Azure KinectDK（深度相机，640 x576 p，5 fps）。选择高质量的外部深度相机而不是具有内置传感器的智能手机，因为（i）现代智能手机深度图像仍然不如外部深度传感器那样高质量，以及（ii）智能手机不可能同时以高频率该系统的一般视图如图所示。二、我们的记录案例的细节-动态相机运动接近现实生活中的手持捕获和前景中的一个人与非静止姿势（眨眼，由于呼吸，协调，心跳引起的人的小运动）。图3.通过校准获得相对变换 ITC-智能手机IMU参考系中的智能手机相机，C T D -智能手机相机框架中的深度相机。CTD被发现为CTD=CTRRTD，其中 CTR是由Kalibr 获得的智能手机相机帧中的Azure RGB相机，RTD是工厂已知的Azure深度相机框架中的Azure RGB相机。Azure RGB仅用于此过程。3.1. 时间和帧同步智能手机和深度相机的独立性给时间同步增加了额外的挑战。如果来自两个传感器的帧在稍微不同的时刻（几十ms）被捕获，则这降低了相机姿态估计的质量。为了同步摄像机，我们引入了两步同步过程。首先，两个传感器之间的时域通过Twist-n-Sync算法[23]同步，与基于网络的协议（如NTP）相比，Twist-n-Sync算法不受网络不对称的影响在第二步中，完成了来自两个为了解决这一问题，通过远程API接口实现了对智能手机帧相位的抓取.然后，深度相机触发自动调整到这个阶段，如[24]中所解释的。所使用的同步提供亚毫秒精度。3.2. 校准智能手机摄像头和智能手机IMU的完全内在和外在校准通过Kalibr工具箱[65]获得，其中3x3 cm AprilTags[54]的 6x6 AprilGrid阵列作为视觉标记。为了找到深度到智能手机相机的转换，首先，我们获得了Azure RGB到智能手机相机的转换。然后，将其与工厂已知的Azure深度（红外）到Azure RGB相机转换相结合。该方法比使用低质量红外相机的直接深度到智能手机相机变换提供了更好的准确性。我们仅在此过程中使用Azure RGB。所有得到的变换如图所示。3 .第三章。智能手机相机是滚动快门类型;然而，我们在校准期间应用全局快门相机模型，以将校准参数正确地馈送到我们在第12节中比较的方法。五、独立的惯性测量单元校准也执行。IMU噪声参数分别从[78]和[53]中借用，用于智能手机和独立IMU。213224. 数据集我们的数据集包含200人的1000条记录，他们穿着自然的衣服，在不同的本地位置和姿势下拍摄。每个记录都包含同步的智能手机数据（全高清RGB视频、闪光时间戳、带时间戳的加速度计和陀螺仪测量）以及来自外部高质量深度传感器的深度图像。该数据集还包含如第2.1.1节中所述获得的智能手机相机的参考地面实况轨迹。5.2和分割面具的人。我们通过性别标签和难以渲染的情况（如体积头发/胡须/眼镜）来补充数据集。传感器的数据参数和采样率见表。1.一、4.1. 收集过程和统计在每个记录过程中，涉及三个人：（1）正在拍摄的志愿者，（2）携带记录平台的操作员，以及（3）通过SSH监视记录正确性志愿者被要求站着或坐着。操作者携带一个记录平台，在受试者的面部高度处围绕着人，1.一、记录轨迹从人的前方开始，捕捉整个场景，然后操作员移动到志愿者的一侧，围绕模型做四个100-120度的圆弧。整个轨迹如图1所示。每个弧边的时间戳在记录期间由助手以自动方式在线标记。在后处理阶段，整个轨迹可以被分割成单独的弧应用这些标记。每个人都被捕捉到5种不同的姿势- 3种站立姿势（直，手放在臀部，头部转动）和2种坐姿（直，头部转动）。分别从约2 m和1 m的在记录期间再闪电的影响在坐姿上更明显，因为它们是从更近的距离捕获的。数据收集是在5个不同的位置进行的原生室内环境：自助餐厅，实验室，办公室，校园入口，和学生会。他们的共同观点如图1所示。坐位和卧位运动轨迹平均长度分别为7.14和5.8m。所有赛道总时长11小时6分，全长6610米。SmartPortrait包含了不同性别、外貌、服装、发型等的人。4.第一章4.2. 分割掩模除了记录的数据，我们还提供了图像上人类的分割掩模该信息可以男（119）妇女（81）图4. 数据集统计。左：录制地点。中置：性别权利：外貌。用于在轨迹估计步骤中滤除场景的潜在动态地标（眨眼、受试者移动），如第2节所示。5.2或用于从场景中分离肖像部分以进行仅个人3D重建。对于这项任务，我们设计了一个半自动化的标记过程，基于U2-Net [63]，该过程是在来自Supervisely Person Dataset [2]的人物面具上进行预训练的。在我们的数据上使用这种方法高估了人物面具，也覆盖了背景的某些部分。DB-SCAN通过使用深度分量对被掩蔽的部分进行聚类，丢弃与前景不相关的场景部分。最后，分割结果由标记器进行视觉评估。5. 评价评估部分解决了两个主要问题-（1）如何找到计算我们数据集的伪地面真实姿势的最佳方法，以及（2）仅在智能手机数据上研究V和VI状态估计方法的性能V表示所有视觉方法：VO和V-SLAM;同样适用于VI。5.1. 度量完全参考指标。在参考轨迹（地面实况）可用的全参考度量类中，我们考虑旋转和平移部分的绝对位姿误差（APE）和相对位姿误差（RPE）的RMSE特别是，对于平移APE，如果在不同的原点帧中表达，我们在一对轨迹之间应用Umeyama对齐[7，84对于旋转APE，Umeyama对齐之后是轨迹无参考指标。当参考轨迹不可用或其质量有争议时，无参考指标可替代全参考指标。在我们的工作中，我们使用相互正交度量（ Mutually OrthogonalMetric，缩写为OMT）[40]，通过评估从经由轨迹姿态配准的点云聚合的地图的质量来测量轨迹的质量。与其竞争对手相比，ESTA提供了与RPE误差更强的相关性[64]。在我们的设置中，OpenGL使用从深度图像转换的点云。为了将模糊的轨道应用于实验室（80）北卡罗来纳州（128）餐厅（20）213231测试序列1234521测试序列123452100测试序列123401502CAPE旋转（度）APE翻译（m）RPE旋转（度）10RPE翻译（m）10妈妈101101010110方法方法方法方法方法图5.针对具有MoCap地面实况姿态的5个测试序列的COLMAP和ORB SLAM（RGB-D）的全参考（APE/RPE）和无参考（NPR）度量统计。(b)以及（p）指示仅背景关键点和人物关键点相应地被考虑用于姿态估计。ORB SLAM（p）的一个姿势未收敛，因此其值被排除在评估之外100APE旋转（度）APE翻译（m）101RPE旋转（度）101RPE翻译（m）101101102102102102103103图6.在基准序列上评估仅使用智能手机数据（帧和IMU）的V/VI方法缩放（例如，COLMAP），我们优化的比例因子w.r.t.几何度量-假设当点云的聚合地图处于其最佳状态时，在度量中的最佳值处达到正确的比例值。5.2. 地面实况轨迹大多数数据集序列（参见图4）是在公共场所或区域中捕获的，其中应用获取地面实况姿态的常规方法（例如，MoCap）是不可行的，或者这些方法破坏了周围环境的天然性（例如，视觉标记）。因此，需要一种无参考方法，以便在MoCap数据被在[97]中对RGB-D SLAM方法进行的广泛评估中，我们选择ORB-SLAM（RGB-D）[52]，从[13]中实现，作为具有最低轨迹误差的方法。MoCap测试序列。为了评估地面实况姿态的准确性，我们在实验室环境中记录了几个测试序列，其中可以使用更准确的地面实况获取方法。特别是，我们利用OptiTrack MoCap系统[1]在共同数据集中记录一个人的5个测试序列。MoCap通过Twist-n-Sync算法与平台离线同步[23]。外部参数校准需要计算：不可用.下面，我们将介绍一个选择新参考轨迹及其误差上限的过程。minX，Y∈SE（3）Σ||log. Y·TM（i）·X·T −1（i）||、（1）方法. 由于数据集针对状态估计和重建/合成域，因此我们考虑了社区通常使用的主要方法，这些方法利用传感器：RGB，深度相机和IMU。根据重建和渲染领域的经验，我们认为COLMAP [71]运动恢复结构（SfM）流水线是该领域事实上的标准工具，通常用作地面实况。COLMAP仅使用RGB数据，因此其轨迹被定义为比例因子，这限制了其在状态估计任务中的使用。另外，我们考虑能够提供姿态和尺度的RGB-DSLAM算法的类别是可观察的。基于其中TM（i）是由MoCap在时间i给出的轨迹，TC是由算法计算的相机帧处的姿态，X是相机光学中心与MoCap中的被跟踪对象之间的变换，并且Y是MoCap的原点帧与SLAM算法的原点（通常是第一帧）之间的变换。结果为了支持伪地面实况的选择，我们通过使用上述全参考和无参考度量来评估MoCap测试序列上的COLMAP和ORB-SLAM（RGB-D）（实际上，虚拟立体声）。因为志愿者身体上的界标可能是非静态的（人可以呼吸、眨眼），1测试序列123452测试序列123452COLMAPOpenVSLAMORB-SLAM 3（V）LDSOOKVISPVIOORB-SLAM 3（VI）SVO2VINS融合VINS-MonoCOLMAPOpenVSLAMORB-SLAM 3（V）LDSOOKVISPVIOORB-SLAM 3（VI）SVO2VINS融合VINS-MonoCOLMAPOpenVSLAMORB-SLAM 3（V）LDSOOKVISPVIOORB-SLAM 3（VI）SVO2VINS融合VINS-MonoCOLMAPOpenVSLAMORB-SLAM 3（V）LDSOOKVISPVIOORB-SLAM 3（VI）SVO2VINS融合VINS-Mono我213240.0200.0150.0100.0050.000（m）ORB SLAM（RGBD）COLMAP（优化过的）0 10 20 30 40 50位置方法. 在评估中，我们考虑两类方法：视觉（V）和视觉惯性（VI）方法。考虑到最近的详尽评估[20，37]，我们订购了顶级V/VI方法。两种类别的考虑方法是：对于V-OpenVSLAM [80]，ORB SLAM Monocular[13]，LDSO [29]和COLMAP [71]。对于VI（按其他数据集上的性能排序）-[22][23][24][25][26][27][28][29]一些冰毒-ods（Kimera VIO，OpenVINS，MSCKF，ROVIO）被删除。图7.从数据集中泛化到其他50个场景我们考虑COLMAP和ORB-SLAM（RGB-D）的三种修改--使用整个场景、使用用于背景的掩模、使用用于人的掩模。评价结果如图5所示。这两种方法在所考虑的指标上表现出几乎相同的性能，接近MoCap系统的分辨率极限。在COLMAP的情况下，掩模的使用不影响性能，这可以通过算法施加的光度一致性来解释。当只有部分场景可见时，ORB SLAM的性能较差。评估泛化。上述对Mo- Cap测试序列的评价（具有可用的真实数据）仅限于实验室位置。为了将其扩展到我们的数据集覆盖的所有位置，我们必须考虑通过使用无参考度量来比较 COLMAP 和 ORB-SLAM（RGB-D）。为此，我们从每个位置选择10个轨迹，从而产生50个测试序列。评估性能如图7所示，可得出以下两个结论。首先，由于在聚合地图中的平坦表面上的偏差的分散度测量，可以注意到，对于大多数位置，它不超过2 cm。该值与深度传感器噪声相当，这意味着从状态估计的角度来看，两种方法都给出了相对良好的轨迹。其次，COLMAP的表现略好于ORB-SLAM（RGB-D），尽管它需要后处理来揭示尺度。我们将提供这两种方法获得的轨迹作为伪地面实况方法。5.3. 第五和第六评价我们工作的动机之一是研究使用智能手机数据的V/VI方法应用于人体肖像领域的潜力。在本节中，我们提供了对不同的最先进方法的评估，并为未来的比较提供了基线此外，对于所有考虑的方法，我们提供配置和校准文件，用于与我们的基准数据一起使用的方法。这是因为它们需要记录设备在初始化轨迹的第一秒内是静态的，而我们的用例不涵盖这种情况。基准数据集为了评估方法的性能作为地面实况，我们认为ORB-SLAM（RGB-D）产生的轨迹，如第二节所示。5.2，提供出色的性能。结果在图6中呈现了关于全参考度量的集合的评估结果。由于伪GT提供了一个统计界限，当误差幅度的阶数高于MoCap和伪GT之间的误差时，它可以用于精确排序。特别是，在我们的比较中，我们只能对下面的V/VI方法进行排序：LDSO，OKVIS，PVIO，SVO2，VINS。一般来说，我们可以观察到V方法在旋转和平移方面比VIO方法执行得更VIO方法的准确度各不相同，其中ORB 3 VI的准确度与V方法相同。所有VI在绝对旋转误差方面都具有优于1度的精度。6. 应用三维重建。为了对3D重建进行定性比较，我们提供了从每个类别的状态估计的最佳执行方法中获得的姿势，并使用两种最先进的3D重建方法：COLMAP多视图立体（MVS）[72]和ACMP [88]。在图8中从两个视图-轨迹弧的中心和边缘呈现所获得的3D场景的演示。对于两个重建管道，COLMAP轨迹产生较少失真的重建，优于ORB-SLAM（RGB-D）和（V）版本。还可以注意到，从轨迹边界的角度来看，3D重建具有较低的质量。来自VI方法的解决方案产生了不正确的重建，可能是由于其误差。视图合成。我们提供了一个定性的比较所考虑的VO-SLAM方法评价的图像合成问题。为此，我们考虑了SOTA方法：神经辐射场[49]（NeRF）和广义NeRF方法-FVS [66]和SVS [67]，21325COLMAP-SfMORB-SLAM（RGB-D）ORB-SLAM（V）COLMAP-SfMORB-SLAM（RGB-D）ORB-SLAM（V）图8.使用COLMAP-MVS（3个左列）和ACMP（3个右列）对来自COLMAP-SfM、ORB-SLAM（RGB-D）、ORB-SLAM（V）的姿势进行来自不同视图的密集重建的定性演示。原始COLMAP ORB-SLAM（RGB-D）COLMAP-SfM（FVS）COLMAP-SfM（SVS）ORB-SLAM（FVS）ORB-SLAM（SVS）图10.定性演示了FVS和SVS新视图合成算法在新的姿态，没有观察到以前.图9.定性演示NeRF新视图合成算法的新姿势，以前没有观察到。错误预训练版本。提供给方法的数据是轨迹的解。对于NeRF算法，即每个场景优化，COLMAP提供了最好的定性结果，对象是相干合成的，有点模糊。ORB-SLAM（RGB-D）结果显示出渲染上的一些不一致性（图9-右下）和总体上比COLMAP更少的清晰度，尽管它们都显示出类似的轨迹误差。FVS和SVS的结果见图10。对于COLMAP和ORB，它们提供的质量低于NeRF。这可以解释为姿势配置与训练方法的原始方法数据之间的差异。7. 讨论本文在引言中提出的一个问题是：我们是否准备好计算野外处理的轨迹并将其转换为人的3D肖像？实时VI方法的性能不如V方法（其中一些不是实时的）。尽管如此，实现的准确性是显著的，提供了非常准确的轨迹;如果IMU被正确初始化，它们可能会更好尽管其准确性，但在应用程序（NeRF和重建）上获得的结果仍有待改进。这个问题是要探讨，但我们的定性结果暗示，轨迹误差是不完全相关的下游任务，无论是合成或重建。一种解释可能是光测一致性，这比弹道误差更重要。这一点的必然结果是：也许解决方案不是联合优化轨迹和地图，而是简单地优化地图，从而允许来自合理初始解决方案的对相机姿势的小干扰。我们计划进一步调查这个问题。潜在的负面社会影响。现实的人类数据是实现沉浸式VR和远程呈现的未来所必需的。然而，这些技术还有其他潜在的危险用途，例如身份盗窃或假新闻。致谢。这项研究是基于三星电子三星研究所支持的工作。21326引用[1] OptiTrack。www.optitrack.com/网站。二、六[2] 监督人数据集。 https ： //supervise.ly/explore/projects/supervisely-person-dataset-23304/datasets. 5[3] 维康运动系统。www.vicon.com网站。 2[4] Kara-Ali Aliev，Artem Sevastopolsky，Maria Kolos，Dmitry Ulyanov，and Victor Lempitsky.基于神经点的图形学。在计算机视觉ECCV 2020：第16届欧洲会议，格拉斯哥，英国，2020年8月23日至28日，会议记录，第22部分，第696-712页。Springer，2020年。1[5] ThiemoAlldieck ， MarcusMagnor ， BharatLalBhatnagar，Christian Theobalt，and Gerard Pons-Moll.学习从一个单一的rgb相机重新构建穿着衣服的人。在IEEE/CVF计算机视觉和模式识别会议论文集，第1175-1186页，2019年。2[6] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.基于视频的三维人物模型重建。在IEEE计算机视觉和模式识别会议论文集，第8387-8397页二、三[7] K Somani Arun，Thomas S Huang和Steven D Blostein。两个三维点集的最小二乘拟合。模式分析与机器智能，（5）：698-700，1987. 5[8] Timur Bagautdinov ， Chenglei Wu ， Tomas Simon ，Fabian Prada ， Takaaki Shiratori ， Shih-En Wei ，Weipeng Xu，Yaser Sheikh，and Jason Saragih.驾驶信号感知全身化身。 ACM Transactions on Graphics（TOG），40（4）：1- 17，2021。2[9] Michael Bloesch ， Michael Burri ， Sammy Omari ，Marco Hutter，and Roland Siegwart.采用直接光度反馈的基于迭代扩展卡尔曼滤波的视觉-惯性里程计。TheInternational Journal of Robotics Research，36（10）：1053-1072，2017。三、七[10] Federica Bogo ， Michael J Black ， Matthew Loper 和Javier Romero。从单目rgb-d序列对运动中的人进行详细的全身重建在IEEE计算机视觉国际会议论文集，第2300-2308页2[11] Federica Bogo，Javier Romero，Gerard Pons-Moll，andMichael J Black.动态浮士德：登记人体运动。在IEEE计算机视觉和模式识别集，第62332[12] Michael Burri、Janosch Nikolic、Pascal Gohl、ThomasSchneider、Joern Rehder、Sammy Omari、Markus WAchte-lik和Roland Siegwart。欧洲微型飞行器数据集。国际机器人研究杂志，2016年。3[13] 卡洛斯·坎波斯、理查德·埃尔维拉、胡安·J·戈麦斯·罗德·雷格斯、何塞·E·MM·蒙蒂·L和胡安·D·塔德·O·S。ORB-SLAM 3：一个精确的开源库，用于视觉，IEEETransactions on Robotics，2021。二三六七[14] Nicholas Carlevaris-Bianco，Arash K Ushani，and RyanM Eustice.密歇根大学北校区长期视觉和激光雷达数据集。The International Journal ofRobotics Research，35（9）：1023-1035，2016。3[15] Joel Carranza，Christian Theobalt，Marcus A Magnor，and Hans-Peter Seidel.人类演员的自由视点视频。ACM图形交易（TOG），22（3）：5693[16] Simone Ceriani，Giulio Fontana，Alessandro Giusti，DanieleMarzorati ， MatteoMatteucci ， DavideMigliore ， Davide Rizzi ， Domenico G Sorrenti ， andPierluigi Taddei.用于室内自我定位和绘图的Rawseeds地面实况收集系统。Autonomous Robots，27（4）：3533[17] Alvaro Collet 、 Ming Chuang 、 Pat Sweeney 、 DonGillett 、 Dennis Evseev 、 David Calabrese 、 HuguesHoppe、Adam Kirk和Steve Sullivan。高质量的可流式传输的自由视点视频。ACM Transactions on Graphics（ToG），34（4）：1-13，2015。2[18] Santiago Cortes ， Arno Solin ， Esa Rahtu ， and JuhoKannala.Advio：视觉惯性里程计的真实数据集。在欧洲计算机视觉会议（ECCV）的会议记录中，2018年9月。三、四[19] Jeffrey Delmerico，T

下载后可阅读完整内容，剩余1页未读，立即下载