虚拟现实中6自由度跟踪方法的优化及其应用

56 浏览量更新于2023-10-13 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

从自我中心观点看Rohit Pandey，Pavel Pidlypenskyi，Shuoran Yang，Christine Kaeser-Chen谷歌公司{rohitpandey，podlipensky，shuorany，christinech} @ google.com抽象。虚拟现实和增强现实技术在过去几年中取得了显著的增长。这种系统的关键组件是跟踪头戴式显示器和控制器在3D空间中的姿态的能力。我们解决的问题，有效的6自由度跟踪的手持控制器从自我中心的相机的角度来看。我们收集了HMD控制器数据集，该数据集由超过540，000个立体图像对组成，这些立体图像对标记有手持控制器的全6-DoF姿态。我们提出的SSD-AF-Stereo 3D模型在3D关键点预测中实现了33.5毫米的平均误差，并与控制器上的IMU传感器结合使用，以实现6-DoF跟踪。我们还提出了基于模型的全6自由度跟踪方法的结果。我们所有的模型都在严格的实时移动CPU推理约束关键词：虚拟现实， 6DoF 数据集，手持对象跟踪，MobileNet，SSD，姿态估计。1介绍在过去的几年中，虚拟现实（VR）系统的需求有所增加。这些设备通常采用用于渲染虚拟场景的头戴式显示器（HMD）和用于交互的单手持控制器或双手持控制器的形式。需要跟踪HMD和控制器的位置和方向，以创建沉浸式体验。跟踪可以是仅包括取向（滚动、俯仰和偏航）的3自由度（DoF）或也包括3D空间中的位置的6自由度。可以使用6-DoF跟踪创建更逼真的体验，但它通常需要额外的硬件。像HTC Vive这样的VR头显使用外部红外摄像头和标记进行跟踪，限制了系统只能在有限的空间内运行。较新的移动6自由度耳机可以通过由内而外的跟踪实现类似的结果这样的头戴式耳机具有附接到头戴式耳机的一个或多个面向外的相机。通过在相机上应用诸如SLAM的定位算法，我们可以计算头部的6- D位置与环境的关系。同时，在6-DoF中跟踪移动HMD的手持控制器仍然是一个困难的问题。控制器往往比耳机移动得更快，具有更大同等贡献2R. Pandey，P.Pidlypenskyi，S.杨角，澳-地凯撒陈移动范围更大，且可由用户自己的绑定来完成。其他感测解决方案依赖于附加的感测硬件，例如例如，可以使用Sixense系统中的电磁传感器或索尼PS VR系统中的附加视觉标记前一种解决方案可能是昂贵的，并且当标记被遮挡时，后者遭受可靠性问题。在这项工作中，我们探索基于图像的无标记的6-DoF跟踪的手持C〇 nTR〇 lleRS。关键的观察是使用的，并且图像提供关于控制器在图像中的位置的可信上下文，并且即使当控制器本身可能被遮挡时也是鲁棒的为了简化系统，我们使用相同的在我们的实验中，他们是一对立体单色鱼眼相机。除了基于标准IMU的控制器之外，我们不需要额外的标记或硬件我们相信这可以实现非常小和便宜的点击式控制器，并最终导致纯粹的基于手的交互。1.1贡献我们在这项工作中的主要贡献是：1. 一种在相机空间中自动标记手持对象的6-DoF姿态的方法。2. HMD控制器数据集1，最大的无标记对象6-DoF数据集。该数据集包含547，446个立体图像对，具有手持控制器的6-DoF姿态。我们为每个图像提供手持控制器该数据集包含20个不同用户在不同照明条件下执行13种不同运动模式的图像我们的数据集将在会议之前公开。3. 神经网络模型，使3-DoF和6-DoF跟踪手持对象与移动CPU计算约束。2相关工作存在用于对象识别任务的手持对象的一些现有数据集小型手持物体识别测试（SHORT）[21]数据集包含从手持或可穿戴相机拍摄的[14]中收集的数据集Text-IVu数据集[2]包含带有文本的手持对象，用于文本识别。这些数据集都不包含手持对象的姿态信息。另一方面，研究人员还收集了专门用于对象6-DoF姿态估计的数据集。[8]和[23]中提供的数据集提供了完整的6D对象姿态以及大多数对象类别的3D模型值得注意的是，具有对象的3D模型可以提高姿态估计精度，但是在我们的情况下是不可行的，其中手的形状和握持对象的方式在用户之间变化。1https://sites.google.com/view/hmd-controller-dataset手持目标3我们的工作是密切相关的手姿态估计从自我中心的角度来看。EgoHands数据集[1]由从Google Glass拍摄的人与人之间社交互动的视频组成它包含手的像素级分割SynthHands数据集[18]由重新定位到具有自然背景和与不同对象交互的虚拟手的真实捕获的手部运动组成。BigHand2.2M基准数据集[26]是一个大型数据集，它使用6D磁传感器和反向运动学来自动获得深度图上的21个关节手部姿势注释。第一人称手部动作基准数据集[4]提供了手部21个关节位置的RGB-D视频序列以及手部与之交互的对象的6自由度姿势。使用手上的可见磁传感器来捕获关节位置。我们将我们的模型基于SSD [15]架构，因为与其他单次拍摄对象检测方法（如YOLO [20]）相比，SSD [15]架构的计算效率和性能优越提高SSD精度的一些关键因素来自于针对不同纵横比使用单独的滤波器它们被应用于不同特征提取器层处的特征图，以在多个尺度下执行检测计算效率来自以下事实：它是一种单阶段方法，可以一次性进行检测和识别，而不是像Faster RCNN [6]和Mask RCNN [7]这样的两阶段方法，在第一阶段进行检测，然后在第二阶段进行识别。一些最近的工作已经扩展到3D和6D的方式类似于我们的对象检测方法Mousavian等人[17]在KITTI [5]和Pascal 3D+上进行3D边界框预测的回归框方向和尺寸[25]数据集。Kehl等人[12]和Poirsonet al. [19]已经将对象姿态估计公式化为离散姿态候选者的分类问题，并且使用SSD的变体来解决该问题。其他方法如[16]将姿态估计视为回归问题，并使用基于CNN的特征网络和对象特定姿态网络的组合来直接回归3D姿态3HMD控制器数据集HMD控制器数据集由20个参与者的超过540，000个立体单色鱼眼图像对组成，这些参与者在他们的右手中使用控制器执行13种不同的运动模式。我们收集6-DoF姿势（在3D空间中的位置和方向）的手持控制器。对于每个图像对样本，我们提供：– 在左凸轮的轮廓中的控制器的尖端的时间戳同步的6-DoF姿态– 相机相对于静态环境的时间戳同步的6-DoF姿态– 摄像机对的内部和外部。4R. Pandey，P.Pidlypenskyi，S.杨角，澳-地凯撒陈V凸轮凸轮V凸轮CB方向（度）位置（mm）耳机0.3496.693控制器0.0320.6583.1设备设置和校准为了收集控制器的6-DoF姿态的精确地面实况，我们使用Vicon运动捕获系统[24]，其可以使用设置在捕获空间中的静态红外相机来跟踪回射标记。我们将Vicon标记的星座附加到耳机和控制器。耳机上的标记在摄像机的视野控制器上的标记以它们在大多数时间会被人手遮挡的方式放置我们要求用户执行预定义的一组运动。由于仍然存在标记可见的某些姿势的风险，我们有三个版本的控制器，其Vicon标记连接到不同的位置（图1）。用户被要求使用每个版本的控制器重复相同的动作。图1：不同版本的Vicon连接到控制器。表1：手眼校准中的RMSEVicon系统在500 Hz下提供6-DoF姿态跟踪在每次更新时提供控制器CB背面上的标记星座相对于Vicon房间原点V（在一次性房间校准阶段中初始化）的姿态我们将其表示为TCB。由于我们有不同的标记星座，我们需要计算控制器上一个规范关键点的姿态，以便能够合并在不同会话中捕获的数据。我们选择控制器CT的尖端作为规范关键点，因为它是用于VR中的空间操作的快速反射。我们进一步定义以控制器尖端为中心的局部坐标空间与物理控制器轴对准。我们表示这个典型坐标空间和相机空间作为TCT。TCT的计算取决于耳机在vicon空间中的跟踪我们通过引入刚性安装在耳机上的附加Vicon可跟踪星座H来跟踪耳机在每一帧处，我们接收关于Vicon跟踪空间中的H的姿势的更新。我们把它记为TH。头戴式星座有一个刚性的转变，从相机。这可以被计算为机器人中的手眼校准问题[3]。我们计算了TH的刚性变换与离线手眼校准-操作程序。我们还计算TCT脱机，临时挂载跟踪控制器头端的标记，并记录CB和CT的Vicon姿势：TCT= TCB−1·T CT。（一）CB V V手持目标5CBTCT后为每个控制器配置计算，我们删除在用于用户数据收集的控制器的尖端上的标记，以便不向图像引入可见标记。另一个重要的校准步骤是Vicon时钟和耳机相机时钟之间的时间对准。对准是基于角速度完成的，角速度是基于Vicon提供的轨迹和摄像机手眼校准[3]计算的。这允许我们找到相机帧和控制器的对应6-DoF姿态。在数据收集期间，我们可以计算尖端的同步6-DoF姿态控制器在左摄像机空间中的位置如下：−1 −1TCT =T凸轮·T H·T CB·T CT。（二）凸轮H V V CB上述校准步骤中的每一个都引入了一些误差，我们在表1中估计手眼校准的均方根误差（RMSE）。这表示我们数据集的groundtruth标签中的噪声水平。3.2数据集清理我们调查了数据集中样本的两个潜在问题：具有丢失或不正确的6-DoF姿势的帧，以及具有可见跟踪标记的帧。为了删除丢失或不正确的6-DoF姿势的帧，我们使用以下标准过滤数据1. 控制器位置限制在距离摄像机1米以内。我们所有的数据集参与者的手臂长度都小于1米。2. 我们可以用Vicon系统检测丢失的Vicon跟踪帧。我们丢弃没有对应的Vicon姿势的图像帧我们还注意到，Vicon完全重新初始化需要大约0.6s。在重新初始化阶段期间产生的姿态往往是错误的。因此，我们在跟踪丢失之后也丢弃20个后续相机帧。3. 由于Vicon跟踪错误而导致的不正确6-DoF标签更难以自动过滤。图2提供了不精确姿势标签的几个示例我们使用一种主动学习方案来过滤这些帧，在该方案中，我们将训练好的模型应用于数据集，以检测潜在的错误标记帧。在我们的实验中，我们检测帧的姿态预测误差大于3厘米。然后，我们手动扫描帧集并删除无效标签。我们为清理数据集中的每个图像提供时间戳，以便可以跟踪帧中的不连续性。我们的数据集的另一个潜在问题是图像中Vicon跟踪标记的意外暴露。由于鼓励用户在完成运动模式时自由移动，因此跟踪标记始终可能对头戴式摄像机可见。我们使用集成梯度方法[22]来分析训练数据集中可见标记的影响有趣的是，我们观察到我们的火车模型确实如此6R. Pandey，P.Pidlypenskyi，S.杨角，澳-地凯撒陈CTCTCT而不是把标记当作视觉线索在图3中，我们显示了一个带有清晰可见标记的样本输入对该图像上的模型预测贡献最大的像素不包括标记的像素。我们认为这是由于灰度图像中具有可见标记的帧的数量较少以及标记的尺寸较小-在训练图像中每个标记的平均宽度约为2.5像素因此，我们的最终数据集不会显式过滤掉具有可见标记的帧。图2：Vicon跟踪故障和不正确的6-DoF姿态的示例。图3：具有对预测贡献最大的可见标记和像素的3.3边界框和标签分配许多目标检测模型，如SSD [15]，需要2D边界框和标签作为输入。由于要跟踪的控制器很大程度上被手遮挡，因此我们计算手持控制器的手的边界框我们观察到，我们可以将使用者的心脏位置与心脏滚动尖端位置CT进行比较为了计算用户的三维链接和相机空间，我们ci凸轮CT凸轮对于x = 1，. . . 、8（3）其中ci表示边界立方体的8个角，Pci表示所述局部控制器空间CT中的角的位置。在实验中，我们集合Pci是一个[0]的集合。03，0。05}，{− 0. 05，0。01}，{− 0. 01 0 10个月（以米为单位）。边界框大小反映了典型的人手大小，并且局部坐标反映了来自坐标系的局部空间的图像和视图的形状。最后，我们计算的2D手包围盒投影到图像空间的3D绑定立方体使用相机的内在。我们选择包含所有投影边界立方体角的最小轴对齐2D边界框。所有手部边界框都自动与右手的标签相关联。在模型训练过程中，我们为所有不匹配的锚点添加另一个背景标签。注意，使用完整的手作为对象边界框，我们已经将我们的问题转移到图像空间中的手检测和关键点定位。手和手臂为控制器姿势提供了极好的环境，即使在控制器无法在视觉上观察到时也是如此。手和手臂也有更多的高级特征供神经网络识别。这是我们的无标记控制器跟踪解决方案的关键。P=T·P手持目标73.4数据集统计数据在数据集清理之后，我们获得了具有547，446帧的最终集合。图4示出了具有可视化的地面实况姿态注释的样本帧。图5 -7显示了我们的数据集在图像空间，xyz空间和方向空间中的姿势分布。图4：具有可视化的6-DoF地面实况注释的样本图像。图5：从左到右：由用户手和控制器占据的像素的热图; 2D边界框宽度直方图; 2D边界框高度的直方图。图6：从左到右：以米为单位的x、y和z方向上的坐标的直方图图7：从左到右：以度为单位的滚动、俯仰和偏航的直方图8R. Pandey，P.Pidlypenskyi，S.杨角，澳-地凯撒陈我们数据集中的地面实况姿势分布与自然人类手臂运动的空间一致。我们指示所有参与者使用右手操作控制器，因此在图像的右半部分有更多的样本。我们可以很容易地垂直翻转图像，并将它们用作构建左手模型的样本4附加字段多盒检测器我们定义了一个可扩展的模型架构，基于单次拍摄多盒检测器（SSD）[15]，用于以自我为中心的手部检测和6-DoF关键点跟踪实验。我们的模型SSD-AF支持向每个框预测的输出对于姿态回归模型和分箱模型的情况，这样的附加字段可以分别用于对回归和分类目标进行图8：MobileNet-SSD-AF架构：我们使用MobileNet作为特征提取器网络，并且SSD具有用于检测和分类的附加字段输出我们选择基于SSD的对象检测方法用于我们的任务，因为它已被证明可以实现良好的速度和准确性权衡[11]。此外，SSD和类似的方法（如YOLO [20]）同时执行检测和分类，因此与两阶段对象检测器（如Faster RCNN [6]）相比，计算效率更高。SSD架构还使用来自特征提取器网络的多尺度特征图来实现不同尺度的检测。SSD架构的经典形式是全卷积神经网络，其产生边界框的固定大小集合和框内对象的存在的类得分接下来是一个非最大值抑制步骤，选择一个或多个具有最高类得分的框。框的输出集合表示为一组不同大小和宽高比的随机选择的默认框（类似于[6]中的锚框）的偏移对于每个默认框，我们有：输出=[xi，yi，wi，hi，ci，. . . ，c_im]，对于默认框i ∈ {1，. . . ，n}（4）手持目标9如果xi、yi、wi、hirepesej，并且n是匹配框的总数。在训练过程中，目标偏移和类概率被分配给默认框，其与地面实况边界框的重叠高于给定阈值。在输出向量和目标向量之间计算的损耗具有两个部分：边界框偏移的定位损失，以及相关联的类别置信度的分类损失。总损耗是匹配盒的损耗的加权和，由下式给出，1损失=[L（﹥x，y，w，h﹥pred，﹥x，y，w，h﹥gt，x）+nloci i ii（五）αLconf（cpred，cgt，xi）] i ∈ {1，. . . ，n}，j ∈ {1，. . . ，m}ij ijxi是表示第i个缺省框是否与地面实况框匹配的指示符变量为了预测6-DoF姿态以及边界框，我们对SSD架构进行以下修改。我们将所选择的附加字段附加到一个错误块中，该错误块的输出为4个偏移（x，y，w，h）、k个附加字段（tl，t2，. . . ，tk）和m类置信度（c1，c2，. . .，cm）。例如，如果我们使用附加字段来预测与控制器尖端对应的2D关键点，则k=2，其中好像我们预测具有xyz空间中的位置和四元数中的取向的全6-DoF姿态，则k=7。默认情况下，我们对所有情况都使用m=1，因为我们只有一个对象类对应于握住控制器的手。SSD-AF中的总损耗为，1损失=[L（﹥x，y，w，h﹥pred，﹥x，y，w，h﹥gt，x）+nloci i iiαLconf（cpred，cgt，xi）+βLfields（tpred，tgt，xi）]（六）伊吉伊勒i ∈ {1，. . . ，n}，j ∈ {1，. . . ，m}，l ∈ {1，. . . ，k}注意，附加的字段可以根据模型是预测回归目标（诸如控制器尖端的2D关键点、3D关键点或全6-DoF姿态）还是分类目标（诸如角旋转的离散仓）而变化根据目标的类型设置额外的场损失L场另外，每个附加字段可以相对于默认框坐标被编码，正如在边界框坐标被编码为相对于默认框的偏移的情况下我们使用MobileNet [10]作为SSD-AF的特征提取器网络。我们最终的模型架构如图8所示。5实验5.1实验装置我们将HMD Controller数据集分为基于用户的训练和评估集。我们总共使用了508，690个样本进行训练，38，756个样本进行测试。以下所有指标均在测试集上报告。10R. Pandey，P.Pidlypenskyi，S.杨角，澳-地凯撒陈我们的模型使用Python和Tensorflow实现输入图像的尺寸从原始分辨率640×480缩小到320×240。通过归一化到[0，1]范围来预处理图像，并且在训练期间应用随机对比度和亮度扰动。我们使用深度乘数为0的MobileNet。25作为特征提取器。地面实况目标向量通过为具有大于50% IOU的锚点分配地面实况框来生成。我们使用平滑L1损失[6]进行定位，使用附加字段和二进制交叉熵进行分类。我们将损失权重α和β设置为1。在所有的实验中。该网络使用随机梯度下降和ADAM优化器[13]进行训练。作为后处理步骤，我们对输出框执行非最大值抑制最终输出由输出框的坐标以及相应的附加字段和类置信度组成5.2度量我们根据[9]中定义的指标推导出我们的指标对于我们的测试集中的样本，我们用Bgt表示地面实况2D边界框，并且候选B预测的2D框。我们将候选框中的对象的类概率表示为使用字符串并且将字符串中的所有字符串表示为cpred。因此，候选框在背景类中的概率为1-cpred。检测指标：我们使用平均精度（mAP）作为检测的主要指标。以下算法用于确定Bpred是真阳性TP、假阳性FP、真阴性TN还是假阴性FN：如果Bgt不存在且cpredtFN，如果B>存在且c预测 tIOUFP，否则其中t。是关于类别概率的选定阈值，并且tIOU是关于地面实况框与候选框之间的交集与并集（IOU）的值在下面的结果中，我们将tc设置为0。0001. 除非另有说明，否则我们将tIOU设置为0。05，映射到最大值92。4毫米的位置误差。最终精度由tp/（tp+fp）给出对于预测离散箱中的方向的模型，我们还评估了箱分类的mAP。bin分类中的mAP仅在真正的积极因素。姿势度量：对于回归目标，我们计算地面实况和预测值之间的平均误差（MAE）和均方根误差（RMSE）。我们以像素为单位报告图像空间坐标u、v中的关键点误差，以米为单位报告相机空间坐标x、y、z中的关键点误差对于那些C手持目标11zzz具有作为回归目标的方向，我们以度为单位报告相机空间中的方向误差。5.33D位置估计首先，我们提出的3D姿态估计与SSD-AF的结果我们对此任务的最佳模型SSD-AF-Stereo 3D使用堆叠的立体图像对作为网络的输入，并预测具有6个额外字段的框，这些字段表示两个相机中控制器尖端的3D位置（t1，t1，t1，t2，t2，t2）。让3D位置uvzuvz对象关键点的值为Po=（Po，Po，Po），并且投影关键点的值为凸轮x y z在图像空间中的u，o，v，o我们对u，o，v，o相对于锚点盒子的高度为tu和tv，盒子的高度为tz。我们拥有：tu=（uo−xa）/wa，tv=（vo−ya）/ha，tz=Po/ha（7）其中，xa，y表示所述错误块的中心和宽度，xa，y表示所述长度和高度。我们在图9中示出了我们的SSD-AF-Stereo 3D模型的定性结果图9：SSD-AF-Stereo 3D对样本测试集图像的预测结果地面实况3D位置在每个图像的左半部分可视化，并且预测位置在右侧可视化覆盖圆的大小与P。成反比。我们的模型执行厘米精度，尽管极具挑战性的照明条件和复杂的情况下，如用户用双手握住控制器。因此，我们将我们的模型与其他两个基线模型进行比较：– SSD-AF-2D：模型输入是立体图像之一。附加字段输出为（tu，tv）。– SSD-AF-3D：模型输入是立体图像之一。附加字段输出是（tu，tv，tz）。边界框和类别预测的评估结果如表2所示，2D、3D和6-DoF跟踪的结果如表2所示。3.可以看出，模型的精度普遍较高，表明12R. Pandey，P.Pidlypenskyi，S.杨角，澳-地凯撒陈良好的边界框预测性能。SSD-AF-Stereo 3D实现了0的最佳边界框精度。9534.它还实现了最低的紫外线预测MAE 8。45像素和33的3D关键点预测MAE。5毫米。此外，该模型可以在一个大型移动CPU上以30fps运行模型mAP@0.05IOU mAP@0.25IOU mAP@0.5IOUSSD-AF-2D0.91400.84690.5180SSD-AF-3D0.93800.87610.5131SSD-AF-Stereo3D0.95340.95330.7767表2：3D位置模型的检测mAP模型位置（uv）位置（xyz）延迟（ms）MaeRMSEMaeRMSE 移动Titan XSSD-AF-2D12.4130.01--30.1406.378SSD-AF-3D10.2324.380.0493 0.0937 30.6496.303SSD-AF-Stereo3D 8.45 23.25 0.0335 0.0776 31.7686.512表3：姿势预测误差和等待时间：位置误差在uv空间中以像素为单位，在xyz空间中以米为单位。移动延迟在仅使用1个大CPU核心的Pixel 2手机和桌面Titan X GPU上以毫秒为单位测量。请注意，我们可以在立体对中的两个图像上运行SSD-AF-2D，并使用相机外函数进行三角测量以计算3D姿态。这将有效地使运行时间加倍。与SSD-AF-2D模型相比，SSD-AF-3D模型的更高的uv预测性能指示将t/z添加到目标也有助于边界框和2D关键点预测。我们的观察结果与添加额外的监督信息有助于神经网络学习的理论一致。SSD-AF-Stereo 3D模型表现最好，表明该模型能够使用两个立体图像作为输入更好地推断位置信息。有趣的是，我们还观察到，使用立体输入但仅预测其中一个图像（而不是两个）中的（tu，tv，tz）的模型并没有优于诸如SSD-AF-3D的单个5.4方向和6-DoF预测其次，我们还提出了与SSD-AF的方向和6-DoF姿态估计的结果。最近关于6-DoF姿态估计的显著工作通常使用以下两种方法之一：回归或离散分箱。诸如[16]中的回归模型直接预测对象姿势。方向可以用欧拉角或四元数表示以进行回归。离散分箱模型（如[19]）将可能的6-DoF空间拆分为多个离散分箱，或视图（如[12]）。姿态估计然后变成将正确的视图空间仓分配给样本的分类问题。我们使用SSD-AF模型实现了这两种方法：手持目标13– SSD-AF-Stereo6D-Quat：该模型将堆叠的立体对作为输入，并预测具有14个附加字段的框，这些附加字段表示两个图像中的控制器的完整6D 〇 F姿态（tu、tv、tz、qx、qy、qz、qw）。qx，qy，qz，qw是方位的四元数表示。– SSD-AF-Stereo6D-Euler：该模型类似于上述模型，除了在欧拉角中的俯仰、偏航、滚转方向上由3个值α、β、γ表示取向之外。– SSD-AF-Binned：代替回归目标，该模型以类概率（tc1，. . . ，tcb）。Tc，i对应于第i个方向仓。在我们的实验中，我们将整个方向空间平均分割成多个bin。– SSD-AF-3D-Binned：与上述类似，但还预测（tu，tv，tz）以及方向仓。– SSD-AF-3D-AxisBinned：与上述类似，但方向按轴分组。此外，我们还测试了SSD-AF-MultiplePoint模型，该模型为立体对中的每个图像的4个关键点输出附加场（tu，tv，tz），总共产生24个附加场。选择附加关键点以对应于控制器上不共面的其他关键点。我们通过将平面拟合到预测的关键点并计算相机空间中的平面的取向来这些实验的结果示于表4和表5中。模型方向MAE位置MAE偏航间距辊xyzSSD-AF-Stereo3D---0.0335SSD-AF-Stereo6D-Quat0.36661.47900.66530.0521SSD-AF-Stereo6D-Euler0.36301.58400.73340.0448SSD-AF-MultiplePoint0.37111.1081.2030.0452SSD-AF-3D-AxisBinned（20×3箱）0.1231 0.8594 0.52560.0503表4：取向预测模型的MAE。误差以弧度为单位。模型定向组地图位置MaeSSD-AF-装箱（27箱）0.6538-SSD-AF-装箱（512箱）0.3627-SSD-AF-3D装箱（27箱）0.64120.04760SSD-AF-3D装箱（512箱）0.38010.07167SSD-AF-3D-AxisBinned-Yaw（20箱）0.44800.05124SSD-AF-3D-AxisBinned-间距（20个箱）0.35920.04975SSD-AF-3D-AxisBinned-Roll（20箱）0.55320.04413表5：分箱模型的分类mAP14R. Pandey，P.Pidlypenskyi，S.杨角，澳-地凯撒陈SSD-AF-3D-AxisBinned在所有三个方向上的性能最好，数值最低。注意，该模型一次仅预测围绕这些方向中的一个方向的取向，而不是像在其他方向的情况下那样同时预测。一般来说，分箱模型在方向上的表现优于回归模型。我们的模型有512个箱子，达到了38%的装箱精度，这是远远高于机会。在回归模型中，SSD-AF-Stereo 6D- Quat的四元数编码的性能略优于SSD-AF-Stereo 6D- Euler的欧拉角编码这与[16]中的结果不同。SSD-AF-MultiplePoint在俯仰方向上优于SSD-AF-Stereo 6D型号，但在滚动方向上表现不佳。最后，与SSD-AF-Stereo 3D相比，所有6-DoF模型在3D位置预测上的表现略差。我们推测，这是由于我们的移动友好的模型运行的预测位置和旋转的能力。6结论和未来工作我们已经提出了用于在移动VR/AR头戴式设备上对手持控制器进行有效的6-DoF跟踪的方法。我们的方法使用立体摄像头的耳机，和IMU的3自由度控制器作为输入。为这项工作收集的HMD控制器数据集由超过540，000对鱼眼立体图像组成，具有控制器姿势的无标记6-DoF注释6自由度注释是自动收集与Vicon运动捕捉系统，并具有亚毫米精度。我们的数据集涵盖了多样化的用户群和具有挑战性的环境。据我们所知，这是同类数据中最大的数据集。我们已经证明，我们的SSD-AF-Stereo 3D模型在我们的数据集上的3D关键点跟踪中实现了33.5mm的低它可以在单个移动CPU核心上以每秒30帧的速度我们还提出了在严格的计算约束下的端到端6自由度姿态预测的结果。我们未来的工作包括改进方向预测结果。我们相信我们的模型可以进一步改善编码方向是不变的默认框位置。由于相机投影，具有相同取向的对象可能在图像的不同部分中具有不同的外观。相反为了让网络学习投影，我们可以探索使用投影调整的方向作为地面实况，这样具有相同外观的对象总是对应于相同的方向标签。另一个有趣的研究方向是将时间和上下文信息应用到我们的模型中。目前，我们所有的模型都是在逐帧的基础上预测对象的姿势。添加时间滤波或使用RNN可以显著加快跟踪。还可以添加用于不同类型的交互的运动先验以进一步提高跟踪质量。手持目标15引用1. Bambach，S.，Lee，S.，Crandall，D.J.，Yu，C.：借一只手：在复杂的自我中心互动中检测手和识别活动 IEEE International Conference onComputer Vision（ICCV）（2015）2. 贝克角Broun，A.，Mirmehdi，M.，Pipe，T.，Melhuish，C.：文本行聚合。第三届模式识别应用与方法国际会议（2014）3. Chou，J.C.，Kamel，M.：使用四元数寻找机器人操作器上的传感器的位置和方向。The International Journal of RoboticsSesearc h10（3），2404. Garcia-Hernando，G. Yuan，S.，Baek，S.，Kim，T.K.：第一人称手部动作基准测试，包含RGB-D视频和3D手部姿势注释。arXiv预印本arXiv：1704.02463（2017）5. Geiger，A.，Lenz，P.乌尔塔松河：我们准备好自动驾驶了吗？KITTIVision Benchmark Suite。IEEE计算机视觉和模式识别会议（CVPR）（2012）6. Girshick，R.：快速R-CNN。IEEE International Conference on ComputerVision（ICCV）（2015）7. He，K.， G.，G.， Doll'ar，P.， Girshi ck，R. ： MaskR-CNN。 arXiv：1703.06870（2017）8. Hinterstoisser ， S. ，莱佩蒂 Ilic ， S. ， Holzer ， S. ， Bradski ， G. ，Konolige，K.，Navab，N.：基于模型的训练，检测和姿态估计的无纹理三维物体在严重混乱的场景。 2012 年亚洲计算机视觉会议（AsianConference on9. H odanˇ，T.，妈妈，J.， Obdrˇz´alek，Sˇ. ：OnEvaluatioof6DObeeEstimation。在：欧洲计算机视觉会议（ECCV）（2016）10. Howard，A.G.，Zhu，M.，陈伯，Kalenichenko，D.王伟，Weyand，T.，安德里托，M.，Adam，H.：MobileNets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861（2017）11. 黄，J.，Rathod，V.，孙角，澳-地Zhu，M.，Korattikara，A.，Fathi，A.，费希尔岛Wojna，Z.，Song，Y.，Guadarrama，S.，Murphy，K.：现代卷积对象检测器的速度/精度权衡IEEE计算机视觉与模式识别会议（CVPR）（2017）12. Kehl，W.，Manhardt，F.，Tombari，F.，Ilic，S.，Navab，N.：SSD-6D：使基于RGB的3D检测和6D姿态估计再次伟大。IEEE计算机视觉与模式识别会议（CVPR）（2017）13. Kingma，D.Ba，J.：亚当：一种随机优化方法arXiv预印本arXiv：1412.6980（2014）14. Liu，S.，王，S.，吴，L.，Jiang，S.：基于多特征融合的RGB-D手持目标识别。互联网多媒体计算与服务国际会议（2014）15. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.，Fu，C.Y.，Berg，A.C.：SSD：单次发射多盒探测器。在：欧洲计算机视觉会议（ECCV）（2016）16. Mahendran，S.，阿里H维达尔，R.：使用卷积神经网络的3D姿态回归。IEEE International Conference on Computer Vision（ICCV）（2017）17. M ousavian，A.， Anguel ov，D. ，Flynn，J.， Koˇsecka′，J. ：3dB〇undingB〇xEstimationUsing Deep Learning and Geometry. IEEE计算机视觉与模式识别会议（CVPR）（2017）16R. Pandey，P.Pidlypenskyi，S.杨角，澳-地凯撒陈18. Mueller ， F. Mehta ， D. ， Sotnychenko ， O. ， Sridhar ， S. ， Casas ， D.Theobalt，C.：从自我中心的RGB-D传感器进行遮挡下的实时手部跟踪。IEEE International Conference on Computer Vision（ICCV）（2017）19. Poirson，P.Ammirato，P.Fu，C.Y.，刘伟，Kosecka，J.，Berg，A.C.：快速单镜头检测和姿态估计。IEEE International Conference on 3D Vision（3DV）（2016）20. Redmon，J.，Divvala，S.，格尔希克河Farhadi，A.：你只看一次：统一的实时目标检测。IEEE计算机视觉与模式识别会议（CVPR）（2016）21. Rivera-Rubio，J. Idrees，S.，亚历克西乌岛Hadjilucas湖Bharath，A.A.：小型手持物体识别测试。IEEE Winter Conference on Applications of ComputerVision（WACV）（2014）22. Sundararajan，M.，Taly，A.严Q：深度网络的公理化属性。arXiv预印本arXiv：1703.01365（2017）23. Tejani，A.，Tang，D.，Kouskouridas河Kim，T.K.：用于3D对象检测和姿态估计的潜在类Hough森林。欧洲计算机视觉会议（ECCV）（2014）24. Vicon：Vicon运动捕捉软件。https://www.vicon.com/products/software/tracker，访问时间：2018-03-1325. Xiang，Y.，中国科学院，Mottaghi河Savarese，S.：超越Pascal：野外3D物体检测基准。 IEEE Winter Conference on Applications of Computer Vision（WACV）（2014）26. Yuan，S.，Ye，Q.，Stenger，B.，Jain，S.，Kim，T.K.：大手二号2M基准：手部姿势数据集和最新分析。arXiv预印本arXiv：1704.02612（2017）

下载后可阅读完整内容，剩余1页未读，立即下载