DeepCharUco：基于深度学习的姿态估计系统

40 浏览量更新于2023-10-20 收藏 2.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8436Deep CharUco：暗CharUco标记姿态估计Danying Hu，Daniel DeTone，和TomaszMalisiewicz Magic Leap，Inc.{dhu，ddetone，tmalisiewicz}@ magicleap.com摘要ChArUco板用于机器人和增强现实中的相机校准、单目姿态估计和姿态验证。在光线充足的环境中，这些基准点可以通过传统的计算机视觉方法（如OpenCV中所示）进行检测，但当光线不足或图像发生极端运动模糊时，经典方法就会失效。我们提出了DeepChArUco，这是一个实时姿态估计系统，它将两个自定义深度网络ChArUcoNet和RefineNet与Perspective-n-Point（PnP）算法相结合，以估计标记ChArUcoNet是一个双头标记特定卷积神经网络（CNN），它联合输出ID特定分类器和2D点位置。使用RefineNet将2D点位置进一步细化为子像素坐标。我们的网络使用目标标记的自动标记视频，合成子像素角点数据和极端数据增强的组合进行训练。我们评估深ChArUco在具有挑战性的低光，高运动，高模糊的情况下，并证明我们的方法是优于传统的基于OpenCV的方法ChArUco标记检测和姿态估计。1. 介绍在本文中，我们将计算机视觉友好的2D图案称为基准点或标记，这些图案是唯一的，并且具有足够的点用于6DoF姿态估计。阿鲁科马克- 标记[1，2]及其衍生物，即ChArUco标记，经常用于增强现实和机器人技术。例如，基于基准的SLAM [3，4]通过首先在世界中放置少量固定和唯一的模式来重建世界。一旦检测到至少一个这样的标记，就可以估计校准的相机的姿态。但正如我们将看到的，传统的ChArUco标记检测系统是令人惊讶的脆弱。在下面的页面中，我们将激励和解释我们的配方，以创建基于深度神经网络的最先进的Deep ChArUco标记检测器。图1. Deep ChArUco是一个端到端系统，用于从单个图像中估计 ChArUco 标记姿态。 Deep ChArUco 由用于点检测的ChArUcoNet（第3.1节）、用于子像素细化的Re- fineNet（第 3.2 节）和用于姿态估计的 Perspective- n-Point（Pestival）算法（第3.3节）组成。对于这个困难的图像，OpenCV没有检测到足够的点来确定标记姿势。我们专注于增强现实中最受欢迎的基准类之一，即ChArUco标记。在本文中，我们重点介绍了传统计算机视觉技术无法检测到此类基准点的场景，并介绍了Deep ChArUco，这是一种经过训练的深度卷积神经网络系统，可用于ChArUco标记检测和姿态估计（见图1）。这项工作的主要贡献是：1. 先进的实时标记检测器，可提高ChArUco模式检测在极端光照和运动条件下的鲁棒性和准确性2. 两种用于点ID分类和亚像素细化的3. 一种新的训练数据集收集方法，包括自动标记图像和合成数据生成概述：我们在第2节中讨论了传统和基于深度学习的相关工作。我们在第3节中介绍了ChArUcoNet，我们的双头自定义点检测网络，以及RefineNet，我们的角点细化网络。最后，我们在第4节中描述了训练和测试ChArUco数据集，在第5节中描述了评估结果，并在第6节中进行了讨论。84372. 相关工作2.1. 传统的ChArUco标记检测ChArUco棋盘是一个带有ArUco标记的棋盘，这些标记嵌入在白色方块中（见图2）。ArUco标记是早期标记的现代变体，如ARTag [5]和AprilTag [6]。传统的ChArUco检测器将首先检测单个ArUco标记。检测到的ArUco标记用于基于预定义的棋盘布局来内插和细化棋盘角的位置。因为ChArUco板通常将具有10个或更多个点，所以ChArUco检测器在用于姿态估计时允许遮挡或局部视图。在经典的OpenCV方法[7]中，给定ChArUco棋盘的检测相当于检测每个棋盘的内部核心。与唯一标识符相关联的ner。在我们的实验中，我们使用5×5ChArUco板，其中包含DICT_5x5_50ArUco字典的前12个元素，如图2所示。图2. ChArUco =棋盘+ ArUco。图为5x5 ChArUco板，其中包含12个独特的ArUco图案。对于这种精确的配置，每个4x4棋盘内角都被标记为唯一的ID，范围从0到15。我们的算法的目标是检测这些独特的16个角落和ID。2.2. 用于对象检测的自2015年以来，深度卷积神经网络已成为目标检测的标准工具（参见YOLO [8]，SSD [9]和Faster R-CNN[10]等系统）。虽然这些系统获得了令人印象深刻的多类别对象检测结果，但是所得到的边界框通常不适合于姿态推断，特别是增强现实所必需的那种高质量6DoF姿态估计最近，像Mask-RCNN [11]和PoseCNN[12]这样的对象检测框架正在将姿态估计功能直接构建到它们的检测器中。2.3. 用于关键点估计的基于关键点的神经网络通常是全卷积的，并返回一组类卷积点。检测到的物体。用于关键点估计的深度网络在人类姿势估计文献中很流行。因为对于刚性对象，只要我们可以重复检测2D图像中更小但足够数量的3D点，我们就可以执行Pendant来恢复相机姿态。尽管是间接的，但基于关键点的方法确实允许我们使用混合深度（用于点检测）和经典（用于姿态估计）系统来恢复姿态。大多数关键点估计深度网络的一个主要限制是，由于沙漏网络中昂贵的上采样操作，它们太慢[13]。另一类相关的技术是为人类关键点检测而设计的技术，例如面部，身体骨骼[14]和手部[15]。图3. 定义ChArUco点ID。这三个示例显示了可以用于定义单个ChArUco板的模式中的不同潜在结构a）每个可能的角落都有一个ID。b）选择ArUco图案作为ID的内部。c）16个id的内部棋盘，从左下角的id 0到右上角的id 15（我们的解决方案）。2.4. 用于特征点检测的与我们讨论相关的最后一类基于深度学习的技术DeTone等人的SuperPoint系统[16]等深度卷积神经网络用于联合特征点和描述符计算。SuperPoint是一个单一的实时统一CNN，它在早期的深度学习中扮演多个深度模块的角色，用于兴趣点系统，如学习不变特征变换（LIFT）[19]。由于SuperPoint网络是为实时应用而设计的，因此它们是我们自己的Deep ChArUco检测器的起点。3. Deep ChArUco：一种ChArUco检测和位姿估计系统在本节中，我们描述了用于ChArUco标记检测的全卷积神经网络。我们的网络是SuperPoint [16]的扩展，其中包括特定于ChArUco标记点识别的自定义头部。我们开发了一种多头SuperPoint变体，适用于ChArUco标记检测（见图4中的架构我们不像SuperPoint论文中那样使用描述符头，而是使用id头，它直接回归到角特定点ID。我们用同一个点8438图4. 双头ChArUcoNet和RefineNet。ChArUcoNet是一个类似于SuperPoint的[16]网络，用于检测特定的ChArUco板。代替描述符头，我们使用点ID分类器头。其中一个网络头在X中检测ChArUco板的2D位置，第二个头在C中对其进行分类。两个头都输出每个单元的分布，其中每个单元是8x8像素区域。我们使用16个独特的点ID为我们的5x5 ChArUco板。ChArUcoNet定位头作为SuperPoint这使我们能够在不使用显式解码器的情况下以全图像分辨率检测点位置。定义ID。为了使SuperPoint适应ChArUco标记检测，我们必须问自己：我们要检测哪些点？一般来说，有多种定义点ID的策略（参见图3）。为了简单起见，我们决定使用内部棋盘角的4x4网格进行点定位，总共给出16个不同的点ID来检测。ID分类头将输出17种可能性的分布：小区可以属于16个角落ID中的一个或不属于上述类别的附加“垃圾箱”。这允许与OpenCV方法进行直接比较，因为经典和深度技术都试图定位相同的16个ChArUco板特定点。3.1. ChArUcoNet网络架构ChArUcoNet架构与SuperPoint [16]架构相同，但有一个例外-SuperPoint网络中的描述符头被ChArUco ID分类头C取代，如图4所示。该网络使用VGG风格的编码器来降低图像的维度。编码器由3x3卷积层、通过池化的空间下采样有三个最大池化层，每个最大池化层将输入的空间维度减少到原来的2倍，从而导致总空间减少到原来的8倍。共享编码器输出-放置具有空间维度Hc×Wc的特征。对于尺寸为H×W的图像，我们定义Hc=H/8和Wc=W/8。关键点检测器头输出张量 X∈RHc<$Wc<$65 。令 Nc 为待检测的ChArUco点的数目（例如，对于4 × 4ChArUco网格Nc=16）。ChArUco ID分类头在Nc个类和垃圾箱类上输出分类张量C∈RHc<$W c<$（Nc+1），从而产生Nc+ 1个总类。ChArUcoNet网络是为速度而设计的-网络权重为4。8该网络能够使用NVIDIAGeForce GTX 1080 GPU以约100 fps的速度处理320×240大小的图像3.2. RefineNet网络架构为了提高姿态估计质量，我们还执行子像素定位-RefineNet，我们与OpenCVcornerSubPix以24×24图像块作为输入，并以8×8中心区域的分辨率输出单个子像素角点位置。RefineNet在一个8倍放大的中心区域上执行软最大分类-Re-fineNet在RefineNet权重仅占4。1兆字节，这是由于瓶颈层在最终 4096D 映射之前将 128D 激活转换为 8ChArUcoNet和RefineNet都使用相同基于VGG的主干作为SuperPoint [16]。对于单个成像的ChArUco模式，最多有16个角点需要检测，因此使用RefineNet的成本与24×24输入的网络上的16个额外的前向传递3.3. 基于Pestrian的位姿估计给定一组2D点位置和已知的物理标记大小，我们使用Perspective-n-Point（透视n点）算法[20]来计算相机的ChArUco姿态。PSTK需要K的知识，相机的本质，所以我们在收集数据之前校准相机。我们校准了摄像机，直到重投影误差降到0以下。15个像素。我们使用OpenCV4. ChArUco数据集为了训练和评估我们的深度ChArUco检测系统，我们创建了两个ChArUco数据集。第一数据集8439重点关注多样性，用于训练ChArUco检测器（见图5）。第二个数据集包含短视频序列，其设计用于评估作为照明函数的系统性能（参见图7）。4.1. ChArUcoNet的训练数据我们从一个摄像机时代收集了22个短视频序列，每个视频中都有随机但静态的ChArUco模式。一些视频包括一个ChArUco板贴在监视器上，背景不断变化，其他序列涉及照明变化（从良好的照明开始）。将视频帧提取到分辨率为320×240的正数据集中，得到一个到即7，955个灰度级帧。每个视频序列开始于至少有30帧的光线充足地面实况使用经典的OpenCV方法从前30帧的平均值自动标记每个视频的平均值，因为OpenCV检测器在没有运动和良好照明的情况下工作良好。阴性数据集总共包含91，406个图像，包括来自MS-COCO数据集1的82，783个通用图像和在办公室收集的8，623个视频帧我们的办公室数据包含香草棋盘的图像，将它们添加到底片中对于提高整体模型的鲁棒性非常重要。我们从描述“其他”ChArUco标记的视频中收集帧（即，不同于图2所示的靶标记）。对于这些视频，我们将分类器ID视为负数，但将角落位置视为“忽略”。4.2. ChArUcoNet的数据扩充随着数据增强，在训练阶段，每个帧将经历随机单应变换和一定概率下的一组合成失真的随机组合（见表1），这显著地增加了输入数据集的多样性。所应用的失真效果的顺序和程度也是针对每个帧随机例如，图5示出了来自训练序列的帧（顶行）和用一组失真增强的帧（底行）。效果概率加性高斯噪声0.5运动模糊0.5高斯模糊0.25斑点噪声0.5亮度重调0.5阴影或聚光灯效果0.5单应变换1.0（阳性组）/0.0（阴性组）表1. 用于数据增强的合成效果。在训练过程中，我们转换图像以捕捉更多的照明和姿势变化。4.3. RefineNet的合成子像素角点我们使用合成生成的角点图像的大型数据库来训练RefineNet。每个合成训练图像为24×24像素，包含一个地面实况在中心8×8像素区域内的角。对于实施例这种训练图像补丁，见图6。4.4. 评价数据为了评估，我们拍摄了26个1000帧的视频在30 Hz时，从LogitechR 网络摄像头（参见图-图5. ChArUco训练套装。ChArUco数据集训练示例，数据增强前后。图6. RefineNet训练图像。40个用于训练RefineNet的合成生成图像补丁的示例。1MS-COCO 2014列车：http://images.cocodataset.org/zips/train2014.zip图7）。本系列中的每个视频都侧重于以下效果之一• 照明亮度（20个视频，10种不同的照明配置）• 阴影/聚光灯（3视频）• 运动模糊（3视频）5. 评价和结果我们以逐帧的方式将我们的Deep ChArUco检测器与传统的基于OpenCV的ChArUco标记检测器进行我们首先评估两个系统图7. ChArUco评价集。来自ChArUco评估集的帧示例。从左到右，每一帧聚焦于照明（10勒克斯），阴影，运动模糊。没有数据八月+数据aug8440=i=ii图8. 合成运动模糊测试示例。顶行：应用了从核大小0到10的变化的运动模糊效果的输入图像;中间一行：OpenCV检测器检测到的角点和id，检测精度[1. 1.一、1.一、1.一、1.一、0.125 0.0的情况。0的情况。0的情况。0的情况。0的情况。]; bottomrow：从Deep ChArUco检测到的角点和id，具有检测精度[1.1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]以在增加的模糊和照明变化（合成效果）下检测固定图像集的16个ChArUco标记。然后，在真实序列上，我们基于Perspective-n-Point算法估计ChArUco板的姿态，并确定姿态的重投影误差是否低于阈值（通常为3个下面，我们概述了我们评估中使用的方法。• 角点检测精度（ChArU-coNet的精度）• ChArUco姿态估计精度（ChArUcoNet和RefineNet的组合精度）当位置在地面实况的3像素半径内时，正确地检测到拐角，并且基于ChArUcoNet ID分类器正确地识别点ID角点检测精度是准确检测的角点的数量与标记角点的总数16之间的比率。平均精度被计算为具有不同静态姿势的20个为了定量地测量每个图像帧中的姿态估计精度，我们使用如下定义的平均再现误差：Pn|PC − c|re1，（1）n其中 P 是包含内在参数的相机投影矩阵。表示从ChArUco姿态计算的检测到的角的3D位置，表示图像中的对应角的 2D 像素位置。 n （ ≤16 ）是检测到的ChArUco角的总数5.1. 使用综合效应进行在本节中，我们比较了Deep ChArUco 检测器和OpenCV检测器在合成效应下的总体精度，在这种情况下，我们线性地改变效应的幅度。前两个实验旨在评估ChArUcoNet输出的准确性，而不依赖于RefineNet。在我们的20个合成测试场景中，我们从理想环境中拍摄的图像开始-良好的照明和随机的静态姿势（即，最小运动模糊），并逐渐添加合成运动模糊和变暗。图9. 合成运动模糊测试。我们将Deep ChArUco与OpenCV方法在测试集中的20个随机图像上进行比较，同时增加运动模糊的数量。5.1.1合成运动模糊测试在运动模糊测试中，沿水平方向对原始图像应用具有不同核大小的运动模糊滤波器，以模拟不同程度的运动模糊。在图9中，我们绘制了平均检测精度与运动模糊程度的关系（即，内核大小）。它表明，与OpenCV方法相比，Deep ChArUco对运动模糊效果的图8示出了增加运动模糊和两个检测器的输出的示例。视觉示例和结果图都表明，OpenCV方法在内核大小为6或更大时开始完全失败（0%检测精度），而Deep ChArUco即使在极端模糊的情况下，性能也只下降了一点点（94%检测精度）。5.1.2合成照明测试在照明测试中，我们在综合创建的不同照明条件下比较了两种探测器我们将原始图像乘以重新缩放因子0。6K模拟增加的黑暗。在图11中，我们绘制了平均检测精度与黑暗度k的关系。图10示出了增加的暗度和两个去暗化的输出的示例8441K图10. 合成照明测试示例。顶行：输入图像应用亮度缩放因子0。6，其中k为0至10;中间行：OpenCV检测器检测到的角点和id，检测精度[1.1.一、1.一、1.一、0的情况。0的情况。0的情况。0的情况。0的情况。0的情况。0.]; 底行：角和以检测精度从Deep ChArUco检测到的ids [1.1. 1. 1. 1. 1. 1. 1. 1. 1. 0. ]导师我们注意到，Deep ChArUco能够在许多情况下检测标记，其中图像是“感知上黑色的Deep ChArUco即使在亮度为以0的因子重新缩放。69度。01，而OpenCV检测器在重新缩放因子为0时失败。64度。十三岁图11. 合成照明测试。我们将Deep ChArUco与OpenCV方法在测试集中的20个随机图像上进行比较，同时增加黑暗量。5.2. 实序列的求值首先，我们定性地显示了两种检测器在不同场景下捕获的真实视频剪辑中的准确性，如第4.4节“评估数据”所述图13显示了两种探测器在极端光照和运动条件下的结果请注意，在这些极端情况下，Deep ChArUco检测器的性能明显优于OpenCV检测总的来说，我们的方法检测到更多正确的关键点，其中最少4个对应关系对于姿态估计是必要的。在我们的大型实验中，我们评估了26个视频数据集中的所有26000帧，而没有添加合成效果。我们将正确姿势的比例与图12中的姿态正确性阈值（如通过重投影误差测量的）。总的来说，我们看到Deep ChArUco系统表现出更高的检测率（97。4%vs.68岁8%的3像素重投影误差阈值）和与传统OpenCV检测器相比更低的姿态误差。为每个在该实验中，表3 列出了ChArUco的检测率（其中ChArUco=<3. 0）和平均值的平均值。对于1和0的序列。3lux，OpenCV无法回个姿势--它们太黑了。对于带有阴影的序列，DeepChArUco可以100%检测到好的姿势，而OpenCV只有36%对于具有运动模糊的视频，Deep ChArUco的工作时间为78%，而OpenCV为27%对于一个广泛的在从3勒克斯到700勒克斯的范围内，Deep ChArUco和OpenCV都在100%的时间内成功地检测姿势，但是DeepChArUco在大多数序列上具有稍微更低的重投影误差25.3. 深度ChArUco计时实验在这一点上，很明显，Deep ChArUco在极端光照条件下工作得很好，但对于实时应用来说，它的速度是否足够快？根据不同需求的应用场景，我们提供三种网络配置方案：• ChArUcoNet + RefineNet：这是推荐的配置，可在运动模糊、弱光和强成像噪声等困难条件下获得最佳精度，但需要最长的后处理时间。• ChArUcoNet + cornerSubPix：为了在光线充足的环境中实现相当的准确性，同时降低成像噪声，建议使用此配置，并提供适度的后处理时间。• ChArUcoNet + NoRefine：当仅需要ChArUco模式的粗略姿态时，此配置优先，特别是在cornerSubPix将失败的非常嘈杂的因此，处理时间最短，因为图像只通过一个CNN。我们比较了320 ×240使用上述三种配置中的每一种来调整大小的图像表2中报告的帧率是第4.4节中描述的评估视频实验使用 NVIDIA®Cortex®RGE F orceGTX1080GPU. 由于ChArUcoNet是完全卷积的，因此可以2对于我们评估数据集中26个视频的每个视频分析，请参见附录。8442图12. Deep ChArUco与OpenCV在整个评估数据库中的对比。姿势准确度与在我们评估的计算重投影误差阈值设置。Deep ChArUco具有更高的姿态估计精度（97. 4% vs.68. OpenCV为8%）。表2. 深度ChArUco定时实验。我们展示了ChArUcoNet在三种配置下运行320 × 240图像的时间结果：使用RefineNet，使用OpenCV子像素细化-一步到位，不加修饰。此外，我们还列出了OpenCV检测器的时序性能和改进。根据计算或内存要求，将网络应用于不同的图像分辨率为了在更大分辨率的图像中实现最佳性能，我们可以通过ChArUcoNet传递低分辨率图像以粗略地定位图案，然后通过RefineNet在原始高分辨率图像中执行子像素定位6. 结论我们的论文证明，深度卷积神经网络可以显着提高低光、高运动场景中ChArUco标记的检测率，而传统的ChArUco标记检测工具在OpenCV中经常失败。我们已经证明，我们的Deep ChArUco系统（ChArUcoNet和Re- fineNet的组合）可以匹配或超过OpenCV检测器的姿态估计精度。我们的合成和真实数据的实验表明，性能差距有利于我们的方法，并证明了我们的神经网络架构设计和数据集创建方法的有效性。表3. Deep ChArUco vs OpenCV个人视频摘要。我们报告的姿态检测精度（重投影误差小于3个像素的帧的百分比），以及平均重投影误差，平均，为我们的26个测试序列。请注意，OpenCV无法返回图像的标记姿势在1勒克斯或更暗（由NAN表示）下。深度重投影错误列还列出了括号中没有RefineNet的错误。RefineNet在所有情况下都减少了重投影误差，运动模糊场景，因为在这些情况下，奥吉我们的方法的关键要素如下：ChArUcoNet，用于特定模式关键点检测的CNN，RefineNet，亚像素定位网络，自定义ChArUco特定模式数据集，包括极端数据增强和适当选择视觉上相似的模式作为底片。最终的Deep ChArUco系统可用于需要基于标记的姿态估计的实时应用此外，我们在这项工作中使用了一个特定的ChArUco标记作为一个例子。通过用另一种模式替换ChArUco标记并收集新的数据集（如果自动标记太难实现，则使用手动标记），可以重复相同的训练过程以产生许多特定于模式的网络。未来的工作将集中在多模式检测，将ChArU-coNet和RefineNet集成到一个模型中，以及非平面标记的姿态估计。视频深度访问cv acc深冰碛卡维尔号0.3lux10000.427（0.858）楠0.3lux10000.388（0.843）楠1勒克斯10000.191（0.893）楠1勒克斯10000.195（0.913）楠3lux1001000.098（0.674）0.1683lux1001000.097（0.684）0.1645勒克斯1001000.087（0.723）0.1375勒克斯1001000.091（0.722）0.13210勒克斯1001000.098（0.721）0.10610勒克斯1001000.097（0.738）0.10530勒克斯1001000.100（0.860）0.09230勒克斯1001000.100（0.817）0.08850勒克斯1001000.103（0.736）0.10150勒克斯1001000.102（0.757）0.099配置约fps（Hz）ChArUcoNet + RefineNet24.9ChArUcoNet + cornerSubPix98.6ChArUcoNet + NoRefine100.7OpenCV检测器+cornerSubPix99.4OpenCV检测器+NoRefine101.58443图13. Deep ChArUco vs OpenCV定性示例。探测器在极端光照下的性能比较：阴影（顶部）和运动（底部）。与OpenCV不同，Deep ChArUco看起来不受投射阴影的影响。8444引用[1] R.穆诺兹-萨利纳斯，“阿鲁科：一个基于OpenCV的增强现实应用程序的最小库，”Univer-sidad deC o 'r doba，2012年。[2] S. 加里多-茹拉多河 Mun novoz-Salinas ，F. J.Madrid-Cu ev as和M. J. Ma r'ın-Jim e' nez，“自动基因定位和检测遮挡下的高度可靠的基准标记”，模式识别，第47卷，第2007 - 2009年。第6页。2280[3] J. DeGol，T.Bretl和D.Hoiem，273-288[4] H. Lim和Y. S. Lee，IEEE，2009，pp. 177-182.[5] M. Fiala，“Artag，一种使用数字技术的基准标记系统”，《计算机视觉与模式识别》，2005年。CVPR2005。 IEEE计算机协会会议，第2卷。IEEE，2005，pp. 590-596.[6] E. Olson，IEEE，2011，pp. 3400-3407[7] G. Bradski和A.Kaehler，“Opencv，”Dr. 多布斯软件工具杂志，2000年第3卷。[8] J.雷德蒙，S.迪夫拉河，巴西-地Girshick和A.法哈迪，“你只看一次：统一的，实时对象检测，”在IEEE计算机视觉和模式识别会议论文集，2016年，第100页。779- 788[9] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。里德角，澳-地Y. Fu和A. C. Berg，施普林格，2016年，第21-37[10] S. Ren ， K. 赫利河 Girshick 和 J. Sun ， “Faster r-cnn：Towards real-time object detection with regionpro-bandwidth networks ， ”in Advances in neuralinformation processing systems，2015，pp. 91比99[11] K. 他，G. Gkioxari，P. Doll a'r 和R. Girshi ck，IEEE，2017年，第页2980-2988.[12] Y. Xiang，T. Schmidt，V. Narayanan，and D.福克斯，“波塞CNN：A convolutional neural networkfor6dobjectposeestimationinclutteredscenes，”arXiv preprint arXiv：1711.00199，2017.[13] A. Newell，K. Yang和J. Deng，“Stacked hourglassnetworks for human pose estimation”，欧洲计算机视觉会议。施普林格，2016年，第483-499.[14] Z. Cao，T. Simon，S.- E. Wei和Y. Sheikh，[15] T. Simon ， H. 朱岛，智 - 地 A. Matthews 和 Y.Sheikh，inCVPR，vol. 1，2017，p. 二、[16] D. DeTone ， T. Malisiewicz 和 A. Rabinovich ，“Superpoint：自监督兴趣点检测和描述，“CVPR深度学习Visual SLAM研讨会，2018年。[联机]。可用网址：http://arxiv.org/abs/1712.07629[17] D. G. Lowe，“从尺度不变的关键点中获得独特的图像特征”，国际计算机视觉杂志，第60卷，第100期。第2页。91[18] E. Rublee，V. Rabaud，K. Konolige和G.布拉德斯基，“Orb：一个有效的替代筛选或冲浪”，在计算机视觉（ICCV），2011年IEEE国际会议上。IEEE，2011，pp. 2564-2571[19] K. M. Yi，E. Trulls、V. Lepetit和P.福阿，“电梯：Learned Invariant Feature Transform，”在欧洲计算机视觉会议上发表。施普林格，2016年，第467-483.[20] R. Hartley 和 A. Zisserman ， Multiple view geome-try in computer vision.剑桥大学出版社，2003年。

下载后可阅读完整内容，剩余1页未读，立即下载