用于6D姿态估计的Pix2Pose方法及其在RGB图像中的应用

59 浏览量更新于2023-10-12 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7668Pix2Pose：用于6D姿态估计的对象的逐像素坐标回归Kiru Park，Timothy Patten和Markus Pasterze奥地利维也纳工业大学自动化与控制研究所机器人实验室愿景{park，patten，vincze}@ acin.tuwien.ac.at摘要由于遮挡和对称性等问题，仅使用RGB图像估计对象的6D姿态仍然具有挑战性。如果没有专业知识或专门的扫描设备，也很难构建具有精确纹理的3D模型。为了解决这些问题，我们提出了一种新的姿态估计方法，Pix2Pose，预测每个对象像素的3D坐标没有纹理模型。设计了一种自动编码器架构，用于估计每个像素的3D坐标和预期误差。这些逐像素的预测然后在多个阶段中使用以形成2D-3D对应关系，以利用具有RANSAC迭代的PSTAR算法直接计算姿态我们的方法通过利用生成对抗训练中的最新成果来精确地重新覆盖被遮挡的部分，从而对遮挡具有鲁棒性此外，提出了一种新的损失函数，Transformer损耗，通过引导预测到最接近的对称姿态来处理对称对象。在三个不同的基准数据集上的评估包含对称和遮挡的对象显示我们的方法只使用RGB图像执行最先进的技术。1. 介绍在机器人或增强现实应用中，物体的位姿估计是理解给定场景并正确操作物体通过提供精确的3D像素坐标，深度图像的包含已经引起了显着的改进[10，30]。然而，深度图像并不总是容易获得的，例如，典型地用于增强现实应用的移动电话和平板电脑不提供深度数据。因此，大量的研究致力于仅使用RGB图像来估计已知对象的姿态大量的工作依赖于物体的纹理3D模型，该模型由3D扫描设备制成，例如，BIG-BIRD对象扫描装备[35]，并由数据集提供以渲染合成图像用于训练[14，28]或细化[18，21]。因此，3D模型中的纹理质量应足以呈现视觉上正确的图像。不幸的是，这并不适用于不图1.将3D模型转换为彩色坐标模型的示例每个顶点的归一化坐标直接映射到颜色空间中的红色，绿色和蓝色值Pix 2 Pose预测这些彩色图像，以直接建立每个像素的2D-3D对应关系，而无需任何特征匹配操作。具有纹理的3D模型，例如通常使用无纹理CAD模型的行业。由于在重建过程中重建的3D模型的纹理质量随方法、相机和相机轨迹而变化，因此难以保证足够的训练质量。因此，在3D模型上预测没有纹理的姿态以实现更鲁棒的估计而不管纹理质量如何是有益的尽管最近的研究已经显示出使用卷积神经网络（CNN）[2，3，24，29]在没有纹理3D模型的情况下估计姿态的巨大潜力训练CNN经常被具有相似外观的对称姿势分散注意力，从而在朴素的损失函数中产生非常大的误差。在以前的工作中，处理对称对象的策略是在渲染用于训练的图像时限制姿势的范围[14，22]，或者简单地将从有限范围外的姿势转换为具有姿势注释的真实图像的范围内的对称姿势[24]。这种方法对于在单个轴上具有无限和连续对称姿态的对象（例如圆柱体）来说是足够的，只需忽略绕轴的旋转即可然而，如[24]中所指出的，当对象具有有限数量的对称姿态时，难以确定视图限制边界周围的姿态。例如，如果一个盒子有一个对称角π，7669相对于轴和 0 到 π 之间的视野限制， π+α （ α≠0 ，α >0）处的姿态必须转换为α处的对称姿态，即使详细外观是更接近于π的姿态。因此，必须研究损失函数以将姿态估计引导到最接近的对称姿态，而不是明确定义的视图范围。本文提出了一种新的方法，Pix2Pose，可以补充任何2D检测管道的额外姿态估计。Pix2Pose使用RGB图像预测对象的像素级3D坐标，而无需纹理3D模型进行训练。为了对遮挡具有鲁棒性，网络直接估计一个专门的损失函数，Transformer损耗，提出了鲁棒训练网络与对称对象。作为预测的结果，每个像素形成2D-3D对应关系，该对应关系用于通过透视 n 点算法（PSPOT）[17]计算姿势总之，该文件的贡献是：（1）用于6D姿态估计的新颖框架Pix2Pose，其在训练期间使用没有纹理的3D模型从RGB图像鲁棒地回归对象的逐像素3D坐标。（2）一种新的损失函数，Transformer损失，用于处理具有有限数目幅视的对称对象。（3）在三个不同数据集LineMOD [8]，LineMOD Occlusion [1]和T-Less [9]上的实验结果表明，即使对象被遮挡或对称，Pix 2Pose也优于最先进的方法。本文的其余部分组织如下。相关工作的简要总结见第2节。二、Pix2Pose和姿态预测过程的细节在第2节中解释。3、第二。4.第一章实验结果在Sec. 5将我们的方法与最先进的方法进行比较。该文件的结论在Sec.六、2. 相关工作本节给出了一个简短的总结，以前的工作有关的姿态估计使用RGB图像。讨论了使用CNN进行姿态估计的三种不同方法，并回顾了生成模型的最新进展基于CNN的姿态估计使用CNN估计对象姿态的第一种也是最简单的方法是直接预测姿态的表示，例如3D边界框的投影点的位置[24，29]，分类视点[14]，单位四元数和平移[32]，或具有z轴平移的李代数表示，so（3）[3]的文件。除了预测3D边界框的投影点的方法（其需要针对Pestro算法的进一步计算）之外，直接回归在计算上是高效的，因为其不需要针对姿态的额外计算然而，这些方法的缺点是缺乏对应性，该对应性可用于生成用于多个姿态假设的多个姿态假设遮挡对象的鲁棒估计。此外，通常通过限制范围来处理对称对象有时需要额外的处理，例如，训练CNN对视图范围进行分类[24]。Xiang等[32]提出了一种损失函数，该损失函数计算到估计姿态和注释姿态中的变换模型的最近点的平均距离。然而，搜索最近的3D点是耗时的，并且使得训练过程效率低下。第二种方法是匹配特征以找到最近的姿态模板，并使用模板的姿态信息作为初始猜测[8]。最近，Sundermeyer et al. [28]提出了一种自动编码器网络，仅使用RGB图像来训练姿势的隐式表示，而无需监督。由于隐式表示可以接近于任何对称视图，因此这项工作不需要手动处理对称对象。然而，使用仅给出旋转的良好估计的渲染模板来指定3D平移2D边界框的大小用于计算3D平移的z分量，这对从2D检测方法给出的2D边界框最后一种方法是预测对象空间中像素或局部形状的3D位置[2，15，22]。Brachmann等人[2]回归3D坐标并使用自动上下文随机森林预测每个像素的类别。Oberwerger等人[22]预测多个热图，以使用局部补丁定位对象的3D点的2D投影。这些方法对遮挡是鲁棒的，因为它们仅关注局部信息。然而，需要额外的计算来导出姿势假设中的最佳结果这使得这些方法很慢。本文提出的方法属于最后一类，预测目标帧中像素的3D位置，如[1，2]。代替使用来自滑动窗口的局部补丁检测对象，采用独立的2D检测网络来提供目标对象的感兴趣区域，如 [28]中所执行的。使用自动编码器的生成模型已被用于去噪[31]或恢复图像的丢失部分 [33] 。最近，使用生成对抗网络（GAN）[5]提高了生成的图像的质量，这些图像不那么模糊，更逼真，用于图像到图像的转换[13]，图像修复和去噪[11，23]任务。Zakharov等人[34]提出了一种基于GAN的框架，用于将真实深度图像转换为没有噪声和背景的合成深度图像，以进行分类和姿态估计。受以前工作的启发，我们使用GAN训练自动编码器架构，以将彩色图像准确地转换为坐标值，如图像到图像转换任务中那样，同时恢复图像修复任务中被遮挡部分的值。76703DGT3DGTΣGT图2.概述Pix2Pose的架构和训练管道。3. Pix2Pose本节提供了Pix2Pose的网络架构和训练损失函数的详细描述。如图Pix2Pose使用包含对象的裁剪区域预测各个像素的3D坐标。通过恢复被遮挡部分的3D坐标并使用对象的所有像素进行姿态预测来建立鲁棒估计。单个网络被训练并用于每个对象类。3D模型的纹理对于训练和推理是3.1. 网络架构Pix2Pose网络的架构如图2所示。网络的输入是使用检测到的对象类的边界框的裁剪图像。网络的输出是对象坐标中的每个像素I3D的归一化3D坐标和每个预测的估计误差I3D，Ie=G（Is），其中G表示Pix2Pose网络。目标输出包括被遮挡部分的坐标预测，这使得预测对部分遮挡更鲁棒。由于坐标由三个值组成，类似于图像中的RGB值，因此输出I3D可以在图2中标记为s1或s2。两个完全连接的层应用于编码器和解码器之间具有256个维度的瓶颈。批量归一化[12]和LeakyReLU激活应用于中间层的每个输出，除了最后一层。在最后一层中，具有三个通道和双曲正切激活的输出产生3D坐标图像I3D，并且具有一个通道和S形激活的另一个输出估计预期误差Ie。3.2. 网络训练训练的主要目的是在估计每个像素的预期误差的同时预测使目标坐标图像和预测图像之间的误差最小化的输出3D坐标回归的Transformer损耗为了重建所需的目标图像，使用每个像素的平均L1距离。由于属于对象的像素比背景更重要，因此对象掩模下的误差乘以因子β（≥1）以加权对象掩模中的误差。基本重建损失Lr被定义为，被视为彩色图像。因此，地面真相通过以地面真实姿态呈现彩色坐标模型，容易导出输出彩色图像中的3D坐标值示例如图所示。1.一、的Lr= 1Σβni∈M||我我-我...||1个以上Σi∈/M||我我-我...||1Σ、（1）误差预测Ie被认为是每个误差预测I e的置信度得分其中n是像素数，Ii是第i个像素的像素，其直接用于在姿态计算之前确定离群点和内点像素。裁剪后的图像补丁大小调整为128×128px，具有RGB值的三个通道过滤器的尺寸和前四个卷积层（编码器）中的通道与[28]中相同。为了保持低级别特征图的细节，通过将前三层的输出的半通道复制到解码器中的相应对称层来添加跳过连接[27]，这导致对几何边界周围的像素进行更精确的估计。每个卷积的滤波器大小，反褶积层固定为5×5，步长为1或2，M表示目标图像的对象掩模，其包括当对象完全可见时属于对象的像素。因此，该掩模还包含被遮挡部分，以预测不可见部分的值，用于遮挡对象的鲁棒估计。上面的损失不能处理对称对象，因为它惩罚了在3D空间中具有较大距离的像素，而没有任何对称性的知识具有预测逐像素坐标的优点，通过将3D变换矩阵直接乘以目标图像，每个像素的3D因此，可以针对如下姿势计算损失，7671图3.姿态估计过程的示例。输入图像和2D检测结果。在第一阶段，预测结果用于指定重要像素和调整边界框，同时去除背景和不确定像素。在第二阶段中，使用具有有效坐标值和小误差预测的像素来使用具有RANSAC的Pestrian算法估计姿态。结果中的绿线和蓝线表示处于地面真实姿势和估计姿势的对象的3D边界框。在由公式表示的对称姿态候选中具有最小误差L3D= minLr（I3D，RpIgt），（2）p∈sym其中Rp∈R3x3是从一个姿势到对称姿势池sym中的对称姿势的变换，sym包括给定姿势的单位矩阵。游泳池的象征是-GAN [5]中的LGAN用于训练网络。如图2，网络试图区分3D坐标图像是否由3D模型或估计。损失的定义是，LGAN= logD（Igt）+log（1-D（G（Isrc），（4）其中D表示网络。最后，用GAN的训练目标被制定为，应该在训练对象之前定义。这种新的损失，Transformer损失，适用于任何对称的对象，具有有限数量的对称姿态。GAN=argmin maxLGANG D（G，D）+λ1L3D（G）+λ2Le（G），（五）由于需要少量的矩阵乘法，因此这种损失只增加了很小的计算工作量。Transformer损耗在Eq. 2，而不是基本的重建损失方程。1.一、Transformer损耗的效益分析见第二节。5.7误差预测Ie估计预测图像I3D和目标图像Igt之间的差异。这与重建的lossLr，其中β=1，使得对象掩模下的像素不被惩罚。因此，误差预测损失Le被写为：1ΣΣ Σ其中λ1和λ2表示用于平衡不同任务的权重。4. 姿态预测本节描述了使用Pix2Pose网络的输出计算姿势的过程。该过程的概述如图所示。3.第三章。在估计之前，每个边界框的中心、宽度和高度用于裁剪感兴趣区域并将其调整为输入大小，128×128px。区域的宽度和高度设置为相同的大小，以保持纵横比，更大的价值。然后，将它们乘以系数1.5，使得裁剪区域潜在地包括被遮挡的Le=||2，β = 1。||2,β=1.（三）零件. 姿态预测分两个阶段执行，ne r2我误差被限制为S形功能使用GAN进行培训，如第 2，GAN的网络训练使用另一个域的图像在目标域中生成更精确和真实的图像[13]。Pix2Pose的任务与此任务类似，因为它将彩色图像转换为对象的3D坐标图像。因此，损失函数在两个级中使用相同的网络。第一阶段将输入边界框与对象的中心对齐，由于不同的2D检测方法，对象的中心可能会移位。它还删除了网络不喜欢的不必要的像素（背景和不确定）。第二阶段使用来自第一阶段的细化输入来预测最终估计，并且计算最终姿态。阶段1：掩模预测和Bbox调整在该阶段，预测的坐标图像I3D用于指定属于包括被遮挡的物体的像素。7672通过获取具有非零值的像素来对部件进行处理。如果像素的误差大于离群值阈值θo，则使用误差预测来去除不确定像素。通过取具有非零值的像素和具有比θo低的误差的像素的并集来计算有效对象掩模。边界框的新中心由有效掩码的质心因此，第一阶段的输出第一级的输出示例如图所示3 .第三章。当误差预测低于离群值阈值θo时，细化的输入可能包含被遮挡的部分，这意味着尽管有遮挡，这些像素的坐标也很容易预测。第二阶段：具有误差的逐像素3D坐标回归利用网络进行第二次估计，以使用如图1所示的细化输入来预测坐标图像和预期误差值。3.第三章。3D坐标样本中的黑色像素表示当误差预测大于内点阈值θi时被移除的点，即使点具有非零坐标值。换句话说，具有误差预测小于θi的非零坐标值的像素用于构建2D- 3D对应关系。由于每个像素已经具有对象坐标中的3D点的值，因此2D图像坐标和预测的3D坐标直接形成对应。然后，应用具有随机抽样一致性（RANSAC）[4]迭代的Pestrian算法[17]，通过最大化具有比阈值θre更低的重新投影误差的内点的数量来计算最终姿态。值得一提的是，在姿态估计期间不涉及渲染，因为Pix2Pose不假设纹理3D模型。这也使得估计过程快速。5. 评价在本节中，在三个不同的数据集上进行实验，以比较Pix2Pose的性能最先进的方法。使用LineMOD [8]的评估显示了在单个对象场景中没有遮挡的对象的性能。对于具有遮挡的多对象场景，使用LineMOD遮挡[1]和T-Less [9对T-Less的评估显示了Pix 2 Pose最显著的优势，因为T-Less提供了无纹理的CAD模型，并且大多数对象都是对称的，这在工业领域更具挑战性和普遍性5.1. 训练数据少量的真实图像用于各种增强的训练。对象的图像像素是从真实图像中提取的，并粘贴到从Coco数据集中随机选取的背景图像[20]。Af-图4.用于训练的小批处理示例。每一次训练迭代都会改变一个小批量左：第一阶段的图像，右：第二阶段的图像。在对图像应用颜色增强之后，对象和背景之间的边界线被模糊以形成平滑的边界。对象区域的一部分被背景图像替换以模拟遮挡。最后，将随机旋转应用于增强的彩色图像和目标坐标图像。除了对于具有遮挡、LineMOD遮挡和T-Less的数据集需要更大的遮挡区域大小之外，所有评价均应用相同的增强。样本增强图像如图所示。4.第一章正如在第二节中所解释的4、网络识别两种类型的输入，第一阶段有背景因此，每次迭代都会改变一个小批量，如图11所示。4.第一章目标坐标图像在训练之前通过使用如图1所示的彩色坐标模型将对象放置在地面真实1.一、5.2. 实现细节对于训练，每次迭代的批量大小设置为50，使用Adam优化器[16]，初始学习率为0.0001，迭代次数为25K。对于每12K次迭代，学习率乘以0.1的因子。方程中损失函数的权重 1和等式 5是：β=3，λ1=100和λ2=50。为了进行评估，将测试序列中所有对象候选者的2D检测网络和Pix2Pose网络加载到GPU存储器中，这需要大约2.2GB用于具有八个对象的LineMOD遮挡实验推理的标准参数为：θi =0.1，θo =[0.1，0.2，0.3]，θre =3。由于误差预测的值被在线增强中的遮挡程度以及每个对象的形状和大小所偏置，因此在第一阶段中的离群值阈值θo在三个值中被确定以包括更多数量的可见像素，同时使用具有人工遮挡的训练图像的样本来排除噪声像素。有关参数的更多详细信息，请训练和评估使用Nvidia GTX 1080 GPU和i7- 6700 KCPU执行。2D检测网络采用改进的Faster R-CNN [6，26]与Resnet-101 [7]和Retinanet [19]与Resnet- 50来提供检测到的对象的类别，7673猿布维塞凸轮可以猫司钻鸭e.boxwww.example.com胶水*HoLEP铁灯电话avgPix2Pose58.191.060.984.465.076.343.896.879.474.883.482.045.072.4泰金[29]21.681.836.668.841.863.527.269.680.042.675.071.147.756.0Brachmann [2]33.264.838.462.942.761.930.249.931.252.880.067.038.150.2BB8 [24]27.962.040.148.145.258.632.840.027.042.467.039.935.243.6[3]第三次世界大战38.871.252.586.166.282.332.579.463.756.465.189.465.065.2BB8参考文献 [24]40.491.855.764.162.674.444.357.841.267.284.776.554.062.7[28]第二十八话4.020.930.535.917.924.04.981.045.517.632.060.533.831.4SSD-6Dsyn/ref [14]Radsyn/ref[25]65-80-78-86-70-73-66-100-100-49-78-73-79-76.778.7表1. LineMOD：正确估计的姿势的图像（AD {D |I）-10%）。（30%）意味着训练图像是从比我们大两倍的30%的测试序列中获得的。（ref）表示在使用纹理化3D模型进行渲染的迭代细化之后导出的结果。（syn）指示该方法使用合成渲染的图像用于还需要纹理化3D模型的训练。每个评估的所有目标对象的2D边界框使用Coco数据集[20]使用预先训练的权重初始化网络使用相同的真实训练图像集来生成训练图像。将真实图像中对象的裁剪块粘贴到随机背景图像上，以生成每个图像中包含多个类的训练图像。5.3. 度量LineMOD的标准度量，A D{D|主要用于评价[8]。它测量地面真实姿态和估计姿态之间的顶点交配姿势。对于对称对象，则使用到最近顶点的平均距离。当误差小于对象的最大3D直径的10%时，姿势被认为是正确的对于T-Less，可见表面离散度（VSD）被用作度量，因为该度量用于对[10]中的各种6D姿态估计方法进行基准测试。该度量仅测量可见部分的距离误差，这使得该度量对于由对称性和遮挡引起的歧义不变性。与前人工作一样，当τ=20mm，δ=15mm时，误差小于0.3时，位姿被认为是正确的。5.4. LineMOD为了训练，测试序列被分成训练集和测试集。每个序列的划分集与[2，29]的工作相同，该工作使用15%的测试场景，每个对象大约少于200个图像，用于训练。使用Faster R-CNN对每个场景中得分最高的对象的检测结果用于姿态估计，因为检测网络为所有13个对象产生多个结果。对于在表1中用（*）标记的对称对象，对称姿态池sym被定义为sym=[I，Rπ]，其中Rπ表示变换矩阵方法Pix2Pose上韦格[22日]PoseCNN†[32个]Tekin[29日]猿22.017.69.62.48可以44.753.945.217.48猫22.73.310.930.67司钻44.762.441.47.66鸭15.019.219.61.14蛋盒 *25.225.922.0-胶水 *32.439.638.510.08HoLEP49.521.322.15.45Avg32.030.424.96.42表2. LineMOD闭塞：对象召回（AD {D |I）-10%）。（†）表示该方法使用合成渲染图像和真实图像进行训练，其具有更好的视点覆盖。优于使用相同数量的真实训练图像而没有纹理3D模型的最新方法。尽管表1底部的方法使用了更大部分的训练图像，使用纹理化的3D模型进行训练或姿势细化，但我们的方法显示出与这些方法相比具有竞争力的结果对称对象上的结果显示出不执行姿态细化的方法中的最佳性能。这验证了Transformer损耗的益处，其提高了对称对象的初始姿态预测的鲁棒性。5.5. LineMOD遮挡LineMOD遮挡是通过在LineMOD的测试序列中注释八个对象来创建的。因此，LineMOD中八个对象的测试序列用于训练，而不与测试图像重叠。更快的R-CNN被用作2D检测管道。如表2所示，Pix2Pose显著优于[29]仅使用真实图像进行训练的方法毛皮-z z7674关于z轴的π旋转表1的上半部分显示Pix2Pose显著因此，Pix2Pose在三个方面的表现优于最先进的技术八个物体。平均而言，它的表现最好，7675Transformer损耗L1-查看限值55.247.2L133.4输入仅RGBRGB-D方法Pix2Pose隐式[28日]Kehl[第十五条]Brachmann[二]《中国日报》Avg29.518.424.617.8表3. T-Less：使用PrimeSense在所有测试场景中的物体回忆（e VSD <0.3，τ = 20 mm）。[15]和[2]的结果引自[10]。实物方面的结果包括在补充材料中。尽管[22]和[32]的方法使用了更多的图像，这些图像是通过使用物体的纹理化3D模型来合成渲染的。虽然这些方法比给定的少量图像覆盖更多的各种姿势，但Pix2Pose鲁棒地估计训练姿势覆盖较少的姿势。5.6. T Less在该数据集中，为每个对象给出了无纹理的CAD模型和具有纹理的重建3D模型。尽管以前的工作使用重建的模型进行训练，但为了显示我们方法的优势，使用CAD模型进行训练（如图所示）。1）使用数据集提供的真实训练图像。为了最小化真实图像和使用CAD模型渲染的场景之间的对象掩模的间隙，真实图像的对象掩模用于移除渲染的坐标图像中的掩模外部的像素。对象的对称姿势池sym是手动定义的，类似于LineMOD 评估中的蛋盒，用于盒状对象（如 obj-05）。对于圆柱体对象（如obj-01），z轴的旋转分量被简单忽略，并被视为非对称对象。根据[10]的方案进行实验。代替[10]中测试序列的子集，使用完整的测试图像与最新技术[28]进行比较。Retinanet被用作2D检测方法，可见度超过10%的物体被视为估计目标[10，28]。表3中的结果显示Pix2Pose优于使用RGB图像的最先进的方法，仅通过显著的余量。性能也优于基准测试[10]中最好的基于学习的方法[2，15尽管这些方法使用颜色和深度图像来细化姿势或在多个假设中导出最佳姿势，但我们的方法预测每个检测到的对象的单个姿势，比这些方法在没有使用深度图像细化的情况下表现得更好。5.7. 消融研究在本节中，我们通过回答四个重要问题来介绍消融研究，这些问题阐明了所提出的方法中每个组件的贡献。Transformer损耗如何表现？T-Less中的obj-05用于分析损失值相对于对称姿势的变化，并显示图5.在T-Less [9]中使用obj-05，对称对象相对于z轴旋转表4.召回（e vsd <0. 3）在T-Less中使用不同的重建损失进行训练。Transformer损耗。为了查看损失值的变化，在围绕z轴旋转对象的同时渲染3D坐标图像。损失值是使用参考姿态的坐标图像作为目标输出Igt并且使用其他姿态的图像作为预测输出I3D来计算的。1和等式二、如图5，L1损失在Eq.1对于π周围的对称姿态产生大的误差，这是需要处理对称对象的原因。另一方面，Transformer损耗的值在0和π上产生最小值，这对于对称角为π的obj-05是预期的。由视图限制表示的结果显示了L1损失的值，同时将旋转的z分量限制在0和π之间。超过此限制的姿势将旋转为对称姿势。如第1，值显着改变的视角限制和过度惩罚的构成下，图中的红色区域。5，这导致对这些角度周围的姿势的噪声预测表4中的结果显示，与具有视野限制策略的L1损耗和不处理对称性的L1损耗相比，Transformer损耗显著提高了性能如果3D模型不精确怎么办？对T-Less的评估已经显示了对与真实对象具有较小几何差异的3D CAD模型的鲁棒性。然而，通常难以构建具有目标对象的精细网格和精确几何形状的3D模型或因此，一个更简单的3D模型，一个凸包覆盖对象的边界，在这个实验中使用，如图所示。六、训练和评估以与LineMOD评估相同的方式进行，其中使用真实图像的注释掩模同步对象掩模。如图1左上所示。6、使用凸包时性能略有下降。然而，性能仍然与使用7676公司简介[14个]视网膜[19个]R-CNN[26日]GTbbox二维bbox89.197.798.61006D姿势6D姿势/2D bbox64.070.971.172.472.473.274.774.7图6.上：AD { D}内的帧的分数|LineMOD中猫的I}个阈值。曲线下面积越大，性能越好。底部：有/无GAN的定性结果。对象的3D边界框，这意味着Pix2Pose使用3D坐标的细节进行鲁棒估计，即使3D模型被粗略重建。GAN能改善结果吗？Pix2Pose的网络可以在没有GAN的情况下通过在等式2中的最终损失函数中去除GAN损失来训练。五、因此，网络只试图重建目标图像，而不试图欺骗目标图像。为了比较性能，在没有GAN的情况下执行相同的训练过程，直到不包括GAN损失的结果在图的左上方。6示出了具有ADD度量的变化阈值的正确估计的姿态的分数。实线显示原始LineMOD测试图像上的性能，其中包含完全可见的对象，虚线表示具有人工遮挡的相同测试图像上的性能，人工遮挡是通过将每个边界框中的50%区域替换为零来实现的。当物体完全可见时，性能没有显著变化。然而，当物体被遮挡时，没有GAN的性能显着下降在图的底部中的示例6还显示，使用GAN进行训练可以对遮挡部分进行鲁棒预测。Pix2Pose对不同的2D检测网络是否稳健？表5报告了在LineMOD上使用不同2D检测网络的结果。Retinanet和Faster R-CNN使用LineMOD评估中使用的相同训练图像进行训练。此外，SSD-6D [14]的公共代码和训练权重用于导出2D检测结果，同时忽略网络的姿态预测。很明显，姿态估计结果与2D检测性能成正比另一方面，良好边界框上的正确姿势的部分（与地面实况重叠超过50%的这表明Pix2Pose对不同的2D表5.使用不同的2D检测方法，LineMOD上正确的2D边界框（IoU>0.5）和正确的6D姿势（ADD-10%）的平均百分比。最后一行报告具有正确边界框（IoU> 0.5）的场景上正确估计的姿势的百分比。当边界框与目标对象充分重叠时产生检测。这种鲁棒性是通过在第一阶段中的细化来实现的，该细化从测试图像中提取具有重新居中的边界框的有用像素。在没有两阶段方法的情况下，当第一阶段中的网络输出直接用于PSNR计算时，LineMOD上的性能显著下降到41%。5.8. 推理时间推理时间根据2D检测网络而变化。更快的R-CNN需要127 ms，Retinanet需要76 ms才能从640×480 px的图像中检测到物体。每个边界框的姿态估计大约需要每个区域的时间间隔为25- 45 ms。因此，我们的方法能够在单对象场景中使用Retinanet以8-10 fps估计姿态，使用Faster R-CNN以6-7 fps估计姿态。6. 结论提出了一种新的基于RGB图像的6D物体姿态估计Pix2Pose解决了姿势估计过程中出现的几个实际问题：生成具有高质量纹理的真实世界3D模型以及对遮挡和对称对象进行鲁棒姿态估计的难度。对三个具有挑战性的基准数据集的评估表明，Pix2Pose在解决上述问题时明显优于最先进的方法。我们的研究结果表明，许多失败案例与训练图像或增强过程未充分覆盖的不可见姿势有关。因此，未来的工作将研究策略，以改善数据增强，更广泛地覆盖姿态变化，使用真实图像，以提高估计性能。未来工作的另一途径是推广该方法，以使用单个网络来估计具有相似几何形状但不同局部形状或尺度的类中的各种对象的姿态致谢导致这些结果的研究已经收到了奥地利科学基金会（FWF）的资助。I3967-N30（BURG）和No. I3969-N30（InDex）和Aelous Robotics，Inc.7677引用[1] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。使用3d对象坐标学习6d对象姿态估计。2014年欧洲计算机视觉会议（ECCV）二、五[2] Eric Brachmann ， Frank Michel ， Alexander Krull ，Michael Ying Yang ， Stefan Gumhold ， and CarstenRother.不确定性驱动的单一rgb图像中物体和场景的6d姿态估计。在 IEEE 计算机视觉和模式识别会议（CVPR），2016。一、二、六、七[3] Thanh-Toan Do、Trung Pham、Ming Cai和Ian Reid。实时单目物体实例6d 姿态估计。英国机器视觉会议（BMVC），2018年。一、二、六[4] Martin A. Fischler和Robert C.波尔斯随机样本一致性：模型拟合的范例，应用于图像分析和自动制图。Commun. ACM，24（6）：381-395，June 1981. 5[5] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672二、四[6] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。IEEE国际计算机视觉会议（ICCV），2017。5[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR），2016。5[8] Stefan Hinterstoisser，Vincent Lepetit，Slobodan Ilic，Ste- fan Holzer ， Gary Bradski ， Kurt Konolige ， andNassir Navab.基于模型的训练，检测和姿态估计无纹理三维物体在严重混乱的场景。2012年亚洲计算机视觉会议（ACCV）。二、五、六[9] Toma'sHodanEm ， PavelHaluza ， Stepa'nObdrza'lek ， Jir'sMatas ， Manolis Lourakis ， and Xenophon Zabulis.T-LESS：用于无纹理物体的6D姿态估计的RGB-D数据集。IEEE计算机视觉应用冬季会议，2017年。二、五、七[10] 汤姆·马斯塔德·阿纳尼、弗兰克·米歇尔、埃里克·布拉克曼、瓦迪姆·凯尔、安德斯·格伦特布赫、德克·卡夫、伯特伦·德罗斯特、乔尔·维达尔、斯蒂芬·伊尔克、色诺芬·扎布利斯、卡纳·沙欣、法比安·曼哈特、费德里科·托姆巴里、金泰均、吉里·马塔斯和卡斯滕·罗瑟。Bop：6D对象姿态估计的基准。在欧洲计算机视觉会议（ECCV），2018。一、六、七[11] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。ACM Transactions onGraphics（ToG），36（4）：107，2017。2[12] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在International Conference on Machine Learning ，第 448-456页3[13] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A.埃夫罗斯图像到图像的翻译与条件对抗ial网络在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。二、四[14] Wadim Kehl ， Fabian Manhardt ， Federico Tombari ，Slobo- dan Ilic，and Nassir Navab. Ssd-6d：让基于rgb的3d检测和6d姿态估计再次变得强大。IEEE国际计算机视觉会议（ICCV），2017。一、二、六、八[15] Wadim Kehl 、 Fausto Milletari 、 Federico Tombari 、Slobodan Ilic和Nassir Navab。局部rgb-d补丁的深度学习，用于3d对象检测和6d姿态估计。在2016年欧洲计算机视觉会议（ECCV）上。二、七[16] Diederik P Kingma和Jimmy Lei Ba。Adam：随机最佳化的方法。第三届国际学习表征会议（ICLR），2015年。5[17] Vincent Lepetit ， Francesc Moreno-Noguer ， and PascalFua. Epnp：pnp问题的精确O（n）解。国际计算机视觉杂志，81（2）：155，2008年7月二、五[18] 易离，顾望，向阳季，于翔，迪特尔福克斯。Deepim：深度迭代匹配6D姿态估计。在欧洲计算机视觉会议（ECCV），2018。1[19] Tsung-Yi Lin ， Priya Goyal ， Ross Girshick ， KaimingHe，and Piotr Dollar.用于密集对象检测的焦点损失。IEEE国际计算机视觉会议（ICCV），2017。五、八[20] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年欧洲计算机视觉会议（ECCV）五、六[21] Fabian Manhardt ， Wadim Kehl ， Nassir Navab ， andFederico Tombari.rgb中基于深度模型的6d姿态细化。在欧洲计算机视觉会议（ECCV），2018。1[22] Markus Oberweger，Mahdi Rad，and Vincent Lepetit.制作对3d对象姿态估计的部分遮挡鲁棒的深度热图。在欧洲计算机视觉会议（ECCV），2018。一、二、六、七[23] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图

下载后可阅读完整内容，剩余1页未读，立即下载