通过级联细化变换器的CRT-6D方法实现快速的6D对象姿态估计

115 浏览量更新于2023-10-16 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5746××CRT-6D：使用级联细化变换器的快速6D对象姿态估计佩德罗·卡斯特罗帝国理工学院imperial.ac.uk金泰均伦敦帝国理工学院tk.kim邮件imperial.ac.uk摘要基于学习的6D对象姿态估计方法依赖于计算大的中间姿态表示和/或利用缓慢的渲染比较流水线迭代地细化初始估计。本文介绍了一种新的方法，我们称之为C级联位姿精化变换器，或CRT-6D。我们将常用的密集中间表示替换为从我们称为OSKF（对象表面特征点特征）的特征金字塔采样的特征的稀疏集合，其中每个元素对应于对象关键点。我们采用轻量级的变形变压器和链他们在一起，反复完善提议构成采样OSKFs。我们实现推理，ence运行时2比最接近的实时状态的最先进的方法，同时支持多达21个对象的一个单一的模型。我们通过在LM-O和YCB-V数据集上进行广泛的实验来证明CRT-6D的有效性。与实时方法相比，我们在LM-O和YCB-V上实现了最先进的技术，稍微落后于推理运行时间高一个数量级的方法。源代码可在：https：//github.com/PedroCastro/CRT-6D1. 介绍在给定RGB图像的情况下估计对象的6D姿态仍然是具有挑战性的计算机视觉任务，但在来自自主车辆感知、机器人以及增强现实的许多现实世界应用中是不可缺少的。该任务需要通过克服诸如遮挡、照明和对称性的困难来检索目标对象深度信息在可用时可以发挥很大作用[21，28]，而单目方法由于缺乏信息而往往表现不佳利用卷积神经网络（CNN）的最新方法已经超过了先前的经典方法，并且是最新的最先进的 6D ob-technique的核心构成表示编码解码估计Pt-1精化模型ΔPt+Pt构成细化渲染器图1：CRT-6D的示意图。CRT-6D从姿态估计方法中移除解码器和姿态表示，并从标准细化管道中移除渲染器和细化模型。相反，CRT-6D用基于可变形注意力的细化模块替换它们，在同一模型内实现姿势估计和细化每个细化迭代需要不到3 ms，使得CRT-6D 2比以前的实时方法更快，同时实现更好的精度。对象姿态估计器[41，6，34，39，35，47，9，24，40，32，3]。这些方法的计算流水线可以大致由3个步骤定义：1.）的人。在图像中检测对象（这通常使用现成的对象检测器[37，36]来完成）; 2.）的情况。使用已建立的CNN预训练架构[13，42]，从包含对象的2D区域周围的裁剪图像中提取特征; 3.）第三章这些P构成均p0Pt编码器Pt-1OSKFs主干功能样品+的OSKFsQΔPtQt-1Transformer姿态细化器CRT-6D自我关注变形交叉注意自我关注5747特征被转换成中间表示[34，32，47，35，15]，然后用于提取姿态（使用PnP [25]或其他变体[40，15]）或直接提取姿态[7，47，9，24]。通过假设提取姿态的必要信息由步骤2）执行姿态提取步骤是快速和准确估计的关键。现有技术已经提出了几种中间表示，例如NOCS，关键点热图[48，35，34，51]。这些表示覆盖了全部输入裁剪区域，从而在显著空间维度上的每个像素处对其进行计算，而不考虑对象所占据的图像区域，从而导致大量不必要且昂贵的计算。此外，一些需要额外的慢RANSAC PnP步骤。其他方法提出直接学习PnP操作[47，7，9]，并且虽然它们被证明更快且更精确，但在不从计算流水线中移除无信息区域的情况下将更多复杂性引入模型。在这些之上，应用可以选择细化预测的错误姿态。最常用的方法依赖于昂贵的渲染比较迭代过程[28，51，24，46]，使其不适合实时应用。自组织细化方法需要大型模型，仅为细化而设计和训练，并将初始姿态估计作为其他方法的练习[24，28，51]。最近，专门设计的方法在运行时间和初始化之间进行权衡：RePose虽然快速，但需要很好的初始化[20]，SurfEmb[12]非常精确，对遮挡和对称性非常鲁棒，但在推理时非常慢。在本文中，我们介绍了一种新的方法，删除多余的计算周围地区的对象是不存在的，而过采样的图像区域。我们通过使用一个简单而有效的中间偏移表示：对象表面关键点特征（OSKFs）。给定初始粗略姿态，我们将预定的对象表面关键点投影到图像平面中。我们通过在每个关键点当前2D位置处对提取的特征金字塔进行采样来生成OSKF考虑到初始姿态不能保证是精确的，我们使用可变形注意力来引导我们在原始 2D 位置周围的采样因此，我们提出了 OSKF-PoseTransformers（OSKF-PT），这是一种具有可变形注意力机制的变换器模块[53]，其中在OSKF集合上执行自注意力和交叉注意力操作由于OSKF在计算方面是廉价的表示，因此我们在新颖的级联姿态细化（CPF）模块中将多个OSKF-PT链接在一起，以级联方式迭代地细化姿态，其可以端到端地训练。总之，本文• 我们提出了物体表面的关键点特征（OSKF），轻量的中间6d姿态偏移表示，其噪声显著更小，忽略了来自特征图的不可用信息，从而导致与现有技术相比更准确的姿态估计，并且比中间姿态表示的生成成本低得多。• 我们提出了 OSFK-PoseTransformer （ OSFK-PT），这是一个利用自关注和可变形关注层链来迭代更新初始姿势猜测的模块。由于OS-KF的轻量级性质，我们的细化比任何现有的细化方法更快，每次迭代花费不到3 ms。• 我们介绍了CRT-6D，一种快速的端到端6D姿态估计模型，其利用OSFK-PT链上的级联迭代细化来实现两个具有挑战性的数据集上的实时6D姿态估计器的最新精度，其推理时间比最快的现有方法快100%2. 文献综述关键点检测。对象姿态估计可以被视为相机姿态估计的逆。可以通过解决PnP问题来提取6D姿态，这意味着我们可以检测关键点的像素位置，从而创建必要的2D-3D对应集。早期的工作开始于选择对象的3D边界框作为关键点[43，35，30]。然而，投影的3D边界框关键点通常位于对象的轮廓之外，这潜在地减少了局部信息提取。PVNet [34]注意到了这种不足，建议使用表面区域来找到合适的关键点。密集对象坐标估计。代替预先选择几个关键点，提出了NOCS [48]，其中对于对象的轮廓中的每个像素，用于估计投影在该像素处的对象的表面（在标准化空间中）的坐标。换句话说，表面中的每个点将成为关键点，并且可以用于2D-3D对应集合以解决PnP。受NOCS的启发，Pix2Pose [32]提出使用GAN来解决遮挡问题。DPOD [51，15，47，40]建议使用UV贴图和对象区域而不是3D坐标系，确保估计的每个点位于对象的表面内。这些方法中的每一种都有一个越来越复杂的模型，虽然每个方法都提高了性能，但运行时却被忽视了。直接姿态估计。Posenet[22]提出了学习四元数来预测相机姿态估计任务的旋转。在6D对象姿态估计领域，PoseCNN [50]使用李代数代替。SSD-6D [21]将视点空间离散化并学习对其进行分类，同时使用掩模回归到相机的距离这些方法5748S|我O{O|-}得双曲余切值.6D由于它们的整体方法而更容易受到噪声和遮挡的影响。此外，这些通常需要额外的步骤来解决由自我中心取向引起的模糊性。一些方法从中间表示学习映射以模拟PnP解算器，使它们相对于中间表示是不同的。最后的姿势[47，9，17，7]。该步骤可用于减少对密集方法的对称性攻击的需要如果深度可用，则迭代最近点（ICP）是最常用的算法[2]。ICP算法通过迭代地优化对准点所需的姿势来找到点之间的对应关系。然而，它在很大程度上依赖于初始姿势，并且可能收敛于局部最小值。最近学习的方法主要依赖于渲染比较管道，这些方法之间略有变化[28，51，24]。最近，Restose [20]引入了一种快速迭代细化算法，但它需要大量的初始化。姿势估计中的变压器。鉴于变换器在计算机视觉任务中的效率不断提高，已经尝试使用变换器来改进人[19，27]、手[18]和对象[31，1，54，38，11]的姿态估计。对于对象姿势，这些方法旨在改善结果[31，1]，类别级别估计[54，38]或手-对象交互[11]。然而，这些改进是以运行时间为代价的，使得它们不适合实时应用程序。我们的新方法不仅改善结果，但也减少了运行时，当com-构成（c）第细化Δ Poset+Transformer模块姿势t-1可变形（b）自身+交叉关注模块查询t-1摆t型精确位姿关键点嵌入第一迭代项目（a）关键点姿势t-1均p0骨干图2：CRT-6D图示。我们从生成特征金字塔开始。使用最后的特征级别，我们生成一个姿态估计P0，这将作为细化模块的初始参考。（ a）使用P0，我们将一组表面关键点投影到图像平面中。（b）我们的可变形注意力机制使用投影关键点集合的位置来对特征金字塔进行采样（c）然后我们对采样的特征集执行自注意，并估计偏移姿态ΔP，使得P t=Pt−1+ΔP t，其中t是细化步骤。θ是可学习的参数。为了恢复旋转矩阵R=[R1，R2，R3]，我们使用在[52]中引入并在先前方法[47，9，24]中使用的6D旋转表示R 6D = [r1，r2]，取得了巨大成功：R1=r1与现有的对象姿态估计方法相比。3. 方法R3=R1×r2R2=R3×R2、（1）在本节中，我们详细介绍了CRT-6D的每一步，我们的新的6D姿态估计方法。给定图像，CRT-6D的目标是预测由相机瞄准的对象的6D姿态，其中i是指存在于图像中的N个对象的集合中的第i个对象。我们遵循其他方法[47，9，23]的设置，并从对象检测中分离姿态，这意味着我们使用现成的检测器来裁剪出存在对象的图像区域。这些区域然后被独立地处理并馈送到CRT-6D用于姿态估计。3.1. 粗略位姿估计我们使用Resnet 34 [13]作为CRT-6D的主干虽然可以使用其他主干，但Resnets与现有技术进行了更公平的比较，因为它们被大多数6D姿势方法使用[47，9，40，20，29]。我们使用主干来构建多尺度特征金字塔F=其中r1和r2是单位向量。由于相机应用的投影函数，对象的外观不仅受其取向的影响，而且受其位置的影响由于我们正在使用裁剪的图像并且相机内在函数K是已知的，因此预测P变成一对多函数，其中相同的外观可能对应于不同的自我中心取向，如3D-RCNN所指出的[23]。一个共同的策略来解决这个问题，我们也采用，是估计allocentric的方向和应用转换恢复自我中心的方向在推理时间。Wang等人[47]表明，选择适当的翻译表示对该方法的性能有影响。虽然我们的目标是全局平移t= [tx，ty，tz]，但由于裁剪步骤，CRT-6D无法直接恢复此信息。因此，我们使用t′= [Ox，Oy，tz]，其可用于经由反投影恢复tCRT-6D采用尺度不变表示t~=[γx ，γy，γz][47，9]：{F1}|l = l，，L}，大小为[s/4，s/8，s/16，s/32]，其中L =4秒。CRT-6D通过估计粗略姿态P〇开始=θ36D简体中文 =（0X-cx）/秒bbox（二）[R0|t0]，使用简单的MLP：FC（F）=R0，t~0γy=（Oy−cy）/sbboxγz=t z/r bbox5749ZZ6DFZS6DZ{Z|}S{S|}ΣPPKZ6DSzz6DzP3.3. OSKF姿态Transformer（OSKF-PT）OSKF的未拓扑化集合呈现了转换器的用例，其能够在不引入隐式空间偏差的情况下处理数据[45]，从而允许注意力机制学习空间和结构关系。CRT-6D设计用于解释和学习输出偏移姿态∆P，使得：P t=Pt−1+∆P t，（4）图3：OSKF-PT的图示。OSKF-PT接收前一个Q t−1、P t−1和作为输入，最后一个在每次迭代中相同。它会输出一个新的优化姿势t和Q t，引导下一次迭代的初始查询。其中裁剪边界框的比例 sbbox=max （ wbbox ，hbbox），并且比率r=sbbox/s，其中s指的是图像的原始大小。3.2. 对象表面Keypoint特征-OSKF细化方法通常依赖于先前独立的强大姿态估计器[24，20，28]，从而减慢推断和训练。相比之下，CRT-6D被设计成通过重用多尺度特征金字塔来估计和细化我们替换由姿态细化器[24，28，20]使用的渲染步骤，并且代替使用姿态表示，我们生成姿态偏移表示，在2D 关键点位置Pt={π（St，P t，Kcam）采样的骨干特征的紧凑集合。|k= 1，…K}，其中π是6D6D6D在t细化步骤中。然而，不保证所估计的姿态是正确的，也不保证关键点是未被遮挡的。为此，关键点的最佳信息可能不靠近该对象的2D位置。开发者：Deformable-DETR[53]我们引入OFKF-PT，其中我们利用可变形注意机制来学习对参考关键点位置周围的信息进行采样。姿态Transformer模块OFKF-PT的示意图如图3所示。OFKF-PT依次由自注意层、可变形自注意层和用于姿态估计的另一注意层组成。我们首先对查询矩阵Q执行自关注，其中每行对应于集合中的关键点.多头注意操作将Q、Q和Q作为查询y、key和值，其中Q=Q +E。是关键点k的位置嵌入，并且PosEmb是用于位置参数化的高频余弦嵌入[45]。接下来[53]，我们应用残差加法和层归一化。我们将该操作的输出表示为Q。投影函数，K_cam是已知的相机内部参数，Pt是参考姿态，S是一组预投影函数。多尺度可变形关注OSKF通常由下式定义：定义的关键点，其中t表示迭代步骤。以来输入图像I从姿态估计步骤到细化步骤或者甚至在细化迭代之间没有受到扰动，与现有方法[51，28，24，20]相比，我们回收这些特征，而不是在每次迭代时重新计算它们。我们提出OSKFs =k，k= 1，…，K，通过在所有空间尺度下对特征金字塔进行采样而生成的轻量偏移姿势表示：Z={F1（Pk）|k= 1，…K，l= l，… L}（3）其中L表示特征金字塔的第L个对象关键点的集合=k，k= 1，…使用最远点采样算法[34]生成为OSKF选择的K，其中K是使用的关键点的数量每一个特征都代表着JZ~kl=AljkWFl（Pk+∆Pljk）（5）j=0其中Δljs指的是针对第j个可变形位置、空间级别l和对象关键点K. J是指用于变形的采样点的数量。∆ljs和Aljs通过QS的简单线性变换来计算。我们在~上应用自注意操作，以便捕获我们表示为Qp的长距离信息。我们选择在QP上使用全局池化操作，而不是使用CLS令牌（在实践中没有区别[10]），然后是一个小的MLP以输出[∆R，∆γx，∆γy，∆γz]t。我们更新参考姿态Pt：Rt=∆RtRt−1γt{x，y}+ ∆γt{x，y}.（六）=γt−1{x，y}在P附近发送本地信息，带有粗信息-在更高的特征级别上更精细，在更低的特征级别上更精细以下是-γt=γt−1·(1+tanh(∆γt))ing模块将学习恢复嵌入的姿势偏移在Z.我们发现在∆γz上使用tanh参数化比线性[24]或指数[28]表现更好。+正++正++Self-AttentionPosEmb投影构成估计器+Self-Attention规范变形注意力规范FFNP5750ΣZLLL∼∼LL·6DN对于我们的实验，我们将3个OFKF-PT连接在一起可变形注意力操作的输出在下一次迭代中被重新使用，因为输入矩阵变为Q t=~t-1。初始查询Q0是可学习的嵌入。3.4.目标函数CRT-6D的主要目标是处理图像并产生目标对象的6D姿态。为了执行该操作，它经历迭代细化过程。在每次迭代中，我们计算一个有效的6d姿态，并在下一次迭代中重用它。由于CRT-6D的简化目标，其不输出中间姿态表示，我们的总体目标由姿态估计误差指导，并且可以定义为：NL=λL0+（1−λ）Li（7）i=1其中i表示细化迭代，N= 3对于所有实验是固定的，并且0表示粗略估计的损失。姿态损失被分解并分离成旋转和位置损失：L=αLR+ L位置（八）回顾第2节中描述的姿势参数化3.1，损失函数定义为：LR=a vg||Rx−Rx||1达到95%以上的准确度[24，47，9]。出于这个原因，我们采用我们对更具挑战性的线模遮挡（LM-O）的实验，这是1214个LM图像的子集，其中在每个图像上注释8个对象对于LM-O根据现有技术[47，9，40]，我们利用可用的LM实像，其中每个对象有1200个我们还介绍了YCB-V，一个更大的数据集与21个目标对象，一些非常具有挑战性的对称性的实验。对于这个数据集，超过10万张真实图像可用于训练。然而，数据集是通过视频生成的，导致对象很少完全可见的类似帧。在真实图像之上，我们还利用合成数据。为了进行公平比较，我们采用了LM-O和YCB-V均可用的现成PBR分割[8]，这是一个照片和物理逼真合成图像的数据集，包含具有挑战性姿势和严重遮挡的目标模型我们还执行常见的飞行图像增强，如颜色抖动，模糊和噪声，以及更复杂的操作，如平面图像旋转和背景去除。对于BOP [16]设置下的实验，LM-O方法仅使用PBR合成数据进行训练。我们还实现了动态放大（DZI）[29]，以便对检测错误具有鲁棒性在训练期间，我们对边界框的中心和尺度应用均匀扰动。在测试时，我们发现将检测边界框增加20%，以确保对象完全可见，产生了最佳结果。实作详细数据。我们实现CRT-6D使用x∈PL pos= ||γ x− γx，γ y− γy，γ z−γz||1、（9）PyTorch [33].我们使用8个股骨头和4个点进行变形注意，如变形-DETR [53]中所建议的。的其中，是指地面实况数据。当目标对象是对称的时，使用R的变体[48]，而pos对于对称性是不变的。注意，虽然我们的细化模块输出偏移姿态∆P，但等式（1）中的变换4是可微的，这意味着CRT-6D可以通过预测的姿势集合直接优化P6D={P t|t = 0，…， N}4. 实验我们在两个基准数据集LM-O[14]和YCB-V[4]上进行了实验，其中我们提出了我们方法潜力的有力证据。我们还显示，通过消融研究我们的主要贡献，包括改进的- ments源于使用迭代细化和高精度，它实现了令人印象深刻的低干扰时间。所有BOP数据集[16]的结果可在挑战网站上获得。4.1. 实验装置数据集设置。常用的Linemod数据集（LM）[14]已经被最新的方法所满足模型以端到端的方式训练，包括cased细化步骤。所有消融实验均采用相同数量的训练迭代进行优化。对于LM-O实验，CRT-6D针对250 k次迭代进行优化，批量大小为32，其中PBR图像构成批量的50%，或者如果在BOP标准下则为100%YCB-V经过350 k训练，具有相同的PBR比率和批量大小。我们使用Ranger优化器[49]从学习率开始10- 4，余弦退火时间表从训练的85%开始。与类似的方法[5，53，26]不同，我们在早期的实验中发现，选择较低的学习率主链重量不理想。对于前20%的迭代，我们设置λ =0，因为P0以非常差的姿态估计开始，这不允许CRT-6D学习。对于训练的其余部分，λ=N−1，其中N是所使用的姿势细化器的数量。对于所有实验，我们设置α= 3在测试期间，我们对所有实验使用每个数据集相同的检测。对于LM-O，我们使用来自Faster-RCNN的公开对于YCB-V，我们还使用来自[29]训练的FCOS[44]的公开可用检测对于BOP结果，我们使用挑战赛提供的标准化检测。5751∼∼·∼×∼∼∼××类型姿态估计细化混合国家安全局18181188方法PVNet [34]东德[47]东德[47]S-Pose [9]ZebraPose [40][20]第二十话DeepIM [28]CRT-6D猿15.844.946.848.455.231.159.253.4可以63.379.790.885.894.980.063.592.0猫16.730.640.532.756.625.626.242.0司钻65.767.882.677.494.773.155.681.4鸭25.240.046.948.960.943.052.444.9鸡蛋盒 *50.249.854.252.464.751.763.062.7胶水 *49.673.775.878.384.554.371.780.2穿孔器36.162.760.175.383.253.652.574.3平均40.856.162.262.374.351.655.566.3表1：对LM-O的比较研究。我们提出了ADD（-S）度量的结果，并将其与最新技术进行比较。我们的表现仅优于ZebraPose [40]，这是一种针对单个对象的推理时间为191 ms的方法，而CRT- 6D在36 ms内估计单个LM-O图像（8个对象）中所有对象的姿态。最好的结果用粗体表示，而第二好的结果用下划线表示。国家安全局表示模型支持的对象数量，*表示对称对象。评估指标。为了公平比较，我们模仿与先前方法相同的实践。对于LM-O，我们在ADD（-S）度量上给出了我们的结果[35，16]。在ADD（- S）度量下，如果经变换的模型点与地面实况点的距离低于d10%，则姿态被认为是正确的，d是对象对于对称对象，我们采用从每个变换点到最近的地面实况的距离，并应用相同的阈值[16，14]。在YCB-V数据集上进行实验时，我们还采用ADD度量的曲线下面积（AUC），最大阈值距离为10 cm [50]。对于更详细的实验，我们还根据n〇，ncm来测量准确度，如果旋转和平移都落在定义的阈值之下，则认为姿态有效。在BOP标准下，我们呈现了挑战所使用的平均重新调用：ARvsd、ARmssd和ARmspd。还有他们的意思我们建议读者参考BOP挑战[16]，了解有关这些指标的更多信息。对于CRT-6D和现有方法两者，推理时间测量都是使用GTX1080ti上的公开可用代码进行的。为了简单起见，我们忽略检测时间，因为大多数方法都使用相同的检测进行评估。4.2. 运行时与最新技术水平的比较。DeepIM [28]是学习姿势细化的里程碑式工作。然而，它是非常慢的，推理时间为41ms每个对象每次迭代（建议两个），没有考虑到用于初始化的模型。最近，CosyPose [24]执行了一个二合一模型，其中采用了两个CNN并进行了充分训练，一个执行初始粗略估计，而第二个对其进行了细化。然而，由于所使用的模型的巨大尺寸，它们的推理时间对于单个对象是100ms。Repose [20]提出了一种更快的细化方法，在18ms80CRT-6D[24]第二十四话然而，5次迭代需要良好的初始化[47]第四十七话：我的世界6050CDPN [29]0 100 200 300 400 500时间（ms）/图像图4：现有技术方法之间的推断时间差的可视化。CRT-6D甚至在3个细化步骤之后比现有方法更快，并且与更慢的方法相比具有我们测量估计图像中所有对象的姿态所需的平均时间（ YCB-V 上每张图像4.75）。ZebraPose [40]和SurfEmb [12]被省略，因为它们的结果将位于运行时间范围之外，其中估计分别占用每个裁剪（他们使用PVNet [34]，其本身需要超过25ms），并且它只支持每个模型的单个对象。相比之下，CRT-6D对于单个模型上的所有对象的YCB-V和LM-O图像（每个具有4个和6个对象实例）平均花费26 ms和34 ms，使得我们的方法比其他细化方法快一个数量级最新的实时方法GDR-Net [47]和SO-Pose [9]分别需要2和3个更长的时间。此外，CRT-6D在LM-O和YCB-V上不仅比这两种方法更快，而且更准确。更详细的比较与其他方法w.r.t. 推理时间可以在图中看到。4.第一章4.3. 与最新技术水平的准确度比较LM-O结果。我们提出的结果下的ADD（-S）度量的LM-O标签。1.我们呈现出有竞争力的结果，平均召回5752方法LM-OYCB-V平均ARARV SDARMSSDARMSPDARARV SDARMSSDARMSPDAREPOS [15]0.3890.5010.7500.5470.6260.6770.7830.6950.621GDR-Net [47]----0.5840.6740.7260.661-S-Pose [9]0.4420.5810.8170.6130.6520.7310.7630.7150.664SurfEmb [12]---0.656---0.7180.687[24]第二十四话0.4800.6060.8120.6330.7720.8420.8500.8210.727SC6D [3]----0.6950.7960.8040.765-CRT-6D0.5040.6400.8370.6600.7070.7760.7740.7520.706表2：BOP标准下的LM-O和YCB-V数据集[16]。我们呈现了在挑战中使用的所有指标的结果，其中平均AR指的是两个数据集上的平均AR最好的结果用粗体表示，而第二好的结果用下划线表示。图5：可变形注意力采样位置。红色圆圈指示参考点，而白色圆圈指示变形的样本位置。在最后一列上，我们示出了针对相同对象和关键点的注意力采样，其中第一行具有可见的关键点，而在底部两行上，关键点被自身或外部遮挡。当关键点被遮挡时，注意力学会在对象轮廓上的其他地方采样线索。在ZebraPose [40]之后具有第二好的整体准确性。与实时方法相比，CRT-6D实现了6。与之前的最新技术水平SO-Pose [9]相比，改善了4%。在BOP挑战规则下，我们实现了最先进的性能，平均召回率达到67。2%，击败所有其他基于RGB的方法，无论其干扰时间。我们之所以能达到这个结果，是因为我们的方法对遮挡非常鲁棒，这是由于我们使用了可变形注意力，并且当关键点被遮挡时，它可以注意到远离参考位置的（见图）（五）。YCB-V结果。在YCB-V上，我们通过实现72. 1%和最新技术水平87岁5ADD-（S）和ADD（-S）的AUC。与最接近的实时方法相比，我们的性能优于GDR-Net[47]和SO-Pose[9]在ADD（-S）度量上分别降低46%和27%，在ADD（-S）的AUC上分别降低9%和4%。与较慢的方法相比，我们的方法仅在ADD（-S）上被ZebraPose [40]超越，这比我们的方法慢一个数量级。我们还提出了YCB-V的BOP标准下的结果，我们只跑赢了一个较慢的方法。4.4. 消融研究在图6上，我们表明CRT-6D在大量参考关键点中不是高度依赖虽然我们发现8个关键点不能为我们的标准提供足够的准确度，但16和128个关键点之间的差异无论如何，我们在所有实验中使用K= 64个关键点，因为它为LM-O和YCB-V提供了最佳结果。级联姿势优化。我们提出了一种方法，迭代细化的初始姿态的对象在级联807060500 20 40 60 80 100 120关键点数量图6：在所使用的OSKF的数量上的实验。通过这种消融，我们表明CRT-6D不依赖于大量的关键点。虽然使用8个关键点时性能会显著下降，但我们看到较大数量的差异很小，两个数据集的最佳关键点数量都是64。平均召回5753F数据集LM-OYCB-V度量ADD-（S）ARADD-（S）AUCAR040.559.850.681.059.7161.469.063.284.970.2264.971.170.887.175.2366.371.572.187.576.3表3：级联姿态优化的效果。我们提出的改进与每个细化步骤。我们可以观察到收益递减，其中第一次细化改进大于所有其他迭代的组合。ADD（-S）表4：初始姿势消融研究。我们展示了在现有技术之上使用我们的改进时的实验结果。初始姿势的结果在顶部3行，而底部图7：细化步骤的定性结果。我们展示了在迭代细化上姿态精度的进展，其中第一行是初始粗略姿态，最后一行是最终结果。虽然初始姿势对于评价标准来说非常差，但它被证明足以作为细化的参考。3行是精致的姿势。* 指示在相应方法的估计姿态上使用CRT- 6D细化时尚.在选项卡上。3我们展示了多次迭代对精度的影响。我们发现减少边际改进时，应用多个细化。第一次精化迭代的误差减少大于组合的后续迭代粗略姿势精度的影响。在表4中，我们示出了初始粗略姿态对OSKF-TP模块的影响。我们表明OSKF-TP可以作为一个独立的细化模块，如DeepIM [28]或Restose[20]，因为它可以从其他方法接收姿态估计并将其细化到最先进的水平。使用3个OSKF-TP模块，我们将GDR [47]和SO-Pose [9]结果分别提高了22%和10%这个实验是为了完成而做的：CRT-6D必须生成特征金字塔以计算OSKF，这是流水线中最昂贵的操作，使得使用这些初始姿态冗余且不必要，因为我们通过粗略初始化实现了更好的结果。4.5. 定性结果变形注意力的可视化。在图5中，我们可视化由可变形注意操作生成的注意采样点。我们仅示出了针对高注意力权重A > 0的采样位置（白色圆圈）。25（见等式（五）。当关键点可见时，变形发生在关键点投影位置附近，而对于被遮挡的关键点，注意力分散在图像周围。年龄Transformer可以将其采样引导到具有线索的区域，以恢复细微的姿势差异。细化定性示例。在图7中，我们给出了定性结果，显示了每个细化步骤的影响。我们可以看到，对于大多数对象，原始姿势明显不准确。尽管如此，CRT-6D可以在细化模块的3次迭代之后恢复准确的姿态最后一列示出了剪刀对象的结果，剪刀对象是YCB-V、CRT-6D中最硬的对象，由于初始姿势不佳而无法恢复正确的姿势。5. 结论我们提出了一种新的方法，以6D对象的姿态估计CRT-6D的基础上，迭代姿态精化。我们的细化模块的输入是一组特征向量OSKF，从已知关键点的位置处的特征金字塔采样，使用粗略姿势进行2D投影。OS-KF是姿态偏移表示的表示，并且被馈送到 OSKF-PoseTransformer中以提取细化的姿态。我们在多个数据集上达到了最先进的水平，同时比类似方法快至少2倍对于未来的方向，我们正在寻求将CRT- 6D扩展到类别级对象姿态估计，其中不能使用特定的关键点。鸣谢这项工作部分由KAIA资助（22 CTAP-C163793-02，MOLIT），NST资助（CRC 21011，MSIT），KOCCA资助（R2022020028，MCST）和三星显示器公司。初始姿态2°2cm5°5cm总0.02d0.05d0.1d东德[47]3.4226.556.13.1435.124.9S-Pose [9]4.5531.462.33.3939.028.1CRT-6D-粗1.5316.340.51.9929.4518.0东德*[47]6.0834.462.55.6743.530.43SO-POSE* [9]6.2234.863.45.3844.430.84CRT-6D6.2336.266.35.4845.431.95754引用[1] Arash Amini、Arul Selvam Periyasamy和Sven Behnke。Yolopose：使用关键点回归的基于变换器的多对象6D姿态估计，2022年。[2] P.J. Besl和Neil D.麦凯一种三维形状配准方法。IEEE模式分析与机器智能汇刊，14（2）：239[3] DingdingCai，JanneHeikkil a¨，andEsaRahtu.Sc6d：对称性不可知和无对应性的6d对象姿态估计。arXiv预印本arXiv：2208.02129，2022。[4] Berk Calli、Aaron Walsman、Arjun Singh、SiddharthaSrini-vasa、Pieter Abbeel和Aaron M Dollar。操纵研究中的基准：ycb对象和模型集以及基准测试协议。IEEEInternationalConferenceonAdvancedRobotics（ICAR），2015年。[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在欧洲计算机视觉会议上，第213-229页。Springer，2020年。[6] Pedro Castro Anil Armagan和Tae-Kyun Kim通过姿态条件网格重构精确估计6D物体姿态。在ICASSP 2020 -2020 IEEE 声学，语音和信号处理国际会议（ICASSP），第4147-4151页[7] Bo Chen，Alvaro Parra，Jiewei Cao，Nan Li，and Tat-Jun Chin.通过反向传播pnp优化的端到端可学习几何视觉。IEEE/CVF计算机视觉和模式识别会议论文集，2020年。[8] Maximilian Denninger 、 Martin Sundermeyer 、 DominikWinkelbauer、Youssef Zidan、Dmitry Olefir、MohamadEl-badrawy、Ahsan Lodhi和Harinandan Katam。Blender-proc，2019.[9] Yan Di，Fabian Manhardt，Gu Wang，Xiangyang Ji，Nassir Navab，and Federico Tombari.目的：利用自遮挡进行直接6D姿态估计。在IEEE/CVF计算机视觉国际会议（ICCV）的论文集，2021。[10] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。[11] Shreyas Hampali，Sayan Deb Sarkar，Mahdi Rad，andVin- cent Lepetit.关键点Transformer：解决具有挑战性的手和物体交互中的关节识别，以实现精确的3d姿态估计。在 Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition，pages 11090[12] Rasmus Laurvig Haugaard 和 Anders Glent Buch 。 Sur-femb：用于具有学习表面嵌入的对象姿态估计的密集和连续对应分布。在IEEE/CVF计算机视觉和模式识别会议论文集，第6749-6758页[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[14] S. Hinterstoisser，S.霍尔泽角Cagniart，S.Ilic，K.科诺利格N. Navab和V.莱珀蒂多模态模板用于在严重杂乱的场景中实时检测无纹理物体。见ICCV，2011年。[15] 托马斯·霍丹丹尼尔·巴拉斯和吉瑞·马塔斯Epos：估计具有对称性的对象的6D姿态。IEEE/CVF计算机视觉和模式识别会议论文集，2020年。[16] Tomm´sˇHodanˇ、FrankMichel、EricBrachmann、WadimKehl、Anders Glent Buch、Dirk Kraft、BertramDrost、Joel Vidal、Stephan Ihrke、Xenophon Zabulis、Caner Sahin

下载后可阅读完整内容，剩余1页未读，立即下载