没有合适的资源?快使用搜索试试~ 我知道了~
快速6D物体姿态优化方法RePOSE
3303RePOSE:基于深度纹理渲染的快速6D物体姿态优化石濑顺1刘兴宇1拉瓦尔·基罗德卡1横田理央2克里斯M. 北谷11卡内基梅隆大学2东京工业摘要我们提出了RePOSE,一个快速迭代细化方法的6D对象姿态估计。现有方法通过馈送放大的输入和渲染的RGB来执行细化。(a)纹理3D模型精细姿势(b)渲染2特征时代(c)第(1)款图像到CNN中,并直接回归更新优雅的姿势由于CNN的计算成本,它们的运行时间很慢,这在多对象姿势细化中尤其突出。为了克服这个问题,RePOSE利用图像渲染,使用具有可学习纹理的3D模型进行快速特征我们称之为深度纹理渲染,它使用浅层多层感知器来直接回归对象的视图不变此外,我们利用不同的Levenberg-Marquardt(LM)优化细化(d)输入图像CNN(e)CNN特征LM最佳选择2细化姿势通过最小化输入和再现图像表示之间的距离而不需要放大来快速和准确地形成姿态。这些图像表示被训练成使得可微分LM优化在几次迭代内收敛。因此,RePOSE以92 FPS运行,并达到51的最高精度。6%在闭塞线MOD数据集上- a 4。相对于现有技术的1%的绝对改进,以及在YCB-Video数据集上具有快得多的运行时 间 的 可 比 较 的 结 果 。 该 代 码 可 在https://github.com/sh8/repose上获得。1. 介绍在6D对象姿态估计的许多应用中,如机器人抓取和增强现实(AR),快速运行时间是至关重要的。现有技术的6D对象姿态估计方法[19,40,28]证明迭代6D对象姿态细化大大提高了准确度然而,由于最近的6D对象姿态细化方法[21,19]直接回归姿态的更新以将对象的放大输入图像与模板图像(例如,例如,在使用卷积神经网络(CNN)对该对象进行3D渲染的情况下,我们假设CNN的我们主要有两种细化策略的如上所述,前一种是基于CNN的直接回归,图1:RePOSE框架:(a)具有深度的3D模型投影纹理以获得(b)利用深度纹理渲染器的渲染图像表示。(c)通过最小化渲染图像表示的投影误差和(e)经由Levenberg-Marquardt(LM)优化从(d)输入图像提取的CNN特征来迭代这通常需要大的计算成本。后者是经典的非线性优化[24],其通过最小化输入和模板图像之间它们的每次迭代的运行时间相当快。由于光度误差明确地考虑到每个像素,因此它们可以获得足够的细节以进行精确的优化,而无需放大。然而,它们可能在不同照明或总体姿态差异下失效尽管非线性最小二乘法(诸如逆合成图像对准[5,22]或主动外观模型[13,23])是非常有效的,但是这种方法的直接实现在显著的照明或姿态变化下可能是不稳定的。此外,如果执行许多迭代直到收敛,则它们的运行时间可能更慢我们利用和改进后一种方法,实现快速和准确的细化。在本文中,我们提出了pose RePOSE,一个新的基于特征的非线性优化框架的6D对象姿态细化。主要技术-深度纹理渲染器3304在这项工作中提出的nical见解是,人们可以学习图像特征表示,这是鲁棒的对齐和快速计算。如前所述,基于CNN的细化方法的主要障碍是必须在细化过程期间迭代地提取深度特征。为了消除这一点,我们表明,它是可能的,使用简单的图形渲染直接渲染深功能。渲染过程将对象的形状与纹理解耦。在渲染时,纹理被映射到3D形状,然后投影为2D图像。代替将RGB值纹理映射到对象,我们可以替代地渲染深度特征纹理。然后,渲染的对象可以直接对准到输入图像的深度特征。通过在渲染期间保留深度特征表示,姿态对准是鲁棒的,并且细化过程变得非常有效。RePOSE通过最小化输入和渲染图像的深度特征之间的距离来细化对象姿势。由于输入图像在迭代细化期间是固定的,因此其特征仅使用CNN计算一次。相比之下,模板图像的深度特征使用简单的计算机图形渲染器直接生成渲染过程花费不到一毫秒,这大大提高了迭代细化过程的速度。学习深度特征表示,使得可以通过可微分LM优化网络轻松执行非线性优化[24]。我们实验发现5次迭代足以收敛,这有助于快速6D对象姿态细化。RePOSE与最近的基于CNN的回归方法相比具有几个实际优势:1)RePOSE可以非常快。- 在1次迭代的情况下,RePOSE对于5个对象以181FPS运行,并且对于1个对象以244FPS运行。2)RePOSE是数据高效的。- 由于RePOSE显式地考虑投影在我们的实验中,我们表明,RePOSE实现了更好的或可比的性能,与现有方法相比,训练图像的数量少得多- 众所周知,RGB纹理扫描在处理金属、深色或透明物体时存在问题,即使使用最新的3D扫描仪也是如此[1]。我们认为,最近基于CNN的回归方法[21,19]对RGB纹理的要求使得在现实世界中的实现更具挑战性。我 们 在 三 个 流 行 的 6D 对 象 估 计 数 据 集 上 评 估RePOSE- LineMOD [15] , 具 有 挑 战 性 的 OcclusionLineMOD [6]和YCB-Video [39]。RePOSE在OcclusionLineMOD(51.6%)[6]数据集上设定了新的最新技术水平,并以更快的速度(80至92FPS,5次迭代)在其他数据集上实现了相当的性能。此外,我们进行消融,以验证我们提出的方法的有效性。2. 相关工作最 近 , Ober-weger [26]、 PVNet [27]、 DPOD [40]和HybridPose [33]已经在使用两阶段流水线来估计姿态的6D对象姿态估计上显示出优异的性能:(i)估计2D表示(例如,关键点、密集对应、边缘向量、对称对应),(ii)用于姿态估计的PnP算法[20,11]DOPE[36]和BB8 [28]估计3D边界框的角并运行PnP算法。PVNet [27]通过最远点采样算法将关键点放置在对象表面上,而不是将角视为关键点。PVNet还表明,他们提出的基于投票的关键点检测算法是有效的,特别是对被遮挡的对象。HybridPose [33]使用多个2D表示,包括关键点,边缘向量和对称对应,并通过约束优化展示了卓越的性能。DPOD [40]利用使用UV图作为2D表示的密集对应然而,由于PnP算法对2D表示中的小误差敏感,因此估计对象姿态仍然具有挑战性,特别是在遮挡下。RePOSE采用PVNet [27]作为使用官方实现的初始姿态估计器。姿态细化网络最近的工作[39,34,40,33,21]已经证明,在初始姿态估计器之后使用姿态细化网络对于6D对象姿态估计是有效的对于实际应用,姿态精化网络的运行时间是至关重要的。PoseCNN [39]和AAE [34]结合了使用深度信息的ICP算法[41],以大约200ms的运行时间来细化姿态。SSD6D [17]和HybridPose [33]提出通过优化重新投影误差的修改来细化姿态。DeepIM[21],DPOD [40]和CosyPose [19]使用放大的输入图像和渲染的对象图像引入了基于CNN的细化回归网络。他们的方法需要3D模型的高质量纹理图来比较图像。然而,它仍然是一个挑战,lenging获得准确的纹理扫描的金属,深色,或透明的对象。NeMO [38]提出了一种使用标准可微分渲染的姿势细化方法,然而,梯度下降用于优化,因此,它需要超过8秒的推理,并且对于实时应用来说不够快。非线性最小二乘优化非线性最小二乘优化广泛用于机器学习。在计算机视觉中,它通常用于找到最小化重投影误差或光度误差的最佳姿态[4,25,32]。最近一些作品[35,37,12]纳入3305XKLevenberg-Marquardt优化∈M {}n=1C{}输入RGB图像F输入弗伦德e=Finp-Frendarg mink杨永2K 2P仅上次迭代次(1.7ms /iter)P参考公升保存仅第一次迭代Pini模板3D模型纹理3D模型图2:RePOSE细化网络概述。给定输入图像I和具有深度纹理的模板3D模型M,U-Net和深度纹理渲染器分别输出特征Finp和Frend我们使用Levenberg-Marquardt优化[24]来获得精确的姿态Pref。N次迭代后的精确姿态P_ref用于计算损失L_ADD(-S)。使用初始姿态估计器的预训练编码器。训练U-Net和深度纹理(种子参数和fc层)的解码器以最小化L_ADD(-S)和L_diff。将Gauss-Newton和Levenberg-Marquardt [24]等非线性最小二乘算法引入深度学习网络,以在VisualSLAM中进行有效的特征优化。RePOSE的灵感来自类似的公式[35]。3. RePOSE:快速6D对象姿态优化给定具有地面实况对象姿态Pgt和模板3D模型M的输入图像I,RePOSE预测与I中的Pgt匹配的模型M的姿态P。 我们使用CNN Φ从图像I提取特征F_inp,即Finp= Φ(I)。RePOSE然后使用可微分Leven实时细化初始姿态估计Pini= Ω(I),其中Ω是任何姿态估计方法,如PVNet[27]和PoseCNN [39]。由解码器提取每像素特征FinpRw×h×d图1(b)提供了从输入图像I提取的Finp的视觉图示。注意,通道深度d是灵活的参数,但是我们发现d= 3是最佳的。PVNet [27]或PoseCNN [39]的预训练权重用于编码器,并且在训练RePOSE时仅训练解码器。3.2.模板3D模型渲染F渲染具有姿态P= R,t的模板3D模型被投影到2D以渲染特征Frend,其中R是3D旋转并且t是3D平移。 假设模板3D模型M={V,C,F}由三角形水密表示。由N个顶点组成的网格V={V n}N其中Vn∈berg–Marquardt (LM) optimization [ RePOSE使用姿势中的可学习深度纹理渲染模板3D模型R3,面F深纹理C.n=1Vn是的3D坐标P来提取特征Frend。通过最小化F_inp与F_rend之间的距离来执行姿态细化。我们现在详细描述(1)F_inp提取,(2)F_rend提取,以及最后(3)使用LM优化的姿态细化3.1.输入图像Finp我们采用U-Net [29]架构用于CNN Φ。解码器为I中的每个像素输出深度特征图。的坐标系中以对象为中心的顶点每个顶点Vn有一个对应的顶点可学习纹理CnRd=CnN,这是学习。注意,顶点可学习纹理d的尺寸必须匹配输入图像特征F_inp的深度尺寸,使得它们可以在对准期间进行比较。RePOSE使用针孔相机投影函数π(齐次到非齐次坐标转换)将3D网格投影到图像平面上。我们特别纹理参数U-Net深度纹理渲染器3306nnnnn∈LL2我 nnnn i=1Σ1其中ek表示误差e∈Rwhd的第k个元素,并且22是Finp和Frend的展平值之间的元素差异。为了有效地执行优化,我们仅使用其中存在Frend的掩模的像素中的误差e我们使用迭代Levenberg-Marquardt(LM)算法解决这个非线性最小二乘问题姿态P的更新规则如下:$∆P=(JT (e)J+λI)−1JT(e)e,(6)图3:将深度纹理光栅化为像素pnPi+1=Pi+ ∆P,(7)作为Ci使用win作为其中J是目标相对于重心坐标系,Σ3wi= 1。使用等式1将顶点Vn映射到v∈R2。FrendFrendvn=π。VnR+tΣn(1)J==P(八)x顶点深度纹理CnR3是可学习的,并且使用2层全连接网络来计算。的其中x是所有2D图像坐标的向量。我们使用有限差分近似和x计算Frend通过光栅化us-xP计算每个像素处的深度纹理如图3所示,在重心坐标w中绘制深度纹理Cn。该操作可以使用GPU来并行化。我们的自定义实现[16]像素位置(x,y)处的Frend(x,y)计算如下:3解析计算。详情请参阅补充资料。我们基于ADD(-S)得分最小化损失函数ADD(-S)LADD(-S)=SADD(-S)(P,P>)(9)Frend(x,y)=Σwi Cii=1(二)其中S是用于计算所用距离的函数在ADD(-S)评分中。 此外,我们还将a其中,通过光线跟踪找到对应于(x,y)处的像素pn的三角形面索引n,并且wi是对应于三角形内的坐标(x,y)的归一化重心权重(图3)。简单地说,渲染的深度特征Frend(x,y)是三个投影顶点的深度纹理的线性组合。frend是端到端可通过反向传播学习的。Frend相对于三角形{Ci}3的三个深纹理的梯度如下:Frend(x,y)= wi.(三)损失函数diff,确保目标当姿态P等于P>时,函数被最小化:d=vec(Finp)- vec(Ψ(Pgt,M)),(10)Ldiff=||D K||二、(十一)K通过LM优化使这两个损失函数最小化,使我们的细化网络能够学习输入图像和渲染对象图像的表示,这有助于预测最佳姿势。Cin注意,F撕裂是非线性函数ΨL=LADD(-S)+αLdiff(12)模板3D模型M及其姿态P,即,其中Ψ是深度纹理渲染器(图2)。3.3. LM优化在计算F_inp(第3.1节)和F_rend(第3.2节)之后,通过最小化以下目标函数来计算最佳姿态P()e=vec(Finp)- vec(Frend),⑷1n$n$nn1科隆n2n姿态P,并且λ是可学习的步长。雅可比矩阵J可以分解为:33072P=argminΣ||杨永||第二条,第(五)项其中α是超参数。我们在算法1中示出了RePOSE框架。注意,LM优化(等式(6)和(7))内的所有操作都是可微的,允许我们使用反向传播来学习深度纹理C和Φ4. 实验4.1. 实现细节我们使用Adam优化器训练我们的模型 [18] APk学习率为1 × 10−3,衰减0。每100个时期5个3308C--VVF C(a) 猿罐头猫钻孔机鸭子蛋盒胶水洞。图4:闭塞LineMOD数据集的示例结果[6]。我们从上到下显示输入的RGB图像、精确的姿势和随着优化的进行,3D边界框的颜色从紫色变为浅绿色。算法一:RePOSE培训=V_ERTICESOF 3DMODEL();=FACESOF3DMODEL();=I初始化tEXTURE参数();#迭代训练数据对于Pini, Pgt,我愿意F输入 =UNET(I);P=Pini;t次做F_end=D_EEP_T_EXTURE_R_ENDER(P,、,);e=vec(Finp) vec(Frend);J=JAcobian(Frend,P,)的情况下;∆P=POSE UPDATE(e,J,P);P=P+ ∆P; #更新姿势Pref=P;L=L_OSS(P_ref,P_gt,V);U PDATE P参数(L, C、UNET);使用网格搜索将F_inp和F_rend中的通道数量d设置为3,并且将LM优化中的迭代t设置为5。我们在LineMOD和Occlusion LineMOD 数 据 集 上 使 用 预 训 练 的 PVNet[ 27 ],在YCB-Video [39]数据集上使用PoseCNN [ 39 ]作为初始姿态估计器Ω。由ResNet-18 [ 14 ]组成的U-Net [ 29 ]的编码器与PVNet和PoseCNN共享其权重,并且只训练解码器的权重。因此,RePOSE可以简单地重用从初始姿态估计器提取的深度特征,这降低了计算成本。在[27]之后,我们还为LineMOD添加了500个合成和融合图像,并为YCB- Video添加了20K合成图像,以避免训练期间的过拟合。根据惯例,为了评估遮挡LineMOD数据集上的分数,我们使用仅使用LineMOD数据集训练的模型。4.2. 数据集所有实验均在LineMOD [15]、遮挡LineMOD [6]和YCB-Video [39]数据集上进行。LineMOD数据集包含在不同照明下的杂乱场景中的小纹理无对象图像中的对象的高质量模板3D模型也被提供用于基于渲染和比较的姿态估计。遮挡LineMOD数据集是LineMOD数据集的一个子集,主要关注被遮挡对象。YCB-Video [39]数据集包含来自YCB对象集[10]的对象的图像。我们使用ADD(-S)[15]和ADD(-S)评分的AUC作为我们的评估指标。4.3. 评估指标ADD(-S)评分。ADD(-S)score [15,39]是一个标准度量,它计算ob-s之间的平均距离使用模板3D模型M的顶点Vi,由预测姿态P={R^ ,t}和地面实况姿态Pgt={Rgt,tgt}变换的对象。距离计算为VF3309Σ1NN0≤j≤Ni gtjgt表1:仅使用RGB的YCB-Video数据集的结果。DeepIM [21]的结果是使用官方的预训练模型计算的,括号内的分数是论文中报告的结果。细化FPS表示仅运行姿态细化网络的FPS。RePOSE w/ track包括用于真实图像的CNN特征提取的运行时。FPS报告了5个对象的细化。度量[21]第27届中国国际汽车工业展览会[22]AUC,ADD(-S)61.374.075.5(81.9)73.484.184.570.579.480.870.180.682.0AUC,ADD-S75.283.183.1(88.1)-89.889.880.485.986.779.987.288.5ADD(-S)21.343.253.6-74.375.641.758.960.340.261.662.1细化FPS-226-2613181111801259071迭代次数-14-12135135表 2 :使 用ADD (-S )评 分将 Linemod 数据 集上 的RePOSE 与 最 近 的 方 法 ( 包 括 PVNet [27] 、 DPOD[40]、Hybrid-Pose [33]和EfficientPose [9])进行比较。#of wins表示该方法在多少个对象中获得最佳得分。表3:使用ADD(-S)评分比较遮挡LineMOD数据集上的RePOSE与最近的方法,包括PVNet [27]、DPOD[40]和HybridPose [33]注意,我们排除了EfficientPose[9],因为它是在Oc- clusion LineMOD数据集上训练的# of wins表示该方法在多少个对象中获得最佳得分。对象PVNetDPODHybridPose高效姿势休止猿43.687.763.189.479.5本齐维塞99.998.599.999.7100相机86.996.190.498.599.2可以95.599.798.599.799.8猫79.394.789.496.297.9司钻96.498.898.599.599.0鸭52.686.365.089.280.3蛋盒99.299.9100100100胶95.798.798.810098.3穿孔器81.986.989.795.796.9铁98.910010099.1100灯99.396.899.510099.8电话92.494.794.998.598.9平均86.395.291.397.496.1获胜次数01268对象PVNetDPODHybridPose休止猿15.8-20.931.1可以63.3-75.380.0猫16.7-24.925.6司钻65.7-70.273.1鸭25.2-27.943.0蛋盒50.2-52.451.7胶49.6-53.854.3穿孔器39.7-54.253.6平均40.847.347.551.6获胜次数0-26遵循;NN我||.Vi+tΣ- (RgtVi+ tgt)||(十三)闭 塞LineMOD 数 据 集 的 最 新 ADD ( -S ) 评 分 。 与PVNet [27]相比,RePOSE成功地细化了所有对象中的初 始 姿 态 估 计 , 实 现 了 9 的 改 进 。 8% 和 10 。 在LineMOD和Occlusion LineMOD数据集上分别为8%在LineMOD数据集上,我们的得分与对于对称对象,如蛋盒和胶水,我们使用以下距离度量,1Σmin||.RV+tΣ−(R V+t )的方式||(十四)我如果该距离小于目标对象的直径的10%,则预测的姿态被认为是正确的。ADD(-S)的AUC计算ADD(-S)中使用的距离的曲线下面积距离大于0的姿势预测。1m不包括在计算AUC中。我们使用ADD(-S)的AUC来评估YCB-Video数据集上的性能[39]。4.4. 定量评价LineMOD和Occlusion LineMOD数据集上的结果。如表2和3所示,RePOSE实现了最先进的高效姿势[9]。关键的区别主要是在猿和鸭上,我们的初始姿态估计器PVNet [27]表现不佳。有趣的 是 , 对 于 像 猿 和 鸭 子 这 样 的 小 物 体 , 在 遮 挡LineMOD数据集中,我们显示出10的显着改进。2和15。1分别优于现有技术HybridPose [33]。YCB-Video数据集上的结果。表1显示了YCB-Video数据集的结果[39]。我们还使用RePOSE作为6D对象跟踪器,使用[21]中提出的跟踪算法进行实验。RePOSE实现了与其他方法相当的性能,其运行时间快4倍,达到80FPS,可细化5个对象。此外,跟踪的结果表明,RePOSE是有用的实时6D对象跟踪器。请注意,评分受合成数据和各种数据增强的使用和数量的严重影响[19]。比如说,Cosy-3310C表4:LineMOD数据集上的特征表示、特征扭曲和细化网络的消融研究。 RGB表示使用光测量误差的姿态细化。FW表示在从CNN提取之后的特征扭曲或在第一次迭代之后的深度纹理渲染。DPOD表示使用DPOD的细化网络和PVNet作为初始姿态估计器。FW、DPOD和RePOSE使用相同的数据集进行训练,我们报告ADD(-S)分数。表5:闭塞LineMOD数据集上的特征表示、特征扭曲和细化网络的消融研究。我们报告ADD(-S)评分,所有其他细节与表4中相同。对象PVNet [27]RGB带固件的DPOD我们的w/FW我们猿15.84.9622.722.025.831.1可以63.35.2266.471.161.380.0猫16.70.1711.721.919.425.6司钻65.761.772.168.371.173.1鸭25.21.8036.530.840.843.0蛋盒50.27.7545.442.447.751.7胶49.61.8845.641.349.454.3穿孔器39.721.540.843.340.253.6平均40.813.142.942.644.551.6Pose [19]在训练过程中使用了100万张合成图像,因此很难进行公平比较然而,我们的方法使用少500倍的训练图像实现了相当的性能。4.5. 消融研究使用PVNet [27]作为初始姿势估计器,在LineMOD和闭塞LineMOD数据集上进行RePOSE的所有消融。我们在表4和5中报告了结果。RGB与深度纹理。而不是使用可学习的深层纹理,我们使用原始RGB图像和扫描颜色的渲染图像进行实验。除了我们使用两个图像之间的光度误差之外,推断都是相同的。表4和表5中报告的实验结果表明,在使用RGB表示的所有对象中,ADD(-S)分数在优化之后如图5所示,LineMOD数据集(a) 猿(b)能(c)鸭图5:输入RGB图像和渲染图像之间对象外观的比较。照明的差异使得RGB空间中的姿态细化具有挑战性。此外,RGB图像可以具有与对象具有相同颜色的区域。该背景噪声成为收敛特性方面的障碍。这些无纹理对象使得计算图像梯度具有挑战性,这对于优化姿态是必不可少的。具有三个主要的挑战,这使得使用光度误差的姿态细化变得困难:1)输入RGB图像和合成渲染之间的照明变化,2)由于无纹理对象而导致的差的图像梯度,3)背景混淆,即背景颜色类似于对象的颜色。ADD(-S)分数下降主要是由于这些关键原因。相反,具有可学习深度纹理的RePOSE能够在几次迭代内收敛,因为深度纹理对上述挑战的鲁棒性表4和表5清楚地证明了我们的可学习深度纹理相对于使用模板3D模型的扫描颜色的有效性。CNN与Feature Warping vs Feature Rendering。特征扭曲(FW)通常用于通过非线性最小二乘法(诸如Gauss-Newton或Levenberg-Marquardt方法[3,2])来最小化摄影或特征度量误差。我们进行了一个实验,比较CNN与特征扭曲和我们提出的特征渲染使用深度纹理渲染器。在具有特征扭曲的CNN中,在模板3D模型的归一化合成渲染上使用CNN以与F_inp相同的方式提取F_rend。这仅完成一次,之后基于每次迭代时的更新的姿势来扭曲特征。结果示于表4和5中。在LineMOD数据集上,我们通过特征扭曲平均观察到小的改进。ADD(-S)分数仅允许姿态估计器具有平均顶点距离er。对象PVNet [27]RGBCNN w/ FWDPOD我们的w/FW我们猿43.65.8165.451.275.979.5本齐维塞99.975.699.899.5100 100相机86.97.0696.391.1九十八点二九十九点二可以95.53.0599.195.7九十九点四九十九点八猫79.33.0088.692.492.797.9司钻96.480.97.698.298.799鸭52.60.0076.271.384.680.3蛋盒99.28.6496.499.9100 100胶95.75.4097.297.698.298.3穿孔器81.918.777.289.795.196.9铁98.940.798.797.999.7100灯99.334.991.895.5一百九十九点八电话92.414.694.997.2九十八点七九十八点九3311误差为物体直径的10%。在该任务中,这意味着在2D图像空间中仅允许2至3个然而,训练CNN以提取具有细粒度姿态细化所需的准确图像梯度的特征相反,我们的深度纹理渲染器可以计算准确的梯度,因为模板3D模型上的邻域顶点不是强相关的。该局部约束对于快速且准确的姿态细化是至关重要的。此外,我们进行了额外的实验,以验证功能扭曲的效果。 为此,我们基于更新的姿势(我们的w/ FW)扭曲由深度纹理渲染器提取的特征。表4中的结果显示,在LineMOD数据集[15]上,我们的w/FW相对于PVNet [27]实现了9.2%的绝对改进然而,表5证明了闭塞LineMOD数据集[6]的有限能力。从这个结果中,我们发现,翘曲有一个较差的影响细化闭塞的对象。我们推测,这种差异来自于这样一个事实,即翘曲不能处理大的姿态误差,因为与我们提出的RePOSE不同,特征翘曲只能在第一步考虑可见表面。与特征变形方法不同,本文提出的迭代深度纹理绘制方法可以生成具有完整形状的特征。我们相信特征渲染的这种特性导致成功的姿势细化。与LineMOD数据集上的最新精化网络进行比较。我们将我们的细化网络与DPOD [40]论文中提出的最新完全基于CNN的细化网络进行了比较。在这个实验中,我们使用相同的初始姿态估计器[27]。由于DPOD完全基于CNN,我们将数据集的数量增加了两倍。DPOD的细化网络基于裁剪的输入RGB图像和具有初始姿态估计的合成渲染来输出细化的姿态表4和表5中的实验结果显示,当用少量数据集训练时,DPOD未能很好地细化姿势DPOD的细化网络直接估计细化的姿态,而不显式地考虑投影几何。这意味着他们的网络不仅需要学习深度特征,还需要从训练数据中将深度特征映射到对象的姿态。几篇论文[7,31,8,30]报告说,学习一个不太复杂的任务可以在6D相机定位任务中实现更好的此外,我们假设遮挡LineMOD数据集上的低ADD(-S)分数我们的网络只训练深层特征,通过求解基于射影几何的最小化问题来获得精确的对象从这个实验结果,我们相信在6D相机定位领域中提出的相同原理在6D对象姿态估计中仍然有效。表6:迭代次数和细化运行时间的比较本表报告了闭塞LineMOD数据集上的ADD(-S)。我们提出的网络通过使用姿势损失进行5次迭代来训练。方法迭代ADD(-S)评分运行时AAE [40]--200 MsSSD6D [40]--24毫秒DPOD [40]-47.35 ms040.80ms145.74.1 ms我们248.65.8毫秒350.17.5 ms451.09.2毫秒551.610.9毫秒迭代次数和运行时分析。我们提出的精化网络RePOSE可以通过改变迭代次数来调整精度和运行时间之间的权衡。 我们在表6中示出了具有每个迭代计数的遮挡LineMOD数据集上的ADD(-S)分数和运行时间。在配备Nvidia RTX2080 Super GPU和Ryzen 7 3700X CPU的机器上,我们的方法需要1. 每次迭代7ms(深度纹理渲染+通过LM优化的姿态更新[24])。该结果表明,我们的方法以比现有技术更快或相当的运行时间实现了更高的性能。5. 结论实时位姿估计需要准确快速的位姿细化。我们提出的方法,RePOSE使用高效的深度纹理渲染器,以92FPS执行姿态优化,并作为一个实时6D对象跟踪器的实际应用。我们的实验表明,可学习的深度纹理加上有效的非线性优化结果在准确的6D对象构成。此外,我们的消融突出了卷积神经网络提取对姿势细化有用的关键信息的基本限制。我们认为,使用具有可学习的深度纹理的高效渲染器而不是CNN进行姿态优化的概念6. 确认这项工作的部分资金来自国土安全部2017-DN-077-ER 0001 , JST AIP 加 速 , 拨 款 号 JPMJCR 20 U1 和JSTCREST,拨款号JPMJCR 19 F5,日本。3312引用[1] Einscan pro 2x:https://www.einscan.com/handheld-3d-scanner/einscan-pro-2x/. 二个[2] 捆绑调整-一个现代的综合。在视觉算法国际研讨会的进展中:理论与实践,2000年。七个[3] 放 大 图 片 创 作 者 : David M.Seitz 和 RichardSzeliski。大捆调整。ECCV,2010年。七个[4] Hatem Said Alismail Brett Browning和Simon Lucey基于视觉的slam的光度光束法平差。InACCV,2016. 二个[5] 西蒙·贝克和伊恩·马修斯。卢卡斯-卡纳德20年来:统一的框架。InIJCV,2004. 一个[6] Eric Brachmann,Alexander Krull,Frank Michel,Ste-fan Gumhold , Jamie Shotton , and CarstenRother.使用3d对象坐标学习6d对象姿态估计2014年,在ECCV。二、五、八[7] Eric Brachmann 、 Alexander Krull 、 SebastianNowozin 、Jamie Shotton、 Frank Michel 、 StefanGumhold和Carsten Rother。DSAC-用于相机定位的可微分RANSAC。在CVPR,2016年。8[8] Eric Brachmann和Carsten Rother。学习越少越好-通过3d表面回归的6d相机定位。在CVPR,2018年。八个[9] 雅尼克·巴克夏和马库斯·维特。有效姿势:一种高效、精确、可扩展的端到端6d多目标姿态估计方法。在CoRR中,2020年。六个[10] Berk Calli 、 Arjun Singh 、 Aaron Walsman 、Siddhartha Srinivasa、Pieter Abbeel和Aaron M.美元. ycb对象和模型集:为操纵研究建立共同的基准点。InICAR,2015. 五个[11] 陈波,阿尔瓦罗·帕拉,曹楠,秦达俊。通过反向传 播 pnp 优 化 的 端 到 端 可 学 习 几 何 视 觉 。 在CVPR,2020年。二个[12] Ronald Clark、Michael Bloesch、Jan Czarnowski、Ste-fan Leutenegger和Andrew J.戴维森学习解决单目立体的非线性最小二乘。在ECCV,2018。二个[13] T. F. Cootes,G. J. Edwards和C. J·泰勒活动外观模型。《欧洲儿童保育公约》,1998年。一个[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,andJian Sun. 用 于 图 像 识 别 的 深 度 残 差 学 习 。 在CVPR,2016年。五个[15] 斯特凡·欣特斯托伊瑟,文森特·莱佩蒂特,斯洛博丹·伊利克,斯特凡·霍尔泽,加里·布拉德斯基,库尔特·科诺利格,还有纳斯·纳瓦布爵士.基于模型的训练,检测和姿态估计的无纹理三维物体在严重杂乱的场景。InACCV,2012. 二、五、八3313[16] Hiroharu Kato 、 Yoshitaka Ushiku 和 TatsuyaHarada。 神经三维网格渲染器。 在CVPR,2018年。 4[17] WadimKehl , FabianManhardt , FedericoTombari, Slobodan Ilic, and Nassir Navab.Ssd-6d:使基于rgb的3 d检测和6 d姿态估计再次变得伟大InICCV,2017. 二个[18] 迪德里克山口金玛和吉米·巴。亚当:一种随机优化方法。2015年,国际会议。四个[19] Y. Labbe,J.Carpentier,M.Aubry和J.西维克舒适姿势:一致的多视图多对象6D姿势估计。在ECCV,2020年。一、二、六、七[20] Vincent Lepetit 、 Francesc Moreno-Noguer 和 Pascal Fua。Epnp :pnp 问题的精确O(n)解。IJCV,2009年。二个[21] 易离,顾望,向阳季,于翔,迪特尔福克斯。Deepim:深度迭代匹配6D姿态估计。在ECCV,2018。一、二、六[22] 布鲁斯·D卢卡斯和金田健夫。一种迭代图像配准技术及其在立体视觉中的应用。载于IJCAI,1981年。一个[23] 伊恩·马修斯和西蒙·贝克。主动外观模型重新审视。编号CMU-RI-TR-03-02,Pitts-burgh,PA,2003。一个[24] Jo r geJ. 莫雷埃。Levenbe rg-Marquardt算法:实现和理论。数值分析,1978年。一二三八[25] R. Mu r-Artal,J. M. M. 蒙铁尔和J。D. 塔尔多。ORB-SLAM:一种多功能、精确的单目SLAM系统。在T-RO,2015年。二个[26] Markus Oberweger , Mahdi Rad , and VincentLepetit.使深度热图对3d对象姿态估计的部分遮挡具有鲁棒性在ECCV,2018。二个[27] 彭思达,刘晓伟,包虎军。Pvnet:用于6自由度姿态估计的像素投票网络。在CVPR,2019年。二、三、五、六、七、八[28] 马赫迪·拉德和文森特·莱佩蒂特Bb8:一种可扩展的、准确的、对部分遮挡鲁棒的方法,用于在不使用深度的情况下预测具有挑战性的对象的3D姿态。InICCV,2017. 一、二[29] O. Ronneberger,P.Fischer,and T.布洛克斯U-Net : 用 于 生物 医 学 图 像 分 割的 卷 积 网 络 在MICCAI,2015年。三、五[30] Torsten Sattler,B. Leibe和L.科比特大规模图像定位的高效优先匹配。PAMI,2017年。八个[31] Torsten Sattler,Qunjie Zhou,Marc Pollefeys,and Laura Leal-Taixe.了解基于cnn的绝对相机姿态回归的局限性。在CVPR,2019年。八个3314[32] J. L. Schoünbe r ger和J. 弗拉姆结构从运动重新审视。在CVPR,2016年。二个[33] 宋家如和黄七星。Hybridpose:混合表示下的6d对象姿态估计。在CVPR,2020年。二、六[34] Martin S
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功