没有合适的资源?快使用搜索试试~ 我知道了~
……………1107100LatentFusion:端到端可微重建和渲染用于未知物体姿态估计0Keunhong Park 1,2 � Arsalan Mousavian 2 Yu Xiang 2 Dieter Fox 1,201华盛顿大学2NVIDIA01.重建和渲染0参考0建模器0潜在物体02.姿态估计0姿态0基于图像的渲染器0RGB0查询(RGB+掩码+深度)0�姿态0渲染器0预测的深度0查询深度0梯度0新的姿态0渲染器0深度+掩码0图1:我们提出了一个端到端的可微重建和渲染流程。我们使用这个流程以渲染和比较的方式对未知物体进行姿态估计,使用简单的梯度更新。0摘要0当前的6D物体姿态估计方法通常需要每个物体的3D模型。这些方法还需要额外的训练来纳入新的物体。因此,它们很难扩展到大量物体,并且不能直接应用于未知物体。我们提出了一种新颖的框架来估计未知物体的6D姿态。我们提出了一个网络,在推理时使用少量参考视图重建物体的潜在3D表示。我们的网络能够从任意视角渲染潜在的3D表示。使用这个神经渲染器,我们可以根据输入图像直接优化姿态。通过使用大量的3D形状进行重建和渲染的训练,我们的网络对未知物体具有很好的泛化能力。我们提出了一个用于未知物体姿态估计的新数据集-MOPED。我们在MOPED以及ModelNet和LINEMOD数据集上评估了我们的方法对未知物体姿态估计的性能。我们的方法在这些物体上的性能与经过训练的监督方法相当。代码和数据将在https://keunhong.com/publications/latentfusion/上提供。01.引言0物体的姿态定义了它在空间中的位置和方向。物体的姿态通常由3D方向(旋转)和平移组成,共有六个自由度(6D)。了解物体的姿态是0�作者在NVIDIA实习期间完成的工作。0对于涉及与真实世界物体交互的任何应用来说,6D姿态估计对于机器人操纵物体至关重要。例如,在增强现实中,6D姿态估计可以实现虚拟与真实世界物体的交互和重新渲染。为了估计物体的6D姿态,目前最先进的方法[49,8,45]需要每个物体的3D模型。基于渲染的方法[42]通常需要高质量的3D模型,通常是使用3D扫描设备获得的。尽管现代的3D重建和扫描技术(如[26])可以生成物体的3D模型,但通常需要大量的工作。很容易看出,为每个物体构建一个3D模型是不可行的任务。此外,现有的姿态估计方法需要在不同的光照条件和遮挡下进行广泛的训练。对于训练多个物体的单个网络的方法[49],随着物体数量的增加,姿态估计的准确性显著下降。这是由于物体外观在不同姿态下的大变化所致。为了解决这种退化模式,一些方法为每个物体训练一个单独的网络[42,41,8]。这种方法在大量物体上不可扩展。无论是使用单个网络还是多个网络,所有基于模型的方法都需要对不在训练集中的未知测试物体进行广泛的训练。在本文中,我们研究了在6D物体姿态估计中构建3D物体表示的问题,而不需要3D模型,并且在测试时不需要对未知物体进行额外的训练。我们方法的核心是一种新颖的神经网络,它接受一组具有已知姿态的目标物体的参考RGB图像,并在内部构建一个3D107110物体的表示。利用3D表示,网络能够渲染物体的任意视角。为了估计物体的姿态,网络通过梯度下降的方式将输入图像与其渲染图像进行比较,寻找最佳姿态,使得渲染图像与输入图像匹配。将网络应用于未见过的物体只需要使用传统技术[26]收集具有注册姿态的视图,并将其中的一小部分视图与相关姿态输入到网络中,而不是为新物体进行训练,这需要时间和计算资源。我们的网络设计受到空间雕刻[18]的启发。我们通过计算2D潜在特征并使用受[27]启发的反投影单元将其投影到规范的3D体素空间中,构建物体的3D体素表示。这个操作可以解释为在潜在空间中进行空间雕刻。通过将潜在体素表示旋转到新视角并将其投影到2D图像空间中,进行新视角的渲染。利用投影的潜在特征,解码器首先预测查询视角下物体的深度图,然后通过组合不同参考视图上对应像素的像素值为每个像素分配颜色,生成新的视角图像。为了重建和渲染未见过的物体,我们在ShapeNet数据集[4]上训练网络,该数据集使用来自MS-COCO数据集[21]的图像进行随机纹理,并在随机光照条件下进行训练。我们的实验证明,网络可以推广到新的物体类别和实例。对于姿态估计,我们假设感兴趣的物体是通过通用的物体实例分割方法(如[50])进行分割的。通过找到最小化预测渲染图像与输入图像之间差异的6D姿态,估计物体的姿态。由于我们的网络是可微分的渲染器,我们通过直接计算损失相对于物体姿态的梯度来进行优化。图1说明了我们的重建和姿态估计流程。我们方法的一些关键优势是:01. 捕捉的便利性 -我们仅使用少量参考图像进行姿态估计,而不是3D扫描;02. 对外观的鲁棒性 -我们从图像中创建潜在表示,而不是依赖于具有固定外观的3D模型;03. 实用性 -我们的零样本公式只需要一个神经网络模型来处理所有物体,并且对于新物体不需要进行训练。0此外,我们引入了无模型物体姿态估计数据集(MOPED),用于在零样本设置中评估姿态估计。现有的姿态估计基准提供3D模型和渲染的训练图像序列,但通常不提供非正式的真实世界参考图像。0MOPED提供了注册的参考和测试图像,用于在零样本设置中评估姿态估计。02. 相关工作0姿态估计。姿态估计方法可以分为三大类。第一类通过设计网络架构来促进姿态估计[25, 17,15]。第二类通过预测一组2D图像特征来制定姿态估计,例如3D盒子角点的投影[42, 45, 14,33]和物体中心方向的预测[49],然后利用这些预测恢复物体的姿态。第三类通过将3D模型的渲染与图像对齐来估计物体的姿态。DeepIM[20]训练了一个神经网络来将物体的3D模型与图像对齐。另一种方法是学习一个可以重建具有不同姿态的物体的模型[41,8]。然后,这些方法使用物体的潜在表示来估计姿态。这一系列工作的局限性在于,它们需要为每个物体类别单独训练自动编码器,并且在物体类别之间缺乏知识转移。此外,这些方法需要每个物体的高保真纹理3D模型,这在实践中并不容易构建,因为它涉及到专门的硬件[37]。我们的方法解决了这些局限性:我们的方法使用一组具有注册姿态的参考视图而不是3D模型。在没有额外训练的情况下,我们的系统从参考视图中构建了一个潜在表示,可以渲染成任意视角的彩色和深度图像。与[41,8]类似,我们寻求找到一个最小化查询物体和测试图像之间潜在空间差异的姿态。可微分网格渲染器已经用于姿态估计[29, 5],但仍需要3D模型,未解决获取问题。03D形状学习和新视角合成。最近,对于在类别级别推断物体形状的研究引起了很多关注。形状几何学已经以体素[6]、有符号距离函数(SDFs)[30]、点云[51]以及由神经网络编码的隐式函数的形式进行表示[39]。这些方法在类别级别进行训练,只能表示在它们训练的类别内的不同实例。此外,这些模型只捕捉了物体的形状,而没有对物体的外观进行建模。为了克服这个限制,最近的研究[28, 27,39]从神经3D潜在表示中解码外观,这些表示尊重投影几何学,在新视角上具有很好的泛化性能。新视角是通过将3D潜在表示进行变换并投影到2D来生成的。然后解码器根据投影特征生成新视角。一些方法找到最近邻的形状代理并推断出高质量的外观,但无法处理新的类别[46, 32]。可微分………………K =1071202DU-Net02Dà3D03DU-Net01. 重建0视图特征0(物体帧)0输入0(RGB + Mask)03D变换0视图融合0潜在物体0(物体帧)03D变换03DU-Net03Dà2D02DU-Net0视图特征(相机帧)03D物体(相机帧)0相机参数02. 渲染0输出0(深度 + Mask)0相机参数0图2:我们架构的高级概述。1)我们的建模网络接收图像和掩码,并为每个输入视图预测一个特征体积。然后,融合模块将预测的特征体积融合成一个单一的规范化潜在物体。2)给定潜在物体,我们的渲染网络为任何相机姿态生成深度图和掩码。0渲染[19, 27,22]系统试图以可微分的方式实现渲染过程(光栅化和着色),以便梯度可以在神经网络中传播。这种方法可以用于直接优化姿态或外观等参数。当前的可微分渲染方法受到实现复杂外观模型的困难和需要3D网格的限制。我们希望通过创建一个不需要3D网格的可微分渲染流程,而是通过从少量参考图像构建体素化潜在表示来结合这些方法的优点。0多视图重建。我们的方法受到多视图重建方法的启发。它最类似于空间雕刻[18],可以看作是其潜在空间扩展。诸如[26,47]的密集融合方法从RGB-D序列生成物体的密集点云。最近的研究[44,43]探索了从不对齐视图中学习物体表示的方法。这些方法在给定图像的情况下恢复粗略的几何和姿态,但对于单个物体类别需要大量的训练数据。我们的方法建立在这两种方法的基础上:我们训练一个网络来重建一个物体;然而,与其按对象或按类别进行训练,我们在推理时提供多个参考图像来创建一个可以从新视角渲染的3D潜在表示。03. 概述0我们提出了一个端到端的新视角重建和姿态估计系统。我们将我们的系统分为两个部分。第4节描述了我们的重建流程,它以少量的参考图像作为输入,并产生一个可以从新视角渲染的灵活表示。我们利用多视图一致性构建潜在表示,不依赖于特定类别的形状先验。这个关键的架构决策使得我们能够超越训练对象的分布进行泛化。我们展示了我们的重建流程可以实现...0准确地从真实图像中重建看不见的物体类别。在第5节中,我们使用我们的神经渲染器来制定6D姿态估计问题。由于我们的渲染过程是完全可微的,我们直接优化相机参数,而无需额外的训练或新对象的代码本生成。0相机模型。在本文中,我们使用透视针孔相机模型和内部矩阵0� f u 0 u 0 0 fv v 0 0 0 10� , (1)0以及齐次外部矩阵E = [R |t],其中fu和fv是焦距,u0和v0是相机主点的坐标,R和t分别是相机的旋转和平移。我们还定义了一个视口裁剪参数c=(u−,v−,u+,v+),它表示像素坐标中物体周围的边界框。为了简洁起见,我们将这些相机参数的集合称为θ = {R, t, c}。04. 神经重建和渲染0给定一组N个参考图像,带有相关的物体姿态和物体分割掩码,我们试图构建一个能够以任意相机参数渲染的物体表示。借鉴最近方法[28,39]的成功,我们将物体表示为潜在的3D体素网格。这种表示可以直接使用标准的3D变换进行操作,自然地适应我们对新视图渲染的要求。我们的方法概述如图2所示。我们的重建流程中有两个主要组成部分:1)通过预测逐视图特征体积并将它们融合成单一的规范化潜在表示来对物体进行建模;2)将潜在表示渲染为深度和颜色图像。107130物体中心(� #)0近平面 (� &− �)0远平面 (�& + �)0物体半径 �0�0�0�0� &0� = (� . , � . , � 1 , � 1)0图3:建模网络计算的M×M×M逐视图特征体积对应于深度限定的相机视锥。图像平面上的蓝色框由相机裁剪参数c =(u−,v−,u+,v+)确定,并与深度一起确定视锥的边界。04.1. 建模0我们的建模步骤受到空间雕刻[18]的启发,我们的网络接收多个视图的观测,并利用多视图一致性构建规范化表示。然而,我们不使用光度一致性,而是使用潜在特征来表示每个视图,这使得我们的网络能够学习对这个任务有用的特征。0逐视图特征。我们首先为每个输入视图Ii∈{I1,...,IN}生成一个特征体积。每个特征体积对应于输入相机的相机视锥,由视口参数c=(u−,v−,u+,v+)和深度范围z∈[zc−r,zc+r]界定,其中zc是到物体中心的距离,r是物体的半径。图3说明了逐视图特征的生成过程。与[38]类似,我们使用U-Net[34]来保留空间结构的特性。我们首先通过2DU-Net将输入xi(RGB图像Ii,二进制掩码Mi和可选的深度Di)传递给计算2D特征gpix(xi)∈RC×H×W。然后,反投影单元(p↑)将2D图像特征提升到3D体积特征,将2D通道维度分解为3D通道维度C' =C/D和深度维度D。这个反投影操作是[27]中提出的投影单元的精确相反操作。然后,将提升的特征通过3D U-Netgcam传递,为相机生成体积特征:Φi = gcam ◦ p↑ ◦gpix(xi)∈RC'×M×M×M。0相机到物体坐标。我们的特征体积中的每个体素表示3D空间中的一个点。根据最近的工作[27, 28,38],我们直接使用刚性变换来转换我们的特征体积。考虑一个连续函数φ(x)∈RC',定义我们的相机空间潜在表示,其中x∈R3是相机坐标中的一个点。特征体积Φ是这个函数的离散样本。这个在物体空间中的表示由ψ(x') =φ(W-1x')给出,其中x'是物体坐标中的一个点。0坐标和W = [R |t]是物体到相机的外部矩阵。我们通过对每个物体空间体素坐标x'ijk进行采样φ(W-1x'ijk)来计算物体空间体积ˆΨ。在实践中,这是通过三线性采样体素网格和填充超出范围的值来完成的。给定这个变换操作Tc→o,物体空间特征体积由ˆΨi = Tc→o(Φi)给出。0视图融合。现在我们有一组与输入视图相关联的特征体积ˆΨi∈{ˆΨi,...,ˆΨN}。我们的融合模块f将所有视图融合成一个规范特征体积:Ψ =f(ˆΨ1,...,ˆΨN)。简单的通道平均池化可以得到良好的结果,但我们发现使用递归神经网络(RNN)按顺序集成每个体积,类似于[38],稍微提高了重建精度(见第6.5节)。使用递归单元使得网络可以保留和忽略来自不同视图的特征,与平均池化相反。这有助于在不同视图之间进行比较,使网络能够执行类似于空间雕刻中使用的光度一致性准则的操作[18]。我们使用卷积门控循环单元(ConvGRU)[1],使得网络可以利用空间信息。04.2. 渲染0我们的渲染模块接受融合的物体体积Ψ并根据任意的相机参数θ进行渲染。理想情况下,渲染模块应该直接回归出一张彩色图像。然而,通过神经网络保留高频细节是具有挑战性的。U-Net[34]在等效尺度层之间引入跳跃连接,允许高频空间结构传播到网络的末端,但在存在3D变换的情况下如何添加跳跃连接尚不清楚。现有的工作,如[38,23],为每个场景训练一个单独的网络,允许解码器记忆高频信息,而潜在表示编码状态信息。在没有跳跃连接的情况下尝试预测颜色会导致模糊的输出。我们通过首先渲染深度,然后使用基于图像的渲染方法生成彩色图像来避免这个困难。0解码深度。深度是一种3D表示,使得网络更容易利用我们提供的几何结构。此外,与颜色相比,深度往往在局部上更平滑,允许更多的信息被紧凑地表示在一个体素中。我们的渲染网络是重建网络的简单反转,并且与Render-Net[27]有许多相似之处。首先,我们通过一个小的3DU-Net(hobj)将规范的物体空间体积Ψ传递,然后使用第4.1节中描述的方法将其转换为相机坐标。我们使用物体到相机外部矩阵E而不是逆矩阵E-1进行变换。第二个E−1u−u0fu z, vnetwork scale-invariant, we ‘zoom’ into the object such thatall images appear to be from the same distance. This is done1071403D U-Net(hcam)然后解码生成的体积以产生特征体积:Ψ' = h cam ◦To→c ◦ h obj(Ψ),然后使用投影单元(p↓)从[27]将其展平为2D特征网格Φ' = p↓(Ψ'),首先将深度维度合并到通道维度,然后应用1x1卷积。生成的特征由一个2D U-Net(hpix)解码,其中包括深度(h depth)和分割掩模(hmask)的两个输出分支。渲染网络的输出由y depth(Φ') =h depth ◦ h pix(Φ')和y mask(Φ') = h mask ◦ hpix(Φ')给出。0基于图像的渲染(IBR)。我们使用基于图像的渲染[36]利用参考图像来预测输出颜色。给定输出视图的相机内参K和深度图,我们可以恢复每个输出像素(u,v)的3D物体空间位置X=0fvz,z,1�T,可以转换为0对于每个输入相机θi={Ki,Wi},我们将输入图像帧表示为xi'=KiWiX。然后,输出像素可以复制相应输入像素的颜色,从而产生一个重投影的彩色图像。由于遮挡,重投影图像将包含无效像素。有多种策略可以对每个像素进行加权,包括1)根据重投影深度误差加权,2)根据输入和查询相机之间的相似性加权,3)使用神经网络。第一种选择在存在深度误差或薄表面时会产生伪影。第二种方法可以得到合理的结果,但对于中间视图会产生模糊的图像。我们选择第三个选项。根据深度融合[10]的方法,我们训练一个网络来预测每个重投影输入I'i的混合权重Wi:Io=�0iWi⊙I'i,其中⊙表示逐元素乘积。混合权重由一个2DU-Net预测。该网络的输入包括1)我们重建流程预测的深度,2)每个重投影输入图像I'i,以及3)基于输入和查询姿态之间角度的视图相似性分数s。04.3. 实现细节0训练数据。我们在ShapeNet[4]的形状上训练我们的重建网络,该数据集包含约51,300个形状。为了高效加载数据,我们排除了大型模型,剩下约30,000个模型。我们使用Blender的智能UV投影[3]生成UV贴图以便进行纹理贴图。我们将所有模型归一化为单位直径。渲染时,我们从MS-COCO[21]中随机选择一张图像作为模型的每个组件。我们使用Beckmann模型[2]进行渲染,参数随机化,并且以0.5的概率渲染均匀着色的物体。0网络输入。我们以640×480的分辨率生成训练数据。然而,我们网络的输入是固定尺寸的128×128。这样可以保持输入的一致性和0fvdh)其中(w,h)是当前图像的宽度和高度,d是到质心co(见图3)的距离,(w',h')是期望的输出尺寸,d'是期望的'缩放'距离和围绕物体质心投影到图像坐标(cu,cv)的裁剪。这定义了视口参数c=(cu-wb/2,cv-hb/2,cu+wb/2,cv+hb/2)。裁剪后的图像被缩放为128×128。0训练。在每次训练迭代中,我们采样一个3D模型,然后采样16个随机参考姿态和16个随机目标姿态。每个姿态通过均匀采样单位四元数和平移来采样,以使物体保持在画面内。我们使用Adam优化器[16]进行网络训练,学习率固定为0.001,迭代次数为1.5M。每个批次包含20个物体,16个输入视图和16个目标视图。我们使用L1重建损失来计算深度,并使用二元交叉熵损失来计算掩码。我们将这些损失应用于输入视图和输出视图。我们在每次迭代中随机定向我们的规范坐标系,通过均匀采样一个随机单位四元数来实现。这样可以防止网络过度拟合我们潜在的体素变换的实现。我们还对颜色输入添加运动模糊、颜色抖动和像素噪声,并使用与[24]相同的过程对输入掩码添加噪声。05.物体姿态估计0给定一张图像I和一个深度图D,姿态估计系统提供一个旋转矩阵R和一个平移向量t,它们共同定义了一个物体到相机的坐标变换E=[R|t],称为物体姿态。在本节中,我们描述了如何使用我们在第4节中描述的重建流程直接优化姿态。我们首先使用前向推理找到一个粗略的姿态,然后使用梯度优化对其进行细化。0公式化。姿态由旋转R和平移t定义。我们的公式还包括在第3节中定义的视口参数c。定义视口可以在将输入传递给重建网络的同时提供尺度不变性。我们将旋转编码为四元数q,将平移编码为t。假设我们有一个RGB图像I,一个对象分割掩膜M和深度D,构成输入x = {I, M, D}。05.1. 损失0为了估计姿态,我们必须提供一个衡量姿态质量的准则。我们使用四个损失函数。其中一个是标准的L1深度重建损失Ldepth(D�, D) = ∥D� -D∥1,用于消除对象尺度并衡量预测深度D与输入深度D�的匹配程度。我们还使用�.(3)a.b.a.b.c.107150像素级的二进制交叉熵损失Lmask,以及交并比(IoU)损失Liou(M�, M) = log U - logI,其中U是并集中像素的总和,I是掩膜M�和M的交集中像素的总和。最后,我们引入一种新颖的潜在损失,利用我们的重建网络F。给定输入x = {I, M,D},潜在对象Ψ和姿态θ,潜在损失定义为Llatent(x, θ; Ψ)= ∥Hθ(Gθ(x)) -Hθ(Ψ)∥1,其中Hθ是渲染网络直到投影层,Gθ是建模网络,如第4节所述。与基于自动编码器的方法(如[41,8])不同的是,该损失不是在对象上训练的,而是直接给出图像和相机姿态。我们的姿态估计问题可以表示为:0argmin θ Ldepth + λLlatent + γLmask + ηLiou,(2)0其中λ、γ、η是损失的权重。为了清晰起见,省略了损失的参数。0参数化。我们将旋转参数化为对数四元数形式ω = (0, ω1,ω2, ω3),确保所有参数的更新都产生有效的单位四元数:0q = exp(ω) = � cos ∥ω∥ ω0∥ω∥ sin ∥ω∥0粗略初始化。尽管我们有一个可微分的渲染器,但姿态空间是非凸的,使用基于梯度的优化时可能会导致不良的局部最小值。因此,我们通过计算粗略估计来引导姿态。这也有助于加速推理,因为它只需要前向评估。我们首先将对象的平移估计为作为掩膜边界框c和相应深度值定义的边界立方体的质心。我们使用估计的平移初始化k个姿态。为了获得可能方向的良好覆盖,我们使用Fibonacci格点[9]均匀采样方位角和俯仰角,然后均匀采样一个随机偏航角。我们使用交叉熵方法[7]来优化平移和对数四元数参数,并使用高斯混合模型作为概率分布。0姿态优化。我们的整个流程是可微分的端到端的。因此,我们可以使用梯度优化来优化公式(2)。给定潜在对象Ψ和粗略的姿态估计θ,我们计算损失并将梯度传播回相机姿态。这一步只需要渲染网络,不使用建模网络。图像渲染网络在这一步也不被使用。我们使用Adam[16]来联合优化旋转q、平移t和视口c。01. 目标图像 2. GT深度 3. 我们的深度 4. 深度误差05.37° 误差01.74° 误差0图4:ModelNet实验的两个示例。(1)目标图像,(2)真实深度,(3)优化预测深度,(4)地面真实值和我们的预测之间的L1误差。(a)说明了深度误差较低的姿态仍然可能导致相对较高的角度误差。0目标图像 预测颜色 目标深度0预测深度 深度误差0图5:MOPED数据集上的定性结果。06.实验0我们在LINEMOD [11]、ModelNet[48]和我们的新数据集MOPED上评估我们的方法。我们旨在评估对未见过的物体的姿态估计准确性。06.1.评估指标0我们使用四个主要的评估指标。1)(k◦,kcm):如果姿态在离目标姿态k◦和kcm之间,则认为姿态正确,其中角度度量是方向之间的角度。2) ADD[12]:通过由真实姿态和预测姿态变换后的点之间的平均距离来计算。3)ADD-S:对ADD进行的修改,计算到最近点的平均距离,而不是与真实点的距离,以考虑对称物体。4)Proj.2D:真实姿态和预测姿态的投影点之间的像素距离。06.2.LINEMOD数据集上的实验0我们在LINEMOD数据集上评估我们的方法。我们将结果与DeepIM [20]和pix2pose[31]进行比较。这两种方法都是在LINEMOD数据集上训练的。DeepIM使用3D模型在线调整姿态。我们不在数据集上进行训练。相反,在推理时,我们的网络给出每个物体的16个参考视图。我们在推理时使用提供的分割掩码。我们遵循[13]的训练/测试划分和(5◦, 5cm)ADD (0.1d)Proj2D (5px)ADD15.9125.0040.3855.3558.6755.81ADD-S63.1475.9185.6287.7287.4588.70Proj.2D8.6815.4328.4138.8743.3538.45ADDADD-SProj.2Da.b.c.e.d.f.g.h.i.j.k.107160表1:LINEMOD上的评估。我们报告ADD召回指标[12],与DeepIM和pix2pose进行比较。对称物体用�表示,如果姿态沿z轴翻转,则认为姿态正确。0方法 输入 猿 狗 猫 钻头 鸭子 鸡蛋盒 胶水 打孔器 熨斗 灯 电话 平均0我们的 RGB-D 83.7 91.3 74.3 83.4 84.4 90.6 71.3 39.3 94.7 53.7 70.0 87.8 90.3 78.0 DeepIM [20] RGB 77.0 97.5 93.5 96.5 82.1 95.0 77.7 97.199.4 52.8 98.3 97.5 87.7 88.6 pix2pose [31] RGB 58.1 91.0 60.9 84.4 65.0 76.3 43.8 96.8 79.4 74.8 83.4 82.0 45.0 72.40我们从训练集中对参考视图进行采样。我们遵循[12]相同的评估方法,报告ADD指标小于物体直径10%的姿态百分比。表1显示了结果。我们的实验表明,尽管从未见过这些物体,我们的方法在性能上与最先进的有监督方法相当。06.3.ModelNet数据集上的实验0我们在ModelNet[48]上进行实验,以评估我们的方法对未见过的物体类别的泛化能力。为此,我们在ShapeNetCore[4]中的所有网格上训练我们的网络,但排除了我们要评估的类别。我们在这里紧密遵循[20]的评估协议。模型在7个未见过的类别上进行评估:浴缸、书架、吉他、抽油烟机、沙发、衣柜和电视柜。对于每个类别,采样了50对初始和目标物体姿态。我们与[20]和[40]进行了比较,其中所有方法都是以初始姿态初始化,并评估它们在估计目标姿态上的成功程度。我们报告了三个指标:(5◦,5cm),物体直径的10%内的ADD,和2D投影在5个像素内。表2显示了ModelNet数据集上的定量结果。平均而言,由于我们能够对姿态进行连续优化,我们的方法在所有指标上都达到了最先进的结果。然而,对于(5◦,5cm)指标,尽管在所有其他指标上表现良好,但有些物体类别我们的方法表现较差。一个原因是图像和空间分辨率。我们网络的输入和输出图像的分辨率为128×128。我们的体素表示的分辨率为16×16×16。有限的分辨率可能会影响小物体或远离相机的物体的性能。每个像素深度的微小变化可能会与我们的损失相比,不成比例地影响物体的旋转。图4显示了ModelNet实验的示例,说明了这个限制。06.4. MOPED数据集上的实验0我们介绍了无模型物体姿态估计数据集(MOPED)。MOPED包含11个物体,如图6所示。对于每个物体,我们拍摄多个RGB-D视频以涵盖物体的所有视角。我们首先使用KinectFusion[26]对单次捕捉的帧进行注册,然后使用手动标注和自动注册的组合 [52, 35, 53]对不同捕捉的帧进行对齐。我们使用[50]生成物体分割图。对于每个物体,我们0表2:与DeepIM (DI) [20]和Multi-Path Learning (MP)[40]相比的ModelNet姿态细化实验。0DI MP 我们 DI MP 我们 DI MP 我们0浴缸 71.6 85.5 85.0 88.6 91.5 92.7 73.4 80.6 94.9 书架 39.2 81.9 80.2 76.485.1 91.5 51.3 76.3 91.8 吉他 50.4 69.2 73.5 69.6 80.5 83.9 77.1 80.1 96.9抽油烟机 69.8 91.0 82.9 89.6 95.0 97.9 70.6 83.9 91.7 沙发 82.7 91.3 89.989.5 95.8 99.7 94.2 86.5 97.6 电视柜 73.6 85.9 88.6 92.1 90.9 97.4 76.682.5 96.0 衣柜 62.7 88.7 91.7 79.4 92.1 97.0 70.0 81.1 94.20平均值 64.3 84.8 85.5 83.6 90.1 94.3 73.3 81.6 94.70表3:按参考视图计数的MOPED的AUC指标。0# 视图 1 2 4 8 16 320表4:不同视图融合策略的AUC指标0平均池化 56.78 88.04 39.82 ConvGRU56.36 88.28 40.430图6:MOPED中的物体-一个用于无模型姿态估计的新数据集。所示的物体包括:(a) 玩具飞机,(b) 堆积块小人,(c)奶酪饼干,(d) 除尘器,(e) 黑色电钻,(f) 橙色电钻,(g)显卡,(h) 遥控器,(i) 清洗剂,(j) 咖啡杯,(k) 小袋子。0选择最远点采样的参考帧以确保对物体进行良好的覆盖。对于测试序列,我们在5个不同的环境中捕捉每个物体。我们对评估视频采样每隔一个帧。这样每个物体大约有300张测试图像。我们使用三个指标评估我们的方法和基线,为每个指标提供曲线下面积 (AUC):1)ADD,阈值在0-10厘米之间,2) ADD-S,阈值在ADDADD-SProj.2DADDADD-SProj.2DADDADD-SProj.2DADDADD-SProj.2D107170表5:MOPED数据集上的定量结果。我们报告每个指标的曲线下面积 (AUC)。0PoseRBPF [ 8 ] 我们的 (LD) 我们的 (D) 我们的 (L)0姿态损失 - L 潜在 + L 深度 L 深度 L 潜在0黑色电钻 59.78 82.94 49.80 56.67 79.06 53.77 62.15 82.36 59.36 51.61 80.81 48.050奶酪饼干 57.78 82.45 48.47 61.31 91.63 55.24 44.56 90.24 35.10 23.98 88.20 15.920堆积块小人 56.91 82.14 47.11 74.02 89.55 52.49 76.81 90.50 59.83 53.26 89.51 38.540除尘器 58.91 82.78 46.66 49.13 91.56 19.33 51.13 91.68 24.78 39.05 81.57 20.820显卡 59.13 83.20 49.85 80.71 91.25 67.71 79.33 90.90 60.35 60.11 87.91 41.920橙色电钻 58.23 82.68 49.08 51.84 70.95 46.12 55.52 73.68 45.46 44.20 68.39 41.680小袋子 57.74 82.16 49.01 60.43 89.60 49.80 58.51 89.15 44.40 22.03 82.94 20.190遥控器 56.87 82.04 48.06 55.38 94.80 37.73 63.18 94.96 45.27 62.39 91.58 41.960清洗剂 57.74 82.53 48.13 65.63 92.58 28.61 67.09 93.66 27.62 57.54 87.44 19.000玩具飞机 62.41 85.10 49.81 60.18 90.24 51.70 56.80 88.54 40.16 34.29 87.22 35.070vim杯 58.09 82.38 48.08 30.11 80.76 14.38 49.89 77.79 32.85 27.49 78.59 10.510平均值 58.51 82.76 48.55 58.67 87.45 43.35 60.45 87.59 43.20 43.27 84.01 30.3300-10厘米,以及3)Proj.2D,阈值在0-40像素之间。我们对所有采样帧计算所有指标。我们将我们的方法与PoseRBPF[8]进行比较,这是一种最先进的基于模型的姿态估计方法。由于PoseRBPF需要纹理化的3D模型,我们通过聚合参考捕获的点云并构建TSDF体积来重建每个物体的网格。使用Kinect-Fusion[26]将点云集成到体积中。网格存在一些伪影,如因轻微错位而导致的洗出高频细节和阴影顶点(请参见补充材料)。表5显示了在MOPED数据集上的定量比较。请注意,我们的方法没有在测试物体上进行训练,而PoseRBPF对每个物体都有一个单独的编码器。我们的方法在ADD和ADD-S上都取得了优越的性能。我们评估了我们方法的不同版本,使用不同的损失函数组合。与我们的组合损失相比,仅优化L深度对几何不对称物体的效果更好,但对纹理物体(如cheezit盒子)的效果较差。同时优化两个损失在纹理物体上取得了更好的结果。图5显示了不同测试图像的估计姿态。请参见补充材料以获取定性示例。06.5. 割舍研究0在本节中,我们分析了不同设计选择的影响以及它们对我们方法的鲁棒性的影响。0参考视图数量。我们首先评估了我们的方法对输入参考视图数量的敏感性。更多的参考视图使得新视图合成更容易,因为查询视图更有可能接近参考视图。表3显示,准确性随着参考视图数量的增加而增加。此外,超过8个参考视图只会带来微小的性能提升,表明我们的方法不需要很多视图就能实现良好的姿态估计结果。0视图融合。我们比较了多种策略来聚合每个参考视图的潜在表示。一种简单的方法是使用平均/最大池化等简单的池化函数。另一种方法是使用RNN(如ConvGRU)来整合体积,以便网络可以跨视图进行推理。表4显示了这两种变体的定量评估。尽管对象的平均性能非常相似,但ConvGRU变体比平均池化变体表现更好。这表明了体素表示中空间关系在姿态估计中的重要性。07. 结论0我们提出了一种新颖的框架,用于在推理时使用少量参考图像构建3D物体表示,以及一个伴随的神经渲染器,用于从任意6D视点渲染3D表示。我们的网络在数千个形状上进行训练,这些形状在各种光照条件下以随机纹理进行渲染,使其能够稳健地推广到未见过的物体而无需额外的训练。我们利用我们的重建和渲染流程进行零样本姿态估计。我们仅使用少量参考视图进行姿态估计,而无需训练任何网络。这极大地简化了在新物体上进行姿态估计的过程,因为不需要详细的3D模型。此外,我们有一个适用于所有物体的单一通用网络,包括未见过的物体。对于未来的工作,我们计划研究在有遮挡的杂乱场景中对未见物体姿态估计。我们还计划通过应用网络优化技术来加速姿态估计过程。0致谢0我们感谢Xinke Deng的有益讨论。107180参考文献0[1] Nicolas Ballas, Li Yao, Chris Pal, and Aaron Courville.Delving deeper into convolutional networks for learningvideo representations. arXiv preprint arXiv:1511.06432, 2015.40[2] Petr Beckmann and Andre Spizzichino. The scattering ofelectromagnetic waves from rough surfaces. Norwood, MA,Artech House, Inc., 1987. 50[3] Blender Online Community. Blender - a 3D modellingand rendering package. Blender Foundation, 2019. 50[4] Angel X. Chang, Thomas Funkhouser, Leonidas Guibas,Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese,Manolis Savva, Shuran Song, Hao Su, Jianxiong Xiao, Li Yi,and Fisher Yu. ShapeNet: An Information-Rich 3
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功