DeepIM:用于6D姿态估计的深度迭代匹配

168 浏览量更新于2023-10-13 收藏 1.11MB PDF 举报

深度神经网络

三维物体识别

身份认证购VIP最低享 7 折!

30元优惠券

DeepIM：用于6D姿态估计的深度迭代匹配易立1、顾王1、向阳姬1、于翔2、迪特尔福克斯21清华大学和BNRist2华盛顿大学和NVIDIA研究院yili. gmail.com，wangg16@mails.tsinghua.edu.cn，xyji@tsinghua.edu.cn，{yux，dieterf} @ nvidia.com抽象。从图像中估计物体的6D姿态是机器人操作和虚拟现实等各种应用中的重要问题虽然图像到对象姿态的直接回归具有有限的准确度，但是将对象的渲染图像与输入图像进行匹配可以产生准确的结果。在这项工作中，我们提出了一种新的深度神经网络，用于6D姿态匹配，名为DeepIM。给定初始姿态估计，我们的网络能够通过将渲染图像与观察到的图像进行匹配来迭代地细化姿态。使用3D位置和3D取向的解缠结表示和迭代训练过程来训练网络以预测相对姿态变换。在两个常用的6D姿态估计基准测试上的实验表明，DeepIM比最先进的方法有了很大的改进我们进一步表明，DeepIM能够匹配以前看不见的物体。关键词：三维物体识别，6D物体姿态估计1介绍从图像定位3D中的对象在许多现实世界应用中是重要的。例如，在机器人操纵任务中，识别对象的6D姿态的能力，即，物体的3D位置和3D定向为抓取和运动规划提供在虚拟现实应用中，6D对象姿态估计实现人与对象之间的虚拟交互虽然若干最近的技术已经将深度相机用于对象姿态估计，但是这样的相机具有关于帧速率、视场、分辨率和深度范围的限制，使得非常难以检测小的、薄的、透明的或快速移动的对象。不幸的是，仅RGB的6D对象姿态估计仍然是一个具有挑战性的问题，因为图像中的对象的外观根据许多因素而改变，例如照明、姿态变化和对象之间的遮挡此外，一个强大的6D姿态估计方法需要处理纹理和无纹理的对象。传统上，6D姿态估计问题已经通过将从图像提取的局部特征与物体的3D模型中的特征进行匹配来解决。对象[16，23，4]。通过使用2D-3D对应关系，对象的6D姿态被确定。2李毅，顾望，纪向阳，于翔，迪特尔·福克斯××…渲染器渲染器3D模型3D模型网络网络渲染图像渲染图像观察图像Δpose（1）Δ姿势（0）pose（1）姿势（0）图1：我们提出了DeepIM，这是一种用于6D对象姿态估计的深度迭代匹配网络。该网络被训练以预测相对SE（3）变换，该相对SE（3）变换可以应用于用于迭代姿态细化的初始姿态估计。可以恢复。不幸的是，这样的方法不能很好地处理无纹理的对象，因为只有很少的局部特征可以被提取。为了处理无纹理对象，文献中提出了两类方法。方法第一类学习估计输入图像中对象的像素或关键点的3D模型坐标。以这种方式，为6D姿态估计建立2D-3D对应关系[1，20，26]。第二类中的方法通过将姿态空间离散化将6D姿态估计问题转换成姿态分类问题[9]或转换成姿态回归问题[29]。这些方法可以处理无纹理对象，但是它们不能实现高度准确的姿态估计，因为分类或回归阶段中的小误差直接导致姿态失配。提高姿势准确度的常用方法是姿势细化：给定初始姿态估计，合成RGB图像可以被渲染并用于与目标输入图像匹配。然后计算新的姿态以增加匹配分数。现有的姿势细化方法使用手工制作的图像特征[27]或匹配的评分函数[20]。在这项工作中，我们提出了DeepIM，这是一种基于深度神经网络的新的改进技术，用于迭代6D姿势匹配。给定测试图像中的对象的初始6D姿态估计，DeepIM预测相对SE（3）变换，该相对SE（3）变换将对象的渲染视图与观察到的图像匹配。通过基于改进的姿态估计迭代地重新渲染对象，网络的两个输入图像变得越来越相似，从而使得网络能够生成越来越准确的姿态估计。图1示出了我们的网络用于姿态细化的迭代匹配过程这项工作作出了以下主要贡献。i）我们引入了用于迭代的、基于图像的姿势细化的深度网络，其不需要任何手工制作的图像特征，自动学习内部细化机制。ii）我们提出了对象姿态之间的SE（3）变换的解纠缠表示，以实现准确的姿态估计。这种表示也使我们的方法，以完善的姿态估计看不见的对象。iii）我们已经对LINEMOD [9]和Occlu进行了广泛的实验DeepIM：用于6D姿态估计的深度迭代匹配3sion [1]数据集来评估DeepIM的准确性和各种属性。这些实验表明，我们的方法在两个数据集上都比最先进的仅RGB方法有了很大的改进。此外，初始实验表明，DeepIM能够准确地匹配无纹理对象（T-LESS [10]）和不可见对象的姿势[28]。本文的其余部分组织如下。在第2节中回顾了相关工作之后，我们在第3节中描述了我们的姿势匹配方法第4节介绍了实验，第5节总结了本文。2相关工作基于RGB-D的6D姿态估计：当深度信息可用时，其可以与RGB图像组合以改进6D姿态估计。使用深度的常见策略是将深度图像转换成3D点云，然后将对象的3D模型与3D点云进行匹配。例如，[9]将对象的3D模型渲染成表面法线的模板，然后将这些模板与从点云计算的法线进行匹配。[1，2，17]将输入图像中对象上的每个像素回归到3D模型上该像素的3D坐标。当深度图像可用时，3D坐标回归建立3D场景点与3D模型点之间的对应关系，根据该对应关系，可以通过求解最小二乘问题来计算对象的6D姿态。对于姿态细化，迭代最近点（ICP）算法被广泛用于细化初始姿态估计[9，17，30]。然而，ICP是敏感的初始估计，并可能收敛到局部最小值。基于RGB的6D姿态估计：传统上，通过匹配局部特征来处理使用RGB图像的姿态估计[16，23，4]。然而，这些方法不能很好地处理无纹理对象。最近的方法应用机器学习，特别是深度学习，仅使用RGB图像进行6D姿态估计[1，13]。现有技术的方法[20，11，26，29]增强了用于6D姿态估计的基于深度学习的对象检测或分割方法[8，15，14，21]。然而，这些方法的性能仍然无法与基于RGB-D的方法相比。我们认为，这种性能差距是如此之大，由于缺乏一个有效的姿态细化程序，仅使用RGB图像我们的工作是现有的6D姿态估计方法的补充，通过提供一种新的迭代姿态匹配网络的RGB图像上的姿态细化与我们最相关的方法是[20]中的对象姿势细化网络和[3，19]中的迭代手部姿势估计方法。与这些技术相比，我们的网络被设计为直接回归到相对SE（3）变换。我们之所以能够做到这一点，是因为我们对旋转和平移以及旋转所使用的参考系进行了解缠表示，这也使我们的方法能够匹配看不见的物体。如[18]所示，参考帧的选择对于实现良好的姿态估计结果很重要我们的工作还与最近基于深度神经网络的视觉伺服方法有关[24，5]，该方法估计两个图像帧之间的相对相机姿态，而我们专注于对象的6D姿态细化。4李毅，顾望，纪向阳，于翔，迪特尔·福克斯放大观察/渲染图像观察/渲染遮罩观察/渲染遮罩图2：DeepIM对放大的、上采样的输入图像、渲染图像和两个对象遮罩（在我们的例子中，放大后为480×6403DeepIM框架在本节中，我们将描述用于6D姿态估计的深度迭代匹配网络。给定观察到的图像和图像中对象的初始姿态估计，我们将网络设计为直接输出可以应用于初始姿态以改进估计的相对SE（3）我们首先提出了我们的策略，放大观察到的图像和渲染图像，用作网络的输入。然后，我们描述了我们的网络体系结构的姿态匹配。在此之后，我们引入了相对SE（3）变换的解纠缠表示和用于姿态回归的新的损失函数。最后，我们描述了我们的程序训练和测试网络。3.1高分辨率放大如果输入图像中的对象非常小，则可能难以提取用于匹配的有用特征。为了获得足够的姿态匹配细节，我们在将观察图像和渲染图像馈送到网络之前放大它们，如图所二、具体地，在迭代匹配的第i阶段中，给定来自前一步骤的6D姿态估计p（i-1），我们使用根据p（i-1）查看的3D对象模型来渲染合成图像。我们还为观察图像和渲染图像生成一个前景遮罩。根据观察到的掩模和渲染的掩模，使用放大的边界框裁剪四个图像，其中我们确保放大的边界框具有与输入图像相同的纵横比，并且以3D对象模型的原点的2D投影为中心最后，我们放大并执行双线性上采样以实现与原始图像相同的大小（在我们的实验中为480 × 640）。重要的是，对象的纵横比在此操作期间不会更改。3.2网络结构图3示出了DeepIM的网络架构。观察到的图像、渲染图像和两个掩模被连接成到网络的八通道tensor输入（3个通道用于观察到的/渲染的图像，1个通道用于观察到的DeepIM：用于6D姿态估计的深度迭代匹配5缩放输入FC3翻译FC256FC256FC4旋转观察到的掩模/图像特征图流仅用于培训上采样480x640渲染蒙版/图像上采样480x640特征图掩模FlowNet解卷积FlowNet转换Conv1x1Conv1x1图3：DeepIM使用FlowNetSimple主干来预测相对SE（3）变换以匹配对象的观察和渲染图像每个面具）。我们使用[6]中的FlowNetSimple架构作为骨干网络，该网络经过训练以预测两个图像之间的光流。我们尝试使用VGG16图像分类网络[25]作为骨干网络，但结果非常差，证实了与光流相关的表示对于姿态匹配非常有用的直觉。姿态估计分支将来自FlowNetSimple的11个卷积层之后的特征图作为输入。它包含两个全连接层，每个层的维度为256，后面是两个额外的全连接层，分别用于预测3D旋转和3D平移的四元数。在训练过程中，我们还添加了两个辅助分支来正则化网络的特征表示并提高训练稳定性。一个分支被训练用于预测渲染图像和观察图像之间的光流，并且另一个分支用于预测观察图像中的对象的前景掩模3.3非纠缠变换表示当前姿态估计与目标姿态之间的相对SE（3）变换Δ p的表示对于网络的性能具有重要的考虑我们表示对象的姿态和变换在相机坐标（图1中的朴素坐标）中，（见第4（a）段）。将i上的相对rot和i上的dtan s l表示为[R∆|t∆]。 Givenasourceo bjectp os e[Rsrc|则经变换的目标姿态将如下：Rtgt=R ∆R src， t tgt=R ∆t src+t ∆，（1）其中[Rtgt|表示目标姿态。R∆tsrc项表示旋转不仅会导致对象旋转，还会导致对象在图像6李毅，顾望，纪向阳，于翔，迪特尔·福克斯yyz，45°yy(a) 朴素坐标zzyyy(b) 模型坐标yyz，45°(c) 相机坐标图4：用于相对旋转的三个不同坐标系即使平移向量t∆等于零。此外，平移t∆是在3D空间的度量（例如，米）中，其将对象大小与度量空间中的距离相耦合，从而如果网络必须将图像中的失配转换为距离偏移，则需要网络记住每个对象的大小显然，这样的表述是不恰当的。为了消除这样的问题，我们建议对R∆和t∆的估计进行解耦。对于旋转，我们将旋转中心从摄像机的原点移到中心由当前姿态估计给出的相机帧中的对象的位置。那么旋转将不会改变对象在摄影机帧中的平移剩下的问题是如何选择旋转坐标系的轴一种方式是使用如在3D对象模型中指定的坐标框架的轴（图1B中的模型坐标）。第四条（b）款）。然而，这样的表示将需要网络记住每个对象的坐标系，这使得训练更加困难，并且不能推广到看不见的对象的姿势匹配。相反，当计算相对旋转时，我们使用与相机框架的轴平行的轴（图11中的相机坐标4（c））。通过这样做，可以训练网络以独立于3D对象模型的坐标系来估计相对旋转。为了估计相对翻译，令ttgt=（xtgt，ytgt，ztgt）和tsrc=（xsrc，ysrc，zsrc）为目标翻译和源翻译。然后一个简单的方法来表示它是t∆=（∆x，∆y， ∆z）=ttgt−tsrc。然而，仅给定没有深度信息的2D图像，电视台必须承认对象的大小，并根据对象的大小将2D空间中的平移映射到3D。对象的大小。这种表示不仅难以让网络学习，而且在处理未知对象或具有相似外观但不同大小的对象时也存在问题。我们建议回归到2D图像空间中的对象变化，而不是训练网络直接回归到3D空间中的具体来说，我们训练网络回归到相对平移t∆=（vx，vy，vz），其中vx和vy表示对象应该沿着图像x轴和y轴移动的像素数量，vz是对象的尺度变化：vx=fx（ xtgt/ztgt−xsrc/zsrc ），vy=fy（ ytgt/ztgt−ysrc/zsrc ），vz= log（zsrc/ztgt），（二）z，45°DeepIM：用于6D姿态估计的深度迭代匹配7ˆˆ其中fx和fy表示相机的焦距。比例变化v z通过使用渲染对象和观察对象的距离之间的比率，定义为与绝对对象大小或距离无关。我们对vz使用对数，以确保零值对应于尺度或距离没有变化考虑到fx和fy对于特定数据集是常数，我们在训练和测试网络时只需将其固定为1我们的相对变换表示有几个优点。首先，旋转不影响平移的估计，使得平移不再需要抵消由围绕相机中心的旋转引起的移动。第二，中间变量vx、vy、vz表示图像空间中的简单平移和尺度变化第三，这种表示不需要对象的任何先验知识。使用这种表示，DeepIM网络可以独立于对象的实际大小及其内部模型坐标框架进行操作。它只需要学习变换渲染图像，使其变得与观察到的图像更相似。3.4匹配损耗训练姿态估计网络的直接方式是使用用于旋转和平移的单独损失函数。例如，我们可以使用两次旋转之间的角距离来测量旋转误差，并且使用L2距离来测量平移误差。然而，对于旋转和平移使用两个不同的损失函数遭受平衡两个损失的困难[12]提出了几何重投影误差作为姿态回归的损失函数，其使用地面真实姿态和估计姿态来计算场景中3D点的2D投影之间的平均距离考虑到我们想要在3D中准确地预测对象姿态的事实我们在[12]中引入了几何重投影损失的修改版本，并且我们称之为点匹配损失。给定地面实况姿态P = [R|t] andthee s timatedp os ep=[R|t]，该点的损耗计算如下：Lpose（p，p）=1Σnn.ΣL1（Rxi+t）−（Rxi+t），（3）i=1其中xi表示对象模型上随机选择的3D点，n是点的总数（我们在实验中选择3,000个点）。点匹配损失计算由地面实况姿态和估计姿态变换的3D点之间的平均L1距离以这种方式，它测量变换后的3D模型如何彼此匹配以进行姿态估计。3.5训练和测试在训练中，我们假设我们有3D对象模型和用地面真实6D对象姿势注释的图像。通过将噪声添加到地面实况姿态作为初始姿态，我们可以生成到网络的所需观察和渲染输入以及姿态目标输出，该姿态目标输出是8李毅，顾望，纪向阳，于翔，迪特尔·福克斯地面实况姿态和噪声姿态。然后我们可以训练网络来预测初始姿势和目标姿势之间的相对变换在测试过程中，我们发现，迭代的姿态细化可以显着提高精度。为了看到，令p（i）是网络的第i次迭代之后的姿态估计如果初始姿态估计p（0）相对远离正确姿态，则渲染图像xrend（p（0））可以与观察图像xobs仅具有很小的视点重叠。在这种情况下，很难直接精确地估计相对姿态变换Δ p（0）如果网络没有关于要匹配的对象的先验知识，那么这个任务就更难了通常，合理的是假设如果网络通过在第i次迭代中用Δ p（i）更新p（i）来改进姿态估计p（i+1），则根据该新估计渲染的图像xrend（p（i+1））也比在先前迭代中的xrend（p（i））更类似于观察到的图像xobs，从而提供如下输入：可以更精确地匹配。然而，我们发现，如果我们训练网络在一个步骤中回归相对姿态，那么经过训练的网络的估计值在测试中的多次迭代中不会得到改善为了生成一个更真实的数据分布来进行类似于测试的训练，我们在训练过程中也会进行多次迭代具体地，对于每个训练图像和姿态，我们将从网络预测的变换应用于姿态，并在下一次迭代中使用变换后的姿态估计作为网络的另一个训练示例通过多次重复此过程，训练数据更好地表示测试分布，并且经过训练的网络在迭代测试期间也获得了明显更好的结果（这种方法也被证明对迭代手部姿势匹配有用[19]）。4实验我们对LINEMOD数据集[9]和Occlu-sion LINEMOD数据集[2]进行了广泛的实验，以评估我们用于6D对象姿态估计的DeepIM框架我们测试了DeepIM的不同属性，并表明它大大超过了其他仅RGB的方法我们还表明，我们的网络可以应用于训练过程中看不见的物体的姿态匹配。4.1实现细节训练：我们使用预训练的FlowNetSimple [6]来初始化网络中的权重新层的权重是随机初始化的，除了处理输入掩码的第一个conv层和预测平移的全连接层中的附加权重，它们都是用零初始化除了预测姿势变换之外，网络还预测光流和前景掩模。虽然在训练中包括两个额外的损失并没有增加姿势估计性能，但我们发现它们有助于使训练更加稳定。具体地，我们使用如FlowNet [6]中的光流损失L_flow和S形交叉熵损失作为掩模损失L_mask。FlowNet中的两个去卷积块被继承以产生DeepIM：用于6D姿态估计的深度迭代匹配9用于掩模和光流预测的特征图，其空间尺度为0.0625。两个1× 1卷积层，输出通道1（掩码预测）和2（流预测）被附加在该特征图之后。然后将预测值双线性上采样到原始图像大小（480× 640）以计算损失。总损失为L = αL姿态+ βL流+ γL掩模，其中我们使用α = 0。1，β = 0。25，γ =0。在整个实验中（除了我们的一些消融研究）。每个训练批次包含16个图像。我们用4个GPU训练网络，每个GPU处理4张图像。我们为每个生成4个项目图像如第2节所述。3.1：两个图像和两个掩模。所观察的掩模被随机扩张，不超过10个像素，以避免过度拟合。测试：在测试期间移除掩模预测分支和光流分支。由于在测试中没有对象的地面真实分割，因此我们使用渲染的掩模mrend的最紧密的边界框，因此网络搜索估计姿势附近的邻域以找到要匹配的目标对象除非指定，否则我们使用来自PoseCNN [29]的姿势估计作为初始姿势。我们的DeepIM网络使用NVIDIA 1080 Ti GPU以每个对象12 fps的速度运行，在测试期间进行了2次迭代。4.2评估指标我们使用以下三个评估指标进行6D对象姿态估计。i）如果估计的姿态的旋转误差在5◦内并且平移误差低于5cm，则5◦，5cm度量认为估计的姿态是正确的ii）6D姿态度量[9]计算使用估计姿态和地面真实姿态变换的3D模型点之间的平均距离对于对称对象，我们使用最近点距离计算平均距离。如果平均距离在3D模型直径的10%内，则估计的姿势是正确的。iii）2D投影度量使用估计的姿态和地面实况姿态来计算投影到图像上的3D模型点的平均距离如果平均距离小于5个像素，则估计的姿势是正确的。4.3LINEMOD数据集LINEMOD数据集包含15个对象。我们在其中13个上训练和测试我们的方法，就像文献中的其他方法一样我们按照[2]中的过程将数据集分为训练集和测试集，训练集中每个对象大约有200张图像，测试集中有1,000张图像训练策略：对于每张图像，我们在地面真实姿势附近生成10个随机姿势，从而为训练集中的每个对象生成2，000个此外，我们为每个对象生成10，000个合成图像，其中姿势分布与真实训练集相似。对于每个合成图像，我们在其真实姿态附近生成1个随机姿态。因此，我们在训练中为每个对象总共提供了12，000个训练样本。用PASCAL中随机选取的室内图像代替合成图像10李毅，顾望，纪向阳，于翔，迪特尔·福克斯表1：训练和测试期间迭代次数的消融研究。列车init124测试器124124124◦5厘米519.457.458.854.676.386.286.770.283.785.26D姿势62.777.979.076.183.188.789.180.987.688.6项目2D70.292.492.689.796.197.897.694.697.497.5VOC [7]。我们用初始学习率0.0001训练网络8个时期。在第4和第6个时期之后，学习率分别除以10关于迭代训练和测试的消融研究：表1显示了在训练和测试期间使用不同迭代次数的结果。train iter= 1和train iter= 2的网络分别用32和16个epoch进行训练，以保持总更新次数与train iter= 4相同该表显示，在没有迭代训练（train iter= 1）的情况下，多次迭代测试不会改善，甚至可能使结果更糟（test iter= 4）。我们认为原因是由于网络没有用足够的接近其地面真实姿势的渲染姿势进行训练。该表还显示，在训练和测试过程中再进行一次迭代，就可以大幅改善结果。用2次迭代训练并用2次迭代测试的网络略好于用4次迭代训练并用4次迭代测试的网络。这可能是因为LINEMOD数据集不足以通过使用3或4次迭代来产生进一步的改进。由于确定每个数据集中使用多少次迭代并不简单，因此我们在所有其他实验的训练和测试期间使用4次迭代放大策略、网络结构、转换表示和损失函数的消融研究：表2总结了DeepIM各方面的消融研究。“缩放”列指示网络是使用完整图像作为其输入还是放大上采样到原始图像大小的边界框。比较行5和7示出了经由放大实现的更高分辨率提供了非常显著的改进。“回归因子”：我们在所有对象上联合训练DeepIM网络，生成独立于特定输入对象的姿势变换（在“回归量”列中标记为“共享”）。或者，我们可以通过在图2所示的最终FC256层之后为每个对象使用单独的完全连接层来为每个单独的对象训练不同的6D姿态回归器。3.第三章。此设置标记为“sep.”表2中比较第3行和第7行表明，这两种方法提供了几乎不可区分的结果。但是共享网络提供了一些效率增益。“Network”: Similarly, instead of training a singlenetwork over all objects, we could train separate networks, one for each object asin [比较第1行到7表明，单个共享网络比单个网络提供更好的结果，这表明在多个对象上训练可以帮助网络学习更一般的匹配表示法。DeepIM：用于6D姿态估计的深度迭代匹配11表2：LINEMOD数据集上DeepIM网络不同设计选择的消融研究。行方法◦5厘米5 6D姿势项目2D变焦回归器网络坐标损失1C-Sep.相机下午83.387.696.22CSep.共享模型下午79.287.595.43CSep.共享相机下午86.689.596.74共享共享天真下午16.644.362.55共享共享相机下午38.365.280.86C共享共享相机Dist86.579.296.27C共享共享相机下午85.288.697.5“坐标”：本专栏研究了我们选择的坐标框架对推理对象变换的影响，如图1所示。4.第一章标记为“naive”的行比较行2和3示出了相机旋转帧中的推理提供了轻微的改进。此外，应该注意的是，只有我们的比较第4行和第5行，我们的表示方法比完全在相机参考系中进行推理的简单方法有了很大的改进“损失”：用于姿态估计的传统损失由估计的6D姿态坐标与地面实况6D姿态坐标之间的距离（“Dist”）指定，即，角距离用于旋转，欧几里德距离用于平移。比较行图6和图7指示我们的点匹配损失（应用于不同的初始姿态估计网络：表3提供了当我们用两个不同的姿态估计网络初始化DeepIM时的结果。第一个是PoseCNN [29]，第二个是基于FasterR-CNN [22]的简单6D姿态估计方法。具体来说，我们使用Faster R-CNN中对象的边界框来估计对象的3D平移。中心边界框的中心被视为对象的中心。通过最大化3D对象模型的投影与边界框的重叠来估计对象的距离。为了估计对象的3D旋转，我们向更快的R-CNN添加旋转回归分支，如PoseCNN中那样。尽我们所能如表3所示，即使使用Faster R-CNN扩展的估计进行初始化，我们的网络也实现了非常相似的姿态估计精度，这些估计不如PoseCNN [29]提供的准确。12李毅，顾望，纪向阳，于翔，迪特尔·福克斯表3：用于在LINEMOD数据集上生成初始姿势的两种不同方法的消融研究方法PoseCNNPoseCNN+我们的 Faster R-CNN Faster R-CNN+我们的◦5厘米519.485.211.983.46D姿势62.788.633.186.9项目2D70.297.520.995.7表4：与LINEMOD数据集方法[二]《中国日报》BB8w参考[20个]公司简介w参考[第十一届]Tekin等人[26日][29]第二十九话[29]第二十九话+我们的◦5厘米540.669.0--19.485.26D姿势50.262.77955.9562.788.6项目2D73.789.3-90.3770.297.5与现有技术的6D姿态估计方法的比较表4示出了与LINEMOD数据集上的最佳仅颜色技术的比较。DeepIM在所有先前的方法中实现了非常显着的改进，即使是那些也部署了细化步骤的方法（ BB8 [20] 和 SSD-6D[11]）。4.4在闭塞LINEMOD数据集上的实验[2]中提出的遮挡LINEMOD数据集共享LINEMOD [9]中使用的相同图像，但在一个视频中注释了8个被严重遮挡的对象训练：对于每个真实图像，我们生成10个随机姿势，如第2节所述。四点三。考虑到大多数训练数据缺乏遮挡的事实，我们生成了大约20，000张合成图像，每张图像中都有多个对象。通过这样做，每个对象都有大约12，000个部分被遮挡的图像，并且每个对象在训练中总共有22，000个图像。我们执行与LINEMOD数据集中相同的背景替换和训练过程。与现有技术方法的比较：我们的方法和其他仅RGB方法之间的比较如图所示。五、我们仅显示2D投影度量的准确度图，因为这些是[20]和[26]中报告的唯一结果（蛋盒和胶水的结果使用该准确度的对称版本）。可以看出，我们的方法大大提高了PoseCNN生成的姿势精度，并且大大超过了所有其他仅RGB的应该注意的是，BB8 [20]仅在测试期间使用地面实况边界框时才实现报告的结果我们的方法甚至与使用深度信息和ICP来改DeepIM：用于6D姿态估计的深度迭代匹配13进PoseCNN估计的结果具有竞争力图图6示出了来自我们的方法在遮挡LINEMOD数据集上的一些姿势细化结果14李毅，顾望，纪向阳，于翔，迪特尔·福克斯图5：与闭塞LINEMOD数据集上的最新方法的比较[2]。精度通过“投影2D”度量进行测量。图6：使用来自PoseCNN [29]的结果作为初始姿势的Occlusion LILNEMOD数据集上的细化姿势的示例。红线和绿线分别表示初始估计和我们改进的姿势的轮廓4.5应用于看不见的对象和看不见的类别如第3.3节所述，我们设计了未缠结的姿态表示，使得它独立于坐标系和特定3D对象模型的大小因此，姿态变换对应于图像空间中的操作这就引出了一个问题，即DeepIM是否可以细化未包含在训练集中的对象的姿势。在这个实验中，我们使用了来自ModelNet数据集[28]的飞机、汽车和椅子的3D模型。对于这些类别中的每一个，我们在不超过200个3D模型上训练网络，并在同一类别的70个未见过的3D模型对于训练，我们为每个模型生成50张图像，并训练网络4个epoch。我们发现，我们的网络可以对这些看不见的模型进行精确的细化。参见图7的示例结果。我们还测试了我们的框架，以改进看不见的对象类别的姿势，其中训练类别和测试类别是完全不同的。详情请参阅补充材料DeepIM：用于6D姿态估计的深度迭代匹配15图7：来自ModelNet数据集的3D模型的姿势细化的结果。这些情况在训练中没有出现。红线和绿线表示初始估计的边缘和我们改进的姿势。5结论在这项工作中，我们介绍了DeepIM，一个新的框架迭代姿态匹配，ING只使用彩色图像给定对象的初始6D姿态估计，我们设计了一种新的深度神经网络来直接输出改善姿态估计的相对姿态变换。该网络在训练期间自动学习匹配对象姿势我们引入了一个解开的姿态表示，也是独立的对象大小和坐标系的3D对象模型。通过这种方式，网络甚至可以匹配未看到的物体的姿势，正如我们的实验所示。我们的方法显着优于状态的最先进的6D姿态估计方法，仅使用彩色图像，并提供性能接近的方法，使用深度图像的姿态细化，如使用迭代最近点算法。我们在LINEMOD、ModelNet和T-LESS上的结果的示例可视化可以在这里找到：https://rse-lab.cs.washington.edu/projects/deepim。这项工作为今后的研究开辟了各种方向。例如，我们预计DeepIM的立体版本可以进一步提高姿势准确性。此外，DeepIM表明，仅使用彩色图像就可以产生准确的6D姿态估计，从而能够使用以高帧速率捕获高分辨率图像的大视场相机，为机器人操作等应用提供有用的估计。致谢这项工作的部分资金来自西门子的资助。我们还要感谢NVIDIA通过以下方式慷慨提供用于本研究的DGX工作站NVIDIA Robotics Lab和UW NVIDIAAI Lab（NVAIL）。国家重点研发计划2017YFB1002202，国家自然科学基金项目61620106005，61325003，北京市科学技术委员会.Tech. Commis-sionZ181100008918014和THU Initiative Scientific Research Program。16李毅，顾望，纪向阳，于翔，迪特尔·福克斯引用1. Brachmann，E.，Krull，A.，Michel，F.，Gumhold，S.，Shotton，J.，Rother，C.：使用3D对象坐标学习6D对象姿态估计在：欧洲计算机视觉会议（ECCV）（2014）2. Brachmann，E.，Michel，F.，Krull，A.，Ying Yang，M.，Gumhold，S.，Rother，C.：从单个RGB图像对对象和场景进行不确定性驱动的6D姿态估计IEEE计算机视觉与模式识别会议（CVPR）pp. 33643. 卡雷拉，J.，阿格拉瓦尔，P.，Fragkiadaki，K.，Malik，J.：迭代误差反馈人体位姿估计IEEE计算机视觉与模式识别会议（CVPR）（2016）4. Collet，A.，Martinez，M. Srinivasa，S.S.：MOPED框架：用于操作的对象识别和姿态估计。 International Journal of RoboticsResearch （ IJRR ） 30（10），12845. Costante，G.，Ciarfuglia，T.A.：LS-V0：学习用于鲁棒视频解码的密集光学子空间。IEEERoboticsandAutomati onLeter s3（3），17356. Dosovitskiy，A.，Fischer，P.，Ilg，E.，Hausser，P.，Hazirbas角戈尔科夫van der Smagt，P.，Cremers，D.Brox，T.：Flownet：使用卷积网络学习光流IEEE International Conference on Computer Vision（ICCV）pp. 27587. Everingham，M.凡古尔湖威廉姆斯，C.K.，Winn，J.，齐瑟曼，A.：pascal视觉对象类（ voc ）的挑战。 International Journal of Computer Vision（ICCV）88（2），3038. Girshick，R.：快速R-CNN。IEEE International Conference on Computer Vision（ICCV）pp. 14409. Hinterstoisser ， S. ，莱佩蒂 Ilic ， S. ， Holzer ， S. ， Bradski ， G. ，Konolige，K.，，Navab，N.：基于模型的训练，检测和姿态估计的纹理较少的三维物体在严重混乱的场景。亚洲计算机视觉会议（ACCV）（2012）10. Hodan，T.， Haluza，P. Obdrˇza´lek，Sˇ.，妈妈，J.， Lourakiss，M.，Zabulis，X. ：T-less ：一个 rgb-d 数据集，用于无纹理对象的 6d 姿态估计。在：IEEEWinterConferenceonApplicati onsofComuterVison（WACV）中。pp. 880-888 IEEE（2017）11. Kehl，W.，Manhardt，F.，Tombari，F.，Ilic，S.，Navab，N.：SSD-6D：使基于RGB的3D检测和6D姿态估计再次变得伟大。在IEEE Conference onC〇mputerrVis i sinandPater nRec gnit i tin（CVPR）中。pp. 152112. Kendall，A.，Cipolla，R.：使用深度学习进行相机姿态回归的几何损失函数。IEEE计算机视觉与模式识别会议（CVPR）（2017）13. Krull，A.，Brachmann，E.，Michel，F.，Ying Yang，M.，Gumhold，S.，Rother，C.：用于RGB-D图像中的6D姿态估计的学习合成分析。在：IEEEInternati onalConferenceonComuterVisin（ICCV）中。pp. 95414. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.，Fu，C.Y.，Berg，A.C.：Ssd：单发多盒探测器。欧洲计算机视觉会议（European Conferenceon Computer Vision，ECCV）pp. 2115. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。IEEE计算机视觉和模式识别会议（CVPR）。pp. 3431DeepIM：用于6D姿态估计的深度迭代匹配1716. Lowe，D.G.：基于局部尺度不变特征的目标识别在：IEEE Inter-n-nat-nalCo nfere nceo nCom puterVisi n（ICCV）中。vol. 第2页。115017. Michel，F.，Kirillov，A.，Brachmann，E.，Krull，A.，Gumhold，S.，Savchynskyy，B.，Rother，C.：用于6D对象姿态估计的全局假设生成。IEEE计算机视觉与模式识别会议（CVPR）（2017）18. M ousavian，A.， Anguel ov，D. ，Flynn，J.，你好J. ：使用深度学习和几何学的 3Dboundingoxstimation 。在： IEEE 计算机视觉和图像处理会议（CVPR）中。pp. 563219. Oberweger，M.，Wohlhart，P.，Lepetit，V.：训练用于手部姿势估计的反馈回路 IEEE International Conference on Computer Vision （ ICCV ）（2015）20. Rad，M.，Lepetit，V.：BB8：一种可扩展的，准确的，对部分遮挡具有鲁棒性的方法，用于预测具有挑战性的对象的3D姿态，而无需使用深度。 IEEE International Conference on Computer Vision （ ICCV ）（2017）21. Redmon，J.，Divvala，S.，格尔希克河Farhadi，A.：你只看一次：统一的实时物体检测。在：IEEE计算机视觉和模式识别会议（CVPR）中。pp.77922. Ren，S.，他，K.，格尔希克河孙杰：更快的R-CNN：利用区域建议网络进行实时目标检测。神经信息处理系统进展（NIPS）（2015）23. Rothganger，F. Lazebnik，S.，施密德角Ponce，J.：使用局部仿射不变图像描

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

DeepIM: 用于6D姿态估计的深度迭代匹配

最新资源

DeepIM: 用于6D姿态估计的深度迭代匹配

一种基于迭代的匹配追踪算法

6d姿态估计 文献综述

yolov5与6d姿态估计

C#游戏室开发如何将[fe80::6d7b:6d66:4a25:85b7%17]:28859改为ipv4地址

在客户端连接服务器端时，如何将[fe80::6d7b:6d66:4a25:85b7%17]:28859改为ipv4地址

fe80::1a84:c1ff:fe6d:2b1d 重复

fe80::1a84:c1ff:fe6d:2b1d

python6d物体姿态估计

6D姿态估计是什么意思

6d姿态估计和3d物体检测的数据有什么不同

六自由度(6D)姿态估计提出背景

6d位姿估计学习路线

6d位姿估计算法介绍

传统6D位姿估计算法

6D位姿估计国内外研究现状

多物体6d位姿估计算法流程

给我介绍一下“SSD-6D: Making RGB-Based 3D Detection and 6D Pose Estimation Great Again”算法

给我介绍一下SSD-6D算法

可以帮我写一篇6D位姿估计的综述吗

最新资源

6d姿态估计文献综述