视觉数据解释目标检测和6D姿态的模糊性

53 浏览量更新于2023-10-12 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6841从视觉数据解释目标检测和6D姿态的模糊性Fabian Manhardt1，美国fabian. tum.deDiego Martin Arroyo1，哥伦比亚martin. tum.de克里斯蒂安·鲁普雷希特2chrisr@robots.ox.ac.ukBenjamin Busam本杰明·布萨姆1，3电子邮件：huawei.comTolgaBirdaltbirdal@stanford.eduNassir Navab1nassir. tum.deFederico Tombari费德里科·托姆巴里1，5tombari@in.tum.de1慕尼黑工业大学2牛津大学3华为4斯坦福大学5谷歌摘要从单个图像中检测3D目标和估计姿态是两个固有的模糊问题。通常，由于形状对称性、遮挡和重复纹理，对象从不同的视角看起来相似。检测和姿态估计中的这种模糊性意味着对象实例可以由几个不同的姿态甚至类别完美地描述。在这项工作中，我们建议明确处理这些歧义。对于每个对象实例，我们预测多个6D姿态结果，以估计由对称性和重复纹理生成的特定姿态分布。当视觉外观唯一地标识仅一个有效姿势时，分布折叠成单个结果。我们展示了我们的方法的好处，它不仅提供了一个更好的解释姿态模糊，但也有更高的准确性，姿态估计。1. 介绍在深度学习的驱动下，基于图像的对象检测最近在准确性和效率方面都取得了巨大的飞跃[39，16，31，38]。在该领域中出现的研究方向是在现有的6自由度（DoF）上而不是在2D图像平面上估计3D空间中的对象34、29、49、33]。这是由在机器人抓取、场景理解和增强/混合现实领域中实现鲁棒且准确的单目6D姿态估计的强烈兴趣激发的，其中使用3D传感器是不可行的[36，26，50，45]。然而，由于在不同视点和遮挡下物体的视觉外观所事实上，大多数常见的物体都表现出形状的不确定性和重复性，这导致了它们的外观* 前两位作者对这项工作的贡献相同图1：姿势模糊。外部遮挡或自遮挡可能会导致对象的6DoF姿势变得不明确。我们的方法能够自动检测和预测这些模糊性，而无需额外的监督。反相对称的宾汉分布表明，该模型已经理解了有效姿态的全部范围。在不同视点下非常相似，从而使得姿态估计成为具有多个正确解的问题。此外，遮挡（来自同一对象或来自其他对象）也可能导致姿态模糊。例如，如图1所示，从手柄不可见的每个视点来看，杯子都是相同的因此，从单个图像，不可能明确地估计当前对象姿态。此外，对象对称性也会引起视觉模糊，导致具有相同视觉外观的多个然而，大多数数据集不反映这种模糊性，因为地面实况姿态注释大多在每个帧处唯一地定义。这对于旋转的适当优化是有问题的，因为视觉上正确的姿势仍然导致高损失。因此，许多最近的3D检测器避免直接回归旋转，而是以明确的方式明确地对解空间建模[37，24]。本质上，在[24]中，作者训练他们的卷积6842图2：概述。我们预测姿势的M个假设以近似解空间中的分布。从当前的角度来看，每个假设在视觉上都是相同的。神经网络（CNN）通过将特定视点的所有可能的姿势解决方案映射到视图球体上的明确弧上Rad等人[37]采用单独的CNN，单独训练对对称性进行分类，以解决这些模糊性。然而，这种简化有几个缺点，例如在每个训练对象中明确包含有关某些对称性的信息。此外，这并不总是容易建模，例如。在部分视图模糊的情况下。此外，所有这些方法都依赖于对象对称性的先验知识和注释，并且旨在通过提供关于估计的姿态和对象的单个输出来解决模糊性。除此之外，这些方法也无法处理由其他常见因素（如遮挡）产生的歧义相反，Sundermeyeret al. [42]和Coronaet al. [7]最近提出了以无歧义的方式进行姿态估计的新方法。在核心中，两者都只根据视觉外观学习特征嵌入。尽管如此，尽管[42]能够隐式地处理歧义，但它并没有明确地对其检测和描述进行建模。相比之下，[7]还学会了对旋转对称的顺序进行分类，特别是围绕旋转轴的等效视图的数量。然而，它们需要明确的手工注释标签，此外，不能处理除了这些对称类（如自）遮挡之外的模糊性。在本文中，我们建议通过允许我们的学习模型预测给定对象的视觉外观的多个解决方案或假设来直接对对象检测和姿态估计任务的模糊性进行建模（图2）。受Rupprechtet al启发。[40]我们提出了一种新的体系结构和损失函数的单目6D姿态估计通过多个预测。本质上，每个预测的假设本身对应于3D平移和旋转。当视觉外观模糊时，模型预测3D姿态空间中的分布的点估计相反，当对象重要的是，我们的模型能够学习分布-从每个样本的单个地面实况姿态中提取这些6D假设，而无需进一步监督。除了为手头的任务提供更多的洞察力和更好的解释外，还可以利用从旋转分布中获得的额外知识来提高姿态估计的准确性。本质上，分析假设的分布使我们能够分类当前感知的随后，当检测到模糊性时，我们可以在四元数空间中的假设上采用均值漂移[6]聚类来找到当前姿势的主要模式。然后，针对每个模式在3D旋转空间中的鲁棒平均产生高度准确的姿态估计。当视图是无模糊性的时，我们可以通过在所有6D假设上鲁棒地求平均并且通过利用预测的姿态分布作为置信度度量来改进我们的姿态估计我们的贡献有三个方面：• 提出了一种新的6自由度姿态估计方法，该方法通过多个假设来处理姿态中固有的模糊性。• 显式检测旋转模糊性和表征问题中的不确定性，而无需进一步注释或监督。• 测量可靠性并增加明确的6D姿态预测的鲁棒性的机制2. 相关工作我们首先回顾了最近的工作，从2D和3D数据的对象检测和之后，我们讨论了共同点和主要区别的方法，旨在对称检测的三维形状。目标检测和姿态估计。目前几乎所有的研究都集中在基于深度学习的方法上。[48，25，7]采用CNN从RGB-D数据学习用于姿态和类别的嵌入空间，其可以随后用于检索。值得注意的是，大多数最近的基于深度学习的方法都集中在RGB作为输入[24，37，8，46，51，42]。由于利用预先训练的网络通常会加速收敛并导致更好的局部最小值，因此这些方法通常基于2D对象检测的最先进骨干，例如Incep- tion [44]或ResNet [16]。特别地，Kehlet al.[24]使用具有InceptionV4 [43]主干的SSD [31]，并将其扩展为也对视点和平面内旋转进行分类。Similarly，Sundermeyeret al.[42]也使用SSD进行定位，但采用增强的自动编码器来明确检索相关的6D姿态。Rad等人[37]uti-VGG [41]并对其进行增强以提供2D投影68433D边界框的角。[46]基于YOLO [38]选择了类似的方法之后，两者都应用Pn P以将相关联的3D边界框拟合到回归的在[51]中，Xianget al.计算用于与姿态估计配对的后续对象实例分割最后，Doet al. [8]使用第三个分支扩展Mask- RCNN [15]，它为每个预测提供3D旋转和到相机的距离。对象对称性检测通常，对象姿态模糊性由对称形状引起。我们回顾了从3D模型中提取对称性的相关方法，以概述我们的方法的共性和差异。据我们所知，[7]是唯一的方法，估计两者：6D姿态，和对称的感知对象。特别地，网络被训练成还预测旋转顺序（即，相同视图的数量），将其定位为分类任务。一般来说，大多数对称检测方法都可以在形状分析领域找到。在不同的对称性中，轴对称性是特别令人感兴趣的，并且已经提出了多种方法。大多数方法依赖于特征匹配或光谱分析：[9]将该问题视为物体上一系列关键点之间的对应匹配任务，将反射对称超平面确定Elawady等人[10]依赖于使用Log-Gabor滤波器在不同尺度和方向上耦合用四元数来模拟SO（3）中的空间旋转。四元数由下式给出：q=q11+q2i+q3j+q4k=（q1，q2，q3，q4），（1）其中（q1，q2，q3，q4）∈R4且i2 = j2 = k2= ijk=−1。我们回归四元数以上的q1= 0超平面，因此，省略南半球，使任何可能的三维旋转可以表示只有一个单一的四元数。在不明确的情况下，旋转作为四元数的直接朴素回归将导致较差的结果，因为网络将学习预测最接近对称群中这种预测可以被看作是（条件）均值旋转。更正式地说，在典型的监督设置中，我们将图像I i与数据集（I i，p i）中的姿态pi相关联，其中i∈ {1，. . . ，N}。为了描述对称性，我们为给定的图像Ii定义所有具有相同图像的姿态p的集合S（IiS（Ii）={pj|Ij=Ii}。（2）注意，在非离散对称的情况下，S将包含无穷多个姿态，这反过来又将下面S的和变换为积分。为了更简单的符号和实际中的有限训练集，我们选择继续使用有限|S|. 直接从I回归姿态p′的朴素模型f（I，θ）通过最小化损失L（p，p′）来优化损失L（p，p ′）。ΣN对计算的局部纹理和颜色信息的直方图进行投票过程。此外，[5]和[35]θ*= argminθi=1L（fθ（Ii），pi）（3）也基于小波方法。最近，还提出了神经网络方法。Ke等人[23]采用具有多个残差单元的边缘检测架构，并成功地将其应用于使用真实世界图像的对称性检测。值得注意的是，所有这些方法的目的是检测对称性的三维形状单独，而我们的重点是建模的am-在训练集上然而，由于对称性，从I到p的映射没有很好地定义，并且不能被建模为函数。通过最小化等式3，f被学习以预测同样好地近似该图像的所有可能姿态的姿态p。|S（Ii）|在特定视角下物体产生的歧义，改进和解释姿态估计的目标。f（Ii，θi）=p=minpj=1L（p，pj）（4）3. 方法在本节中，我们详细描述了我们用于处理对称性和其他模糊性以进行对象检测和姿态估计的方法我们将首先定义我们所理解的歧义。3.1. 目标检测和姿态估计中的模糊性我们用SO（3）和R3的半直积来描述刚体变换SE（3）.而对于这是一个不合理的结果，因为选择p是为了最小化朝向不同对称性的所有损失的总和在下面的部分中，我们将描述如何在我们的方法中对这些二义性进行建模。3.1.1多姿态假设所提出的方法背后的关键思想是通过允许来自网络的多个姿势预测来对模糊性进行建模为了从f预测M个姿态假设，我们推广到f θ（I）=（f（1）（I），. . . 、f（M）（I））θ θ6844后者，我们使用欧氏3-向量，单位代数H1，其中f现在返回每个图像I的M个姿态假设。6845θθθ对于训练，想法是不惩罚给定当前姿势注释的所有假设，因为它们在歧义下可能是正确的。因此，我们使用的损失，优化每个注释的M个假设中的一个。最直观的选择是选择最接近的一个。我们从[40]中调整对f进行操作的Meta损失M，此外，根据[32，24]，我们进行硬否定挖掘以处理前景-背景不平衡。因此，给定训练图像的一组正盒Pos和硬挖掘的负盒Neg，我们最小化以下能量函数：ΣΣNθ*= argminθM（fθ（Ii），pi），（5）L（阳性，阴性）：=Σb∈阴性L类+（八）i=1虽然我们使用每个f（j）的原始姿态损失L，b∈Pos（L类+ αL拟合+ βM（f θ（I），p））。对于类和细化的锚框，我们em-M∈（fθ（I），p）=minj =1，…ML（f（j）（I），p）.（六）利用交叉熵损失L类光滑L1范数然而，公式6中的最小值的硬选择在实践中不起作用，因为一些假设函数L适合，分别。为了比较两个人的相似性四元数，我们根据以下公式计算估计旋转和地面真实旋转之间的角度：如果f（j）（I）被初始化，则它们可能永远不会被更新。Σθ<$L（q，q′）= arccos 2 <$q，q′<$2 −1.（九）远远低于目标值。我们将M松弛为M，所有假设的平均误差，具有一个权重：旋转此外，我们采用平滑L1范数作为深度分量L深度的损失。总而言之，我们定义了M（fθ（I），p）=.1−ǫΣMM−1ΣMM（fθ（I），p）+（七）每个假设j和输入图像I的损失如下L（f（j）（I））=Lrotion（q（j），q′）+λLdepth（d（j），d′）. （十）ǫM−1 j=1L（f（j）（I），p）.3.3. 处理多重假设在推理过程中，我们进一步分析了预测的多-两个分量之前的归一化常数为提出了几个假设，以确定设计用于赋予（1−1）到M的权重而对于对象是模糊的。注意，在此之前，我们首先梯度分布在所有其他假设上。当m → 0 时，M→Mm。这是必要的，因为第二项中的平均值已经包含了第一项中的最小3.2. 架构我们采用SSD-300 [31]和扩展的Incep-tionV 4 [43]主干，并对其进行调整，以便在每次检测时也提供6D姿态。特别是，我们在主干上增加了两个“Reduction-B”块。本质上，我们在每个降维块之后分支，总共放置6个。099锚定框以覆盖不同比例的对象。此外，为了包括6D姿态的明确回归，我们修改了预测内核，使得它为每个锚框提供C+M·P输出因此，C表示类别的数量，M表示假设的数量，并且P表示用于描述6D姿态的参数的数量在我们的情况下，对于M个预测假设中的每一个，我们回归P=5值以表征6D姿态，该6D姿态由用于3D旋转的显式归一化的4D四元数和对象朝向相机的距离组成我们可以通过使用推断的深度反向投影2D边界框的中心来估计剩余的两个将所有假设映射到上半球。如果我们为了检测模糊性，我们另外利用多个假设来估计模糊性的视图相关轴场景中的视觉模糊检测。我们分析预测假设在四元数空间中的分布，以确定姿态是否表现出模糊性。为此，对四元数假设qi执行主成分分析（PCA）。数据矩阵的奇异值分解表示模糊性：如果主要奇异值σ1/2≤0（σ i> σ i+1≤i），则姿态预测中的模糊性是可能的，而小奇异值意味着崩溃到单个明确的解。我们通过设定σ2的阈值来确定是否存在歧义。根据经验，我们发现标准σ2> 0。8.对模糊性进行良好的估计。值得注意的是，我们可以学习直接从标准数据集检测歧义，而无需进一步的监督。模糊轴的估计。如前所述，视觉模糊的非常突出的代表是感兴趣的对象中的对称性，如图所示。3（左）和6846（中）。然而，对于其他物体，如6847QI4I2I3图3：姿态模糊的示例。左：旋转模糊。中：每侧有两种不同的可能姿势右：通过（自）遮挡的圆弧周围的模糊性。杯，（自）遮挡也可引起外观上的模糊（右）。为了计算视点相关的模糊度轴，我们仔细看看下面的场景。旋转qi=（qi1，qi2，qi3，qi4）使摄像机c0至ci围绕旋转轴模糊物体姿势。由于可能的3D旋转的数量是有限的，但未知的，我们采用均值漂移[6]来聚类四元数空间中的假设。具体地说，我们使用四元数向量的角距离来衡量相似性和Weiszfeld算法合并聚类内均值漂移。这产生一个集群（如果姿势是连接的）或多个（如果它们是不连接的），如图所示3.第三章。对于每个聚类，我们计算中值旋转和中值深度以检索关联的3D平移。请注意，我们只考虑假设的深度，这有助于相应的集群。我们应用简单的轮廓检查[24]来找到最佳拟合聚类，从中提取最终的6D姿势。合成数据。如[19]中所述，域适应是-.综合生成的数据样本和真实世界之间ai=（qi2，qi3，qi4）/22+ q2。（十一）图像简化了训练数据的收集。我们提供CAD模型在随机构成，并添加了一系列augmen-所有这些旋转轴都位于垂直于模糊度的同一平面内。y轴saii。因此，如果我们叠加这些图像可以被用于拍摄背景图像，例如照明变化、阴影和模糊，以及从MS COCO拍摄的背景图像[30]。旋转轴A=aT，aT，···，aT，我们可以用公式表示1 2N不4. 评价超定线性方程组As=0。的模糊度轴可以被发现作为最优化的解决方案，问题在本节中，我们首先介绍我们的实验装置。在此之后，我们清楚地展示了最小值s∈R3p 、（十二）与典型的姿态估计系统相比，玩具数据集接下来，我们展示了确定我们用SVD求解p=23.4. 从多重假设到6D姿势在分析假设的分布之后，我们可以稳健地计算每种情况下的相关6D姿势。无生物体物体姿势。在明确的物体姿态的情况下，我们利用多个假设作为几何中值（测地线L1-mean [14]）的输入，以提高总体估计Σq= argmind（q，q）.（十三）一个视图是否表现出模糊性。第四，我们报告我们的6D姿态估计准确性的明确和模糊的情况下，共同的基准数据集。最后，我们展示了如何通过分析假设之间的方差来建模姿态估计的可靠4.1. 实验装置评估指标。为了正确评估6D姿态性能，我们区分潜在的模糊和非模糊对象。当处理非模糊对象时，我们报告以度为单位的3D旋转和以毫米为单位的3D平移GMq∈H1第一地质报我特斯我们还使用[18]中的可区分模型点的平均距离（ADD）度量显示了我们的准确性在四元数超球[4]的切空间中，迭代计算遵循Weiszfeld算法[47，13]。从统计的角度来看，我们的旋转措施被视为输入的L1-估计鲁棒检测几何中位数，其中dgeo给出了四元数超球面上的测地线距离。注意，Gramkow[12]表明，局部地，使用周围的欧几里得此外，我们计算所有假设的中值深度。然后，我们利用2D检测的中心并将其反向投影到3D中以获得平移，从而获得检测的完整6D姿态。其测量变换的模型点的平均偏差是否小于对象直径的10%对于不可区分模型点（ADI）度量的度量，它扩展了ADD的模糊度，测量误差为到最近模型点的平均距离[21，17]。我们还显示了我们的结果的视觉表面相似性（VSS）度量。如[24]，我们定义VSS类似于视觉表面离散（VSD）[21]，但是，设置τ=∞。因此，我们测量渲染的地面实况姿态和渲染的预测的逐像素重叠，这不会受到模糊性的影响。+Q6848图4：合成玩具数据集。上图：原始SH（M=1）模型的渲染姿态轮廓为红色，MH（M=30）模型为蓝色。下图：每个姿态聚类的宾厄姆分布，以及绿色的地面实况四元数和红色的SH预测四元数。我们的模型不仅在这两种情况下都是正确的，而且还可以预测有效姿势的全部范围。SH在多维数据集示例上失败。对象歧义SVSS [%]HADI [%]MHVSS [%]ADI[%]杯（自）闭塞97.010098.1100立方体平面对称87.415.698.6100表1：合成结果。对于合成玩具数据集上的幼稚SH（M=1）和我们的MH（M=30）模型Bingham Distributions. 为了直观地分析我们的网络的多假设输出，我们检查了底层的旋转分布。宾汉分布[1]（BD）是超球面上高斯分布的一个特殊等价BD表示Sd上的概率分布，具有对映对称性，非常适合研究由四元数参数化的姿态，其中q和−q∈H1表示SO（3）中的相同元素。与以前的工作[28，11，2]一致，我们使用BD可视化最接近我们的姿势输出的分布的赤道投影4.2. 模糊度综合评估我们渲染一个简单的旋转杯子和立方体的合成数据集。我们比较了基线与M=1假设和我们的方法与M=30假设。结果示于图4，Tab.1和补充。对于髋臼杯，两种方法均产生100%的ADI评分。单假设方法SH确实能够计算视觉上正确的姿势，即使它不能沿着弧建模姿势分布。它已经学习了条件平均姿势，其中手柄与相机完全相反。尽管如此，这只是无限多可能的解决方案之一。相比之下，我们的方法是能够预测整个分布中看到的宾汉图。这对于下一个最佳视图预测或机器人操作等任务至关重要当没有歧义时，两种方法都只预测一个正确的姿势。图5：真实数据。红色截头体可视化（M=30）构成假设。蓝色平截头体构成中位数，其确定预测的3D边界框。在明确的情况下（左），假设一致。然而，部分对称性和遮挡导致右边的多个可能结果，这有意义地反映了假设的宾汉分布。对于立方体对象，SH失败（红色轮廓），ADI仅为15.6%。这里，条件平均值不在正确姿势的集合内我们的方法再次能够估计潜在的分布，并且可以正确地估计正确姿势的这产生了100%的完美ADI当将我们的方法应用于实际数据时（图1）。（5）取得了类似的结果。如果存在唯一解，则该方法能够鲁棒地估计正确的姿势。对于不明确的视图，我们检索支配分布为由视点平截头体和球面图描绘。4.3. 真实世界的数据集为了对真实数据进行评估，我们构建了两个数据集，解决了明确和模糊的问题6849腐[◦]译[公厘]VSS [%]ADD [%]F1SSD-6D [24][第四十二届]28.0–72.4–67.4–9.422.188.8–SH（M=1）MH（M=5）17.917.445.639.576.878.231.235.391.693.4图6：模糊检测。对称轴（绿线）估计。请注意，一个螺钉被分类为明确的（即，没有轴），因为可以通过纹理来解决模糊性例特别是，对于前者，我们使用流行的'LineMOD' [18]和'LineMOD Occlusion'数据集[27]。[27]的作者从原始“LineMOD”数据集中选择了一个序列，并标记了8个额外的对象。尽管如此，我们还是将“glue”和“eggbox "对象移此外，在[24，37]之后，我们删除了我们还丢弃了“灯”，因为CAD模型不具有正确的法向量进行适当的渲染。对于后者，除了“胶水”和“碗”对象之外，我们还添加了T-LESS [20]中的几个模型来覆盖不同类型的歧义。本质上，T-LESS主要由对称和无纹理的工业对象组成对于我们的实验，我们选择了一个涵盖两种情况的子集：完全旋转对称-沿轴（对象4）和对象具有一个以上的旋转对称（对象5，9，10）。4.4. 歧义检测分析为了评估我们的模型学习姿势分布的能力，我们手动标记模糊数据集的每个验证图像，当前对象视图是否基于可见对象纹理和形状表现出模糊性。该地面实况用于定量评估我们检测姿态模糊的能力。此外，我们计算每个对象的地面真实对称轴。重要的是要注意，我们不进行对象对称性检测，相反，我们根据对称轴来描述感知到的姿态模糊。这些注释仅用于评估，而不是在培训期间使用。对于每个检测到的模糊性，我们计算从地面实况注释计算的对称轴的平均差异。对于无歧义的情况下，我们实现了超过99%的准确率，而对于歧义的情况下，我们也可以说一个82%的正确分类视图的高准确率。此外，平均轴仅偏离24°，这表明我们的公式能够精确地解释感知到的模糊性。表2：具有合成训练数据的明确对象的位姿误差。与[42]，[24]比较。[24]的结果来自他们发布的模型和代码。猿可以猫dril鸭HoLEP是说泰金[46]2.517.50.77.71.15.55.8MH（M=5）5.922.44.232.012.217.015.6BB-8 [37]泰金[46]MH（M=5）ADD [%]45.947.944.4表3：具有来自[3]的真实训练数据的明确对象的姿势误差。上图：与LineMOD 闭塞[46]的比较。下图：与LineMOD上的[37]和[46]进行[46]的结果来自他们发布的模型和代码。在图6中，我们分别示出了来自“LineMOD”和“T-LESS”的估计模糊度轴对于每个检测，我们用红色绘制估计轴，而绿线表示手工注释的地面实况轴。4.5. 与最新技术非敌对姿态估计。在表2和表3中，我们报告了使用合成数据和[3]中分离的训练数据进行训练的明确子集的结果。由于预测假设的数量M是一个超参数，我们将在补充中显示消融，并且在这里仅报告M=5的最佳结果。对于合成训练的情况下，即使是罪-GLE假设的情况下，我们的方法优于SSD-6D超过35%的相对误差，同时也更鲁棒的二维检测方面。与Sunder- meyer等的比较。[42]我们可以报告关于ADD的大约 50%此外，我们对所有假设的平均导致对离群值的更强鲁棒性，因此，所有指标的另一个改进。当也采用真实数据时，我们可以将结果提高约9%至44.4%，并且与[37]和[46]中的最先进方法相当，即使我们没有采用裁剪和粘贴增强。此外，当使用更具挑战性的“LineMOD遮挡”数据集时[46]对于所有对象，总体上几乎是他们 ADD 分数的三倍，从 5.8% 到15.6%。模糊的姿态估计。参考表4，对于不明确的6850VSS [%]ADI [%]F1MHSH[24日]MHSH[24日]MHSH[24日]蛋盒胶83.174.678.574.076.365.155.754.656.058.726.317.698.090.183.074.093.776.8是说78,976.370.755.257.422.094.178.585.5标准差σ腐[◦]译[公厘]VSS [%]ADD [%]回收率[%]<0的情况。0511.839.480.037.732.6<0的情况。07513.841.379.135.518.2<0的情况。1015.543.078.334.310.5VSS [%]ADI [%]场景MHSH[第四十二届]MHSH[第四十二届]obj 04五、九70.868.678.519.714.115.2obj 05二、三、四87.682.888.878.048.376.3目标09五、十一84.479.186.569.954.577.3目标10五、十一82.078.582.357.929.431.9是说81.277.384.056.436.650.6表 4 ： Ambient 数据集。（ top ： 'LineMOD' ）（bottom：T-LESS）。我们比较了我们的多个假设MH（M =30）结果和训练输出单个假设SH（M =1）的相同预测器[42] 1和SSD-6D [24]。SSD-6D。在6D设置中，多假设检测器总体上实现了与单假设预测器相似的性能。然而，对于2D检测情况，我们能够将准确率从79%提高到94%。作为构造，只有少数观点对这些对象是模糊的。调查结果，我们发现，单一的假设预测是不能够准确地理解这些意见，往往只是抛弃他们。相比之下，多假设预测器确实能够理解这些视图并产生可靠的姿势预测。对于所有模糊的因此，单一假设预测器不能产生同样准确的结果，只能计算明确视图的精确姿态。与[42]相比，我们报告了类似的姿态性能。我们的ADI提高到56。4%，比50。6%，而VSS略微落后于2。百分之八为了公平起见，我们只比较正确检测到的物体的6D姿态精度（即，IoU≤0。5）因为[42]在真实数据上训练了他们的2D检测器用于T-LESS4.6. 测量可靠性据我们所知，没有能够对连续姿态估计中的置信度进行建模的先前工作。然而，这些信息可以大大提高整体的在我们的情况下，我们可以利用不同的假设来首先确定当前视图是否是明确的，并且随后将它们用作明确的6D姿态中的置信度测量。为了量化这一影响，我们报告了我们对图中“LineMOD”的明确子集的测试结果。7（顶部），其中我们通过相对于Karcher均值的标准偏差计算置信度[22]。图7：可靠性。顶部：姿势的所有假设上的标准差的不同箱的结果。Bot- tom：假设中标准偏差最小（左）和最大（右）的姿势GT姿势为蓝色，预测姿势为红色。红色的平截头体说明了假设。自然地，较低的标准差意味着更准确的姿势。通过只允许具有σ 0的姿势<。1，所有指标都有所改善，而只损失了10个左右。5%的估计。旋转误差减小约20%，平移误差从44.8mm减小到43.0mm。因此，使用甚至更低的阈值（例如，σ<0。05）给出了姿态（尤其是旋转）的另一个显著改进，然而，代价是拒绝更多的估计。图中的定性示例图像7也证实了这些结果。对于“司钻”来说，具有最低标准差的姿势是非常准确的，而具有最高标准差的姿势则相当不精确。我们对所有明确的5. 结论我们提出了一种新的姿态估计方法，该方法不需要任何输入预处理就可以实现模糊模型此外，我们可以估计旋转模糊的轴，并执行基于聚类的姿态细化，而无需事先知道簇的数量。实验结果表明，该方法既适用于具有多重旋转对称性的复杂目标，也适用于具有轻微模糊性的数据集。最后，我们认为，我们的方法构成了一个度量的可靠性的6D姿态。总之，我们认为，作为一个模糊的任务，从图像的姿态检测问题的新配方铺平了道路，在机器人交互和自动化领域的有趣的应用。感谢Toyota Mo-tor公司为这项工作提供资金和支持，NVIDIA公司捐赠了一个GPU。6851引用[1] 克里斯托弗·宾汉姆。球面上的对跖对称分布。《统计年鉴》，第1201- 1225页[2] Tolga Birdal，Umut Simsekli，Mustafa Onur Eken，andSlo-bodan Ilic.基于宾汉分布和缓和测地线mcmc的贝叶斯姿态图优化。NeurIPS，2018。[3] Eric Brachmann ， Frank Michel ， Alexander Krull ，Michael Ying Yang，Stefan Gumhold，et al.从单幅rgb图像估计物体和场景的不确定性驱动的 6d姿态。在CVPR，2016年。[4] Benjamin Busam，Tolga Birdal，和Nassir Navab.对偶四元数黎曼流形上局部回归测地线的摄像机姿态滤波在ICCV研讨会，2017年。[5] Marcelo Cicconet 、 Vighnesh Birodkar 、 Mads Lund 、Michael Werman和Davi Geiger。反射对称性的卷积方法。PRL，95（1）：44[6] Dorin Comaniciu，Peter Meer，资深会员。Mean Shift：A Robust Approach Toward Feature Space Analysis（ Mean Shift ：一种稳健的特征空间分析方法）TPAMI，24：603[7] 恩里克·科罗纳，考斯塔夫·昆杜，桑娅·菲德勒。旋转对称物体的姿态估计。在IROS，2018年。[8] Thanh-Toan Do，Ming Cai，Trung Pham，and Ian D.里德 Deep-6dpose ：从单个 RGB 图像恢复 6D 对象姿势CoRR，abs/1802.10367，2018。[9] 弗雷德里克·伊顿和祖宾·格拉马尼。选择一个变量进行箝位。人工智能与统计，2009年。[10] MohamedElawady ， Christophe Ducottet ， OlivierAlata，C e'cileBarat和PhilippeColantoni。通过纹理和颜色直方图进行基于矢量的反射ICCV研讨会，2017年。[11] 杰瑞德·格洛弗和莱斯利·帕克·凯尔布林用四元数宾汉滤波器跟踪乒乓球的旋转。InICRA，2014.[12] 克劳斯 · 格拉姆科关于平均旋转。 Journal ofMathematical Imaging and Vision，15（1-2）：7[13] 理查德·哈特利、胡鲁姆·阿夫塔布和约亨·特朗普夫。使用weiszfeld算法的L1旋转平均。CVPR，2011。[14] Richard Hartley ， Jochen Trumpf ， Yuchao Dai ， andHongdong Li.旋转平均。IJCVn，103（3）：267[15] Kai m ingHe ， Geo r giaGkioxari ， PiotrDol la'r ，andRossB. 娘娘腔。面罩R-CNN。InICCV，2017.[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[17] Stefan Hinterstoisser、Stefan Holzer、Cedric Cagniart、Slobodan Ilic、Kurt Konolige、Nassir Navab 和VincentLepetit。多模态模板用于在严重杂乱的场景中实时检测无纹理物体。见ICCV，2011年。[18] Stefan Hinterstoisser，Vincent Lepetit，Slobodan Ilic，Ste- fan Holzer ， Gary Bradski ， Kurt Konolige ， andNassir Navab.基于模型的训练，检测和姿态估计无纹理三维物体在严重混乱的场景。InACCV，2013.[19] Stefan Hinterstoisser，Vincent Lepetit，Paul Wohlhart，and Kurt Konolige.关于用于深度学习的预训练图像特征和合成图像在ECCV，2018。[20] 我的朋友是霍丹、哈卢扎、奥布扎莱克、马诺利斯·卢拉基斯和色诺芬·扎布利斯。T-LESS：用于无纹理物体的6D姿态估计的RGB-D数据集。在WACV，2017年。[21] 托马斯·霍丹，吉瑞·马塔斯，和斯捷潘·奥布扎莱克。6维目标位姿估计的评价2016年ECCV研讨会。[22] 赫尔曼·卡彻黎曼质心与柔化平滑。《纯粹与应用化学通讯》，30（5）：509[23] Wei Ke ， Jie Chen ， Jiabin Jiao ， Guoying Zhao ， andQixiang Ye. Srn：用于野外对象对称性检测的侧输出残差网络。在CVPR，2017年。[24] Wadim Kehl、Fabian Manhardt、Slobodan Ilic、FedericoTombari和Nassir Navab。SSD-6D：使基于RGB的3D检测和6D姿势估计再次伟大InICCV，2017.[25] Wadim Kehl 、 Fausto Milletari 、 Federico Tombari 、Slobodan Ilic和Nassir Navab。局部RGB-D补丁的深度学习，用于3D对象检测和6D姿态估计。在ECCV，2016年。[26] Iasonas Kokkinos Ubernet：使用不同的数据集和有限的内存训练一个用于低，中，高层次视觉的“通用”卷积神经网络。在CVPR，2017年。[27] Alexander Krull ， Eric Brachmann ， Frank Michel ，Michael Ying Yang ， Stefan Gumhold ， and CarstenRother.用于RGB-D图像中的6D姿态估计的学习合成分析。在ICCV，2015年。[28] Gerhard Kurz ， Igor Gilitschenski ， Simon Julier ， andUwe D Hanebeck. 基于宾汉分布的方向递推估计。InFUSION，2013.[29] 易离，顾望，向阳季，于翔，迪特尔福克斯。Deepim：深度迭代匹配6D姿态估计。在ECCV，2018。[30] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。2014年，在ECCV[31] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-yang Fu ， andAlexander C Berg.SSD ：单次激发多盒探测器。在ECCV，2016年。[32] Yuanliu Liu，Zejian Yuan，Badong Chen，Jianru Xue，and Nanning Zheng.通过拉贝尔传播的照明鲁棒色彩渲染。在ICCV，2015年。[33] Fabian Manhardt ， Wadim Kehl ， and Adrien Gaidon.ROI-10 d：将2d检测提升到6d姿态和度量形状的单目提升在CVPR，2019年。[34] Fabian Manhardt ， Wadim Kehl ， Nassir Navab ， andFederico To

下载后可阅读完整内容，剩余1页未读，立即下载