用于6D目标位姿估计的全局化条件随机场

165 浏览量更新于2023-10-15 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于6D目标位姿估计的Frank Michel，Alexander Kirillov，Eric Brachmann，AlexanderKrull Stefan Gumhold，Bogdan Savchynskyy，Carsten Rother德累斯顿工业大学frank. tu-dresden.de摘要本文讨论了从单个RGB-D图像估计已知3D对象的6D姿态的任务。大多数现代方法通过三个步骤来解决这个任务：i）计算局部特征;iii）从池中选择并优化姿势这个工作主要集中在第二步。虽然所有现有的方法，RGB-D输入图像结果CRF查找姿势一致的像素三维物体坐标通过本地推理来评估假设池，例如RANSAC或Hough投票，我们是第一个表明，全球reasoning是有益的，在这个阶段。特别地，我们构造了一个新的全连接条件随机场（CRF），它输出非常少量的假设。尽管CRF的势函数是非高斯的，我们给出了一个新的和有效的两步优化过程，与最优性的一些保证。我们利用我们的全局假设生成程序来产生超出具有挑战性的“遮挡对象数据集”的最新技术水平的结果1. 介绍估计无纹理物体的6D姿态的任务从应用的角度来看，这可能是由于对工业机器人技术和各种形式的增强现实场景的兴趣日益增长从学术角度来看，Hinterstoisseret al.[10]标志着一个里程碑，因为研究人员开始对他们的努力进行基准测试，研究进展开始变得更加可衡量。在这项工作中，我们专注于以下任务。给定3D场景的RGB-D图像，其中存在已知的3D对象，即，它的3D形状和外观是已知的，我们想要识别该对象的6D姿态（3D平移和3D旋转）。让我们考虑一个穷举搜索的方法来解决这个问题。我们生成所有可能的6D姿势假设，并且对于每个假设，我们运行鲁棒ICP算法[2]来估计3D模型与未建模模型的鲁棒几何拟合图1. 动机给定RGB-D输入图像（左），我们的目标是在寻找给定对象的6D姿态时，尽管它被强烈遮挡（见缩放）。这里我们的结果（绿色）是正确的，而Krull等人。[19]输出错误姿势（红色）。这项工作的关键概念是在姿态估计管道的开始具有全局的并且因此是强大的几何检查。这与所有其他方法执行的局部几何检查形成鲜明对比。在第一步中，随机森林为每个像素预测一组三个可能的对象坐标，即：对象的密集连续部分标记（中间）。考虑到这一点，一个完全连接的成对条件随机场（CRF）推断全局与6D对象姿态一致的那些像素。我们将这些像素称为姿态一致性。最终姿态是通过ICP变量从这些姿态一致的像素中导出的。它有两个很大的优点：（i）它考虑了所有的假设;（ii）它使用几何误差来修剪所有不正确的假设。显然，从计算的角度来看，这种方法是不可行的，因此大多数方法首先生成假设池，并使用几何激励的评分函数来选择正确的姿势，如果必要的话，可以用鲁棒ICP来细化。表1列出了五个最近的工作与不同的策略“假设生成”和“几何选择”。Drost等人的第一项工作。[5]，最近由Hinterstoisser等人扩展。[11]，没有几何选择过程，并产生了大量的假设。假设池被放入霍夫空间中，并且发现分布的峰值作为最终姿态。尽管其简单，该方法取得了很好的效果，特别是在其中对象受到强遮挡。我们推测，其成功的主要原因是，底层数据最终的ICP分数可以用作目标函数来选择最终姿势。这种方法1http://cvlab-dresden.de/iccv2015-occlusion-challenge/462463方法中间表示假设一代平均数个假设假设选择假设细化运行时间Drost等人[五]《中国日报》Hinterstoisser等人[第十一届]密集点配对特征所有本地配对（大街坊）20块000次优搜索ICP0.4sZach等人[33个]多个对象坐标都是当地的三胞胎带几何检查二、000最佳w.r.t.PDAPDA0.5sBrachmann等人[3]第一章多个对象坐标三胞胎取样带几何检查210最佳w.r.t.能源ICP变体2sKrull等人[19个]多个对象坐标三胞胎取样带几何检查210最佳w.r.t.CNNICP变体10s我们多个对象坐标全连接CRF带几何检查0-10最佳w.r.t.ICP变体ICP变体1-3s表1.关于四个不同计算步骤的六种不同6D对象姿态估计方法的广泛分类(a) 中间表示，（b）假设生成，（c）假设选择，（d）假设细化，（e）验证。两种方法之间的主要区别用红色标记：生成的假设的数量。我们显然产生了最少的假设。为此，我们运行基于CRF的假设生成方法，这比其他方法更耗时和复杂请注意，我们的整体运行时间具有竞争力。另一方面，由于我们有较少的假设，我们可以负担得起更昂贵的ICP样程序，以最佳地选择最佳的假设。我们表明，我们实现的结果是优于所有其他方法的挑战性的“被遮挡的对象数据集”。(Note PDA代表假设来自图像中的所有局部邻域。尤其是对于受到强遮挡的对象，重要的是尽可能从局部信息预测姿态其他三种方法[3，19，33]使用三胞胎，并且在精神上都是相似的。在第一步中，他们为每个像素计算一个或多个所谓的对象坐标，即给定对象上的3D连续部分标签（见图1）。1右）。然后，他们收集局部三元组的点，在[33]中，这些都是局部三元组，在[3，19]中，它们是用RANSAC随机采样的。对于每个物体坐标的三元组，他们首先执行几何一致性检查（参见[3，19，33]的细节2），如果成功，他们使用Kabsch算法计算6D物体姿态。由于几何检查，值得注意的是，这三种方法[3，19，33]生成的假设数量远远少于先前讨论的[5，11]。由于这个原因，方法[3，19，33]可以运行更详细的假设选择程序来找到最佳假设。在[33]中，这是通过所谓的鲁棒“投影数据关联”程序完成的我们的工作与[3，19，33]的方向相同，但向前迈进了一步。我们提出了一种新的，更强大的，几何检查，这导致更少的hypothes（0-10之间）。出于这个原因，我们也可以运行一个复杂的类似ICP的评分函数来选择最佳假设。由于我们在具有挑战性的遮挡数据集上获得了比最先进的结果更好的结果，因此我们的假设池至少与所有其他方法的更大假设池具有相同的质量。我们的几何检查工作大致如下。对于每对对象2例如，[3，19]的几何检查确定对于来自对象坐标的三维点的三元组，是否存在由深度图像给出的三维点的三元组的刚体变换计算几何一致性度量。我们将大量的对组合成一个完全连接的条件随机场（CRF）模型。因此，在对比现有的工作，我们执行一个全球性的几何检查，而不是一个本地的。重要的是要注意，尽管有一个复杂的CRF，我们能够有一个与其他方法竞争的运行时间，甚至比[19]快得多作为一个侧记，我们也实现了这些国家的最先进的结果与少量的学习，相比之下，例如。[19 ]第10段。简而言之，我们的贡献是• 我们是第一个提出一种新的，全球的几何检查的任务，6D对象姿态估计。为我们利用了完全连接的条件随机场（CRF）模型，尽管它的成对代价是非高斯的，因此不能利用像[18]那样的有效• 我们给出了一个新的理论结果，并将其用于计算我们的解。我们表明，对于二进制能量最小-在最小化问题中，可以使用图模型的子图上的（部分）最优解来找到整个图模型上的（部分）最优解适当的构造这样的子图，可以大大降低我们的方法的计算复杂性。• 我们的方法在具有挑战性的“遮挡对象数据集”上取得了最先进的结果时间（1-3s）。2. 相关工作在过去的十年中，目标检测和姿态估计的主题得到了广泛的研究。在下面的简短回顾中，我们只关注最近的作品，并将其分为三类。我们将省略方法[3，19，5，33，11]因为这些问题已经在464log（1−（1−n/N））上一节。基于抽样的方法。基于稀疏特征的方法（[8，20]）已经显示出精确姿态估计的良好结果。他们提取兴趣点，并根据RANSAC采样方案进行匹配。随着应用场景向机器人技术的转变，它们的受欢迎程度下降，Shotton等[25]通过引入场景坐标的概念解决了摄像机重新定位的任务。它们学习从相机坐标到世界坐标的映射，并通过随机采样生成相机姿势假设。最近Phillipset al. [21]提出了一种用于透明对象的姿态估计和形状恢复的方法，其中训练随机森林以检测透明对象轮廓。对这些边缘响应进行聚类，并采用随机采样来找到对象的旋转轴。我们将使用整个图像来找到姿势假设，而不是随机选择单个像素非抽样方法。姿态假设的随机采样的替代方案是基于Hough投票的方法，其中所有像素将投票投到量化的预测空间中（例如，2D对象中心和比例）。获得多数票的单元格将被视为获胜者。[7，26]使用Hough投票方案进行2D对象检测和粗略姿态估计。Tejani等人[30]提出了一种迭代的潜在类Hough投票方案，用于以RGB-D数据作为输入的对象分类和3D姿态估计。基于TEM板的方法[10，9，13]也已应用于姿态估计任务。为了找到最佳匹配，模板在图像上扫描，并且在每个位置处计算距离度量。这些方法受到杂乱和遮挡的损害，这使它们不适合应用于我们的场景。在我们的方法中，每个像素都被处理，但不是他们单独投票，我们通过全局推理找到使用图形模型进行姿势估计。在一个较老的作品中，对象类别的姿势在2D [32]或3D [12]的图像中找到。他们也用离散化目标坐标的关键概念，用于目标检测和姿态估计。MRF推理阶段寻找姿态一致的像素是密切相关的我们。当满足布局一致性约束（其中布局一致性意味着相邻像素应该属于同一部分）时，前景像素被接受然而，由于物体的形状是未知的，成对项并不像我们的例子那样强。与我们最接近的相关工作是Bergholdtet al。[1]的文件。它们使用相同的策略，对对象部分的局部外观进行区别性建模，并全局推断它们之间的几何连接。为了检测和找到被关节化的对象（面部、人体脊柱、人体姿势）的姿势，它们局部地提取特征点，并将它们组合在一个可能的、完全连接的图形模型中。然而它们依赖于问题的精确解，而在我们的情况下，部分最优解就足够了。因此，我们采用不同的方法来解决这个问题。3. 方法-概述在我们详细描述我们的工作之前，我们将正式介绍6D姿态估计的任务，并提供我们的方法的高级概述。目标是找到6D姿态Hc=[R c|t c]，其中R c（3×3矩阵）描述围绕对象中心的旋转，t c（3× 1向量）表示对象在相机空间。位姿Hc变换物体坐标空间y∈ Y <$R3转化为摄像机空间中的一点x∈ X <$R3.我们的算法包括三个阶段（见图1）。2）的情况。在第一阶段（Sec. 3.1）我们使用随机森林密集地预测对象概率和对象坐标。而不是随机抽样的姿势假设，例如。在[3]中，我们使用图形模型来全局推理假设内点。第二阶段在3.2节中有粗略的描述，在第4节中有详细的描述。在最后阶段（第二阶段）。3.3）我们对姿势假设进行细化和排名，以确定最佳估计。3.1. 随机森林我们使用Brachmann等人的随机森林。[3]的文件。森林T的每个树T为每个像素预测对象概率和对象坐标。如上所述，对象坐标对应于对象表面上的3D点。在我们的例子中，T=3。与[3]中一样，使用贝叶斯规则将来自多棵树的对象概率组合为一个值。这意味着对于像素i和对象c，我们有对象概率pc（i）。对象概率可以被看作是一个软分割掩码。3.2. 全局推理通常，为了估计刚性物体的姿态，需要物体上的3D点与3D场景中的3D点之间的三个对应的最小集合[14]。物体上的三维点，即。在对象坐标系中，由随机森林预测。一种可能的策略是通过RANSAC [6]随机生成这样的三元组，如[3]中所提出的。然而，这种方法有一个严重的缺点：必须由RANSAC生成以便具有至少95%概率的正确三元组的三元组的数量非常高。假设N个像素中的n个包含正确的对应关系，则样本总数为log（1 - 0. （95）3.对于n/N=0。005，它对应于最先进的本地分类器，这构成了24岁。000 000次RANSAC迭代。因此，我们解决用不同的方法来解决这个问题我们的目标是-对每个像素使用可能的对应候选者之一我们通过格式化一个图形模型来实现这一点，其中每个像素都是连接的4652RGB输入对象概率构成13变焦随机森林全球推理构成优化/姿势评分最终姿态（d）3深度输入（一）物体坐标（b）2组姿态一致的像素（c）图2. 我们的管道：给定RGB-D图像（a），随机森林提供两个预测：目标概率和目标坐标（b）。在第二阶段，我们的新的，完全连接的CRF推断姿势一致的像素集（见放大）（c）。在最后一个阶段中，由CRF的姿势一致像素给出的姿势假设由ICP变量进行细化和评分具有最低分数的姿势作为输出（d）给出每隔一个像素都有一个成对项成对项编码稍后定义的几何检查。在第二节中讨论了这种图形模型的优化问题。四点二。4.1.能量最小化设G=（V，E）是一个无向群. 有限的节点集V和边集E∈V。与eacQh节点u∈V，我们关联一个有限的标签集sQL u。让3.3.细化和假设评分图形模型的优化的输出是姿态一致的像素的集合，其中这些像素中的每一个具有唯一的对象坐标。集合被聚集到集合中。在图中的示例中。2（c）有两套（红色，绿色）。每组提供一个姿势假设。这些姿势假设是使用我们的ICP变体进行改进和评分的为了对遮挡具有鲁棒性，我们仅采用ICP [2，22]内的姿态一致像素来拟合3D模型。4. 方法-图形模型在简要介绍了图形模型之后（第二节），4.1），我们定义了我们的图形模型用于对象姿态估计（第4.1节）。4.2）。这是一个全连通图，每个节点有多个标签，这里是13个。这个问题的全局最优解决方案给出了一个姿态一致的（内点）标签，只有那些像素的对象的一部分，理想情况下。由于我们的势函数是非高斯的优化问题是非常具有挑战性的。我们近似地，但非常有效地解决了它第一阶段保守地修剪那些可能不是内点的像素这是用稀疏连接图和TRW-S完成的[16]作为推理程序（第二节）。4.3）。第二阶段（Sec.4.4-4.6 ）描述了一个有效的解决问题的过程，只有内点候选剩余。我们证明了，通过将该问题进一步分解为子问题，以适当的方式，保证其中一个子问题的（部分）解是整个第二阶段问题的（部分）最优解.我们使用子问题的解决方案来生成姿势假设。代表笛卡尔积。集合L=u∈VL u称为标号集。它的元素l∈L，称为标号，是向量l=（l u∈L u：u∈V），|V|坐标，其中每一个指定分配给corr的标签，响应图形节点。对于每个节点，定义一元成本函数θu：Lu→R。它的值θu（lu），lu∈Lu指定了为节点u分配标签lu所要支付的成本。对于每两个相邻节点{u，v}∈E，定义一个成对代价函数θuv：Lu×Lv→R它的值θuv（lu，lv）指定节点u和v中标签lu和lv的兼容性，分别三元组（G，L，θ）定义了一个图形模型。标号l∈L的能量EV（l）是相应的一元和成对代价Σ ΣE V（l）：= θ u（l u）+ βθ uv（l u，lv）。（一）uv∈E找到具有最低能量值的标记构成能量最小化问题。虽然这个问题是NP难的，但一般来说，存在一些有效的近似求解器，参见[15]最近的评论。4.2. 能量最小化的位姿估计考虑以下能量最小化问题：• 节点集合是输入图像的像素集合每个图形节点对应于一个像素。准确地说，我们缩小我们的图像的一个因素的两倍，更快的处理，即。每个图形节点对应于2 ×2个像素。• 每个节点中的标签数量相同。标签集 Lu ：=L<$u<${o}由两个部分组成，一个子集L<$u信件建议和一个特殊的标签。每个节点总共被分配了13个标签：森林T为每个像素中的对象坐标提供了3个候选，2×2像素产生12个标签，最后一个标签是46612��乌夫-乌夫深度随机森林#1对本地分类器有一定的信心。我们相信，有这样的超参数设置，这些坐标将提供近似正确的对象姿势。为什么是全连通图？乍一看，我们可以合理地简化上述能量最小化问题，通过考虑一个稀疏的，例如。网格结构图在这种情况下，成对成本将图3.我们的二元势的可视化定义在方程。二、来自子集Lu的每个标签对应于对象上的3D坐标因此，我们将这些标签lu与3D向量相关联，并假设向量运算是为它们定义的。一元成本θu（lu），对于这些la-贝尔被设置为（1−pc（u））α，其中pc（u）在Sec中定义。而α是我们方法的超参数。我们将来自L u的标签称为inlier标签或简单的inlie r。特殊标记o表示一种情况，在这种情况下，响应节点不属于对象，或者L u中没有一个标签预测正确的对象坐标。我们称之为“外部标签”。离群值标签的一元成本θ u（o）= pc（u）α，u∈V.让我们定义姿态一致的像素。如果一个包含2×2像素的节点是一个内点，则具有相应标签的像素被定义为姿态一致的。剩余的三个像素是不姿态一致的，并且在假设选择阶段被忽略。此外，具有离群值标签的节点不是姿势一致的。• 设xu和xv是相机坐标系中的3D点，对应于场景中的节点u和v。对于任意两个内点标签lu∈Lu和lv∈Lv，我们将成对成本如下不是控制所有的内点标签对，而是仅控制它们的子集，这对于定义良好质量对应的内点的选择可能看起来是足够的。不幸的是，这种简化具有严重的缺点，在[1]中有很好的描述：一旦图不是完全连接的，它倾向于选择最佳标记，其包含内部节点的分离的这样的标记可以包含内点标记的几何上独立的子集，其可以此外，根据我们的经验，许多这样的关于能量最小化。我们的图包含320×240个节点，对应于我们离散化的输入图像的大小。如果高斯势（如[18]不能使用。因此，我们提出了一个具体的问题，但非常有效的两阶段的程序，用于生成所考虑的问题的近似解。在第一阶段（SEC）。4.3）我们减少了优化问题的大小，在第二（Sec. 4.4）生成....x-x≤D解决方案候选人θuv（l u，lv）=. lu − lv，u v（二）图匹配问题（参见例如[4，27]另一∞，否则。也就是说，θuv（lu，lv）等于物体上的点lu，lv与场景中的点xu，xv之间的距离的绝对差（见图10）。3）如果后一差值不超过对象尺寸D。另外，我们定义了θuv（lu，o）=θuv（ o，lv）=γ，其中lu∈Lu，lv∈Lv.这里γ是我们方法的另一个超参数。一个合理的设置是γ=0，然而，我们将在优化的部分中选择γ>0（参见下面的细节）。我们还指定θuv（o， o）=0，对所有{u，v} ∈E.• 图G是全连通的，即，任何两个节点u，v∈V由边{u，v} ∈E连通.给定一个标签l∈L，我们将把内点和离群点分别称为内点或离群点标签。任何标记的能量是（i）内点标签的总具有最小能量的标记对应于坐标对应的几何一致子集，使用几何约束从大量假设对应中找到真正对应的形式主义。然而，图匹配的一个关键方面是一个离散特征（例如，3D模型的离散对象坐标）只能与一个其它离散特征（例如，图像中的离散对象坐标候选（从决策树输出））。相比之下，我们的问题公式化具有连续的对象坐标。4.3. 第一阶段：问题规模缩小尽管上面讨论了关于具有全连接图的内容，但我们使用稀疏图模型来减少可能的对应候选的数量这个稀疏模型的最佳标记为我们提供了一组内点节点，这些节点可能包含真正的内点。在我们的优化过程的第二阶段，如下所述，我们从这些节点构建几个全连接图。对于稀疏图，我们使用以下邻域结构：我们将每个节点连接到48个最近的节点，不包括最近的8个。我们认为距离意味着-u−v3D模型.467u内围节点的全连通图（黑色）子模型1子模型2正确的对应关系，在第二阶段获得的内点必须全部正确（具有小的几何误差）。不正确的对应关系可能会使最终的姿态估计精度恶化。因此，解决方案的质量在这个阶段至关重要。虽然这种规模的问题往往是可行的精确求解，获得一个精确的解决方案可能需要几分钟甚至几个小时。因此，我们认为，图4. 说明优化阶段二。（左）黑色像素是在优化的第一阶段中被标记为内点的所有那些像素（潜在的姿态一致的）。第一阶段是机会主义的，在这个意义上，错误的内围值可能仍然存在。第二阶段的目标是准确地确定真正的内点，从中我们将确定最终的姿势。为此，我们必须解决所示的全连接图，其中每个像素都有两个标签，分别是内点（1）或离群点（0）。这里的红色链接标记包含∞值的成对项不幸的是，由于压力，最先进的解决方案与这个问题作斗争，红色链接。我们通过求解两个（实际上更多）不包含红色链接的子模型（中间，右边）来每个子问题产生部分最优解{0，1，？}，其中不属于子模型的节点标记为0。我们可以现在保证其中一个部分最优解是左边完整图的部分最优解在最近的节点之间是非常嘈杂的。我们为参数γ分配一个正值，以惩罚内点和离群点标签之间的转换。这通过增加过渡的成本来减少“内围岛”的数量。我们用TRW-S算法近似解决了这个稀疏问题[16]，我们运行了10次迭代。我们发现最近的实现[24]这个al-出租m是8倍的速度比原来的一个[16]我们的设置。4.4. 第二阶段：候选解决方案的生成全连接图形模型。如上所述，在第二阶段，我们考虑一个全连接的图形模型，其中节点集只包含来自稀疏问题的解的内层节点。此外，为了进一步减小问题大小，我们将每个节点中的标签集减少到仅两个标签Lu：={0，1}，其中标签0标签1对应于异常值，标签1对应于异常值。与稀疏解中的节点相关联的标签问题.一元和成对代价如上所述，但超参数α、β和γ不同。特别是γ=0，因为在这个阶段没有理由惩罚内点和离群点之间的转换。此外，我们将参考上面定义的（G，L，θ）作为主（全连接）模型F。虽然这样的问题通常具有小得多的尺寸（稀疏问题的解决方案通常包含20到500个内点），但在这个阶段，我们对潜在求解器的要求要高得多。而在第一阶段，我们只要求内围节点集包含足够的我们坚持只传递最优解的一部分（部分最优标记）的方法，但是能够在几分之一秒或几秒内完成这一点，这取决于问题的大小。实际上，仅具有三个内点就足以估计对象姿态。部分标记。部分标记可以理解为一个向量l∈ {0，1，？}|V|只有一个坐标子集V′→V被赋值为0或1。其余坐标取特殊值？=“未标记”。部分标号称为部分最优标号，如果存在一个最优标号l∈L，使得对所有u∈V′，l∈=lu.对于多个[28，24]和两个标签的情况[17，31]，有许多有效的方法可以解决离散图形模型的部分最优性（获得部分最优标签）。我们参考[23]以获得广泛的概述。对于有两个标签的问题，标准的局部最优方法是QPBO [17]，我们在实验中使用了它。所有的部分最优性方法都是基于充分的最优性条件，这些条件必须满足部分最优标记。然而，由于直接从[29，Prop. 1]得出，对于标号lu在一个节点u中，如果对于某个相邻节点v：{u，v} ∈E最小的成对势之间的差最大值max l v ∈ L v θ uv（l u，l v）是很大的在我们的设置中，情况就是这样，如果对于两个节点u和v（由边连接，如全连通图中的任何一对），xu−xv这种无限成本的存在导致QPBO结果的恶化：在许多情况下，返回的部分标记包含少于三个标记，节点，这对于姿态估计是不够的。为了解决这个问题，我们提出了一种新的方法来找到多个部分标记：我们考虑一组诱导子模型（见下面的定义1），并为每个子模型找到一个部分最优解然而，我们保证这些部分标记中至少有一个是整个图模型的部分最优标记，而不仅仅是它的子模型。考虑子模型可以显著地重新-在θ uv（1，1）= ∞的条件下，减少节点对的个数{ u，v }。反过来，它会导致更多的节点被标记为部分优化的QPBO，因此，提供了一个高质量的姿态重建的基础（见图。4）.该方法的理论背景在以下小节中提供。468uUVuu4.5. 二元能量极小化子问题解的最优性设G=（V，E）是一个图，V′∈V是它的一个节点子集.一个子图G′=（V′，E′）称为诱导图w.r.t. V′，如果E′={{u，v} ∈E：u，v∈V′}包含所有连接V′内节点的E的边。定义1. 设M =Q（G，L，θ）是图模型，G=（V，E），L=u∈VLu.图模型M ′=（G′，L′，θ′）称为诱导w.r.t. V ′V如果• G′是Gw的一个Qn诱导子群。r. t. V′。这个命题有一个简单的证明：一旦存在具有有限能量的标记（例如，l u=0，对所有u∈V），最优标号不可能有无穷大标号.从应用的角度来看，这个命题的含义是非常清楚的：所有的内围节点必须放置在一个直径等于对象的最大线性尺寸的圆内。结合这个观察与命题1，我们将生成一组子模型，其中包含满足上述条件的所有可能的节点子集。生成所有这样的子模型的一种简单但低效的方法是遍历图G的所有节点u，并• L′=u∈V′ Lu.构造一个由节点诱导的子问题Mu，• θ′ =θu对于u∈V′和θ′=θ uv，{u，v} ∈E′。最多在u的距离D处。这样做的一个缺点1.提案设M=（G，L，θ）是图模型，G =（V，E），L ={0，1}|V|和θ，使得θuv（0，1）=θuv（1，0）=θuv（0，0）=0{u，v}∈E. （三）让我们∈L是M的能量极小化子，V：={u∈V：<$lu=1}。设M′=（G′，L′，θ′）是一个关于t.某些V′∈V′和l′是M ′的能量极小元. 则r e存在M的能量的极小元l∈ V，使得对任意u∈V ′，l ′ = l ∈ V.Pr oof. EV（1）=EV′（ xV′）+EV\V′（ xV\V′） ≥E（1′）+E V\V′（0）。由于x V\V′ = 0，等式成立。这个不等式由l′的定义成立。让我们考虑由V′上的l′和V\V′上的0的级联构造的标记l：=（l′，0）。它的能量等于右手的由于（3），表达式的一侧。由于BRL是最优的标签，不等式保持为平等和标签l也是最佳的。它完成了证明。推论1. 设在命题1的条件下l′是M ′的部分最优标号。则它对M是部分最优的。注意，由于任何双标签（成对）图模型的成对成本可以很容易地转换为形式（2），参见例如[17]，命题1通常适用于所有此类模型。4.6. 部分最优标记候选的获取为了能够使用命题1，我们需要一种方法来表征主模型F（在4.4节中定义）的可能的最优标记，以便能够生成包含最优标记的所有内点节点的可能集合V′事实上，以下命题提供了这一特征第二个提案。设l是上述全连通问题的最优解。则对于任意两个内围点，方法是一个人得到尽可能多的，|V|子问题，这导致了运行时间的增加和太多几乎相等的子模型。相反，我们认为所有连接的内层组件上获得的第一阶段的问题，lem减少的结果。我们删除所有小于3的分量，因为正如我们在实验中发现的那样，它们大多只代表噪声。我们列举了所有组件，即，给每个人分配一个序列号。对于每个组件f，我们建立一个全连通子模型，它包括它自己和所有组件具有更大的序列号在距离f的所有节点的距离D。这样的方法通常会导致最多20个子模型，其中大多数得到三个以上的部分最优标签的QPBO。忽略大小小于3的组件的启发式移除，这样的过程保证提供整个问题的部分最优解，这取决于组件的所选排序。事实上，让最优标记包括来自m >1个分量的内点。然后从这m个元素中选择具有最小索引的元素。通过构造，对应的子模型将包含所有的m个分量（因为它们都位于距离D内并且具有较大的索引）并且因此包含最优解的所有内点。5. 实验我们在一个公开的数据集上评估了我们的方法我们将首先介绍数据集，然后介绍评估协议（第二节）。5.1）。之后，我们定量地比较了我们的工作与三个竞争对手，也提出了定性的结果（第二节）。5.2）。5.1. 数据集为了评估我们的方法，我们使用Brachmann等人的公开数据集。[3]，称为这一数据集在[3]中给出，是[10]的扩展。他们在1214幅图像中标注了8个物体的地面真实姿态，这些图像具有不同程度的物体遮挡。节点u和v，l=l=1，它保持<$xu−xv≤D，或者，在u v换句话说，θuv（l<$，l<$）∞。<3http://cvlab-dresden.de/iccv2015-occlusion-challenge/u v469图5.我们的方法在“被遮挡对象数据集”上的定性结果我们的方法的结果被描绘为绿色轮廓，地面实况姿态被示出为蓝色轮廓，并且Krull等人的方法的结果被示出为蓝色轮廓。[19]以红色的轮廓表示。请注意，由于这些结果显示了我们方法的正确姿势，因此绿色轮廓位于蓝色轮廓之上。方法我们的方法Hinterstoisser等人[第十一届]Krull等人[19个]Brachmann等人[3]第一章对象评分猿百分之八十点七81.4%68.0%百分之五十三点一可以百分之八十八点五百分之九十四点七87.9%79.9%猫百分之五十七点八55.2%百分之五十点六百分之二十八点二司钻百分之九十四点七86.0%91.2%82.%鸭74.4%79.7%百分之六十四点七64.3%蛋盒47.6%65.5%*百分之四十一点五9.0%胶百分之七十三点八52.1%65.3%百分之四十四点五孔打孔机百分之九十六点三百分之九十五点五92.9%百分之九十一点六平均76.7%百分之七十六点三百分之七十点三56.6%表2. 定量比较[3]，[19]，[11]和我们的方法在具有挑战性的“遮挡对象数据集”中的所有对象。* Eggbox的数字与[11]不同，因为他们没有考虑序列的所有图像（与作者的私人电子邮件交换为了评估我们的方法，我们使用[10]中的标准。这意味着我们测量每个对象正确估计姿势的百分比。为了确定估计姿态的质量，我们计算每个点相对于估计姿态和地面真实姿态的平均距离如果平均距离低于对象直径的10%，则接受姿势。为了为我们的图形模型找到好的参数，我们创建了一个验证集，我们将公开提供。为此，我们注释了包含6个对象的[10]的额外图像序列第一阶段的最后一组参数是α=0。21，β=23。1，γ= 0。0048和第二阶段是α = 0。2，β = 2。0，γ = 0。0的情况。5.2. 结果在下文中，我们与Brach- mann等人的方法进行比较。[3]，Krullet al. [19]以及最近公布的Hinterstoisser等人的最先进的方法。[11 ]第10段。结果示于表2中。我们的平均准确率是 76. 7% ，也就是 0 。比Hinterstoisser等人的当前最先进的方法好4%。[11 ]第10段。对于单个对象，我们的方法在四个对象上表现最好，在其他四个对象上表现最好。与文献[3]和[19]相比，我们得到了20的改进. 1%和6。4%。由于这两种方法470使用相同的随机森林，因为我们这样做，使用全局推理的好处可以看出。定性结果见图5。6. 结论和未来工作在这项工作中，我们专注于姿态假设生成步骤，这是用于6D对象姿态估计的许多流水线的一部分。为此，我们引入了一种新的，全球性的几何检查的形式，一个完全连接的CRF。由于这种直接优化的CRF几乎是不可行的，我们提出了一个有效的两步优化过程，与一些最优性的保证今后的工作有许多途径显然下一步是改进目标坐标的回归过程，例如：用卷积神经网络代替随机森林。鸣谢：该项目已获得欧洲研究委员会（ERC）在欧盟地平线2020研究和创新计划（赠款协议编号647769）下的资助。计算在德累斯顿工业大学信息服务和高性能计算中心（ZIH）471引用[1] M.Be r gtholdt ， J. Kappes ， S. Schmidt 和C.Schnorérr. 以完全图为基础之物件类别侦测之研究。International Journal of Computer Vision ， 87 （ 1 ）：93，2009。三、五[2] P. J. Besl 和 N.D. 麦凯一种三维形状配准方法 IEEETransactions on Pattern Analysis and Machine Intelligence（PAMI），14（2）：239-256，1992. 1、4[3] E. Brachmann，A. Krull，F.作者：Michael，J. Gumhold和C.罗瑟使用3d对象坐标学习6d对象姿态估计。在欧洲计算机视觉会议（ECCV）上，2014年。二三七八[4] D. Conte，P. Foggia，C. Sansone和M.文托模式识别中的图匹配三十年。 International Journal of PatternRecognition and Artificial Intelligence （ IJPRAI ）， 18（3）：265-298，2004. 5[5] B. Drost，M. Ulrich，N. Navab和S.伊利克全局建模，局部匹配：高效和鲁棒的三维物体识别。IEEE计算机视觉与模式识别会议（CVPR），2010年。一、二[6] M. Fischler和R.波尔斯随机样本一致性：模型拟合的范例及其在图像分析和自动制图中的应用。Communications of the ACM，24（6）：381-395，1981.3[7] J. Gall，A. Yao，N.拉扎维湖J.V.Gool和V. S.冷天。Hough森林用于对象检测、跟踪和动作识别。IEEETransactions on Pattern Analysis and Machine Intelligence（PAMI），33（11）：2188-2202，2011. 3[8] I. Gordon和D. G.洛内容和地点：3D物体识别与准确的姿态。施普林格柏林海德堡，柏林，海德堡，2006年。3[9] S. 欣特施托伊塞尔角Cagniart，S.Ilic，P.F. Sturm，N.纳瓦布P. Fua和V.莱珀蒂用于无纹理物体实时检测的梯度响应图 IEEE Transactions on Pattern Analysis and MachineIntelligence（PAMI），34（5）：876 3[10] S. 欣特施托伊塞尔河谷Lepetit，S.Ilic，S.Holzer，G.R.布拉斯基K. Konolige和N.纳瓦布基于模型的训练，检测和姿态估计无纹理三维物体在严重混乱的场景。2012年亚洲计算机视觉会议（ACCV）。一、三、七、八[11] S. 欣特施托伊塞尔河谷 Lepetit ， N.Rajkumar 和K.Konolige进一步介绍点对特征。欧洲计算机视觉会议（ECCV），2016年。一、二、八[12] D. 霍耶姆角Rother和J.M. 温用于多视图对象类识别和分割的3D layoutcrfIEEE计算机视觉和模式识别会议，2007年。3[13] D. P. Huttenlocher，G. A. Klanderman和W.拉克里奇使用 Hausdorff 距离比较图像。 IEEE Transactions onPattern Analysis and Machine Intelligence（PAMI），15（9）：850-863，1993。3[14] W. Kabsch 一个解决方案的最佳旋转相关的两组向量。Acta Crystallographica Section A，32（5）：922- 923，Sep 1976. 3[15]J. H. 卡佩斯湾Andres，F. A. 汉普雷希特角Schnor？r，S. No wozin、D. 巴特拉、S. 金湾，澳-地X. Kausle r，T. Kroéger，J. Lellmann，N.科莫达基斯湾Savchynskyy和C.罗瑟结构化离散能量最小化问题现代推理技术的比较研究。International Journal of Computer Vision ，第 1-30 页，2015年。4[16] 科尔莫哥洛夫能量最小化的收敛树重加权消息传递。IEEE Transactions on Pattern Analysis and MachineIntelligence（PAMI），2006年。四、六[1

下载后可阅读完整内容，剩余1页未读，立即下载