具有对称性的物体的高准确度6D姿态估计方法——EPOS

169 浏览量更新于2023-10-24 收藏 12.98MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Tom´aˇs Hodaˇn1D´aniel Bar´ath1,2Jiˇr´ı Matas1117030EPOS：具有对称性的物体的6D姿态估计01捷克技术大学视觉识别组，布拉格2匈牙利科学院机器感知研究实验室，布达佩斯0摘要0我们提出了一种新的方法，用于从单个RGB输入图像中估计具有可用的3D模型的刚性物体的6D姿态。该方法适用于广泛的对象范围，包括具有全局或局部对称性的具有挑战性的对象。通过紧凑的表面片段表示对象，可以以系统化的方式处理对称性。使用编码器-解码器网络预测密集采样像素和片段之间的对应关系。在每个像素处，网络预测：（i）每个对象存在的概率，（ii）给定对象存在的情况下片段的概率，以及（iii）每个片段上的精确3D位置。选择与每个像素对应的可能多个3D位置，并使用PnP-RANSAC算法的鲁棒且高效的变体估计可能多个物体实例的姿态。在BOPChallenge2019中，该方法在T-LESS和LM-O数据集上优于所有RGB和大多数RGB-D和D方法。在YCB-V数据集上，它优于所有竞争对手，与第二好的RGB方法相比有很大的差距。源代码位于：cmp.felk.cvut.cz/epos。01. 引言0基于模型的刚性物体的6D姿态估计，即3D平移和3D旋转，是一个经典的计算机视觉问题，最早的方法可以追溯到1963年Roberts的工作[54]。解决这个问题的一种常见方法是在输入图像和物体模型之间建立一组2D-3D对应关系，并通过PnP-RANSAC算法[14,36]稳健地估计姿态。传统方法[9]使用局部图像特征（如SIFT[41]）建立对应关系，并在具有独特和不可重复形状或纹理的物体的遮挡和杂乱情况下表现出稳健性。最近的方法主要基于卷积神经网络，可以产生密集的对应关系[4, 48,69]，或者预测预选3D关键点的2D图像位置[52, 61, 50]。0图1.在具有独特物体部分的情况下，2D图像位置对应于物体模型上的单个3D位置（左），但在具有全局或局部物体对称性的情况下，2D图像位置对应于多个3D位置（右）。通过表面片段表示对象可以预测每个像素可能的多个对应关系。0对于具有全局或局部对称性的物体，建立2D-3D对应关系是具有挑战性的，无论是在形状还是纹理方面[44]。这种物体的可见部分由自遮挡和其他物体的遮挡决定，可能对物体模型有多个适配。因此，相应的2D和3D位置形成多对多的关系，即一个2D图像位置可能对应于模型表面上的多个3D位置（图1），反之亦然。这降低了假设一对一关系的方法的性能。此外，依赖于局部图像特征的方法在无纹理物体上的性能较差，因为特征检测器通常无法提供足够数量的可靠位置，并且描述符不再具有足够的区分性[62,28]。本文提出了一种方法，用于从单个RGB输入图像中估计可能多个刚性对象的6D姿态，这些对象具有可用的3D模型。该方法适用于广泛的对象范围-除了具有独特和不可重复形状或纹理的对象之外。117040纹理（鞋子，玉米片盒等[41,9]）的方法处理无纹理物体和具有全局或局部对称性的物体（碗，杯子等[24, 12,20]）。关键思想是通过可控数量的紧凑表面片段表示对象。这种表示方法可以以系统化的方式处理对称性，并确保在任何类型的对象上具有一致的数量和均匀的候选3D位置。使用编码器-解码器卷积神经网络预测密集采样像素和表面片段之间的对应关系。在每个像素处，网络预测（i）每个对象存在的概率，（ii）给定对象存在的情况下片段的概率，以及（iii）每个片段上的精确3D位置（图2）。通过条件建模片段的概率，将由于对象对称性引起的不确定性与对象存在的不确定性解耦，并用于指导在每个像素处选择数据相关的3D位置的数量。通过PnP-RANSAC算法的鲁棒且高效的变体，通过预测的多对多的2D-3D对应关系估计可能多个物体实例的姿态。姿态假设由GC-RANSAC[2]提出，它利用对应关系的空间一致性-接近的对应关系（在2D和3D中）可能属于同一姿态。通过PROSAC采样器[8]实现了效率，该采样器优先选择具有高预测概率的对应关系。将所提出的方法与BOP Challenge2019的参与者进行比较[23, 26]。该方法在T-LESS[24]和LM-O[4]数据集上优于所有RGB方法和大多数RGB-D和D方法，这些数据集包括在各种遮挡水平下拍摄的无纹理和对称物体的杂乱场景。在包括纹理和无纹理物体的YCB-V[68]数据集上，该方法优于所有竞争对手，与第二好的RGB方法相比有显著的27％绝对改进。这些结果是在没有任何后处理的情况下实现的，例如[43, 38, 69, 52]。0本文的贡献如下：1.一种适用于广泛对象的6D对象姿态估计方法，包括具有对称性的对象，在标准T-LESS、YCB-V和LM-O数据集上实现了最先进的仅使用RGB的结果。2.通过表面片段表示对象，以系统的方式处理对称性，并确保任何对象上的候选3D位置的数量和均匀分布。3.通过预测每个像素处的数据相关数量的精确3D位置，建立多对多的2D-3D对应关系。4.一种强大而高效的估计器，用于恢复多个对象实例的姿态，与标准的PnP-RANSAC变体相比具有明显的优势。0图2.EPOS流程。在训练过程中，编码器-解码器网络提供了以对象标签、片段标签和3D片段坐标的形式的每像素注释。在推断过程中，预测了可能多个片段上的3D位置，并将像素与预测的3D位置建立多对多的2D-3D对应关系，使用一种强大而高效的PnP-RANSAC算法变体估计6D姿态。02. 相关工作0经典方法。在早期的尝试中，Roberts[54]假设对象可以由已知的简单3D模型的变换构建，这些模型适应从灰度输入图像中提取的边缘。最早的实用方法依赖于局部图像特征[41,9]或模板匹配[5]，并假设灰度或RGB输入图像。后来，随着消费级Kinect等传感器的引入，研究领域的注意力转向从RGB-D图像中估计对象姿态。基于RGB-D模板匹配[20,28]，点对特征[13, 21,66]，3D局部特征[17]和基于学习的方法[4, 60,35]在RGB-only方法上表现出更好的性能。0基于卷积神经网络（CNN）的方法。最近的方法基于卷积神经网络（CNN），主要关注从RGB图像估计对象姿态。一种常用的方法是通过预测一组固定的3D关键点的2D投影来建立2D-3D对应关系，这些关键点针对每个对象模型进行预选，并使用PnP-RANSAC求解对象姿态[52, 49, 47, 61, 65,15, 29,50]。还提出了在相反方向上建立对应关系的方法，即通过预测密集采样的像素的3D对象坐标[4]来建立对应关系[32,46, 69, 48,39]。如下所讨论的，没有任何现有的基于对应关系的方法可以可靠地处理由于对象对称性引起的姿态模糊。̸117050现有的基于对应关系的方法可以可靠地处理由于对象对称性引起的姿态模糊。另一种方法是通过定位带有2D边界框的对象，并为每个边界框通过回归[68, 37,42]或通过分类为离散视点[33, 10,59]预测姿态。然而，在遮挡的情况下，估计覆盖整个对象（包括不可见部分）的准确2D边界框是有问题的[33]。尽管有着有希望的结果，但最近基于CNN的RGB方法在经典的RGB-D和D方法面前表现不佳，如[23,26]所报道。使用深度图像作为CNN的附加输入是一个有希望的研究方向[37, 58, 67]，但应用范围有限。0处理对象对称性。对于对象对称性（第1节），对应的2D和3D位置的多对多关系会降低基于对应关系的方法的性能，这些方法假设一对一的关系。特别是，基于分类的方法为每个像素预测最多一个对应的3D位置[4,46]，或者为每个3D关键点预测最多一个2D位置，通常由预测热图中的最大响应给出[49, 47,15]。这可能导致一组对应关系仅对每个可能的姿态提供有限的支持。另一方面，基于回归的方法[61, 69,50]需要在可能的对应位置之间进行权衡，并倾向于返回平均值，这通常不是一个有效的解决方案。例如，球体上所有点的平均值是球体的中心，这不是一个有效的表面位置。由于对象对称性导致的姿态模糊问题已经被几种方法解决。Rad和Lepetit[52]假设全局对象对称性已知，并提出了一种适用于对称轴的投影接近垂直的情况的姿态归一化方法。Pitteri等人[51]引入了一种不限于这种特殊情况的姿态归一化方法。Kehl等人[33]仅针对由全局对象对称性定义的一部分视点训练分类器。Corona等人[10]表明，预测旋转对称性的顺序可以提高姿态估计的准确性。Xiang等人[68]优化了一个对全局对象对称性不变的损失函数。Park等人[48]通过计算与最接近的对称姿态相关的损失来指导姿态回归。然而，所有这些方法只涵盖了由于全局对象对称性引起的姿态模糊。未涵盖由于局部对象对称性（即可见对象部分与整个对象表面有多个可能的匹配）引起的模糊性。与EPOS一样，Manhardt等人[42]和Li等人[37]的方法可以处理由全局和局部对象对称性引起的姿态模糊性，而不需要任何先验关于对称性的信息。第一种方法[42]为每个对象实例预测多个姿态，以估计由对称性引起的可能姿态的分布。第二种方法[37]通过预测像素密集采样的3D对象坐标[4]来建立对应关系。如下所讨论的，没有任何现有的基于对应关系的方法可以可靠地处理由于对象对称性引起的姿态模糊。0ond[37]通过应用于旋转和平移空间的分类和回归方案来处理可能的非单峰姿态分布。然而，这两种方法都依赖于估计准确的2D边界框，而当对象被遮挡时，这是有问题的[33]。0对象表示。为了增加6D对象姿态跟踪对遮挡的鲁棒性，Crivellaro等人[11]通过一组部分来表示对象，并通过预测预选的3D关键点的2D投影来估计每个部分的6D姿态。Brachmann等人[4]和Nigam等人[46]将对象模型的3D边界框分成均匀的箱子，并预测每个像素最多一个对应的箱子。他们用箱子的中心表示每个箱子，从而得到有限精度的对应关系。对于人体姿态估计，G¨uler等人[1]将人体表面分割成语义定义的部分。在每个像素上，他们预测相应部分的标签和定义部分上精确位置的UV纹理坐标。相比之下，为了有效地捕捉部分对象的对称性，我们通过一组近似均匀大小的紧凑表面碎片来表示对象，并在每个像素上预测可能的多个相应碎片的标签。此外，我们回归碎片在局部3D坐标中的精确位置，而不是UV坐标。使用UV坐标需要网格模型的明确定义的拓扑结构，这可能需要手动干预，并且对于具有复杂表面的对象（例如线圈或发动机）存在问题[12]。0模型拟合。许多最近的基于对应关系的方法，例如[48, 69,52,61]，使用OpenCV函数solvePnPRansac中实现的传统PnP-RANSAC算法[14,36]来估计姿态。我们表明，通过用现代鲁棒估计器替换传统估计器，可以实现明显的改进。03. EPOS: 提出的方法0本节详细描述了用于6D对象姿态估计的基于模型的方法。3D对象模型是该方法的唯一必要训练输入。除了自动注释的训练图像的综合[27]之外，这些模型对于机器人抓取或增强现实等应用非常有用。03.1. 表面碎片0假设每个对象i ∈ I = { 1 , . . . , m }都有一个由一组3D顶点Vi和一组三角面Ti定义的网格模型。模型表面上的所有3D点的集合Si被分割成n个碎片，其索引为J = { 1 , . . . , n}。对象i的表面碎片j被定义为S ij = { x | x ∈ S i ∧ d ( x , gij ) < d ( x , g ik ) }，� k ∈ J, k ≠ j，其中d ( .)是两个3D点的欧氏距离，{ g ij } n j=1是预选的碎片中心。117060通过最远点采样算法找到碎片中心，该算法通过从已选择的顶点中选择与Vi最远的顶点来进行迭代。该算法从对象模型的质心开始，然后将其从最终的中心集合中丢弃。03.2. 预测2D-3D对应关系0解耦对称性引起的不确定性。对象i的表面碎片j在像素u = (u, v )处可见的概率被建模为：0Pr( f = j, o = i | u ) = Pr( f = j | o = i, u ) Pr( o = i | u )，0其中o和f是表示对象和碎片的随机变量。概率可能很低，因为（1）对象i在像素u处不可见，或者（2）u对应于由于对象i的全局或部分对称性而导致的多个碎片。为了区分这两种情况，我们分别预测a i ( u ) = Pr( o = i | u )和b ij ( u ) =Pr( f = j | o = i, u )，而不是直接预测Pr( f = j, o = i | u)。0回归精确的3D位置。物体i的表面片段j与回归器rij:R2→R3相关联，在像素u处预测相应的3D位置：rij(u)=(x−gij)/hij。预测的位置以3D片段坐标表示，即以片段中心gij为原点的3D坐标系。标量hij将回归范围归一化，并定义为片段的3D边界框的最长边的长度。0密集预测。采用具有编码器-解码器结构的单个深度卷积神经网络DeepLabv3+[6]来密集预测aki(u)，bij(u)和rij(u)，�i∈I，�j∈J，�k∈I∪{0}，其中0保留给背景类。对于由n个表面片段表示的m个物体，网络具有4mn+m+1个输出通道（m+1用于物体和背景的概率，mn用于表面片段的概率，3mn用于3D片段坐标）。0网络训练。通过最小化在所有像素u上平均的以下损失来训练网络：0L(u)=E¯a(u),a(u)+0i∈I¯ai(u)λ1E¯bi(u),bi(u)+0j∈J¯bij(u)λ2H¯rij(u),rij(u)0其中E是softmax交叉熵损失，H是Huber损失[30]。向量a(u)包含所有预测的概率ai(u)，向量bi(u)包含所有预测的概率bij(u)。真实的独热向量¯a(u)和¯bi(u)指示在u处可见的物体（或背景）和片段。这些真实向量的元素表示为¯ai(u)和¯bij(u)。向量¯bi(u)0仅当物体i在u处存在时，才定义。地面真实3D片段坐标表示为¯rij(u)。权重λ1和λ2用于平衡损失项。网络在带有真实6D物体姿态注释的图像上进行训练。通过使用自定义的OpenGL着色器在真实姿态下渲染3D物体模型，获得向量¯a(u)、¯bi(u)和¯rij(u)。被认为是背景的对象可见性掩码之外的像素。掩码的计算方法如[25]所述。0学习物体的对称性。为了训练网络，识别所有可能的对应关系并不容易。需要在每个训练图像中识别可见的物体部分，并找到它们与物体模型的匹配。相反，我们在训练过程中仅向网络提供每个像素一个对应的片段，并让网络隐式地学习物体的对称性。最小化softmax交叉熵损失E¯bi(u),bi(u)恰好对应于最小化分布¯bi(u)和bi(u)的Kullback-Leibler散度[16]。因此，如果真实的独热分布¯bi(u)在具有相似外观的像素上指示不同的片段，网络应该在这些像素上学习所有指示的片段具有相同的概率bij(u)。这假设了物体姿态在训练图像中均匀分布，这在使用合成训练图像很容易确保。0建立对应关系。像素u与3D位置xij(u)=hijrij(u)+gij在每个片段上都有链接，其中ai(u)>τa且bij(u)/maxnk=1(bik(u))>τb。阈值τb相对于最大值，以收集所有预计具有类似高概率bij(u)的不可区分片段的位置。例如，球面上的概率分布预计是均匀的，即bij(u)=1/n，�j∈J。在碗上，概率预计在对称轴周围是恒定的。对于物体i的实例建立的对应关系集合被表示为Ci={(u,xij(u),sij(u))}，其中sij(u)=ai(u)bij(u)是对应关系的置信度。该集合形成了2D图像位置和预测的3D位置之间的多对多关系。03.3. 鲁棒且高效的6D姿态拟合0异常值的来源。对于单个物体姿态假设，多对多的2D-3D对应关系集C i包括三种类型的异常值。首先，它包括由于对3D位置的错误预测而产生的异常值。其次，对于每个2D/3D位置，最多有一个与姿态假设兼容的对应关系；其他对应关系则作为异常值。第三，来自物体实例i的对应关系也与姿态假设不兼容。因此，集合C i可能被高比例的异常值污染，需要使用鲁棒估计器来获得稳定的结果。u∈Ui maxc∈Ciu max�0, 1 − e2 ˆP, c /τ 2r�,1https://github.com/danini/progressive-x2https://github.com/danini/graph-cut-ransac117070多实例拟合。为了从对应关系C i估计物体i的可能多个实例的姿态，我们使用了PnP-RANSAC算法[14,36]的鲁棒且高效的变体，该算法集成在Progressive-X方案[3] 1中。在该方案中，姿态假设按顺序提出，并通过PEARL优化[31]添加到维护的假设集中，PEARL优化通过计算所有假设和对应关系上的能量来最小化。PEARL利用对应关系的空间连贯性，它们越接近（在2D和3D中），它们属于同一物体实例的姿态的可能性就越大。为了推理空间连贯性，通过将每个对应关系描述为由2D和3D坐标（以像素和厘米为单位）组成的5D向量，并在它们的欧氏距离低于阈值τ d时连接两个5D描述符来构建邻域图。内点-外点阈值，表示为τ r ，是手动设置的，并且基于重投影误差[36]定义。0假设提案。姿态假设由GC-RANSAC [2] 2提出，它是一种局部优化的RANSAC算法，通过s-t图割优化选择内点。GC-RANSAC利用与PEARL相同的邻域图来实现空间连贯性。姿态由P3P求解器[34]从采样的三个对应关系中估计得到，并由EPnP求解器[36]和Levenberg-Marquardt优化[45]从所有内点中进行细化。三元组由PROSAC[8]采样，它首先关注具有高置信度sij（第3.2节）的对应关系，然后逐渐过渡到均匀采样。0假设验证。在GC-RANSAC中，姿态假设的质量，表示为ˆ P，计算如下：0q = 1 / | U i | �0其中 U i 是像素集，对应关系 C i 在像素 u 处建立，C i u是在像素 u 处建立的子集，e 是重投影误差[36]，τ r是内点-外点阈值。在每个像素上，质量 q仅考虑最准确的对应关系，因为只有一个对应关系可能与假设兼容；其他对应关系提供了替代解释，不应影响质量。GC-RANSAC 运行最多 τ i 次迭代，直到一个假设的质量 q达到阈值 τ q。质量最高的假设是每个提案阶段的结果，并被整合到维护的假设集中。0退化测试。拒绝形成面积低于τ t的2D三角形或具有共线3D位置的采样三元组。此外，摄像机后面的姿态假设或旋转矩阵行列式等于-1（即不正确的旋转矩阵[18]）的姿态假设被丢弃。0图3.T-LESS（顶部）、YCB-V（中部）和LM-O（底部）上的EPOS结果示例。右侧是从左侧的RGB图像估计得到的姿态的3D物体模型的渲染。底部示例中检测到了所有八个LM-O物体，包括两个截断的物体。更多示例请参见项目网站。04. 实验0本节将EPOS与其他基于模型的6D物体姿态估计方法进行性能比较，并进行消融实验。04.1. 实验设置0评估协议。我们遵循BOP Challenge 2019 [23,26]（简称BOP19）的评估协议。任务是在单个图像中估计可变数量的可变数量的物体的6D姿态，每个图像提供了实例的数量。估计姿态ˆP相对于地面真实姿态¯P的误差由三个姿态误差函数计算。第一个是可见表面差异（Visible SurfaceDiscrepancy），通过仅考虑可见物体部分将无法区分的姿态视为等价：0e VSD = avg p ∈ ˆV∪ ¯V0�如果p ∈ ˆV ∩ ¯V且|ˆD(p) - ¯D(p)| <τ则为0，否则为1，0其中ˆD和¯D分别是通过在估计的姿态和地面真实姿态下渲染物体模型获得的距离图。将距离图与测试图像I的距离图DI进行比较，以获得可见性掩码。117080ˆV和¯V，即物体模型在图像I中可见的像素集合。距离图DI对于BOP中的所有图像都是可用的。参数τ是一个不对齐容差。第二个姿态误差函数是最大对称感知表面距离（Maximum Symmetry-Aware SurfaceDistance），测量3D中的表面偏差，因此对于机器人应用是相关的：0e MSSD = min T ∈ T i max x ∈ V i ∥ˆPx - ¯PTx∥2，0其中Ti是物体i的对称变换集合（在BOP19中提供），Vi是模型顶点集合。第三个姿态误差函数是最大对称感知投影距离（Maximum Symmetry-Aware ProjectionDistance），测量可感知的偏差。它适用于增强现实应用，并适用于评估RGB方法，其中估计Z平移分量更具挑战性：0e MSPD = min T ∈ T i max x ∈ V i ∥ proj (ˆPx) - proj (¯PTx) ∥2，0其中proj(.)表示2D投影操作，其他符号的含义与eMSSD相同。如果e <θe，则认为估计的姿态相对于姿态误差函数e是正确的，其中e ∈ {eVSD, eMSSD,eMSPD}，θe是正确性的阈值。估计正确姿态的物体实例的比例称为召回率。关于函数e的平均召回率（AR e）定义为对多个阈值θe和在eVSD的情况下对不对齐容差τ的多个设置计算的召回率的平均值。方法的整体性能由平均召回率（AR）来衡量：AR = (AR VSD + AR MSSD + ARMSPD) /3。由于EPOS仅使用RGB，除了AR之外，我们还报告ARMSPD。0数据集。实验在三个数据集上进行：T-LESS [24]，YCB-V[68]，LM-O[4]。数据集包括彩色3D物体模型和带有地面真实6D物体姿态的RGB-D图像（EPOS仅使用RGB通道）。使用了与BOP19相同的测试图像子集。LM-O包含200个测试图像，其中包含来自LM[20]的八个主要无纹理物体的地面真实姿态，这些物体在各种遮挡水平下在杂乱场景中捕获。YCB-V包括21个有纹理和无纹理的物体，以及900个显示物体的测试图像，其中偶尔会有遮挡和有限的杂乱。T-LESS包含30个没有显著纹理或可区分颜色的物体，具有形状和/或大小上的对称性和相似性。它包括来自20个场景的1000个测试图像，包括具有多个物体实例和大量杂乱和遮挡的具有挑战性的场景。0训练图像。网络在几种类型的合成图像上进行训练。对于T-LESS，我们使用了来自SyntheT-LESS[51]的30K个基于物理的渲染（PBR）图像，以及使用OpenGL在随机上渲染的对象的50K个图像。0来自NYU Depth V2[57]的照片（类似于[22]），以及来自[24]的显示黑色背景上的物体的38K真实图像，其中我们用随机照片替换了背景。对于YCB-V，我们使用提供的113K真实图像和80K合成图像。对于LM-O，我们使用来自[27]的67KPBR图像（场景1和2），以及在随机照片上使用OpenGL渲染的50K物体图像。在LM-O上没有使用物体的真实图像进行训练。0优化。我们使用DeepLabv3+编码器-解码器网络[6]，其中Xception-65 [7]作为骨干。网络在Microsoft COCO[40]上进行预训练，并在上述训练图像上进行了2M次微调。批量大小设置为1，初始学习率设置为0.0001，批归一化的参数不进行微调，其他超参数设置与[6]中相同。为了克服合成训练和真实测试图像之间的域差异，我们应用了[22]中的简单技术，并冻结了Xception-65的“早期流”部分。对于LM-O，我们还冻结了“中间流”，因为该数据集中没有真实的训练图像。训练图像通过随机调整亮度、对比度、色调和饱和度，并应用随机高斯噪声和模糊进行增强，类似于[22]。0方法参数。DeepLabv3+网络中的空洞空间金字塔池化率设置为12、24和36，输出步幅设置为8像素。通过双线性插值将输出通道的空间分辨率加倍，即预测位置u位于输入图像中4×4像素区域的中心。每个数据集训练一个单独的网络，每个物体由n =64个片段表示（除非另有说明），其他参数设置如下：λ1 =1，λ2 = 100，τa = 0.1，τb = 0.5，τd = 20，τr =4像素，τi = 400，τq = 0.5，τt = 100像素。04.2. 主要结果0准确度。表1比较了EPOS与BOP Challenge 2019 [23,26]的参与者的性能。EPOS在所有三个数据集上的AR和ARMSPD得分都远远超过所有RGB方法。在YCB-V数据集上，它在两个得分上相对于第二好的RGB方法都有27%的绝对改进，并且也优于所有RGB-D和D方法。在包括对称和无纹理物体的T-LESS和LM-O数据集上，EPOS实现了最佳的ARMSPD得分。由于BOP规则要求方法参数在所有数据集上保持不变，表1报告了使用所有数据集中的64个片段表示的物体所达到的得分。如表2所示，将片段数量从64增加到256在某些情况下会带来额外的改进，但图像处理时间大约增加一倍。请注意，我们没有对估计的姿态进行任何后处理，例如[43, 38, 69, 52]，这可能会进一步提高准确性。ARARMSPDARARMSPDARARMSPDEPOSRGB47.663.569.678.344.365.90.75Zhigang-CDPN-ICCV19 [39]RGB12.417.042.251.237.455.80.67Sundermeyer-IJCV19 [59]RGB30.450.437.741.014.625.40.19Pix2Pose-BOP-ICCV19 [48]RGB27.540.329.040.77.716.50.81DPOD-ICCV19 (synthetic) [69]RGB8.113.922.225.616.927.80.24Pix2Pose-BOP w/ICP-ICCV19 [48]RGB-D––67.563.0–––Drost-CVPR10-Edges [13]RGB-D50.051.837.527.551.556.9144.10F´elix&Neves-ICRA17-IET19 [55, 53]RGB-D21.221.351.038.439.443.052.97Sundermeyer-IJCV19+ICP [59]RGB-D48.751.450.547.523.728.51.10Vidal-Sensors18 [66]D53.857.445.034.758.264.74.93Drost-CVPR10-3D-Only [13]D44.448.034.426.352.758.110.47Drost-CVPR10-3D-Only-Faster [13]D40.543.633.024.449.254.22.201170906D物体姿态估计方法图像 T-LESS [24] YCB-V [68] LM-O [4] 时间0表1. BOP Challenge 2019 [23,26]在T-LESS、YCB-V和LM-O数据集上的结果，物体由64个表面片段表示。图像类型的最高得分为粗体，整体最佳得分为蓝色。时间[s]是在数据集上平均图像处理时间。0速度。在未经优化的实现下，EPOS平均每张图像需要0.75秒（使用6核Intel i7-8700K CPU，64GB RAM和NvidiaP100GPU）。与基于卷积神经网络的其他RGB方法相比，EPOS明显更快，而RGB-D和D方法（表1）通常较慢，因为它们通常需要ICP后处理步骤[56]。[59,69]的RGB方法比EPOS快3-4倍，但准确性明显较低。根据应用需求，可以通过表面片段的数量、网络大小、图像分辨率、预测对应关系的像素密度或最大允许的GC-RANSAC迭代次数等来控制EPOS的准确性和速度之间的权衡。04.3.消融实验0表面片段。EPOS在不同数量的表面片段上的性能得分显示在表2的上半部分。使用单个片段时，该方法直接回归所谓的3D物体坐标[4]，类似于[32, 48,39]。准确性随着片段数量的增加而增加，并在64个或256个片段时达到峰值。在所有三个数据集上，AR和ARMSPD得分的峰值比直接回归3D物体坐标的得分高出18-33％。这一显著改进证明了片段在各种类型的物体上的有效性，包括有纹理的、无纹理的和对称的物体。在T-LESS上，当片段数量从64增加到256时，准确性下降。我们怀疑这是因为片段变得太小（T-LESS包含较小的物体），网络的训练变得具有挑战性，因为每个片段的示例数量较少。0对应关系的平均数量随着片段数量的增加而增加，即每个像素与更多片段相连（表2中的Corr.列）。与此同时，拟合迭代的平均数量倾向于减少（Iter.列）。这表明姿态拟合方法可以从每个像素的更多可能的对应关系中受益-GC-RANSAC在较少的迭代次数内找到质量为q（第3.3节）且达到阈值τq的姿态假设。然而，尽管平均迭代次数减少，但随着片段数量的增加，平均图像处理时间倾向于增加，这是由于网络推断和每个拟合迭代的计算成本更高。将片段数量设置为64可以在速度和准确性之间提供实际的权衡。03D片段坐标的回归。表2的上半部分显示了使用回归精确的3D位置得到的分数，而下半部分显示了使用相同的网络模型但使用片段中心（第3.1节）而不是回归位置得到的分数。没有回归时，随着片段中心与真实对应的3D位置的偏差减小，分数随着片段数量的增加而增加。然而，准确性通常明显低于回归。没有回归的情况下，单个片段上的所有像素都与同一个片段中心相连，并且所有的三个对应关系样本立即被拒绝，因为它们未通过非共线性测试，因此处理时间很短。即使回归的3D位置不保证位于模型表面上，但它们与表面的平均距离小于1毫米（使用64个和256个片段），与物体尺寸相比可以忽略不计。当用物体模型上最接近的点替换回归位置时，没有观察到改进。ARARMSPD Corr.Iter.TimeARARMSPD Corr.Iter.TimeARARMSPD Corr.Iter.Time117.230.79113470.9741.752.610791830.5626.847.52371110.53439.557.111962730.9554.466.111291100.5233.556.0267580.511645.462.713012460.9663.272.71174710.5139.361.3275540.506447.663.516122361.1869.678.31266560.5744.365.9330530.4925645.659.733822302.9971.479.81497560.9446.065.4457700.6010.00.09114000.230.00.010794000.170.00.02374000.2443.28.811963990.893.07.411294000.535.215.22673900.501613.937.513013961.0216.136.411744000.6117.147.72753590.556429.455.016123801.3541.566.612663830.7331.062.33301710.5525643.058.233822992.9564.577.714972060.8843.264.9457720.58ARARMSPDARARMSPDARARMSPDOpenCV RANSACEPnP [36]35.547.967.276.641.263.50.16MSAC [64]EPnP [36] + LM [45]44.361.063.873.739.761.70.49GC-RANSAC [2]DLS-PnP [19]44.359.567.576.135.653.90.53GC-RANSAC [2]EPnP [36]46.962.669.277.942.663.60.39GC-RANSAC [2]EPnP [36] + LM [45]47.663.569.678.344.365.90.52117100在T-LESS [24] YCB-V [68] LM-O [4]上0使用3D片段坐标的回归0无需回归3D片段坐标0表2. 片段数量和回归.不同表面片段数量（n）的性能得分，包括回归和不回归3D片段坐标（在不回归的情况下使用片段中心）。表还报告了在图像中每个对象模型建立的平均对应关系数量，拟合单个姿势所需的平均GC-RANSAC迭代次数（均四舍五入为整数），以及平均图像处理时间[s]。0RANSAC变体非最小解算器 T-LESS [24] YCB-V [68] LM-O [4] 时间0表3. RANSAC变体和非最小解算器.使用P3P解算器[34]从2D-3D对应关系估计姿势时，当从大于最小样本的样本中估计姿势时，应用非最小解算器。报告的时间[s]是在数据集上平均拟合所有物体实例的姿势所需的时间。0鲁棒姿势拟合.表3评估了几种从2D-3D对应关系进行鲁棒姿势估计的方法:OpenCV的RANSAC [14]，MSAC [63]和GC-RANSAC[2]。这些方法在Progressive-X方案（第3.3节）中进行评估，使用P3P解算器[34]从最小样本（即三个对应关系）估计姿势，并使用多个解算器从非最小样本估计姿势。在OpenCV的RANSAC和MSAC中，非最小解算器从所有内点中优化姿势。在GC-RANSAC中，它还用于基于图割的局部优化，该优化在找到新的迄今为止最佳姿势时应用。我们测试了OpenCV的RANSAC与所有可用的非最小解算器，并使用EPn P[36]获得了最佳得分。在所有数据集上表现最好的估计方法是GC-RANSAC与EP nP，其次是Levenberg-Marquardt优化[45]作为非最小解算器。请注意，尤其是在T-LESS上，这种方法与OpenCV的RANSAC之间的准确性差距。05. 结论0我们提出了一种基于模型的单RGB图像的6D物体姿势估计方法。关键思想是使用紧凑的表面片段来表示物体，在每个像素点预测可能的多个对应的3D位置，并使用一种鲁棒且高效的P nP-RANSAC算法求解姿势。实验评估表明，该方法适用于广泛的物体范围，包括具有对称性的具有挑战性的物体。留待将来的工作研究了物体特定的片段数量，这可能取决于物体的物理大小、形状或物体与相机之间的距离范围等因素。项目网站和源代码位于: cmp.felk.cvut.cz/epos 。0这项研究得到了信息学研究中心（由OP VVV资助的项目CZ.02.1.01/0.0/0.0/16019/0000765）、CTU学生资助（SGSOHK3-019/20）和“探索人工智能的数学基础”（2018-1.2.1-NKP-00008）的支持。117110参考文献0[1] Rıza Alp G¨uler, Natalia Neverova, and Iasonas Kokkinos.在野外进行密集人体姿势估计. CVPR , 2018. 3 [2] Daniel Barathand Jiri Matas. 图割RANSAC. CVPR . 2, 5, 8 [3] Daniel Barathand Jiri Matas. Progressive-X: 高效的任意时间多模型拟合算法.ICCV . 2, 5 [4] Eric Brachmann, Alexander Krull, Frank Michel,Stefan Gumhold, Jamie Shotton, and Carsten Rother.使用3D物体坐标进行6D物体姿势估计. ECCV , 2014. 1, 2, 3, 6, 7,8 [5] Roberto Brunelli. 计算机视觉中的模板匹配技术: 理论与实践.2009. 2 [6] Liang-Chieh Chen, Yukun Zhu, GeorgePapan

下载后可阅读完整内容，剩余1页未读，立即下载