可端到端训练的恒定运行时间多物体实例6D姿态估计

84 浏览量更新于2023-10-15 收藏 15.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

28600COPE: 可端到端训练的恒定运行时间物体姿态估计0Stefan Thalhammer Automation andControl Institute, TU ViennaGusshausstrasse 27-290thalhammer@acin.tuwien.ac.at0Timothy Patten RoboticsInstitute, UTS 81Broadway, Building 110timothy.patten@uts.edu.au0Markus Vincze Automation and ControlInstitute, TU Vienna Gusshausstrasse27-290vincze@acin.tuwien.ac.at0摘要0最先进的物体姿态估计通过使用多模型公式处理测试图像中的多个实例：将检测作为第一阶段，然后分别针对每个物体使用经过训练的网络进行2D-3D几何对应预测作为第二阶段。然后在运行时使用透视n点算法估计姿态。不幸的是，多模型公式速度较慢，并且随着涉及的物体实例数量增加，不具有良好的可扩展性。最近的方法表明，当从上述几何对应关系中导出时，直接进行6D物体姿态估计是可行的。我们提出了一种方法，通过学习多个物体的中间几何表示，直接回归测试图像中所有实例的6D姿态。固有的端到端可训练性克服了单独处理各个物体实例的要求。通过计算相互交集-联合，将姿态假设聚类为不同的实例，这在运行时几乎不会增加与物体实例数量相关的运行时开销。在多个具有挑战性的标准数据集上的结果表明，与最先进的单模型方法相比，姿态估计性能优越，速度更快约35倍。我们还提供了一项分析，显示在存在90个以上物体实例的图像中具有实时适用性（>24fps）。进一步的结果显示了使用6D姿态监督几何对应关系的物体姿态估计的优势。01. 引言0尽管单目计算机视觉中的物体姿态估计是一个具有挑战性的问题，但它对于许多任务（如增强现实、物体操作、场景）是至关重要的。0图1.COPE：具有恒定运行时间的多物体实例6D姿态估计。我们的可端到端训练的姿态估计器使用中间几何对应关系直接从单个RGB图像中估计6D物体姿态，从而同时处理多个实例。0理解、自动驾驶和工业检测[18, 35,39]是学习为基础的物体姿态估计研究的重点，该研究侧重于在具有挑战性的条件下（如领域转移、物体遮挡和物体对称性）通过将检测与姿态对应估计阶段有意地分离[11, 24,27, 38,45]，然后使用透视n点（PnP）算法[9]使用估计的几何对应关系推导出6D姿态。这导致了以下缺点：a）采用替代训练目标将姿态估计与训练过程分离，从而限制了学习[6]；b）为多实例场景运行推理会导致至少O(n)的计算复杂度，其中n是物体数量，用于姿态估计阶段。因此，这种方法在现实场景中的适用性严重受限。最近的物体姿态估计研究趋势认识到了这些缺点，并通过直接从中间姿态对应关系回归6D姿态来部分缓解这些缺点[4, 6, 20,50]。在[50]和[6]中，检测被分离出姿态估计阶段，这使得它们不能进行端到端的训练，因为它们需要一个物体检测器。在[20]的工作中28610是可端到端训练的，但需要为每个物体训练单独的网络，并且汇集几何对应关系意味着无法同时处理多个物体和实例。我们通过提出一种自然扩展来改进这些发现，以有效处理多物体多实例场景。在这项工作中，我们提出了一种解决上述缺点的解决方案，通过共享潜在表示以及对象和它们的实例之间的直接姿态回归器；请参见图1的高级概述。我们在特征图中对图像位置进行分类，回归边界框和视角相关的物体几何对应关系，并回归直接的6D姿态。虽然这些任务中的前三个是中间表示，但直接的6D姿态头是网络中这些中间输出的上游任务。因此，与6D姿态相关的损失也会反向传播到几何对应关系估计的下游任务。这种设计还允许通过强制这些连续任务之间的一致性来进一步指导学习过程，从而进一步改善每个任务。我们提出了一种并发解决方案，用于真实位置采样训练期间的锚点[40]，它不需要根据预期的测试数据分布手动选择超参数。真实位置是通过使用从相应物体网格导出的标量形状先验进行采样和标准化的，并且每个物体类别的反向传播损失进行了归一化。因此，训练不会偏向较大的物体，并且不需要对锚点进行先验假设，与锚点的情况相反。总之，我们的贡献是：0•一种简单高效的多对象多实例物体姿态估计解决方案，优于现有技术。0•一种训练目标采样方案，不对测试数据分布做任何假设。0高效地共享对象和实例的内部表示，使得端到端的可训练性成为可能，只需要通过网络进行一次前向传递就可以处理输入图像中的所有对象实例。我们展示了在现代消费级GPU上，在单个输入图像中处理超过90个对象实例，帧率超过24fps的性能与类似的最新方法相比竞争力强，速度高达35倍。本文的其余部分将在第2节讨论相关工作，第3节描述我们提出的方法，第4节进行评估。最后，第5节总结本文。02. 相关工作0在本节中，我们介绍了关于单目6D物体姿态估计的最新技术，重点关注了相关工作。0直接回归物体姿态。然后回顾了用于目标检测的训练目标采样。物体姿态估计由于从特征空间直接回归姿态会导致性能较差，主流的单目物体姿态估计方法利用几何对应作为回归目标[15, 27, 36,38, 37, 21, 51]。使用PnP的变种[9, 26,46]对每组估计的物体对应关系进行姿态推导。最近的趋势是使用可训练的版本[4, 6, 20, 43,50]替代经典求解器，直接从中间几何对应关系中推断出6D姿态。这使得端到端可训练的物体姿态估计成为可能，因为它为下游网络部分提供了6D姿态的额外监督。研究结果表明，直接6D姿态估计也能达到最先进的性能，通过在物体之间共享姿态回归器[6,50]。然而，高效且同时处理单阶段多对象实例仍然是一个存在的问题[15]。考虑到BOP挑战赛[16]中表现最好的方法，该挑战赛旨在提供一个标准化的协议，以进行客观的对象姿态估计比较，处理图像中的多个对象实例的常用技术是将对象检测与姿态估计分开处理[27, 24, 15, 32, 38,11]。在第一阶段，使用常见的对象检测器（如Faster-RCNN [40]，RetinaNet [29]或FCOS[48]）提供2D位置假设。在第二阶段，将对象裁剪传递给姿态估计器，但这会带来相当大的时间和计算成本。EPOS[15]是一个例外，它通过使用Graph-Cut RANSAC[1]将预测的几何对应关系聚类到单个实例中，实现了多实例处理。尽管它提供了一种解决对象对称性和多对象实例的复杂方法，但使用[1]进行多实例姿态拟合计算成本非常高。在我们的工作中，我们采用了对象检测器的思想，并将直接姿态回归融入到检测阶段。图像中的对象检测单阶段对象检测器提供了多对象和多实例在2D中的高效解决方案[2, 8, 25, 33, 29, 48]。锚点[29, 33,40]用于在特征金字塔的多尺度特征图中采样具有不同大小和长宽比的边界框先验。在训练中，根据真实边界框与锚点框之间的交并比（IoU），选择前景图像位置。因此，训练位置与图像空间中的投影对象形状相关。这样可以有效处理不同尺度的对象。使用锚点有两个缺点。首先，它需要手动指定反映预期训练和测试数据统计的16个超参数。其次，输出空间的大小取决于锚点采样的数量。28620最近的一些方法提出了替代公式来规避这些缺点，同时保留锚点的优势[8, 25, 48,53]。[48]的作者通过使用边界框大小来明确选择训练的相应特征图分辨率，以克服采样锚框的必要性。特征图的真实图像位置，用于损失反向传播，是根据相应像素相对于真实边界框的中心性来分配的。[25]将物体建模为配对关键点：边界框的左上角和右下角。类似地，[8]通过将物体建模为其中心点并估计相对于其的边界框来解决基于锚点的物体检测的低效问题。[53]的作者通过设计一种灵活的最大似然估计分配方法，克服了将物体分配给锚点的超参数要求。我们建议根据可见物体掩码和3D物体尺寸来采样训练位置。我们还使用3D物体尺寸来有效替代基于锚点的目标注释标准化。因此，我们更有效地编码不同大小和离心率的物体，同时减小输出空间的大小和所需的超参数数量。03.恒定运行时物体姿态估计0本节描述了我们的直接6D恒定运行时物体姿态估计方法，简称为COPE。我们从方法的高级概述开始。然后，我们详细介绍了无锚训练目标的推导方法、真实图像位置采样和训练过程中的几何对应标准化方法。接下来，我们解释了直接6D姿态参数化和对称处理。最后，我们描述了测试过程中的多实例聚类和假设过滤。03.1.通过直接姿态回归实现恒定运行时0我们的目标是在单个RGB输入图像中对所有物体实例的姿态进行分类和估计。6D姿态被定义为ˆP ∈SE(3)，表示物体相对于相机坐标系的旋转R ∈ R3和平移t∈R3。物体的网格在事先已知，但对于测试场景没有额外的信息要求。我们将包围物体网格的最小长方体的角点定义为几何对应点(G3D)。COPE（如图2所示）输出图像中可见的物体实例集，由物体类型和6D姿态参数化。COPE建立在最近高效的物体检测方法[29, 48,52]的成功基础上。首先，RGB输入图像经过CNN主干网络处理，然后使用特征金字塔计算多尺度特征以进行估计。0估计中间物体表示。三个模块在大小为[s/8, s/16,s/32]的特征图上共享，其中s是输入图像的分辨率，生成中间输出ˆO、ˆB和ˆG。第一个模块预测物体类别概率集ˆO := {ˆo0, ...,ˆok}，其中k是多尺度特征图中的图像位置数量，ˆok ∈Ra是服从伯努利分布的物体类别预测。我们用a表示数据集中的物体类别数量。第二个模块预测模态边界框ˆB := {ˆb0, ..., ˆbk}，其中ˆbk ∈R4。第三个模块预测在图像空间中的G3D的投影ˆG := {ˆg0, ..., ˆgk}，其中ˆgk ∈R16表示包围物体网格的最小长方体的8个角点的2D坐标。共享的直接姿态模块滑动在集合ˆG上，直接估计姿态假设ˆP := {ˆp0, ..., ˆpk}，其中ˆpk ∈R9。姿态输出由R3中的3个平移值参数化0和6个旋转值，旋转矩阵在R3中的前两个基向量[54]。为了量化ˆgk与proj3D→2D(G3D ∙ˆpk)之间的一致性ˆck∈R1，分别为每个图像位置计算了一组ˆC := {ˆc0, ..., ˆck}。在推理过程中，网络预测了H = {ˆO,ˆB, ˆG, ˆP,ˆC}，对于查询图像，其运行时间是恒定的。具有最大类别概率ˆok低于检测阈值的H的相应元素被丢弃。使用ˆB的元素之间的IoU将结果子集聚类为对象实例。超参数n表示ˆC中最高一致性的数量，并且对于所提出的实验设置为10；请参见表3中的消融实验。最后，返回检测到的对象类别和每个实例中具有最高一致性的n个姿态的平均值，而运行时间几乎不增加，与对象实例的数量无关。通过这个过程，我们的方法可以在单个测试图像中实时估计大量对象实例的姿态（> 24 fps），在Nvidia Geforce 3090 GPU上运行。03.2. 训练目标采样0在训练过程中，有效地为更新网络权重分配真实图像位置是一个持续的研究问题[8, 25, 29, 48, 52,53]。这些真实图像位置通常在特征金字塔的输出特征图中进行采样[28]，特征金字塔是在特征空间中高效编码尺度信息的强大工具。锚点[40]是提供边界框先验用于根据与地面真实值的IoU进行真实图像位置采样的标准表示[40, 33,29]。对于多尺度特征图中的每个图像位置，会采样出9个不同形状和大小的边界框先验。这需要16个超参数：5个用于基准尺寸和步长，3个用于比率和尺度[29]。这样做有两个方便之处，因为选择用于更新网络权重的锚点位置是基于阈值参数的。δo = max||(mi − mj)||2 ∀ mi, mj ∈ M, i ̸= j(1)level = f + logd(δo/tz),(2)28630图2.常数运行时间的对象姿态估计。给定输入图像和3D模型，对图像位置进行分类，同时回归边界框和几何对应关系。直接姿态回归模块在图像位置上滑动，并从几何对应关系中回归出6D姿态。训练过程中，每个模块（Lcls，Lbox，Lkey，Ltra和Lrot）都有损失函数进行监督，以及辅助损失函数（Lproj和Lcons），以强制估计的对应关系和直接姿态之间的一致性。在测试过程中，使用它们的2DIoU高效地对实例进行聚类，然后具有最高一致性的n个假设生成6D输出。0与地面真实值的IoU的交集：0•采样锚点导致期望边界框的尺度空间均匀。因此，无论图像空间中物体的大小如何，都会采样出类似数量的训练位置。0•回归目标使用相应锚点的中心、宽度和高度进行标准化。这意味着不同大小的物体在回归目标空间具有类似的统计特性。0尽管具有这些方便之处，但训练目标采样仍然很麻烦，因为锚点a）需要根据图像空间中预期的物体尺度选择16个超参数，b）由于每个特征图位置有9个锚点，导致收敛速度变慢。我们通过使用反映物体几何和尺度的回归目标标准化方案来克服这些缺点。03.2.1 真实位置采样0与[21]中一样，使用对象掩码进行真实训练位置采样。然而，我们的工作不同于从单个特征图分辨率预测对象掩码和对应关系，而是采用特征金字塔的分而治之策略，从多个特征图分辨率进行预测。为了克服需要超参数[40,48]来选择最适合的特征图分辨率来定位对象的必要性，我们提出了一种基于几何的方法来分配真实训练位置。我们提出的方法可以在单个测试图像中实时估计大量对象实例的姿态（> 24 fps），在Nvidia Geforce 3090 GPU上运行。0实现真实位置采样与标量形状先验:0其中 M是对象模型顶点的集合。由于通过骨干网络对输入图像进行空间下采样遵循指数函数，因此明确选择使用对数函数的金字塔级别是直观的。因此，我们选择相应的特征金字塔级别：0其中 f 取决于所使用的金字塔级别的数量，t z对应于物体与相机的距离，d是唯一剩下的超参数。由于我们使用了三个金字塔级别，就像[47]中一样，这只需要选择6个超参数用于FCOS，使用锚点时需要选择12个超参数。另一个优点是，δ o更好地反映了所有三个空间维度中的物体形状，因此也反映了图像空间中可见的物体表面，相比于使用边界框来分配真实训练位置。因此，相对于盒状物体，高分辨率特征金字塔级别中的样本化倾向于拉长的物体。尽管需要更少的超参数，但我们保留了相似数量的用于训练的真实位置。使用焦点损失[29]来监督真实图像位置的分类（L cls）。03.2.2 几何对应标准化0与使用锚点先验或标量值不可知标准化投影对象对应物 G不同，我们使用锚点先验或标量值不可知标准化投影对象对应物 GyG = (c − G)/δo,(3)Lreg(ˆy, y) = 1a ·a�i=01li·li�j=0huber(ˆyj, yj),(4)28640为了将不同对象的尺度回归目标缩放到相似的大小，我们直接将 δ o 与对象形状[48]结合起来：0其中 c 是相应特征图位置的中心，G是几何对应的图像位置，y G是标准化的回归目标。因此，回归目标的编码方式与使用锚点类似（对于所有对象的 G 都具有类似的σ，独立于它们的尺度或形状离心率）。因此，计算的误差与图像空间中物体的尺度无关，并且训练过程对较大的物体没有偏差。我们的方法不需要标准化的超参数，并且收敛性得到改善，因为与锚点相比，每个特征图位置所需的网络输出参数减少了9倍。03.2.3 目标位置的不平衡问题0基于对象掩码选择训练目标位置会导致训练过程对具有较大投影图像表面的对象有偏差。对于分类，通常使用焦点损失[40]来解决这个问题。使用锚点作为位置先验可以缓解这个问题，因为锚点在预期的对象尺度空间上均匀采样。我们通过对真实训练位置数 l进行归一化并在之后累积梯度来定义一个并发解决方案。回归损失为：0其中 huber 是在RetinaNet [10, 29]中使用的增强的 l 1损失，y 和 ˆ y分别是真实值和估计值。这个过程不需要额外的可训练参数，尽管在训练时会带来轻微的计算开销，在测试时不会带来计算开销，但可以改善多目标处理。03.2.4 直接姿态回归0直接姿态回归使用模块的输出 ˆ y来回归，该模块估计中间几何对应物，就像[6, 20, 43,50]中一样。6D姿态被参数化为 P ∈ SE (3) ，其中 t ∈ R 3是3D平移向量，R ∈ R 6 是SO (3)旋转矩阵的前两个基向量，就像[6, 23,50]中一样。这些方法在感兴趣的检测到的对象的缩放裁剪上执行姿态估计。它们预测对象坐标系中的相机旋转，即自我中心旋转，因为在相机坐标系中预测旋转，即空间分配旋转，由于裁剪而导致模糊[23]。相反，我们学习直接在图像空间中预测几何对应物。这些对应物0通过反转方程（3）的标准化，将yˆ反标准化，并输入直接姿态估计模块。因此，我们的方法将物体旋转与其图像位置相关联。这意味着我们能够直接回归allocentric旋转，因为我们不需要缩放或裁剪。此外，我们可以直接回归3D平移，而无需像[6, 27,50]中使用的尺度不变平移表示。使用方程（2）采样的图像位置对网络训练进行监督。03.3. 对称性感知损失0在单个图像中展示离散或连续对称性的物体，即对应于不同的真实姿态P的相似视图，对网络训练的收敛性是有害的[34,38,42]。我们采用[38]的变换器损失，因为在损失计算期间高效处理对称性，并且不需要额外的可训练权重。我们定义了用于监督几何对应关系学习训练的关键点估计损失：0L key = min s ∈ Si L reg (ˆy, hy), (5)0其中Si是依赖于物体的视觉模糊的对称变换集合。我们观察到，分别选择具有L key 的假设以及用方程（5）替换L rot和L tra的直接姿态损失会引入模糊性，因为6D姿态直接从估计的中间几何对应关系中导出。为了缓解这个问题，我们定义了一个指示函数I，指示最小化L key的对称性。因此，我们使用以下方式监督直接姿态回归：0L rot/tra = L reg (ˆy, I(S)y). (6)0由于每个图像位置只预测一组ˆG，并且方程（5）和（6）已充分考虑了物体的对称性，因此可以直接使用L key 计算Lproj 和L cons。因此，投影和一致性损失定义如下：0L proj = L reg (G 3D ˆP, G), (7)0L cons = L reg (G 3D ˆP, ˆG). (8)0总损失为：0L = α ∙ L cls + β ∙ L box + γ ∙ L key + δ ∙ L rot + ϵ ∙ Ltra + ζ ∙ L proj + η ∙ L cons, (9)0其中α，β，γ，δ，ϵ，ζ和η是损失权重。使用方程（4）监督边界框估计L box。03.4. 多实例处理0通常，在对应关系估计之前，单个图像中的同一对象的多个实例通过检测的非极大值抑制进行处理28650阶段[27, 49, 24,38]或之后通过聚类对应关系[15]。第一类方法分别处理每个实例的图像裁剪以估计6D姿态。第二类方法更有优势，因为网络在所有感兴趣的对象上共享。不幸的是，由于[15]预测密集几何对应关系，该方法运行时间较长。这是由于使用[1]将对应关系聚类到对象实例上，这是计算密集型的。在我们的工作中，首先通过丢弃每个图像位置k的非最大得分的对象类别来过滤H。随后，将检测得分低于检测阈值的图像位置进行修剪。剩余的假设对应于检测到的对象。使用2D边界框ˆB基于不同图像位置的输出之间的IoU对对象实例进行聚类。最终，使用计算的一致性ˆC，对具有最高一致性的ˆP的n个假设的姿态进行平均，用于每个对象实例。04. 实验0本节提供了对几个数据集上COPE的定量和定性评估。在介绍实验设置之后，我们使用BOP协议[16]在两个具有挑战性的数据集上与现有技术进行比较。此外，我们还进行了消融研究，以量化直接姿态监督对额外数据集的影响。为了进一步验证和全面测试我们方法的能力，我们在一个合成数据集上展示了每个图像最多100个物体实例的结果。04.1. 数据集0评估使用三个标准数据集进行：LM [13]，LM-O[3]和IC-BIN[7]。对于评估，我们使用BOP挑战提供的子集。LM提供了13个对象的每个200个测试图像，这些图像带有完整的物体模型。LM是杂乱环境中物体姿态估计的常见基准。LM-O由LM的第二个测试序列的200个测试图像组成，每个图像中的所有八个对象都有注释。LM-O提供了具有挑战性的物体遮挡的测试图像。IC-BIN提供了最多21个实例的两个对象的150个测试图像，其中有严重遮挡。COPE在使用基于物理的渲染[5,17]生成的50k个图像上进行训练。LM和LM-O上的结果是使用在LM的所有13个对象上训练的相同模型提供的。04.2. 评估指标0使用BOP挑战的性能评分提供与现有技术的比较[16]。姿态估计的结果使用平均召回率进行报告：AR = (ARVSD +ARMSSD + ARMSPD) /3。消融实验使用ADD召回率或ADD-S召回率进行评估0报告物体姿态估计结果中姿态误差低于常用误差阈值（对象直径的10%）的比例。物体检测的结果使用微软COCO物体检测挑战的平均精度（mAP）进行报告[30]。结果是在0.5到0.95的IoU值范围内，以0.05为步长。详细信息请参阅补充材料。04.3. 实现细节0骨干网络的权重在ImageNet[41]上进行了预训练，并使用Adam[22]优化器进行了120个时期的微调，学习率为10-5，批量大小为8。先前的研究表明，通过在优化过程中不更新某些网络权重来克服在合成图像上训练和在真实图像上测试之间的领域差距[14,51]。类似地，在微调过程中不更新批量归一化的参数和骨干的前两个阶段的卷积。我们还应用了[47]中描述的图像增强方法。方程（2）中的参数d对于所有实验都设置为3。04.4. 与现有技术的比较0物体姿态估计我们在IC-BIN和LM-O上将COPE的性能与现有技术进行比较。表1中提供了使用BOP设置报告的AR的结果。底部部分比较了单模型方法，即在单次前向传递中为所有对象类别及其实例生成估计的方法。DPOD [51]和EPOS[15]都需要使用PnP从预测的几何对应关系中推导出6D姿态，而COPE直接输出6D姿态。在平均AR上，COPE在两种方法中都优于EPOS。与先前的单模型技术EPOS相比，COPE在LM-O上的AR相似（0.543与0.547），但在IC-BIN上提高到0.440，而EPOS为0.363。然而，更值得注意的是，COPE的运行时间比使用BOP工具包1计算的推理速度快37倍。表1的顶部部分呈现了多模型方法的结果。这些多模型方法使用物体检测器对稀疏位置先验进行采样，然后针对每个对象类别进行对应关系预测和姿态估计的单独训练网络。对于方法[6, 19, 31,44]，IC-BIN上没有可用的结果。与两个数据集上表现最好的方法相比，即IC-BIN上的CosyPose和LM-O上的ZebraPose，COPE导致了约24%的相对性能下降。这在单阶段方法的已知性能下降范围内[29]。运行时间图3显示了COPE、CDPNv2和CosyPose在IntelCPU（3.6GHz）和Nvidia Geforce 3090GPU上进行的五次测试运行的平均运行时间和标准差。报告的时间为01 https://github.com/thodan/bop toolkitAAE [45]0.2170.1460.1820.199Pix2Pose [38]0.2260.3630.2951.2302Dto3D [32]0.3420.5250.4340.546CDPNv2 [27]0.4730.6240.5491.010SurfEmb [11]0.5500.6230.5876.296CosyPose [24]0.5740.6180.5960.227SO-Pose [6]-0.613--CIR [31]-0.655--PFA [19]-0.683--ZebraPose [44]-0.718-0.25028660图3.与现有技术在IC-BIN上的运行时间比较。提供了在单张图像中估计所有目标实例姿态所需的时间。0表1.姿态估计与现有技术的比较。显示了IC-BIN和LM-O的平均召回率，以及两者的平均值和使用BOP工具包的推理速度。0方法 IC-BIN LM-O 平均时间0多模型0单模型0DPOD [51] 0.169 0.130 0.150 0.211 EPOS [15]0.363 0.547 0.455 2.804 我们的方法 0.440 0.5430.492 0.0750CDPNv2不包括检测目标所需的时间。尽管省略了CDPNv2第一阶段的运行时间，但我们的方法在处理15个目标实例时比CosyPose快12倍以上，比CosyPose快7倍以上。值得注意的是，与多模型方法不同，COPE能够以几乎恒定的运行时间直接提供多目标多实例的6D姿态，这使其非常适用于实时场景。目标检测表2比较了COPE在IC-BIN和LM-O上使用相同训练数据时与现有技术的目标检测准确性（mAP[30]）。平均而言，COPE优于MaskRCNN [12]和FCOS[48]，在两个数据集上实现了最高的平均mAP。在LM-O上，COPE优于MaskRCNN，达到0.532，而MaskRCNN只有0.375，但略逊于FCOS的0.622。这部分是由于COPE的精简网络设计。更多细节请参阅补充材料。COPE检测到的边界框比许多多模型检测器更精确。0表2.目标检测与现有技术的比较。显示了IC-BIN和LM-O的平均召回率，以及使用BOP工具包的平均值。0方法 IC-BIN LM-O 平均0MaskRCNN [12, 24, 11] 0.316 0.375 0.346 FCOS[48, 27, 44] 0.323 0.622 0.473 我们的方法 0.4310.532 0.4820图4. COPE在IC-BIN和IC-BIN syn上的运行时间评估。 (a)COPE在每张图像上提供的运行时间几乎不增加，直到每张图像的目标实例数达到70个。黑线表示实时处理的阈值。(b) IC-BINsyn的一个测试图像示例和估计姿态的可视化。0在IC-BIN上，与模型方法相比，我们的方法达到了0.431，而模型方法分别为0.323和0.316。因此，我们的方法为姿态细化提供了出色的位置先验。04.5. 消融实验0运行时间评估为了全面测试COPE的运行时间和可扩展性，我们使用IC-BIN对象和OpenGL2渲染创建了一个合成测试数据集，命名为IC-BINsyn。每张图像上渲染的目标实例数从10到100之间的均匀分布中进行采样。我们随机从IC-BIN对象中渲染出采样的目标实例数，并将其投影到IC-BIN的测试图像上。结果再次提供给在Intel CPU（3.6GHz）和Nvidia Geforce 3090GPU上处理一个测试图像的情况。图4（a）显示了我们的方法在单张图像中检测和估计多达100个目标实例的姿态所需的运行时间。我们报告了五次测试运行的平均运行时间和标准差。运行时间在检测到70个目标实例之前几乎不增加。对于每张图像超过90个实例，我们的方法超过了实时处理。因此，它提供了对所提出方法的巨大可扩展性和运行时间与单个测试图像中目标实例数量的恒定性的定量证明。图4（b）提供了一个合成测试图像（顶部）和基于估计姿态的投影物体模型（底部）。直接姿态回归表3显示了直接姿态回归对LM [13]和LM-O[3]数据集上端到端架构的影响，使用ADD/(-S)指标进行评估。02 https://github.com/thodan/bop 渲染器IM2DPnP0.6540.280DR2DPnP0.7120.3306Dall0.7150.342DR-P2DPnP0.6720.3416Dall0.6720.345DR-PC2DPnP0.7120.3486Dn=10.7220.3386Dn=50.7240.3466Dn=100.7320.3506Dall0.7380.34928670表3.姿态监督的消融研究。提供的是平均ADD/(-S)召回率。Eggbox和Glue被认为是对称物体。0监督投票 LM LM-O0图5.LM-O的猫的姿态监督比较。从左到右：原始图像，基于几何对应关系和RANSAC-EPnP获得的姿态，以及直接姿态回归。蓝色、红色和绿色的网格分别表示地面真实值、误报和正确的姿态（根据ADD测量）。0调用。Voting列表示使用RANSAC-EPnP的姿态投票过程，即所有直接姿态假设的平均值，或者在ˆC方面具有最佳n个姿态估计的平均值。结果表明，使用直接姿态回归（DR）监督训练过程可以极大地改善中间表示（IM）的质量。在LM上，改进从0.654提高到0.715，在LM-O上，改进从0.280提高到0.342。使用DR直接姿态估计优于使用RANSAC-EPnP估计的姿态。使用Lproj（DR-P）提供额外的指导可以改善LM-O的遮挡场景，但对LM来说是有害的。最终，通过在内部表示和使用Lcons（DR-PC）投影到2D的对应之间强制保持一致性，可以在两个数据集上对直接回归和中间表示获得良好的结果。图5显示了LM-O中遮挡的猫的一个例子。使用地面真实值重新投影的模型显示为蓝色，使用中间表示和RANSAC-EPnP的错误估计显示为红色（中间图像）。直接姿态回归从不正确的中间表示中恢复，显示为绿色（右图像）。04.6. 定性评估0图6展示了LM-O、LM和IC-BIN上的结果。顶行显示了基于估计姿态的投影物体网格和估计的边界框。0图6.LM-O、LM和IC-BIN上的定性结果。顶行显示了基于估计姿态的投影物体网格，底行显示了边界框估计。蓝色框表示地面真实值，绿色框表示估计值。0与底部行的相应真实值相比较。绿色和红色的边界框分别表示估计值和真实值。左边的图像对显示了LM-O的一个常见错误：错误地未检测到Eggbox。右边的图像对显示了IC-BIN的一些Juice实例很难检测到，而在重叠严重的情况下，如果能看到除盖子以外的部分，Coffeecup的检测效果很好。05. 结论0本文提出了一种姿态估计框架，可以在单张图像中处理多达70个物体实例，并且具有有效的恒定运行时间，在实时情况下可以处理多达90个物体实例（>24fps）。我们的端到端可训练的单阶段方法在与类似公式的最先进方法相比，运行时间快了多达35倍，同时生成了类似的姿态估计准确性。通过直接从稀疏的中间几何对应关系回归6D姿态，可以实现网络根据物体类别和实例数量进行高效的缩放。在测试时，根据它们的2D重叠处理多个实例，这导致运行时间几乎不随实例数量增加而增加。因此，我们开发了一种适用于各种实时任务的物体姿态估计器。在未来，我们计划通过自我监督的方式改进我们的工作，以克服定义几何对应关系的必要性。0致谢0我们衷心感谢欧盟计划EC Horizon2020在研究和创新方面的支持，协议编号为101017089，项目TraceBot；奥地利研究促进局（FFG）在协议编号为879878，项目K4R方面的支持；奥地利科学基金（FWF）在协议编号为I3969-N30，项目InDex方面的支持；以及NVIDIACorporation为本研究提供的GPU捐赠。28680参考文献0[1] Daniel Barath和Jiˇr´ı Matas.图割RANSAC。在计算机视觉和模式识别的IEEE/CVF会议论文集中，页码6733-6741，2018年。0[2] Alexey Bochkovskiy，Chien-Yao Wang和Hong- Yuan Mark Liao.Yolov4:目标检测的最佳速度和准确性。arXiv预印本arXiv:2004.10934，2020年。0[3] Eric Brachmann，Alexander Krull，Frank Michel，StefanGumhold，Jamie Shotton和Carsten Rother.使用3D物体坐标学习6D物体姿态估计。在欧洲计算机视觉会议论文集中，页码536-551，2014年。0[4] Bo Chen，Alvaro Parra，Jiewei Cao，Nan Li和Tat-JunChin.通过反向传播PnP优化的端到端可学习几何视觉。在计算机视觉和模式识别的IEEE/CVF会议论文集中，页码8100-8109，2020年。0[5] Maximilian Denninger，Martin Sundermeyer，DominikWinkelbauer，Youssef Zidan，Dmitry Olefir，Mohamad El-badrawy，Ahsan Lodhi和Harinandan Katam. Blender- proc.CoRR，abs/1911.01911，2019年。0[6] Yan Di，Fabian Manhardt，Gu Wang，XiangyangJi，Nassir Navab和Federico Tombari. So-pose:利用自遮挡进行直接6D姿态估计。在计算机视觉和模式识别的IEEE/CVF国际会议论文集中，页码12396-12405，2021年。0[7] Andreas Doumanoglou，Rigas Kouskouridas，SotirisMalas- siotis和Tae-Kyun Kim.在人群中恢复6D物体姿态并预测最佳视角。在计算机视觉和模式识别的IEEE/CVF会议论文集中，页码3583-3592，2016年。0[8] Kaiwen Duan，Song Bai，Lingxi Xie，HonggangQi，Qing- ming Huang和Qi Tian. Centernet:用于目标检测的关键点三元组。在计算机视觉的IEEE/CVF国际会议论文集中，页码6569-6578，2019年。0[9] Richard Hartley和Andrew Zisserman.计算机视觉中的多视图几何。剑桥大学出版社，2003年。0[10] Trevor Hastie，Robert Tibshirani，Jerome HFriedman和Jerome H Friedman.统计学习的要素：数据挖掘、推断和预测，第2卷。Springer，2009年。0[11] Rasmus Laurvig Haugaard和Anders Glent Buch. Sur-femb:用于学习表面嵌入的物体姿态估计的密集连续对应分布。在计算机视觉和模式识别的IEEE/CVF会议论文集中，页码6749-6758，2022年。0[12] Kaiming He，Georgia Gkioxari，Piotr Doll´ar和Ross Gir-shick. Maskr-cnn.在计算机视觉的IEEE/CVF国际会议论文集中，页码2961-2969，2017年。0[13] Stefan Hinterstoisser, Vincent Lepetit, Slobodan Ilic,Stefan Holzer, Gary Bradski, Kurt Konolige和Nassir Navab.在严重杂乱场景中基于模型的纹理无关3D物体训练、检测和姿态估计。在亚洲计算机视觉会议论文集中，页码548-562，2012年。0[14] Stefan Hinterstoisser，Vincent Lepetit，PaulWohlhart和Kurt Konolige.关于预训练图像特征和合成图像的深度学习。在欧洲计算机视觉研讨会论文集中，页码0-0，2018年。0[15] Tomas Hodan, Daniel Barath, and Jiri Matas. Epos:估计具有对称性的物体的6D姿态。在计算机视觉和模式识别的IEEE/CVF会议论文集中，页码11703-11712，2020年。0[16] Tom´aˇs Hodaˇn，Ma

下载后可阅读完整内容，剩余1页未读，立即下载