没有合适的资源?快使用搜索试试~ 我知道了~
2930单阶段6D物体姿态估计Yinlin Hu,Pascal Fua,Wei Wang,Mathieu SalzmannCVLab,EPFL,瑞士{firstname.lastname} @ epfl.ch摘要最新的6D姿态估计框架首先依赖于深度网络来建立3D对象关键点与2D图像位置之间的对应关系,然后使用基于RANSAC的视角n点(Perspective-n-Point,简称PSPs)算法的变体。然而,这种两阶段的过程是次优的:首先,它不是端到端可训练的。其次,训练深度网络依赖于代理损失,其不直接反映最终的6D姿态估计任务。在这项工作中,我们介绍了一个深层的架构,直接回归6D构成从对应。它将每个3D关键点的一组候选对应关系作为输入,并考虑到每个组内的对应关系的顺序是不相关的,而组的顺序(即3D关键点的顺序)是固定的。我们的架构是通用的,因此可以利用结合现有的对应提取网络,以便产生单级6D姿态估计框架。我们的实验表明,这些单阶段的框架工程始终优于他们的两个阶段的准确性和速度方面的同行。1. 介绍检测图像中的3D对象并计算其6D姿态必须在广泛的应用中解决[11,31,48,29],从机器人到增强现实最先进的方法[39,41,32,16,13,36,54,34,24]遵循两阶段范式:首先使用深度网络来建立3D对象点与其2D图像投影之间的对应关系,然后使用基于RANSAC的Perspective-n-Point(PSPOT)算法来计算6个姿态参数[9,20,40,47,21,18,7,46]。这种模式虽然有效,但有几个弱点。首先,用于训练深度网络的损失函数并不反映姿态估计的真正目标,而是对替代任务进行编码,例如最小化检测到的图像投影的2D误差。然而,这种误差与姿态精度之间的关系不是一一对应的。(a)(b)第(1)款图1:动机。考虑[13]的现代6D姿态估计算法,该算法使用深度网络来预测投手边界框的八个3D角中的每个角的若干2D对应。(a)因为它最小化了这些对应关系的平均2D误差,所以这种框架的两个实例可以产生不同但具有相同平均准确度的对应关系如投影的绿色和红色参考帧所证明的,将基于RANSAC的PSNR算法应用于这两组对应关系可以产生基本上不同的姿态。(b)即使只使用绿色对应集,简单地改变它们的顺序也会导致基于RANSAC的Pestrian算法返回不同的解。一个.如图1(a)对于[ 13 ]的最新框架,具有相同平均2D误差的两组对应关系可能导致不同的姿态估计。其次,两阶段过程不是端到端可训练的。最后,当存在需要处理的许多对应关系时,迭代RANSAC是耗时的原则上,端到端框架可以通过利用RANSAC的深度版本[1,2]来设计,然后由另一个网络根据对应关系执行姿态估计[5]。然而,RANSAC在存在许多离群值的情况下的耗时特性,以及其解决方案的可重复性差,这是由以下事实引起的,如图所示。如图1(b)所示,对应关系的顺序影响所得到的姿态,不会使其成为包括到端到端可训练网络中的良好候选。此外─2931此外,[5]的方法依赖于使用直接线性变换(DLT)[9]来计算姿态,已知这是不精确的,并且会加剧差的可重复性问题。因此,仍然没有可以联合处理关键点定位和6D姿态估计的端到端框架在本文中,我们通过引入一个简单但有效的网络来克服这个问题,该网络直接从与每个3D对象关键点相关联的3D到2D对应组中回归6D姿势。其架构明确地编码每个组中的对应顺序是不相关的,同时利用组的顺序是固定的并且对应于3D关键点的顺序然后,我们通过将其与两个最先进的对应提取框架相结合来证明该网络的通用性[13,36]。Thisyields end-to-end trainable 6D pose estimationframeworks that are both ac- curate and repeatable.我们表明,这些单阶段框架在准确性和运行时间方面系统地优于原始的两阶段框架[13,36]。2. 相关工作检测输入图像中的关键点,然后在所建立的3D到2D对应关系上运行基于RANSAC的Pestrian算法是用于解决6D对象姿态估计问题的经典方式多年来,已经提出了许多方法来改善3D到2D匹配[28,42,43,44,35,33],依赖于不同的技术,例如模板匹配[10,11]、边缘匹配[22,27]和基于3D模型的匹配[14,26,12]。然而,这些传统的方法仍然经常失败的存在严重的遮挡和杂乱的背景。与许多其他领域一样,从RGB图像进行6D对象姿态估计的现代方法涉及深度神经网络。最简单的方法是直接从图像回归到姿态参数[17,50]。然而,这往往不如首先建立3D到2D的对应关系[39,41,32,16,13,36,54,34,24],然后运行基于RANSAC的透视n点(Perspective-n-Point,简称PSPs)算法[9]来估计给定相机内部参数的对象位置和这些方法的共同之处在于,对应关系是彼此独立地建立的,并且一致性仅在事后由RANSAC PSNR算法施加如[53]所示,尽管在不同的上下文中,这未能利用以下事实:Pvp的标准方法涉及执行奇异值分解(SVD),其可以嵌入到深度网络中,但通常会导致数值不稳定性。在[5]中,通过避免显式使用SVD,而是通过直接线性变换(DLT)方法[9]将PSNR视为最小二乘拟合问题来解决这一然而,这并不能保证结果描述了真正的旋转,并且仍然需要进一步的后处理。相比之下,[49]的反向传播友好特征分解方法执行显式SVD,并且原则上可以用于执行PSNR。然而,这样做将无法考虑算法的RANSAC部分以选择正确的对应。虽然RANSAC可以经由深度网络来实现[1,2],但其差的可重复性,如图11所示。1(b),使得它不适合训练端到端6D姿态估计网络。简而言之,还没有人提出一个令人满意的解决方案来设计一个单级6D姿态估计网络,这是我们在这里解决的问题我们的架构受到PointNet的启发[37,38]。然而,PointNet的设计目的是为刚性转换提供不变性,这与我们所需要的相反。此外,我们引入了一个分组的特征聚合方案,有效地处理对应簇的6D对象姿态估计。3. 方法给定由校准相机捕获的RGB图像,我们的目标是同时检测对象并估计其6D姿态。我们假设它们是刚性的,并且它们的3D模型可用。在本节中,我们首先将6D姿态估计问题形式化,假设针对目标对象上的每个3D关键点先验地给出2D对应集合,并提出从这样的输入产生6D姿态的网络架构。该网络由图描绘。3.第三章。然后,我们讨论如何获得一个单阶段的6D姿态估计框架时,这些对应关系是另一个网络的输出。3.1. 来自对应星团的6D姿势让我们假设,对于n个3D对象关键点pi中的每一个,我们被给出3×3相机内参数矩阵K和m个潜在的2D对应关系uik,其中1≤i≤n且1≤k≤m。在一个坐标系中表示的pi链接到对象,如图所示第2段(a)分段。对于每个有效的3D到2D对应,我们有所有的对应关系都受到摄像机姿态的约束,因此,它们并不是相互独立的。λikΣΣ乌伊克= K(Rpi+ t),(1)我们在本文中的目标是将上述两阶段过程变成单阶段过程,方法是将该过程的基于RANSAC的Pingdom部分实现为可以与建立对应关系的网络相结合这不是一个小问题,因为1其中λi是比例因子,R和t是定义相机姿态的旋转幅度和平移向量因为R是一个旋转,它只有三个自由度,t也是,总共有6个。29322注意,上述3D到2D对应关系不限于3D点到2D点对应关系。特别是,如图所示。2(b),我们的形式主义可以处理3D点到2D向量的对应关系,这已被证明更适合与深度网络结合使用[36]。在这种情况下,2D位置可以被推断为两个2D向量的交叉点,并且等式(1)1在交叉点上仍然有效。我们下面讨论的方法也仍然适用,因此除非必要,否则我们不明确区分这两种类型的3D到2D对应。经典的Pestrian方法[21,7,46]试图在给定几个对应关系的情况下恢复R和t,这通常涉及使用RANSAC来找到有效的对应关系。 在这个过程中,SVD必须在许多随机选择的对应子集上执行,这些子集必须在找到仅包含有效对应的子集之前进行尝试。在这项工作中,我们建议用一个非线性回归来代替这个繁琐的过程,这个非线性回归是由一个适当设计的深度网络g和参数Θ来实现的。换句话说,我们有(R,t)=g({(pi参与ik)}1≤i≤n,1≤k≤m;Θ).(二)现在我们转向gθ的实际实现。 在本节的剩余部分中 , 我 们 首 先 讨 论 3D 到 2D 对 应 的 集 合C3={(piParticipateuik)}1≤i≤n,1≤k≤m,网络作为输入,然后我们为它们设计的架构。3.1.1对应集的性质我们将所有与特定3D点相关联的2D点称为聚类,因为假设用于找到它们的算法是好的,它们倾向于围绕3D点投影的真实位置聚类,如图所示。1.一、我们的实施选择是基于以下考虑:集群排序。簇内对应关系的顺序无关紧要,不应影响结果。然而,聚类的顺序对应于3D点的顺序,这是给定的和固定的。集群内和集群间的交互。尽管相同聚类中的点对应于相同的3D点,但是每个点的2D位置估计应该被预期为是有噪声的。因此,模型需要捕获每个聚类内的噪声分布。更重要的是,一个单一的集群不能告诉我们任何关于姿势的信息,最终的姿势只能通过捕捉多个集群的全局结构来推断。严格的转变很重要。在处理具有深度网络的3D点云时,通常需要(a)(b)第(1)款图2:3D到2D的对应关系。(a)给定针对n个3D对象关键点pi中的每一个的m个潜在2D对应关系uik,{(piparticulateik)}1≤i≤n,1≤k≤m,可以基于这些3D到2D对应关系来计算姿态。在这里,我们只显示相应的-Pl的自发性群集。摄像机和物体坐标系分别用O和W表示。(b)姿态也可以从点到矢量的对应关系中获得,在这种情况下,在3D点和2D向量之间定义3D到2D对应。我们的方法可以处理这两种情况。点,并且我们从中提取的特征应该依赖于它们的绝对位置,这对于姿态估计是至关重要的。3.1.2网络架构我们构建了一个简单的网络架构,如图所示。3,其利用上面讨论的属性来从对应聚类预测姿态。它包括三个主要模块:具有共享网络参数的局部特征提取模块,单个集群内的特征聚合模块,以及由简单的全连接层组成的全局推理模块。局部特征提取我们使用三层MLP来提取每个对应的局部特征,并在对应和聚类之间共享权重。分组功能聚合。由于聚类的顺序是给定的,而每个聚类中的点是无序的,为了提取每个聚类的表示,我们设计了一种分组特征聚合方法,对应命令。理论上,我们可以使用类似于PointNet的架构[37,38]。然而,PointNet的设计目的是为刚性转换提供不变性,这与我们所需要的相反。相反,给定n个聚类,每个聚类包含m个2D点{uik},1≤i≤n,1≤k≤m,我们定义一个集函数F:X→RnD,它将对应{uik}1≤k≤m映射到nD维向量结果对刚性变换是不变的。相比之下,在这里,我们希望我们的2D点表示3D猫.ΣMAX({f 1 k}),MAX({f 2 k}),.,MAX({f nk})、(3)k k kpiW{uik}OpiW{uik}O2933MLP(128,128,128)最大池化······共享共享······CNN局部特征提取分组特征聚合全局推理图3:单阶段6D对象姿态估计的整体架构。在通过一些分割驱动的CNN为6D姿势建立3D到2D对应关系之后[13,36],我们使用三个主要模块直接从这些对应聚类中推断姿势:具有共享网络参数的局部特征提取模块、在不同集群内操作的特征聚合模块、以及由简单的全连接层组成的全局推断模块,以将最终姿态估计为四元数和平移。CNN输出中的颜色指示从网格单元中心到对应的投影3D边界框角的2D偏移的方向其中fik是经由上述全连接层获得的uik的D维特征表示,MAX()是最大池化操作,CAT()是级联操作。在我们的实验中,我们发现实例规范化[45,52]和批量规范化[15]都没有提高这里的性能。因此,我们在网络g θ中不使用这些操作。原则上,可以使用单个最大池操作,而不考虑组的顺序,就像PointNet [37]那样实现所有点的排列不变性然而,在我们的例子中,这意味着忽略群的顺序是固定的这一性质。相比之下,Eq. 3对于集群内的任何排列都是不变的,但仍然考虑了预定义的集群顺序。我们在结果部分展示了这种方法的好处。全局推理。然后,我们通过另一个输出6D姿态的MLP传递聚集组特征的nD维向量为此,我们充分利用三个-连接层,并将最终姿态编码为四元数和平移。3.2. 单阶段6D物体姿态估计上述深度网络为我们提供了一种可预测的方法,用于根据给定对象的对应聚类来预测6D姿态给定输入图像,我们仍然需要检测每个对象并建立3D到2D的对应关系。为此,我们使用另一个带有参数Φ的深度回归器f,对于一个对象,它可以让我们写或[36]。在实践中,{pi}通常被认为是对象的3D模型的3D边界框的八个角在我们的实验中,我们观察到对每个对象使用相同的{pi}对fφ的准确性影响不大,并且使得gθ容易多了因此,我们对所有数据集对象使用单个立方体,定义为球体所包含的最大立方体,其半径是所有对象3D模型的边界球体的平均值。这意味着3D关键点坐标由聚类的顺序隐式地给出,并且不需要显式地指定为网络输入。因此,我们对每个输入对应使用4D表示,其不包括3D坐标。相反,因为[13]的网络在图像网格上运行,当我们使用它来寻找对应时,我们将输入作为2D投影所在的网格单元中心的x和y坐标以及从该中心偏移的dx和dy换句话说,2D对应的图像坐标是x+dx和y+dy。我们尝试直接使用这些作为输入,但我们发现实验上,给网络相当于一阶展开的效果更好。当使用[36]的网络而不是[13]的网络来查找对应关系时,我们使用相同的输入格式,但对dx和dy进行归一化,以便它们表示方向。因此,我们的完整模型可以写成:[ui1,. - 是的- 是的 其中I是输入RGB图像。为了实现f,我们.Σ(R,t)=gf(p1,I;Φ),···,f(p8,I;Φ); Θ为了训练它,我们最小化损失函数.(五)使用最新的编码器-解码器架构[13]L=Ls+Lk+Lp,(6)(512(256,7)MLPm×4m×128n×128m×128m×128m×4m×42934图4:合成数据。我们通过随机改变三维空间中单位球体相对于摄像机的姿态来我们捕获20K图像用于训练,2K用于测试。其将分割项L s、关键点回归项Lk和姿态估计项Lp组合,分割项Ls旨在将每个网格单元分配给背景的对象类。我们将Ls作为[25]的焦点损失,Lk作为[13]或[36]的回归项,这取决于我们使用的两种架构中的哪一种如在[50,23]中,我们将Lp作为3D空间重建误差,即1Σn图5:生成对应关系。 我们将球体3D边界框的每个角投影Lp= ni=1(R我们随机旋转它,并在[-2,2]×[-2,2]×[4,8]ex范围内随机平移它的中心,其中,R和t是估计的旋转矩阵和平移向量,R和t是地面实况。的旋转是从估计和地面实况四分之一估计的[55]这是一个可以用微分的方法来实现的问题。我们还对转换进行了规范化,以确保回归目标都具有可比的范围。我们的架构同时输出一组预定义的3D关键点的分割掩码和潜在的2D位置。 更具体地说,对于具有S对象的数据集,类 和 大 小 为 h×w×3 的 输 入 图 像I , 它 输 出 大 小 为H×W×C的3D张量。 维度H和W与输入分辨率成比例,并且C =(S +1)+2 n,其中(S+1)个通道用于分割,包括用于背景类的一个通道,并且2n用于与n个3D点Pi对应的2D位置(或2D方向向量)。为了获得给定对象的对应聚类,我们在输出特征张量上随机抽取m=200个网格单元,这些单元落在特定类别标签的分割掩码下。4. 实验我们将我们的单阶段方法与更传统但最先进的两阶段框架[13,36]进行了比较,首先是合成数据,然后是来自Chal-Challing Occluded-LINEMOD [19]和YCB-Video [50]数据集的真实数据。我们的源代码可在https://github.com/cvlab-epfl/single-stage-pose 公 开 获得。4.1. 合成数据与[21,7]一样,我们使用虚拟校准相机创建合成3D到2D对应,图像大小为640×480,焦距为800,主点位于图像中心。我们把目标物体设为一个三维球体,按下相机坐标系,如图所示4.第一章回想一下第3.2节,gθ,从对应聚类回归姿态的网络,期望以[x,y,dx,dy]形式的4D输入,其中x,y表示图像网格位置的中心,dx,dy表示从该中心的偏移在这里,每一个都应该代表特定对象的球体边界框的特定角给定通过在图像中投影对象的3D模型而获得的特定对象的分割掩模,我们以以下方式创建对应关系。我们在图像中投影球体3D边界框的每个角,然后,我们从掩码内的200个随机采样的网格单元中获取结果对应关系我们将高斯噪声添加到它们的dx,dy值中,并通过将dx,dy的一定百分比设置为图像中均匀采样的值图5展示了这个过程。我们在20 K合成训练图像上训练了300 epoch的gθ,批量大小为32,使用Adam优化器的学习率为1 e-3在训练过程中,我们随机添加方差σ在[0,15]范围内的2D噪声,并创建0%到30%的离群值。为了测试在不同的噪声水平和异常值率下获得的准确度,我们使用2K合成测试图像,并根据等式3D空间重建误差的比率7是目标物体的直径。与RANSAC PINK相比。将PRANSAC与RANSAC相结合是处理噪声对应的最普遍的方法[39,41,13,54]。图6显示了基于RANSAC的EPRECT [21]和基于RANSAC的P3P [8]产生了类似的性能。虽然它们比我们的基于学习的方法更准确,2935RANSACEPRITISRANSAC P3P我们RANSACEPRITISRANSAC P3P我们投票我们PNP基于g的投票我们PNP基于g的0的情况。150的情况。150的情况。30的情况。30的情况。10的情况。10的情况。20的情况。20的情况。050的情况。050的情况。10的情况。10510152025噪声水平σ(离群值=10%)0510152025噪声水平σ(离群值=30%)0510152025噪声水平σ(离群值=10%)0510152025噪声水平σ(离群值=30%)图6:与RANSAC PALGORY的比较。我们将我们的网络与两种经典的基于RANSAC的P3P方法EPP3P [21]和P3P [8]进行了比较。这两种基于RANSAC的方法具有非常相似的性能。更重要的是,当噪声增加时,我们的方法更加准确和鲁棒。姿态误差被报告为3D空间重构误差与目标对象的直径的比率。图8:与PVNet的基于投票的PIPE的比较[ 36 ]。 当使用3D点到2D向量对应时,我们将我们的网络与PVNet使用的基于投票的PADs进行比较。我们的方法是更强大的噪声比投票为基础的PSTO。4.2. 真实数据0的情况。150的情况。10的情况。0505 10 15 2025噪声水平σ(离群值=10%)0的情况。150的情况。10的情况。050w/o组w/组5 10 15 20 25噪声水平σ(离群值=30%)我们在来自两个chal-challening数据集的真实数据上评估了我们的方法,Occluded-LINEMOD [19]和YCB-Video [50]。Occluded-LINEMOD由8个对象组成,是旧LINEMOD数据集的子集[11]。与LINEMOD中每个图像仅注释一个对象不同,Occluded- LINEMOD具有多个注释对象。这使得它更有意义的评估方法,执行实例检测和姿态估计。除了图7:对应聚类的重要性。 我们来-使用具有单个最大池化操作的网络对网络进行排序忽略此属性显然会降低性能。噪声小,当噪声水平增加时,我们的方法迅速变得更加准确。对应聚类的重要性。 为了说明以我们的方式构建网络的重要性,我们实现了一个简化版本,该版本使用单个最大池操作来实现所有对应关系的置换不变性,而不考虑与关键点匹配的聚类顺序为了实现这一点,我们必须明确地将与每个对应关系相关联的3D关键点坐标作为网络的输入。如图如图7所示,不对关键点的固定顺序进行建模会导致准确度的显著降低。与PVNet的基于投票的PPERT进行比较。在上述实验中,2D对应关系用图像点的2D位置来表示。由于当前最好的技术之一[36]使用方向,并从使用基于投票的Pestrian方案的那些方法中输入姿势,因此我们将相同的3D点与2D矢量对应关系馈送到我们自己的网络。在这种情况下,如图所示。8、姿态对对应噪声更敏感。然而,与前面的情况一样,虽然基于投票的PSNR在噪声很小的情况下会产生更准确的结果,但当噪声水平增加时,我们的方法杂乱的背景、无纹理的对象和LINEMOD的变化的照明条件,Occluded-LINEMOD在多个对象实例之间也具有严 重的遮挡 。由于 在Occluded-LINEMOD 中只 有1214张测试图像并且没有明确的训练数据,因此我们基于LINEMOD训练数据来训练我们的网络。YCB-Video是最近的,甚至更具挑战性。它具有从YCB数据集[4,3]中获取的21个对象,并包含来自92个视频序列的约130K真实图像。它提供了所有的挑战闭塞- LINEMOD加上更多样化的对象大小,包括几个微小的纹理,无对象。数据准备对于遮挡LINEMOD,如[41,13,36]所示,我们首先使用剪切和粘贴合成技术[6]从LINEMOD数据和随机背景数据[51]生成20K图像,每个图像有4到10个不同的实例。然后,我们从纹理化的3D网格中为每个对象类型生成10K渲染图像,如[36]所示。渲染过程中的姿态范围与LINEMOD中的相同,但有一点不同:为了处理遇到对称对象时的姿态模糊性[30],我们在训练期间根据对象的对称类型将姿态范围限制为子范围,以避免混淆网络[39]。最后,我们的训练数据由20K具有多个实例的合成图像和10K每个仅具有一个实例的渲染图像对象,共(20+10×8)K图像。对于YCB视频,我们遵循类似的程序。我们-w/o组w/组位姿误差位姿误差位姿误差位姿误差位姿误差位姿误差2936图9:闭塞LINEMOD的定性结果。我们的方法即使在存在较大遮挡的情况下也能产生准确的结果,如前三列所示。最后一列显示了两种失败的情况,其中目标蛋盒被遮挡太多,目标胶表现出微妙的对称性模糊性,使得对应提取网络[36]不容易建立稳定的对应。在这里,姿态被可视化为每个对象的3D网格的重投影。[13个国家][第13话][36个][36]第三十六话猿12.114.815.819.2可以39.945.563.365.1猫8.212.116.718.9司钻45.254.665.769.0鸭17.218.325.225.3Eggbox*22.130.250.252.0胶水*35.845.849.651.4糟糕36.037.439.745.6平均值27.032.340.843.3表1:对阻塞LINEMOD的不同对应提取网络的评价。我们评估了两个最先进的对应提取网络:SegDriven [13]和PVNet[36],通过用我们的小型网络取代他们原来的基于RANSAC的后处理。我们的方法在这两种情况下始终优于原始版本。在这里,我们报告ADD-0.1d。使用提供的3D网格模型并根据数据集的姿态统计,为21个对象中的每个对象生成10K个图像。然而,我们不使用剪切和粘贴技术来生成具有多个实例的图像,因为在原始YCB视频中,图像已经用多个对象注释,我们直接使用它。培训程序。对于这两个数据集,我们使用640× 480的输入图像分辨率进行训练和测试,如[36]所示。我们使用亚当来优化初始学习-在处理数据样本总数的50%、75%和90%后,将采样率设置为1 e-3并除以10我们将批量大小设置为8,并依赖于常用的数据增强技术,即随机亮度、高斯噪声、平移、缩放以及遮挡[56]。我们通过在线数据增强在500万个训练样本上训练网络。指标. 我们量化了3D和2D中的姿态误差,如[50,13]所示。在3D中,它使用使用预测姿态转换的3D模型点与使用地面实况获得的3D模型点之间的平均距离,我们将其称为ADD [50]。在2D中,我们使用3D模型点的通常2D重投影误差,并将其称为REP [13]。我们衡量的姿态准确性方面的百分比恢复的姿态是正确的。在下表中,我们报告了ADD-0.1d和REP-5 px,如果ADD小于模型直径的10%并且REP低于5个像素,则预测的姿态被认为是正确的。为对于每个度量,我们使用对称对象的对称版本,我们用上标表示。4.2.1闭塞-LINEMOD结果如前所述,为了证明我们的方法是通用的,我们结合两个对应提取网络SegDriven [13]和PVNet [36]对其进行测试。表1显示,通过用我们的网络替换原始的基于RANSAC的后处理,将该方法转变为单阶段方法,我们在两种情况下都提高了性能。2937PoseCNNADD-0.1dSegDrivenPVNet我们PoseCNNREP-5pxSegDrivenPVNet我们猿9.612.115.819.234.659.169.170.3可以45.239.963.365.115.159.886.185.2猫0.98.216.718.910.446.965.167.2司钻41.445.265.769.07.459.073.171.8鸭19.617.225.225.331.842.661.463.6Eggbox*22.022.150.252.01.911.98.412.7胶水*38.535.849.651.413.816.555.456.5糟糕22.136.039.745.623.163.669.871.0平均24.927.040.843.317.244.961.162.3表2:与Occluded-LINEMOD最新技术水平的比较。我们将我们的结果与PoseCNN [50],Seg- Driven [13]和PVNet [36]在ADD-0.1d和REP-5 px方面进行了我们的方法优于现有技术,特别是在ADD-0.1d中。对应抽取熔合总时间FPS我们的方法在这个数据集上也一直优于其他方法此外,请注意,它运行了近10次PoseCNN-->250 4赛格驱动30 20 50 20PVNet1426 40 25我们的14 8 22 45表3:比较速度。我们比较了PoseCNN [50],SegDriven[13],PVNet [36]和我们的方法在现代GPU(GTX 1080 Ti)上的运行时间(毫秒)。除了PoseCNN,这些方法首先提取对应关系,然后融合它们。使用与PVNet相同的对应提取主干,我们的方法运行速度快了约2倍,这要归功于我们的网络,该网络防止了对基于RANSAC的融合的需求。ADD-0.1d REP-5pxPoseCNN 21.3 3.7SegDriven 39.0 30.8PVNet-47.4我们的53.9 48.7表4:与YCB最新技术水平的比较-视频。 我们将我们的结果与PoseCNN [50],Seg- Driven [13]和PVNet [36]在ADD-0.1d和REP-5 px方面进行了比较。我们用“-”表示在表2中,我们表明我们的单级网络优于最先进的方法,PoseCNN [50],Seg驱动[13]和PVNet [36]。图9提供了定性结果。在表3中,我们报告了包含大约4-5个对象的输入图像的运行时。我们的方法也比其他方法更快4.2.2YCB-视频结果表4总结了与PoseCNN [50],SegDriven [13]和PVNet[36]进行比较的结果。它显示比PoseCNN快,也比SegDriven和PVNet快近2倍。4.3. 限制虽然我们的方法在与最先进的对应提取网络[13,36]结合使用时是准确和快速的,但是当可以通过其他手段获得非常精确的对应时,从对应估计姿态的网络仍然不如传统的基于几何的Pestrian算法准确,如图所示。六、此外,它没有解决一般的Paddle问题,因为我们只针对固定的3D坐标集对其进行了训练。解决这一问题将是我们今后工作的重点。5. 结论我们已经介绍了一个单阶段的方法来6D检测和姿态估计。其关键成分是一个小型网络,该网络采用候选3D到2D对应并返回6D姿势。当与最先进的方法相结合以建立对应关系时,它通过允许端到端训练并消除它们通常需要的繁琐的RANSAC风格过程来未来的工作将集中在使姿态估计网络更准确和更通用,以便它可以在更广泛的背景下使用。致谢这项工作得到了瑞士创新署(Innosuisse)的部分支持。我们要感谢Vincent Lep- etit、Kwang Moo Yi和Eduard Trulls进行了有益的讨论。2938引用[1] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother。DSAC-计算机视觉和模式识别会议,2017年。一、二[2] EricBrachmann 和 CarstenRother 。 Neural-GuidedRANSAC:学习在哪里采样模型假设。在2019年国际计算机视觉会议上。一、二[3] Berk Calli , Arjun Singh , James Bruce , AaronWalsman,Kurt Konolige,Siddhartha Srinivasa,PieterAbbeel和Aaron M Dollar。耶鲁-卡内基-伯克利机器人操作 研 究 数 据 集 。 在 International Journal of RoboticsResearch,2017年。6[4] 伯克·卡利,阿琼·辛格,亚伦·沃尔斯曼,悉达多·斯里尼瓦萨,彼得·阿比尔,亚伦·多勒. YCB对象和模型集:走向操纵研究的共同基准。在2015年国际先进机器人会议上。6[5] Zheng Dang,Kwang Moo Yi,Yinlin Hu,Fei Wang,Pas- cal Fua,and Mathieu Salzmann.基于零特征值损失的深度网络的特征分解自由训练。2018年欧洲计算机视觉会议一、二[6] Debidatta Dwibedi,Ishan Misra,and Martial Hebert.剪切、粘贴和学习:令人惊讶的简单合成实例检测。2017年计算机视觉国际会议。6[7] Luis Ferraz , Xavier Binefa , and Francesc Moreno-Noguer.具有代数外点剔除的PSPs问题的快速解法.在计算机视觉和模式识别会议上,第501-508页,2014年。一、三、五[8] 高小山,侯晓荣,唐建良,程航飞。透视三点问题的完全解 分类 。IEEE Transactions on Pattern Analysis andMachine Intelligence,25(8):930-943,2003. 五、六[9] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社,2000年。一、二[10] 作者:Stefan Hinterstoißer,Cedric Cagniart,SlobodanIlic , Peter F.Sturm , Nassir Navab , Pascal Fua , andVincent Lepetit.用于无纹理物体实时检测的梯度响应图IEEE Transactions on Pattern Analysis and MachineIntelligence,2012年5月34日。2[11] Stefan Hinterstoißer , Vincent Lepetit , Slobodan Ilic ,Stefan Holzer,Gary R. Bradski,Kurt Konolige,NassirNavab.基于模型的训练,检测和严重杂乱场景中无纹理3D对象的姿态估计。2012年亚洲计算机视觉会议。一、二、六[12] 作者:Edward Hsiao,Sudipta N.放大图片创作者:Krishnan,C.劳伦斯·齐特尼克和理查德·塞利斯基使用3D 曲 线 对 齐 的 汽 车 品 牌 和 模 型 识 别 。 IEEEWinterConference on Applications of Computer Vision,2014。2[13] 胡因林、约阿希姆·雨果诺特、帕斯卡·福阿和马蒂厄·萨尔茨曼。分割驱动的6D对象姿态估计。在计算机视觉与模式识别会议,2019年。一、二、四、五、六、七、八[14] 作者 :Daniel P. Klanderman 和William Rucklidge使用Hausdorff距离比较图像IEEE模式分析和机器智能学报,第850-863页,1993年。2[15] Sergey Ioffe和Christian Szegedy。批次归一化:通过减少内部协变量偏移来加速深度网络训练。在2015年机器学习国际会议上。4[16] Omid Hosseini Jafari , Siva Karthik Mustikovela , KarlPertsch,Eric Brachmann,and Carsten Rother. Ipose:部分遮挡物体的实例感知6D姿态估计。 2018年亚洲计算机视觉会议。 一、二[17] Wadim Kehl , Fabian Manhardt , Federico Tombari ,Slobo- dan Ilic,and Nassir Navab.SSD-6D:让基于RGB的3D检测和6D姿态估计再次变得强大。在2017年国际计算机视觉会议上。2[18] Laurent Kneip,Hongdong Li,and Yongduek Seo.时间复杂度为O(n)的最优解。在2014年欧洲计算机视觉会议上。1[19] Alexander Krull , Eric Brachmann , Frank Michel ,Michael Ying Yang , Stefan Gumhold , and CarstenRother.用于RGB-D图像中的6D姿态估计的学习合成分析。2015年国际计算机视觉会议。五、六[20] Vincent Lepetit和Pascal Fua。基于单目模型的刚性对象3D跟踪:调查。现在出版商,2005年9月。1[21] Vincent Lepetit , Francesc Moreno-Noguer , and PascalFua. EPnP:一个精确的O(n)解决PnP问题的方法。国际计算机视觉杂志,2009。一二三五六[22] 李登旺,王红军,尹勇,王秀英。基于边缘保持尺度空间的自适应图像引导放射治疗形变配准。应用临床医学物理学杂志,2011年。2[23] 易 离 , 顾 望 , 向 阳 季 , 于 翔 , 迪 特 尔 福 克 斯 。DeepIM:深度迭代匹配6D姿态估计。2018年欧洲计算机视觉会议。5[24] Zhigang Li,Gu Wang,and Xiangyang Ji. CDPN:用于实时基于RGB的6-DoF对象姿态估计的基于坐标的解纠缠姿态网络。2019年国际计算机视觉会议。一、二[25] 放 大 图 片 创 作 者 : 林 宗 毅 , Priya Goyal , Ross B.Girshick,Kaiming He,andPiotrDol la'r. 用于密集目标检测的焦度损失。2017年计算机视觉国际会议。5[26] Ming-Yu Liu,Oncel Tuzel,Ashok Veeraraghavan,andRama Chellappa.快速方向倒角匹配。计算机视觉与模式识别
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功