没有合适的资源?快使用搜索试试~ 我知道了~
3560DualPoseNet:基于双位姿网络的类别级6D物体位姿和尺寸估计李杰红1,泽伟伟1,2,李志豪3,徐松岑3,奎吉a1*,李元庆11华南理工深圳市鑫科科技有限公司3华为诺亚方舟实验室公司{lin.jiehong,eeweizewei}@ mail.scut.edu.cn,{zhihao.li,xusongcen}@huawei.com,{kuijia,auyqli} @ scut.edu.cn摘要类别级6D对象姿态和大小估计是预测在杂乱场景的单个任意视图中观察到的对象实例的旋转、平移和大小的完整姿态配置 在本文中,我们提出了一种新的方法,双姿态网络与精细学习的姿态一致性,为这项任务,简称为DualPoseNet。DualPoseNet在一个共享的姿态编码器上堆叠两个并行的姿态解码器,其中隐式解码器预测对象姿态的工作机制与显式解码器不同;因此,它们对姿态编码器的训练施加补充监督。我们构建了基于球面卷积的编码器,并设计了一个球面融合模块,其中为了更好地嵌入来自外观和形状观察的姿态敏感特征。在没有测试CAD模型的情况下,隐式解码器的新颖引入通过使用自适应损失项在两个解码器之间实施预测的姿态一致性来实现测试期间的精细在类别级和实例级对象姿态数据集的基准上进行的彻底实验证实了我们的设计的有效性。DualPoseNet优于现有的方法,在高精度的政权有很大的利润我们的代码在https://github上公开发布。com/Gorilla-Lab-SCUT/DualPoseNet。1. 介绍在许多实际应用中,例如增强现实、机器人操作和自动驾驶汽车,都需要在3D欧氏空间中进行对象检测。随着基准数据集(例如,KITTI [10]和SUN RGB-D [25]),其中准备了包围感兴趣的对象实例的仔细注释的3D边界框,其指定7度的几何形状。*通讯作者对象的自由度(7DoF),包括平移、大小和围绕重力轴的偏航角。3D对象检测的这种7DoF设置与大多数对象实例在3D空间中直立的常见场景对齐。然而,当对象在3D空间中倾斜时,7DoF检测不能精确地定位对象,其中最紧凑的边界框只能在给定全姿态配置的情况下确定,即,具有额外的两个旋转角度。全配置的姿态预测在安全关键场景中是重要的,例如,自动驾驶,其中最精确和紧凑的物体定位能够实现更好的感知和决策。全配置(即,6D姿态和大小)在[30]中正式引入,作为来自RGB-D观察的单个任意视图的新实例的类别级6D对象姿态和大小估计。它与类别级非模态3D对象检测密切相关[22,31,36,24,35,21](即,上述7DoF设置)和实例级6D对象姿态估计[12,8,14,16,32,26,20,17,29,18]。与它们相比,本文中的聚焦任务由于在SO(3)的全旋转空间中的学习和预测而更具挑战性;更具体地说,(1)任务更多地涉及定义类别级别的规范姿势(cf.第3节用于规范姿势的定义)并将对象实例与大的类别内形状变化对齐[15,4],(2)深度学习精确旋转可以说需要学习旋转等变形状特征,与学习平移不变图像特征的2D对应物相比,这一点研究较少,以及(3)与实例级6D姿态估计相比,由于缺乏测试CAD模型,聚焦任务无法利用特权3D形状直接细化姿态预测,如[2,32,29,18]中所做。在这项工作中,我们提出了一种新的方法类别级6D对象的姿态和大小估计,它可以部分地解决上述第二和第三个挑战3561我们的方法在一个共享的姿态编码器上构造两个并行的姿态解码器;这两个解码器用不同的工作机制预测姿态,编码器被设计为学习姿态敏感的形状特征。在测试期间激活实施两个解码器之间的预测姿势一致性的精细学习以进一步改进预测。我们将我们的方法称为具有姿势一致性的精细学习的双姿势网络,简称为Du-alPoseNet。图1给出了图示。对于观察到的RGB-D场景,DualPoseNet首先采用实例分割的现成模型(例如,MaskRCNN [11])在图像中分割出感兴趣的对象。然后,它将每个经掩蔽的RGB-D区域馈送到编码器中。为了学习姿势敏感的形状特征,我们基于球面卷积[9,7]构建了我们的编码器,其可证明学习具有SO(3)上的旋转等变性的对象表面形状的深度特征。在这项工作中,我们设计了一个新的球面融合模块,以支持更好地嵌入输入RGB-D区域的外观和形状特征。 利用学习到的姿态敏感特征,两个并行解码器显式地进行姿态预测,或者通过以其规范姿态重构输入(部分)点云来隐式地进行姿态预测;虽然第一姿态预测可以直接用作DualPoseNet的结果,但是在测试期间,通过使用强制姿态一致性的自适应损失项来微调编码器,结果被进一步细化。在DualPoseNet中使用隐式解码器有两个好处,可以潜在地改进姿态预测:(1)它提供了对姿态编码器的训练的辅助监督,以及(2)它是在没有测试CAD模型的情况下实现细化的关键。我们对CAMERA 25和REAL275 [30]的基准类别级对象姿态数据集进行了彻底的实验,并且还将我们的DualPoseNet应用于YCB-Video [3]和LineMOD [13]的实例级数据集。消融研究证实了我们的新型设计的有效性。DualPoseNet在更精确的姿态方面优于现有方法。我们的技术贡献总结如下:• 我们提出了一种新的方法,双姿态网络的类别级6D对象的姿态和大小估计。Du-alPoseNet将两个并行的姿势解码器堆叠在共享的姿势编码器之上,其中隐式的姿势解码器预测具有与显式的姿势解码器不同的工作机制的姿势;这两个解码器因此对姿势编码器的训练施加• 尽管缺乏测试CAD模型,但在DualPoseNet中使用隐式解码器通过使用自适应损失项在两个解码器之间强制执行预测的姿势一致性来实现测试期间的精细姿势预测。这进一步改进了DualPoseNet的结果。• 我们基于球面卷积构造DualPoseNet的编码器以学习姿势敏感的形状特征,并设计了球面融合模块,其中,经验表明,从输入RGB-D区域的外观和形状特征学习更好的嵌入2. 相关工作实例级6D对象姿态估计用于实例级6D姿态估计的传统方法包括基于模板匹配的方法[12]和通过投票点对特征的匹配结果的方法[8,14]。更近期的解决方案建立在深度网络的力量之上,可以直接从单独的RGB图像[16,32,26,20]或RGB-D图像[17,29]中估计物体姿态。该任务假设在训练和测试阶段期间对象CAD模型的可用性,并且因此使得能够通过将CAD模型与(RGB和/或点云)观察结果匹配来细化预测姿态的常见实践[2,32,29,18]。类别级3D对象检测的类别级3D对象检测方法主要在KITTI [10]和SUN RGB-D [25]等基准上进行比较。早期的方法[22,31]利用成熟的2D检测器首先检测RGB图像中的对象,并且通过关注对象平截头体内的点集来促进3D检测的学习。随后的研究提出了解决方案[36,24,35,21]来直接从观察到的场景点预测7DoF对象边界框。然而,7DoF配置对精确的旋转预测施加了固有的约束,仅预测了围绕重力方向的一个偏航角。最近,在[30]中正式引入了类别级6D姿态和大小估计。值得注意的是,Wang等人。[30]提出了一种称为归一化对象坐标空间(NOCS)的规范形状表示,并且通过以下方式进行推断:首先预测RGB图像中检测到的对象的NOCS图,然后将它们与观察到的对象深度对齐以产生6D姿态和大小的结果;后来,Tian等人。[27]通过变形分类形状先验来改进规范对象模型的预测 。 相 反 , Chen 等 人 。 [5] 训 练 变 分 自 动 编 码 器(VAE)来捕获姿态无关特征,以及姿态相关特征以直接预测6D姿态。此外,在最近的作品中也探索了单眼方法[6,19]。3. 问题陈述对类别级6D对象姿态和大小估计的研究从NOCS开始[30]。这个问题可以概括如下。假设在RGB-D图像中捕获的杂乱场景的训练集,其中确定的对象实例的6D姿态和大小的3562P X X P公司简介∈∈∈i=1PQX Pi=1X {∈}P {∈}X PSC球面卷积W :加权平均池化F:展平:观察点:姿势敏感特征MLP:多层感知M :最大池化C:串联:规范点球形融合MLP(1024、512、4)RCSC(十六)SC(十六)MLP(1024,512,3)不SC(d)其他事项MaskRCNNSC(十六)SC(十六)CCSC(三十二)SC(三十二)MLP(1024,512,3)SWW球形融合(d=32)FMLP(1024)显式姿态解码器SC(六十四)SC(六十四)W W球形融合F(d=64)MLP(1024)MMLP(1024、1024)CMLP(1024,512,3)SC(128)SC(128)W W球形融合FMLP(d=128)(1024)姿势编码器隐式姿态解码器图1.我们提出的DualPoseNet的说明对于观察到的RGB-D场景,DualPoseNet采用MaskRCNN [27]来分割出感兴趣的对象,例如,一个马克杯,给出中的观察点和中的相应RGB值),则(、)到姿态编码器Φ中以学习姿态敏感特征表示f。具体地,Φ被设计为具有两个并行的球面卷积层流以分别处理球面信号X和P,其分别从和转换;所得到的特征通过所提出的球形融合模块在中间层中交织;最后通过多尺度球形特征的聚集来丰富和获得f。在Φ之上,构建显式姿态解码器Ψexp以直接预测姿态,而与Ψ exp并行地采用附加的隐式姿态解码器Ψim以生成P的规范版本Q。提供了类别。对于所包含的对象实例中的每一个,注释是以旋转R的全姿态配置的形式SO(3),翻译tR3,并且大小sR3,其也可以被转换为包围对象的紧凑的定向的3D边界框(参见图1)。图1)。注意,在3D欧几里德空间中,R和t的6D姿态相对于以原点为中心的规范姿态来定义。类别级学习因此依赖于以下潜在假设:同一类别的所有训练对象实例以预定义的规范姿态(例如,杯子类别的实例的句柄都指向同一方向);否则,在测试期间任何学习模型预测姿势都是没有意义的。对于现有的数据集[30],通常提供RGB图像中的对象掩模的附加注释,这缓解了问题,并且使得能够学习从杂乱场景的RGB-D图像中分割出感兴趣的区域。4. 一种具有姿态一致性4.1. 概述我们首先概述了我们提出的双姿态网络,并改进了姿态一致性。的整个管道被描绘在图。1.一、对于观察到的RGB-D场景,DualPoseNet首先采用图像中实例分割的现成模型(例如,MaskR-CNN [11])来分割出感兴趣的对象 这为每个分割对象生成一对(,),其中我们使用= piR3N来表示被掩蔽的RGB-D区域中的N个观察点,并且对于对应的RGB值=X1R3N。 DualPoseNet将(,)馈送到姿势编码器Φ中(参见第4.2节)以学习姿势敏感特征表示f,随后是显式姿势解码器Ψexp(参见第4.2节)。第4.3节)来预测姿态;附加的隐式姿态解码器Ψim(参见第4.3节)用于预测姿态。第4.4节)与Ψexp并行使用,生成观察点云规范版本.Ψ im的使用是DualPoseNet中的关键,以改进来自Ψexp的姿势预测,并实现姿势一致性的精细学习,从而进一步改进预处理。预测的精确性,正如我们在第5.1.1节的实验中所验证的。给定裁剪的RGB-D感兴趣区域和地面实况姿态注释,可以以端到端的方式进行DualPoseNet的训练。在测试期间,存在(至少)三种从DualPoseNet获得姿态预 测 的 方 式 : ( 1 ) 经 由 Ψ exp ◦ Φ 的 前 向 传 递 从DualPoseNet的直接预测,3563Q X PPPPXX P×S∈X P S∈~S∈SXPS S S ∈ X PX、PPh,wh,w联系我们××XPX、PSSL~S× ×LLLLL我Lh,w;否则,我们定义◦LS∈X,P.XPW×H×dling=在其规范姿态下的φimΦ(,)加权平均池,其细节在图中给出1. 为了实现两个流之间的信息通信和特征混合,我们设计了一个Spher模块[30,27],以及(3)使用精炼学习来更新典型的融合,其工作原理如下。 令SIX∈RW×H×dl在一些实施例中,预测可以是编码器Φ的参数,并且然后经由Ψ exp Φ的前向传递来计算预测。在这项工作中,我们使用第一种和第三种方法来获得DualPoseNet的结果。我们在图中说明了训练和细化过程2. 网络的各个组件解释如下。4.2. 姿态编码器Φ精确预测物体的姿态要求有限元-和lPRW×H×dl表示在两个流的相应的第l层处的学习的球形特征图(即,S0X =SX和S〇P=SP),我们将P流的层1 + 1的输入特征图计算为S~P=ΣSP,S~X,PΣ∈RW×H×2dl(1)其中S~=SCONVS,S∈R,(2)通过f = Φ(,)学习的纹理对观察到的输入姿 态敏感,特别是对旋转敏感,因为平移和大小更容易推断(例如,即使是简单的中心点的缩放和3D扩展的计算给出平移和缩放的良好预测为此,我们基于球面卷积[9,7]实现了我们的Φ,它可证明学习物体表面形状的深层特征,具有SO(3)上的旋转等变性。更具体地说,我们将Φ设计为具有两个并行的球面卷积层流,它们分别处理输入和;所得到的特征通过所提出的球面融合模块在中间层中交织在一起。我们还使用多尺度球形特征来丰富f中的姿态信息。 图1给出了例证根据[9],我们的目标是将和分别转换为离散采样XRW×H×3和PRW ×H×1,其中WH表示球面上的采样分辨率。为此,我们首先计算几何中心c =其中SCONV表示球形卷积的可训练层。解[9],并且[·,·]沿着特征维度连接球面映射 这同样适用于X流,并且我们将lXRW×H×2dl作为其层l+1的输入。球形融合模块(1)可用于即插即用在两个流的任何中间层的方式;我们使用三个这样的模块- 流和- 溪流5个球形卷积层的所有实验报告本文。第5.1.1节中的经验分析验证了所提出的球形融合的有效性。注意,存在在最开始融合RGB和点特征的简单替代方案,即,[001 pdf 1st-31files][001 pdf1st-31files][001 pdf 1st-31files]、)的情况。 中的特征将直接熔合在后续层中。第5.1.1节中的经验结果也验证了,给定相同数量的球形卷积层和特征图,该替代方案的性能大大优于我们提出的球形融合。多尺度球形特征的聚合利用球形特征1ΣNP的p,并减去其各个点P在多个尺度上。由于表示S~computed它移动到原点为c的空间。 我们然后从c投射W H等角射线,其划分将空间划分为W H区域。 考虑由(w,h)索引的区域,其中w1、. . .,W和h1、. . .,H;当它包含的点时,我们找到到c的距离最大的点,表示为pmax,并定义球。在当前区域的标准信号为SX(w,h)=xmax且SP(w,h)=pmax−c,其中xmax表示通过(2)将外观和几何特征融合在中间层l,我们在技术上聚合多个它们来自分别插入在两个平行流的低、中、高层的球形融合模块,如图所示。1.一、在实践中,我们将三种这样的特征表示聚合如下f=MLP(MaxPool(fl,fl’,fl”))(3)h,wpMaxh,wS.T. F =MLP。平了。SX,P,当区域包含时,SX(w,h)=0和SP(w,h)=0没有P点。如图所示,使用球形融合进行学习。在图1中,我们的编码器Φ是基于两个并行流来构造的,这两个并行流分别处理经转换的球形信号X和P。 我们称之为- 流和- 流以便于呈现。这两个流共享相同的网络结构(除了第一层的通道之外),其中的每一个堆叠多层球形卷积和其中Flatten(·)表示重新形成特征张量l的平坦化操作。尺寸WHd 1作为特征向量,MLP表示多层感知器(MLP)的子网络,并且MaxPool(f1,f1′,f1′′)通过针对每个特征通道的三个条目的最大池化来聚合三个特征向量;在图3中给出了在(3)中使用的两个MLP的层细节。1.一、 我们使用从(3)计算的f作为姿态编码器Φ的最终输出,即,f = Φ(X,P).Ni=1RGB值对应于L3564|| ||ΦNPQX Pi=1Q {}i=1Σ¨¨¨¨24.3. 显式姿态解码器给定来自编码器Φ的f,我们将显式解码器Ψexp简单地实现为三个并行MLP,其被训练为直接回归旋转R、平移t和大小s。图1给出了图示,其中还给出了三个MLP的层细节。这给出了从裁剪的RGB-D区域进行姿态预测的直接方式,如(R,t,s)=ΔexpΔΦ(X,P)。4.4. 隐式姿态解码器Ψim对于观察到的点云P,假设其在规范姿态中的对应部分Q是可用的。可以建立P 和Q 之间的仿射变换(R,t,s),其计算对于任何对应的成对的Sp∈ P和q∈ Q。 这意味着一个隐含的通过学习从观察到的P预测规范Q来获得预测姿态的方式;在预测Q时,图2.关于Dual- PoseNet的训练和精细学习的说明在训练期间,我们优化目标(7),其为姿态(R,t,s)可以通过求解对准来问题通过Umeyama算法[28].由于f=Φ(X,P)LΦ、 L Φ和L Φ的组合exp 和LΦ, Ψim以端到端的方式。已经学习了姿态敏感特征,我们期望可以通过从f和p的级联学习映射来从p估计相应的q。在DualPoseNet中,我们简单地将可学习映射实现为在测试期间,我们冻结Ψexp和Ψim的参数,并微调Φ的参数以最小化LRefine以实现姿势一致性。隐式解码器Ψ im(p,f)= MLP([p; f])。(四)1Σ¨1¨在一个逐点的方式中,P-S适用于P的各个点内尔。我们统称为Q=Ψim(P,f)。LΦ,Ψim=Ni=1qi− ||s*||R(pi− t)<$.(六)我们注意到归一化在[30]中学习对象坐标空间(NOCS)以用于姿势预测的后续计算。不同于总体培训目标结合(5)和(6),重新-求解最优化问题NOCS,我们以隐式方式使用Ψ im;其具有潜在地改进姿态预测的两个益处:(1)它提供minΦ, Ψexp,ΨimLΦ,Ψexp+λLΦ,Ψim,(7)对姿态编码器Ψ的训练的辅助监督(注意,可以从使用注释的姿态和大小来变换的训练基础事实),以及(2)它通过强制Ψexp和Ψim的输出之间的一致性来实现细化的姿态预测,如在第4.6节中简要解释的。我们在第5.1.1节中实证验证了这两个好处,并表明使用Ψim可以改善DualPoseNet中Ψexp◦Φ(X,P)的4.5. 双姿态网络给定裁剪(,)的地面实况姿态注释(R*,t*,s*)1,我们在显式解码器Ψexp之上使用以下训练目标:LΦ ,Ψexp=||ρ(R)−ρ(R*)||2个以上||t−t*||2个以上||s−s*||第二条,第(五)项其中ρ(R)是旋转R的四元数表示。由于来自Ψ im的预测=qiN中的各个点分别对应于来自Ψim的预测= q i N中的各个点。其中λ是惩罚参数。4.6. 姿势一致性对于实例级6D姿态估计,通常的做法是通过后配准[2]或后优化[18]来细化初始或预测的姿态;这种做法是可能的,因为实例的CAD模型是可用的,这可以通过将CAD模型与(RGB和/或点云)观察结果匹配来指导细化。然而,对于我们集中的类别级问题,没有提供测试实例的CAD这在需要对某些测试实例进行更精确预测的情况下产生了由于来自Ψexp和Ψim的双重姿态预测,我们能够通过学习加强它们的姿态一致性来进行姿态细化。更具体地说,我们冻结了Ψexp和Ψim的参数,同时微调了编码器Φ,通过优化以下问题服务的P={pi}N,我们简单地使用下面的损失对N1ΦΦN我1在[27]之后,我们使用正则R来处理对称对象最小L优化=1q−R(p-t)<$、 (8)培训显式姿态解码器姿势编码器隐式姿态解码器精细化学习显式姿态解码器姿势编码器隐式姿态解码器:已更新模块:姿势敏感功能:前向传播:固定模块:优化目标:反向传播i=1对称性的模糊性||S||我23565i=1细化ΦX P◦X P联系我们--×××SSQ {}◦X PSS细化其中=qiN=Ψim(、 )和(R,t,s)=ΔexpΦ(,)是两个解码器的输出。注意,在训练期间,两个解码器在姿态预测方面是一致的在测试过程中,由于不可避免的泛化差距,两个解码器的输出之间总是存在不一致,我们提出的改进(8)有望缩小差距。改进的预测依赖于更好的姿态敏感编码f=Φ(,);细化(8)因此更新Φ的参数以实现目标。第5.1.1节中的经验结果验证了细化的姿势确实朝向更精确的姿势。在实践中,当微调L时,我们设置一个损失容限作为停止标准(即,细化在以下情况下LΦ≤ε),具有快速收敛和可忽略的成本。5. 实验数据集我们使用基准CAMERA25和REAL275数据集[30]进行实验,以进行类别级6D对象姿态和大小估计。CAMERA 25是由上下文感知混合现实方法从6个对象类别生成的合成数据集;它包括1,085个对象实例的300,000个合成图像,其中184个实例的25,000个图像用于评估。按照[30]报告物体检测的交集(IoU)的不同阈值下的平均精度(mAP),以及姿态估计的n◦m然而,这些度量不够精确以同时评估6D姿态和对象大小估计,因为IoU单独可能无法表征精确的对象姿态(旋转的边界框可能给出类似的IoU值)。为了评估姿态和大小的同时预测的问题性质,在这项工作中,我们还提出了一个新的和更严格的度量的基础上的组合的IoU,旋转的错误,和相对平移的错误,其中对于最后一个,我们使用相对版本,因为绝对的平移使不同大小的对象的意义不大。对于这三个误差,我们考虑分别为50%、75%(即,IoU50和IoU75),5◦,10◦,以及5%,10%,20%,其组合可以在一系列精度范围内评估预测对于实例级姿态估计,我们遵循[29]并分别通过ADD-S和ADD(S)度量评估YCB-Video和LineMOD数据集的结果。5.1. 类别级6D姿态和大小估计5.1.1消融研究和分析我们首先进行消融研究,以评估DualPoseNet中提出的单个组件的有效性。这些研究是在REAL275数据集上进行的[30]。REAL275是一个更具挑战性的真实世界数据集,具有杂乱、遮挡和各种光照条件;其我们使用两个ΨDualPoseNet;exp 和Ψim用于姿势解码训练集包含7个场景的4,300幅图像,测试集包含6个场景的2,750幅请注意,CAM-ERA 25和REAL 275共享相同的对象类别,这使得能够组合使用两个数据集进行模型训练,如[30,27]中所做的那样。我 们 还 评 估 了 DualPoseNet 在 YCB-Video [3] 和LineMOD [13]的基准实例级对象姿态数据集上的优势,这些数据集分别由21个和13个不同的对象实例我们采用[1]实现的MaskRCNN [11]从输入场景中分割出感兴趣的对象。对于每个分割的对象,其RGB- D裁剪被转换为具有采样分辨率64 - 64的球形信号,然后被馈送到我们的DualPoseNet中。DualPoseNet的配置,包括球面卷积和MLP的通道数,已在图中指定1.一、我们使用ADAM来训练DualPoseNet,初始学习率为0。0001每50,000次迭代,学习率减半,直到总数达到300,000次。我们将批量大小设置为64,并且将等式(1)中的惩罚参数设置为100(7)当λ=10时。对于姿势一致性的精细学习,我们使用学习率1 10−6和损失容限ε=510-5 对于实例级任务,我们还采用了与[29,34]类似的剩余姿态的第二阶段迭代细化;更多细节在补充材料中显示。对于类别级姿态估计,我们Ψexp直接产生姿态预测其也用作具有和不具有精细学习的DualPoseNet的结果,而Ψim是隐式的,其输出可以通过解决对准问题而转化为结果。为了验证DualPoseNet的有用性,我们报告了DualPoseNet的结果,表1中的Ψ im的使用,根据在精细学习之前来自Ψ exp的姿态精度。我们观察到,在所有度量下,Ψ im的使用大幅提高了Ψ exp的性能;例如,mAP im-(IoU 50,10◦,10%)的证明达到5。8%,(IoU 75,5◦,10%)的最高可达4. 百分之一。这些性能增益表明Ψim不仅能够实现姿势一致性的后续精细学习,而且还提供了对姿势编码器Φ的训练的辅助监督,并导致更好的姿势敏感嵌入,这意味着Ψim在DualPoseNet中的关键作用。为了评估我们提出的球形融合器的有效性基于子帧的编码器Φ,我们与三个替代编码器进行比较:(1)Densefusion [ 29 ]的基线,Densefusion [29]是一种姿势编码器,其以逐点方式融合来自CNN的学习RGB特征和来自PointNet [23]的点特征;(2)SCNN-EarlyFusion,其将X和P的级联作为输入,并将其馈送到多尺度球形CNN中,然后是MLP;3566编码器Ψim精炼地图IoU755○,5%IoU7510○,5%IoU755○,10%IoU505○,20%IoU5010○,10%IoU5010○,20%IoU50IoU755○2cm5○5cm10○2cm10○5cm美国[29]SCNN-LateFusion✓✓✓×××1 .一、57 .第一次会议。78. 43 .第三章。0十四岁4十四岁77 .第一次会议。9十五岁823岁811个国家。420块328岁5十七岁4三十五541岁7二十六岁1四十五851岁4六十四9七十六。1七十七。0三十五051岁9五十六69 .第九条。1十七岁3二十五7十五岁6二十四岁5三十四319号。3三十六2四十三5三十六2五十六862. 8ΦΦΦ✓×✓×✓×8. 210个。411个国家。2十三岁6十六岁1十七岁219号。723岁8二十四岁8二十六岁128岁529岁8三十七3四十三144. 5四十九152岁655. 0七十六。179岁。779岁。855. 2六十岁。162. 221岁328岁029岁331岁3三十四3三十五9三十八岁。5四十七850块0六十岁。4六十四266岁。8表1.在REAL275上对我们提出的DualPoseNet变体进行消融研究评估基于我们提出的指标(左)和[30]中提出的指标(右)。图3. 不使用(红色)和使用(绿色)REAL275上姿势一致性的精细学习图4. 当使用不同的学习速率来微调姿势一致性的精细学习的损失(8)时,预测准确度((IoU50,10◦,20%)的mAP)与迭代次数的绘图。实验在REAL275上进行[30]。的两个输出特性。所使用的多尺度球形CNN由8个球形卷积层构造,具有类似于Φ的多尺度球形特征的聚合。我们通过用上述编码器替换Φ来进行烧蚀实验,同时保持Ψexp和Ψim不变。表1中的结果(没有姿态一致性的精细学习)示出了三个替代编码器比我们提出的具有球形融合的Φ执行得更差。与稠密基线相比,基于球卷积的算法在SO(3)上具有旋转等方差的特性,从而获得了更高的mAP。利用球形融合,我们提出的姿态编码器Φ使得能够沿着层级渐进地进行信息通信,从而在最开始时超过具有特征融合的SCNN-EarlyFusion或在最后超过SCNN-LateFusion。最后,我们研究了所提出的姿势一致性的精细学习表1中的结果示出,通过精细学习,姿态精度在评估度量的全谱上稳定地提高,并且当使用较粗糙的度量时,提高增加;这表明该细化确实将学习吸引到姿态预测的解空间中的更精确的区域。图中的示例。3提供佐证3567××精细化学习的有效性。实际上,精炼过程是改进的精度和精炼效率之间的权衡。如第4.6节所述,细化效率取决于学习速率和迭代次数,用于使用目标(8)微调编码器。在图4中,我们绘制了当使用不同学习速率时(IoU50,10〇,20%)的mAP相对于迭代次数的当使用更大的学习率时,它显示出更快的收敛,然而,这可能会以不太成熟的最终结果结束,即使是过拟合。在实践中,可以设置适当的公差ε以平衡效率和精度。对于本文报道的DualPoseNet结果,我们将学习率设置为110−6和ε=510−5在此设置下,它的成本可以忽略不计0。在配备Intel E5-2683 CPU和GTX 1080tiGPU的服务器上,每个实例需要2秒5.1.2与现有方法的我们在CAMERA25和REAL275 [30]数据集上将我们提出的DualPoseNet与现有方法进行了比较,包括NOCS [30],SPD [27]和CASS [5]。请注意,NOCS和SPD被设计为首先预测所观察到的点云的规范版本,并且通过求解Umeyama算法[28]从后对准获得姿态。表2中的定量结果显示了我们提出的DualPoseNet在两个数据集上的优越性,特别是对于高精度的度量。为了完整性,我们还在表2中呈现了在[30]中提出的原始评估指标下的比较结果;我们的结果比现有的结果更好,除了IoU50的一个相当粗略的指标,这实际上是一个对对象姿势不太敏感的指标。不同方法的定性结果如图所示。五、与现有方法相比,我们的方法的比较优势与表中观察到的一致二、例如,由NOCS和SPD生成的图中的笔记本电脑的边界框明显大于笔记本电脑的精确扩展,而我们的方法预测具有精确姿态和大小的更紧凑的边界框更多的比较结果见补充材料。5.2. 实例级6D位姿估计我们将DualPoseNet应用于YCB-Video [3]和LineMOD[13]实例级任务的数据集。结果以Ta-3568数据集方法地图IoU755○,5%IoU7510○,5%IoU755○,10%IoU505○,20%IoU5010○,10%IoU5010○,20%IoU50IoU755○2cm5○5cm10○2cm10○5cm摄像头25NOCS [30]社会民主党[27]二十二岁6四十七529岁561岁531岁552岁2三十四5五十六6五十四575. 3五十六878岁583岁9九十三269岁。583岁1三十二3五十四3四十9五十九0四十八2七十三。3六十四681. 5DualPoseNet五十六2六十五1六十五168岁078岁681. 592. 486岁。4六十四7七十7七十七。284. 7NOCS [30]二、43 .第三章。57 .第一次会议。19 .第九条。319号。7二十二岁378岁0三十1 7 .第一次会议。210个。0十三岁8二十五2REAL275社会民主党[27]中国社会科学院8. 6−十七岁2−十五岁0−十七岁4−三十八岁。5−四十二5−七十七。3七十七。7五十三2−19号。3−21岁423岁5四十三2−五十四1五十八0DualPoseNet11个国家。2十七岁2二十四岁829岁844. 555. 079岁。862. 229岁3三十五950块066岁。8表2. CAMERA25和REAL275上不同方法的定量比较。评估基于我们提出的指标(左)和[30]中提出的指标(右)。CAMERA25 REAL275国家奥委会SPDDualPoseNetGT图5.CAMERA25和REAL275上不同方法的定性结果[30]。编码器Ψim精炼迭代YCB视频LineMOD[29]第二十九话×××88岁278岁7Φ×××九十591. 2九十三3九十五0九十六。588岁692. 794 6九十六。3九十八2Φ✓××Φ✓✓×Φ✓×✓Φ✓✓✓表3. 在YCB-视频[3]和LineMOD [13]数据集上对DualPoseNet变体进行消融研究,用于实例级6D姿态估计。评价指标分别为平均ADD-S AUC和平均ADD(S)AUC。表3证实了我们的各个组件(编码器Φ、隐式解码器Φ、以及姿势一致性的精细学习)的功效;在[29,34]之 后 , 我 们 还 使 用 第 二 阶 段 模 块 来 增 强 我 们 的DualPoseNet,用于残余姿势的迭代细化,表示为Dual-PoseNet。3569表4. YCB-视频[3]和LineMOD [13]数据集上不同方法的定量比较,用于实例级6D姿态估计。评价指标分别为平均ADD-S AUC和平均ADD(S)AUC。6. 确认这项工作得到了广东省的部分支持PoseNet(迭代),以进一步提高性能。如表4所示,DualPoseNet(迭代)实现了与其他方法相比较的结果,显示了其在实例级任务中使用更多的定量和定性结果见补充材料。国家研发重点项目(编号: 2019B010155001)、国家自然科学基金(编号:61771201)、广东省引进创新创业团队计划(编号:2017ZT07X183)。方法YCB视频LineMOD[33]第三十三话83岁9737[29]第二十九话九十三1943W-PoseNet [34]W-PoseNet(迭代)[34]九十三0972940981DualPoseNet九十三394 6DualPoseNet(迭代)九十六。5九十八23570引用[1] 瓦利德·阿卜杜拉Mask r-cnn用于keras和tensorflow上的对象检测和实例分割。github.com/matterport/Mask_RCNN,2017. 6[2] Paul J Besl和Neil D McKay。三维形状配准方法。在SensorfusionIV : controlparadigmsanddatastructures,第1611卷,第586国际光学与光子学会,1992年。一、二、五[3] Berk Calli、Arjun Singh、Aaron Walsman、SiddharthaSrini-vasa、Pieter Abbeel和Aaron M Dollar。ycb对象和模型集:操作研究的共同基准。2015年国际先进机器人会议(ICAR),第510-517页IEEE,2015年。二、六、七、八[4] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。1[5] Dengsheng Chen,Jun Li,and Kai Xu.学习用于类别级6d对象姿态和大小估计的规范形状空间。在计算机视觉和模式识别会议(CVPR),2020年。二七八[6] Xu Chen,Zijian Dong,Jie Song,Andreas Geiger,andOtmar Hilliges.通过神经合成分析的类别级对象姿态估计。欧洲计算机视觉会议,第139-156页Springer,2020年。2[7] 塔可S Cohen,Mario Geiger,Jonas Koehler,and MaxWelling.球形cnns。在ICLR,2018年。二、四[8] Bertram Drost Markus Ulrich Nassir Navab 和 SlobodanIlic。全局建模,局部匹配:高效而稳健的三维物体识别。CVPR,2010。一、二[9] Carlos Esteves 、 Christine Allen-Blanchette 、 AmeeshMaka- dia和Kostas Daniilidis。用球面cnn学习so(3)等变在欧洲计算机视觉会议(ECCV)的会议中,第52二、四[10] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。在计算机视觉和模式识别会议中,2012年。一、二[11] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页二、三、六[12] Stef anHinterstoisser , Ce´dricCagniart , SlobodanIlic ,PeterSturm , Nassir Navab , Pascal Fua , and VincentLepetit.用于实时检测无纹理对象的梯度响应图。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功