没有合适的资源?快使用搜索试试~ 我知道了~
基于隐式3D方向学习的RGB图像中的实时管道对象检测和6D姿态估计
基于隐式3D方向学习的RGB图像Martin Sundermeyer1[0000−0003−0587−9643],Zoltan-CsabaMarton1[0000−0002−3035−493X],MaximilianDurner1[0000−0001−8885−5334],Manuel Brucker1[0000−0001−6370−2753],Rudolph Triebel1,2[0000−0002−7975−036X]1德国航空航天中心(DLR),82234 Wessling,德国{martin.sundermeyer,zoltan.marton,maximilian.durner,manuel.brucker,rudolph.triebel} @ dlr.de2慕尼黑工业大学80333 Munich,Germany抽象的。我们提出了一个实时的基于RGB的管道对象检测和6D姿态估计。我们新的3D方向估计是基于去噪自动编码器的一个变体,该变体是使用域随机化在3D模型的模拟视图这种所谓的增强自动编码器与传统方法相比有几个优点:它不需要真实的姿势注释训练数据,可以推广到各种测试传感器,并且可以处理对象和视图对称性。它不是学习从输入图像到对象姿态的显式映射在T-LESS和LineMOD数据集上的实验表明,我们的方法优于类似的基于模型的方法,并与需要真实姿势注释图像的最先进方法竞争。关键词:6D目标检测·姿态估计·域随机化·自动编码器·合成数据·姿态模糊性·对称性1介绍对于移动机器人操作和增强现实等应用而言,现代计算机视觉系统最重要的组件之一是可靠且快速的6D对象检测模块。尽管最近的结果非常令人鼓舞[17,15,40,38,12],但还没有一个灵活、通用、稳健和快速的原因是多方面的。首先,当前的解决方案对于诸如对象遮挡、不同种类的背景杂波和环境的动态变化之类的典型挑战不够鲁棒。其次,现有方法通常需要某些对象属性,例如足够的纹理表面结构或不对称形状,以避免混淆。最后,目前的系统在运行时间和所需的注释训练数据量方面效率不高。因此,我们提出了一种新的方法,直接解决这些问题。具体地说,我们的方法在单个RGB图像上操作,这显著地增加了可用性,因为不需要深度信息但我们注意到,2M. Sundermeyer,Z.Marton,M.Durner,M.布鲁克河Triebel凸轮2obj图1:我们的6D物体检测流水线与齐次变换Hcam2obj∈R4x 4(右上)和深度细化结果H(细化)(右下)可以可选地结合深度图以细化估计。作为第一步,我们应用单次多盒检测器(SSD)[22],它提供了ob-弹出边界框和标识符。在生成的场景作物上,我们采用我们新的3D方向估计算法,它基于先前训练的深度网络架构。虽然深度网络也被用于现有的网络,与其他方法相比,我们的方法不同之处在于,我们在训练期间不明确地从3D姿势注释中学习。相反,我们隐式地从渲染的3D模型视图中学习表示。这是通过使用新的域随机化[ 36]策略训练去噪自动编码器[39]的通用版本来实现的,我们称之为我们的方法有几个优点:首先,由于训练独立于SO(3)中对象方向的具体表示(例如四元数),我们可以处理由对称视图引起的模糊姿势,因为我们避免了从图像到方向的一对多映射。其次,我们学习专门编码3D方向的表示,同时实现对遮挡、杂乱背景的鲁棒性,并推广到不同的环境,测试传感器。最后,AAE不需要任何真实的姿势注释训练数据。相反,它被训练成以自我监督的方式编码3D模型视图,克服了对大型姿势注释数据集的需求。该方法的示意图如图1所示。2相关工作基于深度的方法(例如,使用点对特征(PPF)[38,12])在多个数据集上显示出稳健的姿态估计性能,赢得了SIXD挑战2017 [14]。然而,它们通常依赖于计算成本高的用于6D物体检测的增强型自动编码器3许多假设的评估。此外,现有的深度传感器通常比RGB相机对阳光或镜面物体表面更敏感。卷积神经网络(CNN)彻底改变了从RGB图像中检测2D对象的方法[29,22,20]。但是,与2D边界框注释相比,用全6D对象姿势标记真实图像的工作量更大,需要专业知识和复杂的设置[15]。然而,大多数基于学习的姿态估计方法使用真实标记的图像并且因此被限制为姿势注释的数据集。[35、40、4、28]因此,一些作品[17,40]提出在从3D模型渲染的合成图像上进行训练,从而产生免费的姿势标签的巨大数据源。然而,在合成数据上的朴素训练通常不适用于真实的测试图像。因此,一个主要的挑战是弥合域的差距,从真正的相机记录分离模拟视图。2.1模拟到现实的转换有三种主要策略可以从合成数据推广到真实数据:物体视图和背景的照片真实感渲染显示了物体检测和视点估计等任务的混合泛化性能[26,34,25,30]。它适用于简单的环境,并且如果使用相对少量的真实注释图像进行联合训练,则表现良好。然而,真实感建模总是不完美的,需要很多努力。域自适应(DA)[5]是指将源域的训练数据利用到目标域,其中一小部分标记数据(监督DA)或未标记数据(无监督DA)可用。生成式对抗网络(GAN)已被部署用于无监督DA,通过从合成图像生成逼真的训练分类器[33],3D姿态估计器[3]和抓取算法[2]。虽然构成了一种有前途的方法,但GAN往往会产生脆弱的训练结果。监督DA可以降低对真实注释数据的需求,但并不放弃它。域随机化(DR)建立在这样的假设之上,即通过在各种半现实设置(用随机照明条件、背景、饱和度等增强)中在渲染视图上训练模型,它也将推广到真实图像。Tobin等人。[36]证明了使用CNN进行3D形状检测的域随机化(DR)范例的潜力。Hinterstoisser等人。[13]表明,通过使用纹理3D模型的随机合成视图仅训练FasterRCNN[29]的头部网络,它也可以很好地推广必须指出的是,它们的渲染几乎是照片般逼真的,因为纹理3D模型具有非常高的质量。最近,Kehl等人[17]研究了一种新的CNN,称为“SS D 6D”,因为6D可以使用适度的作者任--在MS顶部以随机姿势进行纹理化3D对象重建的视图4M. Sundermeyer,Z.Marton,M.Durner,M.布鲁克河TriebelCOCO背景图像[21],同时改变亮度和对比度。这使得网络可以泛化到真实图像,并在10Hz下实现6D检测像我们一样,为了获得非常准确的距离估计,他们依赖于使用深度数据的迭代最近点(ICP)后处理。相反,我们不把3D方向估计作为一个分类任务。2.2学习3D方向我们描述了固定SO(3)参数化训练的困难,这将激励学习对象特定的表示。回归分析由于旋转存在于连续空间中,因此直接回归固定的SO(3)参数化(如四元数)似乎很自然。然而,代表性约束和姿势模糊可能会引入收敛问题[32]。在实践中,用于全3D对象取向估计的直接回归方法并不十分成功[23]。3D对象取向的分类需要SO(3)的离散化。即使是相当粗略的150度的间隔也会导致超过50,000个可能的类。由于每个类只在训练数据中稀疏出现,这阻碍了收敛。在SSD6D [17]中,通过分别对离散化视点和平 面内 旋转 进行 分类 来学 习3D方向 , 从而将 复杂 度降 低到O(n2)。然而,对于非规范视图,例如,如果从上面看到一个对象,视点的改变几乎等同于产生模糊类别组合的平面内旋转的改变。通常,在执行单热分类时,忽略不同取向之间的关系。当依赖于3D方向的固定表示时,对称性是一个严重的问题,因为它们会导致姿势模糊(图2)。如果不手动处理,相同的训练图像可能具有不同的方向标签,这可能会严重干扰学习过程。为了处理模糊的对象,文献中的大多数方法都是手动调整的[40,9,17,28]。这些策略从忽略一个旋转轴[40,9]到根据对象[17]调整离散化到训练额外的CNN来预测对称性[28]。这些描述了预先过滤掉对象对称性(2a)的繁琐的手动方式,但是处理由于自遮挡(2b)和遮挡(2c)引起的歧义更难解决。对称性不仅影响回归和分类方法,而且影响任何仅通过固定SO(3)表示来区分对象视图的基于学习的算法。描述符学习可以用来学习与对象相关的表示,在低维空间中投影视图。Wohlhart等人。[40]介绍了一种基于CNN的描述符学习方法,该方法使用三元组损失,最小化/最大化相似/不相似对象方向之间的欧几里得距离。虽然用于6D物体检测的增强型自动编码器5(a) 物体对称性(b)自遮挡诱导对称性(c)闭塞引起的对称性图2:姿势模糊混合合成数据,训练还依赖于姿态注释的传感器数据。此外,该方法不能免疫对称性,因为损失可以由模糊的对象视图,似乎相同,但具有相反的方向。Baltnas等人[1]通过在描述符和姿态距离之间强制执行propor-onality来扩展这项工作他们承认的问题,对象的对称性,通过加权的姿势距离损失与深度差的对象在所考虑的姿势。这种启发式方法提高了关于对称对象的准确性[40]。我们的工作也是基于学习描述符的,但是我们训练了自监督增强自编码器(AAE),使得学习过程本身独立于任何固定的SO(3)表示。这意味着描述符仅基于对象视图的外观来学习,因此固有地考虑对称歧义。只有在训练之后,才能将3D方向映射到描述符。此外,与[1,40]不同的是,我们可以避免使用真实的标记数据进行训练。Kehl等人。[18]在来自LineMOD数据集的随机RGB-D场景补丁上训练自动编码器架构[10]。在测试时,比较来自场景和对象块的描述符以找到6D姿态。由于该方法需要评估大量补丁,因此每次预测需要大约670 ms此外,使用局部补丁意味着忽略对象特征之间的整体关系,这在纹理很少的情况下至关重要。相反,我们在整体对象视图上进行训练,并显式地学习域不变性。3方法在下文中,我们主要关注基于增强自动编码器(AAE)的新的3D方向估计技术。3.1Autoencoders由Hinton等人[31]引入的原始自动编码器(AE)是一种用于高维数据(如图像、音频或6M. Sundermeyer,Z.Marton,M.Durner,M.布鲁克河Triebel2π深入它由一个编码器Φ和一个解码器Φ组成,两者都是任意可学习的函数逼近器,通常是神经网络。训练目标是在通过低维瓶颈后重建输入x∈RD,称为潜在表示z∈Rn,nD:x=(Φ)(x)=(z)(1)每个样本的损失只是像素级L2距离的总和Σ2=i∈Dx(i)−x例如,所得到的潜在空间可以用于无监督聚类。去噪自动编码器[39]有一个修改的训练过程。这里,在重建目标保持干净的同时,将人工随机噪声应用于输入图像x∈R_D训练后的模型可用于重建去噪后的测试图像。但是潜在表征是如何受到影响的呢?假设1:去噪AE产生对噪声不变的潜在表示,因为它有助于去噪图像的重建。我们将证明,这种训练策略实际上不仅对噪声而且对各种不同的输入增强都具有不变性。最后,它使我们能够弥合模拟数 据 和真实数据之间的域差距。3.2增强型自动编码器AAE背后的动机是控制潜在表征编码的内容以及忽略的属性。我们应用随机增广f augm(. )到输入图像x∈ RD,针对该输入图像,编码将变得不变。重建目标保持eq。(2)但eq.(1)成为x=(Φfaugm)(x)=(Φ)(x′)=(z′)(3)为了证明假设1适用于几何变换,我们学习了以不同尺度、平面内平移和旋转描绘2D正方形的二进制图像的潜在表示我们的目标是在二维潜在空间z∈R2中只对平面内旋转r∈[0,2π]进行编码,而与尺度或平移无关。图图3描绘了在训练类似于图5中的模型的基于CNN的AE架构之后的结果。可以观察到,在固定尺度和平移(1)或随机尺度和平移(2)下重建正方形时训练的AE并不清楚地单独编码旋转,但对其他潜在因素也很相反,AAE(3)的编码变得对平移和缩放不变,使得具有重合方向的所有正方形被映射到相同的代码。此外,潜在的表示更加平滑,潜在的维度模仿了移位的正弦和余弦函数。频率为f =4时,原因是广场有两个π垂直对称轴,即旋转后2 广场似乎一样的这种基于外观表示方向的属性对象而不是固定的参数化对于避免在教导3D对象取向时由于对称性而引起的歧义是有价值的用于6D物体检测的增强型自动编码器7(a) Xs=1。0,txy =0。0,r∈[0,2π]10。50-0。5−1090180 270 36010。50-0。5−1090180270 360(1) 自动编码器(a)−→(a)(b) Xs=0。6,txy=0。0,r∈[0, 2π]10。50-0。5−1090180 270 36010。50-0。5−1090180270 360(2) 自动编码器(d)−→(d)(c) Xs=1。0,txy<$U(−1,1),r∈[0,2π]10。50-0。5−1090180 270 360旋转角度[deg]10。50-0。5−1090180270 360旋转角度[deg](d) XsU(0. 5,1),txy<$U(−1,1),r∈[0,2π](3) 增强型自动编码器(d)−→(a)图3:左:来自四个分布(a,b,c和d)的64x64正方形,由用于训练和测试的尺度和平移(txy )区分[24]。右:在训练普通AE(1)、(2)和AAE(3)以重建相同方向的正方形之后,分布(a)、(b)或(c)的所有旋转(r)的归一化潜在维度z1和z23.3从合成对象视图我们的玩具问题表明,我们可以使用几何增强技术显式地学习对象平面内旋转应用相同的几何输入增强,我们可以从3D对象模型(CAD或3D重建)编码视图的整个SO(3)空间,同时对不准确的对象检测具有鲁棒性然而,编码器将仍然不能从真实RGB传感器中关联图像裁剪,因为(1)3D模型和真实对象不同,(2)模拟和真实照明条件不同,(3)网络不能从来自RGB的裁剪中区分并且不能从来自RGB的裁剪中区分。我们在AAE框架内提出了一种域随机化(DR)技术,以使编码对无关紧要的环境和传感器变化保持不变,而不是试图在仿真中模仿特定真实传感器记录的每个细节目标是训练的编码器将与真实相机图像的差异视为另一个不相关的变化。因此,在保持重建目标干净的同时,我们随机地对输入训练视图应用额外的增强:(1)使用随机灯光位置和范围进行渲染Z1Z1Z1Z2Z2Z28M. Sundermeyer,Z.Marton,M.Durner,M.布鲁克河Triebel(a)(b)(c)图4:AAE的训练过程; a)均匀采样的SO(3)对象视图的重建目标批次x; b)图像中的几何和颜色增强;c)重建目标批次x30000个图像圆顶漫反射和镜面反射(OpenGL中的简单Phong模型[27](2)从Pascal VOC数据集插入随机背景图像[6],(3)改变图像对比度,亮度,高斯模糊和颜色失真,(4)使用随机对象掩码或黑色正方形应用遮挡图图4描绘了用于来自T-LESS [15]的对象5的合成视图的示例性训练过程。3.4网络架构和培训详情在我们的实验中使用的卷积自动编码器架构如图所示。5. 我们使用自举的逐像素L2损失,其仅在具有最大误差的像素上计算(每图像自举因子b=4)。因此,更精细的细节被重建,并且训练不会收敛到局部最小值。使用OpenGL,我们渲染20000视图的每个对象均匀随机的3D方向和恒定的距离沿相机轴(700毫米)。生成的图像被二次裁剪并调整为128× 128× 3,如图所第四章除了随机照明渲染之外,所有几何和颜色输入增强都在训练期间以均匀的随机强度在线应用,参数在补充中找到。我们使用Adam [19]优化器,学习率为2× 10−4,Xavier初始化[7],批量大小= 64,30000次迭代,在单个Nvidia Geforce GTX1080上需要104小时3.5码本创建和测试程序经过训练,AAE能够从真实场景作物中提取3D对象许多不同的相机传感器(图8)。解码器重构的清晰度和方向是编码质量的指标为了从测试场景裁剪中确定3D对象方向,我们创建了一个码本(图6(顶部)):用于6D物体检测的增强型自动编码器9图5:具有遮挡测试输入的1) 从一个完整的视球(基于一个精致的二十面体[8])2) 以固定间隔在平面内旋转每个视图,以覆盖整个SO(3)3) 通过为所有结果图像生成潜在代码z∈R128并为其相应的旋转分配Rcam2obj∈R3x3来在测试时,首先在RGB场景中检测所考虑的对象。该区域被二次裁剪并调整大小以匹配编码器输入大小。在编码之后,我们计算测试代码ztest∈R128与来自码本的所有代码zi∈R128因为我ziz检验=阿齐兹-阿齐兹试验(四)在k-最近邻(kNN)搜索中确定最高相似性,并且来自码本的对应旋转矩阵{RkNN}被返回作为3D对象取向的估计。我们使用余弦相似性是因为(1)即使对于大型码本,它也可以在单个GPU上非常有效地计算。在我们的实验中,我们有2562个等距视点×36个面内旋转=92232个条目. (2)我们观察到,大概是由于旋转的循环性质,缩放潜在测试代码不会改变解码器重建的对象方向(图11)。7)。3.6扩展到6D对象检测训练物体探测器。我们使用来自LineMOD和T-LESS的训练数据集中提供的不同视角的黑色背景上的对象记录来微调具有VGG 16基础的SSD [22]我们也训练RetinaNet[20]使用ResNet50主干,速度较慢,但更准确。在场景中以随机方向、比例和平移复制多个对象相应地调整边界至于AAE,黑色背景被Pascal VOC图像取代。在60000个场景的训练过程中,我们应用了各种颜色和几何增强。10M. Sundermeyer,Z.Marton,M.Durner,M.布鲁克河Triebel0.00.30.50.81.02.5图6:顶部:从离散合成对象视图的编码创建码本;底部:使用来自码本的具有最高余弦相似性的最近邻的对象检测和3D取向估计图7:由因子s∈ [0,2]缩放的测试码z test ∈ R 128 的AAE解码器再现。[5]图 8 : LineMOD ( 左 ) 和 T-LESS(右)场景裁剪的投影距离估计我们估计从相机到对象中心的完整3D平移tpred,类似于[17]。因此,对于码本中的每个合成对象视图,我们保存其2D边界框的对角线长度lsyn , i在测试时,我们计算检测到的边界框diagonalltest与对应的码本diagonallsyn,maxcos之间的比率,即在类似的取向上。针孔相机模型产生距离估计tpred,zt=t×l同步,最大cos ×f检验(五)普雷德河syn,zl供试f同步其中合成绘制距离tsyn,z和测试传感器和合成视图的焦距ftest,fsyn。它遵循.Σtpred,xtpred,y=tpred,zf检验.Σ(bbcent,test,x-ptest,x)−(bbcent,syn,x-psyn,x)(bbcent,test,y-ptest,y)−(bbcent,syn,y-psyn,y)(六)具有主点ptest、psyn和边界框中心bbcent、test、bbcent、syn。与[17]相比,我们可以预测不同测试intrinsic的3D翻译ICP细化。可选地,使用标准ICP方法[41]对深度数据进行细化,在CPU上花费 200ms详情补充。用于6D物体检测的增强型自动编码器11表1:RGB流水线块4CPU GPUSSD-17ms编码器-1.5ms余弦相似度2.5ms1.3ms 最 近 邻 0.3ms3.2ms投影距离0.4ms-24ms表2:单对象姿态估计运行时w/o细化FPS方法[38]第三十八章:一个女人2Brachmann等人[4] 2Kehl等人[18]第二章[28]第二十八话SSD6D [17] 12我们的42Tekin等人[35]第五十章推理时间具有VGG16基和31个类的SSD加上码本大小为92232 × 128的AAE(图5)产生表1中描述的平均推理时间。 我们的 结论是 ,基于RGB的管道是实时的能力,Nvidia GTX 1080上的42Hz。这使得增强现实和机器人应用成为可能,并为跟踪算法留下了空间。多个编码器和相应的码本适合GPU内存,使多对象姿态估计可行。4评价我们在T-LESS [15]和LineMOD [10]数据集上评估了AAE和整个6D检测管道。示例序列在补充中找到。4.1测试条件很少有基于RGB的姿态估计方法(例如,[17,37])仅依赖于3D模型信息。大多数方法使用真实的姿势注释数据,甚至经常在相同的场景上进行训练和测试(例如,在稍微不同的视点)[40,1,4]。通常的做法是忽略平面内旋转或仅考虑数据集中出现的对象姿势[28,40],这也限制了适用性。对称对象视图通常单独处理[28,1]或忽略[40]。SIXD挑战[14]试图通过禁止使用测试场景像素来对6D定位算法进行公平比较。我们遵循这些严格的评估准则,但处理更难的6D检测问题,不知道场景中存在哪些所考虑的对象。这在T-LESS数据集中尤其困难,因为对象非常相似。4.2度量可见表面离散(errvsd)[16]是一个模糊不变的姿态误差函数,由估计的和地面真实可见物体深度表面之间的距离确定。在SIXD挑战中,我们报告了在err vsd 0时正确的6D对象姿势的回忆<。3,公差τ=20mm,物体可见度>10%虽然模型点的平均距离12M. Sundermeyer,Z.Marton,M.Durner,M.布鲁克河Triebel表3:不同测试探头颜色增强的消融研究。对象5,所有场景,T-LESS [15]。括号内为三次运行的标准差Train RGB Test RGBdyn. 光加对比度倍增倒置AUCvsd3D重建Primesense✓0.472(±0.013)0.611(±0.030)0.825(±0.015)0.876(±0.019)0.877(±0.005)0.861(±0.014)PrimesensePrimesense0.890(±0.003)3D重建Kinect✓0.461(±0.022)0.580(±0.014)0.701(±0.046)0.855(±0.016)0.897(±0.008)0.903(±0.016)KinectKinect0.917(±0.007)(a) 潜在空间大小的影响,标准差为红色(b) CAD模型(下)与纹理3D重建(上)图9:在T-LESS中场景2的所有504个Kinect RGB视图上测试对象5(ADD)[11])可以处理和处理一个双约束,我们可以按照[ 11]中的协议对LineMOD数据集进行操作(Km = 0. 1)。对于具有对称视图的对象(蛋盒,胶水),[11]计算到最近模型点的平均距离在我们的消融研究中,我们还报告了AUCvsd,你是我的,我是你vs. reecall∫1=recall(err)德尔VSDVSD0VSDVSD4.3消融研究为了单独评估AAE,在本小节中,我们仅从Primesense和Kinect RGB场景裁剪上的T-LESS数据集预测对象5的3D方向表3显示了不同输入增强的影响。可以看出,不同颜色增强的效果是累积的。对于无纹理对象,甚至颜色通道的反转似乎也是有益的,因为它防止了对合成颜色信息的过拟合。此外,在T-LESS中提供了具有随机Pascal VOC背景的真实对象记录的训练,用于6D物体检测的增强型自动编码器13表4:T-LESS:err vsd<0的对象召回。3在所有Primesense测试场景上3对象我们的我们的RGB+深度(ICP)我们的我们的RGB+深度(ICP)Kehl [18]Vidal[38]RGB-D +ICP深度+ICP我们的我们的RGB+深度(ICP)15.6515.798.8722.32-4312.3328.0525.4622.1413.2229.49-4711.2337.3037.0532.6512.4738.26-6913.1146.1544.6118.586.5623.07-6312.7135.30536.4569.3934.8076.10-6966.7090.29623.1561.3220.2467.64-6752.3088.28715.9768.4516.2173.88-7736.5881.75810.8643.1819.7467.02-7922.0582.65919.5967.1236.2178.24-9046.4984.381010.4758.6111.5577.65-6814.3183.12114.3532.526.3135.89-6915.0157.26127.8040.538.1549.30-8231.3473.75133.3029.314.9142.50-5613.6065.01142.8526.124.6130.53-4745.3276.05157.9052.3426.7183.73-5250.0090.561613.0661.6421.7367.42-8136.0970.571741.7077.4664.8486.17-8381.1190.491847.1781.0814.3084.34-8052.6287.471915.9545.4822.4650.54-5550.7582.50202.177.605.2714.75-4737.7553.842119.7738.9817.9340.31-6350.8972.102211.0125.4218.6335.23-7047.6061.74237.9830.2418.6342.52-8535.1854.65244.7449.484.2359.54-7011.2481.342521.9150.0018.7670.89-4837.1288.542610.0457.8512.6266.20-5528.3390.66277.4247.2221.1373.51-6021.8677.632821.7844.8023.0761.20-6942.5867.102915.3353.7126.6573.05-6557.0187.683034.6386.3429.5892.90-8470.4296.45是说14.6746.5118.3557.1435.966.336.79 72.76增强只产生比用合成数据训练稍好的性能。图图9a描绘了不同潜在空间大小对3D姿态估计精度的影响性能在dim= 64时开始饱和在图9b中,我们证明了我们的域随机化策略甚至允许从无纹理的CAD模型泛化。4.46D物体检测首先,我们报告仅RGB的结果,包括2D检测,3D方向估计和投影距离估计。虽然这些结果在视觉上很吸引人,但使用简单的基于云的ICP来改进距离估计,以与最先进的基于深度的方法竞争。表4显示了我们对T-LESS数据集所有场景的6D检测评估,其中包含大量姿势模糊性。我们改进的结果优于Kehl等人[18]最近的局部补丁描述符方法,即使它们只进行6D定位。最先进的技术(在SIXD挑战中的平均准确度方面[14])3由于T-LESS插头(对象19-23)的3D重建缺少引脚,因此我们使用其无纹理CAD模型6D检测-SSD6D检测-视网膜6D定位带GT 2D BB14M. Sundermeyer,Z.Marton,M.Durner,M.布鲁克河Triebel表5:LineMOD:使用不同训练和测试数据的对象召回(ADD [11]指标),结果来自[35]测试数据RGB+深度(ICP)列车数据RGB w/o Real PoseLabelsRGB与Real Pose标签+深度[十七]猿0.003.96-27.921.6220.5565本切维塞0.1820.92-62.081.8064.2580凸轮0.4130.47-40.136.5763.2078可以1.3535.87-48.168.8076.0986猫0.5117.90-45.241.8272.0170司钻2.5823.99-58.663.5141.5873鸭0.004.86-32.827.2332.3866蛋盒8.9081.01-40.069.5898.64百胶0.0045.49-27.080.0296.39百穿孔器0.3017.60-42.442.6349.8849铁8.8632.03-67.074.9763.1178灯8.260.47-39.971.1191.6973电话0.1833.79-35.247.7470.9679是说28.6532.3 43.655.9564.6779来自Vidal等人的[38]通过姿势假设执行耗时的搜索(平均4.9秒/对象)。我们的方法产生了相当的准确性,同时效率更高。表4的右侧部分示出了具有地面实况边界框的结果,该地面实况边界框产生了姿态估计的上限。附录显示了一些失败案例,主要是由于漏诊或严重闭塞。在表5中,我们将我们的方法与最近引入的SSD6D [17]和LineMOD数据集上的其他方法进行了比较。SSD6D也训练3D模型的合成视图,但它们的性能似乎非常依赖于复杂的遮挡感知,投影ICP细化步骤。我们的基本ICP有时会收敛到附近形状相似的物体。在RGB域中,我们的方法优于SSD 6D。5结论我们提出了一种新的自监督训练策略,用于自动编码器架构,该架构能够在各种RGB传感器上进行鲁棒的3D对象方向估计,同时仅在3D模型的合成视图上进行训练通过要求自动编码器恢复几何和颜色输入增强,我们学习了以下表示:(1)专门编码3D对象方向,(2)对于合成和真实RGB图像之间的显著域间隙不变,(3)固有地考虑来自对称对象视图的姿势模糊性围绕这种方法,我们创建了一个用于6D对象检测的实时(42 fps)基于RGB的流水线,特别适用于姿势注释的RGB传感器数据不可用时。确认我们要感谢Ingo Kossyk博士,Dimitri Henkel和Max Denninger进行有益的讨论。我们也感谢审查者提出的有益意见。对象美国[17][35]第二十八届全国政协委员我们的SSD6D用于6D物体检测的增强型自动编码器15引用1. Balntas,V.,Doumanoglou,A.,沙欣角,Sock,J.,Kouskouridas河,Kim,T.K.:用于3D对象姿态估计的姿态引导RGBD特征学习。在:计算机视觉和模式识别(CVPR)的IEEE会议上。pp. 38562. Bousmalis , K. , Irpan , A. , Wohlhart , P. , Bai , Y. , 凯 尔 西 , M. ,Kalakrishnan,M.,唐斯湖Ibarz,J.,Pastor,P.,Konolige,K.,等:利用仿真和局部自适应提高机器人深抓取效率. arXiv预印本arXiv:1709.07857(2017)3. Bousmalis,K.,Silberman,N.,Dohan,D.,Erhan,D.,Krishnan,D.:使用生成对抗网络的无监督像素级域自适应。在:计算机视觉和模式识别(CVPR)的IEEE会议上。卷1,p.第七届(2017年)4. Brachmann,E.,Michel,F.,Krull,A.,Ying Yang,M.,Gumhold,S.,Rother,C.:不确定性驱动的6D姿态估计的对象和场景从一个单一的RGB图像。IEEE计算机视觉和模式识别会议(CVPR)。pp. 33645. Csurka,G.:视觉应用的领域适应:全面调查。arXiv预印本arXiv:1702.05374(2017)6. Everingham,M., 凡古尔湖, 威廉姆斯,C.K.I., Winn,J., Zisserman,A. :PASCALVisualObjectClassesChallenge2012 ( VOC2012 )http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html7. Glorot,X.,Bengio,Y.:了解训练深度前馈神经网络的难度。第十三届人工智能和统计国际会议(AISTATS)。pp. 2498. Hinterstoisser,S.,Benhimane,S.,Lepetit,V.,Fua,P.,Navab,N.:用简单线性分类器同时识别和提取局部斑块单应性。在:英国机器会议(BMVC)的会议记录。pp. 10-1(2008年)9. Hinterstoisser,S.,Cagniart,C.,Ilic,S.,Sturm,P.,Navab,N.,Fua,P.,Lepetit,V.:用于无纹理物体实时检测的梯度响应图。IEEE Transactions onPattern Analysis and Machine Intelligence34(5),87610. Hinterstoisser,S.,Holzer,S.,Cagniart,C.,Ilic,S.,Konolige,K.,Navab,N.,Lep-etit , V. : 多 模 态 模 板 用 于 严 重 杂 乱 场 景 中 无 纹 理 目 标 的 实 时 检 测 。 IEEEInternational Conference on Computer Vision(ICCV)pp. 858-865 IEEE(2011年)11. Hinterstoisser , S. , Lepetit , V. , Ilic , S. , Holzer , S. , Bradski , G. ,Konolige,K.,Navab,N.:基于模型的训练,检测和严重杂乱场景中无纹理3D物体的姿态估计。在:计算机视觉- ACCV 2012 -第11届亚洲计算机视觉会议pp. 548-562. 03 The Dog(2012)12. Hinterstoisser,S.,Lepetit,V.,Rajkumar,N.,Konolige,K.:进一步使用点对特征。在:IEEE欧洲计算机视觉会议(ECCV)的会议记录。pp. 834-848 Springer(2016)13. Hinterstoisser,S.,Lepetit,V.,Wohlhart,P.,Konolige,K.:关于深度学习的预训练图像特征和合成图像。arXiv预印本arXiv:1710.10710(2017)14. Hodan,T.:SIXD挑战赛2017,http://cmp.felk.cvut.cz/sixd/challenge_2017/16M. Sundermeyer,Z.Marton,M.Durner,M.布鲁克河Triebel15. 你好,T. 哈鲁扎,P., Obdrza'le k,S., 妈妈,杰, Lou rak iss,M., Zabulis,X. :T-LESS:用于无纹理对象的6D姿态估计的RGB-D数据集。IEEE计算机视觉应用冬季会议(WACV)(2017)16. 你好,T. 妈妈,杰, Obdrza'le k,S. :OnEvaluationof6DObje c tPoseEstimation.IEEE欧洲计算机视觉会议(ECCV)论文集。pp. 606-619. Springer(2016)17. Kehl,W.,Manhardt,F.,Tombari,F.,Ilic,S.,Navab,N.:SSD-6D:制作RGB-基 于 3D 检 测 和 6D 姿 态 估 计 再 次 伟 大 。IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)。pp. 152118. Kehl,W.,Milletari,F.,Tombari,F.,Ilic,S.,Navab,N.:深度学习局部用 于 3D 对 象 检 测 和 6D 姿 态 估 计 的 RGB-D 补 丁 。 IEEE 欧 洲 计 算 机 视 觉 会 议(ECCV)论文集。pp. 205-220. Springer(2016)19. Kingma,D.,Ba,J.:亚当:一种随机优化方法arXiv预印本1412.6980(2014)20. Lin,T. Y., 再见, 吉尔希奇克,R., 他,K., 我会的,P。:用于检测阻塞的成本。arXiv预印本arXiv:1708.02002(2017)21. Lin,T.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功