0
Array16(2022)100247
0
G.Lugo等人。
0
图2。用于自动渲染T-LESS数据集中任意对象的3D模型的球形空间视图。在我们的实现中,对象沿着x、y
和z轴旋转角度∈[0,2],步长为=10度。(有关本图例中颜色的解释,请参阅本文的网络版本。)
0
点的数量较多会涉及更多的操作来计算特征,而点的数量较少可能无法保留足够的
信息,影响最终的姿态。在本文中,我们对我们最新方法[13]进行了几项改进。在
接下来的小节中,我们将更详细地讨论6D姿态估计的最新方法、对称问题和无纹
理数据集。
0
2.1.基于6D姿态学习的方法
0
最近,有许多方法使用人工神经网络(ANN)进行3D对象识别和6D姿态估计。在
[7]中,作者使用RGB-D特征训练了一个卷积神经网络(CNN)模型。深度特征增
加了关于每个像素的水平视差、离地高度和与重力的角度的信息。数据增强是学习
型模型的一个有用过程,用于创建全面丰富的训练集。例如,[8]中的作者增加了
数据以创建用于自主导航的训练集。但是,即使有训练样本,用于6D姿态估计应
用的调整可能非常耗时。[4]提出了一种稳健且可扩展的对象检测技术,将CNN与
区域提议相结合,以定位和检测对象。许多研究人员修改并使用这个网络来识别和
检测用于自动驾驶和对象定位的对象。然而,几乎所有这些网络都严重依赖对象的
纹理信息。[28]提出的网络可以处理不规则形状的无纹理对象。但这对于工业零件
来说并不适用,因为不同的零件在形状上可能非常相似。[27]提出,与使用CNN
分类器框架不同,CNN回归框架更适合于6D姿态估计。原因是姿态空间是连续的
,因此姿态估计问题在本质上也是一个连续问题。[10]仅使用RGB图像预测对象的
姿态。他们首先分割2D图像以定位感兴趣的对象,然后使用CNN模型预测对象的
6D姿态。然而,由于他们没有使用任何深度信息或深度线索,他们无法准确预测
完整的6D姿态。最近,提出了一种用于跟踪6D对象姿态的Rao-Blackwellized粒
子滤波器,取得了令人鼓舞的结果,但可能会受到严重遮挡的影响,并且每个对象
都需要一个单独的自动编码器。
0
2.2.无纹理物体数据集
0
近年来,引入了不同的3D对象识别和姿态估计数据集。最近,[30]引入了用于估
计无纹理刚性工业零件的6D姿态的公共T-LESS数据集。该数据集包含30个对象,
形状和大小相似。其中一些对象是数据集中其他对象的部分。许多作者已经表明,
在不同的场景中识别这些对象是具有挑战性的。我们主要关注这个数据集,因为它
符合我们识别无纹理工业零件的应用。
0
图3。第一列:T-LESS数据集中不同输入对象的渲染图像。第二列:应用分水岭分割技术的渲染图像。第
三列:在每个分割区域中检测到感兴趣的区域。最后一列:裁剪的感兴趣区域。输出图像用于训练,以便
在后期识别对象并估计姿态。
0
具有挑战性。即使是最先进的技术在不同的场景中也可能失败。我们主要关注这个
数据集,因为它符合我们识别无纹理工业零件的应用。
0
3.提出的方法
0
在本文中,我们介绍了一种新的方法来解决无纹理物体的目标检测和6D姿态估计
问题。无纹理物体的一个主要问题是缺乏许多视觉识别,如颜色和纹理,这增加了
问题的难度。此外,工业物体通常具有对称性,导致透视模糊。因此,我们提出了
一种结合RGB-D数据和一些稳健技术的方法,有助于更有效地细化最终目标物体
的姿态。我们的方法是使用来自每个CAD模型不同角度的渲染图像进行训练的。
我们首先使用基于聚类的分割方法在输入图像中检测2D
。对于对象识别阶段,我们应用HOG算法和不变矩来预测输入图像中的对象类。
对每个执行对象的姿态估计,并实现DTW算法从数据库中找到对象的最佳候选姿
态。在本节中,我们解释了我们提出的方法的处理流程,并展示了实现我们目标所
涉及的不同阶段。
0
3.1.目标数据库准备
0
手动标记对象的不同姿态是一项费时费力的工作,并且需要精确的设备来获得准确
的测量结果。在每个CAD模型对象的渲染图像上进行训练可能有助于姿态估计结
果。该过程能够产生广泛的合成视图、对象类别和每个视图的混淆矩阵作为姿态标
签。我们首先创建了一个虚拟场景,其中包括空白背景和均匀强度的环境光和阴影
。然后,我们将每个CAD模型放置在场景中心进行进一步处理。3D模型分别沿着x
、y和z轴旋转了步长∈[0,2],如图2所示,在我们的实现中=10度。对象与摄像
机的距离保持在400毫米。输出图像尺寸为640×480的彩色空间。为了获得每个旋
转,我们计算了(,,
)。欧拉角,,和相应的渲染图像被存储以供未来的姿态估计。不同对象的训练视
图示例如图4(左图)所示。