没有合适的资源?快使用搜索试试~ 我知道了~
extensively for textured objects, where the objects can be representedby a sparse set of discriminative material pattern and color features, itis still an open research topic for industrial objects, which are texture-less and often symmetric made from the same material. There is anincreasing demand to accurately detect this type of objects, which arecommonly found in industrial manufacturing and production processes,e.g., a robotic vision system requires pick-and-place, parts navigation,and object inspection routines. Knowing the pose of the target object(e.g., spark plugs, nuts, or gears) can facilitate the end effector toprecisely pick up the object. Texture-less objects can only be describedby their global shape features, such as edges and depth cues [1–3].The detection methods based on photometric local color and materialpattern fail for these objects [4,5]. [6] extends [1] method using colorinformation into the dominant orientation templates (DOT) to avoidfalse detections. This method outperforms the original DOT combiningthe color and shape matching scores with logistic regression, andimprove the runtime. However, a limitation is that it cannot distinguishbetween colors with same hues but different in saturations, failing inscenarios where multiple objects have similar colors.0Array 16(2022)1002470文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。0ScienceDirect提供的内容列表0Array0期刊主页:www.elsevier.com/locate/array0用于在混乱场景中定位和姿态估计无纹理物体的半监督学习方法0Gabriel Lugo �,Nasim Hajari,Irene Cheng0加拿大阿尔伯塔大学0文章信息0关键词:图像分析,物体识别,姿态估计0摘要0三维物体识别和六维姿态估计对于工业装配线自动化(如机器人控制的拾取和放置)至关重要和基础。虽然对纹理物体的问题已得到广泛研究,但对于无纹理的工业零件(例如实心圆柱体和中空管),仍然是一个开放的研究课题,它们在许多视角下是对称的,形状相似,导致姿态模糊。此外,工业装配线环境通常是混乱的,捕获的数据是嘈杂的,这使得这项任务更具挑战性。在本文中,我们提出了一种使用工业装配零件的RGB图像和深度图的新颖物体定位和姿态估计技术。我们的分割模型是完全形态学的,无监督的,用于定位从深度图中提取的包含目标物体的感兴趣区域。我们的分割技术在部分遮挡、多个物体和混乱场景中是有效的。我们使用基于模型的方法进行物体识别,该方法基于梯度下降训练的方向梯度直方图(HOG)特征和包含目标物体的感兴趣区域的不变矩。我们自动从工业零件的CAD模型生成合成训练图像。我们使用基于动态时间规整(DTW)算法的轮廓匹配策略来估计一组候选物体的最佳6D姿态。实验结果表明,我们提出的方法在具有挑战性的T-LESS数据集上具有竞争力,并显示出优势,与最先进的方法相比。01. 引言0物体定位和姿态估计是计算机视觉领域中具有挑战性但经常是必不可少的过程。许多应用,如机器人控制的拾取和放置、虚拟现实(VR)、增强现实(AR)和自动驾驶,都严重依赖于物体识别和姿态估计的准确性。这些应用需要一个强大、准确、快速和高效的系统,能够处理动态场景并学习新的物体实例。该系统还应该能够适应和扩展到不同的环境设置。一般来说,物体识别是指在图像中对多个实际物体进行分类。物体识别技术依赖于从感兴趣区域(RoI)提取一组有区别的特征,并将其馈送到先前训练过的模型或计算公式中以识别物体的类别。另一方面,姿态估计算法找到场景中目标物体相对于摄像机视图或参考点的姿态。通常,六自由度(6DoF)变换矩阵描述了刚性物体的姿态,它由三个平移和三个旋转参数组成。因此,它被称为6D姿态估计。尽管对于纹理物体的物体检测已经得到广泛研究,其中物体可以用稀疏的有区别的材料图案和颜色特征来表示,但对于无纹理和通常由相同材料制成的工业物体,仍然是一个开放的研究课题。人们越来越需要准确检测这种类型的物体,这些物体通常在工业制造和生产过程中常见,例如,机器人视觉系统需要拾取和放置、零件导航和物体检查例程。了解目标物体的姿态(例如火花塞、螺母或齿轮)可以帮助末端执行器精确地拾取物体。无纹理物体只能通过它们的全局形状特征来描述,例如边缘和深度线索[1-3]。基于光度的局部颜色和材料图案的检测方法对于这些物体是失败的[4,5]。[6]扩展了[1]的方法,使用颜色信息转换为主导方向模板(DOT),以避免错误检测。该方法通过逻辑回归将颜色和形状匹配得分相结合,提高了运行时间。然而,一个局限性是它不能区分色调相同但饱和度不同的颜色,在多个物体具有相似颜色的情况下会失败。0� 通讯作者。电子邮件地址:lugobust@ualberta.ca(G.Lugo)。0https://doi.org/10.1016/j.array.2022.100247收稿日期:2022年3月18日;修订稿收到日期:2022年8月17日;接受日期:2022年8月20日20Array 16 (2022) 1002470G. Lugo等人0图1.我们提出的物体识别处理流程——从RGB-D输入图像中提取RoI,然后为特征提取和物体类别预测生成每个物体的最小边界框(顶部)。每个物体的CAD模型的360度图像在训练过程中使用(底部)。0一些先前的工作使用单应性矩阵来确定物体的姿态。请注意,这些方法仅适用于分段平面物体,这在图像矫正、图像配准或计算相机运动中很常见。然而,当各种物体靠在一起、被遮挡或缺乏纹理时,单应性方法无法提供令人满意的结果。其他研究人员提出了使用RGB和深度图数据进行目标检测和姿态估计的方法。尽管这些方法通常优于基于光学的方法,深度传感器的捕获范围有限,并且对光照条件和反射表面更为敏感。它们更适用于室内环境。因此,其他研究人员从2D图像中估计6D姿态。他们的许多作品并未使用深度传感器进行室外环境的研究,因为他们认为深度传感器可能会受到不断变化的光照条件的影响。然而,即使光学数据也会受到光照变化和噪声存在的影响。我们的系统主要基于RGB-D数据,因为大多数当前的机器人系统已经具备了这种捕获能力。此外,大多数商业化和现代化的RGB-D传感器在深度方面可以达到0.2到20米的范围,满足了商业机器人手臂的要求,这些手臂通常长度不超过20米。在这些场景下,我们的系统在检测无纹理物体方面实现了更准确和可靠的结果。我们利用深度图来分割物体,并利用RGB图像来确定最佳姿态。实验结果表明,我们的方法在识别无纹理工业物体方面是高效且适用的。我们的处理流程如图1所示,包括以下主要组件:RGB-D图像分割和定位、特征分析、物体类别预测和姿态估计。在这项工作中,与我们之前发表的研究[13]相比,我们有一些新的贡献:0• 我们介绍了一种从CAD模型生成多视角合成图像的策略。•我们介绍了一种基于深度图的非监督聚类过程,该过程不需要训练阶段即可进行物体分割。•我们演示了如何调整不同的HOG特征参数以实现更好的预测和性能。•我们提出了一种使用动态时间规整(DTW)进行物体姿态估计的新的实时策略,该策略是通过目标物体轮廓和最佳先前候选对象之间的匹配来实现的。•我们展示了我们的方法在姿态估计方面比其他作品具有更好的时间性能。02. 相关工作0目标识别和姿态估计是许多需要自动化的应用中的重要组成部分。现有的技术可以归为基于特征/模板和基于学习的方法。三维物体识别的传统方法是通过模板匹配。尽管模板匹配的时间性能不适用于实时应用,但它不需要大量样本,并且可以通过与数据库的比较来识别新的物体。[1]中提出的方法是基于高效的模板匹配。他们使用光学图像来检测物体。[1]中的作者还表明,通过添加深度信息,遮挡可能会变得不那么棘手。他们的特征集包含表面法线梯度和轮廓的方向。这些技术最适用于异质形状的无纹理物体。然而,正如我们之前指出的,工业零件通常是对称的,形状简单且均匀。基于区域的方法在2D图像的物体识别和姿态估计中被广泛使用。[14]中的作者使用主动轮廓将图像分割为背景和前景。他们通过使用多个局部外观模型来估计物体姿态。这些模型可以捕获空间变化,因此对于异质物体效果很好。在[12]中,作者提出了一个从单个RGB图像估计物体的6D姿态的框架。他们的方法通过迭代减少了物体坐标和物体预测的不确定性。为了处理缺失的深度信息,他们计算了深度图上的3D物体坐标分布的近似值。[15]中提出的另一种基于区域的方法通过单个RGB图像的局部颜色直方图估计物体的姿态。如果物体没有颜色或纹理信息,则这种方法无法产生可靠的结果。最近,人工神经网络(ANN)在解决计算机视觉问题方面变得越来越受欢迎。目前的物体检测方法基于边界框、在每个检测到的边界框中重建特征以及高精度分类器。这些方法受到“区域提议”方法和基于区域的卷积神经网络(R-CNNs)的成功的推动。Fast R-CNN和RegionProposal Network(RPN)+FastR-CNN比原始的基于区域的CNNs更有效和准确。尽管它们的优势,这些方法计算成本很高。最近的方法使用预训练网络加速收敛,实现了在物体检测方面显著更好的时间性能。这些方法通常是建立在用于2D物体检测的最先进的架构上,例如Inception或ResNet。使用强大的基线系统,如FasterR-CNN、全卷积网络(FCN)和YOLO9000框架,已经改善了物体检测和语义分割的结果。这些方法在概念上直观,并提供了灵活性和稳健性。它们还提供了快速的训练和推断时间。一种名为MaskR-CNN的新方法通过在现有的分类和边界框回归分支上添加一个预测分割掩模的分支,从而扩展了FasterR-CNN。掩模分支是应用于每个RoI的小型FCN,以像素到像素的方式预测分割掩模。Mask R-CNN易于实现和训练,通过扩展FasterR-CNN平台,有助于实现各种灵活的架构设计。尽管掩模分支提供了快速的系统和实际的实验,基于深度学习的方法的一个主要局限性是需要大量具有代表性的训练样本以实现高精度性能。我们在[13]中介绍了一种在工业应用中识别无纹理物体的自动化方法。在此方法中,我们在2D图像中定位物体后,提取HOG特征来训练物体识别算法。物体姿态是基于使用Fast Point FeatureHistogram(FPFH)的点云匹配过程获得的。尽管我们的结果准确,FPFH的性能时间可能会受到点数的显著影响。30Array 16 (2022) 1002470G. Lugo等人。0图2。用于自动渲染T-LESS数据集中任意对象的3D模型的球形空间视图。在我们的实现中,对象沿着x、y和z轴旋转角度��∈[0,2�],步长为��=10度。(有关本图例中颜色的解释,请参阅本文的网络版本。)0点的数量较多会涉及更多的操作来计算特征,而点的数量较少可能无法保留足够的信息,影响最终的姿态。在本文中,我们对我们最新方法[13]进行了几项改进。在接下来的小节中,我们将更详细地讨论6D姿态估计的最新方法、对称问题和无纹理数据集。02.1. 基于6D姿态学习的方法0最近,有许多方法使用人工神经网络(ANN)进行3D对象识别和6D姿态估计。在[7]中,作者使用RGB-D特征训练了一个卷积神经网络(CNN)模型。深度特征增加了关于每个像素的水平视差、离地高度和与重力的角度的信息。数据增强是学习型模型的一个有用过程,用于创建全面丰富的训练集。例如,[8]中的作者增加了数据以创建用于自主导航的训练集。但是,即使有训练样本,用于6D姿态估计应用的调整可能非常耗时。[4]提出了一种稳健且可扩展的对象检测技术,将CNN与区域提议相结合,以定位和检测对象。许多研究人员修改并使用这个网络来识别和检测用于自动驾驶和对象定位的对象。然而,几乎所有这些网络都严重依赖对象的纹理信息。[28]提出的网络可以处理不规则形状的无纹理对象。但这对于工业零件来说并不适用,因为不同的零件在形状上可能非常相似。[27]提出,与使用CNN分类器框架不同,CNN回归框架更适合于6D姿态估计。原因是姿态空间是连续的,因此姿态估计问题在本质上也是一个连续问题。[10]仅使用RGB图像预测对象的姿态。他们首先分割2D图像以定位感兴趣的对象,然后使用CNN模型预测对象的6D姿态。然而,由于他们没有使用任何深度信息或深度线索,他们无法准确预测完整的6D姿态。最近,提出了一种用于跟踪6D对象姿态的Rao-Blackwellized粒子滤波器,取得了令人鼓舞的结果,但可能会受到严重遮挡的影响,并且每个对象都需要一个单独的自动编码器。02.2. 无纹理物体数据集0近年来,引入了不同的3D对象识别和姿态估计数据集。最近,[30]引入了用于估计无纹理刚性工业零件的6D姿态的公共T-LESS数据集。该数据集包含30个对象,形状和大小相似。其中一些对象是数据集中其他对象的部分。许多作者已经表明,在不同的场景中识别这些对象是具有挑战性的。我们主要关注这个数据集,因为它符合我们识别无纹理工业零件的应用。0图3。第一列:T-LESS数据集中不同输入对象的渲染图像。第二列:应用分水岭分割技术的渲染图像。第三列:在每个分割区域中检测到感兴趣的区域。最后一列:裁剪的感兴趣区域。输出图像用于训练,以便在后期识别对象并估计姿态。0具有挑战性。即使是最先进的技术在不同的场景中也可能失败。我们主要关注这个数据集,因为它符合我们识别无纹理工业零件的应用。03. 提出的方法0在本文中,我们介绍了一种新的方法来解决无纹理物体的目标检测和6D姿态估计问题。无纹理物体的一个主要问题是缺乏许多视觉识别,如颜色和纹理,这增加了问题的难度。此外,工业物体通常具有对称性,导致透视模糊。因此,我们提出了一种结合RGB-D数据和一些稳健技术的方法,有助于更有效地细化最终目标物体的姿态。我们的方法是使用来自每个CAD模型不同角度的渲染图像进行训练的。我们首先使用基于聚类的分割方法在输入图像中检测2D���。对于对象识别阶段,我们应用HOG算法和不变矩来预测输入图像中的对象类。对每个����执行对象的姿态估计,并实现DTW算法从数据库中找到对象的最佳候选姿态。在本节中,我们解释了我们提出的方法的处理流程,并展示了实现我们目标所涉及的不同阶段。03.1. 目标数据库准备0手动标记对象的不同姿态是一项费时费力的工作,并且需要精确的设备来获得准确的测量结果。在每个CAD模型对象的渲染图像上进行训练可能有助于姿态估计结果。该过程能够产生广泛的合成视图、对象类别和每个视图的混淆矩阵作为姿态标签。我们首先创建了一个虚拟场景,其中包括空白背景和均匀强度的环境光和阴影。然后,我们将每个CAD模型放置在场景中心进行进一步处理。3D模型分别沿着x、y和z轴旋转了步长��∈[0,2�],如图2所示,在我们的实现中��=10度。对象与摄像机的距离保持在400毫米。输出图像尺寸为640×480的彩色空间。为了获得每个旋转,我们计算了�������(�, �,�)�。欧拉角��,��,��和相应的渲染图像被存储以供未来的姿态估计。不同对象的训练视图示例如图4(左图)所示。40Array 16 (2022) 1002470G. Lugo等人0图4。左图: T-LESS数据集中五个CAD 3D模型渲染图像的示例。右图: 不同核矩阵大小的高斯模糊滤波器的比较,即3×3、5×5、7×7、9×9和11×11,用于同一对象。顶部行:PrimeSense传感器的原始图像和不同核大小的结果图像。中部行: Kinect传感器的图像。底部行代表我们的滤波图像,看起来更真实。(对于本图例中颜色的解释,请参阅本文的网络版本。)0高斯滤波以增强合成图像在本节中,我们简要讨论了如何在渲染图像上应用高斯滤波以增加合成图像与真实图像的相似性。在图像处理中,高斯模糊滤波器通常用于平滑给定图像I。滤波的动机作为预处理步骤是为了在质量上改善2D图像的表示。从3D模型生成的合成图像通常在语义上与真实RGB图像不同。因此,我们使用高斯滤波器将渲染图像转换为另一种类似的表示。从理论上讲,我们可以对I应用高斯模糊,类似于将2D图像与高斯函数的卷积,如图4所示。根据我们对不同核大小的实验,�=3 生成的结果比较好,而较大的核大小往往会使图像模糊。03D模型滤波图像中的分割为了准备训练数据,我们应用分水岭变换技术[31]来分割RGB图像I�中的目标对象。分水岭是一种基于图像强度相似性对I�中的像素进行分割的形态学技术。它使用I�的灰度值,被解释为地形表面。在灰度值的顺序“洪水”过程中,它将梯度图像分割成分水岭线和集水盆地。分水岭变换的结果以较低的计算成本产生了封闭的对象轮廓,相对于其他更复杂的基于视觉的分割技术。分割后,提取每个分割区域中的边缘特征以唯一地表征每个对象。在实践中,这种传统的变换通常由于数据中的噪声而导致过分割。为了处理过分割,我们使用基于标记的分水岭方法。分水岭变换从标记开始对高程图像进行洪水。然而,有必要对光学图像进行预处理,以确定这些标记的集水盆。标记区域是我们可以明确标记为对象或背景的像素,这些像素位于灰度值直方图的两个极端部分。识别的标记被用于分水岭分割方法。我们应用快速简单的形态学Sobel算子来计算光学图像中梯度的幅度。Sobel滤波器使用两个3×3的卷积核:一个用于水平方向的变化,一个用于垂直方向的变化。这两个卷积核与原始图像进行卷积,以测量导数的近似值。即使背景中的标记分布不均匀,高程图中的障碍足够高,使得这些标记可以淹没整个背景。之后,我们使用数学形态学去除小孔。利用这些区域,我们应用经典的基于标记的分水岭变换来检测对象0在图像中。如图3所示,这种方法以低计算成本提供了良好质量的对象分割。分割后,提取每个分割区域中的特征以唯一地表征每个对象。边缘是无纹理对象的基本属性,使它们在人类视觉感知中易于区分。在图3中,所有对象都是相同颜色但形状不同,导致边缘不同。例如,对象7顶部有三个孔,而对象5和对象12只有1个孔。对象5的边缘是圆形的,而对象12的边缘是尖锐的。这些边缘上的变化是区分不同对象和视角的显著特征。因此,在分割后,我们提取每个ROI中的HOG特征。HOG方法在不同场景和应用下提供了可接受的性能。HOG方法提取图像或模式中边缘的局部方向和幅度直方图,以表示目标的形状。第3.3节更详细地描述了用于目标识别的HOG特征。03.2. 真实场景图像:初始分割和细化0在本节中,我们解释了在真实输入图像中分割对象的步骤,其中场景可能会杂乱。图像分割代表了图像处理中的一个基本和重要步骤,用于理解内容组成。分割算法有助于将图像分割成语义上分离的分区或簇,这些分区或簇属于图像中特定像素分布。虽然分割RGB图像可以提供有用的语义信息,但我们观察到包括深度图可以在处理部分遮挡的无纹理对象时实现更高的感兴趣区域检测准确性。许多基于CNN的架构可以很好地执行这一特定任务,但需要大量的训练图像。由于深度图像不包含纹理信息,因此在杂乱的场景中分割是具有挑战性的。我们需要探索除纹理以外的特征。深度图包含点,每个点都有与传感器的距离值相关联的2D位置。在深度图上,急剧的变化代表边缘或边界,可以使用形态学运算来区分表面。因此,我们使用Sobel算子来检测图像中的边缘。Sobel可以被定义为一个2D算子,使用大小为3×3的两个卷积掩模来测量输入图像上的空间梯度,表示x轴和y轴上的梯度估计。每个掩模依次通过深度图D上的矩形像素区域进行操作。我们使用深度图像D执行分割阶段。我们得到了一个初始的二进制掩模Mi。高对比度的线代表了D上发生急剧变化的区域。然而,Mi包含了围绕AiA的线性间隙。因此,我们对二进制掩模进行膨胀操作以填补其中的空洞;Mi⊕Ma={i∣(M^a)i∩Mi≠�},结构元素Ma是5(1)0数组16(2022)1002470G. Lugo等0图5. 左:输入深度图像。右:使用我们基于聚类的分割步骤计算深度图的结果聚类。(有关本图例中颜色的解释,请参阅本文的网络版本。)0矩阵,标识 M � 中的像素并定义在处理每个像素时使用的邻域。 � M � 是结构元素M �的反射。它去除了与图像边界未连接的所有极小值。在初始分割过程中获得了最终掩模 M � 和 ��� �,如图6所示。为了改进深度图像的初始分割结果,我们使用了K均值聚类,这是一种迭代的无监督学习方法。给定图像 D 上的初始 ��� �,我们可以通过最小化数据与初始化步骤中每个聚类的相关质心之间的平方距离来找到聚类。在我们的情况下,K均值算法将给定的深度图像像素集分类为 k个独立的聚类。K均值算法可以在两个步骤中区分数据。首先,它在图像的不同位置测量 k个质心。然后,每个最接近聚类的点将被视为其一部分。迭代地,该算法在后续步骤中停止,直到质心的变化没有变化,这表明分配给每个聚类的深度图点变得稳定。这些步骤描述如下:首先,初始化聚类 k 及其质心 �。然后,估计每个深度图的欧几里得距离 � = ‖ D ( �, � ) − � k ‖ 。根据 �分配最接近中心的像素。在每次迭代中,像素被分配到聚类,并重新计算每个聚类的新质心。该过程重复进行,直到达到最大迭代次数,或者每个聚类中心的变化小于可容忍的错误值。最后,深度图中的聚类被投影到2D图像上(图5)。K均值算法在深度图上非常稳健,特别是对于背景混乱的场景,因为它不依赖颜色、纹理或像素强度,而是依赖距离。它还能够适应室内不断变化的光照条件。使用这种方法,我们不依赖于像CNN这样的图像分割学习方法。然而,如果我们在整个深度图D上应用K均值,就需要进行后处理,因为深度像素也可能被分配到聚类中,生成噪声区域。噪声可能是由外部因素引起的,比如物体的属性和物理环境。因此,我们使用形态学技术将整个 D 图像分解成多个 ����,可以去除一些噪声。然后K均值被应用作为后续分割过程,以改进遮挡对象的检测。每个检测到的聚类都被处理为一个单独的补丁,目标是区分每个 ��� � ∈ D内的子区域。03.3. 目标检测0分割后,在目标识别任务中,我们将HOG的网格视为特征描述符。HOG特征背后的技术是由McConnel首次提出的[ 32]。该方法在需要目标识别的应用中表现出良好的结果,例如行人检测。HOG相对于其他现有方法提供了更高的性能0用于所述目的的描述符。它测量了与2D图像对应的密集网格中梯度的出现次数。然后生成梯度直方图。无纹理物体的主要特征是边缘或梯度。将图像分成有限数量的局部单元(子块)是检测无纹理物体的梯度方向和边缘方向的合适方法。HOG方法应用了两个基本滤波器,用 � � = [−1 , 0 , 1] 和 � � = [−1 , 0 , 1] � 表示,在 I上测量水平和垂直梯度,分别为 � � = I � � � 和 � � = I � � � 。计算了 I的局部区域中梯度 � ( �, � ) 的大小,并估计了 �的每个像素的相应梯度角值。在(1)中。0�(�,�)=tan−1(��(�,�)0��(�,�)0在每个子块中,基于梯度强度和每个像素的方向确定的直方图特征存储在�(�,�)中,由单元和块的数量描述。我们描述这些参数的功能如下:单元:输入图像最初被划分为像素集c的矩形区域,称为单元大小。每个单元由初始参数定义的固定大小。对于�∈[0,180],该范围被划分为b个梯度方向bin,表示为b×1800b�,b+1×0b�,其中b=0,…,bt−1。0梯度直方图h的结果来自于确定单元加权投票。对于每个像素,�和�根据与两个最近的bin的比率分为两个值。通过为包含像素强度对应的�的每个bin添加�来执行相同的过程。块:另一个重要参数是块大小。每个块包含一组单元c。然后,所有块都重叠并对c����进行归一化,以确保可容忍的对比度归一化和对光照变化和噪声的鲁棒性。然后对图像的每个单元重复直方图计算过程。我们在灰度空间中对每个渲染图像应用HOG方法。输入图像是在分割阶段检测到的标记区域的最小矩形,由向量[��,��,�,�]表示,其中��和��是标记区域的质心坐标,�和�分别是边界框的宽度和高度。然后,边界框中包含的����被调整大小。我们使用不同大小的图像(从60×60像素到150×150像素)来评估HOG算法的最佳值。图7中显示了图像的评估示例。这一步降低了对象识别的计算成本。在我们的实验中,我们比较了不同的单元大小��,维度为�×�∈[2,16],以找到保持有区别的HOG(图7)的最佳单元大小,同时降低计算复杂性。根据性能评估,我们使用以下设置作为我们最终的HOG检测器:单元大小为10×10像素。60数组16(2022)1002470G. Lugo等人。0图6。对象分割过程中场景ID3、11、14、17的比较。在深度图像上应用形态学运算以找到����。第一行:每个场景的输入深度图像,包含多个对象。第二行:在x轴和y轴上应用sobel滤波器后的初始二进制掩模M�。第三行:使用多个����获得的最终掩模。底部行:在每个场景上叠加了最终掩模M�的原始彩色图像。(有关本图例中颜色的说明,请参阅本文的网络版本。)0图7。左:HOG图像在对象4上的可视化结果。顶部行:使用初始HOG参数的结果图像,单元大小�=[2×2,4×4,6×6,8×8]和bin数�=[2,4,6,8]。中间行:�=[10×10,12×12,14×14,16×16],�=[10,12,14,16]。底部行:�=[18×18,20×20,22×22,24×24],�=[18,20,22,24]。右:性能时间(x轴)vsHOG描述符参数:(单元大小[2-20](左y轴)和bin=[2-20](右y轴)),应用于120×120像素的图像样本(对象4)。特征向量大小(x轴)vsHOG描述符参数:(单元大小[2-20](左y轴)和bin=[2-20](右y轴)),应用于对象4。0八个方向bin和一个块归一化。我们使用的其他特征是不变矩,这一直是对象识别的经典方法。这些不变矩首次由胡[33]在模式识别社区中提出,他利用代数不变量理论的结果,并推导出了2D空间中对象旋转的七个重要矩不变量。0二维(�+�)阶矩在(2)中描述。0��� = 0−∞∫0−∞ ����I(�,�)����(2)0对应图像 I(�,�) 在 ����中,如果图像由分段连续有界函数表示,则所有阶的矩存在。矩序列 ��� 由 I(�,�)唯一确定;反之, I(�,�) 也由矩序列 ���唯一确定。这些特征可以使用中心矩找到,其定义如下:0��� = 0−∞∫0−∞ (� - ��)�(� - ��)�I(�,�)����(3)0其中 �� = �10�00和 �� = �01�00,代表 I(�,�) 的质心。计算质心矩 ���使用图像的质心,其等同于 ���,其中心已经移动以与其质心重合。规范化中心矩的定义如下:0如下:0��� = ��� ��00,� = (� + � + 2)∕2,� + � = 2, 3, …, (4)0基于规范化中心矩,七个不变矩为:0�1 = �20 + �02 �2 = (�20 - �02)2 + 4�211 �3 = (�30 -3�12)2 + (3�21 - �03)20�4 = (�30 + 3�12)2 + (3�21 + �03)20�5 = (�30 - 3�12)(�30 + �12)[(�30 + �12)2 - 3(�21 + �03)2] + 3(�21 - �03)(�21 +�03)[3(�30 + �12)2 - (�21 + �03)2] �6 = (�20 - �02)[(�30 + �12)2 - (�21 + �03)2] +4�11(�30 + �12)(�21 + �03) �7 = (3�21 - �03)(�30 + �12)[(�30 + �12)2 - 3(�21 + �03)2]- (�30 - 3�12)(�21 + �03)[3(�30 + �12)2 - (�21 + �03)2]0这些不变矩具有有用的特性,包括在图像缩放、平移和旋转下具有鲁棒性。HOG特征和不变矩的组合形成了我们用于目标分类的特征向量。这种组合允许提取 ����的内部和外部信息。Hu矩捕捉了 ����的外部形状特征,部分有助于克服目标识别中不同视角的问题。这些不变矩不受变换的影响。例如,假设图7中的物体4在一个轴上顺时针或逆时针旋转10、45或90度,那么这些变换对应的矩值非常相似。另一种情况,两个不同类别的对象可能看起来相似,比如对象1和对象2,都从顶部视角具有相似性。在这种情况下,这两个对象的HU矩值也可能相似,这可能不利于训练阶段。这就是为什么这些矩与HOG特征结合在一起,HOG方法描述了物体形状内部的信息,因此用于训练的最终特征向量在物体和视角之间是不同的。在目标区域计算完Hu矩后,这些值与HOG特征向量(cell尺寸为10×10像素,8个方向bin和块归一化)连接成最终的复合特征向量,用于每个 ���� 。这些向量是离线获取的,以便在模型分类训练期间进行后续使用。70数组16(2022)1002470G. Lugo等0图8。比较使用不同初始参数的方向梯度直方图(HOG)方法在目标识别中训练分类器的准确性。第一列:通过调整HOG参数来显示目标识别的不同分类器的准确性。第二列:显示不同图像尺度�=[50,100,200]和bin数�=[2-5]时,不同cell尺寸[2-18]与计算时间(秒)的关系。0图7中的物体4以一个轴为中心顺时针或逆时针旋转10、45或90度,那么这些变换对应的矩值非常相似。另一种情况,两个不同类别的对象可能看起来相似,比如对象1和对象2,都从顶部视角具有相似性。在这种情况下,这两个对象的HU矩值也可能相似,这可能不利于训练阶段。这就是为什么这些矩与HOG特征结合在一起,HOG方法描述了物体形状内部的信息,因此用于训练的最终特征向量在物体和视角之间是不同的。在目标区域计算完Hu矩后,这些值与HOG特征向量(cell尺寸为10×10像素,8个方向bin和块归一化)连接成最终的复合特征向量,用于每个 ���� 。这些向量是离线获取的,以便在模型分类训练期间进行后续使用。03.4. 物体类别预测0在本节中,我们讨论了系统中分类方法的训练。我们使用小批量梯度下降来训练不同的分类模型。在我们的情况下,包含HOG+不变矩的特征向量提供了训练样本。在小批量梯度下降中,每个训练周期计算 �= P ∕ A 次迭代。这里 A 代表小批量的大小, P为总训练数据量。因此,权重参数 � 通过优化误差函数的近似值 �而得到,该误差函数定义如下:0� [ � ( � )] = 0A0� =( � −1) A +1 � ( � ; � � ) (5)0其中 � ∈ 1 , … , � 为迭代索引, � � 为第 �个训练样本。在每次迭代中,使用梯度下降更新规则调整权重,即 � � +1 = � � − � [ � ( � � )],其中 � 为学习率, � � � � 代表损失函数的梯度。这些模型的输出给出�个特征的概率估计向量,具有最大值的索引对应于类别预测。这个类别预测用于计算物体的姿态估计。0估计物体的姿态是非常具有挑战性的,因为相机对物体可能有成千上万种不同的视角。当物体在某些轴上具有对称性,或者不同的物体显示出相同的视角而无法加以区分时,情况变得更加具有挑战性。03.5. 3D姿态估计0我们的目标是基于物体的二进制掩模的轮廓来估计物体的三维姿态。我们假设对于物体的每个方向,都可以从图像中的一个参考点(例如物体分割区域的质心)得到表示物体姿态的轮廓。确定物体的二进制掩模对于更准确地估计最接近的姿态是很重要的。然而,定义最终估计的另一个重要因素是匹配算法。我们创建了一个数据库,其中包含了每个物体不同视角图像的二进制掩模的轮廓,标记有它们在 x、y和 z 轴上的相应方向的度数。我们围绕每个轴从 0 到 360度生成了不同角度的视角,步长为 10度,而不是每个角度之间都生成样本,以减少总样本数。这种策略涵盖了物体在三维空间中可能具有的不同方向的大部分情况。我们还确定了在同一轴上具有对称性的物体的特定范围,以避免不同旋转角度下具有相同轮廓的情况。两个形状 f1 和f2 之间的空间相似性可以定义为从 f1 到 f2 或从 f2 到 f1的特征匹配的最小成本。匹配成本与外观、斜率、角点和空间位置的不相似程度有关。通常,形状匹配技术和距离度量(例如结构相似性指数测度(SSIM)、峰值信噪比(PSNR)或迭代最小均方误差(IMMSE))需要计算两个形状上的特征之间的最小成本对应。我们的目标是检测物体的方向。因此,该技术必须对旋转具有变体性,但对缩放具有不变性。为此,我们实现了 marching cubes算法的修改版本,该算法通常用于从 3D医学数据显示三角形表面模型。我们使用该算法的二维技术,通过生成一组体素来近似工业物体的结构。首先,创建方格以覆盖图像。然后,直线的交点表示该特定位置的结构。这使我们能够确定哪些点属于该区域。在对所有点执行此过程后,算法的 marching squares 生成了一个复杂二维结构的边界表示,如图9(左)所示。我们假设物体在每个方向的轮廓的起始点位于与其边界框和分割区域的极端像素直接相关的特定方向和位置。我们的目标是在我们的数据库中找到从渲染图像获得的轮廓的匹配项。使用边界框的质心作为Array 16 (2022) 1002478G. Lugo et al.⎧⎪0图9.我们确定与由点��和��形成的线垂直的线����。结果线����和轮廓上的点的交点代表初始索引。所有其他点都按顺时针方向编号。最后,获取质心��和轮廓的每个点之间的距离,用于匹配过程。0图10.左:我们姿势估计过程的流水线。RGB-D输入图像最初被分割成多个����在定位阶段。我们使用对象的边界框来预测对象类别。然后,提取二进制掩模的轮廓以计算边界框的质心与沿轮廓的每个像素之间的距离。使用DTW算法对我们的数据库对象进行匹配以找到最佳匹配。0作为参考,我们继续确定对象的轮廓。轮廓的起始像素自动在边界框的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功