深度逐点PVN3D：6DoF姿态估计的创新关键点网络

PDF格式 | 1.25MB | 更新于2025-01-16 | 121 浏览量 | 举报

PVN3D：深度逐点3D关键点投票网络在6DoF位姿估计中的应用【介绍】本文探讨的是6DoF（六个自由度）对象姿态估计问题，这是计算机视觉领域中的核心任务，因为它对机器人抓取、自动驾驶、增强现实等众多实际应用至关重要。由于光照变化、噪声、遮挡和物体切割等复杂因素，精确的6DoF估计具有高度挑战性。传统的非深度学习方法往往依赖于人工设计的特征匹配，如SIFT或SURF，但这些方法在面对光照变化时表现受限。近期，随着深度学习的兴起，特别是深度神经网络（DNN）的引入，研究者们开始探索如何利用这些技术进行端到端的6DoF估计。早期的工作，如[50，52]，尝试直接通过DNN回归物体的旋转和平移，但这往往难以捕捉到物体的精确结构信息。【方法创新】 PVN3D（Point Voting Network for 3D Pose Estimation）提出了一种新颖的数据驱动策略，不同于直接回归，它采用了关键点检测的方法。首先，网络设计了一个深度Hough投票网络，专门针对RGBD（RGB图像和深度图像）数据，用于高效地检测物体的3D关键点。这种方法是对2D关键点方法的扩展，后者已经在基于RGB的6DoF估计中展现出优异性能。通过深度Hough投票机制，网络能够从每个像素点对选定的关键点进行投票，随后聚集并选择关键点的聚类中心作为预测结果。这种方法有效地结合了刚体物体的几何约束和深度信息，使得网络学习和优化更加容易，同时增强了对复杂场景的鲁棒性。【实验验证】作者们进行了大量实验，旨在证明在6DoF姿态估计任务中，3D关键点检测的有效性和优势。实验结果显示，相比于现有的最先进的方法，PVN3D在多个基准测试中取得了显著的性能提升，特别是在光照变化、遮挡和物体截断等具有挑战性的条件下。【结论与开源资源】这项工作不仅提升了6DoF姿态估计的准确性和鲁棒性，而且展示了深度学习技术在解决这类问题中的潜力。PVN3D的成功案例表明，利用深度关键点检测和几何约束的结合，可以在保持高效的同时处理复杂的视觉任务。所有相关的代码和视频资料已发布在GitHub上，以便于研究者们进一步研究和参考（<https://github.com/ethnhe/PVN3D.git>）。【未来展望与资助背景】这项研究得到了国家重点研究发展计划（2018YFC0831700）的支持，预示着在未来的研究中，深度学习将继续推动6DoF姿态估计技术的发展，为更多实际应用场景提供更为精准和可靠的解决方案。

11634

我

图

2. PVN3D

概述。特征提取模块从

RGBD

图像提取每点特征。它们被馈送到

模块M

、M

和M

中，以分别预测到关键点、中心

点和每个点的语义标签的平移偏移。然后应用

聚类算法来区分具有相同语义标签的不同实例，并且相同实例上的点投票给它们

的目标关键点。最后，将最小二乘拟合算法应用于预测的关键点以估计

6DoF

姿态参数。

该方法

给定RGBD图像，6DoF姿态估计的任务是估计将对

象从其对象世界坐标系变换到相机世界坐标系的刚性

变换这种转换包括一个

三维旋转

R∈SO

（

）和平移

t ∈R

。

3.1.

概述

为了解决这一任务，我们开发了一种基于深度3D

Hough投票网络的新方法，如图2所示。所提出的方法

是一个两阶段的管道与三维关键点检测，其次是姿态

参数拟合模块。更具体地说，以RGBD 图像作为输

入，特征提取模块将用于融合外观-

角特征和几何信息。所学习的特征将被馈送到3D关键

点检测模块

中

它被训练来预测每个点相对于键的偏移量，

通过我们设计的监督损失和我们采用的几个训练细节

来实现

关键点检测模块。如图2所示，利用由特征提取

模块提取的每点特征，3D关键点检测模块

用于检测

每个对象的3D关键点。具体地说，

预测每个点的

欧几里得平移偏移，

ble指向目标关键点。然后，这些可见点与预测的偏移

一起为目标关键点投票然后通过聚类算法收集投票

点，并选择聚类中心作为投票关键点。

我们给一个更深层次的看法

如下。给定一组

可见种子点

{

}

和一组选定关键点

{

}

属于

相同

的对象实例

，我们记为

[

;

]

，

其中

是

坐标，

是

。

特色。我们表示

[

]

，其中

是

关键点的

坐

标。

吸收每个种子的特征

点并为它们生成平移偏移

{

}

i j

点此外，我们还包括一个实例分割

用于多个对象处理的模块，其中语义分割模块

预测

每个点的语义标记。

其中

，

表示从第

个种子点到第

个

关键点的平移偏

移。然后，投票的关键点可以

表示为

。

监督学习

bel

，中心投票模块

预测每个点

偏移到对象中心。通过学习的每点偏移，

对于

，我们应用

损失：

聚类算法[7]用于区分具有相同语义标签和点的不同实

例，

L =

（

(

I）

（1

）

相同的实例为它们的目标关键点投票。最后，将最小

二乘拟合算法应用于预测

关键点

关键点来估计6DoF姿态参数。

3.2.

学习算法

我们的学习算法的目标是训练用于偏移预测的3D关

键点检测模块

以及用于实例级分割的语义分割模块

和中心投票模块

这自然使训练我们的网络多任

务学习，这是

其中

，

是地面实况平移偏移;M是所选择的目标关键点

的总数;N是种子的总数，I是一个指示函数，只有当点

属于实例I

时才等于

1，否则等于0。

实例语义分割模块。为了处理具有多个对象的场

景，先前的方法[50，53，39]利用现有的检测或语义

分割架构来预处理图像并获得ROI（区域

我

剩余10页未读，继续阅读

cpongm

粉丝: 6

深度逐点PVN3D：6DoF姿态估计的创新关键点网络

"PVN3D算法解析：6D位姿估计及深度点云关键点投票网络

逐像素投票网络：增强遮挡与截断场景下的6DoF姿态估计

6DoF对象位姿估计：ZebraPose的精确预测与匹配方法

Python-PVNet用于6DoF姿态估计的像素投票网络

CVPR 2019的“ PVNet：用于6DoF姿势估计的像素级投票网络”的代码-Python开发

matlab如何导出代码-DH3D:用于强大的大规模6DOF重新定位的深度分层3D描述符

基于神经网络6-Dof的3D重建技术.zip

期权matlab代码-object3d:ICRA2017，“语义关键点的6-DoF对象姿势”的代码

Python开发的PVNet：6DoF姿势估计的像素级投票网络

DH3D: 深度分层3D描述符在大规模6DOF定位的应用

最新资源