通用RGB图像6D姿态估计算法Gen6D：无模型突破

40 浏览量更新于2024-06-19 收藏 23.5MB PDF 举报

本文主要探讨的是"无模型通用姿态估计器Gen6D：基于RGB图像的物体6自由度姿态估计"。该研究由刘源、温一麟等人合作完成，来自香港大学、浙江大学和腾讯等机构，同时也与德克萨斯农工大学有所合作。姿态估计在三维空间中的物体交互任务中扮演着关键角色，随着各种应用的发展，如机器人技术、游戏和虚拟现实/增强现实，对姿态估计的通用性、灵活性和易用性提出了更高的要求。传统的通用姿态估计器存在局限性，大多需要高质量的物体模型进行训练，或者在测试阶段依赖额外的深度图或物体掩码，这些限制了它们在实际场景中的广泛应用。Gen6D作为一种创新解决方案，旨在打破这些束缚。它由三个组成部分构成：物体检测器、视点选择器和姿态细化器，这三个组件均不需要三维物体模型，使得姿态估计能够在没有预先见过的物体上准确预测其在不同环境中的位置和方向（6个自由度）。这种无模型设计使得Gen6D在面对未知物体时更具普适性和适应性。作者们通过两个无模型数据集（MOPED和GenMOP）验证了Gen6D的性能，结果显示它在这些数据集上达到了最先进的姿态估计效果。此外，尽管与针对特定实例的姿态估计器在LINEMOD数据集上的表现稍逊，但Gen6D仍展现出竞争性的能力。项目页面提供了更多关于该研究的详细信息和成果展示。总结来说，Gen6D的出现填补了姿态估计领域的一项空白，它以RGB图像为基础，实现了通用无模型的6自由度物体姿态估计，为实际应用中的物体交互提供了更为灵活和实用的方法。这种技术的突破性进展对于推动三维视觉技术的发展和应用具有重要意义。

6 Y. Liu, Y. Wen, S. Peng, et al.

BBox size 𝑆

𝑞

…

相机

查询图像

单位球

参考图像卷积核

×××

×××

缩放后的查询图像

热图

尺度图

分数图

上采样

(a)(b)

×

尺度

位置

结果

卷积

CNN或

尺度

图4.(a)检测输出。深度可以从边界框大小Sq

计算得到，它与物体中心的二维投影确定了物体在相机坐标中的中心位置。(b)

检测器的架构。我们使用参考图像的特征对多尺度查询图像的特征进行卷积，得到分数图。分数图

进一步由CNN处理，产生关于物体中心的热图和确定边界框大小的尺度图。

选择器通过选择最相似的参考图像并估计平面旋转（第3.2节）找到初始旋转。初始平移

和旋转用于姿态细化器，以迭代地估计准确的姿态（第3.3节）。

3.1检测

查询图像通常非常大，而物体只占据查询图像的一小部分区域。为了聚焦于物体，我们

应用了一种基于相关性的实例检测器，类似于[1]。我们将检测问题分解为两个部分，即

找到物体中心的二维投影q和估计包围单位球的紧凑正方形边界框大小Sq

。如图4（a）所示，通过d=2˜f/Sq

计算物体中心的深度，其中2是单位球的直径，˜f是通过将主点更改为估计的投影q

而得到的虚拟焦距。投影q和深度d

将确定物体中心的位置，为物体姿态提供初始平移。我们的检测器的设计如图4（b）所

示。我们通过VGG

[51]-11网络在参考图像和查询图像上提取特征图。然后，将所有参考图像的特征图视为

卷积核，与查询图像的特征图进行卷积，得到分数图。为了考虑尺度差异，我们在Ns

个预定义尺度上进行卷积，通过将查询图像调整为不同尺度。基于多尺度分数图，我们

回归出热图和尺度图。我们选择热图上具有最大值的位置作为物体中心的二维投影，并

使用尺度图上相同位置的尺度值s计算边界框大小Sq=Srs，其中Sr

是参考图像的大小。根据检测到的二维投影和尺度，我们计算初始的三维平移并裁剪物

体区域以进行后续处理。更多详细信息请参考-69-。

+v:mala2255获取更多论文

剩余29页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

通用RGB图像6D姿态估计算法Gen6D：无模型突破

220920 - ECCV 2022 - 从单目RGB图像中进行类别级6D物体姿态估计

Python-DenseFusion6D物体姿态估计

低质量渲染图像的目标物体6D姿态估计.pdf

物体姿态估计-基于Pytorch混合表示下的6D物体姿态估计-附项目源码+模型下载-优质项目实战.zip

yolo-6d-summary;物体检测 6D姿态估计 YOLO Vision

实时RGB管道检测与6D姿态估计：基于隐式3D方向学习

6D姿态估计：低质量渲染图像中的目标物体研究

实时RGB图像的6D物体检测与姿态识别：ECCV2018最佳论文

单RGB图像的不确定性驱动6D姿态估计

野外物体的3D姿态估计与模型检索：突破与应用

最新资源