统一框架：多视角多类别目标位姿估计新方法

136 浏览量更新于2024-06-20 收藏 1.12MB PDF 举报

"多视角多类别目标位姿估计的统一框架" 本文主要探讨的是在目标位姿估计领域中，如何建立一个能够处理多种类别物体、适应多视角情况的统一框架。位姿估计，尤其是六自由度（6-DoF）位姿估计，对于机器人操作、导航、增强现实和自动驾驶等众多应用至关重要。当前的方法尽管众多，但在处理大量对象时的可扩展性和准确性仍有待提升。作者提出了一种新的可扩展框架，这个框架结合了深度卷积神经网络（CNN）和三维特殊欧氏群（SE（3））的均匀镶嵌理论，用于同时进行分类和姿态估计。他们设计的网络结构允许网络学习区分姿态的特征，同时解决了单视图估计中的歧义问题，通过一个多视图框架来提供更准确的结果。在这个框架中，他们创新性地采用了“类先验融合”的策略，接收来自检测系统的对象图像和类别标签，以此减少网络规模随对象数量增加而增加的问题。这种方法与以往的每个对象单独训练网络或者每个对象类与一个输出分支关联的方式不同，它只有一个共享的输出流，大大提高了效率和准确性。为了验证框架的有效性，他们在三个大规模基准数据集——YCB-Video、JHUScene-50和ObjectNet-3D上进行了评估，结果显示，他们的方法在性能上达到了或超过了现有的先进方法。这些基准数据集包含了各种复杂背景和大量不同对象的场景，为模型的鲁棒性提供了严格的测试。关键词如“物体姿态估计”、“多视角识别”和“深度学习”揭示了研究的重点。在介绍部分，作者指出，虽然已经有许多方法尝试利用深度CNN的能力来提升位姿估计，但如何处理大量对象和保持高精度仍然是关键挑战。他们的方法通过创新网络设计和多视图融合策略，成功地解决了这些问题。这项工作为多类别、多视角的目标位姿估计提供了一个高效且准确的解决方案，对于推动相关领域的技术进步具有重要意义。

C. Li，J.Bai和G. Hager

˜ ˜ ˜

图2：用于单个视图的多类网络架构;该图示出了在我们的实现中使用的实际层数。我们

注意到，XYZ图表示每个图像像素的归一化3D坐标。如果深度数据不可用，则省略该

流。

计算给定数量的视图的所有子集上的边际概率，当视图和/或对象的数量很大

时，这在计算上是禁止的。

单视点多类位姿估计网络

在本节中，我们介绍了一种用于多类姿态估计的基于CNN的架构（图1）。2）

的情况。输入可以是由任意对象检测算法提供的对象的RGB或RGB-D图像感兴

趣区域（ROI）网络输出表示SE（3）中的6-DoF姿态（R

，

T）的旋转R和平移T

两者

我们首先注意到，相对于相机的单个旋转R对应于不同的角度。

当T变化时，图像域中的对象外观这个问题已经在

[27]

在

1-D

偏航角估计的情况为了创建从

R0I

外观到（

，

）的一致映射，我

们最初校正注释姿态以如下对齐到当前视点我们首先计算朝向

ROI

（

，

）

中心的

方向

：

[（

−

）

，

（

−

）

，

1]，其中（

，

）是

相机中心，

，

是

和

轴的焦距随后，我们通过将

轴[0

，

1]与

对齐来

计算校正的

XYZ

轴

[

，

]

。

，

（

一

）

其中符号

表示两个向量的叉积。最后，我们将（R

，

T）投影到

[

，

]

上并获得校正后的姿态（R

，

T）：R

R和T

T，其中R

[

;

]

。我

们建议读者参考补充材料，了解有关纠正步骤的更多详细信息。当深度可用

时，我们校正

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

统一框架：多视角多类别目标位姿估计新方法

多姿态估计

相机位姿估计1：根据四个特征点估计相机姿态 随文Demo

基于PCA的点云位姿估计与粗拼接，matlab实现

论文研究-基于立体视觉和位姿估计的增强现实多层次虚实遮挡处理方法 .pdf

基于视觉信息的航天器位姿估计迭代算法 (2011年)

电信设备-基于三焦张量和关键帧策略的移动机器人位姿估计方法.zip

多视角声纳目标分类的多核学习框架

存在阵列缺陷时的到达方向估计的统一框架和稀疏贝叶斯视角

论文研究-针对于空间目标的位姿计算 .pdf

多视角相机：点线融合的最小闭合位姿估计方法

最新资源

相机位姿估计1：根据四个特征点估计相机姿态随文Demo