多路径学习：跨域对象姿态估计的新方法

PDF格式 | 1.08MB | 更新于2025-01-16 | 59 浏览量 | 举报

"基于多路径学习的跨域对象姿态估计" 本文主要探讨了一种创新的深度学习方法，用于跨域对象姿态估计。该方法利用多路径学习策略，旨在解决3D对象姿态估计中的实例和类别泛化问题。作者提出了一种可扩展的框架，其核心是一个单编码器-多解码器网络结构。这种结构允许在多个3D模型的模拟RGB视图上进行训练，以学习对象视图的编码。在传统的对象姿态估计中，模板匹配和特征提取方法占据主导地位，但这些方法对传感器数据的变化和复杂场景可能不够灵活。相比之下，深度学习方法如本文所述，通过学习表示性的特征，提高了对噪声、干扰和环境变化的鲁棒性。本文的关键创新是"多路径学习"，其中编码器被所有对象共享，而每个解码器专门负责重建单个对象的视图。这样设计的好处在于，编码器可以学习到一种通用的视点敏感的特征表示，无需在潜在空间中严格区分不同实例。这有助于网络在处理未见过的对象时也能产生有效的编码，从而实现从合成数据到真实世界的推广。为了克服姿态注释数据的局限性和漫长的训练过程，研究者们已经开始使用3D模型渲染的合成数据进行训练。尽管这种方法降低了对注释的需求，但适应新对象仍然具有挑战性。文章中提到的多路径学习方法通过在多个对象上联合训练，能够在不同数据集、模型类型和实例之间展现出良好的泛化能力。在实验部分，该方法在ModelNet40和T-LESS数据集上进行了验证，结果显示了在6D对象检测任务上的先进性能，同时保持了较低的运行时间，优于现有的竞争方法。这些成就表明，多路径学习策略对于跨域对象姿态估计是一种有效且具有潜力的技术，可以提高现有深度学习方法的灵活性和泛化能力。此外，作者还提供了开源代码，使得其他研究者能够复现和进一步发展这项工作。这为研究社区提供了一个强大的工具，以促进对象姿态估计领域的持续进步。

13918

训练对象，使得在新对象上进行测试立即成为可能。

当在几个实例上训练时，像[38，37]这样的当前姿

势网络同时对对象进行分类，这可能会阻碍它们泛化

到未经训练的对象的能力Wohlhart等人[42] Balntaset al.

[1]是第一个报告应用于未经训练的对象的深度姿态描

述符的定性结果然而，它们的描述符由方向和对象类

来区分。因此，如果一个未训练的对象从任何角度看

都与一个训练过的对象具有相似的外观，则相应的描

述符将被破坏。与[42，1]不同，我们的多路径训练策

略不会在编码空间中分离不同的对象实例，而是允许

它们共享相同的潜在特征。

类别级姿态估计[33，3，36]可用于从给定类别中概

括到新对象。它假定类别中的所有实例具有相似的形

状，并在关节坐标系中对齐。然而，这些假设在实际

中往往不成立，语义和几何相似性往往不一致。重新

对齐的坐标框架可能是不明确的，因为实例的对称性

可能在类别内变化。因此，在这项工作中，我们不会

明确地强制语义类别内的对齐，而是将此决定留给自

我监督的基于外观的训练。

在大型数据集上训练的CNN经常用于为下游任务提

取低级特征，例如。图像检索[13]或聚类[9]。预测未

知物体的3D方向的一个简单的基线是比较在ImageNet

或COCO等大型数据集上训练的网络的特征图。毫不

奇怪，这个基线根本不起作用，因为（1）早期特征对

反式-

提取姿势敏感特征并检查对新实例的概括（第2节）。

3.3）。不同的应用场景，narios取决于测试条件进行

了讨论（第2节）。第3.4段）。最后，提出了一种用

于姿态优化的迭代渲染推理优化（第二节）。3.5）。

3.1.

隐式对象姿态表示

Sundermeyer等人[34]已经示出了可以使用编码器-解

码器架构以自监督方式学习隐式姿态表示。这种所谓

的AAE允许从任意对象视图编码3D方向，从合成训练

数据推广到各种测试传感器，并固有地处理对称对象

视图。AAE被训练为重建单个对象的渲染视图。为了

专门编码3D方向，输入被随机平移和缩放，而重建目

标保持不变。为了对来自真实图像的对象视图进行编

码，输入视图的背景被随机化，在各个位置处产生遮

挡，并且产生各种照明和颜色增强。作为这种

域随机

化

的结果，网络学习表示真实对象视图的对象

使用潜在代码Z来轻松地进行。

具体地，输入样本x∈

被

（. ），并由编码器m映

射到潜在码 z

∈Rm

，

其中 m

≠

d 。训练解码器 Λ ：

→R

以将代码映射回目标X。

（

））

（

′

））

（

）

（

）

Λ和Λ都是神经网络，它们的权值参数都是经过训练

的，使得Λ

-损失最小，

即

而后面的图层丢失了几何信息（2）合成和真实对象视

图的特征有很大不同

(3)特征图的维数太高，

（

）

i∈B

−

i∈B

−

（

（f（

）

（

）

离散SO（3），而减少技术，如PCA破坏了大量的信

息。

姿态细化方法[29，25]迭代地预测对象的估计视图

和目标视图之间的旋转和平移残差。前者可以泛化到

同一类别的未训练对象，后者甚至可以泛化到新类别

的对象。这些方法预测一个准确的，相对的变换之间

的两个对象的意见，在当地的邻居。相比之下，我们

的方法能够产生局部相对和全局3D方向估计。

方法

我们将首先简要介绍AAE（第二节）。第3.1节）。

在这些结果的基础上，我们提出了一种新的多路径编

码器-解码器架构和训练策略。3.2）。接下来，我们将

研究编码器的能力

其中B包含给定批次的输入样本的索引。在训练之后，

解码器被丢弃，并且来自整个SO（3）的对象视图的

潜在编码被保存在

码本连同它们相应的被分配的方向。在测试时间，对

真实对象裁剪进行编码，并且根据余弦相似性，码本

中的最接近的代码如[35]中所述，可以进一步针对平

移偏移校正这种公式的缺点是必须为每个新对象实例

训练新网络。

当

在

几个对象上联合训练原始AAE即使当通过将独热向量

连接到编码来对解码器进行对象调节时，它也只能重

建很少的实例，并且它降低了编码器增强的能力。

代码对象方向。

剩余10页未读，继续阅读

cpongm

粉丝: 6

多路径学习：跨域对象姿态估计的新方法

多姿态估计

因果表征学习：跨域姿态估计的鲁棒模型

基于对抗学习的跨域声纹识别算法研究

基于多层区块链的跨域认证方案.pdf

js跨域对象类

基于tomcat服务器的跨域处理

基于证书的匿名跨域认证方案

基于Cookie的Session跨域.zip

基于Jquery插件实现跨域异步上传文件功能

基于iframe实现ajax跨域请求 获取网页中ajax数据

最新资源

基于iframe实现ajax跨域请求获取网页中ajax数据