神经图匹配网络：少镜头三维动作识别新框架

135 浏览量更新于2024-06-20 收藏 1.41MB PDF 举报

"这篇论文提出了一种名为神经图匹配（NGM）网络的新框架，用于在只有少量示例的情况下识别三维动作。NGM网络结合了图形生成器和图形匹配度量函数的学习，以应对3D动作识别中的数据效率挑战。在CAD-120和PiGraphs两个数据集上进行的评估显示，这种方法可以显著提升少样本3D动作识别的性能。研究还讨论了深度传感器提供的3D数据和RGB领域的差异，以及将少样本学习应用到3D动作识别中的必要性。" 在当前的深度学习领域，虽然RGB-D数据的获取变得更加便捷，但大量标记的数据仍然匮乏，尤其是在3D动作识别方面。传统的RGB领域的深度学习技术很难直接迁移到这个领域。为了克服这个问题，研究人员开始探索自监督和无监督学习方法，以在没有充分标注数据的情况下学习3D数据表示。然而，这些方法并未充分利用现有的标注3D数据集。本文的核心贡献是引入了神经图匹配网络（NGM），专门针对3D动作识别的少样本学习问题。NGM网络的设计考虑了3D数据的内在结构，采用图形表示来模块化模型，提高了在少量样本下的学习效率。模型由两部分组成：图形生成器和图形匹配度量函数。两者协同工作，以端到端的方式优化少样本学习目标。通过这种方式，NGM不仅能够学习生成代表3D动作的图形，还能学习如何比较和匹配这些图形，从而识别出新的、之前未见的动作类别。在CAD-120和PiGraphs这两个3D动作识别数据集上的实验结果显示，NGM网络在识别效果上显著优于传统的基于3D表示的方法。这表明，将图形表示和匹配机制结合起来，对于解决3D空间中的少样本学习问题是非常有效的。然而，将RGB域中成功的少样本学习方法直接应用到3D空间并不理想，因为3D视频的表示与图像（如ImageNet预训练的CNN）的表示不同，这是一个仍在研究中的难题。这项工作为3D动作识别提供了一个新的视角，强调了在有限的训练数据下学习表示的重要性，并提出了一种可行的解决方案。未来的研究可能进一步探索如何优化NGM网络，以适应更复杂和多样化的3D动作识别场景，以及如何将这种框架推广到其他3D相关的计算机视觉任务中。

M. Guo，E. Chou，D.- A. Huang，S.宋，S.杨湖飞飞

通常被馈送到卷积和递归网络的组合中的特征[31已经探索了用于

RGB-D动作识别的部分感知LSTM;然而，重点是节点而不是图形。虽

然大多数3D动作识别方法都是为监督学习而设计的，但针对少数镜

头设置的3D动作识别相对未被探索。

模块化和组合性。模块化方法已被证明是重要的数据效率的视觉理

解。一个例子是视觉问题回答问题[20，21]。我们的工作与组合性有

关，其中一组实体和交互用于描述动作。伊基兹勒等人[34]描述了

一种分解每个身体部位的运动以组成更大的活动描述任务的方法。

Gu等人。[35]概述了一种独特的组合方法，使用动作原语来描述动作

而不是身体部位。其他代表包括：2D场景中的对象和关系的场景图

[36]，以及用于为场景合成建模3D数据的交互图[22]。

图的深度学习。

一些

作品学习了单个大型图上的图节点嵌入

[37-39]。

这类似于在自然语言处理模型中学习的词嵌入（例如， word2vec

[40]）。然而，在这项工作中，我们必须处理代表各种动作视频示例

的多个不同的图形与我们在图处理方面的工作相关的是图神经网络

（GNNs），它能够处理任意图形。GNN已被用于对各种结构数据进

行建模，包括分子指纹、引文网络和知识图[41，42]。GNN也被用于

对图像之间的关系进行建模，以进行少量图像分类

[43]。

问题公式化

3.1

少数学习

我们首先根据以前的作品[14，12]中的定义来制定少次学习问题。与标

准分类问题相比，在少量学习中，类被分成两种类型。令

{

，

…K}

是

所有类的集合，其被分割成集合：

train

，有足够的数据进行少量学习的

训练类，以及

test

，只有少量标记数据的新的或看不见的类。少次学习

中的

次

路分类意味

着

我们有

个新类（

即，

|= N

），并且每个新类具

有

个示例

。

), and each novel class has

examples.最近几次学习方法的

成功[12换句话说，少次学习问题可以被公式化为从

训练中

学习两个输入示

例

和

的

度量函数

（

，

）

，这可以推广到新的类别

测试

，

使得

（

，

）

对于同一类别中的数据点较小，而对于来自不同类别的数据点

较大且距离较远。学习

（

，

）的一种朴素方法直接在C train上应用

监督训练，直接最小化类内距离，同时最大化类间距离。但却

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

神经图匹配网络：少镜头三维动作识别新框架

基于计算机视觉的三维测量技术(文献翻译).doc

从深度图像中检测三维结构的单目图像.zip

计算机视觉中的设备标定和三维图形重构综述.pdf

识别三维CT图像中的解剖位点神经网络有哪些

什么是基于RGB-D数据的三维人脸识别

三维物体识别 三维点云

识别三维CT图像中的解剖位点神经网络

三维人体动作识别一般用什么方法

基于卷积神经网络（CNN）的三维超声图像重建是什么时候提出的

二维神经网络与三维神经网络的优势

最新资源

三维物体识别三维点云