神经图匹配网络:少镜头三维动作识别新框架

0 下载量 135 浏览量 更新于2024-06-20 收藏 1.41MB PDF 举报
"这篇论文提出了一种名为神经图匹配(NGM)网络的新框架,用于在只有少量示例的情况下识别三维动作。NGM网络结合了图形生成器和图形匹配度量函数的学习,以应对3D动作识别中的数据效率挑战。在CAD-120和PiGraphs两个数据集上进行的评估显示,这种方法可以显著提升少样本3D动作识别的性能。研究还讨论了深度传感器提供的3D数据和RGB领域的差异,以及将少样本学习应用到3D动作识别中的必要性。" 在当前的深度学习领域,虽然RGB-D数据的获取变得更加便捷,但大量标记的数据仍然匮乏,尤其是在3D动作识别方面。传统的RGB领域的深度学习技术很难直接迁移到这个领域。为了克服这个问题,研究人员开始探索自监督和无监督学习方法,以在没有充分标注数据的情况下学习3D数据表示。然而,这些方法并未充分利用现有的标注3D数据集。 本文的核心贡献是引入了神经图匹配网络(NGM),专门针对3D动作识别的少样本学习问题。NGM网络的设计考虑了3D数据的内在结构,采用图形表示来模块化模型,提高了在少量样本下的学习效率。模型由两部分组成:图形生成器和图形匹配度量函数。两者协同工作,以端到端的方式优化少样本学习目标。通过这种方式,NGM不仅能够学习生成代表3D动作的图形,还能学习如何比较和匹配这些图形,从而识别出新的、之前未见的动作类别。 在CAD-120和PiGraphs这两个3D动作识别数据集上的实验结果显示,NGM网络在识别效果上显著优于传统的基于3D表示的方法。这表明,将图形表示和匹配机制结合起来,对于解决3D空间中的少样本学习问题是非常有效的。然而,将RGB域中成功的少样本学习方法直接应用到3D空间并不理想,因为3D视频的表示与图像(如ImageNet预训练的CNN)的表示不同,这是一个仍在研究中的难题。 这项工作为3D动作识别提供了一个新的视角,强调了在有限的训练数据下学习表示的重要性,并提出了一种可行的解决方案。未来的研究可能进一步探索如何优化NGM网络,以适应更复杂和多样化的3D动作识别场景,以及如何将这种框架推广到其他3D相关的计算机视觉任务中。