视频交互对象识别：对象级视觉推理的最新进展

24 浏览量更新于2024-06-20 收藏 1.5MB PDF 举报

摘要信息: "对象级视觉推理：基于视频的交互对象识别模型"这篇论文探讨的是视频理解领域的一个前沿问题，即如何开发出一种模型，能够深入理解并精确识别视频中人物与物体之间的交互行为。传统的活动识别通常侧重于检测关键概念，如运动、对象类别和全局场景信息，但文章提出了一个新挑战，即需要模型具备精细区分和详细解析角色与物体之间互动的能力。研究的核心在于设计了一种融合现有对象检测网络的模型，该模型能在对象级别上进行时空推理，从而学习到与对象交互相关的语义级空间交互细节。这种方法的关键创新在于将对象级理解引入到了活动识别中，使得模型能够超越单纯的动作或物体识别，达到更深层次的认知。作者团队在包括Twenty-BNSomething-Something、VLOG和EPICKitchens在内的多个标准数据集上进行了实验，结果显示他们的方法在这些任务上实现了最先进的性能。这表明他们的模型不仅能够准确识别活动，而且能提供关于对象及其与活动相关联的深刻理解。此外，论文还展示了模型学习到的交互的可视化结果，这些视觉展示揭示了模型对于对象类别的识别能力，以及它们如何与不同的活动类别对应起来。这对于视频理解的研究者来说，无疑是一个重要的进展，因为它强调了人机交互在视频分析中的重要性，并为进一步提升视频内容的深层次理解提供了新的可能。关键词：“视频理解”、“人机交互”突出了文章关注的焦点，即通过技术手段模拟人类理解视频中复杂情境的能力，这在人工智能和计算机视觉领域具有深远的影响。这项工作对推动视频理解技术向更智能、更人性化的方向发展起到了推动作用。

Baradel

等人

Simoyan

等人。

[32]提出了一种广泛采用的双流架构用于动作识

别，该架构提取两个不同的流，一个处理原始RGB输入，一个处理预

先计算的光流图像。

在稍窄的设置中，关于视频内容的先验信息可以允许更细粒度的

模型。关节式姿势广泛用于保证有人在场的情况[30]。姿势估计和活

动识别作为一个联合（多任务）问题，最近已经证明可以改善这两项

任务[23]。

注意力模型是一种以通常通用的方式构建深层网络的方法。它们

能够迭代地将注意力集中到数据中的特定部分，而不需要关于部分或

对象位置的先验知识。在活动识别中，近年来它们已经获得了一些牵

引力，无论是对铰接姿势（关节）[33]，特征图单元[31，36]，时间

[42]还是通过可区分作物[3]的原始RGB输入中的部分的软关注。

当原始视频数据被全局输入深度神经网络时，它们专注于提取时

空特征并执行聚合。已经表明，这些技术在具有挑战性的细粒度数据

集上失败，这些数据集需要学习长时间依赖性和人机交互。已经做出

了集中的努力来创建大规模数据集以克服这些问题[12，11，21，

13]。

关系推理。关系推理是一个很好的研究领域，从视觉推理[29]到物

理系统的推理[4]。Battaglia

等人

[4]介绍了一种完全可微的网络物理引

擎，称为交互网络（IN）。IN学习预测几个物理系统，如引力系统，

刚体动力学和质量弹簧系统。它显示了令人印象深刻的结果;然而，

它从虚拟环境中学习，该虚拟环境提供对几乎无限的训练示例的访

问。基于同样的观点，Santoro

等人

[29]引入了关系网络（RN），这是

一种用于深度网络推理的插件模块。 RN 显示了人类水平的

per-

functional

sual

Que

sti

swe

（

QA ）

err

pai

wise“o b jec

t“re l at i on s

然而

，就我们的工作而言，[ 29]中的“对象”不是指

语义上有意义的实体，而是指特征图中的离散单元

。因此，交互

的数量随着特征图分辨率的增加而增加，这使得难以缩放。此外，最

近的一项研究[19]表明，其中一些结果受到数据集偏差的影响，并且

不能很好地推广到数据集设置的微小变化。

在同一行中，最近的工作[35]已经显示出使用来自虚拟环境的训练

示例以无监督方式发现对象及其交互的有希望的结果。在[38]中，注

意力和关系模块在图结构上组合。从不同的角度来看，[25]表明，可

以以数据驱动的方式学习关系推理以进行视觉推理，而无需任何先

验，使用基于条件信息的特征仿射变换的条件批量归一化。在相反的

方法中，强结构先验以复杂注意力机制的形式被学习：在[17]中，外

部存储器模块与对输入图像和文本问题的注意力处理相结合，执行

VQA的迭代推理。

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

视频交互对象识别：对象级视觉推理的最新进展

4D人-对象交互模型：联合事件分割与识别及对象定位

SR-TSL：基于骨架的空间推理与时间堆栈学习在动作识别中的应用

复杂视觉分类：基于规则与相似性的学习比较

基于视觉推理的视频理解.pdf

基于视觉推理的视频理解技术.pptx

基于视觉推理的视频理解技术.pdf

nn-pixel:基于像素的神经网络手写识别实现

深度学习车牌识别系统：基于yolov5与ONNX推理

深度学习中的对象检测：内在交互关系推理网络

模型推理与部署详解：权重保存与交互应用

最新资源