时空区域图：动作理解的关键模型

108 浏览量更新于2024-06-20 收藏 1.02MB PDF 举报

时空区域图是一种创新的视频表示方法，旨在提升动作理解和识别的精确度，特别是在处理复杂场景和动态对象交互时。由Xiaolong Wang和Abhinav Gupta在卡内基梅隆大学机器人研究所提出，该方法主要集中在两个关键线索上：时间形状动态和功能关系。首先，时空区域图通过捕捉对象在视频帧序列中的动态变化，构建了一个图形结构，其中每个节点代表一个在不同帧中变化的对象区域。这些节点不仅连接相似的对象，反映它们之间的长程依赖性，还捕捉对象间的空间-时间关系，尤其是在交互过程中。这有助于模型理解动作不仅仅是静态形态的转换，而是动态过程中的对象互动。现有的深度学习框架，如基于双流ConvNets的方法，往往受限于单一帧或局部运动向量的分析，无法充分反映对象的形状变化和全局动态。为了克服这个局限，时空区域图采用图卷积网络，能够处理整个视频序列的信息，从而更好地理解动作的复杂性和因果关系。例如，在Charades和Something-Something数据集上的实验结果显示，时空区域图显著提升了模型在复杂环境下的性能，特别在那些需要精细动作识别的任务中，比如字谜游戏中，相对于传统方法，该模型带来了4.4%的明显提升。这表明时空区域图在动作识别领域的潜力和价值，它提供了一种更为全面且有效的表示方式，有助于推动计算机视觉和人工智能的进步。

王小龙和Abhinav Gupta

最近在非局部神经网络中尝试对空间和时间中的成对关系进行建

模[58]。然而，非局部算子应用于特征空间中的每个像素（从低层到

高层），而我们的推理是基于具有对象级特征的图此外，非本地运营

商不处理任何时间排序信息，而这是明确的建模在我们的时空关系。

图形模型。图像和视频中的长程关系通常由图形模型来捕获。一

个流行的方向是使用条件随机场（CRF）[59，60]。在深度学习的背景

下，特别是对于语义分割，CRF模型通常通过执行平均场推理应用于

ConvNets的输出 [61，62，63，64，65，66]。代替使用平均场推断，最

近已经提出了基于神经网络的变体更简单的前馈图[67，68，19，69，

70，71]。在本文中，我们应用了图卷积网络（GCN）[19]，该网络最

初是为自然语言处理中的应用而提出的。我们的GCN是通过堆叠具有

相似性关系和时空关系的多层图卷积来构建的。GCN的输出是每个对

象节点的更新特征，其可以用于执行分类。

我们的工作也与对象线索[72，73，74]和对象图模型[75，76，77，

78]的视频识别有关。例如，提出了Structural-RNN [77]来为视频识别任

务的与这些作品不同，我们的时空图表示不仅编码本地关系，而且编

码跨越空间和时间的任何对对象之间的长程通过使用具有长程关系的

图这种全局图推理框架提供了对现有技术的显著提升。

概述

我们的目标是将视频表示为对象的图形并执行推理用于动作识别。我

们的模型的概述如图2所示。我们的模型将输入作为视频帧的长剪辑（超

过5秒），并将其转发到3D卷积神经网络[8，58]。这个3D ConvNet的输出

是一个维度为T× H× W×

的

特征映射，其中T表示时间维度，H× W表

示空间维度，d表示通道数。

除了提取视频特征外，我们还应用区域建议网络（RPN）[79]来提取

对象边界框（为了简单起见，我们没有在图2中可视化RPN）。给定T个

特征帧中的每一个的边界框，我们应用RoIAlign [80，81]来提取每个边界

框的特征。请注意，RoIAlign将独立应用于每个特征框。每个对象的特

征向量有d个维度（首先对齐到7× 7×d，然后maxpooled到1× 1×d）。我

们将对象数量表示为N，因此特征维度在RoIAlign之后为N×

剩余18页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

时空区域图：动作理解的关键模型

图及其应用

无人机在南极科学研究的应用：进展与展望.docx

复杂气候网络的研究进展

矿业城市土地利用变化研究进展

地理学的研究进展.pptx

分布式水沙耦合模型研究进展.pdf

地基GPS水汽探测若干研究进展.pdf

ASD高光谱遥感环境污染检测研究进展

黄土高原水土流失型非点源污染过程模拟研究进展

视频显著性检测技术研究进展与应用分析

最新资源