时空能量图的视频关系推理模型

99 浏览量更新于2023-10-19 收藏 13.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1104240使用门控时空能量图进行视频关系推理0Yao-Hung Hubert Tsai†，Santosh Divvala‡，Louis-Philippe Morency†，Ruslan Salakhutdinov†，Ali Farhadi‡�0† 卡内基梅隆大学，‡ Allen人工智能研究所，� 华盛顿大学0https://github.com/yaohungt/GSTEG_CVPR_20190摘要0视觉关系推理是理解视觉概念之间丰富互动的关键任务，但也是具有挑战性的任务。例如，一个关系{人，打开，门}涉及到具体实体{人，门}之间的复杂关系{打开}。尽管现有的研究大多在静态图像的背景下研究了这个问题，但在视频中理解视觉关系的研究却受到了限制。由于视频的时间性质，我们能够对更全面的视觉关系进行建模和推理，例如那些需要多个（时间上的）观察的关系（例如{人，举起，盒子} vs.{人，放下，盒子}），以及通常通过时间相关的关系（例如{女人，付款，钱}后跟{女人，买，咖啡}）。在本文中，我们在一个完全连接的时空图上构建了一个条件随机场，利用了关系实体在空间和时间上的统计依赖性。我们引入了一种新颖的门控能量函数参数化，它可以根据视觉观察学习自适应关系。我们的模型优化计算效率高，其空间计算复杂度通过我们提出的参数化得到了显著的分摊。在基准视频数据集（ImageNetVideo和Charades）上的实验结果表明，在三个标准的关系推理任务（检测、标记和识别）上，我们的性能达到了最先进水平。01. 引言0关系推理是一项具有挑战性的任务，不仅涉及到检测低级实体（主体、客体等），还涉及到识别它们之间的高级交互（动作、大小、部分等）。成功地推理关系不仅使我们能够构建更丰富的问答模型（例如“哪些物体比汽车大？”），还有助于改进图像检索（例如，具有大象拉车的图像）、场景图解析（例如，女人戴头盔）、字幕生成等许多其他视觉推理任务。目前在视觉关系推理领域的大部分研究都集中在静态图像上，对于时间事件之间的相关性的推理需要多个时间观察。0（猴子，向下爬行，汽车）（猴子，向左跳，汽车）0（猴子，向上爬行，汽车）0（猴子，向下爬行，汽车）0（猴子，向上爬行，汽车）0模棱两可0（图像）0（视频）0图1.图像（上）与视频（下）中的视觉关系推理：给定一张单独的图像，无法确定猴子是向上还是向下爬行汽车。使用视频不仅有助于明确识别更丰富的关系，还可以对它们之间的时间相关性进行建模（例如向下爬行和向左跳）。0在静态图像领域，关于推理的研究已经取得了一些令人兴奋和有吸引力的成果[26, 20, 42, 18, 40, 45, 3,17]，但是它缺乏推理关于时间上相关的复杂关系的能力。例如，在图1中，从静态图像中推断出猴子是向下还是向上爬行是模棱两可的。此外，很难建模通常通过时间相关的关系，例如“人进入房间”和“人打开门”。在本文中，我们提出了一种新颖的方法来推理视频中的视觉关系。我们提出的方法通过构建一个完全连接的时空图来共同建模视频中关系的空间和时间结构（见图2）。我们将我们的模型称为门控时空能量图。在我们的图中，每个节点表示一个实体，它们之间的边表示统计关系。与许多先前的工作[15, 43, 27, 4,31]假设预定义或全局学习的成对能量函数不同，我们引入了一个观察门控版本，它允许我们使实体之间的统计依赖性自适应（基于观察结果）。我们对能量函数的自适应参数化有助于我们建模关系的自然多样性。104250S0O0S0P0O0S0P0O0S0P0O0S0P0O0S0P0O0S0P0O0S0P0O0S0P0O0P0门控能量函数输入实例（视频片段中的一部分）0全连接时空图0输出视频关系（猴子，爬下，汽车）（猴子，向左跳，汽车）（猴子，坐在前面，汽车）0时空全连接能量图0S0P0O0S0P0O0图2.我们提出的门控时空能量图的概述。给定一个输入实例（一个视频片段），我们通过对具有节点S（主语）、P（谓语）和O（宾语）的全连接时空图进行推理，预测输出的关系（例如，{猴子，爬下，汽车}等）。与以前假设非门控（即预定义或全局学习）的成对能量函数不同，我们探索了使用门控能量函数（即条件于具体的视觉观察）的方法。最佳观看方式为放大和彩色显示。0视频。例如，人与烹饪之间的依赖关系应该根据观察条件（即位置是厨房还是健身房）而不同。然而，鉴于观察的大状态空间（在视频中），直接维护依赖于观察的统计依赖关系可能在计算上是棘手的[22，35]。为了实现高效的推理和学习，我们开发了一种摊销参数化的新门控成对能量函数，结合了团模板[33，34，21]、神经网络[8，35]和张量分解[14]的思想。我们在两个基准数据集ImageNet Video[24]和Charades[32]上评估了我们的模型。我们的方法在检测、标记和识别三个标准关系推理任务上实现了最先进的性能。我们还研究了我们的模型在零样本设置和从语义先验中学习的效用。02. 相关工作0视频活动识别。视频中的活动概念代表对象之间的相互作用[9，12]或对象与场景之间的相互作用[32]。虽然与我们的关系推理任务相关，但活动识别不需要明确预测所有实体，如主语、宾语、场景及其关系。在活动识别和关系推理中，术语“关系”的含义不同。在视觉关系推理文献中，它指的是不同实体（如对象、动词和场景）之间的相关性，而在活动识别中，它指的是活动预测之间的相关性（即单个实体）或视频片段之间的相关性。例如，[44]提出了一种用于推理多个时间尺度上帧之间的时间“关系”的时态关系网络。[6]在局部卷积特征上引入了时空聚合，以更好地学习视频中的表示。[38]提出了非局部神经网络，用于对特征空间中的每个像素建模成对关系，从低层到高层。该工作被扩展到[39]，用于构建进一步建模的图卷积层。0对象级特征之间的关系。0视觉关系推理。最近的关系推理工作主要集中在静态图像上[40，45，3，17]。例如，[26]引入了视觉短语的概念，用于组合主语、谓语和宾语的视觉概念。[20]将直接的视觉短语检测任务分解为对主语、谓语和宾语的个别检测，从而提高了性能。[4]在个别预测之上进一步应用条件随机场，利用它们的统计相关性。[18]提出了一种深度变异结构强化学习框架，然后形成了一个有向语义动作图。该图中的全局相互依赖性有助于对图像的局部区域进行预测。在视频中学习关系的一个关键挑战是缺乏相关的注释数据集。在这方面，[29]的最新工作令人鼓舞，因为它为ImageNet视频数据集贡献了手动注释的关系。我们的工作在多个方面改进了[29]：（1）不再假设关系之间没有时间上的依赖性，我们引入了一个门控的全连接时空能量图，用于建模视频中固有的丰富结构；（2）我们将关系三元组从主语/谓语/宾语扩展到更一般的设置，例如对象/动词/场景[32]；（3）我们考虑了一个新的任务“关系识别”（除了关系检测和标记），该任务要求模型以细粒度的方式进行预测；（4）对于各种指标和任务，我们的模型表现出了改进的性能。0深度条件随机场。条件随机场（CRFs）已经广泛用于对图像[10, 43, 27, 25,4]和视频[23,31]中的预测之间的统计依赖进行建模。最近已经引入了几种用于完全连接的CRF图的扩展。例如，[43, 27,31]试图将完全连接的CRFs表示为循环神经网络，并使整个网络可端到端训练，这在图像分割[43,27]和视频活动识别任务[31]中产生了有趣的应用。在CRFs的特征化中，一元能量函数表示分配标签的逆似然度，而二元能量函数衡量同时分配多个标签的成本。然而，大多数现有的二元能量函数的参数化[15, 43, 27, 4,31]与观测变量之间存在有限或无连接。由于实体之间的统计依赖的自适应特性，这样的参数化可能对视频关系推理不是最优的。为了解决这个问题，我们提出了一种具有高效和分摊参数化的观测门控的成对能量函数。The task of video relationship reasoning not only re-quires modeling the entity predictions spatially and tempo-rally, but also maintaining a changeable correlation struc-ture between entities across videos with various contents.To this end, we propose a Gated Spatio-Temporal Fully-Connected Energy Graph for capturing the inherently richvideo structure into account.We start by deﬁning our notations using Fig. 2 as a run-ning example. The input instance X lies in a video seg-ment and consists of K synchronous input streams X ={Xk}Kk=1. In this example, input streams are {object tra-jectories, predicate trajectories, subject trajectories}, andthus K = 3, where trajectories refer to the consecutiveframes or bounding boxes in the video segment.Eachinput stream contains observations for T time steps (i.e.,Xk = {Xkt }Tt=1), where for example object trajectoriesrepresent object bounding boxes through time. For eachinput stream, our goal is to predict a sequence of entities(labels) Y k = {Y kt }Tt=1. In Fig. 2, the output sequenceof predicate trajectories represent predicate labels throughtime. Hence we formulate the data-entities tuple as (X, Y )with Y = {Y 1t , Y 2t · · · , Y Kt }Tt=1 representing a set of se-quence of entities.The entity Y ktshould spatially relate to entities{{Y 1t , Y 2t · · · , Y Kt } \ {Y kt }} and temporally relate to en-tities {{Y k1 , Y k2 · · · , Y kT } \ {Y kt }}.For example, sup-pose that the visual relationships observed in a grocerystore are {{mother, pay, money}, {infant, get, milk},{infant, drink, milk}}; spatial correlation must exist be-tween mother/pay/money and temporal correlation mustexist between pay/get/drink.We also note that implicitcorrelation may also exist between Y ktand Y k′t′for t ̸=t′, k ̸= k′. Based on the structural dependencies betweenentities, we propose to construct a Spatio-Temporal Fully-Connected Energy Graph (see Sec. 3.1), where each noderepresents an entity and each edge denotes the statisticaldependencies between the connected nodes. To further takeaccount that the statistical dependency between “get” and“drink” may be different depending on different observa-tions (i.e., location in grocery store v.s. home), we introducean observation-gated parameterization for pairwise energyEψ,ϕ(y|X) =�t,kψt,k(ykt |X)+̸104260视频关系推理的任务不仅需要在空间和时间上对实体预测进行建模，还需要在具有不同内容的视频之间维护可变的实体之间的相关结构。为此，我们提出了一种用于捕捉内在丰富视频结构的门控时空全连接能量图。我们通过使用图2作为运行示例来定义我们的符号。输入实例X位于一个视频段中，由K个同步输入流X ={Xk}Kk=1组成。在这个例子中，输入流是{对象轨迹，谓词轨迹，主语轨迹}，因此K =3，其中轨迹指的是视频段中的连续帧或边界框。每个输入流包含T个时间步的观测（即Xk ={Xkt}Tt=1），其中例如对象轨迹通过时间表示对象边界框。对于每个输入流，我们的目标是预测一个实体（标签）序列Yk ={Ykt}Tt=1。在图2中，谓词轨迹的输出序列表示时间上的谓词标签。因此，我们将数据-实体元组形式化为（X，Y），其中Y ={Y1t，Y2t∙∙∙，YKt}Tt=1表示一组实体序列。实体Ykt应该在空间上与实体{{Y1t，Y2t∙∙∙，YKt}\{Ykt}}相关，并在时间上与实体{{Yk1，Yk2∙∙∙，YkT}\{Ykt}}相关。例如，假设在杂货店观察到的视觉关系是{{母亲，支付，钱}，{婴儿，取，牛奶}，{婴儿，喝，牛奶}}；母亲/支付/钱之间必须存在空间相关性，支付/取/喝之间必须存在时间相关性。我们还注意到，对于t≠t'，k≠k'，Ykt和Yk't'之间可能还存在隐含的相关性。基于实体之间的结构依赖关系，我们提出构建一个时空全连接能量图（见第3.1节），其中每个节点表示一个实体，每个边表示连接节点之间的统计依赖关系。为了进一步考虑“取”和“喝”之间的统计依赖关系可能因不同的观测（即杂货店位置与家庭位置）而不同，我们引入了观测门控的成对能量参数化。03. 提出的方法0在新的参数化中，我们通过使用团模板[33, 34,21]、神经网络逼近[22,35]和张量分解[14]（见第3.2节）来分摊潜在的大量计算成本。03.1. 时空全连接图0通过将实体的预测视为随机变量，可以构建一个在全局观察（即输入实例 X）的条件下的马尔可夫随机场（MRF）。然后，元组 ( X, Y )可以被建模为一个由以下形式的Gibbs分布参数化的条件随机场（CRF）：P � Y = y | X �= 10Z ( X ) exp � − E ( y | X ) � ，其中 Z ( X )0是分区函数，E ( y | X ) 是在观察 X 的条件下分配标签 Y =y = { y 1 t , y 2 t , ∙ ∙ ∙ , y K t } T t =1的能量。假设图中仅有成对团集，即 P ( y | X ) := P ψ,ϕ (y | X ) ，E ( y | X ) := E ψ,ϕ ( y | X ) ，能量可以表示为：0{ t,k }� = { t ′ ,k ′ } ϕ t,k,t ′ ,k ′ ( y kt , y k ′ t ′ | X ) ，0(1) 其中 ψ t,k 和 ϕ t,k,t ′ ,k ′分别是一元能量和成对能量。在公式 (1)中，一元能量在图中的每个节点上定义，捕捉了在观察 X的条件下分配 Y k t = y k t的逆似然性。通常，这个项可以从任意分类器或回归器（如深度神经网络[16]）中导出。另一方面，成对能量模型描述了在观察 X 的条件下，标签分配之间的相互作用，即 Y k t= y k t , Y k ′ t ′ = y k ′ t ′。因此，成对项确定了实体在空间和时间上的统计依赖关系。然而，大多数关于全连接CRF的先前工作中的参数化假设成对能量函数对当前观察是非自适应的，这可能不理想，无法建模视频中实体之间可变的依赖关系。在接下来的第3.2节中，我们提出了一种观察门控的成对能量函数参数化来解决这个问题。03.2. 门控成对能量函数0现有的大部分工作使用了简化的成对能量函数参数化，并且通常只考虑了联合标签分配的平滑性。例如，在异步时间场[31]中，ϕ ∙ ( y k t , y k ′ t ′ | X ) 被定义为 µ ( y k t , y k ′ t ′ ) K ( t, t ′ ) ，其中 µ 表示标签兼容性矩阵，K ( t, t ′ )是衰减核度量，表示 t 和 t ′之间的衰减因子。类似地，在图像分割领域[43, 27]中，ϕ ∙( s i , s j | I ) 被定义为 µ ( s i , s j ) K ( I i , I j ) ，其中 s { i,j} 是分割标签，I { i,j } 是图像 I 中位置 { i, j }的输入特征。在这些模型中，成对能量由以下组成ϕt,k,t′,k′(ykt , yk′t′ |X) := ⟨f ϕ⟩X,t,t′,k,k′,ykt ,yk′t′ ,(2)⟨f ϕ⟩X,t,t′,k,k′,ykt ,yk′t′ ≈ f ϕθ (Xkt , t, t′, k, k′, ykt , yk′t′ )=ykt ,ykt̸̸ykt′104270一个与观察无关的标签兼容性矩阵，后面跟着一个空间或时间的折扣因子。我们认为成对能量函数的参数化应该更具表现力。为此，我们将成对能量定义为：0其中 f ϕ 可以被看作是一个离散的查找表，它接受大小为 |X | 的输入 X，并输出一个大小为 ( T 2 K 2 − 1) × | Y k t |× | Y k ′ t ′ | 的大型转移矩阵，其中 �∙� z 表示它的第 z项。直接维护这个查找表在计算上是不可行的，因为 X的状态空间很大。考虑一个简单的情况，即 X是一个取值为二元的 32 × 32 图像，我们有 | X | = 2 32× 32 种可能的状态。当 X变成一个RGB值的视频时，状态空间复杂度会加剧。由于图形模型[33, 34, 21]、深度神经网络[22,35]和张量分解[14]的最新进展，我们的解决方法是将 f ϕ参数化并近似为 f ϕ θ，其中 θ 是可学习参数，如下所示：0∑ g kk ′ θ ( X k t ) � h kk ′ θ (X k t ) ∑0Kσ(t,t′) ∑ r kk ′ θ ( X k t ) � s kk ′ θ ( X k t∑0y k t ,y k ′ t ′ t � = t ′ , (3)0其中gkk′θ(∙),rkk′θ(∙)∈R|Ykt|×r，hkk′θ(∙),skk′θ(∙)∈0t ′ |×r表示从Xkt到rk的投影，由深度神经网络建模。A�B=AB�表示矩阵A和B的函数，结果是一个大小为|Ykt|×|Yk′t′|的转移矩阵。Kσ(t,t′)是带宽为σ的高斯核，表示不同时间步的折扣因子。我们参数化的背后的直觉如下：首先，我们注意到空间和时间上采用了团模板[33,34,21]，这导致了可扩展的学习和推断。其次，使用神经网络来近似查找表的想法确保了参数的效率和泛化性[8,35]。查找表维护了X→Yk×Yk′的状态转换，其中花体字体表示相应的状态空间。最后，我们选择r< 0.5is performed to reduce the numbers of generated chunk-level proposals. During training, proposals that have vIoU> 0.5 with the ground truth trajectories are selected to bethe training proposals. However, all the generated proposalsare preserved for evaluation.◦ Feature Representation. Following Sec. 3 notation, we ex-press the input instance X into K synchronous streams offeatures. For the ImageNet Video, K equals 3 and the syn-chronous streams of features are {Xst , Xpt , Xot }Tt=1. s, p, oand T denote subject, predicate, object, and the number ofchunks in the input instance, respectively. Note that each in-stance may have different numbers of chunks, i.e., differentT, because of various duration of relationships. The outputY st , Y pt , and Y ot follow categorical distribution. As in [29],in the tth chunk of the input instance, we choose the sub-ject and object features (i.e., Xst and Xot ) to be the averagedfeatures for the Faster-RCNN label probability distributionoutputs. Xpt , on the other hand, is chosen to be the concate-nation of the following three features: the improved densetrajectory (iDT) feature [37] for subject tracklet, the iDTfeature for object tracklet, and the relative spatio-temporalpositions [29] between subject and object tracklets.SeeSuppl. for more details.For Charades, the input instance X is expressed as{Xot , Xvt , Xst }Tt=1 with o, v, and s denoting object, verb,and scene , respectively. Since we are performing relation-104290方法对应的关系检测关系标记关系识别0图像-关系或关

下载后可阅读完整内容，剩余1页未读，立即下载