多层次语义上下文的时间动作检测图卷积网络

7 浏览量更新于2023-10-23 收藏 2.87MB PDF 举报

图卷积网络

方法介绍

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10156G-TAD：用于时间动作检测的https://www.deepgcns.org/app/g-www.example.com徐梦梦，陈钊，David S.Rojas，Ali Thabet，沙特阿拉伯，伯纳德·加尼姆·阿卜杜拉国王科技大学（KAUST）{mengmeng.xu，chen.zhao，davidsantiago.blanco，ali.thabet，bernard.ghanem}@ kaust.edu.sa摘要时间动作检测是视频理解中的一个基本而视频上下文是有效检测动作的关键线索，但目前的研究主要集中在时间上下文上，而忽略了语义上下文以及其他重要的上下文属性。在这项工作中，我们提出了一个图卷积网络（GCN）模型，自适应地将多层次的语义上下文到视频特征和铸造的时间动作检测作为一个子图定位问题。具体来说，我们formulate视频片段作为图形节点，片段片段相关关系作为边缘，与上下文相关的动作作为目标子图。以图卷积为基本操作，我们设计了一个名为GCNeXt的GCN块，它通过聚合其上下文来学习每个节点的特征，并动态更新图中的边。为了局部化每个子图，我们还设计了一个SGAlign层，将每个子图嵌入到欧氏空间中大量的实验表明，G-BLOG能够找到有效的视频上下文，而无需额外的监督，并在两个检测基准上实现了最先进的性能。在ActivityNet-1.3上，它获得的平均mAP为34。09%;在THUMOS 14上，达到51. 当结合提案处理方法时，IoU@0.5为6%G-EQUIPMENT代码可在https://github.com/frostinassiky/gtad上公开获得。1. 介绍近年来，由于在线平台上发布的视频的快速增长，临时动作检测是这一领域中一个有趣而又艰巨的它涉及检测动作实例的开始和结束帧，以及预测它们的类标签。这是繁重的，特别是在长的未经修剪的视频。视频上下文是有效检测动作的重要线索。在这里，我们把语境称为框架，它不长于目标动作，但携带着它有价值的指示信息。使用视频上下文来推断潜在的动作是黄色：背景不红色：开始蓝色：结束绿色：行动灰色：依赖图1. 视频的图形公式化。节点：视频片段（视频片段被定义为短时间段内的连续帧）。边缘：片段-片段相关性。子图：与上下文相关的动作。有4种类型的节点：动作、开始、结束和背景，显示为彩色点。有两种类型的边：（1）时间边缘，其根据片段的时间顺序被预定义;（2）语义边，从节点特征中学习得到。对人类来说是自然的事实上，经验证据表明，人类可以可靠地猜测或预测某种类型的动作的发生，只需查看动作没有发生的短视频片段[1，2]。因此，在最近的文献[11，15，9，33，44，56，30]中，将上下文结合到时间动作检测中已经研究人员已经提出了各种利用视频上下文的方法，例如通过预定义的比率扩展时间动作边界[11，15，44，56，30]，使用扩张卷积将上下文编码为特征[9]，以及通过高斯曲线隐式地聚合上下文特征[33]。所有这些方法都只利用了时间上下文，它在动作实例的直接时间邻域中预先跟踪然而，现实世界的视频在时间范围、动作内容、甚至编辑偏好方面变化巨大时间上下文并没有充分利用视频上下文的丰富优点，如果没有针对底层视频进行适当的设计，它甚至可能会损害检测精度。那么，为了准确的动作检测，什么属性表征了理想的视频上下文？首先，语境应该与目标动作他者10157而不仅仅是暂时位于其附近。想象一下，如果我们手动地将动作片段缝合到一些不相关的帧中，那么动作周围的突然场景变化肯定不利于动作检测。另一方面，位于距动作一定距离处但包含相似语义内容的片段可能提供用于检测动作的指示性提示其次，上下文应该是内容自适应的，而不是手动预定义的。考虑到视频的巨大变化，有助于检测不同动作实例的上下文第三，语境应该基于多个语义层次，因为只使用一种形式/层次的语境不太可能很好地概括。我们通过将动作检测作为基于图卷积网络（GCN）的子图定位问题来赋予视频上下文所有上述属性[24]。我们将每个视频序列表示为图，将每个片段表示为节点，将每个片段-片段相关表示为边，并且将与上下文相关联的目标动作表示为子图，如图所示。1.一、片段的上下文被认为是通过视频图中的边连接到它的所有片段我们定义了两种类型的边-时间边和语义边，分别对应于时间上下文和语义时间边缘存在于每对相邻片段之间，而语义边缘是从每层的视频特征动态学习的。因此，每个片段的多层次上下文逐渐聚合成整个GCN中片段的特征。我们提出的图形-时间动作检测方法的管道，称为G-CNN，类似于对象检测中更快的R-CNN [17，35]。在G-Cable中有两个关键的设计。首先，受ResNeXt [49]启发的基于GCN的特征提取块GCNext生成上下文丰富的特征。它对应于更快的R-CNN中骨干网络的CNN块。其次，为了模拟感兴趣区域（RoI）对齐[19]，我们设计了一个感兴趣对齐层SGAlign的子图，为每个子图生成一个固定大小的表示，并将所有子图嵌入到同一个欧几里得空间中。最后，我们对每个子图的特征应用一个分类器来进行检测。我们将我们的贡献总结如下。(1) 我们提出了一种新的基于GCN的视频模型，充分利用视频上下文进行有效的时间动作检测。使用这种视频GCN表示，我们能够自适应地将多层次的语义上下文到每个片段的特征。(2) 我们提出了一个新的子图检测框架G-BLOG，用于定位视频图中的动作。G-ESTA包括两个主要模块：GCNeXt 和 SGAlign 。 GCNeXt 在视频图上执行图卷积，利用时间和语义上下文。SGAlign在适合检测的嵌入式空间中重新排列子图特征。(3) G-1000在两个方面实现了最先进的性能流行的动作检测基准。在ActivityNet-1.3上，它的平均mAP为34。百分之九在THUMOS 14上，它达到了51。当结合提案处理方法时，IoU@0.5为6%2. 相关工作2.1. 视频表示行动识别。已经提出了许多基于CNN的方法来解决动作识别任务。双流网络[14，38，43]使用2D CNN从RGB和光流序列中提取这些2D CNN可以从头开始设计[20，39]或在图像识别任务上进行预训练[12]。其他方法[41，8，34，52]使用3D CNN来编码来自原始视频的时空信息。在我们的工作中，我们使用[51，45]中的预训练动作识别模型来提取视频片段特征作为G-SVM输入。动作检测。时间动作检测是指在未裁剪的视频中预测动作实例的边界和类别。一种常见的做法是首先生成时态提案，然后将每个提案分类为其中一个行动类别[37，40，56，55，9，30]。对于支持生成，他们要么使用固定的手工锚点[5，6，13，15，37]，要么通过连接潜在的开始和结束帧[56，30]自适应地形成提案候选。G-神经网络使用锚点来定义子图，但也结合了开始/结束预测来规范训练过程。2.2. GCN视频视频理解中的图形。图形已广泛用于各种视频理解任务中的数据/特征表示，例如动作识别[31，47，10]和动作定位[55]。在动作识别中，Liu等人。 [31]将视频视为时空空间中的3D点云。Wang等人。 [47]将视频表示为时空区域图，其中图节点由对象区域提议定义。在动作检测中，Zeng et al. [55]将时间动作提议视为图中的节点，并基于所建立的提议-提议依赖性来细化它们的边界和分类得分。与以前的工作不同，G-mesh将视频片段作为图中的节点，并基于它们的时间顺序和语义相似性在它们之间形成边图卷积网络。图卷积网络（GCN）[24]广泛用于非欧几里德结构。近年来，它的成功应用，由于其灵活性和有效性，例如3D对象检测[18]和点云分割[48，50]，在计算机视觉任务中可以看到。同时，为了更有效和灵活的建模，提出了各种GCN体系结构一个代表性的工作是Wang等人[48]针对点云的边缘卷积方法它是-10158定位模块...SGAlign……+内插样品.4.8.1.3.5.7GCNeXtSGAlign（时间GConv.）X 32（语义GConv.）X32锚l=0B评分.6 2.6.7图2. G-100架构概述。输入是片段特征的序列。我们首先提取功能使用b GCNeXt块，逐渐聚合时间和多层次的语义上下文。语义上下文，编码在语义边缘，是动态学习的功能在每个GCNeXt层。然后，我们将提取的特征馈送到SGAlign层中，在SGAlign层中，由一组锚点定义的子图由固定大小的特征表示最后，定位模块对用于检测的子图进行评分和排名基于节点之间的特征距离在每个图形层放置图形边（表示为节点邻接），并通过将邻域上的特征聚合为节点输出来丰富节点特征。最近，Li等人。 [25，26]提出DeepGCN，使GCN能够使用残差/密集图连接和扩张图卷积深入到100层，并探索自动设计GCN的方法[27]。G-texture使用DeepGCN类结构在动态语义图以及固定时间图上应用图卷积。3. 该方法3.1. 问题公式化输入到我们的流水线是一个视频序列的lv帧。根据最近的视频动作建议生成方法[5，13，15，30]，我们使用从原始视频帧中提取的特征序列构建我们的G-SVM模型我们对每个σ连续帧的特征进行平均，并将每个σ帧集合作为片段。这样一来我们的输入视觉特征序列由X（0）∈RC×L，其中C是每个片段的特征维度L是片段的数量。每个视频序列具有口述的动作类和置信度得分。3.2. 建筑设计我们的动作检测框架如图所示。二、我们将片段特征X（0）馈送到b个GCNeXt块的堆栈中，该堆栈受ResNeXt [49]的启发而设计，以获得上下文感知特征。每个GCNeXt包含两个图卷积流。一个流对固定的时间邻居进行操作，另一个流自适应地将语义上下文聚合到片段特征中。两个流都遵循具有多个卷积路径的分裂-变换-合并策略[49]（路径的数量被定义为基数）以生成更新的图，这些图被聚合成一个图作为块输出。在所有bGC-NeXt块的末尾，我们基于预定义的时间锚提取一组子图（参见第4.2节）。然后，我们有感兴趣的子图对齐层SGAlign来使用特征向量表示每个子图最后，我们使用多个全连接层来预测表示每个子图的特征向量与地面真实动作实例的交集。我们在3.3节和3.4节分别提供了GCNeXt和SGAlign的详细描述。- 一组N个注释n={n=（ts，n，te，n，cn）}N，其中ψn表示动作实例，而ts，nn=1，te，n，和3.3. 用于上下文特征编码的GCNeXtcn分别是其开始时间、结束时间和动作类时间动作检测任务是预测M可能-我们的基本图形卷积块GCNeXt对视频序列的图形表示进行操作。它编码.. ˆˆΣΣM从V可得出Φ=φm=ts，m，te，m，cm，pmm=1。这里，（ts，m，te，m）表示第m个预测动作的预测时间边界;cm和pm是它的预使用其时间和语义邻居的片段。图图3展示了GCNeXt的架构。我们建立视频图G={V，E}，其中V={vl}L时间特征提取Conv1D输入GCNeXtGCNeXt输出作物后处理10159语义图上的卷积+时间图上的卷积不t t t t tt不256，4四、四四千二百五十六256，4四、四四千二百五十六⋈图3. GCNeXt块。输入特征由具有相同基数的时间流和语义流处理。黑色和紫色框分别表示时间流和语义流中的操作，较深的颜色表示图卷积，较浅的颜色表示1乘1卷积。每个框中的数字表示输入和输出通道。两个流都遵循分裂-转换-合并策略，每个策略有32条路径，以增加转换的多样性。模块输出是两个流和输入的总和。E=Et∈ Es分别表示节点集和边集。在这种情况下，每个节点表示一个片段，每个边显示一对片段之间的依赖关系。我们定义了两种类型的边缘-时间边缘Et和语义，tic edgesEs.因此，我们有时间流，语义流我们还描述了每种类型的边作为下面的图形卷积过程。时间边缘（Et）对视频片段的时间顺序进行编码。每个节点vi∈ V都有一个唯一的到节点vi+1的前向边和一个到节点vi−1的后向边。在这种情况下，我们有Et=Ef <$Eb，其中Ef和Eb是前向和后向时间边缘集，定义如下：图4. SGAlign层。SGAlign基于GCNeXt特征（左）和语义特征（右）提取子图特征，并将两个子图特征连接起来作为输出。顶部的点表示子图特征。在底部，点表示图形节点，灰色线是语义边缘，并且或范围突出显示的区域是子图形。注意，由于每个节点的语义特征是使用其邻居计算的，所以子图特征中的每个条目基本上对应于图中的多个语义相关节点并使用图形卷积运算F对其进行变换。在文献中有几种F的选择。为了简单起见，我们使用单层边缘卷积[48]作为我们的图形卷积运算：F（X，A，W）=（[XT，AXT− XT]W）T.（三）这里，W∈R2C×C′是可训练权重; A∈RL×L是没有自循环的邻接矩阵（即，节点与其自身之间的边）;[·，·]表示列的矩阵连接。我们将A中的第（i，j）个元素表示为A（i，j）=1{（vi，vj）∈ E}，其中1{·}是指示函数。GCNeXt中的任何一个流都利用了拆分转换-合并策略[49]有32条路径，以增加转换的多样性每个路径包含一个图卷积，如等式中所示。3和两个1乘1卷积，它们的组成Ef={（vi，vi+1Eb= {（v，v）|i ∈ {1，2，. - 是的- 是的，L − 1}}，（1））|i ∈ {2，. - 是的- 是的，L− 1，L}}，（2）记作F′。流聚合。GCNeXt的输出是聚合-我不是i−1其中L是视频中片段的数量。语义边（Es）是从dy的概念定义的语义和时间流以及输入的其可以被公式化为：H（X，A，W）=ReLU（ F′（X，Af，Wf）+ F′（X，Ab，Wb）t t t t t t动态边缘卷积[48]，动态地连接，根据特征距离构造图节点之间的边我们语义边缘的目标是收集-+F′（X，As，Ws）+X），（4）其中Af、Ab和As是邻接矩阵，W=从语义相关的片段形成我们定义ft t{Wt，Wb，Ws}是可训练权重，对应于G中每个节点vi的语义边集Es如下：E s={（vi，vni（k））|i∈{1，2，. -是的-是的，L};k∈{1，2，. -是的-是的 K}}。这里，ni（k）是指节点vi的第k个最近邻居的节点索引。它是在节点特征空间中的每个GC-NeXt块上动态确定的，使我们能够更新在整个网络中本质上携带语义上下文信息的节点。因此，Es自适应地改变以表示新的语义上下文水平。图卷积。我们使用X=[x1，x2，. . .，xL] ∈++输出256，4四、四四千二百五十六256，4四、四四千二百五十六10160l=1l=1RC×L表示图中所有节点的特征Et，Eb，Es。ReLU是作为激活函数的整流线性单元。在补充材料中，我们简化了Eq。4，并证明它可以有效地计算零填充的一维卷积。3.4. 子图对齐和局部化兴趣对齐子图（SGAlign）。GC-NeXt块生成所有片段{xl}L的特征（称为GCNeXt特征），其中包含聚合的从它们的时间和语义上下文中获取信息美国{xl}L、我们得到更新的图{V，E}。在10161l=1l=1CLSregl=1jj=1jj=1算法1SGAlign中的插值和重缩放输入：整个图中所有节点的特征{xl}L;子图{Ga}J，其中J是子图的总数，aj=（ts，j，te，j）;对齐量τ;1：f或每个子图Gajdo第二章：按时间顺序排列Gaj中的所有节点3：计算子图大小d=ts，j-te，j，采样间隔s=τd/τs，插值量T=τs;第四章：基于线性插值采样T点，每个点的两个相邻点l=[ts+kd/T，对于k范围（T）]第五章：Xin=[（i−i）xi+（i−i）xifori inl]第六章：zaj=[mean （ Xin[ks ：（ k+1 ） s] ）forkinrange（τ）]第七章：端输出：Z={za}J。SGAlign，我们进一步利用语义上下文的平均-在g中，每个节点的邻居特征被公式化为损失，分别。3.5. G培训我们使用子图局部化损失Lg和节点分类损失Ln以及所有可训练参数Θ的L2范数正则化损失Lr来L=Lg+Ln+λ2·Lr，（5）这里我们设λ2= 10−4。损失Lg用于确定子图的置信度得分，并且损失Ln基于每个节点相对于动作的位置对每个节点进行分类，可以大大提高网络收敛性。子图局部化丢失。子图损失Lg定义如下：Lg= Lwce（pcls，1{gc> 0. 5}）+λ1·Lmse（preg，gc），（6）其中Lmse是均方误差损失，Lwce是加权交叉熵损失。重量计算是为了平衡-1KKk=1xnl（k）和dubyl作为语义特征。对正训练样本和负训练样本进行分类。在我们的前-SGAlign使用预定义的锚点来提取子图从{V，E}。给定每个动作锚点a=（ts，te），子图Ga被定义为G的子集，使得Ga={Va，Ea}，其中Va={vl∈ V}|ts≤l≤te}且Ea={（vi，vj）∈ Es|vi∈Va}。对于子图Ga，我们通过插值采样τ点（τ：对准量），如Alg.1，并生成子图特征ya∈RτC，其中C是特征维数。我们经营Alg。1独立使用GCNeXt功能{xl}L和语义特征{yl}L作为输入。对于前者，我们对τ1点进行采样，得到子图特征z1a∈Rτ1C;对于后者，我们采样τ2点实验中，我们取折衷系数λ1= 10，因为第二个损失项往往小于第一个。节点分类丢失。连同子图局部化损失Lg，我们使用损失Ln基于它们是动作的开始点还是结束点来对整个图中的我们在第一个GCNeXt块之后添加FC层以产生开始/结束概率（ps，pe）（这些层在测试时被忽略）。我们使用（gns，gne）来表示每个节点的相应训练目标。我们使用加权交叉熵损失来计算预测和目标之间的差异，因此将Ln公式化为L=L（p，g）+L（p，g）。得到z2a∈Rτ2 C。我们把z1a连接起来世界经济论坛SNSWCEene和z2a作为SGAlign层的输出。图4示出SGAlign使用这两个功能的想法。通过显式地使用语义特征yl，SGAlign在计算每个子图的特征时自适应地聚合语义上下文信息。这是-3.6. G推理在推理时，G-SVM预测分类和回归评分为每个子图Ga.从J子图，我们构建体预测动作Φ=.φ=（t），tJ、c、p），其中（t，t）参阅本质上不同于手动扩展的方法，js，je，j J Jj=1s，je，j锚定边界结合时间上下文[30，56]，并导致更好的性能。值得一提的是，采样间隔s是根据子图大小d和对齐量τ，保证输出zaj 是子图中所有节点的加权和。节中4.4，我们表明，这种抽样策略给我们的实验改进。子图定位。对于每个子图Ga，我们计算它的与所有地面实况动作的交集（IoU），并将最大IoUgc表示为训练目标。我们在SGAlign层的顶部为每个子图特征应用三个全连接（FC）层。最后一个FC层具有两个输出分数pcls和preg，其被训练为使用分类和重新匹配GC预测的动作边界，cj是预测的动作类，pj 是该预测的融合置信度得分，计算公式为pj=pα·p1−α。在我们的实验中，我们在每个设置中搜索最佳α。4. 实验4.1. 数据集和指标ActivityNet-1.3[7]是一个大规模的动作理解数据集，用于动作识别，时间检测，建议生成和密集字幕任务。它包含19，994个带有时间注释的未修剪视频，其中包含200个动作类别，这些类别以2：1：1的比例分为训练集，验证集和测试集。10162THUMOS-14[23]数据集包含413个具有20个动作类别的时间注释的未修剪视频。我们使用验证集中的200个视频进行训练，并对测试集中的213个视频进行评估。检测度量。我们将特定IoU阈值下的平均精度（mAP）作为主要评估指标。根据官方评估API，IoU阈值为{0.5，0。75，0。95}和{0。3，0。四，零。5，0。6，0。7、使用分别用于ActivityNet-1.3和THUMOS-14。对ActivityNet-1.3，我们还报告了超过10个不同IoU阈值的平均mAP [0. 五比零05：0。95]。4.2. 实现细节功能和配件。我们对这两个数据集使用预提取的特征。对于 ActivityNet-1.3 ，我们采用 Xiong et. 等人[51]，下采样比σ=16。使用线性插值将每个视频特征序列重新缩放为L=100个片段。对于THUMOS-14，使用在Kinetics [57]上预先训练的TSN模型[44]提取视频特征，其中σ=5。我们用大小为L=256和步幅为128的重叠窗口裁剪每个视频特征序列。在训练中，我们不使用任何作物无效的行动。对于ActivityNet-1.3和THUMOS-14，我们列举了所有可能的开始和结束组合作为锚点，例如：{（ts，te）|0< ts

下载后可阅读完整内容，剩余1页未读，立即下载