基于生成注意模型的弱监督动作定位

50 浏览量更新于2023-10-25 收藏 754KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1009基于生成注意模型的弱监督动作定位白峰石1*齐岱2 穆亚东1王京东21北京大学2微软亚洲研究院{bfshi，myd}@ pku.edu.cn，{qid，jingdw}@ microsoft.com摘要弱监督时间动作定位是一个学习动作定位模型的问题，只有视频级的动作标记可用。一般的框架在很大程度上依赖于分类激活，它采用注意模型来识别动作相关的框架，然后将它们分类到不同的类。这种方法导致动作上下文混淆问题：动作剪辑附近的上下文帧往往被识别为动作帧本身，因为它们与特定类密切相关。为了解决这个问题，在本文中，我们提出了模型的类无关帧的概率条件下的帧注意使用条件变分自动编码器（VAE）。在观察到上下文表现出与表示级别的动作的显著差异的情况下，概率模型，即，条件VAE被学习以对给定注意力的每个帧的可能性进行建模。通过最大化关于注意力的条件概率，动作和非动作框架被很好地分离。在THUMOS 14和ActivityNet1.2上的实验表明了该方法的优越性和处理动作上下文混淆问题的有效性。代码现在可以在GitHub1上使用。1. 介绍动作定位是视频分析和理解中最具挑战性的任务之一[43，42，20，37，21]。目标是预测不同人类行为的准确开始和结束时间戳。由于其广泛应用（例如，监视[47]、视频摘要[28]、高光检测[51]），动作定位在社区中引起了很多关注。由于强大的卷积神经网络（CNN）[18]，在过去的几年里，这项任务的性能已经经历了惊人的增长[42，53，6，52，5，1，23，27]。然而，这些完全监督的方法需要动作*工作在微软实习期间完成。1https://github.com/bfshi/DGAM-Weakly-Supervised-Action-本地化图1.这是一个关于行动背景混淆的例子。视频剪辑，显示了跳远过程，包括三个阶段的行动（接近，跳跃，并降落）和两个阶段的上下文（准备和完成）。(a)动作定位的基本事实。(b)上下文混淆。与跳远类别高度相关的上下文框架也被选择。intervals during training, which is extremely expensiveandtime-consuming.因此，弱监督动作定位（WSAL）的任务已经提出，其中只有视频级类别标签可用。到目前为止，在文献中，有两个主要类别的方法在WSAL。第一种类型[24，29，34，49]通常构建自上而下的流水线，其学习视频级分类器，然后通过检查产生的时间类激活图（TCAM）[60]来获得帧注意力注意，帧指示可以从中提取外观或运动特征的小片段。另一方面，第二范式以自下而上的方式工作，即，时间注意力直接从原始数据预测[30，31，41，55]。然后，在视频分类任务中使用视频级监督来优化注意力因此，具有高关注度的帧被视为动作部分，否则被视为背景部分。这两种方法在很大程度上依赖于视频级分类模型，这将导致在没有逐帧标签的情况下难以处理的动作上下文混淆[24]问题以图1中的跳远为例，动作有三个阶段，即，接近跳跃着陆此外，前后帧的交流，1010作用，即，准备和完成，包含与跳远密切相关的内容，但不是动作的一部分。我们把这种框架称为语境，语境是一种特殊的背景。在这个例子中，上下文部分包括田径场和沙坑，这实际上可以显著地鼓励对动作的识别。在没有逐帧注释的情况下，分类器通常通过聚合所有相关帧的特征来学习，其中上下文和动作大致混合在一起。因此，语境框架往往容易被识别为动作框架本身。行动-语境混淆问题在WSAL中很常见，但尚未得到充分研究一个最近的探索[24]试图通过假设上下文剪辑应该是静止的强先验来解决这个问题，即，没有任何动作然而，这种假设存在着很大的局限性，忽视了语境与行为之间的内在差异为了分离上下文和动作，模型应该能够捕捉它们之间的潜在差异。然而，在表象或运动层面上，语境框架与动作框架确实存在着明显的例如，在图1中的五个阶段中，动作阶段（接近、跳跃和着陆）清楚地展示了比背景阶段（准备和完成）更强烈的身体姿势换句话说，提取的上下文和动作的特征这种差异是存在的，无论行动类别。受此启发，我们提出了一种新的生成注意机制来模拟以帧注意为条件的帧表示。除了上述直觉，我们建立了一个图形模型，从理论上证明，本地化问题与传统的分类和提出的表示建模。因此，我们的框架由两部分组成：判别和生成注意力模型（DGAM）。一方面，区分性注意力建模训练由帧注意力加权的时间汇集特征的分类模型。另一方面，生成模型，即，条件变分自动编码器（VAE）被学习以对基于注意力值的表示的类不可知的逐帧分布进行建模。通过最大化表示的可能性，相应地优化了逐帧注意，导致动作和上下文帧的良好分离。在THU-MOS 14 [13]和ActivityNet1.2 [3]上进行了大量实验综合分析进一步验证了该方法在分离动作和语境方面的有效性。这项工作的主要贡献是建议的DGAM框架，通过对不同注意力条件下的框架表示进行建模，来解决WSAL中的动作-上下文混淆问题。溶液已经导致了本地化如何与表示分布相关联以及如何通过对表示进行建模来学习更好的注意力的优雅观点，这些观点在文献中尚未讨论。2. 相关作品视频动作识别是视频分析中的一个基本问题。大多数与视频相关的任务利用现成的动作识别模型来提取特征以供进一步分析。早期的方法通常设计手工制作的特征[19，48，32]用于识别。近年来，由于深度学习技术的发展，许多方法都集中在端到端学习的自动特征提取上，例如，双流网络 [43]、时间段网络（ TSN ） [50] 、 3D ConvNet （ C3D ） [46] 、伪 3D（P3D）[36]、膨胀3D（I3D）[4]。在我们的实验中，I3D用于特征提取。全监督动作定位是近年来的研究热点。许多作品都遵循了由于它们在问题设置中的共性，它们被广泛应用于对象检测领域[9，8，39，38，25]。具体来说，主要有两个方向，即两阶段法和一阶段法。两阶段方法[58，52，6，5，42，40，7，11，23]首先生成行动建议，然后在时间边界上进一步细化对其进行分类。单阶段方法[2，22，57]直接从原始数据预测动作类别和位置在完全监督的情况下，动作-上下文混淆可以通过逐帧注释来缓解。弱监督动作定位由于在全监督环境中耗时的手动标记而引起越来越多的关注如第1节所述，WSAL方法可以分为两类，即自顶向下和自底向上的方法。在自上而下的流水线中（例如，UntrimmedNet[49]），首先学习视频级分类模型，然后选择具有高分类激活的帧作为动作位置。W-TALC [34]和3C-Net[29]还强制来自同一类的前景特征相似，否则不相似。与自顶向下的方法不同，自底向上的方法直接从数据中产生每帧的注意力，并用注意力加权的特征训练分类模型。基于这种范式，STPN [30]进一步添加了正则化项以鼓励动作的稀疏性。AutoLoc [41]通过假设一个完整的动作片段应该看起来与其相邻片段不同，提出了外-内-对比度（OIC）损失。MAAN [55]建议抑制最突出的动作帧的主导地位，并检索不太突出的动作帧。Nguyen等人[31]提出对背景的区分能力进行惩罚的方法，并将其应用到分类模块中。此外，在[31]中应用视频级聚类然而，所有上述方法都忽略了1011t=1t=1具有挑战性的动作上下文混淆的问题所造成的缺乏逐帧标签。虽然Liuet al. [24]尝试为了使用硬否定挖掘来分离动作和上下文，他们的方法基于上下文剪辑应该是静止的这一强假设，这具有许多限制，并且因此可能对预测造成负面影响。生成模型近年来也经历了快速发展[17，10，12]。GAN [10]采用生成器来近似真实数据分布，通过生成器和训练器之间的对抗训练。怎么-学习的近似分布由生成器隐含VAE [17]通过优化数据边缘似然的变分下限来近似真实分布给定一个潜在代码，条件分布被显式地建模为高斯分布，因此数据分布可以通过对潜在向量进行采样并计算高斯来解析地表示。基于流的模型[16]使用可逆层作为生成映射，不φzψ不λtXtθy图2.DGAM的有向图模型实线表示生成模型p（z t|λ t）p<$（x t|λ t，z t），虚线表示变分近似q φ（z t|x t，λ t）到难处理的后向p（zt|xt，λt），点划线表示视频级分类模型p θ（y|x t，λ t）。联合学习φ和λ t，这与θ和λt一起形成交替优化。利用贝叶斯定理，logp（λ|X，y）= log p（X，y| λ）+log p（λ）−log p（X，y）=log p（y|X，λ）+log p（X| λ）+log p（λ）其中可以计算给定雅可比矩阵的数据分布的每一层。然而，所有层必须具有相同的尺寸，这是非常不灵活的。工作中-logp（X，y）对数p（y|X，λ）+log p（X| λ），（二）利用条件VAE（CVAE）[45]对以注意力值为条件的帧特征分布进行建模。3. 方法假设我们有一组训练视频和相应的视频级别标签。对于每个视频，我们采样T帧（片段）以提取RGB或光流特征X=（xt） T使用预先训练的模型，其中xt∈Rd是帧t的特征，d是特征尺寸。视频级标签表示为y∈ {0，1，···，C}，其中C是类的数量，0对应于背景。为了简洁起见，我们假设每个视频只属于一个类，但以下讨论也适用于多标签视频。我们的方法遵循自底向上的WSAL管道，它直接从数据中学习注意力λ =（λt）T，其中λt∈ [0，1]是帧t的注意力。在讨论我们的方法的细节之前，我们先检查本地化问题从一开始。3.1. 注意力框架在基于注意力的动作定位问题中，目标是预测帧注意力λ，这相当于解决最大后验概率（MAP）问题：其中在最后一步中，我们丢弃常数项logp（X，y）并假设λ的一致先验，即，p（λ）=const.因此，我们的优化问题变为最大log p（y|X，λ）+log p（X| λ）。（三）λ∈[0，1]该公式表示优化λ的两个不同方面。第一项log p（y|X，λ）偏好具有高区分能力的λ用于动作分类，这是以往工作中的主要优化目标。相反，第二项log p（X| λ）迫使从注意力λ准确地预测帧的表示。考虑到前景和背景之间的特征差异，该目标鼓励模型对不同的特征施加不同的关注。具体地说，我们利用一个生成模型来逼近p（X| λ）和力特征X被模型精确地重建。图2显示了上述问题的图形模型。生成模型中的模型参数（θ，θ，φ）和潜在变量（zt）将在后面讨论在（3）的基础上，我们的方法框架由两个部分组成，即，区别性注意力建模和生成性注意力建模，如图3所示。3.2. 区分性注意建模区别注意模块学习帧在-Maxλt∈[0，1]logp（λ|X，y），（1）tention by optimizing the video-level recognition task. 具体地，我们利用注意力λ作为权重来执行节奏-其中p（λ|X，y）是未知的概率分布，给定X和y的λ。在没有帧级标签的情况下对视频中的所有帧进行平均池化，并产生由下式给出的视频级前景特征xfg∈Rd（λ的地面真理），很难近似和操作。最小化p（λ|X，y）直接。因此，我们将操作-xfg=ΣTt=1Tλtx λΣ1012不.（四）t=1t1013φt=1ψ不不图3. 框架概述。所提出的模型在两个交替的阶段（a）和（b）中训练。在阶段（a）中，生成模型（CVAE）被冻结。注意力模块和分类模块被更新为基于分类的区分损失Ld、基于表示的重建损失Lre和正则化损失Lguide。在阶段（b），注意和分类模块被冻结。CVAE使用损失LCV AE进行训练，以重建具有不同λ的帧的表示。由于地面真实值λ不可用，我们利用注意力模块预测的λ作为“伪标签”进行训练。类似地，我们也可以利用1−λ作为权重来计算背景特征xbg：条件分布指示生成过程，其通常用神经网络ΣTX = Σt=1 （1−λt）x不.（五）f（·），称为解码器。关键是-Hind是对z值进行采样，bg试验t=1（1−λt）x，这意味着我们需要一个近似值qφ（z|x）为了优化λ，我们鼓励前景特征xfg的高区分能力，同时鼓励背景特征xbg的任何区分能力[31]。这相当于最小化以下的区别损失（即，softmax损失）：Ld=Lfg+α·Lbg=−logpθ（y|xfg）−α·logpθ（0|（xbg），（6）其中α是一个超参数，pθ是我们的分类模块，由一个全连接层建模，每个类c的权重为wc∈Rd，下面是一个softmax层。在训练过程中，注意模块和分类模块到棘手的后p（z|X）。φ表示近似模型的参数，qφ（z|x）也经由被称为编码器的神经网络工作fφ（·）来估计。 VAE 包含编码器 qφ （ z|x ）和解码器 p∈（x|z），并通过最大化变分下限来学习参数：JVAE=−KL （ qφ （ z|x ） ||p （ z ）） +Eq （ z|x ） [logpψ（x|z）]、（8）其中KL（q||p）是p与q的KL散度。在我们的DGAM模型中，我们期望基于注意力λ生成观察X，即， p（X| λ），其可以是被联合优化。这部分的图形模型是记作p（X| λ）= λTp（xt|（1）假设：如图2中的点划线所示。3.3. 生成性注意建模视频中帧之间的差异。同样，我们引入一个潜在变量zt，并尝试从zt生成每个xt和λt，这形成了条件VAE问题：区别性注意力优化通常难以在分离上下文和前景时，p（xt|λt）=Ep（z|λ）[p<$（xt|λt，zt）]。（九）智能注释不可用。基于上下文与前景在特征表示方面的不同，我们利用条件变分自动编码器（CVAE）来对不同帧的表示分布进行在解释细节之前，我们简要回顾一下变分自动编码器（VAE）。给定观测变量x，VAE[17]引入了一个潜在变量z，并旨在从z生成x，即，注意，xt的期望分布被建模为高斯分布，即，p（xt|λt，zt）=N（xt|f∈（λt，zt），σ2∈I），其中f∈（·）是解码r，σ是r型参数r，I是单位矩阵.理想情况下，zt是从先前的p {\displaystyle p}（zt）中采样的|λt）。在DGAM 中，我们将先验设置为高斯，即，pψ（zt|λt）=N（zt|rλt·1，I），其中1是全1向量，r是指示不同注意力值λ t的先验之间的差异的超参数。当r= 0时，p（x）=Ep（z）[p]（x）|z）]、（7）先验p（zt|λt）与λt无关。在CVAE的训练过程中，我们还近似ψ1014其中，表示生成模型的参数，是先验的（例如，一个标准高斯），和p（x|z）是的顽固性后 p（zt|xt，λt）通过高斯qφ（zt|xt，λt）= N（zt|（1）、（2）、（3）、（4）、（5），1015不φ不不不不不t=1φ不不不编码器fφ（xt，λt）的输出。然后我们最小化变化损失LCVAE：其中wc表示类别c的分类模块的参数。λfg和λbg分别用于地面和背面。t tLCV AE=−Eq（z|x，λ）logp（xt|λt，zt）地面TCAM，分别。G（σs）是高斯光滑的滤波器的标准差σs，而σs表示卷积，+ β·KL（q φ（z t|x t，λ t）||pψ（z t|λ t））第所生成的λfg和λbg被期望是一致的。t t1ΣL（十）帐篷与自下而上，类不可知论的注意λ，因此，≃ −Ll=1logp（x t|λ t，z（l））损失L引导可以配制成+β·KL（q φ（z t|x t，λ t）||p ψ（z t|λ t）），L导轨=1ΣT|+的|λt − λ bg|.|.（十五）其中z（l）是来自q（z x，λ）的第l个样本。注意到TT Tt=1tφ不|tt期望Eq（z）的Monte Carlo估计|x，λ）（·）被用于L个样本。 β是用于重建质量和采样精度之间的权衡的超参数。对于λ的生成注意力建模，我们固定CVAE并最小化重建损失Lre，由下式给出：总之，我们通过交替执行以下两个步骤来优化整个框架：1. 更新注意和分类模块，包括损失L=Ld+γ1Lre+γ2Lguide，（16）Lre=− ΣTt=1日志、、、E p（zt|λt）[p<$（xt|λt，zt）]（十一）其中γ1，γ2表示超参数。ΣT≃ −t=1日志，1公升Ll=1、p（x t|λ t，z（l）），2. 用LCVAE丢失更新CVAE。整个架构如图3所示。其中z（l）是从先前的p {\displaystyle p}（zt）中采样的|λt）。在我们的实验中，L被设置为1，并且（11）可以写为3.5.动作预测要在推断期间为视频生成动作建议，请执行以下操作ΣTLre=−t=1ΣTlog p（x t|λ t，z t）t=1||二、||2. （十二）恩，我们把视频传给DGAM，λ=（λt）T。通过过滤掉关注度较低的帧，生成注意建模的图形模型在图2中用实线和虚线示出。在我们的框架中，CVAE不能直接和单独优化，由于地面真理λt的不可用。因此，我们建议交替训练注意模块和CVAE，即，我们首先用注意力模块给出的λt的“伪标签”更新CVAE这两个阶段重复几次迭代。既然存在比阈值tatt，我们提取连续的片段，高关注值作为预测位置。对于每个段[ts，te]，我们将具有注意力的特征暂时地池化，并且得到类c的分类得分s（ts，te，c），其是分类模块在soft-max之前的输出。我们进一步遵循[41，24]，通过减去其周围的得分来细化s（ts，te，c）。最后的分数s（ts，te，c）计算如下：s（ts，te，c）=s（ts，te，c）−η·s（ts−te−ts，ts，c）用于注意力建模的其它损失项（例如，Ld），伪标签可以是高质量，因此良好的收敛可以被达到。实验结果从经验上验证了这一点。3.4. 优化除了上述目标之外，我们还利用自引导正则化[31]来进一步细化注意力。时间类激活图（TCAM）[30，60]是4-η·s（te，te+te−ts，c），4其中η是减法参数。4. 实验4.1. 数据集和评估指标（十七）用来生成自上而下的、类感知的注意力地图。具体地，给定具有标签y的视频，通过下式计算TCAM：WTx为了进行评估，我们在两个基准点THUMOS 14 [13]和ActivityNet 1.2 [3]上进行实验。在培训期间，只有视频级别的类别标签可用。THUMOS 14包含来自20个班级的视频埃夫里经验y不本地化任务我们按照惯例训练-1016λt=G（σs）Cc=0expΣCWTxCWTx、（十三）使用200个视频进行验证，并使用212个视频进行测试。请注意，我们排除了错误注释的布雷伯格c=1expctλt=G（σs）Cc=0expWTxC，（14）来自测试集的视频#270，如下[31，58]。该数据集其精细注释的动作实例具有挑战性。每个不不1017表1. THUMOS 14上的注意力评价。 The “Old”(O)是在没有生成注意力建模的情况下训练的，并且我们通过从这两个模型中交替选择注意力（Att）和分类（Cls）模块来组装特定的模型AttCLS0.3mAP@IoU0.4 0.5 0.60.7OO43.835.826.718.29.7ON44.236.127.018.79.8NO46.138.228.819.411.2NN46.838.228.819.811.4视频平均包含15.5个动作片段。动作实例的长度变化很大，从几秒到几分钟。视频长度也从几秒到26分钟不等与其他大规模数据集相比， ActivityNet1.2 、THUMOS 14的训练数据较少，对模型的泛化能力和鲁棒性要求较高ActivtyNet1.2包含100个视频类，具有视频级标签和时间注释。每个视频平均包含1.5个动作实例。在[49，41]之后，我们在4819个视频的训练集上训练我们的模型，并在2383个视频的验证集上进行评估。评估指标。我们遵循标准评估方案，并报告不同交集与并集（IoU）阈值下的平均精度（mAP）。计算结果使用基准代码提供的主动- tivityNet官方代码库2.为了公平比较，THUMOS 14上的所有结果在五次运行中取平均值。4.2. 实现细节我们利用在Kinetics [14]上预训练的I3D [4]网络作为特征提取器3。具体来说，我们首先使用TV-L1算法从RGB数据中提取光流[35]。然后，我们将两个流分成不重叠的16帧片段，并将它们发送到预先训练好的I3D网络中，以获得每个片段的两个1024维特征帧。我们为RGB和流训练单独的DGAM在推理过程中，将它们的前推与非最大后推（NMS）相结合。在[30，31]之后，我们在训练期间将所有视频的T设置为400。在评估过程中，如果帧数小于Tmax，我们将每个视频的所有帧都馈送到我们的网络，否则我们均匀地对Tmax对于THUMOS 14，Tmax为400，对于ActivityNet 1.2，Tmax为200。我们设置 α=0 。 03 在 Eq. (6) 且 β=0 。 1 在 Eq 。（十）、由方程式(16)，我们将γ1设为0。5用于RGB流，0. 3为流动流。γ2设为0。1.一、整个架构使用PyTorch [33]实现，并在单个NVIDIA上进行训练2https://github.com/activitynet/ActivityNet/tree/master/Evaluation网站3https://github.com/deepmind/kinetics-i3d网站表2. THUMOS 14上有/没有生成注意模型的统计比较。↓表示越低越好，↑表示越高越好。有关注释的详细信息，请参阅第4.3节。度量W/Ow/|att-gt|//下一页|GT|↓0.7770.698|gt− att|//下一页|GT|↓0.8580.707|（cls − gt）|//下一页|GT|↑1.5221.543|（att）− cls|//下一页|GT|↑0.0010.001Tesla M40 GPU 使用Adam 优化器[15] ，学习率为10−3。为了稳定DGAM的训练，当更新LCVAE和Lre时，我们在前300个epoch中使用预热策略。4.3. 注意力的统计评价我们首先评估了DGAM的学习注意力及其在处理动作上下文混淆方面的有效性。为了进行比较，请注意，只有注意和分类模块在推理过程中涉及。在评估时，我们通过从“旧”或“新”模型中交替选择两个模块来组装特定模型。表1详细描述了THUMOS 14上的mAP结果。可以发现，新的注意力模块在很大程度上改善了性能，而新的分类模块几乎没有改善。这一观察结果表明，DGAM确实学习到了更好的注意力值。即使使用我们进一步收集了几个统计数据，以直观地显示表2中的在“老”（w/o GAM）和“新”（w/ GAM）模型上进行实验。特别地，att（cls）指示具有大于阈值的注意力值（分类分数）t= 0。5，并且gt是地面实况帧的集合 |·|表示集合的大小。尽管此类简单的阈值并不完全是预测的位置，它在一定程度上反映了定位的质量。在表2中，|att-gt|/|GT|或|gt − att|/|GT|表示注意力错误捕获或忽略的帧的百分比。它表明，无论是错误激活和遗漏，可以通过GAM来减少此外，改善|/|GT|证明了GAM可以更好地过滤掉假阳性（例如，|demonstrates that GAM can bet- ter filter out the falsepositives (e.g.上下文帧）。|/|GT|测量注意力如何捕获假阴性，即，|measures how atten- tion can capture thefalse negatives, i.e., 行动框架由分类器收集。由于GAM是为了排除分类器产生的假阳性而设计的，所以GAM对它的贡献很小也就不足为奇了1018表3. THUMOS 14测试集的结果。我们报告了IoU阈值为0.1：0.1：0.9的mAP值。最近的作品在完全监督和弱监督设置的报告。UNT和I3D分别代表UntrimmedNet和I3D特征提取器。我们的方法优于最先进的方法，特别是在高IoU阈值下，这意味着我们的模型可以产生更精细，更精确的预测。与完全监督方法相比，我们的DGAM可以实现接近甚至更好的性能。方法监督特征0.10.20.3mAP@IoU0.4 0.50.60.70.80.9S-CNN [42]充分-47.743.536.328.719.010.35.3--R-C3D [52]充分-54.551.544.835.628.9----SSN [58]充分-66.059.451.941.029.8----Chao等人[五]《中国日报》充分-59.857.153.248.542.833.820.8--BSN [23]充分---53.545.036.928.420.0--P-GCN [56]充分-69.567.863.657.849.1----[44]第四十四话弱-36.427.819.512.76.8----[49]第四十九话弱-44.437.728.221.113.7----Zhong等[59个]弱-45.839.031.122.515.9----[41]第四十一话弱UNT--35.829.021.213.45.8--[26]第二十六话弱UNT--37.030.923.913.97.1--STPN [30]弱i3D52.044.735.525.816.99.94.31.20.1MAAN [55]弱i3D59.850.841.130.620.312.06.92.60.2W-TALC [34]弱i3D55.249.640.131.122.8-7.6--Liu等[24日]弱i3D57.450.841.232.123.115.07.0--[54]第五十四话弱i3D--39.5-24.5-7.1--[29]第二十九话弱i3D56.849.840.932.324.6-7.7--Nguyen等人[三十一]弱i3D60.456.046.637.526.817.69.03.30.4DGAM弱i3D60.054.246.838.228.819.811.43.60.4表4. THUMOS 14上DGAM中每个设计的贡献注意，当添加Lre时，同时涉及LCV AE。LfgLBGL型导轨LremAP@0.5C---21.5CC--24.8CCC-26.7CCCC28.84.4. 消融研究接下来，我们研究DGAM中的每个组件如何影响整体性能。我们从直接优化基于注意力的前景分类损失Lfg的基本模型开始。背景分类损失Lbg，自引导正则化损失L引导，和fea-进一步逐步引入真实重构损失Lre注意，添加Lre表示涉及生成注意力建模，其中LCVAE也被优化。表4通过在THUMOS 14上的每个阶段多考虑一个因素总结了性能背景分类是视频识别和定位的常用方法。在我们的例子中，它是我们区分注意力模型的一部分，它带来了3.3%的性能增益。自引导正则化是我们的系统的额外优化，这导致1.9%的mAP改进。我们的生成注意模型进一步贡献了2.1%的显着提高，DGAM的性能最终达到28.8%。图4.THUMOS 14上潜在先验差异r的评价我们显示mAP@0。5、不同的Rr越大，表明在不同的关注度λ t下，z t的先验值之间的差异越大。4.5. 参数评价为了进一步理解所提出的模型，我们进行评估，以分析 DGAM 中不同参数设置的影响 mAP@0. 5 在THUMOS 14上报告。不同λt的潜在先验之间的差异。在生成式注意力建模，不同的注意力λt对应不同的特征分布p∈（xt|λt）。这些分布之间的差异可以通过从不同先验采样的潜码z t之间的差异来隐式地建模，所述潜码 z t 被建模为不同的高斯分布 pt （ zt|λt ） =N（zt|rλt·1，I）。这里r控制差异。我们每0.25计算一次r，0至1.5，结果如图4所示。总体而言，性能相对稳定，波动较小，证明了DGAM的鲁棒性。1019表5.ActivityNet1.2验证集上的结果我们报告了不同IoU阈值下的mAP和mAP@AVG（阈值上的平均mAP为请注意，“最小化”表示使用比其他更弱的特征提取器。我们的方法比最先进的方法有很大的优势，在mAP@AVG上提高了2%我们的结果也与完全监督模型相当方法监督mAP@IoU0.50.550.60.650.70.750.80.850.90.95AVGSSN [58]充分41.338.835.932.930.427.022.218.213.26.126.6[49]第四十九话弱7.46.15.24.53.93.22.51.81.20.73.6[41]第四十一话弱27.324.922.519.917.515.113.010.06.83.316.0W-TALC [34]弱37.033.530.425.714.612.710.07.04.21.518.0[54]第五十四话弱28.326.023.621.218.917.014.011.17.53.517.1[29]第二十九话弱35.4---22.9---8.5-21.1[26]第二十六话弱37.133.429.926.723.420.317.213.99.25.021.6Liu等[24日]弱36.8----22.0---5.622.4DGAM弱41.037.533.530.126.923.519.815.510.85.324.4表6.THUMOS 14潜空间维数评价我们用不同的维数2n进行实验，n=4，5，···，9。log2（dim）456789mAP@0.526.527.528.028.828.327.7潜在空间的维度。CVAE中隐空间的维数对重建质量和模型分布的复杂性至关重要。高维度可以促进特征分布的近似，从而导致更准确的注意力学习。然而，还需要更多的训练数据。我们计算了不同维数的2n，n=4，5，···，9.如表6中所示，mAP im.随着维数的增加，这表明更好的生成注意力模型。结果在维数27=128处达到峰值。之后，性能开始下降，部分原因是高维潜在空间中有限数据的稀疏性。CVAE 中的重建 - 采样权衡。方程中的超参数 β（10）平衡重建质量（第一项）和采样精度（第二项）。随着β的增大，我们期望近似的后验更接近先验，这提高了从先验中采样潜向量时的精度，而反射质量（即，学习分布的质量）将降低。我们测试从0到1的不同β。如表7所示，性能在28%至28.8%的小范围内波动，表明我们的方法对β不敏感。4.6. 与最新技术表3将我们的DGAM与现有方法在THUMOS 14上的弱监督和完全监督动作本地化进行了比较。我们的方法优于其他弱监督方法，特别是在高IoU阈值下，这意味着DGAM可以产生更精细和更精确的预测。与现有技术相比，DGAM将IoU=0.5的mAP提高了2%。注意，Nguyenet al.[31]在IoU=0.1和0.2时的性能优于我们的表7. CVAE重建-采样权衡参数的评价mAP@0. 5在THUMOS14上报道。β0.010.030.070.10.30.7mAP@0.528.228.128.428.828.028.4模型，部分原因是我们的生成注意力模型可能会丢弃分布外的硬候选者（离群值），这在IoU较低时变得很常见此外，我们的结果与几个完全监督的方法，表明建议DGAM的有效性。在ActivityNet1.2上，我们在表5中总结了性能我们的方法明显优于最先进的方法。特别地，DGAM在mAP@AVG上超过最佳竞争对手2%我们的方法还证明了与完全监督方法相当的结果。5. 结论针对弱监督动作定位中的动作上下文混淆问题，提出了一种新的判别和生成注意建模（DGAM）方法。特别地，我们研究了基于帧特征分布的逐帧注意建模问题针对上下文特征与动作特征明显不同的特点，设计了一种条件变分自动编码器（CVAE）来构造不同注意力条件下的特征学习的CVAE反过来又根据它们的特征细化所需的逐帧注意。在两个基准上进行了实验，THUMOS 14和ActivityNet1.2的仿真结果验证了本文的方法和分析。更值得注意的是，我们在两个数据集上都获得了最新的结果。致谢本工作得到北京市科学技术委员会Z181100008918005号基金和国家自然科学基金61772037号基金的支持。石百峰教授感谢蒋婷婷和刘道长的启发性讨论。1020引用[1] Humam Alwassel，Fabian Caba Heilbron，and BernardGhanem.行动搜索：发现视频中的动作及其在时间动作定位中的应用。在欧洲计算机视觉会议（ECCV）的会议记录中，第251-266页[2] 夏马尔·布赫，维克多·埃斯科西亚，伯纳德·加尼姆，李飞飞，胡安·卡洛斯·尼布尔斯.端到端，单流时间- poral动作检测未修剪的视频。在英国机械视觉会议（BMVC），第2卷，第7页，2017年。[3] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition（CVPR），第961-970页[4] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议（CVPR）的论文集，第6299-6308页，2017年[5] Yu-Wei Chao ， Sudheendra Vijayanarasimhan ， BryanSey-bold ， David A Ross ， Jia Deng ， and RahulSukthankar.重新思考更快的r-cnn架构用于时间动作本地化。在计算机视觉和模式识别（CVPR）IEEE会议论文集，第1130- 1139页[6] Xiyang Dai ， Bharat Singh ， Guyue Zhang ， Larry SDavis，and Yan Qiu Chen.用于视频中的活动局部化的时间上下文网络。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第5793-5802页，2017年。[7] Jiyang Gao，Zhenheng Yang，and Ram Nevatia.用于时间动作检测的级联边界回归英国机器视觉会议（BMVC），2017年。[8] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEInternational Conference on Computer Vision（ICCV），第1440-1448页[9] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的功能层次结构，用于准确的对象检测和语义分割。在 IEEE 计算机视觉和模式识别会议（CVPR）的会议记录中，第580-587页[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展（NeurIPS），第2672-2680页，2014年[11] Fabian Caba Heilbron、Wayner Barrios、Victor Escorcia和Bernard Ghanem。Scc：语义上下文级联，用于有效的动作检测. 2017年IEEE计算机视觉和模式识别会议（CVPR），第3175- 3184页。IEEE，2017年。[12] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess

下载后可阅读完整内容，剩余1页未读，立即下载