弱监督时间动作定位下的分类定位框架

5 浏览量更新于2023-10-14 收藏 1.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8002弱监督时间动作定位黄林江1、2王亮3李洪生1、2*1香港中文大学多媒体实验室2香港感知与交互智能研究中心3中国科学网址：ljhuang524@gmail.com，wangliang@nlpr.ia.ac.cn，网址：www.example.com，hsli@ee.cuhk.edu.hk摘要作为高层次视频理解的一项挑战性任务在仅具有视频注释的情况下，大多数现有方法寻求利用分类定位框架来处理该任务，分类定位框架通常采用选择器来选择动作的高概率的片段或即前景。然而，现有的前景选择策略具有仅从前向和后向考虑单方面关系GT前景选择评分动作分值前景选择评分动作分值注意机制多示例学习Ground to actions，这不能保证前台-动作的一致性。本文提出了一个基于I3 D主干的FAC-Net框架，在该框架上增加了三个分支，分别是类间前景分类分支、类无关注意分支和多实例学习分支。首先，我们的类明智的前地分类分支规则化的动作和前景之间的关系，以最大限度地提高前景-背景分离。此外，采用类无关的注意分支和多实例学习分支来规范前景-动作一致性，帮助学习有意义的前景分类器。在每个分支中，我们引入了一个混合注意力机制，该机制为每个片段计算多个注意力分数，以关注有区别和无区别的片段，以捕获完整的动作边界。在THUMOS14和ActivityNet1.3上的实验结果证明了我们的方法的最先进的性能。1. 介绍视频中的时间动作定位已广泛用于各个领域[39，38]。该任务旨在沿着时间维度定位未修剪视频中的动作实例大多数现有的方法[45，35，42，49，4，18，20]都是以完全监督的方式训练的。但这种*通讯作者。图1.“HammerThrow”动作的示例条形码是地面实况（GT）。以下折线图是前地选择分数和逐帧分类分数。我们展示了两种代表性方法STPN [31]（注意力机制）和W-TALC [26]（多示例学习）的结果。很明显，这些方法不能保证前景动作的一致性，导致妥协的结果。帧级注释的要求不适合现实世界的应用，因为密集地注释大规模视频是昂贵且耗时的。为了解决这个困难，已经开发了仅具有视频级标签的弱监督方法[14，1，41]，其更容易注释。在各种弱监督中，视频级类别标签最容易收集，因此最常用[41，26，31]。由于缺乏逐帧注释，现有的工作主要包括分类定位流水线[41，44]，其中一个重要的组件是选择器，用于选择具有高动作概率的片段，即前景。用于前景选择的现有机制可以被分类为两种主要策略，即，注意力机制[26，19]和多实例学习（MIL）[31]。然而，这两种策略都有其固有的缺点。如图1，注意力机制（无论是类不可知的注意力或类明智的注意力）通常遭受的差异[37，50，19]之间的分类和检测，即，注意力集中在大多数人身上。8003主动的动作片段或错误地关注背景片段。另一方面，多实例学习应该依赖于时间上的前k个池化操作，但是不能保证所有前k个片段都是前景，因为数字k通常由人类定义。综上所述，现有的方法缺乏保持前景和动作之间的一致性的能力，即，前景和动作应该是相互包含的。在这项工作中，我们提出了明确的建模和正则化的前景动作一致性，以解决行动的本地化问题。鉴于现有的前景选择策略只考虑从前景到动作的单向关系，我们提出了一个框架，以进一步考虑双边关系。基于一个共同的视频骨干，我们的方法appends-pends三个分支上。第一个分支，称为类前景分类分支（CW分支，第3.2节），试图对动作到前景的关系进行建模。同时，它的作用类似于噪声对比估计（NCE）[6，28]，其实际上最大化前景特征和地面实况动作的特征之间的互信息（MI）的下限，从而导致更好的前景-背景分离。第二个分支（CA分支，Sec.3.3）引入了一个类不可知的注意力机制，该机制对反向前景-动作关系进行建模，以补充第一个分支，从而建立前景-动作一致性。此外，它能够学习语义上有意义的前景特征。第三个分支（MIL分支，第3.4节）是一个类似MIL的流水线，用于进一步改进视频分类并促进在CW分支中学习类的注意力。在每个分支中，我们采用混合注意机制来减轻注意学习并促进精确的前地预测。除了关注视频中的关键帧之外，混合注意力机制还可以学习适应区分度较低的片段，这有利于捕获准确的动作边界。为了评估我们的方法的有效性，我们在两个基准测试中进行了实验，THUMOS14 [11]和ActivityNet1.3 [2]。两个基准测试的实验结果表明，优于国家的最先进的方法的性能。我们的主要贡献有三方面。(a)我们引入了一个类的前景分类流水线，以提高前景预测的鲁棒性该管道对大多被现有方法忽略的前景动作一致性进行建模和正则化(b)我们提出了一种混合注意机制来改善注意学习，并帮助捕捉准确的动作边界。（c）所提出的按类前景分类流水线可以在现有方法上发挥补充作用，以一致地改善动作定位性能。2. 相关工作完全监督的时间动作定位。与动作识别不同[12，36，40，3]，时间交流动作定位的目的是定位动作实例的起点和终点，同时识别每个动作实例的动作类别。我们将全监督方法分为两类。第一类中的方法采用多阶段流水线，包括建议生成、分类和建议细化。这些方法主要集中在提高提案的质量[5，18]和学习鲁棒和准确的分类器[35，49]。在第二类中，方法旨在以帧级粒度生成动作标签[33，15，47]，这需要额外的合并步骤来获得最终的节奏边界。即使这些方法已经取得了有前途的性能，它们严重依赖于逐帧注释。弱监督时间动作定位。最近，已经进行了许多尝试来解决具有弱标签的时间动作定位。UntrimmedNet [41]提出使用注意力机制或多实例学习来选择相关片段，随后的大多数方法都遵循这一点。基于注意力的方法旨在通过使用注意力机制来选择高动作概率的片段。例如，STPN [26]在注意力序列上引入了稀疏正则化以捕获视频的关键帧3C-Net[25]提出了学习类式注意力以获得用于计算中心损失的类式特征。一些方法[27，24，9]利用前景和背景的互补性质来生成前景和背景注意序列以明确地对背景进行建模。HAM-Net [10]提出了一种混合注意力机制，包括时间软、半软和硬注意力，以捕获完整的动作实例。注意，我们的方法还利用混合注意力机制，但完全不同于HAM-Net。首先，我们利用不同的温度值来生成多个前景注意序列，而HAM-Net主要通过阈值来生成软，半软和硬注意序列。其次，我们只生成前景注意序列，而HAM-Net的硬注意序列还包含背景片段。基于MIL的方法[31，16，24]可以被视为基于多实例学习原理的硬选择机制。与自动学习注意力权重的基于注意力的方法相比，基于MIL的方法主要依赖于前k个选择操作来选择包（视频）中的正实例。然而，如上所述，基于注意力的方法和基于MIL的方法都不能保持前景动作一致性。有一些方法已经注意到前景动作一致性的重要性。例如，Refine-Loc [29]通过扩展先前的检测结果生成片段级硬伪标签，TSCN [48]从前景注意序列生成伪地面实况，EM-MIL [21]将伪标签生成放入期望最大化框架中。也有一些方法[27，24，10]试图使用类8004--∈∈我我我Σ一∈∈i=1K激活作为自上而下的监督来引导前台注意力生成。相比之下，我们的方法不需要额外的监督来执行前景动作一致性，并且在理论上我们可以实现更好的前景-背景分离。3. 该方法在本节中，我们将详细说明所提出的方法。所提出的方法的概述如图所示。二、问题定义。设V={v t}L 是tem的视频-所获得的前景分数仅集中在区别性动作片段上。直观地说，前景和动作之间的合理关系应该是双边的，进一步考虑动作与前景的关系是必要的。受利用前景到动作关系的类别不可知注意力管道[26，19，16]的启发，我们提出了一种称为类别式前景分类管道的对称管道作为我们的方法中的分支。我们随机初始化动作分类器WaR（C+1）×D和前景分类器WfRD，其中C表示动作类别的数量，并且第（C+1）个分类器W fR D表示前景分类器W f R D。孔长Lt=1. 假设我们有一组N个训练类对应于背景。鉴于嵌入视频{Vi}Ngories{y}他们的行为，都是以自己的行为为标准的。y是二进制向量，其指示Xe，我们计算Xe和之间的余弦相似度Wa，以获得类激活分数Sa∈RT×（C+1），如每个动作的存在/不存在。在推断期间，对于视频，我们预测一组动作实例（c，q，t，s，t，e），其中c表示预测的动作类，q是置信度分数，t，s和t，e表示开始时间和结束时间。关系定义。（1）前景-动作关系：前景与动作的单向关系，即前景必须是某种行动。(2)动作-前景关系：动作与前景的单向关系，即动作必须是前台。Sa（t，j）=δ·cos（Xe（t），Wa（j）），（1）其中Xe（t）表示第t个片段的嵌入，以及δ是控制值的标度的标量为了建立动作到前景的关系，我们遵循动作片段也是前景片段的路线，并计算类关注度分数 AaRTX（C+1），其用于将嵌入Xe聚合到视频特定的类特征Fa∈R（C+1）XD中，如下所示：概况.在我们的方法中有四个模块。基于exp（τ·Sa（t，j））（二）在I3D主干上，我们利用特征嵌入模块（第3.1节）来提取面向任务的特征。然后，将三个分支附加到它的顶部第一个分支，Aa（t，j）=Fa（j）=Σt、exp（τ·Sa（k，j））Aa（t，j）Xe（t），（3）被命名为类式前景分类分支（CW分支，第3.2节），试图对动作-前景关系进行建模。第二个分支（CA分支，Sec.3.3）引入了一个类不可知的注意机制来对反向前景-动作关系进行建模，第三分支（MIL分支，第3.4节）是类似MIL的流水线，用于改进视频分类并促进CW分支中的类注意力的学习。3.1. 特征嵌入模块为了提取面向任务的特征，我们利用包括两个部分的特征嵌入模块第一部分是其中t表示第t个片段，j表示第j个类别，并且τ是控制softmax函数的平滑度的温度超参数。显然，如果在视频中执行第j个动作，则特征Fa（j）应当被识别为前景。相反，如果第j个动作在视频中不存在，则其应当被分类为背景。该观察促使我们引入用于特征Fa的前景分类过程。具体地，给定前景分类器Wf，我们可以获得类前景激活得分Ra∈Rc+1，并且类前景置信度Pa∈Rc+1为Ra（j）=δ·cos（Fa（j），Wf），（4）预先训练的网络，即，I3D [3].在视频中，我们首先...分别对RGB特征和光流特征进行跟踪exp（Ra（j））一（五）P（j）=Σexp（R（i））。使用两层时间卷积网络[31，19]来学习面向任务的特征XeRT×D，其中T表示片段的数量，D是维度。3.2. 类式前景分类分支如上所述，前景和动作应该是一致的，相互包容的。然而，大多数现有方法只考虑前景与动作的关系，换句话说，它们只利用前景必须是动作的先验。一个可能的结果是Ni=1得双曲余切值.固定骨干网。在特征编码之后，我们em-8005一其中y=y/y（i）是归一化的地面真值归一化交叉熵损失Lcw计算为Lcw=−E[yTlogPa]，（6）C+1i=1向量，且y（C +1）= 0。此时，我们实际上将多标签分类问题转化为多个双标签分类问题。nary分类问题。讨论：CW分支就算简单，也玩在前景-背景分离中的重要作用。8006J∈ΣΣFfΣ图2.我们的方法概述我们有三个主要分支。类式前景分类分支（CW分支）寻求建立从动作到前景的关系，而类不可知注意力流水线（CA分支）补充第一分支的从前景到动作的反向关系，以便建立前景-动作一致性。多实例学习分支（MIL分支）是一个类似MIL的管道，为视频分类提供不同的视角，并促进类注意力的学习。有关混合注意力策略的更多细节，请参见图10。3.第三章。具体地，我们可以变换Eq。(5)成exp（δ·cosj）（七）分支），其还使得能够学习语义上有意义的前景分类器W_f，与CW分支起补充作用我们首先计算帧方向Pa（j）=exp（δ·cos）+Σ我-我、jexp（δ·cosi）前台激活分数S地面注意力得分FRT以获得前-T为：其中cosj是cos（Fa（j），Wf）的简化。如果动作类别i（i=j）在视频中不存在，则预期Af∈RSf（t）=δ·cos（Xe（t），Wf），（8）特征Fa（i）是背景特征。所以exp（τ·Sf（t））（九）是来自前景的一个正样本（如果在视频中仅存在一个类别）和来自背景的C个负样本Af（t）=K exp（τ·Sf.（k））地上因此， Eq 。（ 7 ）类似于噪声对比估计（NCE）[6，28，7]过程，最小化等式（7）。(6)实际上最大化了前景分类器W_f和特征F_a（j）之间的互信息（MI）的下限。此外，背景特征是从特征Fa（j）的相同视频中采样的，它们可以被视为硬负样本，因为动作实例通常被视觉上相似的剪辑包围[19]，这进一步保证了前景-背景分离。在那里-同样，我们可以获得特定于视频的前景特征Ff∈RD通过特征聚合过程Ff=t Af（t）Xe（t）。（10）然后我们计算特征之间的余弦相似度Ff和动作分类器Wa，以获得视频级类别置信度得分Pf∈RC+1因此，CW分支不仅将动作-前景关系引入到我们的方法中，而且还使得能够学习鲁棒的和有区别的特征。不过，上述分析应该是建立在一个有意义的前景P（j）=exp（δ·cos（Ff，Wa（j）。exp（δ·cos（F，Wa（i）归一化的交叉熵损失Lca被计算为（十一）特征，但是对于背景类，在前景分类器的特征W_f和背景特征W_a（C+1）之间将存在模糊性，导致如我们的实验中所示的较差性能。因此，增强“世界观”的前景意义是十分必要的.此外，CW分支只考虑了从动作到前景的单向关系，这不足以建立前景-动作一致性。3.3. 类不可知注意分支为了弥补从前景到动作的关系的丢失，我们采用了类不可知的注意分支（CALca=−E[yTlogPf]，（12）其中y与CW分支相同，即 y（C+1）=0。这样，CA分支与CW分支正好是对称的流水线，这也与它们引入的逆关系相一致。3.4. 多实例学习分支除了类不可知的注意力管道之外，多实例学习不前景激活评分不不前景注意力评分一D视频特定前景特征C SCA前景分类器DC视频不RGBD分支或类激活评分班级注意力评分视频特定类特征流动作分类器C不一CSD不不DCW分支C余弦相似度一TTemporal SoftmaxS分类Softmax一S聚集密耳......C+1...C+1......C+1C+1...C+1C+1C+1我8007（MIL）管道也是CW分支的一个很好的首先，MIL流水线还考虑了从前景到动作的单向关系8008L∈然而，仅考虑关键帧是不够的，假阴性也可能增加。幸运的是，由于关键帧是由新的注意力分数（图3. CW分支的混合注意力策略的图示。我们使用不同的方法来计算类的atten-τ>1 .一、0）、原始注意力分数（τ=1. 0）必须容纳一些区分度较低的动作片段，这为我们的方法提供了回退机制。因此，使用混合注意策略将是提高性能的合理如图所示。3、对于CW分支，我们首先使用N个不同的τ来计算N个类注意力得分{Ai}N . 每一个班级的注意力N τ N得分Aia i=1得分{Ai}N，视频级前台激活得分a，我们可以获得视频级前景活动。a i=1I N评分Ri（等式10）（四））。最后，我们对{Ri}N和{Ra}i=1进行平均以获得最终前景激活aa i=1得分其他两个分支也以同样的方式使用这种策略第二，MIL的时间前k平均池化实际上是类方面的硬注意力操作，这可以帮助更好地学习CW分支中的类方面的注意力分数此外，MIL更关心类是否出现在整个视频中，而类不可知的注意力更多地集中在局部（因为聚合对于每个帧是线性的），这两个流水线提供了两个不同的视角来对视频进行分类，并且在某种程度上是互补为了更好地将MIL流水线引入到我们的框架中，我们将时间top-k平均池化改为类式软注意力操作，即，我们共享类的注意力分数Aa（等式2）。(2))然后又开始攻击门控逐帧类激活分数Sa（等式2）。（1））转换为视频级类别激活分数Rm∈RC+1，为Rm（j）= Σt Aa（t，j）Sa（t，j）.（十三）类似于CW分支和CA分支，我们可以获得其对应的预测PmRC+1和归一化交叉熵损失mil。注意，由于背景片段存在于所有视频中，所以MIL分支的地面实况y应当具有背景，即， y（C +1）= 1。3.5. 混合注意力可以看出，注意机制在我们的框架中起着重要的作用。然而，即使我们努力建立前景动作的一致性，我们发现，注意力分数仍然不能很好地覆盖地面真相。正如[19]中所述，注意力分数倾向于关注有区别的前景片段和视觉上相似的背景片段。为了解决这个问题，同时保持注意力为基础的结构，我们提出了一种混合注意力策略。动机来自于[26]的类似观察，即，可以通过识别一组关键帧来识别动作。如果我们能够使注意力分数集中在关键帧上，则假阳性有望大大减少。为了实现这一点，我们利用一种简单但有效的方法，该方法使用大的温度超参数τ来产生注意力（例如，当量(2)和等式（9））。以这种方式，注意力分数将集中在高置信度的片段周围。使用softmax操作（等式10）。(5))以获得概率置信度分数。其他两个分支以相同的方式使用混合注意策略。3.6. 培养目标我们的模型与三个视频级分类损失联合优化。总损失函数如下：Ltotal=λcwLcw+λcaLca+λmilLmil（14）其中λcw、λca和λmil是平衡超参数。我们的方法也可以在没有后台类的情况下工作。此时，我们使用原始地面真值y∈RC。4. 实验4.1. 数据集我们在两个动作定位数据集THUMOS14 [11]和ActivityNet1.3 [2]上评估了我们的方法。请注意，我们只使用视频级别的类别标签进行训练。THUMOS 14.我们使用THUMOS14中的子集，该子集为20个类提供了逐帧注释。我们在其验证集中的200个未修剪的视频上训练模型，并在测试集中的212个未修剪的视频上对其进行评估。ActivityNet1.3. 该数据集涵盖了200个复杂的日常活动，提供了10，024个用于训练的视频，4，926个用于验证，5，044个用于测试。我们使用训练集来训练我们的模型，使用验证集来评估我们的模型。4.2. 实现细节型号详情。我们使用I3D [3]进行特征提取。面向任务的特征提取网络分为两层，输出通道分别为1024和1024余弦相似度的比例因子δ被设置为5.0。我们使用的混合注意力策略在三头的方式，与温度超参数为1.0，2.0和5.0。我们使用ReLU作为我们模型中的激活函数，并且在所有激活函数之前使用dropout层。培训详情。我们的方法是用Py-Torch [30]实现的。在训练过程中，我们循环小批量中的每个视频，并累积梯度以处理可变的视频长度。我们使用Adam [13]来优化我们的模型，训练过程在100个epoch处停止，其中不一CMS不D不C余弦相似度不时间Softmax一聚集S分类SoftmaxM平均...C+1C+1......8009†表1.THUMOS14数据集的检测性能比较列AVG指示IoU阈值0.1：0.1：0.7处的平均mAPUNT和I3D分别表示UntrimmedNet特征和I3D特征。意味着该方法利用附加的弱监督。FAC-Net w/o BG表明我们的方法不使用背景类。mAP @ IoU（%）学习率为0.0001。平衡超参数λcw，λca和λmil分别为1.0、0.1和0.1测试详情。我们将整个视频序列作为测试的输入。当本地化动作实例时，类激活序列被上采样到原始帧速率。我们拒绝其类概率Pf（j）（等式2）的类别。（11））低于0.1。在[16]之后，我们使用一组阈值来获得预测的动作实例，然后我们执行非最大值抑制以去除rgb流和光流流之间的重叠片段。4.3. 与最新技术水平的如Tab.所示1，在THUMOS14上，即使我们不采用背景类（即，FAC-Net w/o BG），我们的方法仍然优于现有的背景建模方法[27，16]，表明建立前景动作一致性的有效性。此外，与背景类，我们的方法获得了一个新的国家的最先进的性能，实现增益方面的mAP在大多数IoU thresholds和平均mAP。值得注意的是，我们的方法在IoU 0.1和0.2时优于一些完全监督的方法，体现了弱监督方法的潜力。选项卡. 2展示了ActivityNet1.3数据集上的结果。正如我们所看到的，尽管架构简单，但我们的方法获得了与最新技术相当的性能。表2. ActivityNet1.3验证集的结果。AVG指示IoU阈值0.5：0.05：0.95处的平均mAP。mAP @ IoU在平均mAP方面，完全监督方法R-C3 D [42]和TAL-Net [4]分别超过11.3%和3.8%的大幅度。4.4. 消融研究我们对THUMOS14数据集进行了一组消融研究，以分析每个组件的贡献。分支分析为了计算每个分支的贡献，我们应该考虑两个问题：各分支机构的业绩如何？是什么关系监督年方法0.1 0.2 0.3 0.4 0.5 0.6 0.7平均值（0.1：0.7）充分2017201820182019R-C3D [42]TAL-Net [4]BSN [18]GTAN [20]54.5 51.5 44.8 35.6 28.959.8 57.1 53.2 48.5 42.8 33.8- -53.5 45.0 36.9 28.4 20.069.1 63.7 57.8 47.2 38.8-45.1--弱†20182019[43]第四十三话3C-网络（I3 D）68.8 60.0 48.7 34.7 23.059.1 53.5 44.2 34.1--弱201720182018201820192019201920202020202020202020202020212021--[41]第四十一话STPN（I3D）[26][34]第34话W-TALC（I3D）[31]美国（I3D）CMCS（I3D）[19][27]第二十七话BaS-Net（I3D）[16]RPN（I3D）[8]DGAM（I3D）[32]TSCN（I3D）[48]EM-MIL（I3D）[21]A2CL-PT（I3D）[23]HAM-Net（I3D）[10]UM（I3D）[17]FAC-Net w/o BG44.4 37.7 28.2 21.1 13.752.0 44.7 35.5 25.8 16.9 9.9 4.3- -35.8 29.0 21.2 13.4 5.855.2 49.6 40.1 31.1 22.859.8 50.8 41.1 30.6 20.3 12.057.4 50.8 41.2 32.1 23.1 15.0 7.060.4 56.0 46.6 37.5 26.8 17.6 958.2 52.3 44.6 36.0 27.0 18.6 10.462.3 57.0 48.2 37.2 27.960.0 54.2 46.8 38.2 28.8 19.8 11.463.4 57.6 47.8 37.7 28.7 19.459.1 52.7 45.5 36.8 30.5 22.716.461.2 56.1 48.1 39.0 30.1 19.2 10.665.4 59.0 50.3 41.1 31.0 20.7 11.167.5 61.2 52.3 43.433.7 22.9 12.163.8 57.5 48.1 40.5 31.3 20.067.6 62.1 52.6 44.333.4 22.5 12.7-27.0--31.632.436.335.336.837.037.837.737.839.841.938.842.2方法0.50.750.95AVGR-C3D [42]TAL-Net [4]26.838.2-十八点三-1.312.720.2CMCS（I3D）[19]34.020.95.721.2美国（I3D）33.721.95.5-BaS-Net（I3D）[16]34.522.54.922.2A2CL-PT（I3D）[23]36.822.05.222.5TSCN（I3D）[48]35.321.45.321.78010表3.THUMOS14数据集上的消融研究列AVG指示IoU阈值0.1：0.7处的平均mAP。CW CAMIL图4.平衡超参数λcwλca和λmil。我们在这些实验中使用了一个背景类在不同的分支机构？在选项卡中。3，即使三个分支中的每一个只考虑前景和动作之间的单向关系，CW分支也获得了更好的性能（31.2%），表明动作到前景的关系更重要，这也可以加强前景-背景分离。而且，任意两个分支的组合都能持续提高绩效，体现了三个分支之间的互补关系。特别是CW分支可以显著地提高CA分支和MIL分支的性能，平均mAP分别提高5.4%和4.8%在图4中，我们通过控制三个平衡超参数来进一步探索分支之间的关系。例如，当我们评估CW分支时，我们将λcw固定为1.0，并调整其他两个分支的平衡超参数。请注意，我们在这些实验中使用了一个我们可以发现，当λca和λmil很小时，性能下降到一个很低的水平（约6%）。原因是前景分类器W_f连同背景类别引起前景和背景的模糊，导致较差的性能。当λca和λmil较大时，性能对λcw不敏感，并且保持在有希望的水平（高于40.0%）。此外，将CW支路作为主支路可以得到最优的结果，即使将其作为辅助支路也可以提高性能。为了获得对这三个分支的直观洞察，在图1中。5，我们可视化前景激活分数（等式5）。(8))以及在分支的不同组合下的地面实况的动作激活分数。在添加CW分支之后，前台激活分数可以更好地覆盖GTCACACWCAMILCAMILCW图5.不同模型设置下的前景激活分数和动作激活分数的可视化我们在THUMOS14中展示了一个“撑杆跳”的例子为了公平比较，我们不使用背景类。地面实况，导致更准确的检测结果。混合注意力的效果。从Tab。3、混合注意能持续提高绩效，尤其是对单分支的绩效。另外泰伯四个前景评分动作分值前景分数动作分值GTW/O混合注意力混合注意力示出了关于关注次数和温度超参数τ的消融研究。我们发现，注意力的数量并不是越多越好，过多的注意力会降低性能。同样，大的τ，例如10.0，也对模型起作用，使其过于关注有区别的片段。在图6中，我们还可视化了不同混合注意力设置下的前景激活分数和动作激活分数。显然，混合注意力的引入使得能够获得更准确的前景预测。图6.不使用和使用混合注意力策略的前景激活分数和动作激活分数的可视化我们在THUMOS14中展示了一个“悬崖跳水”的例子化学品处的补充作用。鉴于观察到现有方法忽略了动作与前景的关系，直观地，CW分支可以对现有方法起到补充作用在选项卡中。5、将CW分支插入到四个弱监督方法中。我们可以发现，CW分支可以显著提高每-方法平均值（0.1：0.7）CW分支CA分支密耳分支混合关注背景类✓✓✓✓✓✓✓✓✓31.230.529.634.632.532.5✓✓35.9✓✓✓36.5✓✓34.4✓✓✓35.7✓✓35.7✓✓✓36.3✓✓✓37.5✓✓✓✓38.8✓✓✓38.3✓✓✓✓39.8✓✓✓37.6✓✓✓✓38.4✓✓✓✓40.8✓✓✓✓✓42.28011∼前景分数动作分值检测GT前景分数动作分值检测GT图7. THUMOS14上的定性结果[11]。我们示出：1）前景激活分数，2）地面实况动作的激活分数，3）检测到的动作实例和4）地面实况。左：高尔夫挥杆的一个例子。右图：排球扣球的一个例子。表5.评价化学品处的补充作用。注意，我们的方法需要学习面向任务的特征，这在STPN中是不可能的，因此我们显示了“STPN + Embed-ding”的结果基线我们的方法w/o背景类图8.在THUMOS 14测试集上，（a）仅CA分支和（b）我们的方法通过t-SNE [22]的嵌入特征的前景-背景分离的可视化请注意，为了公平比较，我们在两个模型中都没有使用背景类。表4. THUMOS14上的混合注意力的评估。每一行表示混合注意力设置，“(2) 1.0, 2.0” represents we use two attention scoreswith temperature hyper- parameter of 1.0 and 2.0,AVG两种经典方法STPN [26]和W-TALC[31]分别下降1.7%和1.9%。虽然BM[27]通过明确地对背景进行建模，CW分支可以进一步提高其性能。此外，最近的方法UM [17]的性能也可以得到改善。4.5. 定性结果我们在图中可视化检测到的动作实例的一些示例。7.在第一个高尔夫挥杆的例子中，我们的方法只精确定位了一个动作实例。在排球扣球的第二个例子中。即使这个动作是经常在视频中执行，我们的方法成功地检测到所有的动作实例，这表明有能力处理密集的动作发生。如我们所见，我们的方法显著地抑制了背景的响应。除此之外，前景得分和动作得分是一致的，很好地覆盖了地面真相。图8显示可视化-关于其前景-背景分离的特征Xe的正如我们所看到的，我们的方法可以更好地从背景中分离前景比基线模型。5. 结论我们提出了一种弱监督的动作定位方法，称为FAC-Net，由三个分支组成。与现有方法只考虑前景与动作之间的单向关系不同，我们的方法考虑了动作与前景之间的双向关系。所提出的类式前景分类分支引入动作-前景关系以最大化前景-背景分离。此外，采用类无关的注意分支和多实验结果表明，类式前向分类分支可以对现有方法起到补充作用，提高其性能。确认这项工作部分由感知及互动智能研究中心有限公司资助，部分则由香港研究资助局的综合研究基金资助。 14204021 ， 14208417 ， 14207319 ， 14202217 ，14203118，14208619），部分由Re-搜寻影响基金拨款编号R5001-18，部分由中大策略基金提供。前景背景方法mAP@0.30.7IoU平均值STPN [26]（复制）35.24.226.8基于注意力STPN +包埋STPN +嵌入+CW BM[27]（重现）38.440.346.54.75.69.128.930.636.0BM + CW47.910.037.6W-TALC [31]（复制）40.47.231.6密耳W-TALC + CW42.08.733.5混合注意力CWCA密耳充分（1）1.031.232.033.634.732.934.434.633.433.630.532.132.331.731.232.232.532.031.629.631.731.632.026.431.432.526.729.140.841.641.841.933.841.942.233.242.0(2)1.0，2.0(2)1.0，3.0(2)1.0，5.0(2)1.0，10.0(3)1.0，2.0，3.0(3)1.0，2.0，5.0(3)1.0，5.0，10.0（4）1.0，2.0，3.0，5.08012引用[1] PiotrBojano wski ， Re' miLajugie ， Franci sBach ， IvanLaptev，Jean Ponce，Cordelia Schmid和Josef Sivic。排序约束下视频中的弱监督动作标注欧洲计算机视觉会议，第628-643页。Springer，2014.[2] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。在IEEE Conference on Computer Visionand Pattern Recognition ，第 961-970 页中 IEEE ， 2015年。[3] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议上，第6299-6308页。IEEE，2017年。[4] Yu-Wei Chao ， Sudheendra Vijayanarasimhan ， BryanSey-bold ， David A Ross ， Jia Deng ， and RahulSukthankar.重新思考更快的r-cnn架构用于时间动作本地化。在IEEE Conference on Computer Vision and PatternRecognition，第1130-1139页中IEEE，2018年。[5] Xiyang Dai ， Bharat Singh ， Guyue Zhang ， Larry SDavis，and Yan Qiu Chen.用于视频中活动定位的时间上下文网络。 IEEEInternational Conference on ComputerVision，第5793-5802页。IEEE，2017年。[6] MichaelGutmann和AapoHyv¨rinen。Noise-Contrastiveestimation ： A new estimation principle forunnormalized statistical models.第十三届人工智能和统计，第297-304页。JMLR研讨会和会议记录，2010年。[7] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比在IEEE计算机视觉和模式识别上，第 9729-9738 页。IEEE，2020年。[8] Linjiang Huang，Yan Huang，Wanli Ouyang，and LiangWang.弱监督时间动作定位的关系原型网络。2020年AAAI人工智能会议[9] Linjiang Huang，Yan Huang，Wanli Ouyang，and LiangWang. 弱监督时间动作定位的子动作建模 IEEETransactions on Image Processing，2021。[10] Ashraful Islam，Chengjiang Long，and Richard J Radke.一种用于弱监督时间动作定位的混合注意机制。2021年AAAI人工智能[11] Y.-- G. Jiang，J.Liu，中国粘蝇A.Roshan Zamir，G.托代里奇岛拉普捷夫M. Shah和R.苏克坦卡THUMOS挑战：动作识别与大量的类。网址：//crcv.ucf.edu/THUMOS14/，2014年。[12] Andrej Karpathy ， George Toderici ， Sanketh Shetty ，Thomas Leung，Rahul Sukthankar，and Li Fei-Fei.使用卷积神经网络进行大规模在IEEE计算机视觉和模式识别会议上，第1725-1732页。IEEE，2014。[13] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[14] 伊万·拉普捷夫，马尔辛·马沙莱克，科迪莉亚·施密德，本杰明·罗森菲尔德.从电影中学习真实的人类动作。在IEEE计算机视觉和模式识别会议中，第1-8页。IEEE，2008年。[15] Colin Lea、Michael D Flynn、Rene Vidal、Austin Reiter和Gregory D Hager。用于动作分割和检测的时间卷积网络。在IEEE计算机视觉和模式识别会议上，第156-165页。IEEE，2017年。[16] Pilhyeon Lee，Youngjung Uh，and Hyeran Byun.用于弱监督时间动作定位的背景抑制网络2020年AAAI人工智能[17] Pilhy

下载后可阅读完整内容，剩余1页未读，立即下载