没有合适的资源?快使用搜索试试~ 我知道了~
poral action localization, or WS-TAL, where cheap video-level tags are utilized as an alternative supervision sig-nal [38,41,50]. Most existing WS-TAL methods [18,25,38,39, 41, 50, 60, 64] follow a “localization-by-classification”pipeline: a snippet-wise classification is carried out overtime to generate the Temporal Class Activation Sequence,also called T-CAS or T-CAM [38, 41]; this is followed byselecting snippets with high responses to localize the plausi-ble action regions. Given the sparsity nature of video-levellabels, however, snippet-wise classifications are often error-prone, which may severely damage the final localizationperformance.199140探索去噪的跨视频对比用于弱监督时序动作定位0李晶晶1,†,杨天宇2,†,季伟1,�,王珏2,程力101 加拿大阿尔伯塔大学 2 腾讯AI实验室,深圳,中国0{jingjin1, wji3, lcheng5}@ualberta.ca, tianyu-yang@outlook.com, arphid@gmail.com0摘要0弱监督时序动作定位旨在仅使用视频级标签在未修剪的视频中定位动作。大多数现有方法通过“分类定位”流程来解决这个问题,该流程基于片段级分类序列来定位动作区域。由于视频级标签的稀疏性,片段级分类往往容易出错。受到最近无监督对比表示学习的成功启发,我们提出了一种新颖的去噪跨视频对比算法,旨在增强弱监督设置下视频片段的特征区分能力,以实现准确的时序动作定位。这是通过三个关键设计实现的:1)有效的伪标签去噪模块,以减轻噪声对比特征带来的副作用;2)具有区域级内存库的高效区域级特征对比策略,以捕捉整个数据集中的“全局”对比;3)多样化的对比学习策略,以实现动作-背景分离以及类内紧密性和类间可分性。在THUMOS14和ActivityNetv1.3上进行了大量实验证明了我们方法的优越性能。01. 引言0作为一项基础而具有挑战性的计算机视觉任务,时序动作定位旨在在未修剪的视频中定位指定动作类别的发生。由于其在监控[49]、视频摘要[32]和亮点检测[55]等领域的广泛应用,它受到了广泛的研究关注。许多现有方法[4, 7, 28, 43, 56, 66,68]都是基于全监督训练的,它们严重依赖于密集注释的帧级标签,这些标签通常是费时费力的。另一方面,用户更容易提供描述场景背景和内容的视频级标签。这自然地引发了弱监督时序动作定位,或WS-TAL,其中廉价的视频级标签被用作替代监督信号[38, 41,50]。大多数现有的WS-TAL方法[18, 25, 38, 39, 41, 50, 60,64]都遵循“分类定位”流程:通过时间上的片段级分类生成时序类激活序列,也称为T-CAS或T-CAM[38,41];然后选择响应高的片段来定位可能的动作区域。然而,由于视频级标签的稀疏性,片段级分类往往容易出错,这可能严重损害最终的定位性能。0李晶晶在腾讯AI实验室实习期间完成了这项工作。†平等贡献。�通讯作者。0为了学习一个良好的用于动作定位的T-CAS,增强各种视频片段在片段级分类中的特征区分能力变得至关重要。通常,片段特征嵌入空间应满足两个属性:1)动作片段应与不属于任何动作类别的背景片段分离,即动作-背景分离;2)来自同一类别的动作片段应比来自不同类别的动作片段更接近,即类内紧密性和类间可分性。这导致了一些先前的研究[36, 41, 64]探索深度度量学习[15,26]或对比学习[5]来促进学习有区分性的特征。如图1(a)和(b)所示,它们的重点主要是动作-背景分离,通过将特定类别的动作特征靠近并将动作特征与背景特征分离,要么在单个视频内[64],要么在精心设计的小批量内[36,41]。然而,它们未能捕捉到类间可分性,并忽略了整个数据集中训练视频之间有用的“全局”对比。由于缺乏帧级注释,通常在内部使用片段级伪标签[64]或基于注意力的机制[36,41]作为替代。如图1(a)所示,动作-背景分离是基于每个视频片段的伪标签执行的。在图1(b)中,来自小批量的注意力池化的视频级特征参与特征对比训练过程。由于学习到的注意力中存在的噪声伪标签或错误激活,...·········· · ·++···Region-level featureVideo-level feature···············123N199150(a) 视频内对比 (b) 小批量内对比 (c) 我们的去噪跨视频对比0视频1视频20视频3 ∙∙∙0片段级0一个小批量0视频1视频20视频3视频40视频级0特征0整个数据集0视频1视频20视频3视频40去噪0视频级0特征0区域级特征0记忆库0动作类别: 背景:0噪声特征:0类内紧凑性:0动作-背景分离:0类间可分性: /0注意力加权池化0图1. 不同的对比学习方案。(a) 在单个视频中利用片段级对比学习,通过伪标签将片段级动作与背景分离开来(例如[64])。(b)在小批量中利用深度度量学习,通过注意力加权池化将视频级动作与背景分离开来(例如[36, 41])。(c) 我们的去噪跨视频对比算法包括1)伪标签去噪模块,2) 整个数据集上的区域级特征对比学习,以及3) 动作-背景分离,以及类内紧凑性和类间可分性。0因此,这些策略不可避免地会产生噪声对比特征。将这些噪声对比特征纳入片段特征训练可能会不必要地复杂化,并导致动作定位的性能不佳。上述观察结果激发我们提出了一种新颖的适用于弱监督时序动作定位的去噪跨视频对比(DCC)算法。如图1(c)所示,它包含三个关键思想。首先,为了考虑弱监督TAL中普遍存在的伪标签噪声,我们设计了一个伪标签去噪(PLD)模块,以减少噪声对比特征的负面影响。通过降低错误伪标签的置信度分数,可以生成更准确的对比特征。其次,为了捕捉整个数据集上的“全局”对比,我们提出了一种区域级特征对比策略,结合区域级记忆库,使我们的学习模型能够保留整个数据集上的“全局”信息特征。第三,我们提出了一种多样化的对比训练策略,以强化动作与背景之间的对比,以及不同动作类别之间的对比。它能够促进动作-背景分离、类间分离和类内紧凑性。需要注意的是,我们的DCC算法仅在训练过程中执行,因此在测试过程中不会增加额外的计算成本。下面我们总结一下我们的主要贡献。(1)提出了一种新颖的去噪跨视频对比算法,适用于弱监督TAL。它减少了噪声对比特征的影响;它还捕捉了整个数据集上的“全局”对比,并同时促进了动作-0背景分离,类间可分性以及类内紧凑性。因此,片段特征的区分能力得到了显著增强。(2)在THUMOS14和ActivityNetv1.3数据集上进行了大量实验,证明了我们方法在性能上优于现有方法。具体来说,在THUMOS14上,我们观察到在IoU阈值从0.1到0.7的平均mAP方面,与基线相比提高了16.7%,而在推理过程中没有额外的计算成本。02. 相关工作0时序动作定位(TAL)。多年来,全监督的TAL得到了广泛研究。它们可以大致分为两类,即两阶段方法和一阶段方法。两阶段模型[4, 7, 10, 21, 22, 24, 43, 45, 56, 62,68]首先生成动作提议,然后通过时间边界回归对其进行分类。相反,一阶段方法[1, 23,28, 65,66]直接预测帧级别的动作标签。全监督范式不幸地依赖于帧级别的密集注释标签,这可能成本过高。弱监督TAL引起了越来越多的关注,因为视频级别的标签相对较低成本。UntrimmedNet[50]执行每个剪辑的分类,然后通过软或硬注意力选择重要的剪辑进行视频标签生成。STPN[38]引入稀疏性损失来辅助稀疏选择视频片段。为了便于检测完整的动作,[33, 46,69]提出去除有区分性的动作部分或随机隐藏视频片段来压制模型探索补充的动作区域。Liu等人[25]设计了一个多分支网络和多样性损失来发现不同的时间片段。为了提高特征的可辨识性,[33, 37,41]探索了深度度量学习算法,以鼓励同一类别的动作特征保持相似,并将与活动相关的片段与背景区分开来。CoLA[64]提出了片段对比损失,以在特征空间中优化困难的片段表示并使其更易于区分。同时,[18,39]引入了显式的背景建模,其中包括一个辅助的背景类。Nguyen等人[39]通过从前景注意力生成背景注意力来汇集背景帧,以训练背景类;BaSNet[18]设计了一种非对称训练策略来抑制背景片段的激活。在[19]中,背景帧被建模为分布外样本。DGAM[42]和CMCS[25]考虑了动作上下文分离问题。最近,[30, 40, 58,63]尝试为迭代网络训练生成帧级别的伪标签。[40]的开创性工作提出了一种迭代细化方法,通过在每次迭代中估计和训练带有伪帧级别真值的模型。Zhai等人[63]通过考虑两流一致性并设计注意力归一化损失来生成帧级别的伪标签,以促进注意力预测的极化。[30]中采用了期望最大化算法[34]来交替训练关键实例分配模块和前景分类模块。Yang等人[58]使用彼此生成的伪标签训练RGB和光流流,同时使用一种不确定性感知学习模块来减轻伪标签中的噪声。我们的方法也解决了伪标签噪声问题,但它基于基于聚类的置信度投票,并用于生成更准确的对比特征。[13]中探索了动作-前景一致性,使用混合注意力来提高边界精度。Lou等人[29]提出了一个动作单元记忆库来学习特定类别的动作单元分类器。我们的方法与现有方法的差异在第3.4节中进行了讨论。(1)199160视频片段以探索补充的动作区域。Liu等人[25]设计了一个多分支网络和多样性损失来发现不同的时间片段。为了提高特征的可辨识性,[33, 37,41]探索了深度度量学习算法,以鼓励同一类别的动作特征保持相似,并将与活动相关的片段与背景区分开来。CoLA[64]提出了片段对比损失,以在特征空间中优化困难的片段表示并使其更易于区分。同时,[18,39]引入了显式的背景建模,其中包括一个辅助的背景类。Nguyen等人[39]通过从前景注意力生成背景注意力来汇集背景帧,以训练背景类;BaSNet[18]设计了一种非对称训练策略来抑制背景片段的激活。在[19]中,背景帧被建模为分布外样本。DGAM[42]和CMCS[25]考虑了动作上下文分离问题。最近,[30, 40, 58,63]尝试为迭代网络训练生成帧级别的伪标签。[40]的开创性工作提出了一种迭代细化方法,通过在每次迭代中估计和训练带有伪帧级别真值的模型。Zhai等人[63]通过考虑两流一致性并设计注意力归一化损失来生成帧级别的伪标签,以促进注意力预测的极化。[30]中采用了期望最大化算法[34]来交替训练关键实例分配模块和前景分类模块。Yang等人[58]使用彼此生成的伪标签训练RGB和光流流,同时使用一种不确定性感知学习模块来减轻伪标签中的噪声。我们的方法也解决了伪标签噪声问题,但它基于基于聚类的置信度投票,并用于生成更准确的对比特征。[13]中探索了动作-前景一致性,使用混合注意力来提高边界精度。Lou等人[29]提出了一个动作单元记忆库来学习特定类别的动作单元分类器。我们的方法与现有方法的差异在第3.4节中进行了讨论。0对比学习。作为深度度量学习的重要分支[15],对比学习[5,9, 11, 12,53]在无监督表示学习方面取得了令人瞩目的进展。这些方法通过将正样本与负样本进行对比来以判别的方式学习表示:同一图像的两个增强版本可以视为正样本,而两个不同的图像则被视为负样本。然而,由于缺乏标签信息[6],不可避免地会引入错误的负样本[5]。Prannay等人[16]引入了用于图像分类的监督对比损失,展示了在构建正负样本时利用标签信息的好处。此外,还有几个0最新的研究将对比损失扩展到各种下游任务,例如语义分割[51, 67]和目标检测[47, 52,54],并取得了新的最先进的性能。03.方法论0在本节中,我们首先在第3.1节中描述我们的基准方法,然后在第3.2节中详细介绍提出的去噪交叉视频对比(DCC)算法。接下来,在第3.3节中介绍整体训练目标和推理过程。最后,在第3.4节中讨论与现有工作的差异。03.1.基准设置0图2(上)展示了我们基准算法的流程。给定一个训练视频样本{v,y},其中y∈RC0其中v是视频的动作标签,C是动作类别的数量,我们对每个视频采样固定数量的T个不重叠的片段,每个片段有16帧,然后使用预训练的特征提取器(例如I3D[3])提取片段级特征。接下来,我们在预训练特征上应用几层时间卷积层,以在片段之间引入一些时间参与,并输出基本的时间类激活序列(T-CAS)Ab∈RT×(C+1),使用分类头。这里我们额外为每个片段预测一个背景类别,以更好地建模背景。根据BaS-Net[18],引入了一个并行分支,称为前景选择模块,用于学习类别不可知的前景概率Q∈RT×1,可以视为动作的时间注意力。通过将Q与A b 在时间上相乘,我们得到T-CASAf∈RT×(C+1),它过滤掉非动作预测。根据多实例学习[8],我们在Ab 和A f 上应用一个时间top-k池化,然后在A b 和A f上应用softmax,分别生成视频级预测pb,pf∈RC+1。通过使用片段级二元交叉熵损失,我们计算MIL损失,如下所示:0L MIL = -0c =1(yb c log pb c +(1−ybc)log(1−pb c)0+ y f c log p f c +(1−y f c)log(1−p fc)),0其中yb,yf是通过引入背景标签的pb,pf的相应标签。具体而言,对于1≤c≤C,yb c = yf c = y c。 yb C+1设置为1,因为所有训练视频都包含背景片段,而yf C+1设置为0,因为背景片段在Af中被过滤掉。为了使前景得分更加极化,我们还应用了01我们使用两种模态,即RGB和光流,作为特征提取器的输入。!"!"-+···Region-levelVideo-level···············123NRGBFlowvideo"#$$%#%$#$'##%'#&$199170RGB / Flow特征提取器0提取的特征0时间0卷积0嵌入0特征0分类0头0前景0选择0前景得分0类激活0序列0SoftmaxSoftmax0∙∙∙0MIL损失0∙∙∙0背景0类0�0Sigmoid函数0时间顶部池化0片段级伪标签生成(SPG)0伪标签0去噪(PLD)0(a)基准模型0置信度图0伪标签0置信度0嵌入0投影头0T0视频级区域级0行动:背景:0+∙∙0区域0级m0内存0库0动作特征0背景特征0(b)我们的DCC框架0�!!""0T0D0T0D0T0C+10!!!!′0!"!"′0去噪对比学习(DCL)0图2.我们方法的整体架构。上游(a)展示了使用传统的多实例学习损失和背景建模训练的基线模型。我们在下游提出了去噪交叉视频对比(DCC)算法(b),旨在塑造片段特征嵌入空间,并为时间动作定位生成更好的时间类激活序列(T-CAS)。0对于Q,我们使用L1归一化损失[38],Lnorm=1T∑Tt=1|Qt|。这种基线方法的最终损失可以表示为:0Lbase=LMIL+γLnorm,(2)0其中γ是一个平衡因子,按照[18]的方法设置为1e-5。03.2.去噪交叉视频对比算法0我们DCC的概述如图2所示(底部)。我们的流水线包括三个组件,即片段级伪标签生成(SPG),伪标签去噪(PLD)和去噪对比学习(DCL)。SPG旨在估计视频中动作和背景区域的片段级标签,并且PLD旨在强调可靠视频区域,同时抑制不可靠的区域,以减轻片段级标签的噪声问题。DCL负责构建去噪对比特征,并为对比学习生成正负特征对。片段级伪标签生成。为了确定弱监督设置下所需的动作或背景部分,我们选择通过阈值处理Ab来生成伪标签�A,如[30]中所述。首先,在类别维度上对Ab应用softmax函数将对数转换为概率分数。这个过程可以表示为�At,c=Φ(ε(Ab)t,c;θc),(3)0其中θc是类别c的阈值,设置为ε(Ab)c沿时间维度的均值;Φ是0阈值操作,其中�At,c为1,如果ε(Ab)t,c≥θc,否则为0。伪标签去噪。为了解决伪标签�A的噪声问题,我们设计了一个伪标签去噪(PLD)模块,旨在为每个视频片段分配一个置信度分数,以估计其伪标签是可信真实标签的概率。直观地说,同一聚类中的视频片段更有可能保持相同的类别标签;因此,异常值,即其伪标签与每个聚类中的大多数不一致的视频片段,很可能被错误分类,应该被分配较低的置信度分数。具体来说,我们使用基本的K-means算法[20]对嵌入特征进行聚类,聚类中心的数量设置为K。特征聚类后,每个片段将被分配到一个聚类中心,用{Et}Tt=1表示,其中Et∈[1,K]。伪标签�At,c的置信度分数可以通过置信投票策略计算得到:0St,c=∑Tk=11(Et=Ek∧�At,c=�Ak,c)0Tk=1 1(Et=Ek),(4)0其中1(condition)是指示函数,即如果条件满足,则返回1,否则返回0。∧表示逻辑与运算。该策略将聚类中心Et中与第t个片段具有相同伪标签的片段的比例作为置信度分数。logr+m∈Pm exp(rm · r+m/τ)exp(rm r±m/τ),199180去噪对比学习。然后利用PLD模块计算得到的伪标签和置信度分数来生成对比特征。为了捕捉整个数据集上的“全局”对比,我们提出了一种区域级特征对比策略,结合区域级内存库,使我们学习到的模型能够保留整个数据集上的“全局”信息特征。如图2所示,我们首先在嵌入特征之后添加一个投影头,以获得更紧凑的表示,称为X∈RT×d,其中d是投影特征的维度,用于对比学习。然后,我们通过逐元素方式将投影特征X乘以伪标签�Ac及其相应的置信度分数,来计算去噪的动作视频特征F:0Ft,i = �At,c × St,c × Xt,i,(5)0其中c是编码X的视频标签。对于背景特征F',我们相应地改变伪标签�At,c为1−�At,c。0F't,i = (1−�At,c) × St,c × Xt,i,(6)0接下来,我们将去噪的动作视频特征F均匀分成M个动作区域特征,沿时间维度划分,表示为F�{Rm}Mm=0,其中我们将R0=F,将视频特征视为相对较大的区域特征。最后,我们对这些区域特征进行时间平均池化,得到它们对应的向量{rm}Mm=0,用于对比学习。同样,背景区域特征{r′m}Mm=0也被生成。同时,引入了一个区域级记忆库来存储所有训练视频的区域特征,使我们的模型能够从整个数据集中学习“全局”对比。给定这些去噪的区域级特征,我们然后应用多样性对比学习策略,既强制动作和背景之间的对比,又强制不同动作类别之间的对比。正负样本对是从两个来源构建的,即视频内和跨视频。具体而言,给定一个去噪的动作区域特征rm,它的正样本集Pm包括:1)来自同一视频且具有相同类别标签的动作区域特征;2)来自其他视频且具有相同类别标签的动作区域特征。它的负样本集Nm包括:1)来自同一视频的背景区域特征;2)来自其他视频的背景区域特征;3)来自其他视频但具有不同类别标签的动作区域特征。通过InfoNCE[12]损失,我们可以将对比学习形式化为:0Ldcc = −10M �0�0�0(7)其中τ是温度参数。注意,损失函数中的所有嵌入都是l2归一化的。通过Ldcc,0模型能够捕捉动作-背景分离、类内紧密性和类间可分性。03.3.总体训练目标和推理0我们模型的总体训练目标是0Lfinal = Lbase + βLdcc,(8)0其中β是一个平衡因子。由于对比特征在训练的早期阶段信息较少,我们在网络训练过程中逐渐将β从0.1增加到10000,以便在训练的早期阶段更加关注MIL损失,并在后期阶段规范特征空间学习。我们注意到DCC算法仅在训练过程中应用,并且在推理时将被移除。因此,在部署阶段不会引入任何额外的计算。在推理阶段,我们首先使用阈值θv对视频级预测pf进行阈值处理,以确定要定位的动作类别。对于每个选定的类别,我们使用阈值θl对T-CASAb进行阈值处理,以获得候选动作提议。为了丰富提议池,我们应用多个阈值,并使用非极大值抑制(NMS)来删除重复的提议。03.4.讨论0深度度量学习[15,26]和对比学习[5]也在[33,36,37,41,64]中用于时间动作定位,并且讨论了以下差异:(1)[64]设计了一种片段级对比损失来改进难以处理的动作或背景片段特征。他们只考虑单个视频内的动作-背景分离。而在我们的DCC中,提出了一种多样性对比学习策略,同时对比动作-背景和不同类别。此外,我们的区域级特征对比使模型能够学习整个数据集上的“全局”对比。(2)[36,41]利用深度度量学习技术在小批量中强制执行视频级特征的动作-背景分离,而我们的方法在整个数据集中捕捉区域级对比,并学习类间可分性。(3)[41,64]未能解决噪声对比特征问题,而在我们的方法中,设计了一种新颖的伪标签去噪模块来生成更好的对比特征。(4)在[33,37]中,对比是在嘈杂的注意力池化视频特征和类别特定中心特征之间进行的,而在我们的DCC中,对比是在去噪的区域级特征和新颖的区域级记忆库中丰富的“全局”特征之间进行的。04. 实验04.1. 数据集和评估指标0对THUMOS14 [14]和ActivityNet进行了实证分析r-199190v1.3[2]。THUMOS14包括具有20个类别的未修剪视频。这些视频帧级别标注,其时间长度差异很大。请注意,我们只在WS-TAL中使用视频级别标签。按照惯例[18,41],我们使用验证集中的200个视频进行训练,使用测试集中的213个视频进行评估。ActivityNet v1.3[2]是ActivityNetv1.2的超集,包含10024个训练视频,4926个验证视频和5044个属于200个动作类别的测试视频。由于测试集的注释未发布,根据常规做法[33,63],我们在训练集上训练模型,并在验证集上进行评估。按照标准协议,使用不同IoU(交并比)的mAP(平均精度)与ActivityNet 2提供的基准代码一起用于评估。04.2. 实现细节0该网络在一台配备单个Tesla P40GPU的PC上使用PyTorch工具箱实现。使用TV-L1算法[61]生成光流帧。根据[18, 64],THUMOS14和ActivityNetv1.3的采样片段数T分别设置为750和50。为了公平比较,不对I3D[3]特征提取器进行微调。前景选择模块包含两个具有ReLU[35]激活的全连接层。投影头[5]以类似的方式实现,输出维度d设置为512。我们使用Adam优化器[17],学习率为0.0001。τ设置为0.1,遵循[5]。聚类中心K和区域数M在THUMOS14中都设置为5,在ActivityNetv1.3中设置为2。THUMOS14的训练时间为4小时,ActivityNetv1.3的训练时间为15小时。THUMOS14的GPU内存消耗约为3.5GB。根据经验,为了避免模型崩溃,其中所有片段都被分类为背景,我们采用两阶段训练模式,即首先训练基线网络生成伪标签,然后使用伪标签从头开始优化整个网络。θv设置为0.2。θl从0到0.9,步长为0.025。04.3. 消融研究0在本节中,我们使用THUMOS14提供了关于核心模型设计有效性的详细分析。每个组件的效果。表1给出了消除DCC不同模块的比较结果。没有去噪的DCC模型在从0.1到0.7的IoU阈值的平均mAP方面将基线性能大幅提高了12.2%(从37.7%提高到42.3%),验证了我们改进特征可辨识性的方法的有效性。跨视频对比算法的更详细分析和可视化在以下子节中进行。当配备PLD模块时,我们的DCC进一步02 https://github.com/activitynet/ActivityNet/0表1. THUMOS14测试集上的消融研究。“DCC无去噪”表示仅采用跨视频对比学习。“DCC”是我们的最终模型,具有去噪的跨视频对比算法。0mAP@IoU(%) 平均0消融模型 0.1 0.3 0.5 0.7(0.1:0.7)0基线 61.7 48.2 29.3 10.9 37.70DCC无去噪 67.3 53.9 33.8 12.5 42.3 DCC(我们的) 69.055.9 35.7 13.7 44.00表2.在THUMOS14训练集上计算的正确和错误标签的平均置信度分数。0平均置信度 行动 背景 所有片段0正确标签 0.662 0.849 0.799 错误标签 0.577 0.7070.6380差异(∆)+0.085 +0.142 +0.1610表3.THUMOS14上不同K的比较结果。我们报告了在IoU阈值从0.1到0.7下的平均mAP。“无去噪”表示没有伪标签去噪模块。0聚类数K 无去噪 3 5 10 15 50 1000mAP@Avg 42.3 43.3 44.0 43.8 43.9 43.5 43.20通过4%改进了动作定位性能。表2显示了正确和错误标签的平均置信度分数。观察到,正确的伪标签的平均置信度分数高于错误的伪标签,验证了我们的PLD模块在区分正确伪标签和错误伪标签方面的有效性。在表3中,我们使用K-means尝试了不同的聚类数K。观察到,在广泛的K范围内,结果都优于不考虑噪声问题的模型,进一步证明了我们提出的伪标签去噪模块的有用性和鲁棒性。动作-背景分离。为了研究我们的模型在捕捉动作-背景分离方面的有效性,我们进行了与表4中结果的比较实验。观察到,平均mAP@0.1:0.7的动作定位性能提高了1.1%,验证了我们的模型学习动作-背景分离的有效性。此外,在图3中,我们分别可视化了THUMOS14测试集中一个视频示例的基线和我们的DCC的嵌入特征。使用t-SNE工具[48]将嵌入特征投影到二维空间进行可视化。可以看到,我们的方法可以比基线模型更好地将动作与背景分离开。类内紧密性和类间可分性。为了研究建模类内紧密性和类间可分性的重要性,我们进一步引入了不同动作类别之间的对比(表4中的第3行)。这些结果表明Action-background separationCleanAndJerkSTPN57.042.824.710.033.5STPN+DCC64.551.632.511.340.5BaSNet61.748.229.310.937.7BaSNet+DCC69.055.935.713.744.0199200表4.THUMOS14上不同对比学习设计的消融研究。“Intra&Inter”:类内紧密性和类间可分性。“Act-bkg”:动作-背景分离。0对比特征 对比策略 mAP@IoU(%)0视频级别 区域级别 动作-背景 类内 & 类间 0.5 平均0� � � � 29.3 37.7 � � � � 30.7 38.8 � � � � 31.5 39.6 � � � � 33.8 42.30表5.THUMOS14上区域数量M的分析。我们报告了在IoU阈值从0.1到0.7下的平均mAP。我们还显示了内存库中的特征数量,其中Nv是训练视频的总数。0区域数量M 1 3 5 100特征数量 2Nv 8Nv 12Nv 22Nv mAP@Avg 39.6 41.242.3 41.70表6. THUMOS14上不同视频的对比特征分析。0消融模型 平均(0.1:0.7)0基线(无对比)37.70视频内对比 38.5 视频间对比(无内存) 39.7视频间对比(有内存) 42.30由于建模了类内紧密性和类间可分性,平均mAP@0.1:0.7的性能进一步提高了0.8%。然后我们在图4中可视化了各个类别的学习特征分布,左侧显示了使用基线MIL损失训练的模型的特征空间,右侧显示了我们的DCC模型的特征空间。观察到我们模型的片段嵌入更加紧凑且分离明显,可以产生更具辨别力的特征并提高动作定位性能。不同级别的对比特征。当仅使用视频级特征(表4中的第3行)进行对比学习时,模型的平均mAP@0.1:0.7为39.6%。使用我们的区域级特征(表4中的第4行),我们实现了显著的性能提升(平均mAP从39.6%提高到42.3%),这强烈验证了我们的区域级对比特征设计的有效性。此外,在表5中,我们评估了不同的区域数量M,它表示对视频进行分割的粒度。M值越大,特征粒度越细。表5中的实验结果表明:(1)在相对粗糙的粒度范围内,较大的M值通常会导致更高的mAP得分,因为对比训练过程中保留了更多的特征;(2)过于细粒度的粒度(M>5)不会进一步提高性能。我们推测这是因为过于细粒度的特征容易引入噪声对比特征,导致次优的对比训练。0视频 156&2030(a) 基线模型 (b) 我们的模型0背景0图3. 动作-背景分离的T-SNE可视化。0(a) 基线模型 (b) 我们的模型0图4. 类内紧凑性和类间可分性的T-SNE可视化。0表7. 不同骨干网络的泛化分析。0mAP@IoU(%) 平均0消融模型 0.1 0.3 0.5 0.7 (0.1:0.7)0来自不同视频的对比特征。表60展示了验证同一视频内、小批量内和整个数据集内各种对比特征的贡献的消融实验。观察到我们的“视频间对比”在整个数据集上显著提升了性能,相比之下,“视频内对比”和“小批量内对比”上的性能提升较小。这证明了我们的DCC在利用整个数据集上的“全局”对比来学习更好的片段嵌入时的优越性。同时,随着更多的视频特征参与对比训练,mAP分数逐渐增加。这一观察结果与许多最近的无监督对比学习工作一致[5, 12,53]。泛化分析。我们通过将我们的DCC算法应用于两个最近的基线模型STPN [38]和BaSNet[18]来验证其泛化能力。实验结果如表7所示。在与DCC集成后,这两种方法的性能在平均mAP@0.1:0.7分数上分别提高了20.9%和16.7%。这验证了我们的方法在不同的骨干网络上具有良好的泛化能力。199210表8.在THUMOS14测试集上的性能比较。‘Avg’列显示了在IoU阈值为0.1:0.5和0.1:0.7下的平均mAP。†表示可以访问新收集的数据或额外的注释。�表示使用I3D特征。0mAP(%)@IoU 平均 平均0监督方法 发表时间 0.1 0.2 0.3 0.4 0.5 0.6 0.7 (0.1:0.5) (0.1:0.7)0完整0S-CNN [45] CVPR’16 47.7 43.5 36.3 28.7 19.0 10.3 5.3 35.0 27.3 SSN [68] ICCV’17 66.0 59.4 51.9 41.0 29.8 - -49.6 - TAL-Net [4] CVPR’18 59.8 57.1 53.2 48.5 42.8 33.8 20.8 52.3 45.1 BSN [24] ECCV’18 - - 53.5 45.0 36.928.4 20.0 - - GTAN [28] CVPR’19 69.1 63.7 57.8 47.2 38.8 - - 55.3 -0弱 †0BM � [39] ICCV’19 64.2 59.5 49.1 38.4 27.5 17.3 8.6 29.8 37.8 3C-Net � [37] ICCV’19 59.1 53.5 44.2 34.1 26.6 - 8.143.5 - STAR � [57] AAAI’19 68.8 60.0 48.7 34.7 23.0 - - 47.0 - SF-Net � [31] ECCV’20 71.0 63.4 53.2 40.7 29.3 18.49.6 51.5 40.80弱0UntrimNet [50] CVPR’17 44.4 37.7 28.2 21.1 13.7 - - 29.0 - STPN � [38] CVPR’18 52.0 44.7 35.5 25.8 16.9 9.9 4.335.0 27.0 W-TALC � [41] ECCV’18 55.2 49.6 40.1 31.1 22.8 - 7.6 39.8 - AutoLoc [44] ECCV’18 - - 35.8 29.0 21.213.4 5.8 - - CleanNet [27] ICCV’19 - - 37.0 30.9 23.9 13.9 7.1 - - Liu et al. � [25] CVPR’19 57.4 50.8 41.2 32.1 23.115.0 7.0 40.9 32.4 BaSNet � [18] AAAI’20 58.2 52.3 44.6 36.0 27.0 18.6 10.4 43.6 35.3 DGAM � [42] CVPR’20 60.056.0 46.6 37.5 26.8 17.6 9.0 45.6 37.0 EMMIL � [30] ECCV’20 59.1 52.7 45.5 36.8 30.5 22.7 16.4 45.0 37.7 TSCN �[63] ECCV’20 63.4 57.6 47.8 37.7 28.7 19.4 10.2 47.0 37.8 A2CL-PT � [33] ECCV’20 61.2 56.1 48.1 39.0 30.1 19.210.6 46.9 37.8 UM � [19] AAAI’21 67.5 61.2 52.3 43.4 33.7 22.9 12.1 51.6 41.9 CoLA � [64] CVPR’21 66.2 59.5 51.541.9 32.2 22.0 13.1 50.3 40.9 AUMN � [29] CVPR’21 66.2 61.9 54.9 44.4 33.3 20.5 9.0 52.1 41.5 FAC-Net � [13]ICCV’21 67.6 62.1 52.6 44.3 33.4 22.5 12.7 52.0 42.2 D2Net � [36] ICCV’21 65.7 60.2 52.3 43.4 36.0 - - 51.5 - DCC( 我们的模型 ) � - 69.0 63.8 55.9 45.9 35.7 24.3 13.7 54.1 44.00表9. 在ActivityNetv1.3数据集上的性能比较。平均mAP是在阈值0.5:0.05:0.95上计算的。0mAP(%)@IoU0监督方法 0.5 0.75 0.95 平均0弱0STPN [38] 29.3 16.9 2.6 16.30CMCS [25] 34.0 20.9 5.7 21.20BM [39] 36.4 19.2 2.9 19.50TSM [59] 30.3 19.0 4.5 -0BaSNet [18] 34.5 22.5 4.9 22.20TSCN [63] 35.3 21.4 5.3 21.70A2CL-PT [33] 36.8 22.0 5.2 22.50AUMN [29] 38.3 23.5 5.2 23.50DCC(我们的方法)38.8 24.2 5.7 24.304.4. 与最先进方法的比较0我们在THUMOS14测试集上以不同程度的监督方法与最先进的方法进行比较,结果如表8所示。注意,“Full”表示使用逐帧注释进行训练;“Weak†”表示使用新收集的数据[39]或附加注释[31, 37,57]。我们的方法在性能上超过了最近提出的弱监督方法
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功