没有合适的资源?快使用搜索试试~ 我知道了~
6028基于时间特征增强的扩张卷积网络的弱监督时间动作定位周健雄,吴颖西北大学网址:jianxiongzhou2026@u.northwestern.edu,yingwu@northwestern.edu摘要弱监督时间动作定位(WTAL)的目的是分类和定位动作实例在未经修剪的视频只有视频级的标签。现有方法通常使用直接从预训练提取器提取的片段级RGB和光流特征。由于两个限制:由于片段的时间跨度短和初始特征不合适,这些WTAL方法缺乏对时间信息的有效利用,性能有限。在本文中,我们提出了时间特征增强扩张卷积网络(TFE-DCN)来解决这两个限制。所提出的TFE-DCN具有扩大的感受野,其覆盖长的时间跨度以观察动作实例的完整动态,这使得其能够捕获片段之间的时间依赖性。此外,我们提出了模态增强模块,可以增强RGB功能的帮助下,增强光流功能,使整体功能适合WTAL任务。在THUMOS'14和ActivityNet v1.3数据集上进行的实验表明,我们提出的方法远远优于最先进的WTAL方法。1. 介绍时间动作定位(TAL)是视频理解的主要任务之一,其目标是在未裁剪的视频中定位动作实例的开始和结束时间戳并对其进行分类。 它已被用于各种视频理解应用,如智能监控分析[34]和视频检索[9]。许多工作[32,20,42,2,24,39]已经将他们的努力投入到完全监督的时间动作定位中,并取得了很好的定位结果。然而,全监督方法需要大量的细粒度帧级注释,其需要手动标注并且具有注释器的注释偏差为了解决这个问题,监管不力图1.先前方法(BaS-Net [16])的结果具有不准确的动作边界和误报检测。时间动作定位(WTAL),它只需要容易收集的视频级分类标签,近年来得到了广泛的关注[36,28,21,16,40,41,8]虽然WTAL简化了数据收集过程,仅利用视频级注释进行时间动作定位是具有挑战性的,尤其是对于复杂的动作场景。为了解决这个问题,许多WTAL方法采用多实例学习(MIL)框架[36,28,31,33,21,29,16]。这些方法将视频均匀 地 采 样 为 片 段 , 然 后 生 成 时 间 类 激 活 序 列(TCAS),其是每个片段的动作类上的分类概率的序列最后,使用top-k均值策略聚合TCAS以获得最终的视频级预测。虽然先前的方法已经在WTAL上取得了显著的改进,但是性能仍然有限。一个主要问题是对动作边界的预测不准确。图1展示了一些错误的示例。虽然它是具有挑战性的,以获得准确的动作边界- aries只有视频级的注释,我们认为,时间信息的使用不足是有限的结果的一个关键原因。一个完整的动作实例通常覆盖一个相对较长的时间跨度,而一个片段则是不完整的。6029能够观察到该动作实例的完整动态。另一个原因是大多数WTAL方法直接使用由预训练模型提取的RGB和光流特征,例如,I3D [1],它是为修剪视频动作分类而定制和训练的,而不是WTAL。因此,增强与时间信息的功能是一个可行的方法来解决这个问题。在本文中,我们提出了时间特征增强扩张卷积网络(TFE-DCN)来解决上述两个限制。受时间卷积网络(TCN)在全监督时间动作定位上的成功应用[4]的启发,我们设计了一种具有多个优点的新型时间特征增强扩张卷积模块 首先,它扩大了感受野,使模型能够获得完整动作实例的时间信息,消除了由于片段时间跨度短而造成的时间信息不一致。其次,它可以捕获片段之间的时间依赖性,促进片段利用整个感受野上的其他片段的运动线索来增强其特征表示,这对于增强特征和将动作实例与背景分离是强大的虽然TFE-DC模块提取了时间信息并增强了光流特征,但值得注意的是,初始RGB特征没有得到增强。两种模式之间的不一致性导致了认知能力的下降。因此,我们提出了模态增强模块,可以增强RGB功能的帮助下,在该模块中,初始RGB特征和增强的光流特征被馈送到共享卷积层,以分别获得两个注意力序列。然后对这两个注意力序列和初始RGB特征进行元素乘运算,得到增强的RGB特征。模态增强模块保持了两种模态之间的一致性,并引入了改进的光流增强RGB特性。我们的主要贡献可归纳为三个方面:• 我们表明,TFE-DCN可以有效地使用时间特征,并具有准确的预测动作边界。所提出的TFE-DC模块具有一种新颖的扩张结构,该结构反映了不同感受野尺度下的时间信息对最终注意力权重的影响,而不是像MS-TCN那样遵循常见的扩张残差层[4]。• 我们提出了一个模态增强模块,保持两种模态之间的一致性,并在增强的光流特征的帮助下重新校准初始RGB特征,使它们更适合WTAL任务。• 在THUMOS'14上进行了广泛的实验和ActivityNet v1.3来证明我们所提出的方法的有效性。我们的TFE-DCN优于所有最先进的WTAL方法。2. 相关工作时间卷积网络时间卷积网络成功地应用于语音合成[35],并被一些作品引入时间动作定位[14,18,4]。Lea等人。 [14]提出了一种用于动作分割和检测的编码器-解码器框架。TDRN [18]使用残差流以全时间分辨率分析视频信息。MS-TCN [4]使用扩展卷积残差层而不是时间池来捕获长程依赖性并获得更好的结果。完全监督的时间动作定位。完全监督的TAL需要动作实例的帧级注释。大多数方法[3,32,42,20]生成时间动作建议,然后根据这些建议进行分类。CDC [32]同时执行时间上采样和空间下采样以预测帧级动作建议。BSN [20]以高概率定位时间边界,然后将这些边界组合成建议。P-GCN [39]使用图卷积网络来利用提议之间的关系。弱监督时间动作定位。虽然一些方法[26,15]使用点级别的标签,但WTAL通常只需要视频级别的注释,大大减少了标记的工作量。Untrimmed- Nets [36]正式提出了WTAL任务,并试图用多实例学习(MIL)方法解决它。稀疏时间池网络(STPN)[28]引入了一种具有稀疏性约束的注意力机制W-TALC [31]设计了一个协同活动相似性损失,并使用深度度量学习来训练网络。然而,这些早期的作品不能有效地区分动作实例和背景,也未能对完整的动作进行本地化。为了解决这个问题,许多作品[21,29,16,12,17,41,27]改进了注意机制,以抑制背景的激活分数,突出动作的激活分数。BaS-Net [16]为背景引入了一个辅助类,并使用过滤模块来抑制背景的激活。Liu等人。 [21]开发了一个并行多分支分类框架来模拟完整的动作。HAM-Net [12]使用混合注意机制来本地化完整的动作实例。CoLA [41]利用片段对比学习来改善定位结果。最 近 , CO2-Net [8] 和 ACGNet [38] 都 专 注 于 增 强WTAL的功能CO2-Net使用跨模态共识模块,以减少任务无关的信息冗余,使功能适合WTAL。ACGNet使用图形卷积网络来增强动作表示的可辨别性,6030nnn}n}∈nnn我i=1nn我i=1nnnSennn、图2.概述了所提出的时间特征增强扩张卷积网络(TFE-DCN),该网络包括:四个部分:(1)预训练的特征提取器,输出RGB特征XRGB和光流特征XFlow;(2)时间特征n n增强扩张卷积模块(TFE-DC模块),其产生增强的光流特征XF低噪声和时间注意力(3)模态增强模块,其生成增强的RGB特征XRGB和空间注意力权重ARGB;n n n(4)分类器和逐元素乘法,生成时间类动作序列(TCAS)Sn和抑制TCASSn。更容易基于增强的特征来分类困难的例子。我们的方法在两个主要方面不同于CO2-Net和ACGNet(1)TFE-DCN能有效地利用时间信息增强时间特征,并利用增强后的时间特征增强RGB特征。而CO2-Net不强调时间信息,对两种模态特征一视同仁.(2)TFE-DCN用途3.2. 方法概述3.2.1特征提取器遵循常见的做法[28,16],我们首先将每个视频vn划分为16帧非重叠片段,并对固定数量的T个片段进行采样以表示视频。多层扩张卷积来捕获时间依赖性,RGB特性XRGB={xRGB}T和光学流特征XFlow={xFlow}T从ral diffusion graph以获得片段之间的时间依赖性。我们的模型实现了更好的性能,分别用预先训练的特征提取器采样RGB片段和光流片段,即,I3D [1].xRGB,x Flown我n我是第i个RGB片段3. 方法在本节中,我们首先介绍了弱监督时间动作定位(WTAL)的问题公式,然后描述了我们提出的TFE-DCN的结构概述。总体架构如图所示。二、两个模块的详细信息见第3.3节和第3.4节。最后,我们说明了损失函数和动作定位。3.1. 问题公式化假设我们给出一组N个未修剪的视频和光流片段,D为特征维数。3.2.2结构概览我们提出的TFE-DCN的总体框架如图所示。二、该框架的核心部分是时间特征增强扩张卷积模块(TFE-DC模块)和模态增强模块。TFE-DC模块旨在有效地利用时间信息并增强光流特征。该模块的输入是光流特征XF低,输出是增强光流特征XF低(vn)Nn=1 以及视频级分类标签{ynNn=1和时间注意权重AFlow∈RT。 关于Modal-其中y nRC是归一化的多热向量,并且C是操作类别的数量。WTAL的目标是生成所有动作实例的分类和时间定位结果作为动作建议(t,t,c,φ),ityEnhancementModule旨在增强RGBfeaturesXRGB,借助增强的光流特性XFlowRGB。 输入为XRGB和XF低电平,输出为Put是增强的RGB功能XRGB渲染和空间属性,s en每个视频,其中t、t、c和φ分别表示动作建议的开始时间、结束时间、预测动作类别和置信度得分权值A RGB∈RT。然后将XRGB和XFlow级联,得到XnR∈R2D×T.鉴于级联特征Xn,我们应用一个类,片段之间的差异。 虽然ACGNet使用节奏-实验6031n∈n∈n∈⊗n氮钾∈k=1nnnnnn3.3.时间特征增强扩张锥K氮钾Σ将光流特征XFlowRD×T馈送到第一层fdilated,1中,并且膨胀值为1。 然后输出通过ReLU层,获得中间结果Mn,1。对于第k层fdilated,k,该过程公式化如下:Mn,k=ReLU(fdilated,k(Mn,k−1,2k−1)),k= 1,. . . ,K,M n,0= X F低,(三)图3.提出的时间特征增强扩张卷积模块(TFE-DC模块)的概述该模块包含一个K层扩张卷积网络(在此图中K=3),以扩大感受野并捕获具有不同时间尺度的片段之间的依赖性。它还具有注意力权重生成机制,该机制对从每个层的输出中获得的注意力权重进行平均。这允许n其中Mn,kRD×T是第k个扩张卷积层的输出,2k−1是扩张值。对于第k层,感受野扩展到2k+1个片段。最后,我们在Mn ,K上应用sigmoid函数,使用输出来增强光流特征,并且获得增强的光流特征XFlow,如下所示:X流<$=σ(Mn,K)<$X流,(4)最终注意力权重AFlow可以覆盖n n的时间信息不同大小的感受野以获得TCASSn。Sn=fcls(Xn),(1)其中fcls是分类器,SnR(C+1)×T具有C+1因为我们遵循BaS-Net [16]并设置一个辅助类为背景。 然后我们使用时间其中Mn,K是K层扩张卷积网络的最终输出,σ是S形函数,表示逐元素乘法。对于注意力权重生成,我们对每个Mn,k应用S形函数和逐元素乘法,并使用过滤模块fatt,k来生成注意力权重AFlowRT。过滤模块由三个temporal一维卷积层,后面是一个sigmoid函数组成。时间注意力权重AFlow是加权的av-注意力权重AF低,以抑制背-[001 pdf1st-31files]K的平均值.该过程的公式如下:n在Sn中接地并获得抑制的TCASSn:n,k k=1S<$n=AFlow<$Sn,(2)AFlow=fatt,k(σ(Mn,k)<$XFloww),k=1,. . . ,K,(5)n其中,k表示时间上的逐元素乘法,n,k nK维度A流量=A流量,(6)k=1volution模块在这项工作中,我们应用TFE-DC模块来有效地使用时间信息并增强光流特征,使其更适合于WTAL任务。多层扩张卷积网络可以扩大接收域,捕捉片段间的长程依赖关系。这些性质有利于模型充分学习时态特征。此外,一个完整的动作实例通常跨越一个相对较长的时间窗口,而一个光流片段仅覆盖16帧,不足以观察到完整的动作实例。TFE-DC模块可以扩大感受野以覆盖完整动作实例的时间跨度并观察该动作的完整动态,这是可以充分利用时间信息的实施例。如图3、该模块主要由K层扩张卷积网络和注意力权值生成机制组成。在K层扩张卷积中,我们其中k>0,k = 1,. . . ,K是权重并且Kak=1。3.4.模态增强模块在获得增强的光流特征XFlow和时间注意力权重AFlow之后,下一步是增强RGB特征XRGB。受跨模态共识模块[8]的启发,我们提出了模态增强模块,该模块在增强的光流特征的帮助下增强RGB特征。主要区别在于我们使用了一个共享卷积层,使两种模态的权重分布更加接近。此步骤确实提高了性能,并且与现有的信道注意方法不同如图4、将RGB特征X RGB和增强的光流特征XFlowRGB输入到共享卷积层中,然后对卷积层的输出应6032用S形函数以获得两个权重。然后6033nnLnnnnn⊗nnLLnnLn∥·∥nTCASSn的列,遵循注意力权重AF低和ARGB的相反:n n不Lgguide=100[|1−AFlo w(t)−sC+1(t)|(十一)t=1+的|1 − A RGB(t)− s C+1(t)|]的,其中AFlow(t)、ARGB(t)和sC+1((t)是第t个元素。n nAF低,ARGB和背景类激活的恢复n n图4.拟议的模态增强概述分别为。 我们还将相互学习损失ml[8]应用于将AFlow和ARGB设置为彼此的伪标签,Module.此模块旨在增强RGB特征XRGB,n nn增强光流的帮助下,XF低反射率。共享卷积层有利于使两种模态的权值分布增强的RGB特征X RGB被馈送到滤波模块中以获得空间注意力权重ARGB。我们使用这两个权重来增强初始RGB特征。该过程表示如下:XRGB=XRGBσ(fconv(XRGB))两种模式之间的相互学习。通过聚合所有上述目标函数,我们在最终目标函数上训练我们提出的TFE-DCN:L=Lbase+Lsupp+λ1Lnorm(12)+λ2L导向器+λ 3Lml,其中λ1、λ2和λ3都是超参数。在实验中,我们设置λ1= 1,λ2= 1和λ3= 0。8默认3.6.动作本地化n nnσ(fconv(XFlow(七)在BaS-Net[16]之后,我们首先在TCASSn上使用top-k策略来获得top-k分数并计算视频-其中,XRGB是增强的RGB特征,fconv是共享卷积层,σ是S形函数,并且是元素乘法。在获得XRGB权重后,我们将其送入过滤模块以获得空间注意力权重ARGB:ARGB=fatt(XRGB),(8)水平分类概率。然后我们用θa阈值化激活分数来预测视频中的动作类别。时间注意力权重AFlow用于丢弃背景片段,并且剩余片段的连续片段成为候选动作提议。als,即, (ts,te,c,φ)。 然后我们使用抑制的TCASSn计算每个建议的置信度分数φ,n n外-内-对比法[33]。 最后,非-其中,fatt是由三个时域1D卷积层和其后的S形函数组成的滤波模块。值得注意的是,我们不使用ARGB来抑制背景片段(如图所示)2)的情况。3.5.损失函数为了优化我们提出的TFE-DCN框架,我们首先应用BaS-Net的损失函数[16],其表示为:LBaS=Lbase+Lsupp+λ1Lnorm,(9)其中base和supp分别是TCASSn和抑制TCASSn的前k个多实例学习损失,λ1是超参数。归一化损失L范数是为了使注意力权重稀疏:1最大抑制(NMS)用于去除重叠的建议.4. 实验4.1. 实验设置数据集。我们在两个流行的WTAL基准上进行实验:THUMOS'14 [13]和ActivityNet v1.3 [7]。THUMOS'14是WTAL任务的广泛使用的基准。它包含20个体育类别的200个验证视频和213个测试视频根据以前的工作[40,16,38],我们使用200个验证视频来训练我们的框架,并使用213个测试视频进行评估。ActivityNet v1.3有10024个培训视频,4926个验证视频和5044个测试视频,来自200个动作类别。由于测试集的注释未发布,流RGBLnorm=2(An<$1+An<$1),(10)哪里1是L1范数函数。为了优化时间注意力权重AFlow和空间注意力权重ARGB,我们应用指南[12]来指导背景类激活,这是最后一个6034我们在训练集上训练,在验证集上测试。评估指标。根据标准的评估指标,我们在不同的Intersection-over-Union(IoU)阈值下使用平均精度(mAP)评估我们的方法我们采用ActivityNet提供的官方评估代码在两个数据集上评估我们的方法。60353监督(特征)方法出版物mAP@IoU(%)AVG0.10.20.30.40.50.60.70.1:0.50.1:0.7SSN [42]ICCV'1760.356.250.640.829.1--47.4-充分TAL-Net [2]CVPR'1859.857.153.248.542.833.820.852.3 45.1(-)GTAN [24]P-GCN [39]CVPR'19ICCV'1969.169.563.767.557.863.647.257.838.849.1----55.3-61.5-弱(UNT)Liu等人[21日][16]第十六话TSCN [40]CVPR'19AAAI53.556.258.946.850.352.937.542.845.029.134.736.619.925.127.612.317.118.86.09.310.237.441.844.229.333.635.7Lee等人[17个]AAAI'2167.561.252.343.433.722.912.151.641.9CoLA [41]CVPR'2166.259.551.541.932.222.013.150.340.9[25]第二十五话CVPR'2166.261.954.944.433.320.59.052.141.5TS-PCA [22]CVPR'2167.661.153.443.434.324.713.752.042.6UGCT [37]CVPR'2169.262.955.546.535.923.811.454.043.6弱(I3D)FAC-Net [10]二氧化碳净排放量[8]ACGNET [38]ICCVAAAI'2267.670.168.162.163.662.652.654.553.144.345.744.633.438.334.722.526.422.612.713.412.052.054.452.642.244.642.5FTL [5]CVPR'2269.663.455.245.235.623.712.253.843.6[19]第十九话CVPR'2269.063.855.945.935.724.313.754.144.0Huang等人[第十一届]CVPR'2271.365.355.847.538.225.412.555.645.1ASM-Loc [6]CVPR'2271.265.557.146.836.625.213.455.445.1TFE-DCNWACV'2372.366.558.649.540.727.113.757.546.9表1.我们的方法与最先进的全监督和弱监督TAL方法在THUMOS'14测试集上的比较UNT和I3D分别是UntrimmedNet features和I3D features的缩写AVG是多个IoU阈值处的平均mAP0.1:0.1:0.5和0.1:0.1:0.7。实施详情。我们提出的TFE-DCN在PyTorch中实现[30]。我们使用在Kinetics [1]上预训练的I3D网络[1]来提取RGB和光流特征。提取器未针对公平比较进行微调。视频片段每16帧采样一次,每个片段的特征维数为1024。在训练过程中,我们将THU-MOS'14的采样数T设置为320所有生成注意力权重的过滤模块都由三个时间1D卷积层组成,分类器由两个时间1D卷积层组成。对于TFE-DC模块,我们将扩张卷积层的数量K设置为3。对于优化,我们使用Adam优化器,两个数据集的学习率为5e-4。训练阶段包括对于THUMOS'14设置为 3000 , 对 于 ActivityNet v1.3 设 置 为 25000 。 对 于THUMOS'14和ActivityNet v1.3,批次大小分别设置为10和16。对于超参数,在TFE-DC模块中k=1(k=1,2,3)4.2. 与最先进方法的在 表 1 中 , 我 们 将 我 们 的 TFE-DCN 与 最 先 进 的WTAL方法和THUMOS'14上的几种完全监督方法进行了我们观察到,我们的方法在所有IoU阈值下都远远优于所有以前的WTAL方法。特别是在AVG 0.1:0.5的关键指标下,超越了最先进的方法[11] 1。9%。与完全监督方法相比,TFE-DCN优于SSN [42]和TAL-Net [2],并在低IoU阈值下实现与GTAN [24]和P-GCN [39]相当的结果。结果证明了我们的方法的优越性能。我们还在ActivityNet v1.3上进行了实验,比较结果见表2。我们的方法优于所有国家的最先进的WTAL方法,并达到25的性能。在ActivityNet v1.3上的平均mAP为3%4.3. 消融研究和分析在这项工作中,我们提出了一个TFE-DC模块,扩大了感受野,并捕捉片段之间的时间依赖性,和一个模态增强模块,以重新校准初始RGB功能的帮助下,增强光流功能。此外,最终的目标函数consists的几个组件。因此,我们首先验证每个组件的有效性。然后分析了TFE-DCN中各个模块的效率。所有消融研究均在THUMOS'14测试集上进行最终目标函数的消融研究。在表3中,我们进行了消融研究,以调查最终目标函数(等式12)中每个分量的贡献。我们不测试Lbase和Lsupp,因为它们6036n25nnnnnnnnnnn⊗⊗KAVG0.10.3 0.50.70.1:0.50.1:0.7070.255.038.114.454.644.8171.356.438.412.955.645.3271.657.339.213.156.345.8372.358.640.713.757.546.9471.757.238.813.156.145.7表2.我们的方法与ActivityNet v1.3验证集上最先进的WTAL方法的比较。AVG是IoU阈值0.5: 0.05:0.95时的平均mAP。ExpL基础Lsuppl2范数L型导轨LmlAVG1✓✓✓✓✓✓✓✓✓✓✓29.52✓✓36.63✓✓44.14✓✓41.65✓✓46.56✓✓43.67✓✓44.38✓✓✓✓✓46.9表3.在THUMOS'14测试集上对最终损失功能的不同组件进行消融研究AVG是IoU阈值0.1:0.1:0.7时的平均是框架的基本目标函数,不应删除。 我们观察到Lnorm、Lguide和Lml都对最终性能有贡献。其中,L型导向器由于其具有良好的导向性能,表4.在THUMOS'14测试集上对我们的模型进行了不同扩张卷积层数量K的消融研究光流特征而不进行任何增强,并直接将初始特征馈送到过滤模块中以获得时间注意力权重。结果表明,性能随着卷积层的增加先增加后降低。当K=3时实现最佳平均性能。这是因为当K=3时,接收字段覆盖9个片段。由于每个片段包含16帧,样本的帧率为25,因此感受野覆盖9×16=5内的时间信息。76秒THU-MOS '14测试集中所有动作实例的平均持续时间约为4. 49秒 如果K小于3,感受野不能完全覆盖大多数动作实例的时间跨度。如果K大于3,则接收字段可能会覆盖太多的背景片段,并降低动作实例片段的影响。在覆盖完整动作实例的同时减少背景片段的这种权衡使得K=3成为最佳值。表4所示的变化趋势证明了我们的TFE-DC模块的有效性。模态增强模块的消融研究在我们提出的模态增强模块中,RGB特征在增强的光流特征的帮助下得到增强。如图4.利用初始RGB特征XRGB和增强光流特征XFlowRGB上的共享卷积层生成两个权值。然后,我们增强初始RGB特征XRGB与这两个年龄背景类激活是相反的在-张力权重AFlow和ARGB,因此改善了动作背景分离[12]。TFE-DC模块的消融研究。TFE-DC模块用于生成增强的光流特征和时间注意力权重。它的关键部分是K层扩张卷积网络,它扩大了感受野并捕获片段之间的时间依赖性但是,如果接收场太大,它可能会覆盖太多不相关的背景片段,导致性能下降。为了验证具有不同扩张卷积层数量的TFE-DC模块的有效性,我们进行了相关消融研究。表4列出了按元素相乘的权重。为了验证我们的模态增强模块的有效性,我们评估了不同类型的模态组合。表5列出了具有不同类型模态组合的模型之间的性能比较从上到下,“原始RGB”意味着模块直接输出初始RGB特征X RGB,而不进行任何增强。“仅RGB”意味着模块使用RGB自关注权重来增强RGB特征,即, X RGB=σ(f conv(X RGB))X RGB。“仅流”意味着模块仅使用增强的光流来增强RGB特征,即XRGB=σ(f conv(X Flow))X RGB。“不共享”意味着我们在X RGB上采用卷积层f conv 1,在X F低RGB上采用卷积层f conv 2,这两个卷积层n n具有不同数目的膨胀卷积层的模型呃。 这里K=0表示模块输出初始层不共享参数。 “Exchange Modalities”最后一行意味着我们交换XRGB和XF低显示n n方法mAP@IoU(%)0.5 0.75 0.95AVGBaS-Net [16],AAAI34.522.54.922.2TSCN [40],ECCV35.321.45.321.7ACSNet [23],AAAI36.324.25.823.9AUMN [25],CVPR38.323.55.223.5TS-PCA [22],CVPR37.423.55.923.7UGCT [37],CVPR39.122.45.823.8FAC-Net [10],ICCV37.624.26.024.0FTCL [5],CVPR40.024.36.424.8DCC [19],CVPR38.824.25.724.3Huang等人 [11],CVPR40.624.65.925.0ASM-Loc [6],CVPR41.024.96.225.1TFE-DCN,WACV41.424.86.425.36037nnnn图5. THUMOS'14中两个典型视频示例的定性可视化。BaS-Net(基线)、我们的方法和地面实况(GT)的结果分别以蓝色、红色和绿色显示。由于我们在TCAS中为背景引入了一个辅助类,因此如果该片段的背景类在所有类中获得最高激活分数,则我们将激活分数设置为0模态mAP@IoU(%)0.3 0.5 0.7平均值原始RGB54.937.513.244.1仅RGB56.639.113.345.4流仅57.738.813.445.9RGB +流(Not分享)57.939.713.146.5RGB +流(共享会议)58.640.713.746.9交换方式53.336.512.243.2表5.在THUMOS'14测试集上对我们的模型进行了不同模态组合的消融研究。AVG是IoU阈值0.1:0.1:0.7时的平均mAP。在图2中,同时保持其他设置与“Sharing Conv”相同我们可以发现,X F低亮度确实增强了RGB特征,将平均mAP(0.1:0.7)从44提高到44。1%(“原始RGB”)至45。9%(仅限流量)。这是因为初始RGB特征包含阻碍性能的任务无关信息,并且X F低RGB可以帮助过滤掉任务无关信息。但仅用X-F低灰度来协调X-RGB可能会丢失空间信息。因此,使用这两种方式来增强RGB功能可以达到最佳效果。 当谈到“SharingConv”和“NotSharing”之间的性能差异时,这是因为两种模态之间的不一致会导致性能下降,而共享卷积层有利于使两种模态的权重分布更加接近。“交换模态”引起的性能下降表明,时间建模(TFE-DC模块)应适用于光流特征,而不是RGB特征。 根据上述分析,我们提出的模态增强模块是合理的增强RGB特征。4.4. 定性结果为了说明我们提出的方法的有效性,我们展示了两个典型的视频样本的检测结果,图。5.这两个示例具有代表性,因为第一个示例包含类别而第二个例子包含类别BaS-Net被用作基线,因为我们的模型遵循其背景抑制结构,并在优化过程中使用其损失可以看出,我们的方法具有更准确的定位pro-served比基线,表明我们的方法有效地利用了时间信息。例如,在第二个示例中,baseline方法错误地将多个操作实例合并为一个。而我们的方法可以非常清晰地定位同时,背景片段的激活分数相当低,表明我们的方法可以成功地抑制背景片段的激活分数,并将动作实例与背景分离。这两个典型的样本充分说明了我们的方法的优越性。5. 结论在本文中,我们将探讨如何有效地利用时间信息和增强功能,以改善时间动作定位结果。我们提出了一种新的WTAL框架TFE-DCN来解决这个问题。我们使用TFE-DC模块来扩大感受野并捕获片段之间的长程依赖性以增强光流特征。我们还提出了一个模态增强模块来增强RGB功能的帮助下,增强光流功能。在两个数据集上的实验表明,我们的TFE-DCN优于当前最先进的方法,并验证了我们的想法,即有效地利用时间信息可以显着提高时间动作定位的性能。6038引用[1] J oaoCarreira和Andr e wZisserman。Quovadis,动作识别?新模型和动力学数据集。2017年IEEE计算机视觉和模式识别会议(CVPR),第4724-4733页[2] 放 大 图 片 作 者 : 赵 玉 伟 , SudheendraVijayanarasimhan,Bryan Sey- bold,David A. Ross,JiaDeng,and Rahul Sukthankar.重新思考更快的r-cnn架构用于时间动作本地化。2018年IEEE/CVF计算机视觉和模式识别会议(CVPR),第1130-1139页,2018年。[3] 戴希阳,巴拉特·辛格,张古月,Larry S.戴维斯和严秋晨。用于视频中活动定位的时间上下文网络。在2017年IEEE国际计算机视觉会议(ICCV),第5727-5736页[4] YazanA b uFarha和JürgenGall。Ms-tcn:用于动作分割的多 级 2019 年 IEEE/CVF 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第3570-3579页[5] 高俊宇,陈梦媛,徐长生。用于弱监督时间动作定位的细粒度时间对比学习。2022年IEEE/CVF计算机视觉和模式识别会议(CVPR),第19967-19977页[6] 何伯,杨希通,乐康,成智宇,周鑫,阿比纳夫·什里瓦斯塔瓦。Asm-loc:用于弱监督时间动作定位的可感知分段2022年IEEE/CVF计算机视觉和模式识别会议(CVPR),第13915-13925页[7] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet:人类活动理解的大规模视频基准。在2015年IEEE计算机视觉和模式识别会议(CVPR),第961-970页[8] 洪发庭,冯家昌,徐丹,英山,郑伟世。跨模态共识网络用于弱监督时间动作定位。在第29届ACM多媒体国际会议论文集,MM计算机协会。[9] Weiming Hu,Nianhua Xie,Li Li,Xianglin Zeng,andStephen Maybank.基于视觉内容的视频索引与检索综述 。 IEEE Transactions on Systems , Man , andCybernetics,Part C(Applications and Reviews),41(6):797[10] Linjiang Huang,Liang Wang,and Hongsheng Li.用于弱监督时间动作定位的前景动作一致性网络。2021年IEEE/CVF计算机视觉国际会议(ICCV),第7982-7991页[11] Linjiang Huang,Liang Wang,and Hongsheng Li.通过代表性片段知识传播的弱监督时间动作定位。2022年IEEE/CVF计算机视觉和模式识别会议(CVPR),第3262-3271页[12] Ashraful Islam,Chengjiang Long,and Richard Radke.一种弱监督时态系统动作定位AAAI人工智能会议论文集,35(2):1637[13] Y.-- G. Jiang,J.Liu,中国粘蝇A.Roshan Zamir,G.托代里奇岛拉普捷夫M. Shah和R.苏克坦卡THUMOS挑战:动作识别与大量的类。网址://crcv.ucf.edu/THUMOS14/,2014年。[14] 主演:Michael D.Flynn,Rene 'Vidal,Austin Reiter,and Gregory D.海格用于动作分割和检测的时间卷积网络在2017年IEEE计算机视觉和模式识别会议(CVPR)上,第1003-1012页[15] 李弼贤和玄彬。从弱监督时间动作局部化的点学习动作完 整 性 。 在 2021 年 IEEE/CVF 计 算 机 视 觉 国 际 会 议(ICCV)上,第13628-13637页[16] Pilhyeon Lee,Youngjung Uh,and Hyeran Byun.用于弱监督时间动作定位的背景抑制网络AAAI人工智能会议论文集,34(07):11320[17] Pilhyeon Lee,Jinglu Wang,Yan Lu,and Hyeran Byun.通过不确定性建模的弱监督时间动作定位。AAAI人工智能会议论文集,35(3):1854[18] 彭蕾和托多罗维奇。用于视频中动作分割的时间可变形2018 年 IEEE/CVF 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第6742-6751页[19] 李晶晶,杨天宇,魏吉,王爵,李成。探索弱监督时间动作定位的去噪跨视频对比度。2022年IEEE/CVF计算机视觉和模式识别会议(CVPR),第19882-19892页[20] 林天威,赵旭,苏海生,王崇景,杨明。BSN:用于临时行动建议生成的边界敏感网络。In Vittorio Ferrari,Mar- tial Hebert , Cristian Sminchisescu , and YairWeiss,editors,Computer Vision施普林格国际出版社.[21] 刘道长,蒋婷婷,王益州弱监督时间动作定位的完备性建模和上下文分离。2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),第1298-1307页[22] 刘源,陈静媛,陈振芳,邓兵,黄建强,张汉旺.在未经 修 剪 的 视 频 中 未 标 记 的 背 景 的 祝 福 。 2021 年IEEE/CVF计算机视觉和模式识别会议(CVPR),第6172-6181页[23] Ziyi Liu,Le Wang,Qilin Zhang,Wei Tang,JunsongYuan,Nanning Zheng,and Gang Hua.Acsnet:用于弱监督时间动作本地化的动作上下文分离网络AAAI人工智能会议论文集,35(3)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功