基于群体注意力的屏蔽感知网络用于时间行为定位

179 浏览量更新于2023-10-16 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6058基于群体注意力的时间行为定位的屏蔽感知网络Tae-Kyung Kang1，Gun-Hee Lee2，Kyung-Min Jin1，和Seong-Whan Lee11人工智能，韩国高丽大学，韩国2部韩国高丽大学计算机科学与工程系{tk kang，gunhlee，km jin，sw.lee}@ korea.ac.kr摘要时间动作定位（TAL）是一个重要的和具有挑战性的任务，在未修剪的视频中搜索微妙的人类活动。为了提取片段级视频特征，现有TAL方法通常使用在短视频分类数据集上预训练的视频编码器。然而，片段级特征由于时间信息短且差而可能导致连续帧之间的歧义已经提出了几种结合时间关系的方法来缓解这个问题;然而，它们仍然遭受较差的视频特征。为了解决这个问题，我们提出了一个新的时间动作定位框架称为一个感知掩蔽网络（AMNet）。我们的方法同时细化视频功能，使用动作感知的注意，并考虑内在的时间关系，使用自我注意和交叉注意机制。首先，我们提出了一个动作掩码编码器（AME），它生成一个动作感知掩码来表示积极的特征，然后用于细化片段级别的特征，使其在动作周围更加突出其次，我们设计了一个组注意模块（GAM），该模块通过将特征分为两组来建模时间信息之间的关系并交换互信息，即，长和短组。在两个主要基准数据集上的大量实验和消融研究证明了AM-Net的有效性，并且我们的方法在THUMOS-14和ActivityNet1.3上实现了最先进的1. 介绍时间动作定位（TAL）是视频理解中的一项核心任务。TAL最近引起了人们的关注，可以扩展到各种视频相关的研究[45]，例如。视频检索[16，11]，视频监控[46，7]，以及视频摘要[43，10]。给定一个未修剪的视频，TAL的目标是预测开始时间，结束时间和动作类别。这是一个具有挑战性的任务，因为分类和定位同时进行，以找到复杂和模糊的动作实例在长的未经修剪的视频。在TAL中，最近已经提出了各种合适的方法，其中大多数方法[35，39，14，48，17]通常依赖于预先训练的视频编码器。具体而言，未修剪的视频被分割成片段，并从每个片段中提取特征。然后，与提取的特征，所提出的动作检测模型被用来预测动作的边界和类别。现有的方法多种多样，性能显著，但由于特征表示有限，没有充分利用固有的语义信息。特别地，针对视频级分类预先训练的视频编码器在TAL中未被优化，因此，利用片段级视频提取的特征不提供足够的上下文信息。这是因为片段级视频包含大约8到32帧。假设视频为30 fps，大约为0.27到1.07秒。该限制导致连续帧之间的模糊性，导致TAL模型无法清楚地区分动作框架和背景，这可能会妨碍后续的检测和分类过程。这种模糊性不仅干扰了动作边界的精确预测，而且导致分类和定位之间的不一致。即使预测的时间动作边界是准确的，不准确的分类分数也会通过非最大抑制（NMS）对检测性能产生负面影响[4]。在本文中，我们提出了一个基于行为感知的掩蔽网络（AMNet），通过动作感知注意和自我注意来解决场景模糊问题。我们首先基于训练60590.40.90.60.10.1阶段在这里，正面和负面部分分别表示行动领域和背景。然后，我们训练一个动作感知注意力面具，通过与消极成分保持相当大的嵌入距离来表示积极成分。使用此掩码，我们改进了原始表示，使其在动作区域中更加明显片段预训练视频编码器0.4TAL模型考虑到固有的语义信息。进而建议建议利用细化后的特征，将特征分为多个类别，特征提取预测后处理规模的特点和应用自我和交叉注意机制。我们提出的框架包括三个主要组成部分：（i）动作掩蔽编码器（ AME ），（ ii ）组注意力模块（GAM），以及（iii）诸如类、边界和匹配分数头的预测头。AME从视频特征生成动作感知掩码，将其作为类似残差的方法进行掩码。掩蔽的特征有利于时间动作信息，保持现有的特征信息。GAM包含一个特征金字塔网络，该网络生成多尺度特征以覆盖各种长度的现有方法[25，42]独立地处理每个多尺度特征。然而，这种方法不能充分利用具有不同固有时间信息的多尺度结构。由于具有长时间维度的特征倾向于关注局部上下文，而具有短时间维度的特征倾向于关注全局上下文，因此我们将多尺度特征分为两组，即：，长和短组。然后，我们在两组之间进行交叉注意，以弥补知识的缺乏我们的预测头由类、边界和匹配分数头组成。匹配分数头生成匹配分数，其进一步乘以分类分数。我们提出的AMNet通过在两个基准数据集上进行广泛的实验来证明其有效性： THUMOS-14 [18] 和ActivityNet1.3 [5]。作为因此，我们实现了最先进的性能，我们的贡献可以总结如下：• 我们提出了一个AMNet，其中AME生成一个动作感知掩码，该掩码通过应用动作感知注意力来处理场景模糊性来细化片段级视频特征它通过掩盖原始视频特征来强调特征的作用区域。• 我们设计了一个GAM，它通过将多尺度特征组合成两组并应用交叉注意来建模内在的节奏关系• 我们进行了大量的实验，我们的方法优于其他国家的最先进的方法在两个主要的数据集，即。、THUMOS-14和ActivityNet1.3。图1.典型TAL的整体管道。在视频编码器提取视频特征之后，TAL模型生成由时间动作边界和分类分数组成的在后处理阶段（图的右侧），NMS抑制具有较低分类分数或与阈值以上的其他建议重叠的建议。2. 相关工作2.1. 动作识别动作识别[1，37]作为模式识别的一个领域[36，23，22，24，15]和TAL的基本任务已经被积极研究了很长时间。传统的动作识别方法可以分为基于骨架的方法（Shift-GCN [9]）和基于视频的方法（TSN [41]和I3 D [6]）。I3D模型是利用RGB和光流的双流膨胀3D卷积网络，在TAL中最普遍。I3D通过膨胀卷积滤波器和池化的核大小来增加2D CNN的感受野我们采用了在Kinetics数据集上预训练的I3D模型[21]，因为它具有卓越的动作识别能力。然而，由视频编码器提取的片段级视频特征可能由于短期片段级视频而具有有限的时间信息我们提出的方法侧重于mit-igating这个问题。2.2. 时间动作定位与动作识别不同，TAL的数据集是未经修剪的长视频。此外，TAL同时进行两项任务，即动作的分类和整个鲎试剂工艺可分为三个步骤：（i）特征提取，（ii）使用TAL模型进行预测，以及（iii）使用Soft-NMS [4]进行后处理，如图所示。1.大多数TAL方法[39，20，44]利用预先训练的动作识别模型作为主干架构来提取视频特征。利用这些提取的特征，TAL方法专注于预测阶段。然而，我们认为，离线片段级别的功能可以是次优的本地化行动，因为不充分的时间知识。为了解决这个问题，我们通过使用由提议的AME生成的动作感知掩码进行动作感知注意来改进片段级视频特征0.60.9NMS时间时间6060∈(i) 掩码表示学习（ii）动作检测器学习图2. 可感知掩码网络（AMNet）：我们的训练过程可以分为掩码表示学习（左）和动作检测器学习（右）。在掩码表示学习中，我们首先将片段级特征分为正分量和负分量，其中正分量在内部，而负分量在地面真值的时间边界之外。然后，训练动作掩蔽编码器（AME）以使用三重丢失来表示正部分。接下来，组注意力模块（GAM）和预测器使用掩码特征生成最终输出最后，计算每个损失，即类、边界和匹配损耗。视频特征可感知掩码屏蔽功能始端时间级连接3. 该方法在本节中，我们将介绍一种称为可感知掩码网络（AMNet）的新型TAL框架，它由三个主要组件组成：动作掩蔽编码器（ AME ）、组注意模块（GAM）和预测头。具体来说，我们细化视频功能与通过AME生成的动作感知掩码和模型的多尺度功能通过GAM分组的每个关系。在训练中，我们的方法分两步异步处理;因此，我们首先解释（i）掩码表示学习。然后，我们介绍（二）动作检测器学习-图3. 动作掩码编码器（AME）从视频特征生成动作感知掩码。图中的每个特征表示通道的平均值。如该图所示，掩蔽特征在动作周围比视频特征更显著。2.3. Transformer自从Transformer [40]在自然语言处理（NLP）领域出现以来，基于Transformer的架构在计算机视觉中被积极研究，用于图像[12]和视频处理等任务。ing[3，19，31].典型卷积网络的感受野由于滤波器大小而受到限制相比之下，Transformer有效地利用了具有多头自关注的全局依赖性，从而展示了卓越的性能。考虑到这一点，我们还采用了Transformer的编码器来模拟时间位置之间的关系。此外，我们将多尺度特征组合成长组和短组，并进行交叉注意来对每组的依赖性进行建模。ing.我们的方法的整体管道如图所示。二、3.1. 问题设置和特征提取给定一个未修剪的视频，TAL的目标是预测动作的开始时间、结束时间和置信度得分。作为第一步，我们为每个片段级视频提取视频特征F，其包含几个帧（例如，，16帧），使用预先训练的视频编码器[6]。提取的视频特征可以表示为FRT×C，其中T和C是时间维度和通道。3.2. 掩码表示学习在掩码表示学习中，我们训练AME，生成一个动作感知掩码来细化视频特征 F通过行动意识的关注。具体来说，根据地面实况，我们将视频特征分为正（动作）和负（背景）分量，如图所二、然后，我们收集并连接相应的片段级功能沿时间维度，锡永正的Fpos∈RTP×C和负的特征视频特征动作掩蔽编码器可感知掩码界首匹配分数头班班主任视频特征背景掩模行动POS.关注Neg.关注背景负积极视频视频视频编码器编码器编码器编码器编码器编码器编码器编码器编码器动作掩蔽编码器高价值动作掩蔽编码器小组注意模块6061∈2Mi=1我√我∈∈F掩码=AME（ F）Fpos=AME（Fpos）¨阴性MMMQMKi=Wi·FivM关于我们···（一）FnegRTN×C有TP和TN长度之和等于T。接下来，AME分别从视频特征生成掩码、积极注意力和我们可以将其公式化为：AME（x）= Conv1d（{σ（ε（Conv1d（x）））}×K），Fneg=AME（Fneg），其中σ、ε和K分别表示激活、归一化我们注意到，正特征和负特征必须具有正交性质。此外，面具必须能够代表每一个注意。为此，我们采用了广泛用于特征表示学习或聚类的三元组损失[38]图4. 小组注意力模块（GAM）由三个部分组成：（i）特征金字塔网络，（ii）自我注意模块，和（iii）交叉注意模块。我们将从特征金字塔网络生成的多尺度特征组合成两个ing.为了简单地解释它，我们设置掩码F 掩模锚定组，即根据时间维度，大组和短组-锡永并找到嵌入锚点的欧几里得距离，正和负，如下所示：d=-F−F-，2掩蔽特征被细化为在动作区域周围突出，如图所示。3.之后，被掩盖的特征位置掩码neg掩模位置（二）GAM的输入为F∈RT×C。d=<$F-F<$。小组注意模块（GAM）为了充分利用根据被掩蔽特征F的固有语义知识，我们在这里，我们打算最小化d阳性和最大化d阴性。所以，三重态损耗L_trip可以用公式表示为：Ltrip=[dpos−dneg+α]+，（3）其中α表示在正对和负对之间强制执行的裕度。有了这个损失，我们可以获得具有AME的动作感知掩码，该掩码对突出于正面特征的特征进行编码。3.3. 动作检测器学习在动作检测器学习中，我们开始认真训练我们的AM网络。首先，我们介绍了使用AME的视频特征过程的详细改进。接下来，我们将介绍结构的GAM建模固有的时间关系，建立一个GAM模型，模型中的时间关系，时间步长，如图所示4.第一章为了得到不同长度的时间动作边界，将屏蔽特征F_i分解为K个多尺度特征F_iR_i× C_K 特征金字塔网络，由1D CNN组成。每个多尺度特征具有不同的时间维度，分别减少一半。然后，我们对每个多尺度特征（F1，F2，…，FK）进行自我关注，以建模每个时间位置之间的关系。首先，将多尺度特征分别投影到查询Q、键K和值V中，如下所示：Qi=Wi·FiKMVi=Wi·Fi关于三个预测头：（i）类首，（ii）边界首，和（iii）匹配分数首。详细情况解释如下。视频特征的细化为了获得在动作区域周围具有显著值的TAL的最佳特征，我们首先使用AME生成动作感知掩码。接下来，我们通过动作感知注意力获得一个被掩蔽的特征，执行类似残差的操作如下：F掩码=AME（ F），其中W表示将特征投影到查询、键和值中的可学习权重。利用这些投影特征，我们进行自注意操作，其公式如下：Q KTatti= softmax（）Vi，（6）D其中D表示每个注意头的通道。通道D被计算为C，其中Nh是F=F+Fmask，（四）Nh注意头。其中FRT×C和FmaskRT×C分别表示视频特征和动作感知掩码。在进行动作感知注意之后，我们可以观察到，在进行自注意操作之后，我们基于时间维度的长度将多尺度特征组合成两组：长组和长群屏蔽功能K短群MSA多头自注意MCA多头交叉注意LN层规范化VMLP多层感知器添加级联团体自我关注组交叉注意KQQV特征金字塔网络LNLNMSALNMLPLNMSAMSALNLNMLPMLPLNLNMCAMCALNLNMLPMLPi∈{1，2，···，K}，（五）长组和短组之间的区别。最后，我们解释6062M··LLLLR×}ΣΣCLSKK其中y∈RTi×NC，B∈RTi×2，m∈RTi×1表示G=[ g（F1），···，g（F2）]，预测置信度得分与NC类，时间短MmK+1K（七）边界和匹配分数。另外我们G龙 =[g（F2），···，g（Fm）]，通过以下方式调整边界和匹配分数的尺度其中[ ]和g（）分别表示时间方面的级联和自注意注意，具有不同时间维度的特征受益于生成各种长度的建议。具体而言，具有较长时间维度的特征，其关注于局部上下文，倾向于生成相对较短的动作边界。相比之下，具有较短时间维度的特征，其关注于全局上下文，倾向于生成相对长的动作边界。这是因为从特定时间步长开始和结束的预测绝对距离值在长时间维度中比在短时间维度中具有更低的百分比，反之亦然。因此，我们在两组（长和短）之间进行交叉注意，以弥补语义知识的缺乏，如下所示：可学习权重ωB和ωM。3.4. 损失函数在本节中，我们介绍我们提出的方法的损失函数。如上所述，我们分两个阶段训练模型：（i）掩模表示学习和（ii）动作检测器学习。掩码表示学习中的三重丢失之旅然后，我们对动作检测器学习中的损失进行反向传播。动作检测器的损失包括cls类、边界类、reg和匹配分数垫损失。我们采用焦点损失[28]进行分类，这说明了类别不平衡问题。此外，我们使用tIoU损失进行边界回归，计算百分比Q=W·G， Q=W·G，重叠的预测边界B=（ts，te），SCQK短LCQ长地面实况，其中t和t表示动作S=Wck·G短路，S=W cv·G短，KL=Wck·G长，VL=Wcv·Glong，（八）和结束时间。此外，我们使用匹配分数m和tIoU之间的均方误差GL→S=MLP（M（MCA（KS，VS，QL），GS→L=MLP（M（MCA（KL，VL，QS），其中，MLP和MCA分别表示层归一化、多层感知器和多头交叉注意。匹配损失的预测边界的值在这里，我们使用双曲正切函数对匹配分数进行归一化，这比使用sigmoid函数丰富了输出范围并略微提高了性能，如下所示：活泼地然后我们重塑每个GL→S 和GS→L 为如Tab所示4.第一章这些损失可表述如下：原始多尺度特征的形状被定义为{F∈i∈L=L（FL（y，y）），K预测头一般 TAL方法预测两个输出：时间边界和动作类别。然而，这些方法往往忽略了由场景模糊性引起的分类和定位之间的不一致性，这是导致误定位的主要因素之一。Lreg=（1−tIoU（Bk，Bk）），KLmat=（tanh（mk）-tIoU（Bk，Bk））2，K（十一）性能下降因此，我们添加了辅助输出，即匹配分数，以使置信度分数在推理时间内对Soft-NMS [4]的不正确抑制具有鲁棒性。我们的预测头（即，类、边界和匹配分数头）由1D卷积层组成。它们使用相同结构的主块，如下：块（x）={σ（（Conv1d（x）}×K，（9）其中，σ、K和K分别表示激活函数、层归一化和层数最终其中，y、y′和FL分别表示类别的基础真值、预测置信度分数和焦点损失总损失可以用公式表示为：L=Lcls+λ1（Lreg+Lmat）+λ2Ltrip，（12）其中λ1和λ2表示损失之间的权重平衡3.5. 推理给定一个未修剪的视频X，我们的方法输出距离每个时间步{（d s，d e）}T、信心输出，例如时间边界，置信度分数，评分i i i=1和匹配分数，如下生成：和匹配分数m，其中i表示时间步长。根据距离，我们计算出y=FC（Bi=（ts，te）如下：iBlock（Fi）），i i我不是CKi=1在预测最终输出之前。KV6063我我Bi=σ（FC（Block（Fi））×ωB），（十）ts=i−ds，i i（13）mi=FC（Block（Fi））×ωM，t_e=i+d_e。6064××方法特征THUMOS14ActivityNet1.30.30.4 0.50.60.7Avg.0.5 0.750.95Avg.BSN（ECCVTSN [41]53.545.036.928.420.036.846.530.08.030.0[26]第二十六话TSN [41]56.047.438.829.720.538.550.134.88.333.9[44]第四十四话：爱情TSN [41]54.547.640.330.823.439.350.434.69.034.1TCA-Net（CVPRTSN [41]60.653.244.636.826.744.352.336.76.935.5[39]第三十九话I3D [6]68.362.351.938.823.7-47.230.68.630.8[48]第I3D [6]68.363.854.341.826.2-56.035.23.634.2美国（CVPRI3D [6]67.362.455.543.731.152.052.435.36.534.4Muses（CVPRI3D [6]68.964.056.946.331.0-50.035.06.634.0DCAN（AAAITSN [41]68.262.754.143.932.652.351.235.99.435.3Zhu等人（AAAI'22）[49]I3D [6]72.165.957.044.228.553.558.136.36.235.2Liu等人（CVPR'22）[29][第13话]69.464.356.046.434.954.250.536.010.835.1我们I3D [6]76.773.166.857.242.763.354.337.78.536.4表1.在THUMOS 14和ActivityNet数据集上比较我们的方法与其他最先进的方法结果通过不同tIoU阈值下的mAP（%）测量。第二列（特征）表示每种方法我们以与训练相同的方式使用sigmoid和双曲正切函数对置信度和匹配分数进行归一化。然后，我们通过如下方式相互相乘来获得细化的置信度y<$y<$=sigmoid（y）·tanh（m）。（十四）最后，我们可以在进行软NMS [4]之后获得最终输出，以基于精确的置信度得分来抑制冗余建议。4. 实验在本节中，我们提供了两个主要数据集的广泛实验：THUMOS 14 [18]和ActivityNet1.3 [5]。首先，我们介绍了两个数据集，实现细节和用于我们实验的评估指标。接下来，我们将我们的方法与以前的最先进的方法进行比较，我们的总体结果表明，在局部化和分类精度高。此外，我们进行各种消融研究，以验证我们的方法的有效性。最后，我们提供了一个错误分析[2]，允许我们分析结果4.1. 数据集在本节中，我们将介绍用于我们实验的两个主要数据集：THUMOS 14[18]包含413个未修剪的视频，其中有20个动作类和时间注释。根据公开的规定，我们将它们分为200个用于培训的视频和213个用于测试的视频。ActivityNet1.3[5]包含19，994个未修剪的视频，其中包含200个动作类和时间注释，比THUMOS 14大得多。根据之前作品的设置[27，26，44]，我们将视频分为10，024个用于训练的视频，4，926个用于验证的视频，以及5，044个用于测试的视频，比例为2：1：1。4.2. 实现细节对于THUMOS 14数据集，我们使用AdamW [33]优化器训练我们的模型45个epoch 批量大小为4，权重衰减设置为5 10−2。我们将学习率设置为10-4，并采用余弦退火[32]方式。我们使用在Kinetics数据集[21]上预训练的I3D [6]模型，使用覆盖16帧的滑动窗口从视频中提取视频特征，其中4个步幅。失重参数λ1和λ2设置为1，在表1中的消融研究中表现最佳。五、对于ActivityNet1.3数据集，我们使用AdamW优化器训练我们的模型10个epoch 批量大小为16，权重衰减设置为5 10−2。我们将学习率设置为10−3，并采用余弦退火方式。我们使用在Kinetics数据集上预训练的I3D模型，使用覆盖16帧的滑动窗口从视频中提取视频特征，而不重叠，即，16步。失重参数λ1和λ2与THUMOS 14设置相同，设置为1。此外，在[27，44]之后，我们利用分数融合方式获得可靠的结果。来自[47]的视频分类分数乘以推断时间内的置信度分数。4.3. 评估指标在我们的实验中，我们使用平均精度（mAP）来评估TAL性能，这是每个操作类的平均精度的平均值。根据传统实践，对于THU-MOS 14，时间交集对并集（ tIoU ）阈值被设置为 [0.3 ： 0.1 ： 0.7] ，对于ActivityNet 1.3，时间交集对并集阈值被设置为[0.5：0.05：0.95]。4.4. 主要结果在本节中，我们通过与其他最先进的方法进行比较来6065基线基线+ AME + MS AMNet百分之九十百分之八十百分之七十百分之六十百分之五十百分之四十百分之三十百分之二十百分之十图5.THUMOS 14上的每类性能比较结果由不同tIoU阈值上的AP@Avg测量AME GAM MS0.5 0.6✓✓ ✓✓THUMOS 14.表2.在THUMOS 14上对AME、GAM和匹配评分头（MS）等拟定模块进行消融研究。表3.THUMOS 14上不同注意力的消融研究基线模型与选项卡中的第2行相同。2、由匹配的分数头组成。在THUMOS 14和ActivityNet 1.3上，如Tab.1.一、THUMOS 14我们比较我们的方法与其他国家的最先进的方法在THUMOS 14在选项卡。1.我们的方法在所有阈值下都显著实现了优越的mAP，达到63.3%。特别是，我们的方法超过了 Zhu 等人。[49] 方法+4.6%mAP@0.3绝对改进，达到76.7%。此外，我们的方法优于之前的最先进方法（Liu等人 [29]），在绝对改善0.7时，mAP为+7.8%。ActivityNet1.3我们将我们的方法与ActivityNet1.3中的其他最先进的方法进行了比较。1.在tIoU=0.75时，我们实现了最高的mAP，其超过TCA-Net [34]方法1.0%的绝对改进，达到37.7%。此外，尽管我们的方法没有达到最高的 mAP@0.5 和 mAP@0.95 ，但我们在mAP@Avg上以0.9%的差距胜过其他方法。我们猜测性能改进较弱的两个原因表5.THUMOS 14上不同损失之间平衡重量的烧蚀研究THUMOS 14：首先，它的分类更具挑战性，因为ActivityNet1.3比THUMOS 14（20个类）具有更多的操作类别（200个类）。其次，由于地面实况的时间位置是不多样的，动作检测器是过拟合的偏见的情况下。4.5. 消融研究建议模块的有效性我们评估了我们的关键模块的有效性，如AME，GAM和匹配分数头（MS），如表1所示。二、我们采用无锚方法[25]作为基线模型（第一行），通过各种训练技术（如余弦退火和标签平滑）进行改进，并选择最佳参数。在第2行中，结果显示匹配分数头部通过细化置信分数减轻了不一致性问题，与基线相比改进了+2.3%mAP@Avg。此外，在第3和第4行中，我们可以观察到我们的关键模块AME和GAM与类型0.5THUMOS14平均值0.7平均精度λ1λ20.3THUMOS140.4 0.5 0.6 0.7平均THUMOS-140.3 0.4平均值0.7置信度分数0.3THUM0.5公司简介0.7Avg.72.2 66.5 58.529.2 54.4乙状结肠75.963.835.659.873.9 68.1 61.3 48.2 32.1 56.7乙状结肠（y）·乙状结肠（m）75.5 71.2 64.5 52.8 36.8 60.2sigmoid（y）·tanh（m ）76.4 72.2 65.9 54.7 39.676.773.166.857.2消融研究76.5（+0.6）65.4（+1.6） 40.7（+5.1） 62.1（+2.3）76.7（+0.8）66.8（+3.0） 42.7（+7.1） 63.3（+3.5）不同设计的置信度得分，0.510.50.576.776.072.772.666.364.455.455.141.041.762.462.00.5176.772.565.855.641.462.41176.773.166.857.242.763.32176.072.165.154.541.161.81275.871.965.055.641.662.02276.572.664.955.140.061.8✓✓ ✓ ✓基线61.332.156.7+ 感知注意62.9（+1.6）36.1（+4.0） 59.1（+2.4）+自我关注63.8（+2.5）38.0（+5.9） 60.4（+3.7）6066BCEL1L2654.94.64321.610.30.8错误分类（%）L75701006590806070605550504030452010假阳性特征删除错误影响40350.30.40.50.60.70重要预测0错误类型tIoU阈值图6.THUMOS 14上不同匹配损失设计的消融研究，通过不同tIoU阈值下的mAP（%）测量。与第2行相比，显著提高了性能，平均值分别为+3.5%和+5.1%。最后，与基线相比，我们的完整模型将性能提高了+8.9%mAP@Avg。我们还进行了消融研究中的每一个注意效应。3，其中基线（第1行）与Tab中的第2行相同。2.每一行（第2 - 4行）结果从基线加上相应的注意力。结果表明，与基线相比，基于群体的注意力具有+4.8 mAP@Avg的最高增益。这些消融研究表明，AME和GAM对性能改善有显著贡献此外，我们提供了详细的比较（图。5）基线之间的每类（表1中的第1行）。2），GAM和MS基线（表3中第3行）。（2）完整的模型。置信度评分的细化为了验证使用匹配评分细化置信度评分的有效性，我们通过改变置信度评分的设计进行消融研究4.第一行表示当我们的模型使用在没有匹配分数头的情况下训练的vanilla confidence分数进行推断时的结果。第2行和第3行表示通过不同匹配得分的细化置信度得分。结果表明，超曲正切函数比sigmoid函数性能稍有提高.我们推测这是因为双曲正切函数拓宽了匹配分数的范围。匹配损失为了选择合适的匹配分数损失，我们在THUMOS 14数据集上实验了不同的匹配损失设计，如图所示。6.在二进制交叉熵（BCE）的情况下，我们将双曲正切函数（等式2）11)用sig-moid函数，作为BCE的输入必须是正值。结果表明，L2损失是预测时间边界tIoU值的最稳定和鲁棒性。为了找到最佳平衡权重，我们在THU上进行网格搜索，图7.我们的检测结果的误差图，使用DE-100绘制[2]。前10个G预测有5种类型的错误率，其中G表示地面真理的数量。有关该图表的详细说明见附录[2]。MOS 14数据集，如Tab. 5.首先，我们设置两个超参数：λ1表示回归损失，λ2表示三重损失，考虑到分类损失的权重为1，我们将权重范围设置为[0.5：0.5：2]。因此，我们可以观察到，当所有权重都相等时的设置会产生最佳性能。为了分析我们模型的局限性，我们提供了检测结果的假阳性误差图[2]。实验结果在THUMOS 14数据集上以固定的0.5 tIoU阈值如图7、我们可以观察到定位和背景误差的影响我们希望在进一步的工作中，更精确的回归损失设计，以减轻他们。5. 结论本文提出了一种新的时间动作定位框架AMNet，以解决由于视频特征的时间信息不足而导致的连续帧间模糊问题。特别是，我们提出了一个AME来表示语义动作特征，并显式地将动作感知注意力应用于从预训练的视频编码器中提取的视频特征此外，我们提出了一个GAM模型的时间语义知识组- ING多尺度功能。在THUMOS 14和ActivityNet1.3上的大量实验结果表明，我们的AMNet具有高保真的定位和分类，因此可以达到最先进的性能。确认这项工作得到了&&韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）的部分支持。2019-0-00079 ，人工智能研究生院项目（高丽大学），No. 2022-0-00984，用于个性化即插即用解释和解释验证的人工智能技术的开发）。背景错误混淆错误本地化错误错误标签错误双重检测错误真阳性最大平均平均-mAPN升高（%）1G2G3G4G5G6G7G8G9G10G6067引用[1] Mohiuddin Ahmad和Seong-Whan Lee基于多视角图像序列的人体动作识别InFG，2006.[2] Humam Alwassel ， Fabian Caba Heilbron ， VictorEscorcia，and Bernard Ghanem.诊断时间动作检测器中的错误。在ECCV，2018。[3] Anurag Arnab ， Mostafa Dehghani ， Georg Heigold ，Chen Sun，MarioLuc i c'，andCord e liaSchmid. Vivit：一个视频视觉Transformer。ICCV，2021。[4] Navaneeth Bodla，Bharat Singh，Rama Chellappa，andLarry S Davis.用一行代码改进目标检测。InICCV，2017.[5] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。CVPR，2015。[6] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR，2017年。[7] Yunpeng Chang， Zhigang Tu ，Wei Xie ，and JunsongYuan.用于视频异常检测的聚类驱动深度自动编码器。在ECCV，2020年。[8] 郭晨，郑银东，王利民，路彤。Dcan：通过双上下文聚合改进时间动作检测。在AAAI，2022年。[9] Ke Cheng，Yifan Zhang，Xiangyu He，Weihan Chen，Jian Cheng，and Hanqing Lu.基于骨架的动作识别与移位图卷积网络。在CVPR，2020年。[10] 朱文生，宋耶鲁，亚历杭德罗·海姆斯。视频共同总结：基于视觉共现的视频摘要。CVPR，2015。[11] Jianfeng Dong，Xirong Li，Chaoxi Xu，Shouling Ji，Yuan He，Gang Yang，and Xun Wang.用于零示例视频检索的双重编码在CVPR，2019年。[12] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器ICLR，2021年。[13] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络。在ICCV，2019年。[14] Basura Fernando、Cheston Tan和Hakan Bilen。用于动作检测的弱监督高斯网络在WACV，2020年。[15] Hiromichi Fujisawa，Hiroshi Sako，Yoshihiro Okada，and Seong-Whan Lee.信息捕获相机和开发问题。载于ICDAR，1999年。[16] Valentin Gabeur ， Arsha Nagrani ， Chen Sun ， KarteekAlahari，and Cordelia Schmid.用于跨模态视频检索的掩蔽模态。在WACV，2022年。[17] He-Yen Hsieh，Ding-Jie Chen，and Tyng-Luh Liu.行动本地化的上下文建议网络。在WACV，2022年。[18] Y.-- G. Jiang，J.Liu，中国粘蝇A.Roshan Zamir，G.托代里奇岛拉普捷夫M. Shah和R.苏克坦卡THUMOS挑战：动作识别与大量的类。网址：//crcv.ucf.edu/THUMOS14/，2014年。[19] Kyung-Min Jin ， Gun-Hee Lee ， and Seong-Whan Lee.OT- Pose：用于稀疏标记视频中的位姿估计的遮挡感知Transformer。在SMC，2022年。[20] 姜泰京李健熙李成焕HT-Net ： Anchor-free TemporalAction Localization with Hierarchical Transformers. 在SMC，2022年。[21] Will Kay ， Joao Carreira ， Karen Simonyan ， BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan，Fabio Viola，Tim Green，Trevor Back，Paul Natsev，etal. 人体运动视频数据集。 arXiv 预印本 arXiv ：1705.06950，2017。[22] Seong-Whan Lee，Jin H Kim，and Frans CA Groen.原理图中手绘符号的平移、旋转和比例不变识别。IJPRAI，1990年。[23] 李成焕和金尚烨基于级联神经网络的手写体数字集成分割与识别。SMC，C部分，1999年。[24] 李成焕和亚历山德罗·维里使用支持向量机进行模式识别：第一届国际研讨会论文集，加拿大尼亚加拉瀑布。施普林格，2003年。[25] Chuming Lin，Chengming Xu，Donghao Luo，YabiaoWang ， Ying Tai ， Chengjie Wang ， Jilin Li ， FeiyueHuang，and Yan-wei Fu.学习显著边界特征用于无锚时间动作定位。在CVPR，2021年。[26] 林天威，小刘，李欣，丁二瑞，文石磊。Bmn：用于时间动作提议生成的边界匹配网络。在ICCV，2019年。[27] 林天威，赵旭，苏海生，王崇景，杨

下载后可阅读完整内容，剩余1页未读，立即下载