ASM-Loc:弱监督时序动作定位的动作感知分段建模

167 浏览量更新于2023-10-25 收藏 19.96MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

139250ASM-Loc:弱监督时序动作定位的动作感知分段建模0Bo He 1 , Xitong Yang 1 , Le Kang 2 , Zhiyu Cheng 2 , Xin Zhou 2 , Abhinav Shrivastava 101 马里兰大学，帕克学院 2 百度研究，美国0{ bohe,xyang35,abhinav } @cs.umd.edu, { kangle01,zhiyucheng,zhouxin16 } @baidu.com0摘要0弱监督时序动作定位旨在仅通过训练时的视频级别动作标签来识别和定位未修剪视频中的动作片段。在没有动作片段边界信息的情况下，现有方法主要依赖于多实例学习（MIL），其中未标记实例（即视频片段）的预测通过对未修剪视频进行分类来进行监督。然而，这种方法通常将视频中的片段视为独立的实例，忽略了动作片段内部和跨动作片段之间的时间结构。为了解决这个问题，我们提出了ASM-Loc，这是一个新颖的WTAL框架，可以在标准的基于MIL的方法之外进行明确的、动作感知的分段建模。我们的框架包括三个以分段为中心的组件：（i）动态分段采样，用于补偿短动作的贡献；（ii）分段内部和分段间的注意力，用于建模动作动态和捕捉时间依赖性；（iii）伪实例级别的监督，用于改进动作边界预测。此外，我们提出了一种多步骤的改进策略，逐步改进模型训练过程中的动作提议。在THUMOS-14和ActivityNet-v1.3上进行了大量实验证明了我们方法的有效性，在这两个数据集上都取得了新的最佳结果。代码和模型公开可用于https://github.com/boheumd/ASM-Loc。01. 引言0近年来，弱监督时序动作定位（WTAL）引起了越来越多的关注。与其完全监督的对应方法不同，WTAL只需要在视频级别进行动作类别注释，这样更容易收集，并且更适用于构建大规模数据集。为了解决这个问题，最近的研究[1-12]主要依赖于多实例学习（MIL）框架[13]，其中整个未修剪视频被视为包含多个未标记实例（即视频帧或片段）的标记袋。首先生成各个片段的动作分类分数，形成时间类别激活序列（CAS），然后通过一个top-k均值机制进行聚合，得到最终的视频级别预测[3,6,8,14]。尽管在先前的工作中取得了显著的改进，但是弱监督和完全监督设置之间仍然存在巨大的性能差距。一个主要的挑战是定位的完整性，模型往往会由于动作边界的不准确预测而生成不完整或过度完整的动作片段。另一个挑战是短动作片段的漏检，模型对持续时间较长的片段有偏见，并对短动作产生低置信度的预测。图1展示了这两个常见错误的示例。尽管由于缺乏分段级别的注释，这些挑战本质上是困难的，但我们认为现有基于MIL的方法中缺乏基于分段的建模是导致结果较差的一个关键原因。特别是，这些基于MIL的方法通常将视频片段视为独立的实例，忽略了动作片段内部和跨动作片段之间的时间结构。为了解决这个问题，我们提出了ASM-Loc，这是一个新颖的WTAL框架，可以在标准的基于MIL的方法之外进行明确的、动作感知的分段建模。我们的框架包括三个以分段为中心的组件：（i）动态分段采样，用于补偿短动作的贡献；（ii）分段内部和分段间的注意力，用于建模动作动态和捕捉时间依赖性；（iii）伪实例级别的监督，用于改进动作边界预测。此外，我们提出了一种多步骤的改进策略，逐步改进模型训练过程中的动作提议。在THUMOS-14和ActivityNet-v1.3上进行了大量实验证明了我们方法的有效性，在这两个数据集上都取得了新的最佳结果。代码和模型公开可用于https://github.com/boheumd/ASM-Loc。0GT0基于MIL的0上采样0短动作的漏检0分段内部和分段间的注意力0过度完整性和不完整性0提议0ASM-Loc0动态分段采样0CricketBowling CricketBowling CricketShoting CricketShoting0图1.WTAL的动作感知分段建模。我们的ASM-Loc利用动作提议以及提出的以分段为中心的模块来解决现有基于MIL的方法中的常见失败问题。0方法中的这些挑战是困难的，因为缺乏分段级别的注释，但我们认为现有基于MIL的方法中缺乏基于分段的建模是导致结果较差的一个关键原因。特别是，这些基于MIL的方法通常将视频片段视为独立的实例，忽略了动作片段内部和跨动作片段之间的时间结构。为了解决这个问题，我们提出了ASM-Loc，这是一个新颖的WTAL框架，可以在标准的基于MIL的方法之外进行明确的、动作感知的分段建模。我们的框架包括三个以分段为中心的组件：（i）动态分段采样，用于补偿短动作的贡献；（ii）分段内部和分段间的注意力，用于建模动作动态和捕捉时间依赖性；（iii）伪实例级别的监督，用于改进动作边界预测。此外，我们提出了一种多步骤的改进策略，逐步改进模型训练过程中的动作提议。在THUMOS-14和ActivityNet-v1.3上进行了大量实验证明了我们方法的有效性，在这两个数据集上都取得了新的最佳结果。代码和模型公开可用于https://github.com/boheumd/ASM-Loc。139260方法将视频中的片段视为独立的实例，忽略了它们的时间结构，无论是在特征建模还是预测阶段。在本文中，我们提出了一种新颖的框架，可以实现弱监督时间动作定位的显式、动作感知的段建模，我们称之为ASM-Loc。为了引导段建模，我们首先使用标准的MIL方法生成动作提议。这些提议为未修剪的视频中的动作位置及其持续时间提供了初始估计。基于动作提议，我们引入了三个以段为中心的模块，对应于WTAL流水线的三个阶段，即特征提取阶段、特征建模阶段和预测阶段。首先，提出了一个动态段采样模块，以平衡短程和长程动作段的贡献。如图1所示，持续时间较短的动作提议在时间维度上进行上采样，其缩放比例根据提议的长度动态计算。其次，提出了段内和段间注意力模块，用于在特征建模阶段捕捉动作段内部和跨动作段的时间结构。具体而言，段内注意力模块利用自注意力在动作提议内部建模动作动态，并更好地区分前景和背景片段。另一方面，段间注意力模块利用不同动作提议之间的自注意力来捕捉关系，促进涉及时间依赖性的动作段的定位（例如，图1中的“CricketBowling”后面是“CricketShotting”）。注意，这两个注意力模块都是以段为中心的，这对于抑制未修剪视频中噪声背景片段的负面影响至关重要。第三，引入了伪实例级损失，通过提供细粒度的监督来改进定位结果。伪实例级标签是从动作提议中导出的，结合了减轻标签噪声影响的不确定性估计分数。最后，采用多步骤提议改进来逐步提高动作提议的质量，从而提高我们最终模型的定位性能。我们的主要贡献总结如下：•我们展示了基于段的建模可以缩小弱监督和监督设置之间的性能差距，这在先前基于MIL的WTAL方法中被忽视。0•我们引入了三个新颖的以段为中心的模块，可以在WTAL流水线的不同阶段实现动作感知的段建模。0•我们提供了大量实验证明了我们设计的每个组件的有效性。我们的ASM-Loc在THUMOS-14和ActivityNet-v1.3数据集上都取得了新的最佳效果。02.相关工作0时间动作定位（TAL）。与动作识别相比[15-21]，TAL对于视频理解是一项更具挑战性的任务。当前的全监督TAL方法可以分为两组：基于锚点的方法[22-25]根据预定义的动作提议执行边界回归，而无锚点的方法[26-28]直接预测每个片段的边界概率或动作得分，然后采用自下而上的分组策略匹配每个动作片段的起始和结束对。所有这些方法都需要精确的时间注释，这是一项费时费力的工作。0弱监督时间动作定位。最近，弱监督设置在训练过程中只需要视频级别的类别标签，引起了学术界的越来越多关注[1-12，29-35]。具体而言，UntrimmedNet[1]是第一个引入多实例学习（MIL）框架来解决这个问题的方法，它选择前景片段并将它们分组为动作段。STPN[2]通过添加稀疏性损失来强制选择片段的稀疏性来改进UntrimmedNet。CoLA[9]利用对比学习来区分前景和背景片段。UGCT[10]提出了一种在线伪标签生成与不确定性感知学习机制相结合的方法，以对注意力权重施加伪标签监督。所有这些基于MIL的方法都将视频中的每个片段单独处理，忽略了段级别的丰富时间信息。相比之下，我们的ASM-Loc专注于对WTAL进行段级时间结构建模，这在先前的工作中很少探索。0伪标签引导训练。在具有弱或有限监督的视觉任务中，使用伪标签来指导模型训练已被广泛采用。在弱监督目标检测中，其中一个开创性方向是自训练[36-39]，它首先训练一个教师模型，然后使用高置信度的预测作为实例级伪标签来训练最终的检测器。类似地，在半监督学习[40-44]和域自适应[45-47]中，模型首先在标记/源数据集上进行训练，然后用于为未标记/目标数据集生成伪标签来指导训练过程。与这些工作类似，我们的ASM-Loc利用伪段级标签（即动作提议）来指导WTAL任务中的训练过程。然而，我们不仅仅将我们的方法限制在仅使用伪标签进行监督。相反，我们在多个以段为中心的模块中利用动作提议，例如动态段采样，段内和段间注意力。Lfg = −C+1c=1yfg(c) log ˆpfg(c).(1)Lbg = −C+1c=1ybg(c) log ˆpbg(c),(2)Labg = −C+1c=1yfg(c) log ˆpbg(c).(3)Lvid = λfgLfg + λbgLbg + λabgLabg,(4)1392703. WTAL基础模型0WTAL旨在在训练期间仅给定视频级别的动作标签的情况下识别和定位未修剪视频中的动作片段。形式上，我们将未修剪的训练视频表示为V，其真实标签表示为y ∈RC，其中C是动作类别的数量。注意，如果视频中存在多个动作，则y可以是多热向量，并且通过l1归一化进行标准化。时序动作定位的目标是为测试视频生成一组动作片段S ={(si, ei, ci,qi)}Ii=1，其中si，ei是第i个片段的起始和结束时间，ci，qi是相应的类别预测和置信度得分。大多数现有的WTAL方法[1-12]采用多实例学习（MIL）的形式。基于MIL的方法的典型流程包括三个主要阶段（如图2所示）：（i）特征提取阶段使用预训练的骨干网络将未修剪的RGB视频和光流作为输入提取片段级特征。（ii）特征建模阶段通过进行时间建模将提取的特征转换为任务导向的特征。（iii）预测阶段为每个时间步生成类别概率和注意力权重，并在训练期间根据MIL的形式计算视频级损失。在以下子节中，我们回顾这三个阶段的常见做法，并详细介绍我们的基础模型。03.1. 特征提取和建模0按照最近的WTAL方法[2, 4, 10, 32,34]，我们首先将每个未修剪的视频分成非重叠的16帧片段，然后应用Kinetics-400预训练的I3D模型[15]提取RGB和光流输入的特征。然后，将RGB和光流特征沿通道维度连接起来，形成片段级表示F ∈ RT ×D，其中T是视频中片段的数量，D =2048是特征维度。根据[4, 6, 9,48]，然后将特征输入到一个时间卷积层和ReLU激活函数进行特征建模：X = ReLU(conv(F))。03.2. 动作预测和训练损失0给定嵌入特征X，应用全连接（FC）层来预测时间类别激活序列（CAS）P ∈ RT × (C + 1)，其中C +1表示动作类别加上背景类的数量。为了更好地区分前景和背景片段，常见的策略[2, 4,7]是引入一个额外的注意力模块，输出未修剪视频每个时间步的注意力权重。根据[34,48]，我们使用FC层生成注意力权重A ∈ RT ×2，其中每个时间步的两个权重值通过softmax操作进行归一化，以获得前景。0和背景注意力权重。最后，将CAS和注意力权重结合起来得到注意力加权的CAS：ˆ P m ( c ) = P ( c ) ⊙ A m，其中c表示类别索引，⊙表示逐元素乘法。根据MIL公式，通过top-k均值策略[3, 6,8]生成视频级别的分类得分。对于每个类别c，我们取注意力加权的CAS中前k个最大值，并计算它们的平均值：ˆ p m( c ) = 1 k � Top-k ( ˆ P m ( c ))。然后对所有类别进行softmax归一化，得到注意力加权的视频级别行动概率。在这种弱监督设置中，我们采用了三种视频级别的损失。0前景损失。为了指导视频级别行动分类的训练，我们应用了前景注意力加权行动概率ˆ pfg 之间的交叉熵损失0和视频级别的行动标签 y fg = [ y ; 0] ，表示为：0背景损失。为了确保未修剪视频中的负实例被预测为背景类别，我们使用额外的背景损失[32,48]来规范化背景注意力加权的行动概率ˆ p bg。具体而言，我们计算ˆ p bg 与背景类别标签y bg之间的交叉熵：0其中y bg ( C + 1) = 1 ，对于所有其他c，y bg ( c ) = 0 。0行动感知背景损失。尽管背景片段中没有发生任何行动，但我们认为丰富的上下文信息仍然可以反映实际的行动类别标签。例如，在图3（c）中的示例中，即使背景帧只有一个台球桌且静止不动，人们仍然可以期望在视频中的某个地方存在“台球”这个行动类别。因此，背景实例不仅与背景类别标签相关，还与行动类别标签相关。基于这一观察，我们将行动感知背景损失定义为背景注意力加权行动概率ˆ p bg 之间的交叉熵损失0和视频级别的行动标签 y fg ：0我们的基础模型的总视频级别损失是三种损失的加权组合：0其中λ fg ，λ bg 和λ abg是平衡三种损失贡献的权衡参数。�139280平均池化0上采样0（a）框架概述0（b）动态段采样（c）段内注意力（d）段间注意力0卷积0段内和段间0段注意力0掩膜注意力0动态段采样0RGB0光流0特征提取特征建模预测0不确定性得分0全连接全连接全连接0前景-背景注意力0类别激活序列0视频级别0标签0伪实例0级别标签0伪实例0级别损失0视频级别0损失0行动提案0图2.（a）框架概述。灰色模块表示基础模型的组件（例如conv和FC），其他模块是我们的行动感知段建模模块。（b）动态段采样基于采样权重向量W的累积分布。T轴上的红点表示最终采样的时间步长。较短的行动段具有较高的放大比例。（c）段内注意力在每个行动提案中应用自注意力。（d）段间注意力在视频中的所有提案之间应用自注意力。�，�和�分别表示逐元素乘法，矩阵乘法和逐元素加法。T，N分别是片段和行动提案的数量。03.3.讨论0如第1节所讨论的，我们的基础模型遵循MIL公式，并忽略了视频片段之间的时间结构。然而，基础模型生成的预测结果仍然可以很好地估计未修剪视频中的动作位置和持续时间，这可以作为我们的片段建模过程的引导。特别地，我们基于基础模型的预测结果生成初始的动作提议：S → ˜ S = { (s n , e n , c n ) } N n =1，其中s n ，e n和c n分别表示第n个动作提议的开始时间，结束时间和预测的类别标签。有关生成动作提议的更多细节，请参阅补充材料。我们的工作的主要重点是利用动作提议进行片段级别的时间建模，如下一节所述。04.动作感知的片段建模0图2（a）展示了我们ASM-Loc框架的概述。给定基础模型生成的动作提议，我们将动作感知的片段建模引入到WTAL流程的三个阶段中：特征提取阶段的动态片段采样（第4.1节），特征建模阶段的内部和外部片段注意力（第4.2节）以及伪实例级监督0在预测阶段（第4.3节），我们采用多步骤提议细化来逐步改进动作提议和定位结果，如第4.4节所讨论的。04.1.动态片段采样0未修剪视频中的动作片段可能具有不同的持续时间，从少于2秒到超过1分钟不等。直观地说，短动作具有较小的时间尺度，因此它们的信息在特征建模阶段容易丢失或失真。如表5所示，我们观察到模型确实偏向于持续时间较长的片段，并且对短片段产生较低的置信度分数，导致错过检测或较差的定位结果。类似的观察结果也出现在目标检测中，较小的物体的检测性能比较大的物体差。为了解决WTAL设置中的这个问题，我们提出了一种新的片段采样模块，根据其估计的持续时间动态上采样动作提议。具体而言，我们首先初始化一个采样权重向量W ∈RT，其所有时间步骤上的值都等于1。然后，我们计算持续时间小于预定义阈值γ的短提议的更新采样权重：0W [ s n : e n ]0当 ( e n − s n ) ≤ γ 时，e n − sn , (5)4.2. Intra- and Inter-Segment AttentionDki,kik√˜Qt(c) =(9)Texp(−Ut)�−C+1˜Qt(c) log(Pt(c))�+βUt139290其中s n ，en表示第n个动作提议的开始和结束时间。采样过程基于逆变换采样方法，如图2（b）所示。其基本思想是根据采样权重W按比例采样帧率较高的片段。我们首先计算采样权重的累积分布函数（CDF）f W = cdf ( W)，然后从CDF的逆函数中均匀采样T个时间步骤：{ x i = f −1 W ( i ) } T i=1。通过这种方式，每个提议的放大比例根据其估计的持续时间动态计算。当需要上采样时，我们采用线性插值。0内部片段注意力。准确的动作分类和时间边界预测对于准确性很重要。最近的工作[18，51]在修剪视频上全局应用时间注意力进行动作识别，并取得了令人印象深刻的性能。然而，未修剪视频通常被无关的背景片段所占据，这给动作片段建模过程引入了额外的噪声。受到这一观察的启发，我们提出了内部片段注意力模块，用于在每个动作提议内执行自注意力。我们使用掩码注意机制来定义这个模块，如图2（c）所示。具体而言，我们定义一个注意掩码M ∈ RT ×T，用于指示与不同动作提议对应的前景片段。注意掩码首先在所有条目上初始化为0，并为所有提议分配M [ s n : en , s n : e n ] =1。然后，将注意掩码应用于由标准自注意力方法计算的注意力矩阵：0 XW V, (6)0A i,j = M i,j exp ( Q i K T j /√0D ) (7)0Z = X + BN(AVWO)，(8)0其中 W Q，W K，W V，W O ∈ R D×D是用于生成查询、键、值和输出的线性投影矩阵。我们还采用了多头注意力[52]来提高注意力模块的容量。通过这种方式，我们明确地建模了每个动作提议内的时间结构，避免了无关和噪声背景片段的负面影响。0片段间的注意力。在未修剪的视频中，动作片段通常与彼此存在时间依赖关系。例如，“板球投球”通常紧随其后的是“板球击球”，而“排球扣球”通常在视频中重复多次。因此，捕捉这些动作片段之间的依赖关系和相互作用可以提高识别和定位性能。0与片段内注意力模块类似，我们利用自注意力机制来建模多个动作提议之间的关系。如图2(d)所示，我们首先通过在时间维度上进行平均池化来聚合每个动作提议内的片段级特征ˆ X n = 10e n − s n +1 ≤ e n t = s n X ( t)。然后，我们对所有片段级特征 {ˆ X n} N n =1应用多头自注意力机制，以建模不同动作提议对之间的相互作用。输出特征沿时间轴复制并以残差方式添加到原始特征X 中。04.3. 伪实例级损失0由于缺少片段级注释，标准的基于MIL的方法仅依赖于由视频级动作类别标签提供的视频级监督。为了进一步改进动作边界的定位，我们利用动作提议提供的伪实例级标签，提出了一种伪实例级损失，比视频级损失提供了更细粒度的监督。给定动作提议 ˜ S = {s n, en, c n} N n =1，我们构建伪实例级标签 ˜ Q ∈ R T × (C +1)0通过为属于动作提议的片段分配动作标签，并将背景类别标签分配给所有其他片段来为动作提议提供伪实例级标签：01，如果� n，t ∈ [s n，e n]且c = cn 1，如果� n，t � [s n，e n]且c = C+ 1 0，否则0请注意，˜ Q 也经过了 l 1归一化处理。由于动作提议是从模型预测中生成的，难免会产生不准确的伪实例级标签。为了处理标签噪声的影响，我们遵循最近的工作[10,54-56]，引入了一个不确定性预测模块，指导模型从噪声伪标签中学习。具体而言，我们使用一个全连接层来输出不确定性分数 U ∈ RT，然后在每个时间步骤上使用该分数对伪实例级损失进行重新加权。直观地说，具有高不确定性分数的实例在损失中的贡献受到限制。结合不确定性分数，伪实例级损失可以写成时间上的 CAS P 和伪实例级标签 ˜ Q之间的平均交叉熵：0L ins =10(10)其中 β是用于权重衰减项的超参数，防止不确定性预测模块预测所有时间步长的无限不确定性（从而得到零损失）。1393004.4. 多步骤提议细化动作提议在行动感知建模中起着重要作用。如第5.3节所讨论的，提议的质量与我们方法中的多个组件的性能呈正相关。虽然我们的初始动作提议是从基础模型中获得的，但利用我们的ASM-Loc生成的优秀预测结果来生成更准确的动作提议是直观的。基于这个动机，我们提出了一个多步骤训练过程，通过多个步骤逐渐细化动作提议。作为片段建模的引导，我们首先对基础模型（第3节）进行E个时期的训练，并获得初始动作提议˜S0。之后，我们再对ASM-Loc进行E个时期的训练，并获得更准确的动作位置和持续时间的细化动作提议˜S1。可以对多个步骤应用相同的过程，直到动作提议的质量收敛。完整的多步骤提议细化过程在算法1中总结。最后，我们使用细化的提议˜S训练我们的ASM-Loc，直到模型收敛。05. 实验 5.1. 实验设置0数据集。我们在两个流行的动作定位数据集THUMOS-14[60]和ActivityNet-v1.3[61]上评估我们的方法。THUMOS-14包含来自20个类别的未修剪视频。视频长度从几秒钟到几分钟不等，单个视频中可能存在多个动作实例。根据先前的工作[1，3，7，9]，我们使用验证集中的200个视频进行训练，使用测试集中的213个视频进行评估。ActivityNet-v1.3是一个具有200个复杂日常活动的大规模数据集。它有10,024个训练视频和4,926个验证视频。根据[10，35]，我们使用训练集来训练我们的模型，并使用验证集进行评估。实现细节。我们使用在Kinetics-400 [15]上预训练的I3D[15]网络进行特征提取。我们使用TVL1[62]算法从RGB帧中提取光流。使用Adam优化器，学习率为0.0001，THUMOS-14和ActivityNet-v1.3的小批量大小分别为16和64。对于多步骤提议细化，E分别设置为100和50个时期，用于THUMOS-14和ActivityNet-v1.3。在每个细化步骤的最后一个时期生成动作提议。有关更多特定于数据集的训练和测试细节，请参阅补充材料。05.2. 与最新技术的比较在表1中，我们将ASM-Loc与THUMOS-14上最先进的WTAL方法进行了比较。选择了完全监督的方法。0算法1：多步骤提议细化0输入：训练时期E，细化步骤L输出：动作提议˜S01 对基础模型进行E个时期的训练。02 获取初始动作提议：˜S0。0304 使用˜Sl−1对ASM-Loc进行E个时期的训练。05 使用˜ S l 更新动作提议。06 结束0参考文献中提出了一些监督方法。我们观察到ASM-Loc在THUMOS-14数据集上的表现优于所有先前的WTAL方法，并在IoU阈值为0.1:0.7时实现了45.1%的平均mAP，创造了新的最佳性能。特别是，我们的方法在没有明确的片段建模的情况下，优于UGCT[10]，后者也利用伪标签来指导模型训练。即使与完全监督的方法相比，ASM-Loc也优于SSN [25]和TAL-Net[22]，并在IoU阈值较低时与GTAN [57]和P-GCN[58]取得了可比较的结果。结果表明，我们的方法在行动感知片段建模方面具有卓越的性能。我们还在ActivityNet-v1.3上进行了实验，并将比较结果总结在表2中。再次，我们的ASM-Loc获得了25.1%的平均mAP的最新性能，超过了最新的工作（例如UGCT [10]，FAC-Net[12]）。在两个数据集上一致的优越结果证明了我们的ASM-Loc的有效性。05.3. 在THUMOS-14上的消融研究0每个组件的贡献。在表3中，我们进行了一项消融研究，以调查ASM-Loc中每个组件的贡献。我们首先观察到，添加背景损失Lbg和动作感知背景损失Labg极大地提高了基础模型的性能。这两个损失通过将背景注意力权重推向背景片段的1来鼓励前景注意力权重的稀疏性，从而改善了前景和背景的分离。对于动作感知的片段建模，显然我们提出的任何一个模块都可以获得一致的增益（≥1%）。特别是在特征建模阶段引入片段建模（即片段内和片段间注意力），将性能提高了2.4%。这两个注意力模块相互补充，分别关注动作片段内部和跨动作片段的时间结构建模。当将所有动作感知的片段建模模块一起应用时，我们的方法将最终性能从40.3%提升至45.1%。0自注意力是否需要动作提议？我们提出了一种片段内注意力模块，执行139310表1. 在THUMOS-14数据集上与最先进方法的比较。平均mAP是在IoU阈值[0.1,0.1,0.7]下计算的。UNT和I3D分别是UntrimmedNet特征和I3D特征的缩写。0监督方法发表 mAP@IoU (%)00.1 0.2 0.3 0.4 0.5 0.6 0.7 平均0完整(-)0SSN [25] ICCV 2017 66.0 59.4 51.9 41.0 29.8 - - - TAL-Net [22] CVPR 2018 59.8 57.1 53.2 48.5 42.833.8 20.8 45.1 GTAN [57] CVPR 2019 69.1 63.7 57.8 47.2 38.8 - - - P-GCN [58] ICCV 2019 69.5 67.863.6 57.8 49.1 - - - VSGN [59] ICCV 2021 - - 66.7 60.4 52.4 41.0 30.4 -0弱(UNT)0AutoLoc [30] ECCV 2018 - - 35.8 29.0 21.2 13.4 5.8 - CleanNet [31] ICCV 2019 - - 37.0 30.9 23.913.9 7.1 - Bas-Net [6] AAAI 2020 - - 42.8 34.7 25.1 17.1 9.3 -0弱(I3D)0STPN [2] CVPR 2018 52.0 44.7 35.5 25.8 16.9 9.9 4.3 27.0 CMCS [4] CVPR 2019 57.4 50.8 41.2 32.123.1 15.0 7.0 32.4 WSAL-BM [32] ICCV 2019 60.4 56.0 46.6 37.5 26.8 17.6 9.0 36.3 DGAM [33] CVPR2020 60.0 54.2 46.8 38.2 28.8 19.8 11.4 37.0 TSCN [7] ECCV 2020 63.4 57.6 47.8 37.7 28.7 19.4 10.237.8 ACM-Net [48] TIP 2021 68.9 62.7 55.0 44.6 34.6 21.8 10.8 42.6 CoLA [9] CVPR 2021 66.2 59.551.5 41.9 32.2 22.0 13.1 40.9 UGCT [10] CVPR 2021 69.2 62.9 55.5 46.5 35.9 23.8 11.4 43.6 AUMN[35] CVPR 2021 66.2 61.9 54.9 44.4 33.3 20.5 9.0 41.5 FAC-Net [12] ICCV 2021 67.6 62.1 52.6 44.333.4 22.5 12.7 42.2 ASM-Loc (我们的方法) - 71.2 65.5 57.1 46.8 36.6 25.2 13.4 45.10表2.在ActivityNet-v1.3数据集上与最先进方法的比较。AVG列显示了在IoU阈值[0.5:0.05:0.95]下的平均mAP。0方法发表 mAP@IoU (%)00.5 0.75 0.95 平均0STPN [2] CVPR 2018 29.3 16.9 2.6 16.3 ASSG [63] MM2019 32.3 20.1 4.0 18.8 CMCS [4] CVPR 2019 34.0 20.9 5.721.2 Bas-Net [6] AAAI 2020 34.5 22.5 4.9 22.2 TSCN [7]ECCV 2020 35.3 21.4 5.3 21.7 A2CL-PT [64] ECCV 2020 36.822.0 5.2 22.5 ACM-Net [48] TIP 2021 37.6 24.7 6.5 24.4TS-PCA [10] CVPR 2021 37.4 23.5 5.9 23.7 UGCT [10] CVPR2021 39.1 22.4 5.8 23.8 AUMN [35] CVPR 2021 38.3 23.55.2 23.5 FAC-Net [12] ICCV 2021 37.6 24.2 6.0 24.00ASM-Loc (我们的方法) 41.0 24.9 6.2 25.10通过在动作提议中使用自注意力来抑制背景片段的噪声。为了验证我们设计的有效性，我们在表4中比较了不同自注意力设置。具体而言，“全局”设置表示自注意力操作直接应用于未修剪视频中的所有片段。可以观察到，由于存在无关和嘈杂的背景片段，该设置对基线模型没有提供任何增益，模型无法捕捉有意义的时间结构。此外，“BG”设置仅表示对背景片段进行自注意力操作，对性能产生了负面影响，达到了0甚至更差的定位结果。最后，我们的段内注意力在很大程度上优于这两种设置，表明在动作提议中应用自注意力的重要性。我们还展示了使用基准动作片段作为段内注意力的提议的设置。这种设置可以看作是我们方法的上界，并且相对于基准模型提供了更显著的增益。这一观察启发我们通过多步细化来进一步改进动作提议。0动态片段采样的影响。在表5中，我们评估了动态片段采样对不同持续时间的动作片段的影响。我们根据动作片段的持续时间将所有动作片段分为五组，并分别计算每组的平均mAP[65]。如介绍中所提到的，短动作（XS，S）的定位性能要比长动作（M，L，XL）差得多。通过使用我们的动态片段采样模块对短动作进行上采样，模型在短动作上取得了显著的增益（XS增加了4.9%，S增加了1.2%），并将整体性能提高了1.1%。类似地，我们使用基准的段注释来展示使用动态片段采样的结果，相对于基准模型，这种设置取得了更大的改进。0不确定性估计的影响。我们提出了一个不确定性估计模块来减轻伪实例级监督中的噪声标签问题。表6显示，使用不确定性估计一致地提高了不同IoU阈值下的定位性能，并将平均mAP提高了1%。0多步细化的影响。表7显示了结果。LfgLbgLabgDSSIntraInterLins0.1:0.7✓24.3✓✓36.6✓✓✓40.3✓✓✓✓41.4✓✓✓✓41.8✓✓✓✓42✓✓✓✓41.3✓✓✓✓✓42.7✓✓✓✓✓✓43.7✓✓✓✓✓✓44.3✓✓✓✓✓✓✓45.155.535.513.844.1✓57.136.613.445.1es.lt051.830.710.140.3154.434.112.543.1256.235.413.844.7357.136.613.445.1457.336.714.145.1139320各组件的贡献。L fg ，L bg 和L abg分别表示基于视频级标签的前景、背景和动作感知背景损失。而DSS、Intra、Inter和L ins分别表示动态片段采样、段内注意力、段间注意力和伪实例级损失，它们利用了段级信息。0基准模型ASM-Loc 平均0表4. 不同设置下的自注意力消融实验。“Global”，“BG”分别表示对所有片段和背景片段进行自注意力。0标签设置 mAP@IoU (%)00.1 0.3 0.5 0.7 平均0基准 67.8 51.8 30.7 10.1 40.3 全局 67.3 50.830.2 10.5 40.10动作提议BG 66 50.1 30.6 10.4 39.6 我们的方法 68.6 53.432.5 11.8 41.80基准动作片段BG 64.7 49.6 30.3 9.7 38.8 我们的方法73.3 56.2 33.6 13.2 44.30表5.动态片段采样（DSS）的影响。将动作分为五个持续时间组（秒）：XS（0, 1]，S（1, 2]，M（2,4]，L（4, 6]和XL（6, inf）。0标签设置平均mAP (%)0XS S M L XL 平均0基准 10.6 33.7 45.9 48.3 38.3 40.30动作提议+DSS 15.5 34.9 47.1 48.6 38.5 41.4 △ +4.9 +1.2 +1.2+0.3 +0.2 +1.10基准动作片段+DSS 20 38 47.6 49.7 38.8 43 △ +9.4 +4.3 +1.7+1.4 +0.5 +2.70表6.不确定性估计模块的有效性。0不确定性mAP@IoU (%)00.3 0.5 0.7 平均0表7.对细化步骤数量的消融实验。“0”表示没有动作感知的片段建模的基准模型。0数量mAP@IoU (%)00.3 0.5 0.7 平均0通过增加多步提案细化的步骤数，我们可以看到性能随着步骤数的增加而提高，表明通过细化提案可以实现更好的定位结果。我们采用3个细化步骤作为默认设置，因为性能在此之后饱和。05.4. 定性结果0图3显示了基准模型和我们的ASM-Loc之间的可视化比较。我们观察到，现有基于MIL的方法中的常见错误可以通过我们的动作感知段建模方法部分解决，例如短动作的漏检和动作“排球扣球”的不完整定位（图3(a)），以及动作“棒球投球”的过度定位（图3(b)）。我们还在图3(c)中提供了一个失败案例，其中我们的方法由于基准模型生成的动作提案严重错位而无法定位第一个动作段。这也验证了提高动作提案质量的重要性，并应在未来的研究中进一步研究。06. 结论0在本文中，我们提出了一种名为ASM-Loc的新型WTAL框架，它能够在以前的基于MIL的方法之外实现显式的动作感知段建模。我们引入了三个新颖的段中心模块，对应于WTAL流程的三个阶段，缩小了弱监督和全监督设置之间的性能差距。我们还引入了一种多步训练策略，逐步改进动作提案。0(a)“排球扣球”动作示例0(b)“棒球投球”动作示例0GT0基准0(c)“台球”动作示例（失败案例）0GT0基准0提案0GT0基准0ASM-Loc0提案0提案0ASM-Loc0ASM-Loc0图3.地面实况、预测和动作提案的可视化。选择具有最高置信度得分的前2个预测结果作为基准模型和我们的ASM-Loc。透明帧表示背景帧。0直到定位性能饱和为止。我们的ASM-Loc在两个WTAL基准测试中取得了最先进的结果。0致谢。本工作得到了空军（STTR奖励FA865019P6014，FA864920C0010）和亚马逊研究奖励的支持。139330参考文献0[1] Limin Wang，Yuanjun Xiong，Dahua Lin和Luc VanGool。用于弱监督动作识别和检测的Untrimmednets。在IEEE计算机视觉和模式识别会议论文集中，页码4325-4334，2017年。1，2，3，60[2] Phuc Nguyen，Ting Liu，Gautam Prasad和BohyungHan。通过稀疏时间汇聚网络进行弱监督动作定位。在IEEE计算机视觉和模式识别会议论文集中，页码6752-6761，20

下载后可阅读完整内容，剩余1页未读，立即下载