学习重构动作和共现特征以进行时间动作定位

192 浏览量更新于2023-10-25 收藏 13.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

138840学习重构动作和共现特征以进行时间动作定位0夏坤1 王乐1* 周三平1 郑南宁1 唐伟201 西安交通大学人工智能与机器人研究所 2 伊利诺伊大学芝加哥分校0xiakun@stu.xjtu.edu.cn; {lewang, spzhou, nnzheng}@xjtu.edu.cn; tangw@uic.edu0摘要0时间动作定位的主要挑战是从未剪辑视频中检索出各种共现成分（例如上下文和背景）中微妙的人类动作。虽然先前的方法通过设计先进的动作检测器取得了实质性的进展，但它们仍然受到这些共现成分的影响，这些共现成分通常在视频中占主导地位。在本文中，我们探索了视频片段的两个正交但互补的方面，即动作特征和共现特征。特别地，我们通过解耦视频片段中的这两种类型的特征并重新组合它们，开发了一种新的辅助任务，以生成具有更突出的动作信息的新特征表示，以实现准确的动作定位。我们将我们的方法称为RefactorNet，它首先明确地分解动作内容并规范其共现特征，然后合成一个新的以动作为主导的视频表示。在THUMOS14和ActivityNetv1.3上进行的大量实验结果和消融研究表明，我们的新表示结合简单的动作检测器可以显著提高动作定位性能。01. 引言0时间动作定位（TAL）旨在从长时间未剪辑的视频中定位动作实例的开始和结束时间，并对其类别进行分类。作为视频理解中的一项基本任务，它近年来受到了广泛关注，并促进了各种应用，如安全监控[36, 43, 50]和人类行为分析[9, 39,53]。当前TAL方法的常见第一步是通过预训练的两流网络从每个视频片段中提取特征，然后通过最大池化等方式对它们进行聚合，以获得提案的表示[12, 33,0[46,52]是通过预训练的两流网络从每个视频片段中提取特征。然后通过最大池化等方式对它们进行聚合，以获得提案的表示0*通讯作者0动作帧非动作帧0共现的0高跳0共现的0高跳0动作内容的0高跳0没有感兴趣的动作0高跳时间的未剪辑视频0图1.通过我们的方法从片段表示中解耦的动作组件和共现组件的可视化。共现组件有助于减少动作的模糊性和不确定性，但它们通常在视频中占主导地位，从而对动作检测产生不利影响。如何在片段表示中平衡这两个组件是一个重要但尚未充分探索的问题。0或者作为动作分类和时间边界回归的锚点。这些片段级特征表征了视频片段的两个方面，我们将它们分别称为动作组件和共现组件。动作组件指的是表征片段中发生的动作的特征，包括一个或多个人的运动模式以及他们与物体的互动。共现组件指的是不表征任何动作但经常与动作在帧或片段中共现的特征。这包括类别特定的上下文，它只与某些动作频繁共现，例如田径场，以及类别无关的背景，它的出现与动作类别关系较小，例如天空。图1说明了一个未剪辑的高跳视频包含一个138850微妙的动作组件和更丰富的共现组件环绕着动作。要实现稳健的TAL，必须仔细处理动作和共现组件。一方面，动作组件直接描述一个动作，但由于人类的运动和外观以及他们彼此之间和与物体的相互作用的复杂性，它可能存在歧义和不确定性。因此，仅从片段级特征中保留动作组件是不够的。另一方面，虽然一些共现组件有助于减少动作的歧义和不确定性，例如，一个游泳池可以区分“跳水”和“蹦床”，但其他一些共现组件更像是干扰噪声，例如，场景中的观众和随机人物，过度依赖共现组件也会模糊动作边界。因此，在特征表示中找到动作组件和共现组件之间的适当平衡是必要的，尤其是因为共现组件在视频中经常占主导地位。这个问题在以前的工作中基本被忽视了。本文研究了TAL的特征重构。它意味着将片段级特征解耦为动作组件和共现组件，然后将它们重新组合成一个更合适的表示，以实现有效的TAL。我们提出了一种新颖的特征重构网络或RefactorNet来实现这个目标。它由一个特征解耦模块和一个特征重新组合模块组成。由于共现组件的注释是不可用的，我们从整个视频中收集动作样本和它们的耦合样本来进行解耦过程。耦合样本是指包含动作的共现元素但不涉及实际动作的任何视频片段。换句话说，动作样本和它们的耦合样本在共现组件上相似，但在动作组件是否存在上有所不同。通过将动作样本和耦合样本作为监督，特征解耦模块被训练以分离动作和共现组件。然后，特征重新组合模块将这两个组件合成一个新的片段表示，其中包含更显著的动作组件和更合适的共现组件，以实现准确的动作检测。定量和定性结果都表明，我们的RefactorNet能够有效地解耦动作和共现组件，并且重新组合的片段表示改善了动作分类和时间边界回归。结合一个简单的动作检测器，我们的RefactorNet在两个基准数据集THUMOS14和ActivityNetv1.3上实现了最先进的性能。我们的贡献可以总结如下：0•共现组件有助于减少动作的歧义和不确定性，但它们经常在视频中占主导地位，从而对TAL产生不利影响。0如何在片段表示中平衡这两个组件是一个重要但尚未深入研究的问题。我们提出的RefactorNet是第一个明确重构（即解耦和重新组合）这两个组件以获得一个新的片段表示，其中包含更显著的动作组件和更合适的共现组件，以实现准确的动作检测。0•将这两个组件解耦确实非常具有挑战性，因为它们经常同时出现，更严重的是它们的注释是不可用的。为了解决这些困难，我们精心设计了学习目标，并引入了动作样本和它们的耦合样本，这些样本可以从标准的TAL注释中获得，以监督解耦过程。它们共同帮助我们的特征解耦模块有效地分离这两个组件。0•我们的RefactorNet在两个基准数据集上优于所有最先进的方法。我们提供了广泛的消融研究和可视化结果，以展示对解耦过程的深入分析，并验证它如何改善TAL。02. 相关工作0时序动作定位。最近，TAL取得了重大进展。CDC[35]对输入视频进行卷积和反卷积，进行密集的分数预测，并结合段提议来检测动作实例。BSN[24]密集地预测动作的开始和结束概率，生成具有精确边界的高质量动作提议。杨等人[47]提出了TPC网络，以保持时间分辨率，实现帧级粒度的动作定位，并最小化时间信息的损失。GTAN[30]提出了一个一阶段的TAL框架，通过学习一组高斯核函数来建模具有不同长度的动作实例。AFSD[22]提出了一种纯粹的无锚点TAL模型，用于预测每个位置的开始和结束的时间距离以及动作类别。此外，其他工作[10,16,21,48,55]提出了一些有吸引力的想法，进一步推动了TAL领域的发展。特别是，一些研究人员意识到准确推断人类动作需要理解视频上下文。为此，他们建模提议之间或片段之间的关系，例如P-GCN [51]、G-TAD [46]、TCANet[33]、ContextLoc[57]，以增强其特征。相比之下，本文解决的是一个不同的问题，即视频片段中的共现组件通常主导实际动作，通过明确地解耦和重新组合每个单独片段中的这两个组件。因此，我们的特征重构与关系建模[33,46,51,57]互补，这也得到了我们实验证明。&138860特征嵌入 RefactorNet 动作检测0动作样本0耦合样本0片段0片段0片段0片段0片段0片段0片段0片段0驾驶0置信度偏移0视频特征新视频特征0开始0预测训练推断0分类0头部0定位0头部0图2.所提出框架的整体流程。它由三个阶段组成，即特征嵌入、RefactorNet和动作检测。首先，特征嵌入阶段通过双流网络提取原始片段特征。随后，我们提出的RefactorNet通过一对动作样本和耦合样本的监督训练，将片段表示解耦为动作组件和共现组件。在推断过程中，每个片段特征向量f被解耦为动作组件ϕA(f)和共现组件ϕC(f)，然后重新组合生成新的片段特征向量f'。最后，动作检测器通过新的片段表示从视频中定位动作。0其他相关工作从弱监督时序动作定位（WSTAL）中的误报帧中提取感兴趣的动作帧，其中只有视频级别的标签可用。BaSNet[20]引入了一个辅助背景类来抑制背景帧对实际动作帧的干扰。刘等人[29]将视频片段分为正样本和负样本，学习动作和上下文子空间。与他们不同的是，我们没有为共现组件引入额外的监督，因为这可能需要详细的注释，并且很难推广到更大的数据集。此外，我们不将共现组件视为负样本，这些样本通常包含对动作分类有用的上下文信息。解耦表示学习。解耦表示学习的目标是提取有趣的特征或合成新的视觉表示，近年来在各个领域取得了显著进展[6,7,32,41,49]，并得到了广泛应用，例如图像去模糊[31]、人脸识别[28,44]和语义分割[25]等。Villegas等人[40]将视频预测的输入分解为运动和内容。然后，预测下一帧就是通过将提取的内容特征转换为下一帧内容来实现的，通过识别的运动特征。Hsieh等人[14]将高维视频分解为低维时间动态，以预测未来的视频帧。Wang等人[42]利用动作样本和相应的共轭样本有意识地将动作与上下文分离，用于人体动作识别。Eom等人[8]提出了一种使用身份标签对与身份相关和不相关的特征进行解耦的GAN，用于人员再识别。Hamaguchi等人[13]使用解耦表示学习来解耦变量0以及表示稀有事件检测任务中的平凡事件和图像内容的不变因子。Bahng等人[1]开发了一种新颖的算法ReBias。它解决了一个最小最大问题，目标是促进网络预测与所有有偏预测之间的独立性。Singh等人[37]专注于通过明确学习类别的鲁棒特征子空间来解决视觉分类器的上下文偏差。Huang等人[15]设计了一种自监督视频表示学习方法，用于从压缩视频中解耦上下文和运动表示。受到这些文献的启发，本文将解耦表示学习引入到TAL领域。03. RefactorNet0我们整个框架的流程如图2所示。提出的RefactorNet被插入到特征嵌入模块和动作检测模块之间，以重构片段特征表示。我们在下面详细介绍所提出的网络和动作检测框架。03.1. 问题设置0给定一个未修剪的视频，我们提取每几个连续帧的视觉特征作为一个片段特征向量f∈RC，其中C是特征维度。然后，我们可以将视频特征序列表示为F∈RC×L，其中L是视频中片段的数量。地面实况注释是一组动作实例Ψ={(ts,n,te,n,cn)}Nn=1，其中ts,n，te,n和cn分别表示动作实例φn的开始时间、结束时间和动作类别。N是视频中动作实例的总数。startendcomponents but differ in whether the action component ispresent. Therefore, we propose to exploit both the similarityand difference between action samples and their couplingsamples to factorize action contents from the dominatingco-occurrence features.As illustrated in Figure 2, we design two encoders ϕA andϕC for feature decoupling. The two encoders have the samenetwork structure but do not share weights. They take anaction sample a ∈ A and its coupling sample c ∈ C as input,and output an action feature vector and a co-occurrencefeature vector for each sample, respectively. They are learnedby minimizing two loss functions below:LA = max {0, cos ⟨ϕA(a), ϕA(c)⟩} ,(1)LC = (1 − cos ⟨ϕC(a), ϕC(c)⟩) ,(2)1388703.2. 动机和概述0先前的方法在由双流网络提取的原始视频特征F上执行TAL。然而，每个视频片段中的共现组件，包括上下文和背景，往往主导微妙的动作组件。虽然一些共现组件有助于减少动作的模糊性和不确定性，但在训练后，TAL模型可能过度依赖共现组件，并在测试期间将其与实际动作内容混淆。我们通过放大视频片段中的动作信号并规范化共现组件，寻求动作和共现组件之间的适当平衡，以改善动作定位。为此，我们提出了一种新颖的RefactorNet，如图2所示。它旨在通过基于动作样本和耦合样本解耦和重组动作组件和共现组件，合成新的片段特征表示。最后，新的特征表示用于动作定位。具体而言，我们的方法包括三个步骤。(1)收集动作样本及其耦合样本。(2)基于动作样本和耦合样本对动作和共现组件进行明确解耦。(3)有效地重新组合这两个组件，并为视频动作检测合成新的片段特征。03.3. 收集动作样本和耦合样本0对于一个带有注释Ψ的未修剪训练视频，我们可以将视频的所有片段分为动作片段和非动作片段，具体取决于它们是否在动作实例的范围内。随后，我们将一个动作实例的动作片段视为一个动作样本，将其特征向量表示为a，并记录其类别标签。我们从视频中收集所有的动作样本。为了实现特征解耦，我们通过检索与至少一个动作样本具有高余弦相似度的非动作片段来收集高质量的耦合样本。相应地，耦合样本的特征向量表示为c。最后，我们从所有训练视频中获得一组动作样本A和一组耦合样本C。我们在图3中报告了一些动作样本和耦合样本的视觉示例。03.4. 解耦动作和共现组件0我们现在从片段特征中解耦动作组件和共现组件。耦合样本不包含任何实际的动作信息，因为它是一个非动作片段。但是，通过构造，它的特征与相应的动作样本的特征相似，表明耦合样本包含了人类动作的共现信息，例如图3。换句话说，动作样本和其耦合样本在共现组件上相似，但在动作组件是否存在上不同。因此，我们提出利用动作样本和其耦合样本之间的相似性和差异来将动作内容从主导的共现特征中分解出来。如图2所示，我们设计了两个编码器 ϕ A 和 ϕ C进行特征解耦。这两个编码器具有相同的网络结构，但不共享权重。它们分别将动作样本 a ∈ A 和其耦合样本 c ∈ C作为输入，并分别输出每个样本的动作特征向量和共现特征向量。它们通过最小化以下两个损失函数来学习：0开始结束0图3.“棒球投球”（上）和“足球点球”（下）的动作样本（黄色）和耦合样本（绿色）示例。0其中 ϕ A 提取样本的动作组件，ϕ C提取样本的共现组件。L A用于最小化动作样本中的动作组件（即 ϕ A(a)）与其耦合样本中的动作组件（即 ϕ A(c)）之间的相似度。这是因为动作样本包含实际的动作内容，而其耦合样本则不包含。L C用于最大化动作样本的共现组件（即 ϕ C(a)）与其耦合样本的共现组件（即 ϕ C(c)）之间的相似度。这是因为动作样本与其耦合样本共享相似的共现组件。通过在所有训练视频上最小化这两个损失，这两个编码器学习解耦任意片段的动作组件和共现组件。03.5. 重新组合动作和共现组件0到目前为止，我们已经训练了两个编码器 ϕ A 和 ϕ C来解耦动作组件和共现组件的片段表示。然而，仅使用动作组件进行TAL是次优的，因为共现中包含了相关的上下文信息。f ′ = ϕA(f) ⊕ ϕC(f),(3)LKL = 12D�i=1�µ2i + σ2i − log�σ2i�− 1�,(4)LR = α(LA + LC) + βLKL,(5)LP = Lsbl + γLebl,(6)LD = Lcls + λ1Lcom + λ2Lreg,(7)138880共现组件通常对于动作分类起到有用的线索，例如“网球挥拍”的网球场。这在我们的实验中也得到了验证。因此，在明确解耦之后，有效地重新组合它们是必要的。给定一个片段表示 f，我们可以从两个编码器中获得 ϕ A (f) 和 ϕ C(f)，然后将它们合成为一个新的特征表示，表示为 f ′：0其中 ⊕表示连接。因此，我们可以通过RefactorNet获得新的视频特征序列 F′。此外，我们期望重新组合的特征表示包含显著的动作信号。为了避免过多的共现特征降低动作检测器的性能，我们采用基于KL散度的正则化方法，鼓励从 ϕ C获得的共现组件接近正态分布 N(0,1)。受[31]的启发，我们将KL散度损失函数定义如下：0其中 µ 和 σ 表示共现特征的均值和标准差， D是特征维度。KL散度损失通过限制分布范围来规范化共现特征。因此，网络将抑制过多的上下文或背景信息。最后，网络将输出包含显著动作组件的新片段表示，从而实现更有效的视频动作检测。总结。我们的RefactorNet旨在为TAL获取适当的片段表示，既包含显著的动作组件，又包含适当的共现组件。我们希望它能减少动作的歧义，并避免过度依赖共现组件。这种重构机制使得该方法与TAL的先前方法有所区别。03.6. 动作检测0特征重构后，我们需要根据新的视频表示定位动作实例。我们采用基于边界的候选提议生成器进行候选提议的生成。对于每个提议，我们从其中的片段特征中提取其特征。然后，我们采用多层感知机（MLP）作为定位头来细化每个提议的边界，并采用另外两个MLP作为分类头来预测提议的类别和完整度。分类分数和完整度分数的乘积被用作每个提议的置信度分数。最后，我们采用Soft-NMS（软非极大值抑制）来抑制具有高重叠度的冗余提议并获得检测结果。04. 训练和推理04.1. 训练0在训练阶段，我们最小化RefactorNet的上述损失之和：0其中 α 和 β是加权超参数。接下来，我们应用基于边界的提议生成器，例如BSN[24]，对新的视频表示进行提议生成。特别地，我们为训练开始和结束动作边界预测器定义以下损失函数：0其中 γ 是超参数。我们采用二元逻辑回归损失函数作为 Lbl。然后，我们将开始和结束的概率峰值分组以生成候选提议。每个动作提议的特征通过RoI Pooling[11]进行提取。此外，提议细化网络的整体损失函数如下：0其中 λ 1 和 λ 2是用于权衡这些损失的超参数。我们采用交叉熵损失作为动作分类的 L cls，采用合页损失作为预测每个提议的完整度分数的 L com，采用平滑L1损失作为预测每个提议的中心坐标和持续时间的偏移量的 L reg 。04.2. 推理0在推理阶段，给定未修剪视频中片段的特征向量 f，我们的RefactorNet将其作为输入，并输出经过重构的动作和共现组件的新片段特征向量 f ′。随后，我们通过新的片段表示 F ′进行动作边界回归，找到具有高响应的开始和结束位置，并将它们分组为动作提议。定位头和分类头分别产生偏移量、类别分数和完整度分数。我们将分类分数和完整度分数相乘以获得其置信度分数。最终的动作定位结果通过后处理过程中的软非极大值抑制来获取。05. 实验05.1. 数据集和评估指标0THUMOS14[17]是TAL的标准基准。它包含200个验证视频和213个测试视频，包括20个动作类别。由于每个视频都有超过15个动作实例，因此非常具有挑战性。按照常规做法138890模型会议 THUMOS14（%） ActivityNet v1.3（%）00.3 0.4 0.5 0.6 0.7 平均 0.5 0.75 0.95 平均0TAL-Net [5] CVPR'18 53.2 48.5 42.8 33.8 20.8 39.8 38.2 18.3 1.3 20.2 BSN [24] ECCV'18 53.5 45.0 36.9 28.4 20.036.8 46.5 30.0 8.0 30.0 GTAN [30] CVPR'19 57.8 47.2 38.8 — — — 52.6 34.1 8.9 34.3 MGG [27] CVPR'19 53.9 46.837.4 29.5 21.3 37.8 — — — — P-GCN [51] ICCV'19 63.6 57.8 49.1 — — — 42.9 28.1 2.5 27.0 BMN [23] ICCV'1956.0 47.4 38.8 29.7 20.5 38.5 50.1 34.8 8.3 33.9 G-TAD [46] CVPR'20 54.5 47.6 40.2 30.8 23.4 39.3 50.4 34.6 9.0 34.1BC-GNN [2] ECCV'20 57.1 49.1 40.4 31.2 23.1 40.2 50.6 34.8 9.4 34.3 BU-MR [55] ECCV'20 53.9 50.7 45.4 38.0 28.543.3 43.5 33.9 9.2 30.1 TCANet [33] CVPR'21 60.6 53.2 44.6 36.8 26.7 44.4 54.3 39.1 8.4 37.6 MUSES [26] CVPR'2168.9 64.0 56.9 46.3 31.0 53.4 50.0 35.0 6.6 34.0 AFSD [22] CVPR'21 67.3 62.4 55.5 43.7 31.1 52.0 52.4 35.3 6.5 34.4ContextLoc [57] ICCV'21 68.3 63.8 54.3 41.8 26.2 50.9 56.0 35.2 3.6 34.2 RTD-Net [38] ICCV'21 68.3 62.3 51.9 38.823.7 49.0 47.2 30.7 8.6 30.8 VSGN [54] ICCV'21 66.7 60.4 52.4 41.0 30.4 50.2 52.4 36.0 8.4 35.10RefactorNet CVPR'22 70.7 65.4 58.6 47.0 32.1 54.8 56.6 40.7 7.4 38.60表1. 在THUMOS14和ActivityNet v1.3上根据不同IoU阈值的mAP进行性能比较。“Avg”列表示在THUMOS14上[0.3:0.1:0.7]和ActivityNet v1.3上[0.5:0.05:0.95]的平均mAP。0在设置[52]中，我们使用验证集进行训练和评估测试集。ActivityNet v1.3[3]是一个用于基于视频的动作定位的大规模基准。它包含10k个训练视频和5k个验证视频，对应200个不同的动作。按照标准做法[26]，我们在训练集上训练我们的方法，并在验证集上进行测试。评估指标。我们使用平均精度（mAP）作为评估指标。对于THUMOS14，tIoU阈值为[0.3:0.1:0.7]，对于ActivityNetv1.3，tIoU阈值为[0.5:0.05:0.95]。我们还报告了在ActivityNetv1.3上IoU阈值在0.5和0.95之间，步长为0.05的平均mAP。05.2. 实现细节0我们将每个输入视频分成16帧的片段，并利用在Ki-netics数据集[18]上预训练的双流I3D网络[4]提取原始片段特征。对于RefactorNet，我们采用Adam[19]优化器来训练网络。与训练方案[8]类似，我们分两个阶段训练Refac-torNet。在第一阶段，我们使用学习率为0.001的训练数据对两个编码器ϕ A和ϕC进行30个epoch的训练，对应的损失函数为LA和LC。在第二阶段，我们以学习率0.001对整个网络进行端到端的训练，训练20个epoch。我们将动作样本和耦合样本之间的相似度得分设置为α，并经验性地设置β=0.001。对于动作检测器，我们采用BSN [24]在THUMOS14和ActivityNetv1.3上生成动作提议。对于每个提议，通过RoI池化提取特征表示。0然后，我们对每个提议应用三个不同的MLP进行边界回归、动作分类和完整性预测，如[26,51]所示。对于LD，我们设置γ=1和λ1=λ2=0.5，如[24,26]所示。我们使用初始学习率0.001对模型进行20个epoch的训练。为了公平比较，我们将我们的提议与ActivityNetv1.3上[45]的视频级分类结果相结合。05.3. 与最先进方法的比较0THUMOS14。我们的方法与表1中的最先进方法进行比较。我们报告不同tIoU阈值下的mAP以及0.3到0.7之间的平均mAP，步长为0.1。特别是，当tIoU=0.5时，我们的方法的mAP比MUSES[26]高出1.7%。我们的方法在平均mAP上也取得了显著的改进。这表明我们的方法对于准确的动作定位是有效的。ActivityNetv1.3。我们还在表1中报告了各种方法的动作定位结果。在tIoU为0.5时，我们的方法优于所有其他方法。此外，我们在tIoU=0.75时的改进尤为显著，超过最先进方法1.6%。这些实验结果进一步证明了我们方法的有效性。05.4. 消融研究0在本节中，我们进行了全面的消融研究，有两个方面。一方面，我们验证了提出模型中主要组件的效果。另一方面，我们验证了我们的方法对于)eLA&LCLKLmAP@tIoU (%)68.262.756.045.930.152.6�69.664.257.846.131.453.8��70.765.458.647.032.154.8138900方法 mAP@tIoU (%)00.3 0.4 0.5 0.6 0.7 平均0基准 68.2 62.7 56.0 45.9 30.1 52.60深度基准 68.5 63.0 55.5 45.3 29.2 52.3 基准 + RefactorNet70.7 65.4 58.6 47.0 32.1 54.80表2.特征重构对THUMOS14的消融研究。基准是通过从我们的框架中移除RefactorNet构建的。深度基准是通过用时间1D卷积层替换我们框架中的RefactorNet，使其模型大小和深度与我们的框架相同。0方法类别 (%) tIoU (%)0基准 76.7 79.6 深度基准 77.1 78.4 基准 +RefactorNet 85.9 83.50表3.在THUMOS14上高质量提议的动作分类准确性（类别）和定位准确性（tIoU）的消融研究，其tIoU与真实值大于0.7。0时间动作定位并报告定性和定量实验结果和分析。特征重构的影响。我们通过从我们的模型中移除特征重构来构建基准。表2显示我们的模型在基准上取得了很大的改进。为了公平比较，我们进一步构建了一个深度基准，通过向基准添加更多层（即，时间1D卷积层），使其模型大小和深度与我们的模型相同。表2显示简单地增加模型大小和网络深度并不能改善基准。这表明我们的性能改进来自于有效地重构特征表示，而不仅仅是添加更多层。性能改进的分析。为了进一步探索性能改进的原因，我们在表3中报告了动作分类的准确性和高质量提议的平均tIoU。高质量提议是指回归后与真实值的tIoU大于0.7的动作提议。实验结果表明，与基准和深度基准相比，重构的片段表示对动作分类和时间边界回归都有益处。损失函数。为了验证我们不同损失函数的有效性，我们通过使用不同的损失函数训练我们的模型进行消融实验。在表4中，我们测量mAP并报告THUMOS14的结果。第一行展示了我们的基准性能，不包括我们的RefactorNet。第二行表明RefactorNet通过L A 和 L C来明确地解耦实际动作和其共现组件。实验结果表明，显式特征重构可以00.3 0.4 0.5 0.6 0.7 平均0表4. THUMOS14上不同损失的消融研究。L A和LC用于解耦动作和共现组件，L KL用于规范化共现组件。0跳远0篮球扣篮0铅球0图4.我们的RefactorNet从动作样本和耦合样本中解耦的动作内容和相应的共现组件的可视化。解耦的动作和共现组件分别关注动作和共现的视觉元素。0显著促进动作定位。此外，LKL通过限制共现特征的分布范围进一步规范化共现特征。表4的第三行证明了LKL在合成用于动作定位的新视频表示时将强制网络使用更多的动作信息。通过这些损失函数的组合，我们的RefactorNet被驱使以更平衡的方式组合每个片段中的动作组件和共现组件。因此，动作检测器可以取得显著的性能。解耦特征的视觉分析。为了验证我们的方法解耦动作组件和共现组件的能力，我们通过类激活图（CAM[56]）对两个编码器的输出进行空间可视化，即ϕA（a），ϕC（a），ϕA（c）和ϕC（c）。如图4所示，两个编码器的输出通过叠加在原始帧上的热图进行可视化。可以观察到，编码器ϕA获得的动作表示关注动作区域，例如“篮球扣篮”的扣篮或“高尔夫挥杆”的挥杆，而编码器ϕC获得的共现表示关注背景场景，例如草坪或沙滩。因此，我们的方法020406080100Video snippet0.00.20.40.60.81.0Probability scoreGTStartEnd020406080100Video snippet0.00.20.40.60.81.0Probability scoreGTStartEnd0.00.20.40.60.81.0GTStartEnd0.00.20.40.60.81.0GTStartEnd11.820.712.924.1ALontion138910100 120 140 160 180 200 220 视频片段0概率得分0100 120 140 160 180 200 220 视频片段0概率得分0图5.基线（上）和我们的方法（下）产生的时间边界预测的比较。特别地，我们的方法的动作边界预测的平均精度为19.3％，而基线为13.4％。可以观察到，我们的RefactorNet具有更好的鲁棒性和更高的精度。0可以有效地解耦动作和共现组件，并重新组合它们以促进动作定位。0时间边界预测的视觉分析。共现组件经常在视频片段中占主导地位。这导致不可靠的边界预测，降低了检测性能。为了验证我们的方法是否可以促进鲁棒的边界预测，我们在图5中可视化了一些预测结果。与基线相比，我们的方法可以帮助准确预测边界位置，并减少由共现组件干扰引起的误报。可视化示例证明，调节共现组件是鲁棒的时间边界预测的有效解决方案。0时间动作定位的视觉分析。为了验证新的视频表示是否包含更有利于动作定位的线索，我们在图6中报告了一些定性结果。我们可以看到，我们的方法可以帮助模型有效地学习指示性信息，减轻过度依赖共现组件导致的错误分类。此外，重构动作和共现组件可以提供显著的动作特征，减少动作的模糊性和不确定性。0动作组件的分析。TAL不仅需要定位动作，还需要准确预测它们的类别。表5表明，仅使用动作组件进行TAL是次优的，因为共现组件通常包含对动作分类有用的上下文信息，并有助于减少动作的模糊性和不确定性。0真实值预测值0基准0我们的0跳远0跳远 11.2 20.00基准0我们的0铅球 67.8 72.10标枪投掷 66.0 72.00跳远0标枪投掷 66.8 72.50图6.在ActivityNetv1.3（顶部）和THUMOS14（底部）上的定性检测结果。0模态 mAP@tIoU (%) Class (%) 0.3 0.5 0.70RGB & Flow 68.2 56.0 30.1 76.7 仅动作 69.6 57.230.9 81.3 动作和共现 70.7 58.6 32.1 85.90表5.仅使用动作组件进行TAL的消融研究，以不同IoU阈值的mAP和分类准确率（Class）为指标，基于THUMOS14数据集。“RGB &Flow”表示原始视频特征。“Action”和“Co-occ.”分别表示动作组件和共现组件。06. 结论0在本文中，我们重新思考和探索了用于TAL的片段特征的动作和共现组件的重构。我们提出了一种新颖的特征重构网络RefactorNet，它插入在视频特征提取器和动作检测器之间。它旨在将片段表示解耦为实际动作内容和其共现组件，然后将它们重新组合成具有显著动作组件和适当共现组件的新片段表示。定量和定性实验证实了所提方法的有效性。因此，RefactorNet与动作检测器的组合在THUMOS14和ActivityNet v1.3上取得了很好的性能。07. 致谢0这项工作部分得到了中国国家重点研发计划的支持，编号为2018AAA0101400，国家自然科学基金委员会的支持，编号为62088102、61976171和62106192，陕西省自然科学基金的支持，编号为2022JC-41和2021JQ-054，中国博士后科学基金的支持，编号为2020M683490，以及中央高校基本科研业务费的支持，编号为XTR042021005。5138920参考文献0[1] Hyojin Bahng，Sanghyuk Chun，Sangdoo Yun，JaegulChoo和Seong JoonOh。使用有偏表示学习去偏表示。在ICML中，第528-539页，2020年。 30[2] Yueran Bai，Yingying Wang，Yunhai Tong，YangYang，Qiyue Liu和JunhuiLiu。用于时间动作提议生成的边界内容图神经网络。在ECCV中，第121-137页，2020年。 60[3] Fabian Caba Heilbron，Victor Escorcia，BernardGhanem和Juan CarlosNiebles。Activitynet：用于人类活动理解的大规模视频基准。在CVPR中，第961-970页，2015年。 60[4] Joao Carreira和Andrew Zisserman。Quovadis，动作识别？一种新模型和动力学数据集。在CVPR中，第6299-6308页，2017年。 60[5] Yu-Wei Chao，Sudheendra Vijayanarasimhan，BryanSeybold，David A Ross，Jia Deng和RahulSukthankar。重新思考用于时间动作定位的更快的R-CNN架构。在CVPR中，第1130-1139页，2018年。 60[6] Jinwoo Choi，Chen Gao，Joseph CE Messou和Jia-BinHuang。为什么我不能在商场里跳舞？学习减轻动作识别中的场景偏见。在NeurIPS中，第853-865页，2019年。 30[7] Emily L Denton和VighneshBirodkar。从视频中无监督学习解缠表示。在NIPS中，第4417-4426页，2017年。 30[8] Chanho Eom和Bumsub Ham.学习解耦表示用于强大的人物再识别.在NeurIPS，页5297-5308，2019年. 3, 60[9] 范立杰，黄文兵，甘闯，Stefano Ermon，龚博青，和黄俊舟.用于视频理解的运动表示的端到端学习.在CVPR，页6016-6025，2018年. 10[10] 高佳林，石志祥，王冠硕，李佳妮，袁宇峰，葛世明，和周曦.基于关系感知金字塔网络的准确时间动作提议生成.在AAAI，页10810-10817，2020年. 20[11] Ross Girshick. Fast R-CNN. 在ICCV，页1440-1448，2015年.0[12] 龚国强，郑良锋，和穆亚东. 规模重要:用于精确动作定位的时间尺度聚合网络. 在ICME，页1-6，2020年.10[13] Ryuhei Hamaguchi，Ken Sakurada，和RyosukeNakamura. 使用解耦表示学习进行稀有事件检测.在CVPR，页9327-9335，2019年. 30[14] Jun-Ting Hsieh，Bingbin Liu，De-An Huang，Fei-FeiLi，和Juan Carlos Niebles. 学习分解和解耦表示用于视频预测.在NeurIPS，页515-524，2018年. 30[15] 黄良华，刘宇，王斌，潘盼，徐英辉，和金荣.通过上下文和运动解耦进行自监督视频表示学习.在CVPR，页13886-13895，2021年. 30[16] Mihir Jain，Amir Ghodrati，和Cees GM Sno

下载后可阅读完整内容，剩余1页未读，立即下载