时间动作定位的无监督预训练方法及其性能改进

132 浏览量更新于2023-10-25 收藏 15.84MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

28303234708090140310无监督预训练用于时间动作定位任务0Can Zhang 1 * Tianyu Yang 2 Junwu Weng 2 Meng Cao 1 Jue Wang 2 Yuexian Zou 1 �01 北京大学电子与计算机工程学院 2 腾讯AI Lab0zhangcan@pku.edu.cn tianyu-yang@outlook.com WE0001WU@e.ntu.edu.sg0mengcao@pku.edu.cn arphid@gmail.com zouyx@pku.edu.cn0摘要0无监督视频表示学习在近年来取得了显著的成就。然而，大多数现有方法都是为视频分类而设计和优化的。这些预训练模型对于时间定位任务可能不是最佳选择，因为视频级别的分类和剪辑级别的定位之间存在固有的差异。为了弥合这一差距，我们首次尝试提出了一种自监督预训练任务，称为伪动作定位（PAL），用于无监督预训练时间动作定位任务的特征编码器（UP-TAL）。具体而言，我们首先从一个视频中随机选择包含多个剪辑的时间区域，然后将它们粘贴到另外两个视频的不同时间位置上。预训练任务是对来自两个合成视频的粘贴伪动作区域的特征进行对齐，并最大化它们之间的一致性。与现有的无监督视频表示学习方法相比，我们的PAL通过以时间密集和尺度感知的方式引入了一种时间等变对比学习范式，更适应下游TAL任务。大量实验证明，PAL可以利用大规模无标签视频数据显著提升现有TAL方法的性能。我们的代码和模型将在https://github.com/zhang-can/UP-TAL上公开。01. 引言0模型预训练是训练深度网络在许多计算机视觉任务中的有效技术。其核心思想是在大规模标记或未标记数据上学习通用表示，并利用学到的表示来提高有限数据下游任务的性能。这对于需要大量人力来注释数据的任务特别有益，例如时间动作定位（TAL）。尽管现成的特征提取方法被广泛使用，0* 本工作在腾讯AI Lab实习期间完成。0mAP@AVG（%）0(a) 动作定位（TAL）0准确率（%）0TACMoCo-v2 我们0(b) 动作分类（TAC）0图1. 在下游TAL（ActivityNetv1.3）和TAC（UCF101）数据集上微调Kinetics-400预训练模型的比较。'TAC'表示有监督的TAC预训练，我们将具有视频输入的MoCo-v2[16]作为基线。实例级别的区分并不适用于TAL，因此需要针对TAL定制的无监督预训练。0在TAL中，这种预训练策略是次优的，因为TAC和TAL之间存在固有的差异。毫无疑问，这种差异阻碍了TAL的进一步性能提升。尽管一些最近的工作尝试解决这个问题，但它们仍然依赖于大规模标注的视频数据。最近，无监督预训练因其在利用大量无标签数据方面的潜力而受到广泛关注。对比学习是最流行的方向之一，它专注于实例区分，即在嵌入空间中将实例级正样本拉近，将负样本推远。为了填补上游预训练和下游任务之间的差距，最近的对比学习方法专注于为各种下游图像任务设计预训练任务，例如目标检测、语义分割等。相比之下，视频领域中无监督预训练的进展相对滞后，大多数现有方法仍然是为分类任务设计和评估的。在本文中，我们首次尝试对TAL任务进行无监督预训练。实现这一目标的一种可能方式是将图像对比学习的思想直接扩展到视频领域，其中将视频视为连续帧的序列。140320将剪辑视为实例，将剪辑视为实例的视图。将来自同一视频的剪辑嵌入拉近，而来自不同视频的剪辑推开。显然，这种方式只关注实例（视频级）区分，即学习特定视频实例的时间不变特征，这是TAC任务本质上所要求的。相比之下，TAL希望表示具有时间平移和尺度的等变性。例如，如果我们改变输入视频中动作实例的开始时间和持续时间，TAC的输出分类响应应该保持不变，而TAL的输出定位预测需要相应地改变。这两个任务之间固有的差异引起了我们对现有实例区分范式在TAL中的适用性的质疑。实际上，如图1所示，这种视频级别的区分对TAC任务有益，但与TAL任务不太对齐。因此，设计一种在TAL任务上能够良好迁移的新的学习方案是可取且具有挑战性的。0受TAC和TAL之间固有差异的启发，我们通过设计一种名为伪动作定位（PAL）的新的无监督预训练任务，引入了时间等变对比学习范式。具体而言，为了模拟具有时间边界的TAL定制数据，我们首先通过廉价的方式从现有的大规模TAC数据集中进行转换来构建我们的训练集。我们从一个视频中随机裁剪两个具有随机时间长度和尺度的时间区域作为伪动作。这些区域中的每一个都包含多个连续的剪辑。然后，我们将它们粘贴到其他随机选择的背景视频的不同时间位置上。通过预设的时间变换（粘贴位置，剪辑长度，采样尺度），模型能够对两个合成视频的伪动作特征进行对齐。这样的转换和对齐过程在我们的论文中被称为输入级变换和特征级等变换。此外，为了更好地将上游预训练流程与下游TAL架构对齐，我们采用了估计TAL任务中的时间位置的方法[36,38]，通过应用几层时间卷积来处理顺序剪辑级特征。因此，周围背景剪辑的信息高度涉及到伪动作区域的最终输出特征中。通过随机粘贴操作，增加了背景参与的多样性。此外，我们提出最大化两个对齐的伪动作区域特征之间的一致性，以便学习到的特征集中在最具区分性和与背景无关的部分，从而增强其鲁棒性并实现TAL中的等变要求。0我们的主要贡献总结如下：（1）据我们所知，这是第一个专注于时间动作定位任务的无监督预训练工作（UP-TAL）。（2）我们设计了一种直观有效的专为TAL量身定制的自我监督预训练任务，称为PAL。0为TAL量身定制的自我监督预训练任务，称为PAL。还引入了一种时间等变对比学习范式，用于执行转换的前景区分，为TAL表示学习量身定制。（3）在ActivityNet v1.3[7]，Charades-STA [22]和THUMOS'14[31]数据集上进行了大量实验，结果表明PAL在各种下游TAL相关任务上具有良好的迁移性：时间动作检测（TAD），动作提议生成（APG）和视频定位（VG）。值得注意的是，我们的PAL甚至在使用相同数量的视频数据时超过了监督预训练。02. 相关工作0对比性视频表示学习。最近，由于其出色的性能，对比学习[9, 15-17, 25, 29,43]引起了越来越多的关注。基本上，这些基于对比的方法专注于实例区分[58]，即区分每个实例与其他实例。在这个方向上，最近的研究[44, 45, 53,65]将对比学习的思想扩展到了视频领域，其中来自同一视频的剪辑被视为正样本，来自不同视频的剪辑被视为负样本。此外，文献中还研究了其他方向，例如：密集的未来预测[26, 27]，跨模态监督[2, 28,47]等。值得注意的是，这些方法大多设计用于学习时间不变特征的TAC任务。相比之下，我们提出了一种专为TAL量身定制的新的预训练任务，遵循时间等变学习方案。一项同时进行的工作[32]也专注于时间等变表示学习。其中，来自不同视频但具有相同相对变换（重叠/顺序）的两个剪辑被视为正对，这有助于详细学习运动模式，因此对TAC任务有益。我们的方法与之本质上不同之处在于，正对是由同一前景视频的两个转换区域（多个剪辑）构建的，但具有不同的背景。这有助于学习TAL友好的特征，使其对背景干扰具有鲁棒性，但对时间变换（尺度和位置）敏感。时间动作定位（TAL）任务。与TAC [10, 21, 35, 49, 50, 55,69]不同，TAL的目标是在未修剪的视频中对感兴趣的动作进行时间定位。一般来说，TAL涵盖了一系列任务，例如：动作提议生成（APG），时间动作检测（TAD）和视频定位（VG）等。APG旨在生成可能包含人类动作的时间提议。先前的方法为特征序列设计了时间锚实例[6, 30,37]，或直接预测边界概率[36,38]。TAD旨在预测动作实例的时间范围以及类别标签。大多数现有的全监督TAD方法[4, 11, 12, 36, 40, 60,63]将提议生成与分类集成起来。𝑣𝒯(𝑣)𝒢ℱ 𝑣 = 𝒢(ℱ(𝒯(𝑣)))ℱ 𝑣 = ℱ(𝒯(𝑣))ℱℱℱℱ(a)𝒄!→#(%)𝒓'𝒓(!𝒗!𝒗#𝒗)𝒗!→#𝒗!→)𝒯𝒯′𝒄!→#(*)𝒄!→#(+)𝒄!→#(,)𝒄!→#(-)𝒄!→#(.)𝒄!→#(/)𝒄!→#(0)𝒄!→)(%)𝒄!→)(*)𝒄!→)(+)𝒄!→)(,)𝒄!→)(-)𝒄!→)(.)𝒄!→)(/)𝒄!→)(0)(b)140330持续时间 * 0.501秒 7秒 2秒 5秒06秒 3秒0时间不变性（TAC任务）0时间等变性（TAL任务）0“高跳”类0TAL特征编码器0输入视频绿色：动作范围灰色：背景范围 �0拉0� ! � � " :共享主干网络与非线性投影头0� # : 时间嵌入头0� : 等变换0图2. (a) 时间不变性与时间等变性的示意图。 (b)我们PAL预训练任务的概述。给定一个视频vi，我们从中随机采样两个伪动作区域，然后将它们粘贴到其他两个伪背景视频的不同时间位置和尺度上。PAL通过对齐伪动作区域特征并最大化相同视频但不同背景的区域特征之间的一致性来学习时间等变特征。为了简洁起见，省略了负样本。0在统一网络中进行生成和分类过程。一些最近的工作也设计了弱监督的TAD算法[42, 54, 67, 68,72]。VG，即文本到视频的时间定位，旨在定位与给定文本查询相对应的时间间隔。当前的文献可以大致分为两类，即基于提议的[14, 24, 66, 70]和无提议的[3, 8, 39,41]架构。对于这些TAL任务，我们选择了三个具有官方发布代码的代表性作品（BMN [36]，G-TAD [63]和LGI[41]）来验证我们PAL的有效性。TAL的有监督预训练。由于GPU内存限制，TAL的常见做法是先在大规模修剪的TAC数据集上对特征编码器进行预训练，然后在未修剪的TAL视频中提取帧级或片段级特征。不可避免地，这会导致任务差异问题，因为特征编码器是在TAC上训练的，但用于TAL。尽管这在TAL中很常见，但这个领域差距还没有得到充分研究。最近的进展尝试通过边界类型分类[61]、前景区域分类[1]和端到端训练[62]来弥合这个差距。不幸的是，它们都属于有监督的预训练范式，因此依赖于大规模标记视频。相比之下，我们提出了一种新颖的方法，首次（据我们所知）专注于TAL的无监督预训练（UP-TAL）。数据合成的剪切-粘贴。剪切-粘贴是一种有用的数据增强策略，当面临数据短缺问题时，可以将一个数据样本的一部分剪切并粘贴到另一个样本中。它已被广泛应用于目标检测[18,19]、实例分割[20, 23]的有监督学习以及自监督学习中。0年龄/视频分类[52,71]，目标检测[64]和异常检测[34]等等。与我们最近的工作相关的是BSP[61]，它也通过时间剪切-粘贴合成视频。其本质区别在于BSP有监督地生成不同类型的时间边界，并学习预测它们以促进视频特征的学习，而我们的PAL则在不使用任何标签信息的情况下合成视频，并通过对齐两个合成视频的伪动作区域特征并最大化它们与时间等变对比学习的一致性来训练主干网络。03. 方法03.1. 直觉和预备知识0如第1节所述，TAC和TAL之间最本质的区别在于前者需要时间不变性，而后者需要时间等变表示。这促使我们对现有的“TAC特征用于TAL”范式的适用性产生质疑。因此，在本节中，我们深入研究了为TAL定制的无监督预训练的设计，以达到任务对齐的目标，即“TAL特征用于TAL”。对于TAC任务，给定数据集V={vi}Ni=1中的视频vi，目标是学习一个特征编码函数F(v)，使得提取的表示对于时间变换T不敏感，即对于所有v∈V：F(T(v))=F(v)，如图2a顶部所示。为了实现这个目标，学习策略可以基本上设计为在特征空间中将F(T(v))和F(v)靠近彼此。更一般地说，我们将两个随机变换T和T'应用于v来实现：140340实施策略，并引入对比学习[43]来强制保持一致性：0F(T(v)) pull →← F(T'(v))，(1)0其中也考虑了恒等映射T0(v)=v。在TAL的情况下，我们要求F对变换T敏感，即对于所有v∈V：F(T(v))=T(F(v))，可以重写为F(v)=G(F(T(v)))和G�T-1（见图2a底部）。类似于公式1，我们对v应用两个随机变换，因此有：0F(v) = G(F(T(v))) = G'(F(T'(v)))，(2)0直观地说，我们可以在这里引入对比学习来建模时间等变性，通过强制两个变换对（T，G）和（T'，G'）处理的特征相似，如下所示：0G(F(T(v))) pull →← G'(F(T'(v)))，(3)0在接下来的章节中，我们介绍了一个针对TAL任务的参数化时间变换T。我们精心设计了一个新的自监督任务，称为伪动作定位（PAL），使用自动生成的变换信号T，并应用对比策略来学习时间平移和尺度等变编码F。03.2. 伪动作定位0如图2b所示，给定一个大规模的修剪视频数据集（例如Kinetics[10]），我们随机选择一个视频中的两个时间区域（视为伪动作区域），然后将它们粘贴到另外两个视频（视为伪背景）的不同尺度和位置上。通过在预训练期间将自动生成的时间位置和尺度视为先验知识，模型应该能够从合成的新视频中定位伪动作区域。我们引入对比策略来强制两个由先验定义的随机区域的特征在时间等变表示学习中保持一致，如公式3所示。在这个流程中，我们首先在输入空间中执行变换T进行面向TAL的视频生成（第3.2.1节）。然后我们使用骨干网络F和多个头将变换后的视频映射到特征空间（第3.2.2节）。接下来，在特征空间中应用等变换G来反转变换T（第3.2.3节）。最后，我们对TAL定制的预训练进行区域对比学习（第3.2.4节）。03.2.1 输入级别的变换0为了学习时间等变编码函数 F，我们定义变换 T为视频区域采样和0粘贴操作。具体来说，给定一个视频vi作为伪动作视频以及一个随机选择的视频vn作为伪背景，我们首先从动作视频vi中采样一个随机区域，并将其粘贴到背景视频vn上生成一个合成视频vi→n。输入级别的变换T然后定义如下：0vi→n，s，e = T(vi，vn)，(4)0其中s和e表示新视频vi→n中伪动作区域的起始和结束剪辑1索引。为了提高学到的表示的鲁棒性，我们通过将粘贴操作改为混合操作，并使用混合比例β来实现软化。混合比例β将动作区域的β与背景区域的(1-β)混合在一起生成混合区域。β从范围[0.6，1]中随机选择。此外，还涉及空间数据增强以增加训练数据的多样性。按照惯例[28，44，45]，我们应用随机裁剪、水平翻转、高斯模糊和颜色抖动，所有这些都是时间一致的。特别地，我们提出了一种尺度感知采样策略，以增加动作时间尺度的随机性。这里，我们将时间尺度定义为动作的速度。观察到以不同速度播放的动作视频包含几乎相同的语义。我们通过使用不同步长采样动作区域帧来建模时间尺度的变化。总体而言，通过这种采样和粘贴的方式，我们的输入级变换模拟了真实未修剪动作视频中的时间位置和尺度变化，这也为TAL定制的时间等变对比学习提供了强有力的监督信号。03.2.2特征编码0我们的特征编码器F包含一个具有非线性投影头Fn的主干Fb和一个时间嵌入头Ft，即F = Fb ◦Fn◦Ft。形式上，给定合成视频vi→n，通过以下方式获得相应的剪辑特征序列{c(j)i→n}Jj=1：0{c(j)i→n}Jj=1 = F(vi→n)，(5)0其中主干Fb是一个剪辑级编码器，Ft是一个视频级编码器。0是剪辑之间进行时间建模的视频级头部。J是采样剪辑的数量。值得注意的是，在我们的设置中，对时间卷积(Ft)应用于按时间顺序的剪辑级特征至关重要。这样可以在相邻剪辑之间进行信息聚合，因此边界附近的伪动作区域的特征可以受到影响。01在这里，我们以剪辑方式执行时间变换，以与剪辑级视频编码器对齐。L = −logexp(rq · rk+/τ)exp(rq · rk+/τ) +Ki=1 exp(rq · rki/τ), (7)140350受附近背景的影响较大。通过最大化同一视频的区域特征之间的一致性（第3.2.4节），我们的PAL可以学习到背景不敏感的边界特征，这些特征受不同伪背景的影响。03.2.3特征级等变换0回顾我们的目标是通过扩展对比策略来设计一个适用于TAL的预训练范式，以学习时间等变表示。为此，我们提出利用额外的自由区域级监督，以逆时间变换的形式。在我们的情况下，输入合成视频(vi→n)中伪动作位置的变化将反映在其特征序列({c(j)i→n}Jj=1)中。为了响应第3.2.1节中引入的输入级变换T，我们在这里将特征级等变换G定义为对齐操作。形式上，这个特征对齐过程定义为：0{c(j)i→n}ej=s = G({c(j)i→n}Jj=1，s，e)，(6)0然后，通过时间平均池化对应的顺序剪辑级特征，即r(s,e)i→n =TempAvgPool({c(j)i→n}ej=s)，可以获得区域表示。03.2.4对比训练目标0在上述介绍的转换T和对齐G操作之后，从视频vi中提取出两个伪动作区域[s，e]和[s'，e']，并将其粘贴到两个伪背景视频vn和vm上，以获得区域表示r(s,e)i→n和r(s',e')i→m。这两个表示被设置为对比学习中的查询和正样本键对(rq，rk+)，即rq = r(s,e)i→n和rk+ =r(s',e')i→m。其他合成视频的区域特征被视为负样本。给定编码的查询rq，正样本键rk+和负样本{rki}Ki=1，对比学习本质上鼓励查询与正样本相似，与负样本不相似。我们的PAL是一个预训练任务，与详细的损失函数无关，因此我们简单地扩展了InfoNCE[43]对比损失，以确保本文中的区域一致性：0其中τ是温度超参数，K是负样本的数量。通过最小化区域对比损失，我们的提出的PAL鼓励编码骨干Fb学习具有时间等变特性的特征，我们认为这对于TAL任务是有益的。04. 实验04.1. 实验设置0为了评估我们提出的PAL，我们遵循预训练和转移过程：首先在一个大规模修剪的数据集上对特征网络进行预训练，不使用类别标签，然后将由冻结骨干预计算的特征转移到下游TAL任务中。04.1.1 预训练0数据集。为了与其他自监督视频表示学习方法进行公平比较，我们使用Kinetics[10]作为初始预训练数据集，不使用任何标签。Kinetics是一个大规模的修剪动作识别基准。每个视频只有一个动作类别，持续时间约为10秒。典型版本的Kinetics-400（K400）包括约300k个包含400个人类动作类别的视频，最新版本的Kinetics-700（K700）包含约650k个包含700个动作类别的视频。实现细节。我们选择I3D[10]作为我们实验中的默认骨干（Fb）。对于时间嵌入头（Ft），我们采用了一个3个卷积核大小的两层时间卷积，后面跟着ReLU激活函数。我们对每个视频均匀采样8个片段（每个片段8帧），分辨率为112×112，并将伪动作区域的最大片段长度限制为6。混合比例β的范围设置为[0.6,1.0]。对于我们的尺度感知采样策略，片段内帧的采样步长选择自[1,4]。根据[16]，我们还维护了一个16,384个负样本的内存队列，并在所有层上使用同步BN。我们对Ft的输出特征应用L2范数。温度τ对于所有实验设置为0.07。优化方面，我们使用Adam算法训练我们的PAL，权重衰减为10^-5。初始学习率设置为10^-4，当验证损失饱和时，学习率下降10倍。总共训练200个epoch，批量大小为512，在64个NVIDIATesla V100 GPU上进行训练。04.1.2 转移到TAL任务0目标TAL任务。我们选择了三个流行的时间定位任务来评估我们的PAL特征：时间动作检测（TAD），动作提议生成（APG）和视频定位（VG）。数据集。（1）ActivityNetv1.3[7]是一个流行的大规模TAD和APG任务基准，包括10,024个训练视频，4,926个验证视频对应200个动作类别。每个视频平均包含1.65个动作实例；（2）Charades-STA[22]通常用于VG任务，包含12,408个训练集和3,720个测试集的文本查询对。视频的平均持续时间MethodModalDatasetBackboneTR SR2FLOPsTAD Task (G-TAD [63])APG Task (BMN [36])CoCLR [28]V+FK400S3D32×128247.2G47.932.27.331.932.753.573.965.0XDC [2]V+AIG65MR(2+1)D-1832 2242325.2G48.432.67.632.333.254.174.065.4140360表1. 目标任务上与最先进的预训练方法的比较。我们使用G-TAD [63]和BMN [36]作为TAD和APG任务的评估方法，分别在ActivityNetv1.3数据集上进行。用蓝色突出显示的行使用完全监督的预训练。†表示来自[62]的结果。*表示我们的实现。（TR：时间分辨率，SR：空间分辨率）0（每个片段）（每个片段）mAP@0.5 @0.75 @0.95 AVG AR@1 @10 @100 AUC0MoCo-v2 [16] * V K400 I3D 8 × 112 2 3.6G 46.6 30.7 6.3 30.3 30.8 53.5 72.4 64.0 VideoMoCo [44] V K400 R(2+1)D-18 32 × 112 2 81.3G 47.8 32.1 7.031.7 31.8 53.9 72.8 65.1 RSPNet [13] V K400 R(2+1)D-18 16 × 112 2 40.6G 47.1 31.2 7.1 30.9 31.5 53.3 72.2 64.1 AoT [57] † V K400 TSM-Res50 8 × 224 233G 44.1 28.9 5.9 28.8 - - - - SpeedNet [5] † V K400 TSM-Res50 8 × 224 2 33G 44.5 29.5 6.1 29.4 - - - - PAL (我们的方法) V K400 I3D 8 × 112 2 3.6G 49.334.0 7.9 33.4 33.7 55.9 75.0 66.80PAL (我们的方法) V K700 I3D 8 × 112 2 3.6G 50.7 35.5 8.7 34.6 34.2 57.8 76.0 68.10TAC * V K400 I3D 8 × 112 2 3.6G 48.5 32.9 7.2 32.5 32.3 54.6 73.5 65.60BSP [61] V K400 TSM-Res50 8 × 224 2 33G 50.9 35.6 8.0 34.8 33.7 57.4 75.5 67.60LoFi-E2E [62] V K400+ ANet TSM-Res18 8 × 224 2 14.6G 50.4 35.4 8.9 34.4 - - - -0TSP [1] V K400+ ANet R(2+1)D-34 16 × 112 2 76.4G 51.3 37.1 9.3 35.8 35.0 59.0 76.6 69.00视频长度最短为30秒，文本查询的最大长度为10；THUMOS'14[31]是TAD和APG任务的标准基准，包含200个验证视频和213个测试视频，涵盖20个动作类别。视频长度差异很大，从不到一秒到约26分钟不等。平均而言，每个视频包含约16个动作实例。评估指标。我们遵循标准评估协议。对于TAD任务，我们报告不同时间交并比（tIoU）阈值下的平均准确率（mAP）值。对于APG任务，我们报告视频每个提议的平均召回率与平均数量（AR-AN）之间的曲线下面积（AUC）。对于VG任务，报告三个tIoU阈值下的top-1召回率及其平均值（mIoU）。实施细节。为了验证我们的预训练策略的有效性，我们仅将原始特征替换为我们的PAL特征，重新训练了几种最先进的TAL方法。我们选择了那些具有公开可用代码的代表性作品。具体而言，我们选择了G-TAD[63]用于TAD任务，BMN [36]用于APG任务，以及LGI[41]用于VG任务。04.2. 主要结果0在本节中，我们将我们的PAL与其他最先进的预训练方法在三个具有挑战性的TAL任务上的性能进行比较。对于那些针对TAC任务设计的自监督方法，我们直接使用它们发布的预训练模型提取视频特征进行下游TAL任务评估。时间动作检测（TAD）和动作提议生成（APG）。在表1中，我们报告了我们在ActivityNetv1.3上的TAD和APG结果，并将它们与最先进的预训练方法进行了比较。当在K400上进行预训练时，我们的PAL始终优于其他自监督方法，这充分证明了其有效性。0我们方法的有效性。尽管这些自监督预训练竞争者在TAC任务上取得了有希望的结果，但任务差异问题仍然影响了它们在TAL任务上的可迁移性，这验证了我们工作的必要性。与我们的基线MoCo-v2[16]相比，该基线专注于学习时间不变特征，而我们提出的时间等变学习方案更适合TAL，因此在相同设置下，它在mAP@AVG和AUC上分别提高了3.1%和2.8%。值得注意的是，当使用相同的骨干网络（I3D）和预训练数据集（K400）时，我们的无监督PAL在mAP@AVG和AUC上甚至超过了有监督的TAC，分别提高了0.9%和1.2%。这表明在TAL中，适当使用数据可能比动作标签注释信息更有益处，这与我们的动机一致。当在更大的数据集K700上进行预训练时，我们的PAL进一步提高了性能，展示了利用大规模网络视频的潜在优势。与最近的全监督预训练方法（包括BSP[61]、LoFi-E2E [62]和TSP[1]）相比，我们在无监督TAL预训练方面的首次尝试取得了有竞争力的结果。需要注意的是，LoFi-E2E [62]和TSP[1]都使用下游数据集ActivityNet（ANet）进行特征预训练，这可能导致不公平的比较。0视频定位（VG）。在Charades-STA上报告的VG结果如表2所示。请注意，原始的LGI[41]利用在下游Charades-STA数据集上微调的I3D特征。为了公平比较，我们使用K400预训练的I3D特征重新训练了LGI模型，而没有改变原始代码库中的任何超参数。显然，我们的PAL在无监督预训练设置下实现了最佳的VG性能，甚至超过了受监督的TAC训练特征。请注意，BSP[61]特征是在监督下预训练的0130.81332.1 (+1.3)2532.8 (+2.0)3732.5 (+1.7)132.2[0, 0.4]30.7 (-1.5)[0.4, 0.6]31.5 (-0.7)[0.6, 1.0]32.8 (+0.6)[0, 1.0]31.3 (-0.9)140370表2. VG任务上与最先进的预训练方法的比较。我们使用LGI[41]作为评估方法。结果在Charades-STA数据集上进行。用蓝色突出显示的行使用完全监督的预训练。*我们的实现。0方法 VG任务（LGI [41]）0（K400预训练）R@0.3 R@0.5 R@0.7 mIoU0MoCo-v2 [16]* 54.2 40.9 21.1 38.7 VideoMoCo [44]59.1 44.5 23.4 42.3 RSPNet [13] 55.8 41.5 21.4 39.6PAL（我们的）63.7 50.0 27.2 46.80TAC * 61.6 46.8 24.6 44.30BSP [61] 68.8 53.6 29.3 50.60以更多的每个剪辑FLOPs（33G vs.3.6G）的方式执行，如预期的那样，表现比我们的好。总的来说，据我们所知，作为第一个针对TAL定制的无监督预训练工作，PAL在三个典型的TAL任务上始终超过其他无监督预训练方法，证明了我们的想法的有效性。04.3. 消融研究0在本节中，我们进行消融实验，以充分理解我们的PAL的概念。为了方便实验，所有消融研究都在K400上进行100个训练周期，并在TAD任务上进行评估。关键PAL组件的有效性。在表3中，我们研究了PAL中每个设计对整体性能的影响。我们考虑PAL中的三个关键组件：（1）密集采样策略，以选择多个剪辑作为区域样本；（2）尺度感知采样策略，以不同的步幅采样伪动作区域；（3）粘贴操作，将选定的区域粘贴到背景视频上。我们从不涉及上述任何设计的基本设置开始，其中仅从每个视频中随机采样一个剪辑并执行剪辑级对比学习。然后，我们引入密集采样策略来对比区域级嵌入，由于包含了更多的时间线索，带来了+0.5％的改进。接下来，我们应用尺度感知采样策略以及密集采样，总体上获得了+1.1％的增益。这验证了在时间尺度上添加一些随机性有助于表示学习。在引入粘贴操作后，获得了最大的改进。我们推断这是因为吸引相同视频的区域特征，但受不同背景影响，产生了更多的背景不敏感特征，这有利于定位任务。最后，将伪动作区域粘贴到不同的背景视频上进一步提供了合理的增益+0.7％，与基准相比，最终改进达到+3.2％。总之，逐步添加这些关键组件，性能持续提升，验证了我们PAL的有效性。0表3.PAL在TAL任务上每个设计的贡献。逐步参与密集采样策略（dense），尺度感知采样策略（scale）和粘贴操作（paste）。所有这些设计都对整体性能有所贡献。0实验设置 TAD 任务0密集尺度粘贴 mAP@AVG0#0 (基准) � � � 29.6 #1 � � � 30.1 (+0.5)0#2 � � � 30.7 (+1.1)0#3 � � 相同背景 32.1 (+2.5)0#4 (PAL) � � 不同背景 32.8 (+3.2)0表4. 时间嵌入头部消融研究。0接收域数量 mAP@AVG0表5. 粘贴比例的消融研究。0β mAP@AVG0时间嵌入头层的数量。在表4中，我们尝试了不同数量的时间嵌入头层。当层数为0时，输入剪辑独立处理，没有时间融合，因此周围的背景剪辑对动作区域没有实质性影响。很明显，在骨干网络之上添加一个时间卷积层显著提升了性能（+1.3%）。这验证了我们的假设，即引入背景语义可以帮助提升TAL所需的定位能力。由于使用两个时间嵌入层可以获得最佳性能，我们选择这个设置作为默认设置。硬粘贴vs.软粘贴。在PAL中，β控制着伪动作区域粘贴到背景视频中的比例。我们评估了从0到1的不同β值。特别地，β=1表示“硬”粘贴，β<1表示“软”粘贴。对于软粘贴，我们测试了几个代表性的区间：[0, 0.4]、[0.4, 0.6]、[0.6, 1.0]和[0,1.0]，分别表示背景主导、半分半、动作主导和纯随机四种情况。如表5所示，β∈[0.6,1.0]的设置优于硬粘贴，并取得了最佳结果，部分原因是动作主导的软粘贴作为一种有效的数据增强策略。因此，我们默认使用这个设置。在THUMOS'14上的评估。THUMOS'14是一个相对规模较小的数据集，与ActivityNetv1.3相比较（参见第4.1.2节）。我们在表6中列出了实验结果。与在ActivityNetv1.3上的相对性能提升相比，我们在THUMOS'14上的改进更为显著，这证实了PAL在小规模数据条件下的泛化能力。0123456789 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35036912151821242730330.00.20.40.60.81.0140380表6. 小规模THUMOS'14数据集上的TAD结果。0方法 TAD任务（G-TAD [41]）0（K400，100个epochs）mAP@0.3 @0.4 @0.5 @0.6 @0.70TAC * 44.6 37.3 29.5 18.8 9.5 MoCo-v2 [16] * 41.5 34.1 25.817.3 7.90PAL（我们的方法）46.8 40.3 30.8 19.3 10.90表7. TAC任务比较。0方法骨干网络 TAC任务（Top-1准确率）0（K400，预训练）UCF101 HMDB510MoCo-v2 [16] * 3D-Res50 82.0 49.4 AoT [57] T-CAM79.4 - SpeedNet [5] S3D-G 81.1 48.8 VTHCL [65]3D-Res50 82.1 49.2 VideoMoCo [44] R(2+1)D-1878.7 49.2 CoCLR [28] S3D 87.9 54.6PAL（我们的方法）3D-Res50 84.7 52.50TAC任务评估。我们研究了我们的PAL在TAC下游任务中的迁移能力。按照常见做法，所有层都进行端到端的微调。结果在UCF101 [46]和HMDB51[33]数据集上进行评估。尽管我们的PAL特征是为TAL任务设计的，但我们在表7中观察到它在TAC任务上仍然取得了竞争性的性能。具体而言，我们的PAL在UCF101和HMDB51的top-1准确率上分别比基线MoCo-v2提高了+2.7%和+3.1%。值得注意的是，它甚至超过了最近提出的具有相同骨干的VTHCL [65]。04.4. 特征可视化0回顾一下，PAL被提出来引导网络学习时间平移和尺度等变性能力。为了确认这一点，我们对真实世界视频中的动作实例应用时间变换，并调查这些变化是否会相应地在特征空间中反映出来。具体来说，给定一个来自ActivityNetv1.3的视频，我们首先根据时间注释裁剪动作实例，然后使用不同的时间步长重新采样动作实例，并将它们插入到随机的时间位置。在这里，我们考虑两种时间变换：（1）将动作实例下采样2倍并沿时间轴向后移动；（2）将动作实例上采样2倍并沿时间轴向前移动。接下来，我们分别使用MoCo-v2 [16]（基线）、VideoMoCo[44]和我们的PAL编码器提取原始视频和两个变换后的视频的特征。我们在图3中可视化了同一视频中每个剪辑特征对之间的余弦相似度。我们还绘制了地面真值注释（绿色条）以指示动作剪辑。可以看出，MoCo-v2和VideoMoCo学习到了时间不变的特征，对时间不敏感。0(a) MoCo-v2 [16]（基线）0(b) VideoMoCo [44]0时间0时间0上采样向前移动原始0图3.在不同时间变换下特征相似性可视化（第2列和第3列）的真实动作实例。绿色条表示真实动作的时间范围。颜色越亮表示相似性越高。0变换。伪动作区域与背景之间存在很高的相似性，而PAL特征的显著区域相应发生变化。这证实了我们的方法成功地学习了时间等变特性，这对于TAL任务来说自然更有益处。此外，我们引入的时间等变学习方案不仅可以更好地区分动作和背景片段，还可以使动作与周围背景片段之间的对比更加鲜明。这样，片段特征变得更具信息量和边界感知能力，有助于定位。更多可视化结果可以在我们的补充材料中找到。05. 讨论和结论0本文提出了一种名为伪动作定位（PAL）的新的预训练任务，精心设计了这个任务以无监督的方式为TAL任务（UP-TAL）预训练表示。受到TAC和TAL之间的本质差异的启发，我们还引入了一种时间尺度和位置等变学习方案，以促进下游传输过程中更好的任务对齐。在包括时间动作检测、动作提议生成和视频定位在内的各种下游TAL任务上，我们展示了我们提出的方法的有效性，该方法始终优于其TAC对应方法和其他无监督预训练方法。致谢。本文部分工作得到了国家自然科学基金（NSFC）62176008的支持。特别感谢Aoto-PKUSZ联合实验室的支持。[16] Xinlei Chen, Haoqi Fan, Ross Girshick, and Kaiming He.Improved baselines with momentum contrastive learning.arXiv preprint arXiv:2003.04297, 2020. 1, 2, 5, 6, 7, 8[21

下载后可阅读完整内容，剩余1页未读，立即下载