半监督时间动作检测：基于无命题掩蔽的新模型（SPOT）

25 浏览量更新于2023-12-01 收藏 1.63MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文基于无命题掩蔽的半监督时间动作Sauradip Nag1， 2，Xiatian Zhu1， 3，Yi-Zhe Song1， 2，和Tao Xiang1， 21CVSSP，英国萨里大学iFlyTek-Surrey人工智能联合研究中心，英国3英国萨里大学萨里以人为本的人工智能研究所{s.nag，xiatian.zhu，y.song，t.xiang} @ surrey.ac.uk抽象的。现有的时间动作检测方法依赖于大量的训练数据和片段级注释。因此，收集和注释这样的训练集是非常昂贵和不可扩展的。半监督视频编码（SS-SVM）通过利用大规模免费提供的未标记视频来解决这个问题。然而，SS-SVM也是一个比监督SVM更具挑战性的问题，并且研究得还不够。现有的SS-SSL方法直接结合了现有的基于建议的SSL方法和SSL方法。由于它们的顺序定位（例如，建议生成）和分类设计，它们易于建议错误传播。为了克服这一局限性，在这项工作中，我们提出了一种新的半监督的时间动作检测模型的基础上，P rop O sal免费时间掩模（SPOT）与并行定位（掩模生成）和分类架构。这种新颖的设计有效地消除了定位和分类之间的依赖性，切断了错误传播的路线之间。我们进一步引入了分类和定位之间的交互机制，用于预测细化，以及用于自监督模型预训练的新的预文本任务。两个标准的基准测试的广泛实验表明，我们的SPOT优于国家的最先进的替代品，往往是一个很大的保证金。SPOT的PyTorch实现可在https://github.com/sauradip/SPOT上获得1介绍时间动作检测（TemporalAction Detection，简称TACT）的目的是预测动作的持续时间（即，开始和结束点）和未修剪视频中每个动作实例的类标签[22，8]。大多数最先进的训练方法[65，66，7，54，70，38，37]依赖于包含大量视频的训练数据集（例如，数百个），具有前haustive段级注释。获得这样的注释是繁琐和昂贵的。这严重限制了低数据设置中现有的可预测性方法的可用性[40，39]。半监督学习（SSL）通过利用大量未标记的数据以及有限的标记数据[51，47]提供了注释成本问题的解决方案。这导致了对半监督学习（SS-SVM）的新兴研究兴趣[23，57]现有的方法采用直观的策略，arXiv：2207.07059v1 [cs.CV] 2022年7+v：mala2255获取更多论文× ×2Nag等人图1：现有方法和我们的SS-STIM方法之间的主要设计差异的图示。(a)现有的SS-SVM方法由于顺序定位（例如，建议生成）和分类设计。 (b)我们通过设计一个建议自由时间掩模（SPOT）学习模型与并行定位和分类架构。结合现有的基于建议的方法和SSL方法为主的模型。然而，这种策略本质上是次优的，并且容易出现错误传播问题。如图1（a）所示，这是因为前向模型采用顺序定位（例如，建议生成）和分类设计。当扩展到SSL设置时，使用未标记数据训练时不可避免的定位错误可以很容易地传播到分类模块，导致类预测中的累积错误为了克服上述限制，在这项工作中，我们提出了一种新的半监督无PropOsal时间掩蔽（SPOT）模型，该模型具有并行局部化（掩码生成）和分类架构（见图11）。1（b））。具体地说，SPOT由一个分类流和一个基于掩码的定位流组成，在一个共享的特征嵌入模块上并行建立这种体系结构设计在定位和分类之间没有传统模型中的顺序依赖性，因此消除了定位误差传播问题。我们进一步介绍了一个边界细化算法和一个新的借口任务的自监督模型预训练。我们集成了SPOT与伪标记的SS-同步，新的分类和掩模损失函数，专门为我们的并行设计制定此外，由于没有建议，我们的模型在训练/推理方面比现有的替代方案快30 /2。捐款. （1）为了解决现有的SS-SVM方法所遭受的定位误差传播问题，我们提出了一种具有新的并行分类和定位架构的无提议时间掩蔽（SPOT）模型4。（2）设计了一种新的模型预训练任务和边界细化算法。（3）在ActivityNet-V1.3和THUMOS 14两个标准测试程序上的实验表明，SPOT算法的性能明显优于其他SSL算法。4注意，我们提出了一个新的SSL架构，而不是贡献一个新的通用SSL算法，特别是为了方便使用以前的SSL方法（例如，伪标记）的意义上最小化定位误差传播。+v：mala2255获取更多论文半监督的无命题掩码算法32相关作品虽然所有现有的动作检测方法都使用动作建议，但它们在如何产生建议方面有所不同基于锚点的建议学习方法生成具有预定锚点集合的建议。受静态图像中的对象检测的启发[44]，R-C3 D [62]提出使用锚框。它遵循了设计中建议生成和分类的结构。通过类似的模型设计，TURN [17]聚合局部特征以表示片段级特征，然后将其用于时间边界回归和分类。后来，GTAN [30]改进了建议特征池过程，使用可学习的高斯内核进行加权平均。G-CNET [66]通过图卷积网络学习语义和时间上下文，以更好地生成提案。最近，VSGN [68]改进了具有跨尺度多级金字塔架构的短动作定位。注意这些锚箱通常是穷尽性地产生的，因此数量很大。无锚建议学习方法直接学习预测时间过程（即，，开始和结束时间）[70，28，27]。例如，SSN [70]将动作实例分解为三个阶段（开始，过程和结束），并采用结构化时间金字塔池来生成建议。BSN [28]预测在每个时间位置处的开始、结束和动作性，并生成具有高开始和结束概率的建议。后来，BMN [27]还生成了一个边界匹配的信心地图，以提高建议的产生。企业简介[49]进一步扩展具有互补边界生成器的BMN，以覆盖真正丰富的背景。CSA [48]通过注意转移丰富了提案的时间背景。虽然不需要预定义的锚框，但这些方法通常必须穷尽地配对预测具有高分的所有可能位置。因此，无论是基于锚点的还是无锚点的锚定方法都有大量的时间方案需要评估。重要的是，这两组的可重构模型在本质上采用了顺序定位（掩码生成）和分类架构。这将导致定位误差传播问题的SS-CDMA。我们的SPOT旨在通过消除定位和分类之间的依赖性来解决这一限制，从而切断错误传播的路径。半监督学习（SSL）[71，10]已广泛应用于计算机视觉中的图像分类[5，47，13]、对象检测[50，69]、语义分割[41，21]和姿态估计[15，35]。SSL中的两个主要学习范例是伪标记[47，67，26，24]和一致性正则化[51，25，60，36]。伪标记的关键是可靠地估计未标记数据的标签，这些标签反过来又用于进一步训练模型。相反，一致性正则化强制模型的输出在输入空间和/或模型空间中存在变化时保持一致。变化可以通过添加噪声、扰动或形成相同数据样本或模型的多个变化来实现。在这项工作中，我们专注于设计一个特别适合SSL的神经网络模型，同时遵循伪标签范式，利用未标记的数据进行训练。半监督时间动作检测（Semi-supervised Temporal ActionDetection，SS-STIM）SSL只是最近才被研究的背景下，在电子商务。现有SS-Bracket工程+v：mala2255获取更多论文i=1i=1Mi···∈ YY∈∈∈T{}--4 Nag等人。[23，57，46]天真地结合现有的半监督学习和学习方法。因此，当使用未标记的数据进行训练时，它们特别容易出现上述定位误差传播问题。我们通过引入一种新的无命题时间掩模学习模型首次解决了这个问题。自监督学习旨在从大量未标记的数据中学习通用特征表示[11，19，18]。它通常被设计为为下游任务提供预训练模型，以进一步与特定标记的训练数据进行微调。我们已经看到最近自我监督学习研究的激增，重点关注图像中的对象识别[59，11，19，18，33，53，12]和视频中的动作分类[1，4，31，34，58]。与我们基于自监督学习的预训练最相关的工作最近在[65，64]中介绍他们的目标是改进视频编码器，以解决完全监督的问题。相比之下，我们专注于在半监督学习的背景下预训练一个优秀的头。3无命题时间掩码学习方法概述在半监督时间动作检测（SS-STAR）中，我们可以访问Nl个标记的视频的小集合Dl={Vi，Vi}Nl 和一个大Nu个未标记视频的集合Du={Ui}Nu。Eachlabeledvideo{（j，j，yj）}j=1表示开始时间j、结束时间j和类labelyJ对于Mi 个动作实例中的每一个。我们将标签空间表示为=[1，，K+1]，具有K个动作和一个背景类。为了更有效的SS-SVM，我们提出了一种无命题时间掩码（SPOT）学习方法（见图2）。它有两个组成部分：视频片段嵌入（Sec. 3.1），和头（第3.1节）。3.2）。后者是我们的核心贡献。3.1视频截图嵌入给定变化长度的未修剪视频V，遵循标准实践[66，27]，我们首先在整个长度上对T个等距分布的时间片段（点）进行采样，并使用类似于以下的微调双流视频编码器：[27]在片段级别提取RGB X rRd×T和光流特征X oRd×T，其中d表示特征维度。然后我们将它们连接为F= [Xr;Xo]R2d×T。每个片段都是一个短序列（本作品中有16个）连续帧。虽然F包含局部时空信息，但它缺乏对可重构性至关重要的全局上下文因此我们利用了自我注意力机制[52]了解全球情况。形式上，我们设置输入查询，键，值的多头Transformer编码器（）作为特征F，F，F（图2（a））。不应用位置编码，因为它被发现是有害的（见附录补充中的C）然后获得最终的片段嵌入为E=T（F）∈RC×T，其中C为嵌入维数.+v：mala2255获取更多论文∈∈Y半监督的无命题掩码算法5图2：概述了所提出的基于P rop O sal-free时间掩模（SPOT）的半监督时间动作检测模型。给定一个未修剪的视频V，（a）我们首先使用预训练的视频编码器提取一系列T片段特征，并进行自注意学习以获得具有全局上下文的片段嵌入E。 (b)对于每个片段嵌入，我们然后并行地用分类流预测分类得分P并且用掩模流预测前景掩模M，（c）这两者都是进一步的。用于边界细化。它是基于挖掘难易的前景(FG)和背景（BG）片段。对于SS-SVM，我们交替预测和利用未标记训练视频的伪类和掩码标签以及标记视频。3.2海德为了实现一个无命题的设计，我们引入了一个时间掩模学习的头。它由两个并行流组成（图2（b））：一个用于片段分类，另一个用于时间掩码推理。这种设计打破了定位和分类之间的顺序依赖性，这导致了现有的SVM模型中不必要的错误传播给定第t个片段E（t）Rc（即，，E的第t列），我们的分类分支预测概率分布ptR（K+1）×1，超过.这是通过1-D卷积层Hc，softmax标准化。对于具有T个片段的视频，分类分支的输出可以表示为：P：= so ftmax。Hc（E）∈R（K+1）×T.（一）时间掩码流与分类流并行，该流预测整个时间跨度上的动作实例的时间掩码的视频。给定第t个片段E （t），它输出掩码向量mt=[q1 ， ··· ，qT]∈RT×1，其中ea cheleme ntqi∈[0，1]（i∈[1，T]）指示+v：mala2255获取更多论文6 Nag等人。第i个片段的前景概率（参见图2（b）用于说明）。这通过三个1-D卷积层的堆栈H_m来实现，如下：M= sigmoid。Hm（E）∈RT×T，（2）其中M的第t列是第t片段的时间掩码预测利用所提出的掩码信号作为模型输出监督，不再需要促进SS-SVM学习的建议。图3：流间交互的监听选择。边界细化方法通常难以准确估计前景和背景段之间的边界这个问题对于从未标记数据中学习的SS-SVM模型来说更加明显。为了缓解这个问题，我们设计了一个流间交互机制，用于在报头的末尾进行优化（图1）。2（c））。更具体地说，我们专注于前景和背景之间的过渡中的模糊片段（即时间边界）。它们被认为是硬片段，与位于远离时间边界的掩模或背景间隔内的那些容易的片段相比我们通过检查时间掩模M的结构来检测硬片段。首先，我们对M进行阈值化，以获得二进制掩码M bin：= η（M−θ m），其中η（. ）是Heavyside阶跃函数，θm是阈值。如图3（b）所示，我们认为被侵蚀的掩模边界跨越的片段是硬背景，而被非边界掩模跨越的片段是硬前景。我们使用可微形态学腐蚀[45]来获得腐蚀的掩模M外。我们把M外的补记为M内。它们的正式定义是：M外部=E（Mbin，e），M内部=Mbin−M外部，其中，E（？）是可微侵蚀操作，e是侵蚀核大小。我们通过乘以下采样的嵌入Em（在嵌入E上应用1-D卷积后获得）来表示前k个得分硬片段。它们是这样获得的：Xfg=topk（M内半径m），Xbg=topk（M外半径m），+v：mala2255获取更多论文∈ ∈· ··∈半监督的无命题掩码算法7图图4：自我监督的预训练图解由于来自同一实例的片段通常预测不同长度的1-D掩码，因此在顶部应用二值化过程会生成任意形状的掩码，如图3（a）所示。我们计算所有这些掩码聚类的边界特征，并从所有聚类中联合选择顶部片段。对于流间交互，我们进一步使用来自分类流的高置信度前景和背景片段。因此，我们认为它们是容易的前景和容易的背景，因为它们容易预测的属性。参见图在图3（a）中，我们类似地从阈值化分类输出Pbin：=η（P-θc）中选择得分最高的前景和背景片段，如下：Yfg= topk（argmax（（P binE p）[：K，：]）），Y bg= topk（（PbinE p）[K +1，：]）.其中Ep是通过将嵌入E传递到一维卷积层中以匹配P的维度而获得的。我们采用infoNCE loss [20]来进行优化：Lref=tri（xfg，yfg，ybg）+tri（ybg，xbg，yfg），（3）其中，x=X，y=Y，和tri（，，）定义了前景和背景三元组训练样本。通过这种方式，我们最大限度地提高了同一类别（前景或背景）的简单和困难片段之间的相关性，改进了流间特征表示，以便更好地感知时间边界。3.3模型训练为了更好地利用未标记数据，我们制定了一个两阶段的训练管道，包括自监督预训练和半监督微调。第一阶段：自我监督预训练我们引入了一个基于随机前景的新概念的借口任务，专门用于模型预训练。给定一个视频特征序列FRT×d，我们随机抽取一个不同比例的标记片段（s，e）作为前景，其余标记作为背景（图4）。在特征级别裁剪前景已经表明，在学习判别式表示中很有用[42]。受此启发，我们将背景片段特征归零，同时保留伪前台。这与掩蔽区域建模[14，3]具有类似的精神，+v：mala2255获取更多论文MaxMax8 Nag等人。检测掩蔽段的位置的不同目标。利用这样的掩蔽特征序列，我们的prefession任务旨在联合预测（1）具有开始s和结束e的时间掩蔽（图4（b）），（2）时间混洗后每个片段的时间位置（图4（c）），以及（3）片段特征的重建（图4（a））。我们将T个时间位置中的每一个视为一个特定的位置类，并在混洗的片段序列上应用具有可学习位置嵌入的小Transformer。在Transformer的处理之后，所有归零的片段特征都将变为非零我们使用交叉熵损失Ltp进行时间位置预测。这种监督旨在学习内在的时间结构信息在视频中。特征重构损失Lrec由骨干特征F和来自Transformer的嵌入E之间的L2其动机是在学习全局上下文时保留视频编码器的判别信息。通过丢弃随机片段，迫使Transformer聚合并利用来自上下文的信息来预测丢弃的片段。因此，该模型可以学习时间语义关系和判别特征，对语义分析有用。用于预训练的借口任务丢失被公式化为：Lpre=Lm+λ1Lrec+λ2Ltp，（4）其中，Lm是如等式中定义的掩模学习损失。并且λ1和λ2是分别设置为0.8和0.4的两个超参数。我们使用标记和未标记的数据进行SPOT预训练，而不使用任何地面真实标签。阶段II：半监督微调我们按照伪标签范例实现时间掩码半监督学习[47]。具体地说，我们在预测和应用伪标签之间交替，从单独使用标记的样本开始。给定未标记的视频嵌入E，通过以下公式获得伪类别标签y=max.因此，ftmax（Hc（E）/τc）=（5）其中，共享操作器τc=τ−（τ−1）y′，其中y′为最大值K类上的概率，τ是控制最大概率的超参数剪切强度。类似地，我们获得伪掩模标签如下：g=si g.Hm（E）/τm，（6）其中τm是掩模锐化算子，sig（）是sigmoid函数[29].然后，我们在θc/θm处将伪类和掩码标签阈值化为二进制。损失函数对于SS-100，我们使用伪和地面实况标签来最小化目标损失函数，如下所示对于分类流，我们设计了一个类平衡的损失，以解决固有的类不平衡的挑战。受[56，16]的启发，我们采用基于+v：mala2255获取更多论文YΣ.∈Yk.ΣΣ∈∈D不t=1 m（t）2+g（t）2K y，k∈Y半监督的无命题掩码9二进制交叉熵损失函数给定具有类别标签y的片段E（t），分类损失函数被设计为：L bce= − log（p y）− log。log（1− p k），（7）其中，py表示来自类流P的logit。重要的是，这种二进制交叉熵损失为我们提供了灵活性，可以根据训练样本单独调节每个类。这是有用的，因为未修剪的视频通常包含占主导地位的背景内容，这将用小的训练数据压倒表示不足的尾部动作类t。为了缓解这个问题，我们通过鼓励尾部动作类的激活来进一步改善这种损失。具体地说，给定一个背景片段，我们仍然允许tail action类在一定程度ε（设置为θc）下被激活。这通过引入如下的加权机制来实现：Lwbce=−log（py）−k∈ Y，k∈Y.wklog（1−pk）（8）其中ω=0，如果kt和p（k）<ε1例其他情况（九）给定具有背景Tbg和前景Tfg片段的视频，我们的最终分类损失表示为：L=1CTt∈TfgLbce（t）+Lt∈TbgWBCE（t）（十）对于掩码流，我们利用加权二进制交叉熵损失Lmce来平衡前景和背景类，以及二进制骰子损失Ldice[32]。对于片段位置t，我们表示m（t）RT×1和g（t）RT×1作为预测和地面真实掩模。掩码学习损失被设计为：T TLm=βfg<$g（t）log（m（t））+βbg<$（1−g（t））log（1−m（t））t=1t =1+λ。1- 100 。我很抱歉，（十一）其中，βfg和βbg是用于类别平衡的前景和背景的反比，λd是骰子损失重量，根据经验设置为0.6。总体目标损失被设计为L=Lc+Lm+Lref+Lrec，其中Lref是细化损失（等式10）。并且L_rec是如在预训练阶段中描述的特征重构损失。这种损失被应用于地面实况和伪标签，以微调SPOT。注意，在微调期间不使用时间排序损失项Ltp，因为它性能下降（见附录C）。合理的原因是它与微调损耗Lc的不相容性。+v：mala2255获取更多论文--关于我们10Nag等人3.4模型推理在测试时，我们通过分类P和掩码M预测为每个测试视频生成动作实例预测。对于P，我们只考虑类别概率大于θc的片段，并选择得分最高的片段。对于每个这样的得分最高的动作片段，我们然后获得时间掩码通过使用定位阈值Θ对M的第i列进行阈值化。为了产生足够的候选，我们使用一组阈值Θ=θ i。对于每个候选者，我们通过将分类和最大掩码得分相乘来计算置信度得分s最终应用SoftNMS [6]以获得最高评分结果。4实验数据集我们在评估中使用两个标准的数据集（1）ActivityNet v1.3是一个大规模的基准测试，包含19，994个未修剪的视频，200个类。我们采用标准的2：1：1训练/验证/测试视频数据分割。（2）THUMOS 14提供了200个验证视频和213个测试视频，并带有时间注释，用于动作理解。我们在验证集上训练我们的模型，并在测试集上进行评估。为了公平比较，我们在评估中使用TSN [55]和 I3D [9]功能。对于ActivityNet，我们使用微调的TSN功能与[57，27]进行公平比较。对于THUMOS，我们使用TSN和I3D功能，这两个功能都是在Kinetics上预先训练的 [61] 。 ActivityNet/THUMOS 的时间维度 T 分别固定对于ActivityNet/THUMOS，我们首先在包括12个时期的未标记样本的训练集上预训练SPOT（分类流除外），然后以10−4/10− 5的学习率，10 − 3 /10 −5的weig htdecay微调SPOT 15 epo c hs。对于boundaries精化nt，我们设置top-k=40个片段，θ c/θ m设置为0。三分。7，e设为7。在半监督设置中，标签锐化算子τ被设置为1.1，τm被设置为0.7。在测试中，我们设置掩码 θ= 0 的阈值。 10. 9 ，步长为 0.1 。 SoftNMS 在ActivityNet/Thumos上执行，阈值为0。六比零。4.4.1比较结果设置我们介绍两种不同标签尺寸的SS-100设置对于每个数据集，我们随机选择10%或60%的训练视频作为标记集，剩余的作为未标记集。标记集和未标记集都可用于SS-SVM模型训练。竞争对手我们比较了以下方法。（1）两种最先进的监督网络方法：BMN [27]+UNet [54]和GMN [63]+UNet [54]（2）两种SSL+ SSL方法：由于SSL加密是一个新的问题，我们需要通过扩展现有的SSL方法来实现竞争对手的SSL加密。我们选择了两种顶级SSL方法（Mean Teacher [51]和FixMatch [47]），以及一种基于流行提案生成方法的最先进的SSL模型+v：mala2255获取更多论文[27]第二十七话47.6 31.7 7.5 31.5 50.8 45.9 34.8 23.7 16.3 34.3标签方法ActivityNetTHUMOS半监督的无命题掩码算法11M百分之六十SPOT（我们的）52.8 35.0 8.1 35.2 58.9 50.1 42.3 33.522.941.5[27]第二十七话35.4 26.4 8.0 25.8 38.3 28.3 18.8 11.45.620.5M百分之十SPOT（我们的）49.931.132.1 49.4 40.4 31.531.3表1：ActivityNet v1.3验证集和THUMOS 14测试集的SS-验证结果。注：除SPOT外的所有方法都使用UNet [54]，并使用100%的类标签进行建议分类;因此，与SPOT相比，这些方法受益于额外的分类监督* 仅使用标记的训练集。BMN [27]（使用TSN功能）和GCN [63]（使用I3D功能）。这两个模型都使用一个共同的未修剪视频分类模型UNet [54]。对于FixMatch [47]，我们使用时间翻转（即，向后播放视频）作为强增强，并且时间特征偏移作为弱增强。UNet，到期由于缺乏基于Caffe的训练环境，我们只能应用100%监督训练的官方权重5。（3）两种最近的半监督时间建议生成方法[23，57]。请注意，同时进行的SS-测试工作[46]没有给出可重现的实验设置，并阻止了精确的比较。此外，[46]在ActivityNet v1.2上仅实现了12.27%的平均mAP，而SPOT在v1.3上实现了32.1%（v1.2只有v1.3的一半类别，因此更简单），因此显著劣于两种比较方法[23，57]。结果SS-HPLC结果见表1和表4。我们进行以下观察：（1）在不利用未标记视频数据的情况下，最先进的全监督视频编码方法BMN [27]（使用UNet [54]）实现了在所有方法中效果最差。这清楚地表明，无标记数据的一致性和采用半监督学习的一致性好处-这（2）结合现有的方法（例如，，BMN [27]）与以前的SSL方法（例如，，Mean Teacher [51]和FixMatch [47]）确实有效地提高了模型的泛化能力。在我们的两个主要竞争对手SSP [23]和SS-100 [57]上也可以观察到类似的结果。尽管有这样的性能改进，但这些方法仍然受到建议错误传播问题的影响，这将限制它们利用5我们在https://github.com/wanglimin/UntrimmedNet上使用官方UNet权重。0.50.75 0.95 Avg0.30.40.50.60.7Avg[51]第51话48.0 32.1 7.4 31.9 53.5 45.0 36.9 27.4 19.0 35.8[47]第四十七话48.7 32.9 7.7 32.8 53.8 46.2 37.8 28.7 19.5 36.9[23]第二十三话49.8 34.5 7.0 33.5 53.2 46.8 39.3 29.7 19.8 37.8SSTAP [57]50.1 34.9 7.4 34.0 56.4 49.5 41.0 30.9 21.6 39.9[51]第51话36.0 27.2 7.4 26.6 41.2 32.1 23.1 15.07.023.7[47]第四十七话36.8 27.9 8.0 26.9 42.0 32.8 23.0 15.98.524.3[23]第二十三话38.9 28.7 8.4 27.6 44.2 34.1 24.6 16.99.325.8SSTAP [57]40.7 29.6 9.0 28.2 45.6 35.2 26.3 17.5 10.7 27.0+v：mala2255获取更多论文12 Nag等人。无标签视频（3）通过一种新的并行设计解决了这个问题，我们的SPOT在两个数据集上都达到了新的水平。值得指出的是，在较低的监督情况下（10%标签），SPOT比所有竞争对手都获得了更大的利润。例如，使用10%的标签，SPOT在ActivityNet/THUMOS上超过第二好的SSTAP 3.9%/4.3%一个合理的原因是，当标记集较小时，建议错误传播将变得更加严重，从而对现有的基于建议的方法造成更大的危害这验证了我们的模型公式在用于SS-1000的杠杆老化未标记视频数据中的总体功效和能力。（4）从表4中，我们观察到与使用TSN特征的BMN [27]相似的结果（表1）。我们的SPOT表现出现有的基线和SS-SPOT模型几乎相似的保证金，证实了我们的方法的优越性是特征不可知的。4.2进一步分析定位误差传播分析为了检查定位误差传播对以前的伪模型的影响，我们设计了一个概念验证实验，通过测量地面真实建议和伪建议之间的性能下降。由于无法访问UNet [54]的现已过时的训练环境，我们采用了具有BMN [27]的MLP分类器作为基线训练模型。对于我们的SPOT，我们对比了地面实况和伪掩模。这个实验在ActivityNet上进行了测试，有10%的监督。表2显示基于建议的VoIP基线遭受来自本地化的几乎两倍的性能降级（即，建议）错误，由于其顺序定位和分类设计。验证了SPOT并行设计的优越性表2：ActivityNet上的定位错误传播分析，10%监督。GT：地面实况。量度映射0.5平均值[27]第二十七话GT提案55.745.3伪建议32.4（↓21.3%）23.6（↓27.7%）现货GT口罩59.247.0伪面具49.9（↓9.3%）32.1（↓14.9%）模型预训练的有效性我们提出了一种两阶段的训练方法，其特征在于基于新的借口任务的模型预训练（第二节）。4.2）。现在我们来看看预训练如何帮助提高模型的准确性。在这里，我们在ActivityNet上采用具体地，我们检查三个损失条款：掩模预测损失（Lm），特征重建损失（Lrec），和时间位置损失（Ltp）。表3中的结果表明：（1）与随机初始化相比+v：mala2255获取更多论文✗✗✗46.230.5半监督的无命题掩码算法13我们的预训练将整体mAP提高了1。百分之六如图5所示，前景和背景特征的更明显的分离也支持这种增益。这验证了模型初始化的重要性和我们的借口任务的有效性。（2）所有损失项在单独或群组中均有效，表明它们具有良好的相容性和互补性。此外，我们评估了我们的预培训对BMN的一般影响[27]。我们从表10中观察到，它再次给出了0的良好增加。平均mAP为7%，证明了其通用性。图5：我们的模型预训练对随机ActivityNet视频的影响。表3：在ActivityNet上进行SPOT模型预训练的分析，标签监督为10%。Lm：掩模预测损失;Lrec：特征重构损失;Ltp：时间位置损失。训练前损失地图LmLrecLtp0.5平均值W/O我们的预培训（即随机初始化）W/O我们的预培训✓✗✗47.631.4✓ ✓✗48.531.7✓✗✓47.931.5✓ ✓✓49.932.1使用未标记数据的有效性我们评估了使用由预训练和损失项Lc（在等式1中）施加的未标记数据的影响（10））。表5显示，如果没有这些组件，模型的性能将下降，特别是在标签较少的情况下，正如预期的那样。特别是，两个SSL组件（预训练和Lc）在模型性能方面显然是有效的。这证明了他们的设计。此外，即使没有SSL模块，我们的模型在10%标签情况下也优于SSTAP [57]，在60%标签情况下也相当，进一步表明了我们模型设计的优势。+v：mala2255获取更多论文14 Nag等人。表4：SS-PCR结果在THUMOS 14测试集上使用I3 D特征;除SPOT外的所有方法都使用UNet [54];：仅使用标记集。标签方法mAP0.3 0.5 0.7匈牙利[63]50.935.4十六点五表 5 ：我们的 SPOT 模型在ActivityNet上的性能，w/和w/o未标记数据。标签SSL模块地图预训练Lc0.5Avg2019年12月31日百分之十✓45.3美元46.2分44.5岁29.830.528.3[63]第63话36.920.16.6百分之十[23]第二十三话：一个人的世界SSTAP [57]+甘精胰岛素42.123.8九点七43.125.5九点六45.327.5十一点零百分之六十✓✗✗✗✓✗51.752.151.234.434.934.0边界细化的精确性。 3.2我们引入了一个基于流间交互的改进组件，目的是减轻边界模糊问题。在这里，我们用10%的标记数据来检验它在ActivityNet上的性能提升效果除了整个利益，我们还测试了背景和前景项的各自影响，对应于方程的第一和第二损失项。（三）、表6表明：（1）我们的流间交互对于半监督学习中的优化是有效的，mAP增益为1.5%这验证了我们对边界推理重要性的考虑和我们的模型设计。（2）前景项和背景项都是单独有用的，并且重要的是呈现强协同作用，因为它们的组合效果（1.5%mAP增益）远大于它们各自增益的总和这并不奇怪，因为边界推理需要同时很好地对前景和背景进行建模。表6：在ActivityNet上使用10%标签监督的流间相互作用的分析精炼损失（方程式（三）地图前景项背景项0.5Avg✗✗46.830.7✓✓49.932.1✗✓47.231.1✓✗46.930.8不同损失的贡献我们消除了SPOT的训练损失函数对分类和掩码的影响3.3）。我们测试了分类损失（Lc）、加权二进制交叉熵掩码损失（Lmce）、✓✓52.835.2百分之六十[57]第四十七话：一个人的生活[23]53.438.9十九点一53.539.720.455.941.622.0SPOT（我们的）58.7 42.4 23.1+v：mala2255获取更多论文××半监督的无建议掩码15方块掩模损失（Ldice）、细化损失（Lref）和特征重构损失（Lrec）。当测试Lc时，我们用标准的交叉熵损失代替它。表7显示，每个损失项都有利于提高模型精度，验证其单独和集体功效。与完全监督分类方法的比较除了SS-分类，我们的SPOT也可以应用于完全监督分类，其中伪标签被地面真实标签替换，同时保持其余标签不变。本测试在ActivityNet上进行。表8显示，当使用完全标记的数据进行训练时，我们的SPOT在总体结果中也可以优于最先进的方法，尽管与半监督的情况相比，差距较小。这因为在完全监督的设置中，将存在较少的建议错误，因此其传播的危害较小表7：在ActivityNet上使用10%标签标注 SPOT客观损失项。Lc：分类损失;Lmce：交叉熵掩码损失 ;Ldice ：骰子掩码损失;Lref：细化损失;Lrec：特征重构损失。表8：ActivityNet验证集上的完全监督结果。所有比较的方法都使用了[57]方法mAP0.50.75 0.95平均值BSN [28]46.4 29.9 8.0 30.0[66]第六十六话 50.3 34.6 9.0 34.0BC-GNN [2]50.6 34.8 9.4 34.3BMN [27]50.0 34.8 8.3 33.8BSN++[49]51.2 35.7 8.3 34.8TCANet [43]52.2 36.7 6.8 35.5[48]第四十八话 51.8 36.8 8.7 35.6现货53.935.8训练和推理复杂性我们将SPOT与代表性的训练方法BMN [27]与我们的预训练和最近的SS-训练方法SSTAP [66]进行了比较。所有的方法都在相同的训练设置和同一台机器上使用一个Nvidia 2080 Ti GPU进行测试。我们在测试中测量整个训练时间（包括预训练）和每个视频的平均推理时间。我们使用[ 57 ]中使用的双流视频功能。从表9中可以看出，尽管进行了预训练和微调，我们的SPOT仍然快得多，例如。，31/35用于培训，2. 3，分别与SSTAP/BMN进行比较。这验证了我们的动机，设计一个无命题的SS-STRM模型的计算效率。位置编码的作用我们评估位置编码对ActivityNet的影响。如表11所示，有趣的是，位置编码是不必要的，甚至对性能有害。这表明，与我们目前的公式，片段级的时间信息并没有带来额外的有用信息。损失地图0.5平均值所有49.932.1W/OLc45.329.8W/OLmce47.831.5W/OL骰子47.031.2W/OL记录45.930.2W/OL参考46.830.7+v：mala2255获取更多论文16 Nag等人。表9：单个gpu上训练和推理时间的比较表10：预训练对具有10%标签的ActivityNet方法mAP0.5平均值BMN+ UNet [54] 35.4 25.8BMN+UNet [54]36.2 26.3预训练损失在微调中的影响回想一下，我们在微调阶段不使用预训练损失Ltp（用于时间排序借口任务），如第3.3节所示。表12显示了0. 2%的平均mAP从这个文本前的损失，这可能是由于不兼容的分类损失Lc的ESTA。这在预训练-微调管道中并不罕见，在微调期间会降低借口损失。表11：ActivityNet W/ 10%标签上的位置编码。表12：微调期间预训练丢失的消融W/ 10%标签在ActivityNet上。处理类不平衡挑战在主论文的第3.3节中，我们引入了一个新的类平衡损失来处理SS-100中的类不平衡问题。我们根据错误率对与ActivityNet上的前10个尾部类相对应的视频进行评估。不平衡问题的出现主要是由于特定类的片段覆盖（图6（b）），我们在图6（a）中看到与错误率的高度相关性。重要的是，使用我们的类平衡损失，严重不平衡的“喝咖啡”类的错误率百分之二十。5定性分析在本节中，为了进行更多的视觉检查，我们提供了SSTAP [57]和SPOT模型的附加定性结果，用于ActivityNet和THUMOS数据集上10%和60%的可用数据变量。从图7中的说明，我们有一个类似的观察，与SSTAP相比，我们提出的SPOT方法可以更准确地定位目标动作实例，方法培训（小时）推断#位置地图预训练微调(in秒）损失W/OLtpW/LtpAvg32.131.9BMN [27]4.06.20.21SSTAP [57]-9.40.21现货0.100.210.09编码0.5Avg无编码49.932.1可学习46.729.4不可学习39.

下载后可阅读完整内容，剩余1页未读，立即下载