基于全局分割模板学习的无命题时间动作检测

163 浏览量更新于2023-11-30 收藏 1.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文∼基于全局分割模板学习的无命题时间动作检测Sauradip Nag1， 2，Xiatian Zhu1， 3，Yi-Zhe Song1， 2，和Tao Xiang1， 21CVSSP，英国萨里大学iFlyTek-Surrey人工智能联合研究中心，英国3英国萨里大学萨里以人为本的人工智能研究所{s.nag，xiatian.zhu，y.song，t.xiang} @ surrey.ac.uk抽象的。现有的时间动作检测（Temporal Action Detection，简称TACT）方法依赖于为每个视频生成大量的建议。这导致由于提议生成和/或每提议动作实例评估而导致的复杂模型设计以及由此产生的高计算成本。在这项工作中，我们第一次提出了一个建议免费的时间间隔A检测模型，通过G？S分割掩模（TAGS）。我们的核心思想是在整个视频长度上联合学习每个动作实例的全局分割掩码。TAGS模型与传统的基于建议的方法有很大的不同，它专注于全局时间表示学习，直接检测动作实例的局部起点和终点，而无需建议。此外，通过整体建模，而不是在个人的建议水平，TAGS需要一个更简单的模型架构，具有较低的计算成本。大量的实验表明，尽管其简单的设计，TAGS优于实验方法，实现新的国家的最先进的性能在两个基准。重要的是，它的训练速度快20倍，训练速度快100倍。推理效率提高6倍我们的PyTorch实现TAGS可以在https://github.com/sauradip/TAGS上找到。1介绍时间动作检测（Temporal Action Detection，简称TACT）的目的是识别动作的时间间隔（即时间间隔）。起始点和结束点）和未修剪视频中所有动作实例的类标签[16，5]。所有现有的锚定方法都依赖于通过回归预定义的锚定框[42，8，15，22]（图1（a））或直接预测建议的开始和结束时间[18，4，19，46，27，44，45]（图1（b））来生成建议以提案为中心，现有的视频处理方法基本上采取视频的局部视图，并专注于每个单独的提案，用于动作实例的时间细化和分类。因此，这种方法受到几个基本限制：（1）通常需要过多（有时是详尽无遗）的建议，以良好的性能。例如，BMN [18]通过对预测的开始点和结束点进行详尽配对，为每个视频生成5000个建议。生成和评估如此大量的提案意味着很高的计算成本arXiv：2207.06580v2 [cs.CV] 2022年8月+v：mala2255获取更多论文2Nag等人图1：所有现有的搜索引擎方法，无论是（a）基于锚点的还是（b）无锚点的，都需要生成行动建议。相反，（c）我们的全局分割掩码模型（TAGS）是无建议的。用于训练和推理。（2）一旦生成建议，随后的建模对于每个单独的建议是本地在整个视频上丢失全局上下文可能导致次优检测。在这项工作中，第一次，我们提出了一个无提案的可移植模型来解决这些限制。我们的模型，称为TAGS，学习了完整视频长度的动作实例的全局分割掩码（图1（c））。通过全局建模而不是局部建模，TAGS不仅消除了对提案生成的需求具体地，代替预测每个动作实例的开始/结束点，TAGS学习预测整个视频的动作分割掩码。这样的掩码表示视频中所有动作实例的全局时间结构;因此，TAGS本质上是全局上下文感知的。我们的TAGS采用了一种无提案的方法来进行建模，比现有的方法具有更简单的模型架构设计。具体来说，它需要每个本地snip- pet（即，视频的连续帧的短序列）作为预测单元。也就是说，以给定视频的片段特征表示作为输入，TAGS直接输出目标动作分割掩码以及类标签。为了促进全局上下文建模，我们利用自我注意力[36]来捕获必要的视频级片段间关系。一旦掩模被生成，简单的前景段分类之后，产生最终的结果。为了促进全局分割掩码学习，我们进一步引入了一种新的边界聚焦损失，它更加关注时间边界区域，并利用掩码预测冗余和分支间一致性来增强预测。在推理过程中，一旦预测了掩码和类别标签，就可以通过非最大抑制（NMS）选择具有精细边界的最高得分段，以产生最终的搜索结果。我们做出以下贡献。（1）提出了一种基于全局分割模板（TAGS）学习的无命题学习模型据我们所知，这是第一个消除提案生成/评估需求的模型。因此，它具有比现有替代方案更简单的模型设计和更低的计算成本。（II）我们使用自我注意力改进了全局时间上下文的特征表示学习，+v：mala2255获取更多论文×通过全局分割掩码3实现上下文感知的（III）为了增强时间边界的学习，我们提出了一种新的边界聚焦损失函数，以及掩模预测恢复和分支间一致性。（IV）实验表明，本文提出的TAGS方法在两个数据集（ActivityNet-v1.3和THUMOS'14）上都有较好的性能重要的是，我们的方法在训练/推理方面也明显更有效。例如，它在训练和推理方面分别比G-ANN [462相关作品虽然所有现有的预测方法都使用建议，但它们在如何生成建议方面有所不同。基于锚点的建议学习方法这些方法基于一组预定的锚点生成建议。受物体检测启发在静态图像[30]中，R-C3 D [42]建议使用锚框。它遵循了设计中建议生成和分类通过类似的模型设计，TURN [15]聚合局部特征来表示片段级特征，然后将其用于时间边界回归和分类。后来，GTAN [22]改进了建议特征池过程，使用可学习的高斯内核进行加权平均。PBR-Net [20]使用基于金字塔锚的检测和使用帧级特征的细粒度细化来提高检测性能。G-Cable [46]通过图卷积网络学习语义和时间上下文，以更好地生成建议。MUSES [21]通过处理由镜头变化引起的实例内变化VSGN [50]专注于跨尺度多级金字塔架构中的短动作检测请注意，这些锚框通常是穷举生成的，因此数量很大。这些方法不使用预先设计和固定的锚框，而是直接学习预测时间建议（即，，开始和结束时间/点）[52，19，18]。例如，SSN [52]将动作实例分解为三个阶段（开始，过程和结束），并采用结构化时间金字塔池来生成建议。BSN [19]预测每个时间位置的开始，结束和动作，并使用具有高开始和结束概率的位置生成建议。后来，BMN [18]还生成了一个边界匹配置信度图，以改进提案生成。BSN++ [34]进一步扩展了BMN，使用互补的边界生成器来捕获丰富的上下文。CSA [33]通过注意转移丰富了提案的时间背景。最近，ContextLoc [56]通过在提议级别调整全局上下文并处理上下文感知的提议间关系来进一步推动边界。虽然不需要预定义的锚框，但这些方法通常必须穷尽地配对预测具有高分的所有可能位置。因此，基于锚点的和无锚点的两种方法都有大量的时间建议需要评估。这导致模型设计复杂、计算量大、缺乏全局上下文建模.我们的TAGS旨在通过无提案解决所有这些限制。+v：mala2255获取更多论文∈∈SsS4 Nag等人。图 2 ：我们的无建议时间间隔检测模型的架构，通过 G/S 分段掩码（TAGS）。给定未修剪的视频，TAGS首先使用预先训练的视频编码器（例如，，I3D [7]），并在多个时间尺度s上进行自主学习，以获得具有全局上下文的片段嵌入。随后，对于每个片段嵌入，TAGS对不同的动作进行分类（输出PsR（K+1）×T，其中K是动作类编号），并在双分支设计中同时预测全视频长的前景掩码（输出MsRT ×T）。在训练过程中，TAGS最大限度地减少了类和掩码预测与地面实况的差异。为了更准确的定位，一个有效的边界细化策略，进一步引入，随着掩码预测冗余和分类掩码一致性正则化。在推断期间，TAGS从分类输出P中选择得分最高的片段，然后在每个尺度下对M中的对应前景掩模进行阈值化，然后将它们聚合以产生动作实例候选。最后，应用softNMS去除冗余候选。Self-attention 我们的片段表示是基于 self-attention 学习的，这在Transformers中首次引入，用于自然语言处理任务[36]。在计算机视觉中，非局部神经网络[41]将transformers的核心自注意力块应用于上下文建模和特征学习。通过使用这种注意力模型，在分类[13]、自监督学习[9]、语义分割[49，53]、对象检测[6，48，55]、少量动作识别[28，54]和对象跟踪[10最近的几部作品[35，40，29，26，25，27，24]也使用了变形金刚。他们专注于时间提案生成[35]或细化[29]。在本文中，我们证明了自我注意力的有效性，在一个新的无提案的可扩展架构。3无建议全局分割掩码我们的全局分割掩模（TAGS）模型将未修剪的视频作为输入具有可变帧数的V视频帧由要素进行预处理+v：mala2255获取更多论文j=1∈∈∈联系我们我X1nh通过全局分割掩码5实现编码器（例如，，Kinetics预训练的I3D网络[7]）按照标准实践[18]转化为一系列为了训练模型，我们收集一组标记的视频训练集Dtrain={Vi，Vi}。每个视频Vi被标记为时间分割i={（j，j，yj）}Mi，其中j/j表示开始/结束时间，yj是动作类别，Mi是动作实例数。架构如图所示2、TAGS模型有两个关键组成部分：(1)自关注片段嵌入模块，其学习具有全局时间上下文的特征表示（Sec.3.1），以及（2）分别具有用于每片段多类动作分类和二进制类全局分割掩码推断的两个分支的时间动作检测3.2）。3.1自注意多尺度片段嵌入给定一个不同长度的未修剪视频V，按照标准实践[46，18]，我们首先在整个长度上对T个等距分布的时间片段（点）进行采样，并使用Kinetics预训练的视频编码器（例如，，双流模型[38]）以在片段级别提取RGBXrRd×T和光流特征XoRd×T，其中d表示特征维度。然后我们将它们连接为F=[Xr;Xo]R2d×T。每个片段都是一个短序列（例如，在我们的情况下是16个）连续帧。虽然F包含局部时空信息，但它缺乏对可重构性至关重要的全局上下文。因此，我们利用自我注意力机制[36]来学习全球背景。形式上，我们将Transformer编码器的Q/K/V设置为特征F/F/F。为了有效地对更精细的动作细节进行建模，我们考虑了层次结构中的多个时间尺度我们从最好的时间分辨率开始（例如，，采样T= 800个片段），通过具有内核大小k、步幅s和填充p的时间池化P（θ）逐渐减小。为了提高效率，我们首先应用一个分层的时间规划：Q_s=P（Q;θQ），K_s=P（K;θK）和V_ s=P（V;θV），尺度为s一二四然后，自声明As=F+softmax（FWQs（FWKs）（a）（f）（其中，WQs、WKs、WVs是可学习的参数。在多头攻击（MA）设计中，对于每个尺度s，我们将一组n h个独立的头A i组合起来，形成一个更丰富的学习过程。在尺度s处的片段嵌入E被获得为：SEs= MLP（[As·· ·As]）∈RT×C.（二更）MA多层感知器（MLP）块具有一个具有剩余跳过连接的全连接层在MA和MLP块之前应用层范数默认情况下我们使用nh3.2并行动作分类和全局分割掩蔽该算法由两个并行分支组成：一个用于多类动作分类，另一个用于二进制类全局分割掩码推理。+v：mala2255获取更多论文∈∈C∈B∈6 Nag等人。给定第t个片段Es（t）Rc（即Es的第t列），我们的分类分支预测它属于K个目标动作类或背景之一的概率ptR（K+1）×1。这是通过一个1-D卷积层Hc实现的，然后是softmax归一化。由于视频已经被编码为T1时间片段，所以分类分支的输出可以按列方式表示为：Ps：=so ftmax（H（Es））∈R（K+1）×Ts.（三）全局分割掩码推理与分类分支并行，该分支旨在为每个动作实例预测全局分割掩码一段视频。每个全局掩码都是特定于操作实例的，并且与类无关。对于训练视频，单个动作实例的所有时间片段都被分配有相同的1D全局掩码∈RT×1，用于模型优化（参见图10）。3（a））。对于每个片段Es（t），它输出掩码预测mt=[q1，···，qT]∈RTs×1第k个元素q k[ 0，1]表示第k个的前景概率以第t个片段为条件的片段。该过程由三个1-D conv层的堆栈实现为：Ms：=sigmoid（H（Es））∈RTs×Ts，（4）其中，M的第t列是第t列处的分割掩码预测。th snippet。利用所提出的掩码信号作为学习监督，我们的TAGS模型可以促进上下文感知的表示学习，这对训练准确性带来了明显的好处（见表4）。备注：伪距[18，52]是一种流行的定位方法，它预测R T ×1形状的单个掩模。动作性和TAGS之间有几个关键的区别：（1）我们的每片段掩码模型TAGS关注每个片段每个掩码的单个动作实例，以便掩码的所有前景部分是内在相关的;相反，行动性不是。(2)TAGS将单个多实例1D动作性问题分解为多个1D单实例掩码问题（参见图3（a））。这需要采取分而治之的策略。通过在不同的时间位置明确分割前景实例，TAGS将基于回归的动作性问题转换为位置感知分类任务。与特定时间t相关联的每个掩码聚焦于单个动作实例。另一方面，将预测一个动作实例多个连续的面具。这种预测性冗余可通过NMS轻松移除，为准确检测提供了丰富的机会。 (3)在学习2D动作图的同时，BMN [18]依赖于预测1D概率序列，这些概率序列具有很高的噪声，导致许多错误警报。此外，它的置信度评估不能模拟候选人之间的关系，而我们的TAGS可以（等式10）。（七））。最后，我们在表8中的实验验证了TAGS优于动作性学习。3.3模型训练Ground-truth标签为了训练TAGS，需要将地面实况安排成设计的格式。具体地说，给定一个训练视频与时间-+v：mala2255获取更多论文∈∈C1y1y|kN|kϵNM（m，g）（m，g）+C2（六）通过全局分割掩码7实现标签分配推理策略图3：标签分配和模型推断的示例（详见正文）。间隔和类标签（图3（a）），我们用相同的操作类标记单个操作实例的所有片段（橙色或蓝色方块）。动作间隔之外的所有片段都标记为背景。对于特定实例的动作片段，其全局掩码被定义为该动作实例的视频长度二进制掩码。每个掩码都是特定于动作实例的。特定操作实例的所有片段共享相同的掩码。例如，所有橙色片段（图3（a））都被分配了一个T长度的掩码（例如，m24到m38），其中一个在[q24，q38]的区间中。学习目标。分类分支通过基于交叉熵的焦点损失和类平衡逻辑回归损失的组合进行训练[12]。对于训练片段，我们将y表示为基础真值类标签，p表示为分类输出，r表示为通过在等式中的Hc上应用sigmoid而获得的每类回归输出。（3）（在推理时丢弃）。然后，分类分支的损失被写为：L=λ（1−p（y））γlo g（p）+（1−λ）。log（r）−α<$（log（1−r（k）<$，（5）其中γ=2是焦点度参数，α=10是类平衡权重，N指定大小为K/10的一组硬负类，其中K是拓扑作用类数。我们设置损失权衡参数λ1= 0。4.为了训练分割掩码分支，我们结合了[23]中的新边界IOU（bIOU）损失和骰子损失，分别对两种类型的结构化受边界IOU度量[11]的启发，bIOU被特别设计为惩罚不正确的时间边界预测w.r.t.地面实况分割掩模。形式上，对于片段位置，我们将mRT×1表示为预测的分割掩码，gRT×1表示为真实掩码。整体分割掩模损失被公式化为：L=1−。（m，g）+ 1+λ。1−Σ姆巴格.但是，不t=1m（t）2+g（t）2+v：mala2255获取更多论文∩ ∩ ∪ ∪·--SLei=1SeSSe8 Nag等人。图4：（a）地面实况标签和（b）预测的示例以及探索（c）掩模预测冗余的图示（等式4）。（d）分类掩码一致性（（等式（7）（9））。其中（m，g）=Φ（m）Φ（g）和（m，g）=Φ（m）Φ（g），Φ（）表示大小为k的核（在我们的默认设置中为7，请参阅补充中的更多分析）。用作掩模上的可微分形态学侵蚀操作[31]，并且c指定地面真实掩模长度。在预测掩模和真实掩模之间没有边界重叠的情况下，我们使用归一化的L2损失。常数ε= e−8是为了数值稳定性而引入的。我们设置权重λ2= 0。4.掩模预测冗余虽然掩模损失Eq. 上面的（6）将全局掩码视为2D二进制掩码预测问题，它不能总是调节动作实例内的各个1D掩码的行为具体地，对于时间t处的预测掩模m t，以特定阈值θ j∈ Θ对其进行阈值化可以产生前景和背景的二值化片段：其中，qi和qi表示第i段的开始和结束，并且zi∈{0， 1} indi。显示背景或前景。对于对应于动作片段的掩码理想地，这些π[j]中的至少一个应该更接近于基本事实。为了探索这种冗余，我们定义了一个具有外部-内部对比度的预测评分标准[32，17]，如下所示：1Σqiqi−1qi+δli11秒e秒R（π[j]）=L lui（r）−δl+δlui（r）+ui（r）i=1ir=qi我我r=qi−δlr=qi+1`因斯伊特鲁德x`。我其中ui（r）=+v：mala2255获取更多论文m t [r]，如果z i= 1（即，，前景）1−mt [r]，否则outsidex（七）li=qi−qi+ 1是第i个片段的时间长度，δ是权重超参数设置为0.25。我们用最大eS+v：mala2255获取更多论文∗−∗--pp不不2通过全局细分掩码9实现分数为j=argmax（R（π[j]））（见图4（c））。更高的R（π[j<$]）意味着更好的预测。为了鼓励这种最佳预测，我们设计了一个预测提升损失函数：L=. 1−R（π[j<$]）<$β<$m-g<$，（8）其中，我们设置β= 2以惩罚较低质量的预测。我们平均这种损失跨每个训练视频的每个动作实例的所有片段。分类-掩码一致性在TAGS中，通过设计，在类和掩码标签之间的前景方面存在结构一致性（图4（a））。为了利用这种一致性，我们将特征一致性损失公式化为：Lfc= 1−cosine。Fclf，Fmask，（9）其中F=topk（argmax（（PbinEp）[：K，：]））是从最高得分的前景片段获得的特征，所述前景片段从阈值化分类输出P bin：θ c），其中θ c为阈值，E p通过传递将E嵌入到一维卷积层中以匹配P的维度。其中M bin：= η（M-θ m）是掩码预测M的二进制化，E m是通过将嵌入E传递到1D卷积层中以匹配M的维度而获得的，是逐元素乘法，η（. ）是二值化函数，σ是sigmoid激活。我们的直觉是，在分类和掩蔽过程之后，前景特征应该更接近和一致（参见图1）。4（d））。训练TAGS的总目标损失函数定义为：L=L c+ L m+L pp+ L fc。该损失是针对每个时间尺度s计算的最后聚集在所有的尺度上。3.4模型推断我们的模型推理与现有的神经网络方法类似[18，46]。给定测试视频，在每个时间尺度s处，动作实例预测首先基于分类Ps和掩码Ms预测单独地生成，并且被组合用于随后的后处理。从P的最高得分片段开始（图3（b）），我们通过对M的相应列（图3（d））进行阈值处理来获得它们的分割掩码预测（图3（c））。为了生成足够的候选，我们应用多个阈值Θ=θ i以产生行动候选人有不同的长度和信心。对于每个候选，我们通过将分类分数（从P中的对应的最高分数片段获得）和分割掩码分数（即，M中的平均预测前景段）。最后，我们将SoftNMS [3]应用于得分最高的候选人，以获得最终的预测。4实验数据集我们在两个流行的JavaScript基准上进行了大量的实验(1)ActivityNet-v1.3[5]有来自200个动作类的19，994个视频我们遵循+v：mala2255获取更多论文关于我们−类型模型BKBTHUMOS14ActivityNet-v1.310 Nag等人。公司简介锚钉GTANPBR-Net缪斯i3D 68.9 64.056.9 46.3 31.053.450.034.96.534.0VSGNi3D66.7 60.4 52.4 41.0 30.4 50.1 52.3 36.08.335.0BMNTS56.0 47.4 38.8 29.7 20.5 38.5 50.1 34.88.333.9DBGTS57.8 49.4 42.8 33.8 21.7 41.1----G-10TS54.5 47.6 40.2 30.8 23.4 39.3 50.4 34.69.034.1布塔尔i3D53.9 50.7 45.4 38.0 28.5 43.3 43.5 33.99.230.1企业简介TS59.9 49.5 41.3 31.9 22.8-51.2 35.78.334.8ACTN甘精胰岛素+CSATS58.4 52.8 44.0 33.6 24.2 42.6 51.8 36.8 8.735.7BC-GNNTS57.1 49.1 40.4 31.2 23.1 40.2 50.6 34.89.434.3TCANetTS60.6 53.2 44.6 36.8 26.7-52.2 36.76.835.5ContextLoci3D68.3 63.8 54.3 41.8 26.2-56.0 35.23.534.2RTD-Neti3D68.3 62.3 51.9 38.8 23.7-47.2 30.78.630.8混合 A2Neti3D 58.6 54.1 45.543.628.73.7二十七点八甘精胰岛素+PGCNi3D66.4 60.4 51.6 37.6 22.9 47.8----标签（我们的）i3D68.6 63.8 57.0 46.3 31.852.856.3 36.8 9.6 36.5PF标签（我们的）TS61.4 52.9 46.5 38.1 27.0 44.0 53.736.19.5 35.9表1：与THUMOS 14和ActivityNet-v1.3上最先进方法的性能比较结果通过不同IoU阈值下的mAP测量，并且平均mAP在THUMOS 14上为[0.3：0.1：0.7]，在ActivityNet-v1.3上为[0.5：0.05：Actn =成功; PF =无提案;Bkb =骨干。标准设置将所有视频以2：1：1的比例（2）THUMOS 14[16]有来自20个类别的200个验证视频和213个测试视频，标记了时间边界和动作类。实现细节我们使用两个预提取的编码器进行特征提取，与以前的方法进行公平的比较。一个是微调的双流模型[18]，下采样率为16，步幅为2。每个视频的特征序列F被重新缩放为T = 800 / 1024片段，用于使用线性插值的ActivityNet/THUMOS。另一个是Kinetics预训练的I3D模型[7]，下采样率为 5 。我们的模型使用 Adam 训练了 15 个 epoch ，对于ActivityNet/THUMOS的学习率分别为10 −4/10 −5。 ActivityNet的批量大小设置为50，THUMOS的批量大小设置为25。对于分类掩码一致性，阈值θm/θ p设置为0。5/0。3和在顶部k到40。在测试中，我们设置掩码Θ=0的阈值。10. 9步骤0。05.公司现采用国际在训练期间，对于掩码预测冗余，具有相同的阈值Θ集合0.30.40.50.60.7 Avg. 0.50.75平均值0.95C3d 44.8 35.6 28.9---26.8---i3D53.2 48.5 42.8 33.8 20.8 39.8 38.2 18.31.320.2P3d 57.8 47.2 38.8---52.6 34.18.934.3i3D58.5 54.6 51.3 41.8 29.5-53.9 34.98.935.0+v：mala2255获取更多论文××通过全局分割掩码实现无建议的匿名化114.1主要结果ActivityNet上的结果从表1中，我们可以观察到以下几点：（1）具有I3D特征的TAGS在平均mAP方面取得了最好的结果。尽管我们的模型在架构设计上比现有的替代方案简单得多这验证了我们的假设，即通过适当的全局上下文建模，显式建议生成不仅是冗余的，而且效率较低。（2）当使用相对较弱的双流（TS）特征时，我们的模型仍然具有竞争力，甚至超过了基于I3 D的 BU-TAL [51]，A2 Net[47]和最近的ContextLoc [56]和Muses [21]都有很大的差距。TAGS还超过了关于平均mAP的提议细化和基于强G-SVM的方法CSA [33]。(3)与RTD-Net相比，真的类似于物体检测变压器，我们的标签是显着优越。这验证了我们的模型公式，在利用Transformer的可扩展性。THUMOS 14上的结果从表1中可以得出大致相似的结论。当使用TS功能时，TAGS再次取得了最佳效果，以明显的优势击败了TCANet [39]，CSA [33]等强大的竞争对手。有一些明显的区别：（1）我们发现I3D现在比双流（TS）更有效，例如，，平均mAP比TS增加8.8%而在ActivityNet上，这一比例为0.6%。这很可能是由两个数据集在动作实例持续时间和视频长度方面的独特特征引起的。(2)我们的方法实现了第二个最好的结果，边缘在MUSES之后[21]。这部分是由于缪斯从额外处理场景变化中受益。(3)我们的模型在更严格的IOU指标（例如，，IOU@0.5/0.6/0.7）一致地使用TS和I3 D特征，验证了解决掩码冗余的有效性。设计一个无建议的推理机模型的一个关键动机是减少模型训练和推理成本。为了进行比较评估，我们使用其发布的代码，根据两种代表性的最新的并行方法（BMN [18]和G-Risk [46]）评估了TAGS。所有在具有一个Nvidia2080TiGPU的同一机器上测试这些方法。我们测量训练中的收敛时间和测试中每个视频的平均推理时间。使用了双流视频特征。从表2中可以看出，我们的标签速度快得多，例如，，20/25的训练和明显更快- 1。六比一8，分别与G-BMN/BMN进行比较。我们还注意到，我们的TAGS需要更少的时期来收敛。表3还显示，我们的TAGS具有最小的FLOP和最少的参数数。4.2消融研究和进一步分析变形金刚与 CNN我们比较了我们的多尺度Transformer与CNN的片段嵌入。我们考虑两种CNN设计：（1）具有3个膨胀率（1，3，5）的1DCNN，每个膨胀率具有2层，以及（2）多尺度MS-TCN [14]，以及(3)标准单刻度Transformer [36]。表4显示，变压器明显优于1D-CNN和相对更强的MS-TCN。这表明我们的全局分割掩码学习与+v：mala2255获取更多论文12 Nag等人。表2：模型训练和测试成本分析。表3：模型参数#和FLOP的分析。模型时代火车测试模型参数（单位：M）浮点数（单位：G）自我注意模型，由于更强的上下文学习能力。此外，使用Transformer的多尺度学习给出了0. 平均mAP增加4%，验证了较大片段的重要性。如表5所示，从200个片段开始，增益几乎饱和，更精细的尺度只会增加计算成本。表4：ActivityNet上Transformer与CNN的消融。表5：片段嵌入设计和多个时间尺度上的消融。{1}1002.90.0955.8 36.1{1，2} 100，2006.20.1256.336.5100，200，400 9.8 0.1656.536.4基于提案的与我们将我们的无建议TAGS与传统的基于建议的搜索方法BMN [2]（无锚点）和R-C3 D进行了比较。[42]（基于锚点）通过假阳性分析[1]。我们根据分数对预测进行排序，并对每个视频进行最高分的预测。考虑两个主要的误差：（1）定位误差，其被定义为当建议/掩模被预测为前景时tIoU阈值。(2)背景错误，当建议/掩码被预测为前景，但其与地面实况实例的tIoU小于0.1.在这个测试中，我们使用ActivityNet。我们在图5中观察到，TAGS在每个预测量下都具有最真实的阳性样本。使用TAGS的定位误差比例也明显较小，这是提高平均mAP的最关键指标[1]。这解释了TAGS优于BMN和R-C3 D的原因。改进方向分析其中涉及两个子任务- 时间定位和动作分类，其中每一个都会影响最终性能。由于TAGS中的两个分支设计，一个子任务的性能影响可以通过在测试时简单地将地面实况分配给另一个子任务的输出来单独检查。从表7中可以看出：（1）这两个子任务仍有很大的改进空间网络地图规模片段参数推断mAPBMN136.45小时0.21秒G-10114.91小时0.19秒BMN加雷什5.09.591.297.2标签6.217.8标签90.26小时0.12秒0.5 Avg(inM）的(in秒）0.5Avg一维CNN46.8 26.4MS-TCN53.1 33.8Transformer55.8 36.1MS-变压器56.3 36.5+v：mala2255获取更多论文标签（完整）56.3 36.5标签（完整）56.336.5通过全局分割掩码实现无建议的匿名化13图5：ActivityNet上TAGS、BMN和R-C3 D的假阳性特征我们对每个视频使用最多10G的预测，其中G是地面实况动作实例的数量。(2)关于来自其他子任务的改进的益处，分类子任务似乎在mAP@0.5处获得最多，而定位任务可以在平均mAP度量上获得更多益处。总体而言，该分析表明，进一步提高分类子任务的有效性将对最终模型性能产生更大影响。我们可以在表6中看到，如果没有提出的分割掩码分支，模型将显着退化，例如。，平均mAP下降7.6%。这是由于它的基本建模能力动作实例的全局时间结构，从而产生更好的动作时间间隔。此外，对于TAGS，我们使用预训练的UntrimmedNet（UNet）[37]作为外部分类器，而不是使用分类分支，从而产生2阶段方法。这导致性能下降4.7%，表明分类和掩码分支对于模型的准确性和效率至关重要。表6：对TAGS在ActivityNet上的两个分支机构的分析。表7：ActivityNet上TAGS的改进分析模型地图模型地图不带面罩分支45.8 28.9w/o Class Branch +UNet49.7 31.8+ 地面实况类+ 地面实况掩模61.069.243.8（↑7.（3%）48.5（↑12.0%）全局掩码设计我们将我们的全局掩码与之前的1D动作掩码进行比较[18，43]。我们通过重新制定掩码分支来输出1D动作性，从而将动作性与TAGS集成在一起。从表8中的结果，我们观察到11的显著性能下降。5%（mAP@0.5IOU）。一个原因是由动作性产生的动作候选的数量是非常有限的，0.5 Avg0.5Avg+v：mala2255获取更多论文14 Nag等人。图6：成对特征相似性。表8：ActivityNet数据集上TAGS的掩码设计分析。掩模设计地图Avg不规则性44.827.130我们的全球面具56.3 36.5250导致记忆力差。此外，我们可视化余弦相似性得分所有片段特征对的随机ActivityNet val视频。所示图6，与多实例动作性设计相比，我们的单实例掩模（全局掩模）设计学习了更多有区别的特征表示，背景和动作之间的分离更大。这验证了我们的设计在联合学习多个每个片段的焦点掩码方面的有效性在一个单一的行动实例。5限制通常，持续时间与片段长度相似或小于片段长度的短前景和背景片段将挑战基于片段的分割方法。例如，在两个前景实例之间给定短背景，我们的TAGS可能会错误地将其预测为前景的一部分此外，给定具有混合背景和前景的在这种情况下，地面实况注释涉及不确定性，但迄今为止较少注意和研究。6结论在这项工作中，我们提出了第一个建议免费的全局分割掩码（TAGS）学习的模型。而不是通过预定义的锚产生，或预测许多开始-结束对（即，，时间建议），我们的模型被设计为直接估计动作实例的完整视频长度的分割掩模。因此，通过更有效的训练和推理，大大简化了模型设计。通过我们的TAGS学习，我们进一步证明了学习全局时间上下文对学习是有益的。大量的实验验证了所提出的TAGS在两个测试基准上产生了新的最先进的性能，并且在模型训练和推理方面具有明显的效率优势。0.5Avg面具/视频+v：mala2255获取更多论文通过全局分割掩码实现无建议的匿名化15引用1. Alwassel，H.，海尔布隆足球俱乐部埃斯科西亚，五，Ghanem，B.：诊断时间动作探测器中的错误。In：ECCV. pp. 2562. Bai，Y.，（1996年），美国，王玉，Tong，Y.，杨，Y.，刘昆，Liu，J.：边界内容图神经网络用于临时行动建议生成。In：ECCV. pp. 121-137. 施普林格（2020）123. Bodla，N.，辛格湾，切拉帕河戴维斯，L.S.：用一行代码改进对象检测。在：IEEE计算机视觉国际会议论文集。pp.第55614. Buch，S.，埃斯科西亚，五，沈，C.，Ghanem，B.，Carlos Niebles，J.：单流临时行动建议。在：CVPR（2017）15. Caba Heilbron，F.，埃斯科西亚，五，Ghanem，B.，Carlos Niebles，J.：Activitynet：用于人类活动理解的大规模视频基准。在：CVPR。pp. 9616. Carion ， N. ， Massa ， F. ， Synnaeve ， G. ， N.C. ， Kirillov ， A. ，Zagoruyko，S.：使用变压器的端到端对象检测。在：ECCV（2020）47. Carreira，J.，Zisserman，A.：你好，动作识别？新模型和动力学数据集。IEEE计算机视觉与模式识别会议论文集。pp. 62998. Chao，Y.W.，Vijayanarasimhan，S.，Seybold，B.，地方检察官罗斯邓，J.，Sukthankar，R.：重新思考用于时间动作定位的更快r-cnn架构。在：CVPR（2018）19. 陈美，Radford，A.，查尔德河，吴，J.，Jun，H.，Dhariwal，P.，Luan，D.，Sutskever，I.：从像素生成预训练。在：ICML（2020）410. 陈旭，严，B.，Zhu，J.，Wang，D.，中国科学院，杨，X.，Lu，H.：Transformer跟踪。在：CVPR（2021）411. Cheng ng，B.， Girshi ck，R.，多尔拉尔山口，伯格，AC， Kirill ov，A.：边界IOU：改进以对象为中心的图像分割评估。在：CVPR。pp.1533412. Dong，Q.，Zhu，X.，龚，S.：基于深度逻辑回归的单标签多类图像分类。在：AAAI。第33卷，第348613. Dosovitskiy，A.，拜尔湖，Kolesnikov，A.，Weissenborn，D.，Zhai，X.，Unterthiner，T.，Dehghani，M.，Minderer，M.，Heigold，G.，Gelly，S.，等：一张图片相当于16x16个单词：用于大规模图像识别的变形金刚。In：ICLR（2020）414. 法哈，Y.A.，Gall，J.：Ms-tcn：用于动作分割的多级时间卷积网络。在：CVPR。pp. 357515. 高，J.，杨志，陈凯，孙角，澳-地内华达河：Turn tap：用于时间行动建议的时间单位回归网络。In：ICCV（2017）1，316. Idrees，H.，Zamir，A.R.，蒋永国，Gorban，A.，拉普捷夫岛苏克坦卡尔河，Shah，M.： thumos挑战对动作识别的视频“在野外”。ComputerVision and Image Understanding155，117. 李，P.，Byun，H.：从弱监督时间动作定位的点学习动作完整性。在：IEEE/CVF计算机视觉国际会议论文集。pp. 1364818. Lin，T.，刘，X.，Li，X.，丁，E.，温，S.：BMN：用于临时行动建议生成的边界匹配网络

下载后可阅读完整内容，剩余1页未读，立即下载