端到端时间动作检测的实证研究

148 浏览量更新于2023-10-25 收藏 12.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

CT200100端到端时间动作检测的实证研究0刘晓龙 1 白松 2 白翔 1 *01 华中科技大学 2 字节跳动公司0{ liuxl, xbai } @hust.edu.cn, songbai.site@gmail.com0摘要0时间动作检测（TAD）是视频理解中一项重要且具有挑战性的任务。它旨在同时预测未修剪视频中每个动作实例的语义标签和时间间隔。与端到端学习不同，大多数现有方法采用仅头部学习范式，其中视频编码器被预训练用于动作分类，仅对编码器上的检测头进行优化以用于TAD。端到端学习的效果尚未进行系统评估。此外，对于端到端TAD中的效率-准确性权衡缺乏深入研究。在本文中，我们进行了端到端时间动作检测的实证研究。我们验证了端到端学习相对于仅头部学习的优势，并观察到高达11%的性能提升。此外，我们研究了多个设计选择对TAD性能和速度的影响，包括检测头、视频编码器和输入视频的分辨率。基于这些发现，我们构建了一个中等分辨率的基准检测器，其在运行速度更快的同时实现了端到端方法的最新性能。我们希望本文能够成为端到端学习的指南，并激发该领域的未来研究。代码和模型可在https://github.com/xlliu7/E2E-TAD找到。01. 引言0随着信息技术的发展，生成和访问的视频数量迅速增加，强调了自动视频理解的需求，例如人体动作识别和时间动作检测（TAD）1。动作识别旨在预测短视频的动作标签（例如篮球扣篮）。而TAD旨在确定长视频中每个动作实例的标签以及时间间隔。这更具挑战性，也更实用。0*通讯作者 1 也称为时间动作定位（TAL）。0视频编码器0时间0输出特征0T × H × W × 30输入0时间0离线特征提取0T × H × W × 30图1.头部学习（a）与端到端学习（b）的时间动作检测。实线箭头和虚线箭头分别表示前向传递和反向传播的梯度流。0方法 E2E 光流 FLOPs 延迟 mAP0THUMOS140MUSES [25] � 17.5T 72s*+2.1s 53.4 AFSD [18] � � 2780G2472ms 52.0 我们的方法 � 475G 587ms 54.20ActivityNet0AFSD [18] � � 499G 291ms 34.39 我们的方法 � 62G 63ms 35.100表1.本文构建的基准检测器（我们）与最先进方法之间的比较。延迟和FLOPs是在视频级别上测量的。光流提取的时间不包括在延迟中。*I3D [6]特征提取的时间成本。E2E：端到端。0在实际应用中的真实动作中，如安全监控、体育分析和智能视频编辑。由于神经网络具有强大的判别能力，深度学习方法主导了时间动作检测领域[20, 48, 49,53]。如图1所示，时间动作检测器通常由视频编码器和检测头组成，类似于200110在目标检测中的主干-头结构[12, 33,39]。与大多数采用端到端训练的现代目标检测器不同，大多数TAD方法采用仅头部学习范式。它们首先在大型动作识别数据集（例如Kinetics[6]）上对视频编码器进行预训练，然后在离线特征提取时冻结它。之后，只有在目标数据集上针对TAD任务训练特征上的检测头。这导致视频特征次优并限制了性能。尽管一些工作[18, 28,45]采用了端到端学习，但缺乏对其的深入分析。端到端学习的实际效益仍不清楚。此外，端到端TAD中许多因素的影响，如视频编码器、检测头、输入视频的图像和时间分辨率，尚未进行系统研究。在某种程度上，缺乏这样的研究阻碍了端到端TAD的研究。此外，现有工作或多或少地忽视了效率，这是实际应用中的一个重要因素。例如，在大规模系统中，如在线视频平台，运行时间决定了计算开销。不幸的是，大多数方法没有讨论计算成本。一些工作讨论了完整模型的某些部分的运行时间，例如检测头[20, 26, 30,54]，或者报告推理速度（FPS）[18,45]。但它们没有探索效率-准确性的权衡。本文旨在解决上述问题。我们对端到端时间动作检测进行了实证研究。我们评估了四个视频编码器和三个具有不同高级设计的检测头在两个标准TAD数据集（即THUMOS14和ActivityNet）上的性能。首先，我们揭示了端到端学习的好处。结果表明，具有中等图像分辨率（96x96）的端到端训练的视频编码器在TAD性能方面可以与具有标准图像分辨率（224x224）的预训练模型相匹配或超过。其次，我们评估了一系列设计选择对性能和效率的影响，包括检测头、视频编码器、图像分辨率和时间分辨率。它可以作为寻找效率-准确性权衡的指南。最后，我们基于我们的研究构建了一个基准检测器。它在运行速度更快的同时实现了端到端TAD的最新性能（见表1）。具体而言，它可以在仅0.6秒的时间内处理4分钟的视频。我们希望我们的工作能够促进未来的时间动作检测研究。02. 相关工作0时序动作检测方法。当前的时序动作检测方法可以大致分为三组。基于锚点的方法[7, 17, 18, 30, 37, 53, 57,59]首先生成一组密集的锚点，即时间段02 “端到端”在文献中有不同的含义。在这里，我们指的是在检测器中联合学习视频编码器和检测头。0可能包含动作的时间段，然后利用分类器将它们分类为背景或一个动作类别。在这些方法中，锚点是通过均匀采样[3, 7,8, 11, 35, 45]，分组潜在动作边界[22, 34, 56,57]或两者的组合[10, 27]生成的。无锚点方法[2, 18, 21, 34,52]直接预测视频中每帧的动作类别。然后，它们将具有相同类别的帧分组成时间段。一些方法[18,50]还回归到动作边界的距离。基于查询的方法[26,38]借鉴了DETR目标检测框架[5]。它们以一小组可学习的嵌入（称为动作查询）和视频特征作为输入，并将每个查询映射到一个动作预测。这是通过Transformer注意力[42]实现的，该注意力模型了查询嵌入和视频特征之间的关系。由于地面真实动作和查询之间的一对一匹配机制，它们生成了稀疏且唯一的动作预测。与大多数主要关注网络架构或框架设计的先前方法不同，我们关注学习范式和效率-准确性的权衡。0视频编码器。TAD中的视频编码器是通过去除分类头部来改编自动作识别网络的。在以前的方法中，两流网络（例如TSN [43]）和3D卷积神经网络（例如C3D [40]，I3D[6]）是常用的视频编码器。两流网络最早在[36]中提出，由两个2D卷积神经网络（CNN）流组成，分别对RGB帧和光流帧进行操作，并将它们的输出融合。在两流方法中，光流对于高性能至关重要，因为它们明确捕捉到动作线索。然而，光流的计算非常昂贵。不同的是，3D网络可以从一系列帧中捕捉到动作信息，但需要比2D网络更多的参数和计算量。I3D[6]是这种网络的代表，在以前的TAD方法中被广泛使用。为了缓解3D网络的上述问题，最近的方法[9, 19, 32, 41,44]使用不同的方法来近似3D卷积。例如，将3D卷积分解为1D和2D卷积，或将时间移位操作[19]与2D卷积相结合。在本文中，我们评估了各种视频编码器，以检查它们在时序动作检测中的性能和效率。它们的影响在以前没有得到系统地研究过。0TAD的学习范式。大多数TAD方法首先使用在动作识别（分类）数据集上预训练的视频编码器提取特征（例如，Kinetics-400[6]，类似于ImageNet在图像识别中的作用）。然后，他们使用提取的特征训练和评估检测头。通过这种方式，实验周期可以大大缩短。因此，它被大多数现有的方法采用。然而，这种学习范式存在两个问题，200120I3D TSM/TSN SlowFast0C0T0图2. 本文研究的视频编码器的高级示意图。为简单起见，我们没有显示空间维度。0预训练阶段和下游TAD阶段之间的任务不一致性和数据不一致性问题。为了解决任务不一致性问题，[46]设计了一个预训练任务，用于对具有不同边界类型的合成视频剪辑进行分类。为了应对数据不一致性问题，一些方法[22, 28,29]在目标TAD数据集上为动作识别预训练视频编码器。本文探索了在TAD数据集上进行端到端训练的另一种方式。本文的目标不是将端到端训练与其他预训练技术进行比较。相反，我们旨在探索一系列因素对速度和准确性的影响，并寻求它们之间的权衡。03. 实验设置0在本节中，我们回顾了本文研究的视频编码器和时序动作检测头。还介绍了性能评估的数据集和实现细节。03.1. 视频编码器0我们主要研究了四种类型的视频编码器，TSN [43]、TSM[19]、I3D [6]和SlowFast[9]。图2展示了这些视频编码器的网络结构。0TSN是一个纯2D CNN编码器。它独立地处理每一帧。0TSM将时间移位操作与2D卷积结合作为视频编码器的基本构建块。移位操作将输入特征图的一小部分通道向前移动，另一小部分通道向后移动。它相当于具有恒定参数的时间1D卷积，但不引入计算成本。然后，使用2D卷积在移位后的特征上捕获多帧的时空特征。0I3D遵循Inception网络[14]的设计，但将所有卷积和池化层扩展为3D对应层。由于涉及到时间池化，它在网络的不同阶段输出具有不同分辨率的特征图。0SlowFast（SF）由慢速通道和快速通道组成，分别在稀疏采样和密集采样的视频帧上操作。快速通道的通道数少于0慢速通道。因此，它可以高效地捕捉运动信息，通过逐步将其与慢速通道融合。它遵循最近的工作[32,41]，迭代地应用1D和2D卷积。03.2. 时序动作检测头0我们研究了三种类型的时序动作检测头（方法），即基于锚点的、无锚点的和基于查询的。G-TAD [48]、AFSD[18]和TadTR[26]被选为每种类型的代表，因为它们具有最先进的性能。在这里，我们简要描述它们的框架。0G-TAD将视频视为图形，将视频中的所有片段视为其节点。通过这种公式，可以通过对这些节点进行图卷积来捕捉视频中的上下文信息。这些节点被采样为潜在的动作边界，成对的节点成为锚点。类似于RoIAlign[13]，设计了SGAlign操作来提取每个锚点的时间区域内的对齐特征。然后，使用几个全连接层对这些锚点进行分类。0AFSD是一种无锚点检测器。受物体检测中无锚点方法[31,39]的启发，它通过预测每帧的动作类别和与动作边界的距离来检测动作。使用这种公式，它首先使用来自视频编码器的金字塔特征生成粗略的动作预测。为了增强检测性能，设计了基于显著性的细化模块。它通过边界池化操作提取每个预测动作边界周围的显著特征。利用这些特征生成细化的预测。0TadTR将TAD视为一种直接的集合预测问题。基于Transformer[42]，它将一小组学习到的动作查询嵌入映射到相应的动作预测，采用Transformer编码器-解码器架构。Transformer编码器以视频编码器的特征作为输入。它使用稀疏注意机制对时间维度中的长程依赖关系进行建模，并捕捉全局上下文。解码器通过交叉注意力查找与每个查询相关的全局上下文，并预测边界和动作类别。为了获得更准确的边界和置信度分数，它利用分段细化机制在每个解码器层中迭代地细化边界，并使用动作回归头根据最终预测的边界重新计算置信度分数。03.3. 端到端学习0我们在每个视频编码器的原始网络中去除分类器，并将最后的全局池化层修改为仅执行空间池化。然后将检测头部附加到编码器的最后一层，形成一个统一的网络。该网络直接以视频帧作为输入。200130输入，并使用每个检测器定义的损失函数进行训练。在训练过程中，梯度向后传播到头部和视频编码器。通过这种方式，它们可以同时优化以获得更强的时间动作检测性能。03.4. 数据集0我们在两个数据集THUMOS14 [15]和ActivityNet[4]（v1.3）上进行评估。THUMOS14收集了20个类别的体育视频。它包含200个用于训练和测试的未修剪视频。动作分布密集且非常短暂。视频和动作的平均长度分别为4.4分钟和5秒。ActivityNet包含19994个日常活动的视频，共有200个动作类别。其中训练集、验证集和测试集分别包含10024、4926和5044个视频。与以前的工作一样，我们使用验证集进行评估，因为测试集的注释由组织者保留。视频和动作的平均长度分别为2分钟和48秒。0评估指标。对于这两个数据集，我们使用不同时间IoU阈值下的平均精度（mAP）作为评估指标。在THUMOS14上，IoU阈值为{0.3, 0.4, 0.5, 0.6,0.7}。在ActivityNet上，我们选择了从0.5到0.95的10个值，步长为0.05。我们还报告了所有阈值下的mAP的平均值，这是性能比较的主要指标。03.5. 实现细节0视频编码器。SlowFast编码器有几个变种。我们选择了“SlowFast 4x16,R50”变种，因为它具有高效性。给定一个包含N帧的输入剪辑，快速和慢速路径分别采样N和N/8帧。我们将两个路径的输出特征调整为相同的长度，并将它们连接在一起。长度设置为N/4。换句话说，时间输出步幅为4。I3D提取多个时间分辨率的特征。我们应用特征融合策略来更好地利用这些特征。我们通过2倍上采样第五阶段的特征，并与第四阶段的特征融合。这样，时间输出步幅也是4。作为参考，TSM和TSN的时间输出步幅为1。0剪辑采样。我们在训练和评估中使用视频剪辑。在THUMOS14上，我们均匀采样25.6秒的剪辑，这比所有动作实例的长度长。相邻剪辑之间的采样步长在训练和评估过程中分别设置为剪辑长度的25%和75%。除非特别说明，TSM和TSN在THUMOS14上以3.75FPS采样视频帧。SlowFast和I3D以10FPS采样帧。在ActivityNet上，由于动作长度与视频长度的比例要大得多，我们按照[18]的方法将每个完整视频视为一个剪辑进行采样。0将固定数量的帧作为输入传递给视频编码器。根据[18]的说法，这种策略比固定帧率采样更好。对于SlowFast和I3D，这个数量设置为384，对于TSM和TSN，设置为96。这样，这些编码器的输出特征具有相同的长度96（平均0.8FPS）。默认情况下，我们将输入视频的图像大小设置为96×96，比常用的224×224分辨率少了5.4倍的像素。0训练。模型使用Adam[16]优化器进行训练，将权重衰减设置为10^-4。基础学习率设置为10^-4，并在THUMOS14和ActivityNet上进行了经验性调整。视频编码器的学习率乘以0.1的因子，有助于稳定训练。在τ1个epoch后，将学习率除以10，总的训练轮数为τ2。在THUMOS14上，我们设置τ1=10，τ2=12。在ActivityNet上，分别设置为8和10。对于所有模型，我们将批量大小设置为4，并冻结视频编码器中的批量归一化层。使用这个配置，大多数模型可以使用单个具有12GB内存的GPU进行训练。我们在补充材料中分析了批量大小的影响，并观察到将批量大小从4变化到16会得到类似的性能。我们使用裁剪、水平翻转、旋转和光度失真进行图像增强。随机旋转的角度范围为(-45,45)度。光度失真的设置遵循[24]。后三个变换的概率为0.5。0推理。我们按照其原始实现的细节进行每个检测头的推理。在ActivityNet上，我们按照之前的工作[18, 20, 22, 28, 47,48,54]进行类别无关的定位，并使用[58]中的视频级分类标签。延迟是在一块TITAN XpGPU上测量的，批量大小设置为1。我们在10次热身运行后进行100次运行的平均时间。除非特别说明，THUMOS14上的计算成本是针对25.6秒的视频剪辑进行测量的。04. 结果和分析04.1. 端到端学习的效果0仅有头部学习与端到端学习的比较。在表2中，我们比较了传统的仅有头部学习和使用TadTR检测器的端到端学习的性能。在研究端到端学习的性能提升时，我们保持相同的中分辨率(96×96)设置。我们还列出了使用224×224分辨率的仅有头部学习的性能。我们可以看到：(I)端到端学习在多个数据集和骨干网络上都能持续提高性能。在THUMOS14上，端到端学习分别通过TSM ResNet-18和TSMResNet-50编码器将平均mAP提高了9.41%和11.21%。在ActivityNet上，它实现了1.30%和1.38%的平均mAP改进。我们在补充材料中还展示了这一结果在其他视频编码器(I3D和SlowFast)和检测头(AFSD和G-TAD)上的普遍性。(II)中分辨率(96×96)的端到端模型的性能可以与标准分辨率(224×224)的仅有头部模型相媲美甚至超过。在THUMOS14上，前者在TSM ResNet-50编码器上的性能超过后者7.52%(45.25% vs.37.77%)。在TSMResNet-18上也有类似的观察结果。在ActivityNet上，上述两种设置的性能接近。这表明端到端训练是提升高效中分辨率模型的有效方法。(III)端到端学习在ActivityNet上的性能提升小于在THUMOS14上的性能提升。原因有两个。1)ActivityNet上的性能提升只反映了端到端学习对定位子任务的影响，因为检测器只对该数据集进行类别无关的定位。为了验证这一点，我们评估了端到端训练对ActivityNet上的类别感知检测的影响。与仅有头部学习相比，端到端学习在TSMResNet50上获得了5.70%的mAP提升(从19.38%提高到25.08%)，这比在定位子任务上的提升更大。这意味着分类子任务也从端到端学习中受益。2)ActivityNet和THUMOS14具有不同的特点。THUMOS14对时间定位提出了很大的挑战，因为动作较短，每个视频平均有71%的背景。而在ActivityNet上，动作要长得多，每个视频平均只有36%的背景。为了验证不同特点的影响，我们在HACS Segments[55]上对E2E和仅有头部学习进行了比较，该数据集与ActivityNet具有相同的类别和类别分布。我们观察到，端到端学习在TSMResNet-50上的mAP提高了6.28%(从19.28%提高到25.70%)，与在ActivityNet上的类别感知检测的观察结果类似。provement of 1.30% and 1.38% average mAP with the twoencoders respectively. We show that this also generalizesto other video encoders (I3D and SlowFast) and detectionheads (AFSD and G-TAD) in the supplementary.(II) The performance of mid-resolution (962) end-to-endmodels can match or surpass that of standard-resolution(2242) models trained in the head-only paradigm.OnTHUMOS14, the former outperforms the latter by 7.52%(45.25% vs. 37.77%) on the TSM ResNet-50 encoder. Asimilar observation is drawn on TSM ResNet-18. On Activ-ityNet, the performance of the above two settings is close.It indicates that end-to-end training is an effective way ofenhancing efficient mid-resolution models.(III) The performance gains of end-to-end learning on Ac-tivityNet are smaller than those on THUMOS14.Thereare two reasons. 1) The performance gain on ActivityNetonly reflects the effect of end-to-end learning on the lo-calization sub-task, as the detectors only perform class-agnostic localization on this dataset. To verify this, we eval-uate the effect of end-to-end training on class-aware detec-tion on ActivityNet. Compared with head-only learning,end-to-end learning enjoys a gain of 5.70% mAP (19.38%to 25.08%, with TSM ResNet50), which is larger than thegain on the localization sub-task. It means the classificationsub-task also benefits from E2E learning. 2) ActivityNetand THUMOS14 have different characteristics. THU-MOS14 poses a great challenge to temporal localization, asthe actions are shorter and each video has a large amount ofbackground (71%) on average. Differently, on ActivityNet,actions are much longer and each video has only 36% back-ground on average. To verify the effect of different char-acteristics, we conduct a comparison of E2E and head-onlylearning on HACS Segments [55], which shares the sameclasses and has a similar distribution as ActivityNet. We ob-serve that E2E learning results in an improvement of 6.28%mAP (19.28% to 25.70%, with TSM ResNet-50), similar tothe observation on class-aware detection on ActivityNet.200140图像增强。端到端学习的一个特殊好处是图像增强的可行性。除了常用的随机裁剪和随机水平翻转增强之外，我们还研究了更强的增强方法，包括随机旋转和随机光度畸变。这些增强的效果如表3所示。在两个数据集上，它们都带来了很大的性能提升。在THUMOS14上，随机裁剪带来了3.32%的改进。随机翻转进一步提高了1.09%的性能。使用更强的增强方法，平均mAP提高了1.35%。总体上，改进了5.76%。这是合理的，因为THUMOS14是一个相对较小的数据集。在ActivityNet上，平均mAP从31.98%提高到33.42%(+1.44%)。我们发现，更强的数据增强并没有明显的性能提升，因为ActivityNet已经是一个大规模的数据集。0范例Img。 Res。 ResNet-18 ResNet-500THUMOS140仅头部224 2 33.79 37.770仅头部96 2 28.90 34.04 E2E 96 2 38.31 45.250增益-+9.41 +11.210ActivityNet0仅头部224 2 33.43 34.210仅头部96 2 32.12 32.76 E2E 96 2 33.42 34.140增益-+1.30 +1.380表2。仅学习头部与端到端（E2E）学习的比较。报告平均mAP。头部：TadTR。视频编码器：TSM。0增强平均mAP0裁剪��水平翻转��旋转�扭曲�0THUMOS14 39.49 42.81 43.90 45.25 ActivityNet31.98 33.24 33.40 33.420表3。图像增强的效果。头部：TadTR。视频编码器：THUMOS14上的TSM ResNet-50和ActivityNet上的TSM ResNet-18。0值得注意的是，没有图像增强的端到端学习比仅学习头部的效果更差，可能是由于过拟合。04.2.设计选择的评估0检测头。表4和表5分别比较了ActivityNet和THUMOS14上的不同头部。请注意，我们使用外部视频级动作分类器的标签来进行G-TAD的G-TAD，遵循原始论文[48]，因为该头部旨在生成类别不可知的提议。尽管检测头部只占检测器计算成本的一小部分，但检测器之间仍然存在性能，计算成本和模型大小的差异。具体来说：（一）性能：在两个数据集上，基于查询的检测器TadTR实现了最佳性能。其在高IoU阈值的mAP方面具有很大优势。具体而言，在ActivityNet上，它在严格的IoU阈值0.95下比G-TAD的性能提高了5.19％。在THUMOS14上，使用I3D编码器，它在mAP@0.7方面比AFSD [18]提高了4.5％。我们观察到G-TAD实现了更低的2.503.755.0010.0015.00Input Frame Rate (FPS)40.042.545.047.550.052.555.057.560.0Average mAP (%)mAP - TSMmAP - SlowFast 405060708090100Latency (ms)Latency - TSMLatency - SlowFast200150头部FLOPs / G延迟/毫秒参数0.5 0.75 0.95平均0AFSD * 249.4 / 3.3 145.5 / 26.9 30M- - - 32.90 G-TAD 169.2 / 44.6 99.5 /31.0 38M 49.22 34.55 4.74 33.17 TadTR 125.6 / 0.9 78.4 / 9.7 45M 49.5635.24 9.93 34.350表4。在ActivityNet上使用不同头部的端到端训练检测器的比较。编码器：I3D。所有方法使用384帧输入（除*外使用768帧）。斜杠前后的值分别用于全网络和头部的测量。0头部0.3 0.4 0.5 0.6 0.7平均0I3D，帧率为10 FPS0AFSD * 57.7 52.8 45.4 34.9 22.0 43.6 G-TAD 52.545.9 37.6 28.5 19.1 36.7 TadTR 59.6 54.5 47.037.8 26.5 45.10TSM ResNet-50，帧率为2.5 FPS0AFSD 56.0 50.0 42.2 32.8 20.5 40.3 G-TAD 51.543.4 33.8 23.5 13.6 33.2 TadTR 58.1 52.9 44.636.2 24.1 43.20表5。在THUMOS14上使用不同头部的端到端训练检测器的比较。*来自[18]的结果。0THUMOS14上的性能，因为外部动作分类器限制了分类准确性。像其他两个头部一样进行类别感知的预测可能会提升其性能。（二）计算成本：与其他两个头部相比，G-TAD的FLOPs要高得多，因为它生成密集的锚点。它占全网络延迟的约1/3。TadTR具有最低的延迟，因为它输出非常稀疏的检测结果。因此，减少检测数量是构建高效检测器的有希望的方向。（三）模型大小：AFSD的模型大小最小，仅为TadTR的66.7％。因此，当需要较小的模型大小时，它是更好的选择。0视频编码器。 Tab。6在THUMOS14和ActivityNet上比较了不同的编码器。我们观察到：（一）使用较小的主干网络可以降低计算成本，但可能严重降低检测性能。例如，TSM与ResNet-18相比，性能降低了7％。（二）运动信息对于时态动作检测很重要。常用的TSN编码器在运动信息建模方面远远落后于其他编码器。它甚至比TSM ResNet-18更弱，尽管TSMResNet-18模型中包含运动信息，但主干网络更小。（三）TSM与I3D表现相当，在TAD中是另一种典型的视频编码器。同时，其延迟时间约为I3D的一半。我们观察到I3D的优势在于高IoU阈值下的mAP，因为它使用更高的采样帧率。0图3.输入帧率对THUMOS14上TAD性能（左Y轴，实线）和延迟（右Y轴，虚线）的影响。红线和蓝线分别表示TSMResNet-50编码器和SlowFast ResNet-50编码器。0因此，在没有对定位精度有严格要求的情况下，TSM是I3D的理想替代品。（IV）SlowFast在两个数据集上都取得了最佳性能。这是合理的，因为SlowFast是一种最先进的动作识别模型。它在THUMOS14上的优势尤为明显，因为快速通道可以有效地建模快速变化的动作，从而有助于在该数据集上定位短动作。同时，它也非常高效。它的FLOPs比TSMR50、TSNR50和I3D低。FLOPs和延迟之间的不一致可能是由于低视频分辨率时GPU利用率低造成的。0时间分辨率。图3比较了使用不同输入帧率的TadTR的性能。我们使用时间线性插值来确保输出特征序列具有相同的长度。观察到，将输入帧率从2.5增加到5稳定地提高了TSM[19]在THUMOS14上的检测性能，该数据集上大多数动作实例都非常短。因此，我们将编码器切换到SlowFast[9]，它在5FPS下的性能与TSM相当，但运行速度更快，这要归功于其快速通道的高效性。随着帧率增加到10FPS，性能有相当大的提升。我们在图4中显示，这种提升主要来自于短动作。这表明高帧率对于检测短动作很重要。进一步增加帧率并没有明显的性能提升。0图5比较了不同图像分辨率下的性能。102030405060708033.845.258.864.460.568.348.5 47.624.827.14.3. Comparison with State-of-the-art Methods642802962112212821602Image Resolution (pixels)354045505560mAP - TSMmAP - SlowFast30405060708090Latency - TSMLatency - SlowFastcombine them as a baseline detector for comparison withstate-of-the-art methods. The default resolution is used.Detection Performance.Tab. 7 compares the detectionperformance of different methods on THUMOS14 andActivityNet.We divide them into two groups accord-ing to whether end-to-end training is used. Alghough S-CNN [35], CDC [34], and SSN [57] are multi-stage meth-ods, we still regard them as end-to-end methods as the en-coder and the head are jointly optimized in each stage. Weobserve that:(I) On both datasets, the baseline detector achieves the bestperformance among end-to-end methods. This is a result ofthe better video encoder and the stronger detection head.(II) Without optical flow, this detector surpasses those two-stream methods that are based on pre-trained features, suchas MUSES [25] and VSGN [54]. Similarly, AFSD-RGBalso outperforms many two-stream methods. It means thatoptical flow is not necessary for TAD, as the video en-coders learn to capture cues of action boundaries from RGBframes via end-to-end training.200160编码器 FLOPs 延迟参数 THUMOS14 ActivityNet00.3 0.4 0.5 0.6 0.7 平均 0.5 0.75 0.95 平均0TSM R18 32.3G 25.7ms 24M 52.8 47.9 39.8 30.7 20.3 38.3 49.12 34.00 9.74 33.42 TSM R50 73.2G 41.4ms 36M60.5 55.5 47.5 37.6 25.3 45.3 49.59 34.74 9.72 34.14 TSN R50 73.2G 41.4ms 36M 44.2 39.6 31.9 22.9 13.7 30.548.97 33.26 7.84 32.65 I3D 125.6G 78.4ms 45M 59.6 54.5 47.0 37.8 26.5 45.1 49.56 35.24 9.93 34.35 SF R5062.1G 63.5ms 46M 69.4 64.3 56.0 46.4 34.9 54.2 50.13 35.78 10.52 35.100表6. 使用不同视频编码器的端到端训练检测器的比较。FLOPs和延迟在ActivityNet上进行测量。0XS S M L XL0长度0mAP@0.5(%)0SlowFast-5FPSSlowFast-10FPS0图4.增加输入帧率（从5FPS到10FPS）有助于检测短动作。根据长度（以秒为单位），动作被分为五组：XS（0, 3]，S（3, 6]，M（6,12]，L（12, 18]，XL（18, 无穷大）。检测器：TadTR。0在THUMOS14上的不同输入图像分辨率。每个线段的斜率大致表示每个像素的平均性能提升。我们观察到：（I）增加图像分辨率可以提高TAD的性能，但效率会降低。当分辨率从小（64x64）增加到中等（96x96）时，改进效果尤为显著。这表明足够的图像分辨率对于良好的性能至关重要。之后，每个像素的平均性能提升逐渐减小。因此，我们选择64x64的分辨率以在性能和效率之间取得平衡。（II）增加图像分辨率不如切换到更合适的视频编码器重要。我们发现，96x96分辨率的SlowFastResNet-50编码器优于160x160分辨率的TSMResNet-50编码器。由于空间限制，我们将视频分辨率对ActivityNet的影响分析放在补充材料中。我们还在其中分析了另外两个设计选择的影响，即特征融合和帧采样方式。0平均mAP（%）0延迟（毫秒）0图5.图像分辨率对THUMOS14的影响。TSM和SlowFast的输入帧率分别设置为3.75和10。检测器：TadTR。0计算

下载后可阅读完整内容，剩余1页未读，立即下载