粗细网络：粗流和细流的多级融合对视频活动检测有优势

152 浏览量更新于2024-01-22 收藏 709KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8385网格粗流不不输入剪辑时间位置T'细液流T'池网格取消池化不不不不T帧多级融合H，WTT'T'T型框架上的预测推理时的T'Drop用于视频中时间活动检测的粗-细网络Kumara Kahatapitiya和Michael S. 石溪大学，石溪，纽约11794，美国{kkahatapitiy,mryoo}@cs.stonybrook.edu摘要在本文中，我们介绍了粗精网络，一个双流架构，受益于不同的时间分辨率的抽象，学习更好的视频表示长期运动。传统的视频模型在一个（或几个）固定的时间分辨率下处理输入，而没有任何动态帧选择。但是，我们认为，过程-通过学习估计每个HW的重要性来动态地执行输入的多个时间分辨率帧可以很大程度上改善视频表示，特别是在时域活动定位领域为此我们提出（1）我们表明，我们的方法优于国家的最先进的公共数据集，包括字谜动作检测显着减少计算和内存占用。该代码可在https://github.com/kkahatapitiya/Coarse-Fine-Networks 上获得。图1. 粗-细网络以两种不同的时间分辨率处理信息。粗流通过可学习的下采样操作（网格池）学习对信息量最大的帧位置进行采样，而细流处理输入的整个持续时间以提取细粒度上下文。两个流之间的连接：多级融合，提供细粒度上下文的多个抽象级别对于Charades数据集[29]，我们将网络配置为使用T=64，′T=128，α=1/4。1. 介绍学习如何表现视频很重要。它需要在帧序列中嵌入空间和时间信息，通常使用3D卷积来倾斜，以建立良好的视频表示是至关重要的各种视觉任务，包括动作分类，视频对象分割，和复杂的人类活动识别，以及时间定位等活动。视频表示学习的主要挑战之一是从连续视频中捕获长期运动为了使卷积神经网络跨许多帧提取长期运动信息，需要大量的（空间）时间卷积。层（或具有大内核的层）是必要的，需要许多参数。这与获得大规模注释视频的困难和增加的计算时间相结合，使得视频表示的学习对于非原子活动非常具有挑战性。这对于时间活动检测（即，定位），因为活动可能经常在时间上重叠。需要一种可靠且有效地捕获视频中的各种运动的机制使用帧跨越或时间池化（即，降低帧速率）一直是一个成功的策略，更大的时间间隔，而不增加模型参数的数量由于这种跨步丢失了帧变化的精细细节，因此它通常与另一个CNN塔配对，以更高的帧速率输入，形成双流（或多流）CNN架构，如SlowFast [6]和AssembleNet [25]中所做的那样这些模型证实了帧跨越以及多流架构的好处，以结合表示与多个时间分辨率。然而，尽管使用时间步幅（具有多流多分辨率架构）允许模型更容易地处理长期运动，但是它们是有限的，因为它忽略了每个帧的信息量当视频帧中没有/几乎没有运动时，将几乎相同的帧作为输入馈送到模型通常是不必要的和冗余的。另一方面，如果视频中的人正在显示快速运动，则期望考虑所有这样的帧统一的时间跨越或池化不能实现这种动态帧选择。在本文中，我们提出了（1）一种新的方法，允许在模型中动态选择时间帧，以及（2）一种方法来融合这种采样（即，时间上格栅池不不信息量最大的帧选择多级融合T'不细-粗对应C8386--2422201816141×102 1×103 1×104GFLOPS图2. Charades中活动“本地化”的最新方法的性能/复杂性权衡我们的粗-精网络实现了优于以往的最佳性能的方法在文献中，与一个以上的数量级减少计算的性能。此外，我们不使用任何额外的方式，如光流或对象检测。更多时间上的“精细”表征。我们介绍粗-细网络。为了获得更好的粗表示，提出了一种新的时间网格池（TemporalGridPooling ）组件，并引入了多级融合（Multi-stageFusion）技术，将这种粗表示与传统的细表示进行最佳组合。与[6，25]不同，我们的网格池学习动态选择信息帧。图1说明了该模型的概述，图2显示了该模型的优点，我们将在本文中进行更多讨论。2. 相关工作CNN学习用于人类活动识别的3D时空表示已经非常成功[2，10，15，31，32]。双流方法通常被设计为结合RGB 和光流[7，30]，特别是专注于视频分类。SlowFast 网络 [6] 显示了将不同时间分辨率的表示（即，帧速率）也可以有益于动作识别。最近，AssembleNet [25]展示了具有神经架构搜索的多流模型的有效性，X3D [5]研究了计算上更有效的3D转换。模块。还有一些方法专注于视频中时间结构的建模，通常特别设计用于处理较长的视频（具有长期运动）[18，22，23，34，41]。另一组方法利用图形表示来对视频中的人/对象动态进行建模，通常与顺序模型配对[9，13，20]。明确利用视频中的对象的方法也已经被研究[1，19，43]。动作定位：还有一个工作线专注于时间动作定位任务。在定位任务中（例如， Charades localization[29]），目标不是对每个分段视频进行分类决策序列模型（如LSTM）的使用已经很流行[4，39，40]，而完全卷积方法也显示出有希望的结果[27，28，38，42]。动态采样：信息的选择性处理一直是计算机视觉界的兴趣所在。从可变形卷积[3]到图形网络[？，26，37]，神经网络的各种核心组件都是基于这个想法。多个最近的作品也试图解决输入的动态采样，无论是空间[8，12，24]，时间[17，35，36，44]或时空[21]。3. 粗-细网络粗精网络探索视频架构如何从时间分辨率和长期时间信息的不同抽象中受益如图1所示，我们通过在两种不同的时间分辨率下处理信息来做到这一点：粗和细，在双流架构中。粗略流学习（可区分地）选择信息量最大的帧位置，基本上执行学习的时间下采样以提取较低的时间分辨率。相比之下，精细流以原始时间分辨率处理输入，并通过融合机制向粗略流提供细粒度上下文。为了提取该上下文信息，精细流总是查看输入剪辑的完整持续时间（稍后与高斯合并），而粗略流可以查看较短的剪辑或整个剪辑，这取决于推断间隔。在粗精网络中，我们应对两个关键挑战：(i)如何以较低的时间分辨率有意义地提取信息，以及，（ii）如何有效地利用细粒度的首先，为了提取粗信息，我们提出了网格池（Sec。3.1），可学习的时间下采样操作，其利用可微分过程自适应地其次，为了有效地使用由Fine流提供的细粒度上下文，我们引入了多级融合（Sec. 3.2），一组粗流和细流之间的横向连接，它着眼于细粒度信息的多个3.1. 格栅池我们的时间网格池操作从给定的输入剪辑中学习最具信息性的帧位置，并基于插值对与位置对应的表示进行采样。事实上，它可以被看作是一个可学习的时间下采样层，具有很小的计算开销，可以取代传统的时间池操作。然而，与这些池化操作相反，我们的网格池通过在具有可学习（和自适应）网格位置的非均匀网格上插值来采样，如图3所示。首先，轻量级头部（h）将时间长度T的输入特征（XC）投影到置信度值的集合其中α1和αT是整数（例如，α= 1/4，T = 128）。这些置信度值表示每个时间间隔的信息量，大小为1/α粗精好-好慢速快速检测I3D + biGRU+ VS-ST-MPNNI3D +超级事件+ TGMI3D + TGMX3D+ TGMX3dI3D +超级事件I3D + STGCN3D ResNet-50双流I3Di3DRGB流对象Charades mAP（%）8387C{−}Lii=1·J=g（）--网格网格解池操作，其与由网格池层学习这没有任何可学习的参数，只是执行前者的逆操作。首先，基于cdf的逆映射计算αT重采样网格位置，在此基础上对logit进行重采样，得到原始时间结构。我们的想法是在网格池中使用高帧速率的区域中以低帧速率重新采样，反之亦然。任何非整数帧位置被时间内插，类似于Eq.二、最后，这些logit通过插值均匀上采样以适合输入时间分辨率。对于分类任务，图3. 网格池层基于非均匀网格位置学习时间下采样操作。通过学习其重要性，从长度为T的输入特征中可微分地采样αT个点。我们将pi解释为每个帧位置的重要性。既然我们想用更低的sam取样-脉冲持续时间（即，更高的帧速率），其中我们具有更高的重要性，我们构造CDF（1-pi）用于采样。(e.g.、如果α=1/4，则为4帧），并且被建模为输入表示XC的函数：{pi}i=1，···，αT=h（X）.（一）这里的直觉是以更高的帧速率对帧进行采样，其中置信度（即，信息性）高，并且在低的情况下以较低的帧速率。换句话说，在置信度高的情况下，内插帧位置之间的步幅应该小，反之亦然。我们对这些置信度值pi进行归一化，因为我们需要相对（而不是绝对）置信度来捕获帧的相对为了得到一组αT网格位置，本文考虑累积分布函数cdf（1pi）i=1，···，αT，它是一个非均匀单调递增函数。Grid Pool图层XC的输入基于以下内容进行采样/插值网格位置，以获得输出X C，同时使其完全对于反向传播是可微的该过程可以表示为，网格解池操作可能不是必需的，因为logits的全局池被认为是预测。3.2. 多级融合我们引入了多级融合，如图4所示的两个流之间的一组横向连接，以融合来自精细流的上下文与粗流。我们在这里考虑三个主要的设计选择：（i）它应该能够过滤出哪些细粒度信息应该向下传递到粗流，（ii）它应该具有校准步骤以基于它们的相对时间位置将细特征与粗特征适当地对准，以及（iii）它应该能够学习并受益于粗流中每个熔丝位置处的细粒度上下文的多个抽象级别。我们的设计试图解决这些问题。过滤细粒度信息：首先，为了决定哪个细粒度上下文应该被传递到融合过程，抽象级Ii处的细特征XF与自注意掩码相乘。这个掩码是通过一个轻量级头部（g）处理精细特征来计算的，该头部由逐点卷积层和S形非线性组成。X¯FXFXFll l l l特qt=T·cdf（1−pt）=T·i=1（1−pi），精细到粗略的对应关系：注意力加权的精细特征X<$F仍然需要针对节奏进行校准XC=I.ΣXC，{qt}t=1，···，αTαT（1 −pi）、（二）Li每个粗略特征的真实位置由于粗糙和精细流不一定处理相同的、正确对齐的时间长度，因为我们的非均匀性其中qt表示网格位置t，I（）表示时间采样功能。在这里，当一个网格位置是非整数，则相应的采样帧是相邻帧之间的时间内插。我们在Grid Pool层中不执行任何空间采样。网格取消池化：一种基于非线性的时间插值方法，网格池，我们需要显式计算帧对应。为了进行这种校准，我们使用以每个粗略帧位置为中心的一组时间高斯分布，其提取精细特征的位置相关加权平均值。我们使用αT这样的Coarse-centric高斯，每个都有一个时间′这样的均匀网格可以影响T的长度标准差σ是分数传播特征。在最终输出之前，网络的逐帧预测应该重新对齐，以进行活动检测任务。为此，我们引入这个长度。我们发现，将这些高斯的中心和尺度视为超参数，而不是使它们可学习，可能会提供更好的性能，p凸部1（1-p）1cdf（1-p）1T×T不T TT网格位置不不不H、W不时间8388Li× ×X=0LiLi=+.⊕=·G，C图4. 多级融合将细粒度上下文的多个抽象级别馈送到粗流。首先，精细流特征通过自我注意掩码进行过滤然后，基于以对应的粗略帧位置为中心的高斯权重，针对每个粗略帧校准这些最后，来自多个抽象级别的这种校准特征得到逐点卷积以计算尺度和移位特征，其提供对粗略特征的仿射变换。由于训练相对简单。该校准步骤可以表1. 粗-精网络架构是从X3 D [5]，更具体地说是从X3 D-M版本两条溪流都有被视为，1C（t−µj）2.相同的设计和参数，只是在粗流中添加了网格池层和网格取消池操作。的G=经验值，j2πσ22σ2.j=1，···，αT精细流处理输入T的整个时间长度以提供细粒度的上下文，而Coarse流可以XFXFClil i其中GC是堆叠的粗心高斯，t′看一个长度为T的分段剪辑，需要逐帧预测。这里，α1和αT是整数。核形状遵循标准符号{T×S2，C}。[0，T−1].多个抽象层次：特征X仍然正确-ResNet [11]结构，但旨在提高视频模型的效率。粗略和精细流都初始化为响应于单个抽象级li 精细的特征，其中我们在多个抽象级别中具有多级融合连接，即，网络的深度因此，我们允许每个融合连接通过逐通道连接（在通过最大池化调整空间分辨率之后）来查看来自所有抽象级别的特征，并执行逐点（即，111）卷积以获得每个融合位置处的最终尺度（A1i）和移位（B1i）特征。这可以表示为，单独的参数集，但具有与表1所示相同的层数和过滤器，除了在粗流中添加网格池之外。由于X3D架构不执行时间下采样或池化，因此它遵循输入级的积极步幅以在计算上高效，在我们的情况下将步幅设置为10。这使得Coarse流的输入可以覆盖很大的时间区域，与I3D [2]等常见主干在训练期间覆盖这是Fni=1XFli这是有益的，特别是在具有较长时间持续时间的数据集中粗略流接收T=64的分段剪辑ALI =fA（X<$ F），B=fB（X<$ F），框架遵循标准的X3D架构，XCAliliXCBlili训练期间的池层（α=1/4），处理时输入在推理时完全卷积（即，T=128其中，是来自n个抽象层次，fA和fB表示投影测试期间的帧）。相比之下，精细流总是处理整个输入剪辑，最大值为lilili′计算每个融合点的T=128帧。此限制应根据位置11。这种设计使多级融合，通过过滤和时间校准来处理细粒度上下文的多个抽象级别3.3. 模型细节在粗-精网络中用作骨干的网络架构采用X3 D [5]，其遵循以包括输入剪辑的整个持续时间′我们发现T=128帧，步幅为10是足够的以覆盖超过90%的Charades视频的整个时间长度[29]粗流和细流之间的主要区别在于网格池层和相应的网格取消池操作。我们想执行这个学习的时间粗流× +不时间位置粗心高斯型H、WT TSelf-attention不T'×不×T'多抽象层次细液流T'不∈、Li.阶段滤波器输出尺寸T×S2粗罚款粗罚款输入步幅10，12T×2242′T×2242′Conv11×32，3×1，24T×1122T×1122Res21×12，543×32，54×31×12，24T×562′T×562格栅池步幅1/α，12-αT×562′T×562Res31×12，1083×32，108×51×12，48αT×282′T×282res41×12，2163×3 2，216×111×12，96αT×142′T×142res51×12，4323×32，432×71×12，192αT×72′T×72Conv51×12，432αT×72′T×72池5fc1fc2无×721×12，20481×12，班级数αT×12′T×128389Li××××××××在网络中尽可能早地下采样以减少计算，但同时具有足够好的特征来学习网格位置。因此，我们将GridPool层放置在第一个残差块res2之后。我们发现，在实践中，4倍的下采样效果很好，具有良好的计算/性能权衡（表3e）。为了计算网格池层中的置信度值（p），我们使用了一个轻量级的头部（h），它包含3个步幅卷积，总时间步幅为4，空间步幅为8，然后是空间平均池化和S形非线性。网格取消池操作没有可学习的参数。它与网格池层预测的网格位置耦合，以执行前者的逆操作，从而在logits级别恢复我们尝试遵循一个轻量级的设计，在多级融合，以及。通过2个逐点（即，111）卷积的头（g）以及随后的S形非线性来计算自注意力掩模XIF粗中心高斯（GC）没有可学习的参数，并且每个掩模的峰值幅度被归一化为1。的′根据经验，标准偏差σ被设置为T /8。两在每个融合位置处的将级联的多级特征（X∈ F）投影到缩放（Ali）和移位（Bli）特征的头部fAli和fAli各自包含单个逐点卷积。规模功能通过一个额外的S形非线性我们将进一步讨论这些操作的复杂性（计算和参数）（4.2小节）。4. 实验我们在两个大规模的活动检测基准上评估了粗精网络：Charades [29]和Multi- THUMOS [39]。注意，我们关注时间检测（即，本地化）任务，在每个时间步生成多标签活动注释，这比视频分类更具挑战性活动可能在时间上重叠（例如，坐着和吃），并且模型必须被训练为在每个时间步注释所有这些。4.1. 字谜数据集：Charades [29]是一个大型数据集，包括9.8k连续视频，带157个逐帧注释常见的家庭活动。该数据集分为1.79k训练视频和1.8k验证视频。每个视频平均包含6.8个活动实例，通常每帧包含多个活动类，并且具有平均持续时间为2.30秒的较长剪辑如此长的持续时间使其成为测试粗精网络的合适数据集。训练：我们使用在Kinetics- 400上预训练的X3 D主干初始化网络的粗流和细流[16]。对于粗精网络的实际训练以及基线，我们遵循两阶段训练过程：首先，分别训练两个流，然后微调组合流。在第一阶段中，粗略流考虑以10的步幅采样的64帧的输入，而精细流考虑以相同步幅采样的16帧这允许两个流在网格池层之后处理相同大小的要素。我们在实验中使用α=1/4。每个流在开始时以0.02的学习率训练100个epoch，批量大小为16，在60和80 epoch时减少在第二阶段，两个流一起训练为粗精网络，多阶段融合参数从头开始初始化。我们用相同的时间表和批量大小训练了另外100个epoch，但对融合层的新初始化参数使用了10个增加的学习率。在这里，精细流处理输入的整个持续时间，对于Charades [29]，其上限为128帧（以10的步幅采样）。在这两个阶段，每个输入随机采样[256，320]像素，空间裁剪为224 224，并应用随机水平翻转。我们使用0的辍学率。5在logits层之前。logits通过sigmoid对每帧进行多标签预测。我们使用分类和定位损失的平均值进行训练，类似于以前的方法[22，23]。推理：在推理时，我们对每一帧进行预测。即使我们的输入是以10，我们考虑所有帧的标签（步长为1），并对logit进行插值以拟合原始时间长度。换句话说，我们评估我们的模型，以便预测在原始时间分辨率下更细粒度。然而，表2中的所有最先进的方法报告了每个输入 25 个相等采样帧的性能，这是原始的Charades本地化评估[29]设置。因此，为了进行公平的比较，我们在相同的设置中评估我们的模型，每个输入仅对25个等采样帧进行预测。Charades挑战中的评估脚本使用相应的类权重缩放每个类的平均精度在推断时，输入被中心裁剪为224 224。我们将性能报告为平均精度（mAP），并测量处理128 10帧输入剪辑的计算要求，我们的网络仅处理128帧由于输入跨步。计算被报告为 GFLOP （浮点运算109），并且可学习参数的数量以百万（M）为单位，即，106.我们不利用任何多作物推理。结果：我们比较了粗精网络与最先进的方法在Charades[29]定位任务上的性能（即，时间活动检测）。对于该评估，我们使用标准测试设置（即，官方的这与以前的工作[20，22，23]中遵循的程序相同。我们报告性能（mAP），计算8390××模型流物镜mAP（%）GFLOPS参数（M）I3D（Inception）[2]15.632223.0312.45双流I3D [2]C17.224446.1024.903D ResNet-50 [11，33]18.603187.6346.52X3D [5]18.8737.963.29X3D-L [5]20.03147.045.78I3D+超级事件[22]C19.414446.1526.18I3D + TGM [23]C21.504446.6627.00I3D+超级事件+TGM [23]C22.304446.7528.28I3D + STGCN [9]CC19.094450.9429.18I3D + biGRU + VS-ST-MPNN[20]C23.702223.03+12.45+[23]第23话：我的世界20.0138.264.35慢速快速检测（使用X3D）22.3154.317.41Fine-Fine（我们的）24.4394.807.80粗-细（我们的）25.1073.377.82表2. 与Charades上最先进的活性检测方法进行比较[29]。我们报告的性能（mAP），计算要求处理一个剪辑的128×10帧（GFLOPs），和参数的数量（M）。这些结果符合-响应原始的Charades本地化评估设置。粗-精网络的表现明显优于先前的最先进技术，为+1。4%的mAP相对改进，同时将计算需求降低一个数量级以上。值得注意的是，我们不使用额外的输入方式，即，光流或物体检测。[20]的源代码无法用于计算其精确的复杂度值。处理128个10帧（GFLOP）的剪辑的要求和参数的数量（M）。我们能够确认我们的粗精网络比以前的所有方法都更好，在Charades本地化上建立仅使用RGB的粗精网络不仅优于以前的RGB模型，而且优于使用附加输入模态（即光流和对象检测）的方法。它显示出+1的相对改善。与之前的最佳性能方法[20]相比，mAP为4%，这得益于额外的训练数据（用于其对象检测器训练）和额外的输入模态（对象）。我们还注意到，粗-细网络非常使粗精网络的相对性能增益为+0。67%的mAP和23%的计算减少。我们还评估了X3D的基线扩展作为一个双流网络（具有不同的时间分辨率），其形式类似于[6]，我们将其命名为SlowFastdet。这没有我们的网格池层或多级融合机制。结果表明，该组件的好处，给出了2 的相对改善。79% 的mAP 。一个更大版本的X3D（即，X3 D-L）表明，与X3 D相比，Coarse-Fine的性能改进还需要注意的是，所有先前的方法都是在从冻结的骨干中预提取特征的基础上工作的，基本上使它们成为后期建模技术，或者使用基于图形的方法[9，20]或者提取长期时间信息[22，23]。相比之下，我们的方法允许在网络的中间位置进行特征融合的端到端训练，使其能够仅使用RGB信息学习更好的表示图2进一步突出了粗-细网络与先前的最新技术相比的益处。我们在这里显示了性能/复杂性的权衡，x轴（GFLOPs中的复杂性）为对数尺度。我们的方法表现出与以前的最佳表现的方法，优于所有以前的国家的最先进的方法，同时是非常有效的设计compa-able性能。4.2. 消融在这里，我们讨论了验证我们的设计决策的多个消融实验，特别是在我们的网格池层和多级融合上。我们使用Charades数据集（具有如上所述的本地化设置）。在我们的消融实验中，我们利用更强大的评估指标来比较我们的方法和基线。我们使模型在每个时间步生成多类活动注释，并将其与地面实况进行比较以测量mAP。这非常类似计算效率高。与以前的模型相比，它通常只需要1/ 75的计算（例如，73对4446 GFLOPS）。此外，该计算没有考虑现有工作中用于光流计算或对象检测的开销。粗精网络的显著计算效率是由于更好地利用了RGB特征，从而无需处理其他模态，以及通过我们的时间网格池和多级融合有效使用了X3D模块，我们将在下一节中通过消融进一步证实这一点。我们进一步报告了我们的方法的一个版本：精细网络，其中网格池层从粗流中删除，以突出粗特征的重要性精细网络仍然受益于我们的多级融合。Grid Pool操作动态地对重要帧进行采样，以生成粗略的时间分辨率，到上面使用的官方不同之处在于（i）针对完整性对25个以上帧进行评估，以及（ii）我们测量每个活动类的mAP并将其平均。融合位置：首先，我们探索我们的双流架构中的哪些位置是实现融合连接的理想位置。我们考虑后期融合作为基线，其中，唯一的融合发生在logits层之前。这与[22，23]中的方法类似。接下来，我们将这种融合扩展到多个中间级别，特别是在每个res块之后，其中我们仅在等效的抽象级别融合两个流，即，在同一深度。这是一种类似于“慢快”的融合[6]。最后，我们考虑多个抽象层次的精细功能的融合，这给我们的多阶段融合。消融结果见表3a。请注意，在这里，我们在一个精细网络中评估我们的融合，以解耦8391××××融合定位mAP（%）GFLOPS融合尺寸mAP（%）GFLOPS仅晚21.8477.15C18.1176.45后期+中期一对一22.5081.80CHW19.8693.12后期+中期多阶段22.6594.80CTHW22.6594.80融合定位融合掩模mAP（%）GFLOPS晚没有一self-attention20.5921.8475.9877.15多级没有一self-attention21.4222.6592.6994.80(a) 融合位置：仅在logits之前使用融合连接，在每个res块之间，w/或w/o考虑每个融合位置处的多（好-好）(b) 融合维度：多阶段融合特征的维度。当时间维度（T）可用时，我们使用粗中心高斯进行位置校准。（好-好）(c) 融合掩码：使用自我注意掩码过滤细粒度上下文的效果（参见图4），具有不同的融合连接。（好-好）合并类型mAP（%）GFLOPs网格池输入αmAP（%）GFLOPS双流网络mAP（%）GFLOPSMax16.2115.42T=128，步幅=10 1/418.1216.53慢速快速检测20.6154.31平均16.6415.421/811.8810.43慢速快速检测（带网格池）20.8255.42大步17.49T=256，步幅= 51/418.1632.82慢速快速检测器（带Fusion）22.7972.16格栅池18.1216.531/815.5620.63粗-细（带网格池，带融合）23.2473.37(d) 池化类型：在res2块之后使用的不同类型的临时池化操作这里使用的时间步长为4（相当于α= 1/4）。（仅粗）(e) Grid Pool配置：采样率α随Grid Pool层输入的不同时间大小而（仅粗）(f) Grid Pool和Multi-stage Fusion组合的重要性：SlowFastdet是一个基线，不带Grid Pool和Multi-stage Fusion。它以不同的帧速率采样输入（快速快4倍），并使用类似于Slow- Fast的融合连接[6]。（粗-细）表3. Charades上的消融[29]比较网格池和多级融合的设计选择的本地化。我们展示了平均精度（mAP）的性能，并测量了在GFLOPs（浮点运算×109）中推断T=128的时间剪辑的计算要求。在这些表中，我们报告了细粒度预测的性能，为每帧做出决策。每个实验中使用的网络配置在每个标题的大括号内示出（仅精细、仅粗略或仅粗略）。粗-细）。在融合实验中使用精细-精细网络来解耦网格池的影响，类似地，在网格池实验中使用仅粗网络来解耦多级融合的影响。网格池的效果。多级融合显示+0。与仅使用晚期融合相比，mAP改善81%考虑多个抽象级别的改进是微不足道的，为+0。15%的mAP，这表明相同抽象级别的特征可以提供最互补的信息。融合维度：我们对融合特征中不同维度的重要性进行了实验。这里考虑仅具有类似于 [22] 的信道维度（C）、信道-空间（CHW）维度或类似于[6]的所有信道-时间-空间该实验的结果报告于表3b中。请注意，在上述任何情况下都不可用的尺寸在融合前平均合并。我们看到，与基线相比，在融合特征中具有所有CHWT维度具有很大的改进，特别是+4。54%的mAP。时间维度（T）的引入显示出最大的改进，其为+2。79%的mAP。这实际上主要是由于我们的融合中的时间高斯，它基于位置校准特征，没有它，我们看不到这样的改进（即，当在两个流中天真地选择对应的时间位置用于融合 w/o 高斯时，在单个流上的 mAP 为+0.61%）。融合掩模：在这里，我们评估在融合的输入处过滤精细特征的重要性，其结果如表3c所示。在多阶段融合设置中，使用自关注掩码自适应地对每个特征点进行加权，可以提高+1。与直接馈送精细特征相比，23%mAP池化类型：接下来，我们将探索由所提出的（时间）网格池层所带来的性能增益。我们与传统的时间池操作，如比如最大池化、平均池化，甚至是简单的时间跨度。在这里，我们报告了一个仅粗略网络的数字，以将网格池的影响与多级融合的影响解耦。在这些实验中，我们设置α=1/4，这基本上意味着4时间下采样，并在res2块之后执行下采样最大池化，平均池化使用类似的设置内核大小为4和步幅为4。网格池相对于其他方法，特别是+1，提供了一致的改进。91% mAP和+1。分别比常用的最大合并和平均合并高出48%mAP。我们还注意到，一个简单的时间跨度可以比最大池化和平均池化好+1。28%的mAP和+0。85%mAP。我们怀疑最大/平均池化的较差性能是由于在X3 D的输入处的激进的时间步幅，其默认为步幅10（即，在池化之后，步幅是40）。在如此大的窗口中，池化倾向于模糊大部分时间信息。网格池配置：我们尝试网格池的不同配置，以评估其性能和计算需求。与上面类似，我们使用仅粗网络。我们考虑在步幅为10时时间长度T=128或在步幅为5时时间长度T = 256的输入，以覆盖字谜视频的整个持续时间[29]。我们尝试使用α = 1/4（4次下采样）或α=1/8（8次下采样）对这些中的每一个进行时间下采样。这些配置的性能在表3e中给出。8降采样显示出明显较低的性能，这表明它以这种激进的步幅丢失了太多的信息，即，更多的帧是重要的并且需要由网格池层采样此外，增加输入帧的数量并不一定改善图像质量。8392MultiTHUMOS mAP（%）××××××性能（仅+0。02% mAP），α=1/4。之间在这些构型中，T=128，α=1/4显示了最佳的40性能/计算权衡。网格池和多阶段融合相结合：最后，我们30评估Grid Pool和Multi-20舞台融合为此，我们考虑一个双流基线没有这些组件，我们称之为慢快检测器。这个10在粗略流中执行基于步幅，并使用精细流和粗糙流之间的直接帧对应进行融合，类似于慢帧，1×100 1×101TFLOPS快速[6]，同时仍然使用像我们这样的X3D模块结果本研究的结果见表3f。与此基线相比，引入网格池或多级融合可提供+0 的一致改进。21% mAP 和+2 。18%mAP。我们的粗精网络比这个基准线高出+2。63%的mAP。与X3 D的权衡：粗精网络的设计使用与X3 D-M的双流版本相似的计算量。使用额外计算的另一种方法是增加层数。为了了解增加的计算是否有意义，我们测试了X3 D-L，这是X3 D的更大版本（表2）。X3 D-L显示20。03%mAP，计算147.04GFLOPS。粗精网络在准确性和速度方面都优于此， 25 。 10%mAP ， 73.37GFLOPS。4.3. MultiTHUMOS数据集：MultiTHUMOS [39]是THU-MOS [14]数据集的扩展，其中未修剪的视频密集注释了65个不同的动作类。它为413个视频中的30小时视频提供帧级动作注释，其中200个用于训练，213个用于验证。平均而言，它每帧包含1.5个标签，每个视频包含10.5个动作类。与Charades相比，它包含的视频数量明显较少[29]，并且每个视频的时间长度较大，这使得训练变得困难。我们创建了此数据的分段版本，其中每个剪辑被限制为最多1280帧，这为Charades提供了类似为了提高计算效率，我们使用时间跨度为10。培训：我们遵循的培训过程类似于我们为Charades所做的。我们遵循两个阶段的训练，我们的粗和细流在Kinetics-400 [16]上预先训练，即，单独和组合。我们使用与Charades相同的超参数设置和训练时间表（参见第4.1小节）。我们使用0的辍学率。5在logits层之前logits通过sigmoid对每个帧进行多标签预测我们使用分类和定位损失的平均值进行训练。推理：在推理时，我们对每一帧进行预测。即使我们的输入是以10的步幅采样的，我们也会考虑所有帧的标签（步幅为1），并对logit进行插值以适应原始的时间长度。每个图5. MultiTHUMOS上最先进的活动检测方法的性能/复杂性权衡[39]。我们的粗-精网络/带TGM显示出与最先进技术相当的性能，速度为1075倍，无需额外输入方式。输入被中心裁剪为224 224。我们报告的perfor-曼斯（mAP），计算要求处理输入剪辑的1024 10帧TFLOPs（109）和可学习的参数（M）的数量。长度102410帧是仅被视为报告复杂度值的参考，数据集中有更长的剪辑，×5帧。我们完全卷积地处理这些帧结果：我们显示了粗精网络在MultiTHUMOS [39]活动检测上的性能（ mAP ）以及相应的计算要求（TFLOPs，即，1012）。我们观察到+4的改善。从X3D [5]到粗-细的63%虽然我们的粗精网络比之前的模型快了近75倍（0.49 TFLOPS（粗-细）vs.35.57 TFLOPS（I3 D + TGM）），使用X3 D主干的模型（包括我们的模型）由于与不进行跨步的I3 D [2]TGM [23]）。尽管如此，我们的Corase-Fine网络能够克服这种限制，并表现得相当出色。Coarse-Fine/w TGM显示出进一步改善+2。21%的mAP。5. 结论我们提出了粗精网络，这是一个双流架构，结合时间粗表示与精细表示。我们介绍了时间网格池的方法，该方法学习区分地选择信息帧，同时丢弃其他帧，以获得粗略表示。我们还引入了多级融合，以最好地结合粗流与细流。我们证实，粗精网络在Charades本地化方面获得了最佳的性能，同时花费的计算时间要少得多。鸣谢：这项工作得到了国家科学基金会的支持（IIS-2104404和CNS-2104416）。作者感谢AJ Piergiovanni进行了有益的讨论。I3D+超级事件+TGM粗-细+TGM粗精I3D +TGMX3D + TGMI3D+超级事件X3di3DRGB流8393引用[1] Fabien Baradel ， Natalia Neverova ， Christian Wolf ，Julien Mille和Greg Mori。视频中的对象级视觉推理在欧洲计算机视觉会议（ECCV）的会议记录中，第105-121页，2018年。2[2] Joao Carreira和Andrew Zisserman你说的是行动识别吗新模型和动力学数据集。在IEEE计算机视觉和模式识别会议上，第6299-6308页，2017年。二四六八[3] 戴继丰、齐浩之、宇文雄、李毅、张国栋、韩虎、魏一晨。可变形卷积网络。在IEEE计算机视觉国际会议论文集，第764-773页2[4] 维克多·埃斯科西亚，法比安·卡巴·海尔布隆，胡安·卡洛斯·尼布尔斯和伯纳德·加尼姆。Daps：为行动理解而提出的深度行动建议欧洲计算机视觉会议，第768-784页Springer，2016. 2[5] 克里斯托夫·费希滕霍夫。X3D：扩展架构以实现高效的视频识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第203-213页二四六八[6] Christoph Feichtenhofer，Haoqi Fan，Jitendra Malik，andKaiming He.用于视频识别的慢速网络在IEEE计算机视觉国际会议的Proceedings中，第6202-6211页一、二、六、七、八[7] ChristophFeichtenhofer，AxelPinz和AndrewZisserman。视频动作识别的卷积双流网络融合。在IEEE计算机视觉和模式识别会议论文集，第19332[8] Jun Gao ， Zian Wang ， Jinchen Xuan ， and SanjaFidler.Beyond fixed grid ： Learning geometric imagerepresentation with a def

下载后可阅读完整内容，剩余1页未读，立即下载