未修剪视频中的多尺度时间变换器

158 浏览量更新于2023-10-25 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20041MS-TCT：用于动作检测的多尺度时间变换器RuiDai 1，2，SrijanDa s3，KumaraKahatapitiy a3，MichaelS.Ryoo3，FrancoisBre'mond1，21Inria2 Univ ersite'Cote{name.surname}@ inria.fr摘要动作检测是一项重要且具有挑战性的任务，特别是在未修剪视频的密集标记数据集中。这种数据由复杂的时间关系组成，包括复合或共同发生的动作。为了检测这些复杂环境中的动作，关键是有效地捕获短期和长期时间信息。为此，我们提出了一种新的该网络包括三个主要组件：（1）时间编码器模块，其以多个时间分辨率探索全局和局部时间关系，（2）时间尺度混合器模块，其有效地融合多尺度特征，创建统一的特征表示，以及（3）分类模块，其及时学习每个动作实例的中心相对位置，并预测帧级分类分数。我们在多个具有挑战性的数据集，如 Charades ， TSU 和MultiTHUMOS上的实验结果，验证了所提出的方法的有效性，其在所有三个数据集上的性能优于最先进的方法。1. 介绍动作检测是计算机视觉中的一个著名问题，其目的是在未修剪的视频中发现动作之间的精确时间边界。它与现实世界的设置非常一致，因为视频的每一分钟都可能充满了要检测和标记的多个动作有一些公共数据集[10，41，51]提供了密集的注释来解决这个问题，具有类似于现实世界的动作分布。然而，这样的数据可能是具有挑战性的，多个动作在不同的时间跨度上同时发生，并且具有有限的背景信息。因此，理解动作之间的短期和长期时间例如，“拿食物”的动作1代码/型号：https://github.com/dairui01/MS-TCT图1. 未修剪视频中的复杂时间关系：在这里，我们展示了密集标记视频中的典型动作分布，其中包括动作之间的长期和短期依赖关系。术语动作依赖性。此外，“把东西放在桌子上”和“做三明治”的发生这个例子表明，需要一个有效的时间建模技术来检测密集标记的视频中的动作。为了对未修剪视频中的时间关系进行建模，多个先前的方法[8，9，11，12，30，38]使用1D时间卷积[30]。然而，受限于其内核大小，基于卷积的方法只能直接访问本地信息，而不能学习视频中时间上遥远的片段之间的直接关系（这里，我们将一组连续帧视为一个片段）。因此，这样的方法不能对可能对于动作检测重要的段之间的长距离交互进行随着Transformers [16，34，44，56]在自然语言处理和最近的计算机视觉中的成功，最近的方法[42，43]利用多头自注意（MHSA）对视频中的长期关系进行建模，以进行动作检测。这样的注意力机制可以在每个时间段之间建立直接的一对一全局关系（即，时间令牌）来检测高度相关和复合动作。然而，现有的方法依赖于对输入帧本身的这种长期关系进行建模。在这里，时间令牌仅覆盖几个帧，这通常太短。持续时间1,220042的行动实例。此外，在这种设置中，变换器需要明确地学习由于时间一致性而产生的相邻k之间的强关系，而对于时间卷积来说这是自然的（即，局部感应偏置）。因此，纯Transformer架构可能不足以对动作检测的复杂时间依赖性进行建模。为此，我们提出了多尺度时间 ConvTrans- former（MS-TCT），这是一种受益于卷积和自我注意力的模型。我们使用卷积，一种基于令牌的体系结构，用于促进令牌的多个时间尺度，并且容易地混合相邻令牌，从而提高时间一致性。事实上，MS-TCT建立在使用3D卷积主干编码的时间段之上[4]。每个时间段被认为是MS-TCT的单个输入标记，在具有不同时间尺度的多个阶段中进行处理。这些尺度由时间段的大小决定，时间段被认为是每个阶段输入端的单个标记。具有不同的尺度允许MS-TCT在早期阶段学习原子动作（例如“打开冰箱”）之间的细粒度关系，以及在后期阶段学习复合动作（例如“烹饪”）之间的更具体地说，每个阶段包括用于合并令牌的时间卷积层，随后是一组多头自注意层和时间卷积层，它们分别对令牌之间的全局时间关系进行建模并注入局部信息。由于卷积引入了感应偏置[15]，因此在MS-TCT中使用时间卷积层可以注入与令牌相关的位置信息[21，23]，甚至不需要任何位置嵌入，这与纯变换器不同[16]。在对不同尺度的时态关系建模的基础上，利用混合器模块对各个阶段的特征进行融合，得到统一的特征表示。最后，为了预测密集分布的动作，除了通常的多标签分类分支之外，我们还在MS-TCT该热图鼓励网络预测每个动作类的实例的相对时间位置。图2示出了相对时间位置，其基于由实例中心及其持续时间参数化的高斯滤波器来计算。它表示相对时间位置w.r.t.发送到动作实例中心通过这个新分支，MS-TCT可以在令牌表示中嵌入类相对时间位置，从而鼓励复杂视频中的有区别的令牌分类。总之，这项工作的主要贡献是（1）提出一个有效和高效的ConvTransformer来建模未修剪视频中的复杂时间关系，（2）引入一个新的分支来学习相对于实例中心的位置，这促进了密集标记视频中的动作检测，以及（3）改进了三个具有挑战性的密集标记动作数据集的最新技术。图2. 相对时间位置热图（G）：我们提出了一个视频剪辑，其中包含两个重叠的动作。高斯函数表示时间热图的强度，其在时间上集中在每个动作的中点。2. 相关工作近年来，动作检测受到了很多关注[7，12，14，20，31，50，53]。在这项工作中，我们专注于密集标记视频中的动作检测[10，41，51]。对复杂时间关系建模的早期尝试倾向于使用基于锚的方法[5，49]。然而，密集的作用分布需要大量的这样的锚。Su- perevent [37]利用一组高斯滤波器来学习视频片段，随后使用软注意力机制对其进行总结，以形成全局表示。然而，由于这些高斯函数与输入视频无关，它不能有效地处理具有较小频率的复合动作的视频。类似地，TGM [38]也是一种基于高斯分布的时间滤波器，它可以用有限数量的参数学习更长的时间结构。PDAN [9]是一种时间卷积网络，具有自适应输入数据的时间内核。虽然TGM和PDAN在建模复杂的时间关系方面实现了最先进的性能，但这些关系被约束到局部区域，从而防止它们学习远程关系。粗-精网络[26]以慢-快[18]的方式利用两个X3 D [17]网络。该网络可以联合建模时空关系.但是，它受到X3D骨干网输入帧数的限制，需要很大的步幅这阻止了粗-细网络考虑长视频中的细粒度细节来检测动作边界。一项并行工作[25]研究了仅使用分类标签的检测预训练，以改善下游动作检测。最近，已经提出了一些尝试来显式地对长期关系进行建模：MTCN [28]受益于动作和标签的时间上下文，而TQN [52]将类别分解为预定义的属性查询以预测细粒度的动作。然而，将这两种方法扩展到未修剪视频中的动作检测并非易事。最近的Transformer模型在图像和视频领域都取得了成功[1，2，6，16，34，35，39，45，46，48，54，56]。尽管诸如TimeS- former [44]的视觉变换器可以考虑帧级输入令牌来建模时间关系，但它仅限于短视频剪辑，20043∈联系我们×图3.用于动作检测的多尺度时间ConvTransformer（MS-TCT）由四个主要组件组成：（1）视觉编码器，（2）时间编码器，（3）时间尺度混合器（TS混合器）和（4）分类模块。这里，TC指示具有内核大小k的1D卷积层。不足以对较长的真实世界视频中的细粒度细节进行建模。作为一种折衷方案，最近的动作检测方法在顶部使用多头自注意层由3D卷积骨干编码的视觉片段[4] 。 RTD-Net [42] 是 DETR [56] 的扩展，使用Transformer解码器来建模提案和令牌之间的关系。然而，该网络仅针对稀疏注释的视频设计[3，24]，其中每个视频仅在密集动作分布中，RTD-Net中检测边界的模块无法分离前景和背景区域。MLAD [43]学习特定于类的特征，并使用Transformer编码器来建模每个时间步的类关系和每个类的时间关系。然而，MLAD难以处理具有复杂标签的数据集[41]，因为很难在此类视频中提取特定于类别的特征。与这些用于动作检测的变压器相比，我们提出了一种ConvTransformer：MS-TCT，它继承了变压器编码器架构，同时也从时间卷积中获得了好处。我们的方法可以在不同的时间尺度上对虽然其他ConvTransformers [15，21，27，47]用于图像分类，但我们的网络是为密集标记的动作检测而设计的。3. 多尺度时间转换器首先，我们定义了密集标记设置中的动作检测问题陈述。形式上，对于长度为T的视频序列，每个时间步长t包含地面实况动作标签y t，c0，1，其中c1、…C表示一个操作类。对于每个时间步，动作检测模型需要预测类概率yt，c[ 0，1]。在这里，我们描述了我们提出的动作检测网络：MS-TCT。如图3所示，它由四个主要部件组成：（1）对初级视频表示进行编码的视觉编码器在结构上对不同时间尺度下的时间关系进行建模（即，分辨率），（3）时间尺度混合器，称为TS混合器，其组合多尺度时间表示，以及（4）分类模块，其预测类别概率。在以下部分中，我们将详细介绍MS-TCT的每个组件。3.1. 视觉编码器我们的动作检测网络的输入：MS-TCT，是一个未修剪的视频，可能持续很长时间[10]（例如，多分钟）。然而，在空间和时间维度上处理长视频可能是有挑战性的，这主要是由于计算负担。作为比较，类似于先前的动作检测模型[9，38，43]，我们将3DCNN提取的视频片段的特征视为MS-TCT的输入，MS-TCT将空间信息潜在地嵌入通道。具体来说，我们使用I3D骨干[4]来编码视频。每个视频被分成T个不重叠的片段（在训练期间），每个片段由8个帧组成。这样的RGB帧作为输入段被馈送到I3D网络。每个段级特征（I3D的输出）可以被视为时间步长的Transformer令牌（即，时间令牌）。我们沿着时间轴堆叠令牌以形成TD0视频令牌表示，以馈送到时间编码器。3.2. 时间编码器如第1节所述，有效的节奏建模对于理解视频中的长期时间关系至关重要，尤其是对于复杂的动作组合。给定一组视频令牌，有两种主要方法来建模时间信息：使用（1）1D时间卷积层[30]，其专注于相邻令牌，但忽略了视频中的直接长期时间依赖性，或（2）Transformer [44]层，其全局编码所有令牌的一对一交互。20044∈HJ×J×∈IJIJIJH∈n我们将输入标记表示为XjRT′×D′。首先，令牌通过全局关系块中的多头注意层，该层由H个注意头组成。对于每个头i∈ {1，...，H}，将输入Xj投影到Qij=WQ Xj，Kij=WK Xj和Vij=WVXj，其中ij ij ij ijW Q， WK，WV ∈RDh×D′表示线性系统的权值图4.我们的时间编码器的一个阶段包括（1）一个时间合并块和（2）×B全局-局部关系D h=D′表示每个头部的特征尺寸。因此，头部i的自我注意力计算为：QijKijAttij= Softmax（D）Vij。（一）个街区. 每个全局-局部关系块包含一个全局和一个本地关系块。这里，Linear和TC分别表示内核大小为1和k的1D卷积层令牌，而忽略了本地语义，这已被证明有利于建模高度相关的视觉信号[19，22]。我们的时间编码器受益于最好的两个世界，通过探索本地和全球的上下文信息在一个交替的方式。如图3所示，时间编码器遵循具有N个阶段的层次结构：较早的阶段学习具有更多时间tokens的细粒度动作表示，而较后的阶段学习具有更少tokens的粗略每个阶段对应于一个语义级别（即，时间分辨率），并由一个时间合并块和B全局-局部关系块组成（见图1）。4）：时间合并块是引入网络层次结构的关键组件，它减少了节点的数量（即，时间分辨率），同时增加特征维度。该步骤可以被视为相邻令牌之间的加权池化操作在实践中，我们使用单个时间卷积层（通常内核大小为k，步幅为2）将令牌数量减半，并将通道大小扩展γ。在第一阶段，我们保持步幅为1，以保持与I3D输出相同的令牌数量，并将特征大小从D0投影到D（见图3）。这只是一个设计选择。全局-局部关系块被进一步分解为全局关系块和局部关系块（参见图4）。在全局关系块中，我们使用标准的多头自注意层[44]来建模长期动作依赖性，即，全球背景关系。在局部关系块中，我们使用时间卷积层（内核大小为k）通过注入来自相邻令牌的上下文信息来增强令牌局部感应偏置这增强了每个标记的时间一致性，同时对与动作实例相对应的在下文中，我们在全局-局部关系块内制定计算流程。为了简洁起见，在这里，我们删除阶段索引n。对于块j ∈ {1，.， B}，然后，将不同注意力头的输出与附加线性层混合，Mj = W0 Concat（Att1j，.，属性Hj）+Xj，（2）其中W ORD′×D′表示线性层的权重。多头注意力层的输出特征尺寸与输入特征尺寸相同接下来，多头注意力的输出令牌被馈送到局部关系块，该局部关系块由两个线性层和一个时间卷积层组成如图4所示，令牌首先通过线性层以将特征维度从D'增加到θD'，然后是具有k核大小的时间卷积层，其混合相邻令牌以向时间令牌提供局部位置信息[23]。最后，另一个线性层将特征尺寸投影回D′。该块中的两个线性层实现了多头注意层和时间卷积层之间的过渡。输出特征尺寸保持与局部关系块的输入特征相同如果块jB，则将该输出馈送到下一个全局关系块<。来自每个阶段的最后一个全局-局部关系块的输出令牌被组合并馈送到下面的时间尺度混合器。3.3. 时间比例混合器在获得不同时间尺度的令牌之后，剩下的问题是，如何聚合这样的多尺度令牌以具有统一的视频表示？为了预测动作概率，我们的分类模块需要在作为网络输入的原始时间长度上进行预测。因此，我们需要跨时间维度内插令牌，这是通过执行上采样和线性投影步骤来实现的。如图5，对于来自阶段n的输出{1，…，N}，该运算可以公式化为，ngn（Fn）=上采样（FnW），（3）其中W nRDv×γn−1D，上采样率为n。在我们的分层架构中，较早的阶段（具有较低的语义）具有较高的时间分辨率，而后者20045√×2··∈1−（t-ta，c）2Gaussian（t，ta，c;σ）=exp2πσ2σ2。（七）图5. 时间尺度混合器模块：阶段n的输出令牌Fn被调整大小并上采样到T Dv，然后与来自最后阶段N的令牌求和。这里，Gaussian（，;σ）根据中心和实例持续时间提供实例特定的高斯激活此外，σ等于每个实例持续时间的1，并且ta，c表示类c和实例的中心a. c是视频中类别c的实例总数。如图3所示，热图G是使用具有k的内核大小和非线性激活的时间卷积层，随后是具有S形激活的另一线性给定地面实况G和预测的热图G，我们计算动作焦点损失[32，55]，其公式为：1Σ。（1−Gt，c）2log（Gt，c）如果Gt，c=1，阶段（具有高语义）具有较低的时间分辨率，第为了平衡分辨率和语义，来自最后阶段N的上采样的令牌通过线性映射L焦点=At，c（1−Gt，c4（G）t，c）2log（1−Gt，c）否则，（八）层，并与来自每个阶段的上采样令牌（n N）求和。该操作可以公式化为，Fn′=gn（Fn）<$gN（FN）Wn，（4）其中，F′是阶段n的细化令牌，其中A是视频中动作实例的总数。与之前的工作类似[9，43]，我们利用另一个分支来执行通常的多标签分类。对于视频特征Fv，使用具有sigmoid激活和Binary Cross的两个线性层n逐元素加法与Wn∈RDv×D v. 在这里，所有的重新-[36]《易经》云：“君子之道，焉可诬也？有始有卒者，其惟圣人乎！真理标签只有从该分支预测的分数细化的令牌表示具有相同的时间长度。最后，我们将它们连接起来，得到最终的多尺度视频表示Fv∈RT×NDv。Fv=Concat（F1′，...， FN′−1，FN）.（五）请注意，可以在这些多尺度令牌之上构建更复杂的融合方法[13，33]然而，我们看到上面描述的简单版本性能最好。然后，将多尺度视频表示Fv发送到分类模块以进行预测。3.4. 分类模块训练MS-TCT是通过联合学习两个分类任务来实现的。如第1节所述，在这项工作中，我们引入了一个新的分类分支来学习动作实例的热图。该热图不同于地面实况标签，因为它基于动作中心和持续时间而随时间变化。使用这种热图表示的目的是在MS-TCT的学习令牌中编码时间相对位置。为了训练热图分支，我们首先需要构建类的真实热图响应G<$[0，1]T×C，其中C表示动作类的数量。在这项工作中，我们通过考虑一组一维高斯滤波器的最大响应来构造G每个高斯滤波器对应于视频中的动作类的实例，在时间上以特定动作实例为中心。更确切地说，对于每个时间位置t，地面实况热图响应被公式化为，用于评价。两个分支的输入是相同的输出令牌Fv。热图分支鼓励模型嵌入相对位置w.r.t.该实例以视频令牌Fv为中心。因此，分类分支也可以受益于这样的位置信息，以做出更好的预测。总损失用公式表示为上述两种损失的加权和，根据损失的数值尺度选择权重αL总计=LBCE+ αL局灶性（九）4. 实验数据集：我们在三个可识别的多标签动作检测数据集上评估了我们的框架：Charades [41]， TSU [10]和MultiTHUMOS [51]。Charades [41]是一个包含9848个日常室内动作视频的大型数据集。该数据集包含157个动作类的66K+时间注释，不同类的动作实例之间具有高度重叠。这与其他动作检测数据集（如ActivityNet[3]）形成对比，后者每个时间步只有一个动作。我们对数据集的本地化设置进行评估[40]。与字谜相似，TSU [10]也记录在室内环境中，注释密集。在一个给定的帧中最多可以同时发生5个动作。然而，与哑谜不同，TSU有许多长期的复合动作。MultiTHUMOS [51]是THUMOS'14 [ 24 ]的扩展版本默认情况下，我们评估每帧Gc（t）= maxa =1，…一个c 高斯（t，ta，c;σ），（6）20046这些密集标记的数据集上的mAP遵循[40，51]。20047实现细节：在所提出的网络中，我们使用阶段N=4的数量的全局-局部关系块B=3的每个阶段。注意，对于MultiTHUMOS这样的小数据集，B=2就足够了。全局关系块的注意力头数设置为8.我们使用I3 D的相同输出特征维度（在全局平均池化之后）作为MS-TCT的输入，因此D0=1024。然后在第一阶段中使用时间合并块将输入特征投影到D=256维特征中。我们考虑特征扩展率γ=1。5，θ=8。时间卷积层的核大小k被设置为3，其中零填充以维持分辨率。损失平衡系数 α=0 。 05.令牌的数量固定为T=256，作为MS-TCT的输入。在训练过程中，我们从给定的I3D特征表示中随机抽取连续的T个在推理中，我们遵循[43]使用滑动窗口方法进行预测。我们的模型在两个GTX 1080 Ti GPU上训练，批量大小为32。我们使用Adam优化器[29]，初始学习率为0.0001，其比例为0.5，耐心为8个epoch。4.1. 消融研究在本节中，我们研究了Charades数据集上拟议网络中每个组件的有效性。MS-TCT中每个组分的重要性：如表1所示，仅具有分类分支的I3 D特征该基线包括在每个时间步区分I3D特征而无需任何进一步的时间建模的分类器最重要的是，添加我们的时间编码器显着提高了性能（+7.0%）w.r.t.I3D特征基线。这一改进反映了Tempo-ral Encoder在对视频内的时间关系进行建模方面的有效性。此外，如果我们引入一个时间尺度混合器来混合来自不同时间尺度的特征，它会带来+ 0.5%的改进，而计算量的增加最小。最后，我们研究了我们的热图分支在分类模块中的效用。我们发现，当与分类分支一起优化时，热图分支是有效的，但当没有它时，无法学习区分表示（25.4% vs 10.7%）。热图分支鼓励标记预测动作中心，同时向动作边界淡化标记。相比之下，分类分支改进了所有标记的标记表示，尽管有动作边界。因此，当一起优化时，两个分支使模型能够学习更好的动作表示。在具有所有组件的同时，所提出的网络实现了显著的± 9.8%的相对于时间的改进。I3 D功能基线验证MS- TCT中的每个组件都有助于动作检测任务。阶段的设计选择在表2中，我们展示了与时间表中阶段的设计选择相关的消融。表1. MS-TCT中每个组件的消融：评价基于Charades数据集上的每帧mAP。时间编码器TS混合器热图分支分类分支地图（%）✗✗✗✓15.6✓✗✗✓23.6✓✓✗✓24.1✓✓✓✗10.7✓✓✓✓25.4表2.在我们的Tempo- ral编码器中的单级设计上进行消融，使用Charades数据集上的每帧mAP进行评估时间合并全球层当地层地图（%）✓ ✓ ✗24.0✓ ✗ ✓20.9✗ ✓ ✓22.7✓✓✓25.4编码器。表2中的每一行表示在每个阶段中移动组件的结果。注意，移除时间合并块指示用步幅1的时间卷积层替换该块，即，仅跨级修改通道尺寸。在表2中，我们发现，删除任何组件都可能导致性能大幅下降。这一观察结果表明了在我们的方法中联合建模全局和局部关系的重要性，以及多尺度结构的有效性。MS-TCT中的这些属性使得更容易学习跨越（1）相邻时间段和（2）远距离时间段两者的复杂时间关系。局部关系块的分析：我们还深入挖掘了每个阶段的局部关系块。如图4，在局部关系块中存在两个线性层和一个时间卷积层在表3中，我们进一步对这些部件进行了消融首先，我们发现，如果没有时间卷积层，检测性能下降。这一观察结果显示了将Transformer令牌与时间局部性混合的重要性。其次，我们研究了过渡层的重要性（即，线性层）。当特征尺寸保持恒定时，具有过渡层可以将性能提高+1.8%，这表明了这种过渡层的重要性。最后，我们研究了扩展速率对网络性能的影响。通过设置不同的特征扩展率，我们发现当输入特征在高维空间时，时间卷积能更好地模拟局部时间关系4.2. 与最新技术水平的在本节中，我们将MS-TCT与最先进的动作检测方法进行了比较（见表4）。基于Pro的方法，如R-C3 D[49]在多标签中失败200487表3.局部关系块的设计烧蚀每帧mAP上的字谜只使用RGB输入. 表示我们删除了线性或时间卷积层。特征扩展率1表示特征大小在局部关系块中没有改变。特征扩展速率（θ）时间卷积地图（%）8✗22.3✗✓22.41✓24.24✓24.98✓25.4表4.在三个密集标记的数据集上与最先进的方法进行比较Backbone表示可视编码器。注意，对方法的评估基于仅使用RGB视频的每帧mAP（%）。骨干GFLOPS 字谜MultiTHUMOSTSUR-C3D [49]C3d-12.7-8.7超级事件[37]i3D0.818.6 36.417.2TGM [38]i3D1.220.6 37.226.7PDAN [9]i3D3.223.7 40.232.7[26]第二十六话X3d-25.1--MLAD [43]i3D44.818.4 42.2-MS-TCTi3D6.625.4 43.133.7由于高度重叠的动作实例，这对提案和基于NMS的方法提出了挑战Su-perevent [37]基于一系列可学习的时间滤波器将全局表示叠加到每个局部特征。然而，动作的分布因视频而异。由于超级事件为训练分布中的所有视频学习固定的过滤器位置，因此该位置主要适用于高频动作。TGM [38]和PDAN [9]是基于视频片段的时间卷积的方法。然而，这些方法仅在单个时间尺度上局部地处理视频因此，它们在建模长期依赖性和高级语义方面并不有效粗精网络[26]在字谜游戏中获得25.1%。然而，这种方法是建立在视频编码器X3D[17]之上的，这防止了使用更高数量的输入帧。此外，它依赖于帧之间的大步幅。因此，它无法建模细粒度的动作关系，并且不能处理MultiTHUMOS和TSU中的长视频。MLAD [43]联合建模每个时间步的动作类关系和每个类的时间关系。这种设计导致了巨大的计算成本，同时在具有大规模图6.在示例视频上沿时间轴显示检测结果在该图中，我们可视化了PDAN和MS-TCT的地面观察到MS-TCT的FLOP在合理的裕度下高于纯卷积方法（即，PDAN、TGM、超级事件）。然而，与基于Transformer的动作检测方法MLAD相比，MS-TCT仅使用1/1FLOP。我们也用行动条件来评估我们的网络在表5中的Charades数据集上引入了[43]中的度量。这些度量用于测量方法对动作类的共现依赖性和时间依赖性进行建模的能力。虽然我们的网络不是专门设计来模拟跨类关系，如在MLAD中，它仍然在所有动作条件度量上实现了更高的性能，具有很大的裕度，这表明MS-TCT有效地模拟了时间步长内的动作依赖性（即，共现动作，τ= 0）和贯穿时间维度（τ >0）。最后，我们在图6中的Charades数据集上对PDAN和MS-TCT进行了定性评估。由于粗精网络的预测效果类似于X3D网络，而X3D网络仅限于几十帧，因此无法在整个视频上与粗精网络进行比较。在这里，我们观察到，MS-TCT可以更精确地预测动作实例相比，PDAN。这种比较反映了Transformer体系结构和多尺度时态建模的有效性4.3. 讨论及分析Transformer ， Convolution 还是 ConvTransformer ？为了证实我们的ConvTransformer的有效性，我们比较了一个纯变压器网络和一个纯卷积网络。每个网络具有与MS-TCT相同数量的级，具有类似的设置（例如，块、特征尺寸）。在纯Transformer中，池化层和线性层构成时间合并块，随后是每个阶段中的B个Transformer块一个Transformer模块由一个多头关注层、规范层、动作类的数量（例如，字谜）。由于在多尺度层次结构中结合了Transformer和卷积，所提出的MS-TCT在我们考虑的所有三个具有挑战性的多标签动作检测数据集中我们还比较了建立在相同视觉编码器之上的方法的计算要求（FLOP）（即，I3D特征），将同一批数据作为输入我们添加操作和前馈层。学习的位置嵌入被添加到输入标记以编码位置信息。这种纯 Transformer 架构在Charades上实现了22.3%。在纯基于卷积的模型中，我们保留与MS-TCT中相同的时间合并块，然后是B个时间卷积块的堆栈。每个块由内核大小为k的时间卷积层、线性层、非线性激活层、200498 42表5.使用动作条件度量对Charades数据集进行评估[43]：与MLAD类似，RGB和光流都用于评估。P-AC-条件精确度，R-AC-条件回忆率，F1-AC-条件F1-分数，mAP-条件平均精确度。τ表示时间窗口大小。τ = 0τ = 20τ = 40PACRACF1ACmAPACPACRACF1ACmAPACPACRACF1ACmAPACi3D14.31.32.115.212.71.92.921.414.92.03.120.3CF10.31.01.615.89.01.52.222.210.71.62.421.0MLAD [43]19.37.28.928.918.98.910.535.719.69.010.834.8MS-TCT26.315.519.530.727.618.422.137.627.918.322.136.4表6. 关于同时具有回旋和自我注意力的效果的阶段类型的研究。表7. 研究了高斯尺度对热图中σ的影响。阶段类型地图纯Transformer22.3纯卷积21.4ConvTransformer25.4方差：σ地图1/8持续时间24.61/4持续时间24.8和残余链接。这种纯时间卷积架构在Charades上实现了21.4%。相比之下，所提出的ConvTransformer比纯transformer 和纯卷积网络的性能都要好得多（在Charades上分别为+3.1%和+ 4.0%）。见表6）。这表明ConvTransformer可以更好地建模复杂动作的时间关系。热图分析：我们在图1中可视化地面实况热图（G）和相应的预测热图（G）。7 .第一次会议。我们观察到，使用热图分支，MS-TCT预测动作实例的中心位置，表明MS-TCT将中心相对信息嵌入到令牌中。然而，当我们优化焦点损失以突出中心时，此热图中动作实例的边界不太明显。然后我们研究了σ对性能的影响。如表7中所示，我们将σ设置为实例持续时间的1、1或1，同时生成地面实况热图G。MS-TCT分别提高± 0.5%、± 0.7%、± 1.3%。当Gβ设置为不同的σ时，没有热图分支的MS-TCT。该结果反映了较大的σ可以更好地提供中心相对位置。我们通过向另一个动作检测模型PDAN添加热图分支来进一步研究。虽然热图分支也提高了PDAN（+0.4%），相对改善低于MS-TCT（+1.3%）。我们的方法具有多级层次结构以及TS混合器。由于热图分支从所有阶段获取输入，因此即使在早期阶段也会嵌入中心相对位置具有相对位置信息的这种令牌在被馈送通过以下阶段时有利于多头注意力更好地对令牌之间的时间关系进行建模。与PDAN相比，这种设计使MS-TCT时间位置嵌入：我们进一步研究MS-TCT的时间编码器是否受益于位置嵌入。我们发现性能下降图7. 沿时间轴的热图可视化：在顶部，我们显示了示例视频的地面实况热图（G）底部是MS-TCT的相应学习热图（G）由于热图是由高斯函数生成的，因此较亮的区域表示更靠近实例的中心。在使用时间编码器处理输入标记之前，将可学习的位置嵌入[16]添加到输入标记中时，Charades的效果为0.2%。这表明当前的设计可以隐式地为标记提供时间定位。向标记添加进一步的位置信息使其冗余，从而导致较低的检测率。5. 结论在这项工作中，我们提出了一种新的ConvTransformer网络：MS-TCT的动作检测。它受益于卷积和自注意力，分别在多个时间尺度上对局部和全局时间关系进行此外，我们引入了一个新的分支来学习动作实例中心的类相关位置。MS-TCT在三个具有挑战性的密集标记的动作检测基准上进行评估，并在此基础上实现了新的最先进的结果。鸣谢：这项工作得到了法国政府的支持，通过国家研究机构管理的3 IA蓝色海岸未来这项工作也得到了美国国家科学基金会（IIS-2104404和CNS-2104416）的部分支持。作者非常感谢Uni-versit e'C oCéranted' Azur提供的OPAL基础设施，感谢他们提供的资源和支持。20050引用[1] Anurag Arnab ， Mostafa Dehghani ， Georg Heigold ，Chen Sun，MarioLu c. VIVIT：视频视觉Transformer。arXiv预印本arXiv：2103.15691，2021。2[2] Gedas Bertasius，Heng Wang，and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗？arXiv预印本arXiv：2102.05095，2021。2[3] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：用于人类活动理解的大规模视频基准。在 Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中，第961-970页，2015年。三、五[4] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在2017年IEEE计算机视觉和模式识别会议，第4724-4733页。IEEE，2017年。二、三[5] Guang Chen ， Can Zhang ， and Yuexian Zou.AFNet ：Tempo- ral Local-aware Network with Dual Structure forAccurate and Fast Action Detection.IEEE Transactions onMultime- Dia，2020。2[6] Bowen Cheng ， Alexander G Schwing ， and AlexanderKirillov. 每像素分类并不是语义分割所需的全部arXiv预印本arXiv：2107.06278，2021。2[7] Rui Dai，Srijan Das，and Francois Bremond. 以跨模态知识萃取学习增强 rgb 表示法于动作侦测。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第13053-13064页，2021年10月。2[8] Rui Dai，Srijan Das，and Francois F Bremond. CTRN：Class Temporal Relational Network For Action Detection.在BMVC 2021 -英国机器视觉会议，Vir- tual，英国，2021年11月。1[9] 戴瑞，斯里扬·达斯，卢卡·明丘洛，洛伦佐·加拉托尼，吉安皮耶罗·弗朗西斯卡，弗朗索瓦·布雷蒙德.PDAN：Pyramid Dilated Attention Network for Action Detection金字塔扩张注意力网络动作侦测在IEEE/CVF计算机视觉应用冬季会议（WACV）的论文集中，第2970-2979页，2021年1月一二三五七八[10] Rui Dai，Srijan Das，Saurav Sharma，Luca Minciullo，Lorenzo Garattoni ， Francois Bremond ， and GianpieroFrancesca. Toyota Smarthome Untrimmed：用于活动检测的真实世界未修剪视频。 arXiv 预印本 arXiv ：2010.14982，2020。一、二、三、五[11] Rui Dai，Luca Minciullo，Lorenzo Garattoni，GianpieroFrancesca，andFran c. 自我注意时间卷积网络用于长期日常生活活动检测。2019年第16届IEEE高级视频和基于信号的监控（AVSS）国际会议，第1-7页。IEEE，2019。1[12] Xiyang Dai，Bharat Singh，Joe Yue-Hei Ng，and LarryDavis.Tan：用于密集多标签动作识别的时间聚合网络2019年IEEE计算机视觉应用冬季会议（WACV），第151-160页IEEE，2019。一、二[13] Yimian Dai，Fabian Gieseke，Stefan Oehmcke，YiquanWu，and Kobus Barnard.注意特征融合进行中-IEEE/CVF计算机视觉应用冬季会议，第3560-3569页，2021年。5[14] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos、Da- vide Moltisanti、Jonathan Munro、TobyPerrett、Will Price和Michael Wray。缩放自我中心的愿景：史诗厨房数据集。欧洲计算机视觉会议（ECCV），2018年。2[15] 阿斯科利Conv

下载后可阅读完整内容，剩余1页未读，立即下载