关系映射的编码器-解码器框架，用于时间动作检测

59 浏览量更新于2023-11-30 收藏 1.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文ReAct：使用关系映射的石定峰1人，钟玉杰2人，曹琼3人，张静4人，林马2人，贾丽1人，大成涛3人， 4人1北京航空航天大学2美团网3JD Explore学院4悉尼大学抽象的。这项工作的目的是在推进时间动作检测（ESTO）使用编码器-解码器框架与动作查询，类似于DETR，这在对象检测方面取得了巨大的成功。然而，该框架如果直接应用于分类器，则会遇到以下几个问题：解码器中查询间关系的探索不足，由于训练样本数量有限而导致的分类训练不充分，以及推断时的分类分数不可靠为此，我们首先在解码器中提出了一种关系注意机制，它根据查询之间的关系来引导查询之间的注意。此外，我们还提出了两个损失，以促进和稳定动作分类训练。最后，我们建议在推理时预测每个动作查询的本地化质量，以区分高质量的查询。所提出的方法，命名为ReAct，实现了国家的最先进的性能在THUMOS 14上，与以前的方法相比，具有更低的计算成本。此外，进行了广泛的消融研究，以验证每个拟议组件的有效性该代码可在https://github.com/sssste/React上获得。1介绍由于深度学习时代的到来，时间动作检测（Temporal Action Detection，简称TACT）得到了积极的研究。受单阶段对象检测器[22，32，10]的进步的启发，许多最近的工作集中在单阶段动作检测器[18]上，其在具有相对简单的结构的同时表现出出色的性能。另一方面，在Transformer编码器-解码器框架中处理对象检测的DETR [4]引起了相当大的关注。在这项工作中，我们提出了一种新的一阶段的动作检测器ReAct，是基于这样的学习范式。受DETR的启发，ReAct将动作实例建模为一组可学习的动作查询。这些动作查询作为输入被馈送到解码器中，并且它们交互地关注编码器的输出特征以及更新它们的* 这项工作是在JD Explore Academy实习期间完成的†通讯作者：mathqiong2012@gmail.com和jiali@buaa.edu.cn。arXiv：2207.07097v1 [cs.CV] 2022年7+v：mala2255获取更多论文2D. Shi等人操作查询不Ground-Truth参考查询区别-相似区别-相异重复图1.一、查询的关系。我们选择绿色的查询作为参考查询，与它有不同关系的查询用不同的颜色标记只有Distinct- similar对（蓝色的）将被保留用于注意力计算。预测。动作分类和定位，然后预测两个简单的前馈神经网络。然而，DETR类方法在应用于搜索任务时存在一些问题首先，在解码器中的自注意没有充分探索查询间关系，这在所有查询上密集地执行第二，DETR类方法可能遭受动作分类的训练不足，因为与基于锚/无锚方法相比，此外，当多个查询在推理时针对同一动作实例激发时，具有较高分类分数的查询可能不一定具有更好的时间定位。在下文中，我们详细阐述了这些问题，并介绍了所提出的方法，以减轻他们在三个方面：注意机制，训练损失，推理。DETR类方法中的解码器将自注意力应用于AC上，传统的查询方法无法捕捉查询之间的关系，无法充分挖掘查询之间的复杂关系。在这项工作中，我们表示的动作查询，负责本地化不同的动作实例的相似或相同的动作类的不同相似的查询，和那些检测不同的动作类的不同不相似的查询。对于为同一操作实例触发的查询，我们将其视为重复查询。在这项工作中，我们提出了一种新的注意力机制，命名为关系注意与IoU衰减（RAID），显式地处理这三种类型的查询关系的解码器。如图1所示，RAID专注于不同相似查询之间的通信（因为它们被期望提供更多的信息信号），并阻止不同不相似和重复查询之间的注意力。此外，所提出的IoU衰减鼓励重复查询彼此略有不同以实现更多样化的预测。另一个问题是，由于不充分的分类训练，类似DETR的方法可能具有相对低的分类准确度。这是因为用于DETR类方法分类的正训练样本比无锚方法的正训练样本少也就是说，对于类似DETR的方法，由于基于二分匹配的标签分配，每个输入剪辑的肯定数仅与地面实况动作相同。为了解决这个问题，我们提出了两个训练损失，代号为动作分类增强（ACE）损失，以促进分类学习。首亏+v：mala2255获取更多论文ReAct：使用RelationalRisk 3的ACE-enc应用于编码器的输入特征，旨在减少动作实例的类内方差和类间相似性。这种损失显式地提高了关于表演类的视频特征的可辨别性，从而有利于分类。同时，提出了一种ACE-dec损失作为解码器中的分类损失，该损失考虑了预测片段和地面真实片段用于动作分类。它增加了训练样本，并为分类器生成稳定的学习信号。最后，与实际操作实例相比，操作查询在设计上是冗余的。在推理中，常见的情况是多个操作查询针对同一个操作实例触发因此，重要的是要专注于精确的动作定位查询。然而，分类分数在测量时间定位质量方面是有缺陷的。因此，我们提出了一个段质量预测的本地化质量的每个动作查询的推理，这样就可以区分更高质量的查询。概括起来，我们在这项工作中做出了以下贡献– 我们使用类似DETR的框架来处理时间动作检测，并确定了直接应用于实时操作时这种方法的三个局限性。– 我们提出了具有IoU衰减的关系注意力、动作分类增强损失和片段质量预测，分别从注意力机制、训练损失和网络推理的角度缓解了所发现的问题。– 在两个动作检测基准上的实验证明了 ReAct 的优越性：它在THUMOS 14上实现了最先进的性能，并且比以前的方法具有更低的计算成本。进行了广泛的消融研究，以验证每个组件的有效性。2相关工作时间动作检测。时间动作检测（Temporal Action Detection，简称TACT）的目的是根据视频流信息检测出所有的开始和结束时间戳以及相应的动作类型。现有的方法大致可分为两大类：两阶段法和一阶段法。两阶段方法[11，28，38，43，19，21，12，17]将检测任务分为两个子任务：建议生成和建议分类。具体地说，一些方法[21，17，19]通过预测动作的起点和终点的概率来生成提案，然后根据预测得分选择提案片段。此外，PGCN [43]考虑了提案之间的关系，然后通过图卷积网络对提案进行细化和分类通过结合建议生成网络和建议分类网络，两阶段方法可以得到更好的结果.然而，它们不能以端到端的方式进行训练，并且计算效率低下。为了解决上述问题，提出了一些单阶段方法[20，6，18，26，37]一些作品[6，18，40]试图通过构建时间特征金字塔来适应动作持续时间的高方差，而Liu等人。 [23]建议通过可学习的参数动态地采样时间特征。这些一步法降低了复杂性+v：mala2255获取更多论文i=1Ki4 D. Shi等人这些模型在计算上更友好。在这项工作中，我们主要遵循一阶段的方式和可变形卷积设计[9，47，23]来构建一个有效的动作检测器，这将在第3节中详细介绍。基于注意力的模型基于注意力的模型[33]在机器翻译中取得了巨大的成功，近年来被扩展到计算机视觉领域[25，1，24，39，44，8]。注意力模块在运行时为一组点动态具体来说，DETR[4]提出了一种基于transformer的图像检测范式。它学习所有输入视频共享的解码器输入特征，并检测固定数量的输出。可变形DETR [47]通过减少注意力模块中计算的具有可学习空间偏移的对的数量来改进DETRLiu等人。[23]提出了一个基于可变形DETR的端到端框架这种类型的训练范例是高效和快速的预测。然而，这些方法与最新的方法之间仍然存在性能差距[23，43]。我们的工作建立在类似DETR的工作流程上。与上述工作相比，我们的方法通过压缩注意模块的计算子集来抑制无效信息的流动，从而有效地提高了性能对比学习。对比学习[7]是一种在无监督学习中广泛使用的方法。NCE[13]通过区分数据和噪声来挖掘数据特征。Info-NCE [27]被提出用于从具有概率对比损失的高维数据中提取表示。Lin et[18]利用对比学习来帮助网络识别行动边界。受这些工作的启发，我们使用对比学习来提取动作类别的全局公共表示，并扩大动作片段和噪声片段之间的特征距离。3方法问题定义。本文主要研究时间行为检测（detection）。具体地，给定一组未修剪的视频D={Vi}n。可以从每个视频Vi中提取{Xi，Yi}的集合，其中Xi={xt}Tt=1对应于T个片段的图像（和光流）特征，并且{mk，dk，ck}k=1是具有动作分段中点时间mk、动作持续时间dk和对应动作类别ck的视频Vi的Ki分段标签。时间动作检测旨在基于输入特征Xi预测所有段Yi。方法概述。受DETR [4]的启发，我们通过基于Transformer网络的编码器-解码器框架来解决编码问题。如图3所示，ReAct的整体架构包含三个部分：视频特征提取器，动作编码器和动作解码器。一、视频剪辑功能通过使用广泛使用的3D-CNN（例如，，TSN [35]或I3D [5]）。还使用TVL1光流算法提取光流特征[42]。然后，使用1-D conv层修改裁剪特征的特征尺寸然后传递输出要素+v：mala2255获取更多论文骨干编码解码检测头��E−��FCCls头，ACE-下降损失ACE-增强Transformer编码器解码器使用RAID回归头池查询段质量负责人不不ReAct：使用RelationalRisk 5进行图二. 拟议框架的说明。视频特征由预训练的骨干提取，然后是一个完全连接的层来投影特征，并由AEC-Enc损失进行额外监督。在通过Transformer编码器增强之后，特征被馈送到解码器中，并且在解码器中由Lq动作查询参与。分类头使用所提出的ACE-Dec损失进行训练到动作编码器，这是一个LE层Transformer网络。编码的剪辑特征用作动作解码器的输入之一。述解码器被LD层Transformer，并且它在两个方面不同于编码器。它有动作查询（可学习的嵌入）作为输入，查询在解码器的每一层中参加编码器输出，称为交叉注意。本质上，ReAct将action实例映射为一组action查询。解码器将动作查询转换为输出嵌入，这些嵌入通过单独的前馈神经网络用于动作分类和时间定位附录中提供了编码器结构的详细信息。在训练中，根据以前的工作[4，47，23]，匈牙利算法[16]用于为操作查询分配标签。边权重定义为：线段IoU的总和、分类概率和两个坐标之间的L1范数。基于匹配，ReAct将几个损失应用于动作查询，包括动作分类损失和时间段回归损失。DETR类方法的局限性。DETR类方法在应用于并行任务时可能会遇到几个问题。首先，解码器在所有查询上密集地执行自注意，这导致查询间关系没有被充分地探索。第二，与基于锚点/无锚点的方法相比，类DETR方法可能在动作分类的缺陷训练中存在问题，这归因于分类器的相对较少数量的正训练样本第三，具有较高分类分数的查询可能不可靠，这是由于在推理时针对同一动作实例触发多个查询。在本文中，我们从三个方面缓解了这些问题：（1）提出了具有IoU衰减的关系注意，允许每个动作查询都参与设计了两个动作分类增强损失来增强动作分类学习（3）引入分段质量来预测推理时每个动作查询的定位质量，以弥补推理时分类得分的不足。我们在下面详细阐述这三个方面。+v：mala2255获取更多论文可变形解码器ReAct的解码器回归头分类头段质量头回归头分类头横关注GT参考编码器输出要素横关注编码器输出要素关系注意查询片段RAID自我关注查询不查询6 D. Shi等人图三. 我们的解码器的插图。左：普通可变形解码器。每个查询执行注意力操作与所有其他查询功能和样本段功能从编码器输出。右：ReAct的解码器。每个查询只关注基于查询间关系的特定查询。此外，地面实况段提供了额外的损失，以进一步监督分类头。请注意，为了清楚起见，图中未显示LayerNorm、FFN和剩余连接（详细网络结构请参见附录）。3.1关系注意力与IoU衰减为了在解码器中更好地挖掘查询之间的关系，我们提出了具有IoU衰减的相对注意（RAID），它取代了Transformer解码器中的自注意下面，我们详细描述所提出的方法。关系注意力。作为回顾，我们定义了三种类型的查询相对于一个动作查询qi，这是由它们的关系区分的qi。不同-相似查询是试图检测不同动作实例但与qi相似（或相同）动作类的查询。不同-不相似查询是那些试图检测不同动作实例和与qi不同动作类的查询。重复查询是尝试检测相同操作实例的查询，奇岛直觉上，我们预计，参加不同的查询不提供信息信号Q我，因为他们专注于不同的动作类，动作类之间的关系可能不是一个可靠的线索检测动作。相反，关注不同相似查询可以通过收集qi周围的一些背景信息和线索来有益于查询q。例如，某些动作可能在一个剪辑中出现多次，并且彼此关注可以增加检测的置信度。此外，重复查询只重复预测为qi，因此它们不会带来额外的信息，在对qi的关注中被忽略。为了找到查询qi的不同相似查询，我们考虑两个属性，即，高上下文相似性和低时间重叠。为了度量上下文相似性，我们计算相似性矩阵A∈RLq×Lq（Lq是+v：mala2255获取更多论文∈∈ −E E EE我我D2我 JReAct：使用RelationalReact 7进行查询），其中每个元素表示两个查询的余弦相似度。然后查询对集合Esim由下式构造：Esim={（i，j）|A [i，j]-γ> 0}，（1）其中，γ[ 1， 1]是预设的相似度阈值。为了识别与q具有低时间重叠的查询，一种自然的策略是在时域中使用联合交互（IoU），其测量两个因此，我们为参考段计算成对IoU矩阵B∈RLq×Lq，并如下构造查询对集合EIoU：EIoU={（i，j）|B [i，j]-τ <0}，（2）其中i和j分别表示第i次和第j次查询，并且τ[0， 1]是预设的IoU阈值。如图3所示，这种简单的策略删除了具有大的时间重叠的片段。然后，我们可以通过组合sim、IoU和查询本身来定义不同-相似查询对集合。定义如下：E =（EIoU\ Esim）Es。（三）对于查询qi及其不同的查询对集合Ei，键和值特征可以写为Ki=concatenat e（{kj|（i，j）∈Ei}）和Vi=concatenat e（{vj|（i，j）∈Ei}）。然后，查询特征qi被更新为：qi′=aiVT，（4）其中注意力权重ai是ai= SoftmaxK（qiKT）。（五）注意，通过考虑上下文相似性和时间重叠，所提出的关系注意力成功地保留了qi和有用查询之间的通信，同时阻止了无信息查询之间的通信。IOU衰变。除了关系的关注，我们引入了处理重复查询的进一步改进。也就是说，我们提出了一种正则化，称为IoU衰减，它被添加到网络优化中。它被给出为LqL qω= 1IoU（s，s）.（六）i=1j=1在检测器训练期间，它惩罚查询之间的IoU，使得重复查询可以多样化并且彼此不同，这可以增加获得目标动作实例的更精确定位的概率。+v：mala2255获取更多论文˜∈˜ ∈JDQFOC8号D. Shi等人3.2动作分类增强为了解决将DETR类方法应用于分类时分类学习不足的问题，我们提出了两个动作分类增强（ACE）损失来提高分类性能。ACE-enc丢失。我们的目标是在编码器阶段通过扩大类间动作实例的相似性和减少类内动作实例之间的方差来增强动作分类方面的特征。我们认为，在早期阶段显式地增加动作检测数据集上特征的可辨别性也有利于最终的动作分类。具体来说，我们使用对比度损失优化编码器的输入特征正动作实例对和负动作实例对构造如下。对于视频vi中给定的地面实况动作片段sg及其类别cg，我们通过从相同或不同视频中采样相同类别cg的动作片段来至于它的负面实例，我们从两个不同的来源中选择它们：（1）不同于cg的动作类别片段和（2）完全在地面真实片段内的片段，但它们的IoU小于特定的阈值。对于给定的片段s，我们将xRT×D′和xRT×D表示为预训练的视频特征和由全连接层进一步投影的特征l（即， x = l（x））。然后，在时间RoI之后的段特征池化[38]可以表示为f=RoI（x，s）∈RD。根据上述定义，损失LACE−enc由下式给出：˜exp（fTfp）LACE−enc=−logj∈D（7）函数表达式其中fp是f的正段，并且是k个随机负实例以及正实例的索引。ACE-下降损失。基于锚点的/无锚点的方法将地面实况动作段内的所有（或多个）时间位置视为阳性（即，属于动作类而不是背景）来训练动作分类器，而类似DETR的方法由于在标签分配时的二分匹配而具有少得多的正性因此，我们提出了ACE-dec损失来训练动作分类器。如图3（右）所示，在训练阶段，针对每个查询片段（即，绿色的）与地面实况动作实例匹配。通过将地面实况片段（即，黄色的）作为正常查询段发送到交叉注意层。交叉关注层的细节在补充材料中描述。具体地说，每个解码器层都附加了一个ACE-dec损耗，其由下式给出：LACE−dec=Lfoc+1y[Lgt]，（8）+v：mala2255获取更多论文FOCFOC·LζGT.Q−lgt|QGTQGT.regNcgt=j∈L1L12gIoU1ReAct：使用RelationalReact 9进行其中Lq和Lgt是查询和地面实况的S形焦点损失[22]分类损失。请注意，只有匹配到地面实况片段将造成地面实况分类损失。3.3段质量预测为了弥补分类分数对于在一组重复查询中选择最佳查询是不可靠的问题，我们提出了一个分段质量来预测每个动作查询的本地化质量，以区分高质量的查询。所提出的段质量预测既考虑了段的中点，也考虑了其对动作实例的时间覆盖具体来说，给定一个预测段sq及其查询特征fq，我们定义（1，2）=（fq），其中是一个完全连接的层，1，2∈[0， 1]。然后，最终的质量值由下式定义：段质量由二维向量监督，该二维向量由预测中点的偏移及其用于精确定位中点的地面实况组成，并且预测段与其最接近的地面实况段之间的IoU用于精确时间定位。定位和覆盖。总损失由下式给出：L=0。（f）−（exp（1m-m|），IoU（s，s））。、（九）其中mq是预测段的中点，并且mgt、lgt分别是地面实况段的中点和长度在推断时，将该分段的分类得分乘以该分段的分类得分。3.4培训损失在训练时，基于匈牙利算法的标签分配，ReAct通过以下总损失进行训练：L= LACE−enc + LACE−dec + L + Lreg。（十）这里，reg是常用的回归损失，它使用匹配对的L1距离和广义IoU距离的总和回归检测到的片段的中点和持续时间[29]。我们将每个目标定义如下：L=11Q[γL（j）+γL（j）]，（十）（十）（十）（十）（十）（十一）LL1 = |mgt − m|+的|dgt − d|、（十）（十）（十）LgIoU=1 −gIoU（sgt，s），其中s（j）=（m（j），d（j））是由中点和持续时间表示的第j个检测到的段。c（j）是sj被拟合的地面实况序列的集合，并且C （十）GT∅+v：mala2255获取更多论文−××GTGT10 D. Shi等人N是c（j）中的段的数目。s（j）=（m（j），d（j））是矩阵cgt=gtgtgt gts（j）∈c（j）. 此外，我们还将继续关注以下细分市场：精细化方式[47，23]来预测每个解码器层中的检测，每个解码器层将通过与上层段求和并重新归一化来更新。这样，每层都提供辅助分类损失L′cls和回归损失L′reg，这进一步帮助网络训练。4实验我们在两个具有挑战性的数据集上进行实验：THUMOS 14 [14]和ActivityNet-1.3 [3]。4.1实现细节架构细节。对于THUMOS 14，我们分别针对查询的数量、编码器层和解码器层设置Lq= 40、LE= 2、LD= 4。每个可变形注意力模块对4个时间偏移进行采样以计算注意力。前馈网络的隐层维数设置为1024，网络中间的另一个隐特征维数全部设置为256。ACE模块中的成对IoU阈值τ和特征相似度阈值γ分别设置为0.2和0.2。对于ActivityNet-1.3，我们设置Lq= 60，LE= 3，LD= 4，τ = 0。9，γ = 0。2.我们采样4个时间偏移用于可变形模块。有关更多实现细节，包括特征提取和训练细节，请参阅补充材料。优化参数和推理。我们使用AdamW优化器训练ReAct，批量大小为16。对于THUMOS 14和ActivityNet-1.3，学习率分别设置为210 −4和110 −4。ReAct在THUMOS 14上训练了15次，在ActivityNet-1.3上训练了35次。在推理时，分类头输出由sigmoid激活。然后，所有的预测都将使用Soft-NMS[2]进行处理，以删除冗余和低质量的片段。4.2主要结果在THUMOS 14上（参见选项卡1），我们的ReAct实现了卓越的性能，并在不同的阈值下抑制了mAP中最先进的一阶段和两阶段方法特别地，ReAct在平均mAP中实现了55.0%，其大幅优于TadTR，即约9.4%的绝对改进。此外，我们在测试过程中的计算性能进行了比较。我们采用浮点运算每秒（FLOPs）每个剪辑后，前面的工作。[23、48]。我们可以看到，我们的模型的FLOPS为0。68 G ，即0。06G 低于TadTr，远低于其他方法。请注意，我们在表中报告的FLOPS不包括使用骨干的视频特征提取对于像AFSD这样的方法，+v：mala2255获取更多论文ReAct：使用关系模型的时间动作检测11表1. 与THUMOS 14数据集上的最新方法进行比较。我们报告了不同阈值和浮点运算（FLOPs，G）下的平均精度（mAP）类型方法0.30.40.50.60.7Avg. FLOPsBSN[21]53.545.036.928.420.036.83.4BMN[19]56.047.438.829.720.538.5171.0[38]第三十八话54.547.640.330.823.439.3639.8TAL[6]53.248.542.833.820.839.8-两级TCANet[28]60.653.244.636.826.744.3-CSA+BMN[30]64.458.049.238.227.847.5-P-GCN[43]63.657.849.1---4.4[31]第三十一话68.362.351.938.823.749.0-VSGN[45]66.760.452.441.030.450.2-[第48话]68.363.854.341.826.250.93.1SSAD[20]43.035.024.6----SSN[41]51.941.029.9----一期A2Net[40][第18话]58.667.354.162.445.555.532.543.717.231.141.652.030.45.1TadTr[23]62.457.449.237.826.346.60.75反应69.2 65.0 57.1 47.8 35.6 55.00.68在测试过程中进行特征提取，我们忽略了特征提取的计算，只在之后报告FLOP。在ActivityNet-1.3上，我们的方法实现了与最先进的方法相当的结果（见表1）。2）。ReAct优于其他基于DETR的方法，同时具有低计算成本（例如，，0.38G）。与基于DETR的方法相比，基于锚点的方法往往具有更高的性能。一个可能的原因是基于DETR的方法将可学习的查询嵌入作为输入，这是视频不可知的，并且只保留统计信息。对于动作时间差异较大的数据集，查询功能必须考虑长动作和短动作（更多详细信息请参见附录），并且容易发生冲突。4.3消融研究在本节中，我们对THUMOS 14数据集进行了消融研究。主要部件。我们证明了ReAct中三个建议组件的有效性：RAID，ACE和段质量。从Tab 3（行2和行5），我们可以看到，与普通可变形解码器层相比，我们的RAID在平均mAP上带来了3.7%的绝对改善，通过引入基于+v：mala2255获取更多论文−12 D. Shi等人表2. 与ActivityNet-1.3数据集上的最新方法进行比较。类型方法0.50.750.95 Avg. FLOPs（G）BSN[21]46.530.08.028.2-SSN[41]43.228.75.628.3-切里斯BMN[19][38]第三十八话50.150.434.834.68.39.033.934.145.645.7[46]第四十六话43.533.99.234.3-VSGN[45]52.3 35.28.334.7-TAL[6]38.218.31.320.2-效标PGCN[43]TCANet[28]48.352.333.236.73.36.931.135.55.0-[第18话]52.435.26.534.315.3[31]第三十一话47.230.78.630.8-基于DETRTadTr[23]49.132.68.532.30.38反应49.6 33.0 8.6 32.60.38表3. 三个主要部件的消融研究。方法RAID Ace平方0.30.40.50.60.7Avg.我们的基地√√√√√√√√√66.666.667.069.169.259.261.562.663.365.049.753.754.454.257.138.043.444.043.547.825.031.232.231.035.647.751.352.152.255.0定义的不同相似、不同不相似和重复查询。此外，从表的第4行和第5行，我们看到我们的ACE将平均mAP性能提高了2.9%，这表明了它通过设计新的损失来增强分类学习的有效性最后，从第3行和第5行，所提出的分段质量在平均mAP上实现了2.8%的改进，这有效地估计了预测分段RAID分析我们研究了第3.1节中的两个超参数γ和τ在构造不同的相似和不相似查询集时对相似性得分和IoU值进行阈值化的效果。首先，我们设置τ= 1，并绘制当γ变化时的平均mAP。从图5（a）中我们可以看出，随着γ的增加，mAP呈现出先增加后减少的趋势，峰值位于τ =0处。2.此外，我们观察到，随着τ进一步减小，检测性能表现出更大的波动性（即，，τ<0. ①的人。直观地，较小的τ导致更多的不相关查询对通信，从而引入更大的不确定性。接下来，我们通过固定γ= 0来研究τ的选择的影响。2. 从图5（b）我们观察到a+v：mala2255获取更多论文参考查询区别-相似区别-不相似重复地面实况视频时间ReAct：使用关系模型的时间动作检测13见图4。THUMOS 14中测试视频查询的可视化。一些示例框架显示的查询，我们可以看到，许多不同的查询对应的噪音（即不是动作）。555453525150-0.9 -0.6 -0.3 0 0.3 0.60.9(a) 特征相似度5554535251500 0.2 0.4 0.6 0.8 1(b) IOU图5. （a）是选择超参数γ的可视化，其中τ = 1;（b）是选择超参数τ的可视化，其中γ = 0。2相似度随τ的变化趋势与图相似，最佳值为0.5。请注意，τ越小，排除的查询越多，当τ= 0时，只保留不重叠的查询。直觉上，部分重叠的查询往往在目标查询附近，这有助于感知边界附近的信息。图4.3中给出了查询的可视化示例，以说明RAID的工作。分析ACE。我们从以下几个方面分析了ACE-enc损失的影响：对比对的构建，ACE-enc损失的应用和训练损失。首先，我们研究对比对如何影响绩效。特别地，为了形成正片段对，我们从相同视频或不同视频中随机选择相同类别的片段，由S1表示分别为S2。至于否定对，有两种方式：属于不同动作类的片段对（用N1表示），一个完全包含另一个，但它们的IoU小于阈值（de-如3.2所述，用N2表示。选项卡.图4显示了使用正负对的在Tab。4，我们看到N2扮演一个地图地图+v：mala2255获取更多论文FOCFOCFOC第十四章D. Shi等人表4. ACE模块不同设置的比较。模块设置0.30.40.50.60.7Avg.无对比68.163.455.046.032.853.1ACE-增强{S1，S2} +{ N1}{S1，S2} +{ N2}{S1，S2} +{ N1，N2}{S1} +{ N1，N2}68.369.769.769.163.464.664.564.455.455.756.656.346.245.645.946.233.933.834.734.653.453.954.354.1Transformer Enc之前69.7 64.3 56.1 46.4 34.2 54.1在Transformer Enc.66.461.253.343.432.051.2Q仅限LfocGT仅限Lfocq gtLfoc+Lfoc67.562.653.943.333.252.1ACE-下降66.161.153.644.230.951.268.3 63.4 55.4 46.2 33.9 53.4在训练中比N1更重要的角色（例如，，平均mAP 53.9对53.4），合并它们可以获得进一步的提升（即，，54.3）。其次，我们研究了ACE-enc损失在何处应用的影响。我们主要考虑两个位置：Transformer编码器之前和之后，为前者训练一个全连接层来增强视频特征。对于后者，我们使用编码器输出。实验结果表明，一个单一的全连接层是远远优于复杂的Transformer编码器。直观地说，编码器处理后，每一帧上的特征已经包含了局部时间信息，因此，合并的片段特征不能精确地表示动作，导致收敛不准确。最后，为了更深入地研究ACE-dec损失，我们进行了三个实验：仅查询分类损失，仅地面实况分类损失和完全ACE-dec损失。仅对于地面实况分类丢失的情况，我们仍然预测并匹配地面实况片段与输入查询特征，其提供匹配的查询位置和参考地面实况片段。然而，我们仅用地面实况分类损失Lgt更新网络。从标签。4，既不是Lq也不是Lgt可以表现得很好，但当我们结合如果把它们放在一起，结果会明显更好（例如，，53.4对51.2）。5结论在这项工作中，我们考虑了时间动作检测的任务，并提出了一种新的单阶段动作检测器ReAct的基础上DETR样的学习框架。这种方法直接应用于测量时的三个局限性被确定。我们提出了具有IoU衰减的关系注意、动作分类增强损失和片段质量预测，并分别从注意机制、训练损失和网络推理三个方面处理这些问题ReAct实现了最先进的性能，+v：mala2255获取更多论文ReAct：使用关系模型的时间动作检测15计算成本比以前的方法在THUMOS 14。还进行了广泛的在未来，我们计划将视频特征提取器包括在动作检测训练中，以进一步提高性能。致谢。本课题得到了国家自然科学基金重大科技创新2030“ 新一代人工智能 ” 重点项目（ N o . 2 0 2 1 Z D 0 1 1 1 7 0 0 ）的资助，项目编号： 6 2 1 3 2 0 0 2 、 6 1 9 2 2 0 0 6 、 6 2 1 0 2 2 0 6 。+v：mala2255获取更多论文∈变形注意力输出输出不FFN重量总和关注重量层规范不偏移视频特征FCFC可变形关注不输入ReAct补充材料A编码器详细信息为了独立，我们提供了编码器的详细结构。如图图1示出了对于输入视频特征FRT×D的局部偏移位置，以及注意力权重将分别用两个全连接层来预测。对于每个时间步，然后根据K个偏移量使用线性插值对特征进行采样。采样的特征由注意力权重加权并求和以产生对应的帧的更新的帧特征。时间步长Fig. 1. 编码器的图示。B解码器详细信息为了帮助更好地理解我们的方法，我们详细介绍了解码器在解码器中有两个注意模块：建议的关系注意模块和交叉注意模块。在下文中，我们详细介绍了可变形的交叉注意力模块。如图2所示，参考段、偏移位置和注意力权重由三个全连接层预测，基于此，网络对稀疏特征进行采样，以更新每个解码器层的查询特征。编码器之间的可变形注意力模块有两个主要的区别+v：mala2255获取更多论文解码器交叉注意输出输出FFN重量总和关注重量层规范编码器输出不交叉收件人参考段偏移层规范FC FC FC联系人查询特征查询ReAct 17的补充材料图二. 变形交叉注意力模块的插图解码器。首先，投入和产出是不同的。在解码器中交叉注意的输入是查询，而编码器的输入是视频特征。第二个区别是参考段。在编码器中，每个帧的时间偏移仅在该帧周围被采样而对于交叉注意模块，针对每个查询特征预测附加的参考片段长度，并且对偏移进行归一化，使得采样帧总是在片段中。C体系结构和培训详细信息对于THUMOS 14，在[38]之后，我们使用在Kinetics [15]上预训练的TSN网络[35]来提取特征，然后每五帧进行下采样。每个视频特征以窗口大小256顺序裁剪，并且两个相邻窗口将具有192个重叠特征，步幅率为0.25。在训练阶段，超过75%持续时间的窗口切割的地面实况将被保留，并且没有任何地面实况的所有空窗口将被移除。最后，将所有地面实况坐标重新归一化到窗口坐标系。对于查询的数量、编码器层和解码器层，我们分别设置Lq=40、LE=2、LD=每个可变形的注意力模块4时间偏移用于计算注意力。前馈网络的隐藏层维度设置为1024，另一个隐藏特征维度设置为在网络的中间都设置为256。成对IoU阈值ACE模块中的τ和特征相似度阈值γ分别设置为0.5和0.2。对于ActivityNet，采用Xiong等人[36]预先训练的TSN网络来提取特征。然后，每个视频特征每16帧下采样一次，并且所得到的特征将使用线性插值重新缩放为100个片段。我们只做视频级检测，而不是窗口级检测。我们设定+v：mala2255获取更多论文18Lq= 60，LE= 3，LD= 4。我们对可变形模块的4个时间偏移进行采样。隐藏特征的维度设置为256，我们将成对IoU阈值τ和特征相似度阈值γ分别设置为0.9和-0.2。在之前的工作[38，43，46，40]之后，我们将未修剪的网络视频级别分类结果[34]与我们的分类得分相结合。D分类损失为了进一步证明ACE-dec损失的影响，我们计算了Activitynet-1.3测试集的分类损失如图3表明，与Focal Loss相比，ACE-decLoss不仅提高了收敛速度，而且提高了精度。0.5关于ACE-DEC焦点损失0.450.40.350.30.2505 101520时代图三. 测试分类损失的可视化。在训练过程中，我们记录有或没有ACE-dec引用1. Arna b，A.，Dehghani，M.，他是伊戈尔德，G.，孙角，澳-地 Luc ic，M.， S chmid，C.：Vivit：一个视频视觉Transformer。在：IEEE/CVF计算机视觉国际会议论文集。pp. 68362. Bodla，N.，辛格湾，切拉帕河戴维斯，L.S.：用一行代码改进对象检测。在：IEEE计算机视觉国际会议论文集。pp. 55613. Caba Heilbron，F.，埃斯科西亚，五，Ghanem，B.，Carlos Niebles，J.：Activitynet：用于人类活动理解的大规模视频基准。收录于：IEEE计算机视觉与模式识别会议pp. 9614. Carion，N.，Massa，F.，Synnaeve，G.，N.C.，Kirillov，A.，Zagoruyko，S.：使用变压器的端到端对象检测。在：欧洲计算机视觉会议。pp. 213-229.施普林格（2020）5. Carreira，J.，Zisserman，A.：你好，动作识别？新模型和动力学数据集。IEEE计算机视觉与模式识别会议论文集。pp. 6299损失+v：mala2255获取更多论文ReAct 19的补充材料6. Chao，Y.W.，Vijayanarasimhan，S.，Seybold，B.，地方检察官罗斯邓，J.，Sukthankar，R.：重新思考用于时间动作定位的更快r-cnn架构。IEEE计算机视觉与模式识别会

下载后可阅读完整内容，剩余1页未读，立即下载