视频动作提议生成算法RTD-Net在时间动作建议生成和检测任务中的有效性

56 浏览量更新于2023-10-13 收藏 850KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13526特征提取器原始视频边界概率预报器MLP编码器用于直接行动建议生成的松弛Transformer解码器Jing Tan* Jiaqi Tang* Limin WangGangshan Wu南京大学软件新技术国家重点实验室{jtan，jqtang}@ smail.nju.edu.cn，{lmwang，gswu}@nju.edu.cn摘要时间动作建议生成是视频理解中一项重要且具有挑战性的任务，其目的是检测所有包含感兴趣的动作实例的时间段。现有的提案生成方法通常基于预定义的锚窗口或启发式自底向上的边界匹配策略。本文提出了一个简单而有效的框架（RTD-Net）的直接行动的建议生成，通过重新利用变压器类似的架构。为了解决时间和空间之间的本质视觉差异，我们对原始Transformer检测框架（DETR）进行了三个重要的改进。首先，为了处理视频中的慢度先验，我们用边界关注模块替换原始的Transformer编码器，以更好地捕获长范围的时间信息。其次，由于模糊的时间边界和相对稀疏的注释，我们提出了一个宽松的匹配方案，以减轻严格的标准，单一的分配给每个地面实况。最后，我们设计了一个三分支头，以进一步提高建议的信心估计，明确预测其完整性。在THUMOS 14和ActivityNet-1.3基准上的大量实验证明了RTD-Net在时间动作提议生成和时间动作检测两个任务上的有效性。此外，由于其简单的设计，我们的框架是更有效的比以前的建议生成方法，没有非最大抑制后处理。代码和模型可在 https://github.com/MCG-NJU/RTD-Action上获得。1. 介绍随着大量视频被捕获并在线上传（例如，YouTube、Instagram和TikTok），视频理解正在成为计算机视觉中的一个重要问题行动识别[33，39，5，36，47，37]已经受到学术界和工业界的广泛关注。* ：平等缴款。作者：Correspondentauthor。轻松匹配器无类型行动目标Transformer解码器图1. RTD-Net概述。给定一个未修剪的视频，RTD-Net直接生成基于边界关注功能的动作建议，而无需手工设计，例如密集的一个chor放置，启发式匹配策略和非最大抑制。dustry，重点是将修剪的视频剪辑分类为动作标签。然而，这些动作识别方法不能直接应用于现实的视频分析，由于事实上，这些网络视频是未经修剪的性质。因此，时间动作检测[26，24，42，41]是一项要求很高的技术，其目的是利用动作类别及其持续时间在长的未修剪视频中定位每个动作实例。一般来说，时间动作检测任务由两个子任务组成：时间动作建议生成和动作分类。对于时态提案生成任务，有两种主流方法。第一种类型是基于锚点的[3，19，11，15]方法，其基于密集和多尺度框放置生成动作提议。由于动作实例的持续时间从秒到分钟不等第二种类型是基于边界的[46，26，24]方法，其首先预测所有帧的边界置信度，然后采用自下而上的分组策略来匹配开始和结束帧对。13527端这些方法在局部窗口处提取边界信息并且简单地利用局部上下文进行建模。因此，这些基于边界的方法可能对噪声敏感并且不能产生鲁棒的检测结果，因为它们容易产生不完整的建议。此外，这两种方法的性能高度依赖于精心设计的锚点放置或复杂的边界匹配机制，这些机制是利用人类先验知识手工制作的，并且需要特定的调整。我们认为，长距离的时间上下文建模是至关重要的建议生成。将视频视为时间序列并采用Transformer架构来建模全局一维依赖关系可提高本地化性能。我们提出了一个直接的行动建议生成框架与变压器。这种具有并行解码的直接动作建议生成允许我们从全局视图更好地捕获建议间关系，从而产生更完整和精确的定位结果。此外，我们的时间检测框架流线的复杂的动作建议生成流水线与整洁的集预测范例，手工制作的设计，如锚框放置，边界匹配策略，和耗时的非最大抑制被删除。因此，我们的框架进行推理的速度明显更快。然而，由于时间和空间之间的本质视觉属性差异，使图像检测Transformer架构适应视频的。我们观察到视频中的特征缓慢[45]和模糊的时间边界 [31] 是两个关键问题，需要特别考虑使用Transformers构建直接行动建议生成方法。首先，尽管沿时间维度存在许多帧，但是它们的特征以非常低的速度改变。在Transformer编码器中直接使用自注意机制其次，由于动作概念的高级语义，其时间边界可能不像对象边界那样清晰，并且由于不同劳动之间的不一致性，地面真值标签也可能包含一些噪声。因此，严格的集合匹配损失可能会对Transformer的收敛性产生负面影响为了解决上述问题，我们提出了一个宽松的Transformer解码器（RTD）架构的直接行动建议的生成，如图1所示。与原来的对象检测Transformer相比，我们做了三个显着的改进，以适应视频任务。首先，我们用一个定制的边界关注架构来取代原来的Transformer编码器，以克服过度平滑的问题。第二，我们提出一个宽松的匹配器，以减轻单一分配到地面实况的严格标准。最后，我们设计了一个用于训练和推理的三分支检测头。添加完整性头以显式地估计回归时间框和地面实况框之间的tIoU。我们观察到，这种tIoU损失可以指导Transformer的训练，并将三个头规则化以收敛到稳定的解决方案。综上所述，我们的主要贡献如下：• 我们首次采用Transformer架构在视频中生成直接动作提案，从全局角度对提案间依赖关系进行建模，并通过简化时间动作提案生成管道，使用简单整洁的框架，去除手工制作的• 我们对DETR [4]进行了三个重要的改进，以解决视频中的时间定位和图像中的空间检测之间的本质差异，包括边界注意表示，松弛机制和三分支头设计。• 实验表明，该方法在时间动作建议生成任务和时间动作检测任务中的性能均优于现有的最先进的方法，并在ActivityNet- 1.3上实现了相当的性能2. 相关工作行动识别。动作识别是视频理解中的一项基本任务，在图像领域中，动作识别与图像分类同样重要。除了为修剪的视频提供语义标签之外，动作识别还适用于在未修剪的视频中提取片段级特征，这些特征用于下游任务，例如时间动作检测[46，24]，基于语言的视频基础[44，43]和时空动作检测[22，21]。有两种主要类型的视频架构：双流网络[33，39，12]从RGB图像和堆叠光流中提取视频外观和运动信息; 3D卷积网络[34，5，30]直接捕获具有时空内核的外观和运动线索。我们使用I3 D [5]模型提取视频特征序列作为RTD-Net输入。临时行动建议生成。临时动作建议生成的目标是在未经裁剪的视频中灵活而精确地生成建议。在临时动作建议生成方法中，基于锚点的方法[3，19，11，15，40，6]基于多尺度和密集锚点检索建议，这是不灵活的并且不能覆盖所有动作实例。基于边界的方法[46，26，24，23]首先评估了开始的置信度。13528Sen=1分类完整性建议评分评分边界关注模块轻松匹配器开始评分MLP编码器clscomp.框磁头磁头磁头终点得分X6特征提取器输入要素边界注意表征Transformer解码器位置嵌入图2.RTD-Net的流水线。我们的RTD-Net简化了时间行动建议生成的过程，将其视为一个直接的集合预测问题。它由三个独特的设计组成：用于特征提取的边界关注模块、用于查询的直接和并行解码的Transformer解码器、以及用于训练标签分配的松弛匹配器。我们的RTD-Net能够有效地生成一组数量较少的建议，而无需任何后处理。和结束点，然后将它们匹配以形成提议候选。然而，它们仅基于局部信息生成结果，并且容易受到噪声的影响。相反，我们的框架基于整个特征序列进行预测，并充分利用全局时间上下文。最近，基于图的方法[41，2]在该领域中得到了普及，它们基于预定义的图结构来利用远程上下文，其实现高度依赖于人的先验知识。相比之下，RTD-Net学习自己的查询，并直接生成完整和精确的建议，而无需能够充分利用全球时间背景，并以新颖而直接的范式生成行动建议。3. 方法3.1. 概述我们提出了一个宽松的Transformer解码器网络（RTD-Net），直接产生时间的行动建议。具体地，给定具有I，f个帧的输入视频X，RTD-Net旨在生成一组建议（tn，tn）}，定位底层的人类动作实例任何手工制作的设计（锚匹配策略或图eNΨ={Ψn=（tn，tn）}g ，其中Ng为动作次数Transformer和自我注意机制。在机器翻译任务中，[35]首次引入了转换器。它解决了序列建模任务中的长距离依赖建模问题。Transformer中的主要功能是自注意机制，它总结了源序列中的内容，并且能够在有限数量的层中对复杂和任意的依赖关系进行建模。受NLP任务[9，8]的最新进展的启发，自我注意力被应用于视觉任务，以利用大规模或长距离的背景。例如，基于自我注意块的作品出现在图像生成[29]，图像识别[29，28，7]，动作识别[16]和对象检测[4]。一些[29，28，7]使用专门的自注意块作为卷积的替代品，其他人使用自注意块来替换卷积网络中的组件。最近的工作[10]表明，单独使用Transformer架构，自注意力块可以实现图像识别的出色结果。我们在视频上使用仅解码器的Transformer来生成时间提案，其中我们的模型视频中的实例X.为了解决由特征缓慢和模糊的时间边界引起的问题，RTD-Net具有三个主要组件：边界关注模块、松弛Transformer解码器和三分支检测头。主要架构如图2所示。首先，我们使用骨干网络提取短期特征。然后，关注边界的模块利用区分性边界得分来增强它们实验结果表明，该边界关注模块对后续的解码过程具有重要意义。在此之后，Transformer解码器使用一组学习的查询来关注边界关注的表示。该并行解码过程能够显式地对提议候选之间的所有成对约束进行建模，并且以全局视图捕获提议间上下文信息。最终，三分支检测头将解码器嵌入转换为我们的最终预测结果。边界头直接生成时态盒，与二进制分类头结合完备性构建），并且没有耗时的NMS模块。13529----}SeSeHead为每个预测框提供置信度得分。对于训练，我们在匹配器中给出了一个宽松的匹配标准，这减轻了模糊的时间界限的影响，并允许更好地预测的建议被作为签署的正样本。3.2. 特征编码我们采用双流网络[39，5]从RGB帧和运动特征中提取外观特征F A=f tn，Af tn，M从时间tn处的堆叠光流。利用时间步长τ的滑动窗口来提取特征，并且将特征布置成长度为Is的序列。按照通常的做法，我们从特征提取器网络中获取全局池化层之后和顶部全连接层之前的外观特征和运动特征沿通道维度连接，形成最终的输入特征序列IsF={ft其中ft=（ft，A，ft，M）.用一组预测损失来训练整个流水线。与图像中的对象检测不同，时间动作提议生成在注释中更加模糊和稀疏。例如，只有少数动作出现在THUMOS 14的观察窗口中，ActivityNet-1.3中的动作实例平均数仅为1.5。此外，动作实例的时间变化在不同视频中是显著的，特别是对于ActivityNet数据集。因此，仅单个检测结果匹配地面实况实例的匹配准则对于时间动作提议生成可能是次优的。在实践中，我们观察到地面实况周围的一些时间段之间的视觉差异非常小，严格的匹配标准会使整个网络混乱，从而难以收敛到稳定的解。为了解决这个问题，我们提出了一个宽松的匹配方案，其中多个检测到的动作建议被分配为积极的匹配时，地面实况。nn=1n n n具体来说，我们使用tIoU阈值来区分阳性3.3. 直接行动建议生成机制注意边界的表征。如上文所分析，慢度是视频数据的一般先验，其中短期特征在局部窗口中非常缓慢地改变同时，我们的短期特征通常是从具有重叠的短视频片段中提取的，这将进一步平滑视觉特征。对于时间动作建议生成，关键的是在视觉表示中保持清晰的边界信息，以允许随后的解码处理。为了缓解特征缓慢的问题，我们提出了边界关注模块，以显式地增强具有歧视性动作边界信息的短期特征。具体来说，我们将原始特征与其自己的动作开始和结束分数相乘，其中每个时间的动作边界分数是用时间评估模块[26]估计的。在实验中，我们发现，这种边界关注表示有助于我们的变压器解码器生成更准确的动作建议，这要归功于动作边界信息的明确利用。采用MLP编码器将边界关注表示转换为更紧凑的形式。轻松的Transformer解码器。我们使用的香草反式解码器直接输出时间的行动建议。解码器将一组建议查询和边界关注表示作为输入，并且通过堆叠的多头自关注和编码器-解码器关注块来输出针对每个查询的动作建议嵌入。自关注层对建议之间的时间依赖性进行建模，并细化相应的查询嵌入。在“编码器-解码器”注意层中，建议查询趋向于所有时间步长，并将高激活的动作信息聚合到每个查询嵌入中。在训练过程中，该解码器与匈牙利匹配器合作，将积极的建议与地面实况和和负样本，其中tIoU被计算为目标和预测之间在它们的并集上的tIoU高于某个阈值的预测将被标记为阳性样本。在实验中，我们观察到这种简单的松弛将减轻RTD-Net的训练难度，并有助于提高最终的性能。三分支头部设计。 RTD-Net 通过设计三个前馈网络（FFN）作为检测头来生成最终预测。我们推广了目标检测中的盒头和类头来预测时间动作。边界头解码一个动作建议ψ n=（tn，tn），其由起始帧tn和结束帧tn组成。二元分类头预测每个提议的前景置信度得分Pbc。此外，提出了一个完整的头来评估预测的完整性PC相对于地面实况。一个高质量的提案不仅需要高度的前期信心，而且需要准确的边界。有时，由于混淆的动作边界，单独的二进制分类得分不能成为预测的可靠度量。RTD-Net引入了一个完整性头来预测一个完整性得分pc，该得分衡量预测和目标之间的重叠。该额外的完整性得分能够明确地并入时间本地化质量以提高提议置信度得分。从而使整个管道更加稳定。3.4. 培训在我们的训练中，我们首先将视频特征缩放为固定长度以进行后续处理。具体来说，遵循通常的做法，我们采用滑动窗口策略，在THUMOS 14数据集上具有固定的重叠率，并在ActivityNet-1.3数据集上进行重新缩放操作。在THU-MOS 14中，只有包含至少一个13530Σ∅ΣLs}SΣen=1L完成=N当Ψ={ψn=（tn，tn）}Np--Σ选择目标进行训练。边界关注模块。开始和结束分数被预测为边界概率。我们遵循BSN [26]的步骤，并使用三层卷积网络作为边界概率预测器。该预测器在帧级中被训练以生成针对每个时间位置tn的开始和结束概率ptn，s和ptn，e。RTD-Net的标签分配。地面实况实例头部完整性缺失为了生成一个鲁棒和可靠的预测措施，我们引入了一个完整性头来帮助二进制分类头。为训练而采样的每个提议计算具有所有目标的tIoU，并且最大tIoU被表示为gt IoU。我们采用时间卷积层后，一个完全连接的解码器输出层预测的完整性。为了指导训练完整性分支，基于Ng集合Ψ={Ψn=（tn，tn）}由Ngtar gets组成建议tIoU其中tn和tn是开始和结束时间位置S e的ψn。这样，Np的预测集样本表示为1N 列车Se. 我们假设Np大于Ng，并通过填充来增加长度为Np的长度。类似于DETR [4]，RTD-Net首先搜索一个最优的二分这两个集合之间的匹配和匹配器的成本被定义为：在开始时，边界头不能预测高质量提议，并且因此不能用低质量提议有效地训练我们遵循DRN [43]应用两步训练策略。上C=n：σ（n）=σα·1（ψn，ψ（σ（n）−β·tIoU（ψn，ψ（σ（n））−γ·pbc，n，中国（1）在第一步中，我们冻结完整性头部的参数，并通过最小化等式（2）和（3）来训练RTD-Net。在其中σ是Np个元素的排列，以将预测与目标相匹配，α、β和γ是超参数，并且在实验中指定为1、5、2。在这里，我们使用1损失和tIoU损失进行二分匹配，因为它的互补性。基于匈牙利算法，匹配器能够以最低的成本搜索最佳排列。此外，提出了一种松弛机制来处理稀疏注释和模糊边界的动作实例。我们计算目标和预测之间的tIoU，并将tIoU高于某个阈值的预测标记为阳性样本。在松弛之后，预测的更新的分配被表示为〇’。二进制分类头丢失。我们定义了双-第二步，我们修复了RTD-Net的其他部分，只训练完整头部。3.5. 推理由于我们的RTD中的直接建议生成方案，我们遵循简单的建议生成流水线，没有后处理方法作为非最大值抑制，这在以前的方法中被广泛使用[24，26，6]。边界关注模块。为了保持特征的大小，我们将概率序列（ptn，s，ptn，e）n=1归一化到[0，1]的范围，然后对其进行缩放的αr。αr是一个缩放因子，它重新缩放边界分数以获得更强的区分能力，它的选择将被dis-ranknary分类损失函数为：在消融研究中发生特征序列F ={f tnlsn=1Lcls1=−γ·NN（pnn=1logP bc，n+（1−pn）log（1−pbc，n））的情况下，分别乘以起始分数和结束分数，然后沿着信道维度级联。配备了位置嵌入，视觉表示是（二）其中p_bc，n是二进制分类概率，N是训练建议的总数。如果样本被标记为阳性，则p？n为1，否则为0。边界水头损失。边界水头的训练损失函数定义如下：转发到三层MLP编码器。位置嵌入丁这里引入时间歧视。MLP编码器对信道相关性进行建模，并压缩边界关注表示。提案生成。在Transformer解码器中，直接检索先前的边界注意表示L边界1= N阳性（α·Ln：σ′（n）位置，位置+β·L重叠，n），（三）用一组学习的查询。最后，对于每个查询，三个头直接输出其建议边界、二进制分类分数和完整性分数。其中，在定位损失中使用tIoU损失，并且在重叠测量中使用tIoU损失：评分融合。为了对每个建议进行更可靠的置信度估计，我们融合了二进制分类L=||tσ′（n）−t（n）||+的||tσ′（n）−t（n）||、（pc，n−gt Io U，n）.（五）火车n=12n=113531每个提案的得分为pbc和完整性得分为pc位置，nss l1eel1（四）简单的平均数。结果的最终建议集直接Lo ve rlap，n= 1−t IoU（ψn，ψ（σ′（n）.在没有任何后处理方法的情况下评估。13532表1.在THUMOS 14的测试集上，根据AR@AN与其他最先进的建议生成方法进行比较。SNMS代表Soft-NMS。方法@50@100@200@500TAG+NMS [46]18.5529.0039.61-TURN+NMS [15]21.8631.8943.0257.63CTAP+NMS [13]32.4942.6151.97-BSN+SNMS [26]37.4646.0653.2160.64BSN*+SNMS36.7344.1449.1252.26德国[27]39.9347.7554.6561.36BMN+SNMS [24]39.3647.7254.7062.07BMN*+SNMS37.0344.1249.4954.27DBG+SNMS [23]37.3246.6754.5062.21RapNet+SNMS [14]40.3548.2354.9261.41BC-GNN+SNMS [2] 40.5049.60 56.33 62.80RTD-Net*41.5249.3256.41 62.91* 基于P-GCN I3 D特征报告结果。4. 实验4.1. 数据集和设置THUMOS 14 [20]. THUMOS 14数据集由101个动作类的1，010个验证视频和1，574个测试视频组成。其中20个动作类被选择用于时间动作检测。它包含200和213个未修剪的视频与时间注释的验证和测试集。ActivityNet-1.3 [18]. ActivityNet-1.3 数据集包含 19 ，994个未修剪的视频，其中包含200个临时注释的动作类别，并以2：1：1的比例分为训练集，验证集和测试集。实作详细数据。我们采用双流网络TSN [39]和I3D [5]进行特征编码。由于TSN特征更好地保留了局部信息，因此它们被馈送到时间评估模块[26]中以进行边界置信度预测。与TSN特征相比，I3D特征具有更大的感受野，包含更多的上下文信息。I3D特征通过边界概率增强，然后输入到MLP编码器进行变换和压缩。在THUMOS14特征提取期间，I3D和TSN的帧步长分别设置为8和5。对于ActivityNet-1.3，采样帧步长为16。在THUMOS 14上，我们以滑动窗口的方式执行提案生成，每个滑动窗口的长度设置为100，重叠率分别设置为0.75和至于ActivityNet-1.3，特征序列通过线性插值重新缩放到100。为了从头开始训练RTD-Net，我们使用AdamW进行优化。批量大小设置为32，学习率设置为0.0001。4.2. 临时动作建议生成评估指标。为了评估提案的质量，我们使用提案的平均数量（AN）和AR与AN曲线下的面积计算平均召回率（AR）。表2.在AR@AN和AUC方面与ActivityNet-1.3验证集上的其他最先进的提案生成方法进行比较。其中，只有RTD-Net没有网管。方法AR@1（val）[25日]-CTAP [13]-BSN[26]32.17德国[27]-BMN [24]-RTD-Net33.05AR@100（val）73.0173.1774.1674.5475.0173.21AUC（val）64.4065.7266.1766.4367.1065.78视频，其由AR@AN和AUC表示。按照标准协议，我们使用设置为[0.5]的tIoU阈值：0.05：1.0]和[0.5：0.05：0.95]ActivityNet-1.3.与最先进方法的比较。由于I3 D特征的高分辨力，我们在RTD-Net中使用它来生成提案。为了公平比较，我们还通过公共可用代码实现了具有相同I3D功能的BSN [26]和BMN [24]。在THUMOS14上的实验结果总结在表1中。由于BSN和BMN高度依赖于本地上下文，因此其性能在具有大感受野的I3D特征上下降。实验结果表明，该方法能够充分利用I3D特征的丰富上下文，并产生更好的结果。与以前的国家的最先进的方法相比，我们的方法实现了最好的性能。同时，较小AN的性能改进稍微更明显，并且我们的RTD不采用任何后处理方法，如NMS。如表2所示，RTD-Net在ActivityNet-1.3上也获得了类似的我们分析ActivityNet-1.3中的注释相对稀疏，视频中的平均实例数为1.54（THUMOS 14：15.29）。然而，我们的RTD-Net对成对上下文进行建模，因此它通常需要每个视频中的多个实例。深入分析区域贸易发展网提议。我们比较RTD-Net的结果与自底向上的方法BSN和BMN，通过假阳性分析。受[1]的启发，我们按得分对预测进行排序，并对每个视频进行前10G预测。讨论了建议生成任务中的两个主要误差：定位误差和背景误差。定位误差是当建议被预测为前景时，具有0.1的最小tIoU但不满足tIoU阈值。背景误差是当提议被预测为前景但其与地面实况实例的tIoU小于0.1时。在图4中，我们观察到RTD-Net预测在每个预测量下都具有最多的真阳性样本。RTD-Net中的定位误差比例明显小于BSN和BMN中的定位误差比例，证实了RTD预测的整体精度。我们在图3中可视化定性结果。具体来说，虽然BSN对一个动作实例进行两次不完整的预测BSN等自底向上方法只利用本地窗口中的上下文，因此它们不知道超出范围的类似功能。因此，它们对局部噪声和eas-13533表3.通过AR@AN测量的THUMOS 14上边界概率标度因子的烧蚀研究没有一36.2245.3852.6259.61140.3948.8056.0463.41241.5249.3256.4162.91539.7647.5254.1060.87表4.通过AR@AN测量的THUMOS 14上特征编码器的烧蚀研究编码器感受野大小 *@50@100@200@500表5.在THUMOS 14和ActivityNet-1.3上对松弛匹配器进行消融研究，通过AR@AN和AUC测量。松弛匹配器@50@100@200@500AR@1AR@100AUC✗41.0749.2056.2362.7732.7371.8865.50✓41.5249.3256.4162.9133.0573.2165.78表6.通过AR@AN测量的THU-MOS 14上tIoU引导评级的消融研究。评分@50@100@200@500分类41.0849.0356.0762.93分类+完整性41.5249.3256.4162.91Ground TruthBSN提案RTD提案时间*可能会产生不完整的建议。在多实例集合中得分= 0.56894.9秒96.7秒97.1s得分= 0.56199.4s在第二行中，RTD-Net具有更好的定位结果，具有更精确的边界或与地面实况的更大重叠。得益于全球上下文信息，RTD-Net更好地了解行动建议之间的视觉关系以及前景94.6s得分= 0.74499.2s和背景。因此，RTD-Net可以很容易地识别-94.7s评分= 0.851101.2s134.4秒141.1秒得分= 0.736在前景和背景片段之间进行猜测，并精确地定位提案。93.6s94.7s评分= 0.899101.3s101.4s137.4s134.9s评分= 0.770141.2s141.3s推理中的时间分析。RTD-Net在推理速度上也有显著的优势。与BSN相比，RTD-Net的每个样本的推理时间要短得多（0.114svs5.804s，其中BSN后处理的推理时间为5.794s）。由于采用了直接提案生成机制，RTD-Net不需要耗时的后处理方法，如非最大值抑制。在RTX 2080Ti GPU上进行了推理速度实验详细的效率分析见附录C。4.3. 消融研究标度因子的研究。我们用预测的边界概率序列重新加权视频特征，以增强可能的边界位置处的特征。比例因子α r需要仔细考虑，因为它确定了一个概率阈值，以决定在哪个位置增强和抑制特征，即α r=2增强了边界概率大于0的位置处的特征。5，并抑制那些在概率小于0的情况。五、表3显示了在不同比例因子设置下THUMOS 14数据集上的AR@AN比较不同αr设置下的结果，我们观察到边界注意表征将性能提高到平均召回率的4%，并且αr=2使改进最大化。特征编码器的研究。我们分析了边界注意模块的设计，通过实验对不同的编码器选择和不同的接收输入特征图3. RTD-Net在THUMOS 14上的定性结果。所示的建议是基于每个模型的评分方案的相应地面实况的最佳预测。字段大小。我们比较结果之间的MLP和跨前编码器具有相同的高层次的功能输入。表4中的前两行显示，MLP的性能大大优于Transformer编码器，我们分析性能下降可能是由于Transformer中自注意力的过度平滑造成的。为了进一步研究性能，我们在具有较小感受野的特征的Transformer编码器上进行实验，以减少过平滑效应，并且性能增加到约36%@50，但仍然比我们的MLP编码器差。松弛匹配器的研究在宽松的匹配标准下，一些在原始匹配器中被分配为负的高质量建议将成为正样本。如表5所示，松弛匹配器可以改善AR和AUC度量。在实践中，我们首先使用严格的二分匹配标准进行训练，以生成稀疏预测，然后使用宽松的匹配方案进行微调，以提高整体召回率（更多细节见附录A.2）。完备性建模研究。完整性头部被设计为辅助二进制分类得分以获得更可靠的预测度量。我们在THUMOS 14测试集上进行实验，并根据AR@AN评估建议表6报告了消融研究的结果，比例因子α@50@100@200@50095.1s99.3sMLP6441.5249.3256.4162.91Transformer6433.6940.3646.3352.38Transformer1636.0141.9746.9253.2613534--表7. THU-的测试集上的时间动作检测结果真阳性定位误差背景误差在不同的tIoU阈值下，M0S14的mAP。建议与UntrimmedNet[38]和P-G CN [42]的分类器相结合。1009080706050403020100RTD-Net1G 2G 3G 4G 5G 6G 7G 8G 9G 10GBSN1G 2G 3G 4G 5G 6G 7G 8G 9G 10GBMN1G 2G 3G 4G 5G 6G 7G 8G 9G 10G[41]第四十一话37.651.660.4六十六点四RTD-NetP-GCN23.738.851.962.3六十八点三表8.在不同tIoU阈值的mAP方面，在ActivityNet-1.3的验证集上的时间动作检测结果。建议与UntrimmedNet的分类器相结合[38]。方法0.95 0.75 0.5平均沪ICP备17006660号-1[32] 0.21 25.88 43.83 22.77SSN [46] 5.49 23.48 39.12 23.98Lin等人[25] 7.09 29.65 44.39 29.17BSN [26] 8.02 29.96 46.45 30.03BMN [24] 8.2934.78 50.07 33.85RTD-Net8.61 30.68 47.21 30.83完整的头。我们看到，组合分类和完整性得分优于简单使用分类得分的结果。我们发现，估计的tIoU分数能够纠正一些预测良好的建议，但具有较低的分类分数，因此可以提高AR指标，特别是在较小的AN。4.4. RTD建议评估指标。为了评估时间动作检测任务的结果，我们计算平均精度（mAP）。在THUMOS14上，设置了tIoU阈值[0.3]的 mAP：0.1：0.7]计算。在ActivityNet-1.3上，tIoU阈值设置为 0.5 、 0.75 、0.95 的 mAP 和 tIoU阈值设置为 [0.5 ：0.05：0.95]。与最先进方法的比较。为了评估我们的行动检测的建议的质量，我们遵循两个阶段的时间动作检测管道。首先，我们为每个视频生成一组行动建议，并保留前200 名和前 100 名建议，以便在 THUMOS 14 和ActivityNet-1.3上进行后续检测。然后，我们用两个具体的策略对每个建议进行评分。一个策略是使用来自Untrimmed- Net [38]的全局分类得分，并为每个视频保留前2个预测标签。然后，我们分配给每个建议的分类得分，并使用融合建议的置信度得分和全局分类得分作为检测得分。另一种策略是我们采用提议级分类器P-GCN [42]来预处理。图4.三种建议生成方法：RTD-Net，BSN和BMN的假阳性轮廓三个图展示了每个视频的前10-G（G =地面实况的数量）预测内的FP误差分解。定位误差的最大tIoU设置为0.5。为每个建议定义动作标签，并使用预测得分进行评估。THUMOS 14的结果如表7所示，我们基于RTD-Net的检测优于其他最先进的方法，特别是在高tIoU设置下，这表明RTD-Net生成的建议更准确。当与P-GCN分类器结合时，我们的方法在所有tIoU阈值下实现了优于其他建议生成方法（例如 BSN [26] 和 G-TAD[41]）的本实验证明了RTD命题能够提高时间动作检测任务的成绩。如表8所示，我们在ActivityNet-1.3上获得了类似的结果。BSN和BMN [24]预测了大量的提案（每个视频近900个提案），并选择其中的前100个，而RTD-Net只预测了100个。与 BSN和BMN相比，RTD-Net在高tIoU设置（tIoU = 0.95）下改善了mAP，因为RTD-Net建议具有更精确的边界。5. 结论在本文中，我们提出了一个简单的管道直接行动的建议，通过重新利用类似于transformer的架构。为了弥合视频和图像之间的本质差异，我们介绍了三个重要的改进，在原来的DETR框架，工作，即边界注意表示，一个宽松的Transformer解码器（RTD），和一个三分支预测头设计。由于使用显式上下文建模对多个建议进行并行解码，我们的RTD-Net在THUMOS 14上的时间动作建议生成任务中表现出了先前最先进的方法，并且在该数据集上的动作检测方面也具有优异的性能。此外，免费的NMS后处理，我们的检测管道比以前的方法更有效。鸣谢。本工作得到了国家自然科学基金项目（ No.62076119号61921006）、江苏省创新人才和企业家计划、软件新技术与产业化协同创新中心。错误分类（%）方法分类器0.70.60.50.40.3SST [3]UNet4.710.920.031.541.2第15话UNet6.314.124.535.346.3BSN [26]UNet20.028.436.945.053.5德国[27]UNet21.329.537.446.853.9BMN [24]UNet20.529.738.847.456.0[23]第二十三话UNet21.730.239.849.457.8G-TAD [41]UNet23.430.840.247.654.5BC-GNNRTD-NetUNetUNet23.131.240.449.1 57.125.036.445.153.1五十八点五13535引用[1] Humam Alwassel ， Fabian Caba Heilbron ， VictorEscorcia，and Bernard Ghanem.诊断时间动作检测器中的错误。在 ECCV （ 3 ）， Lecture Notes in ComputerScience的第11207卷，第264-280页中。Springer，2018.6[2] 白悦然，王莹莹，童云海，杨洋，刘启月，刘俊辉。边界内容图神经网络用于临时动作建议生成。在ECCV（28），Lecture Notes in Computer Science的第12373卷，第121-137页中。Springer，2020年。三六八[3] 夏马尔·布赫，维克多·埃斯科西亚，伯纳德·加尼姆，李飞飞，胡安·卡洛斯·尼布尔斯.端到端，单流时间- poral动作检测未修剪的视频。在BMVC，2017年。一、二、八[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。在ECCV，第213-229页，2020中。二三五[5] J oaoCarreira和Andr e wZisserman。Quovadis，动作识别？新模型和动力学数据集。在CVPR中，第4724-4733页一、二、四、六[6] 放大图片作者：赵玉伟， SudheendraVijayanarasimhan，Bryan Sey- bold，David A. Ross，JiaDeng，and Rahul Sukthankar.重新思考用于时间动作定位的更快的R-CNN架构。在CVPR中，第1130-1139页，2018年。二、五[7] Jean-Baptiste Cordonnier 、 Andreas Loukas 和 MartinJaggi。自我注意与卷积层的关系。在ICLR，2020年。3[8] 戴子航，杨志林，杨一鸣，杨志红，杨志红.Carbonell，Quoc Viet Le，and Ruslan Salakhutdinov.变压器-xl：超越固定长度上下文的注意语言模型。在ACL中，第2978-2988页，2019年。3[9] 雅各布·德夫林

下载后可阅读完整内容，剩余1页未读，立即下载