ReAct:关系映射驱动的时间动作检测新方法

0 下载量 144 浏览量 更新于2024-06-19 收藏 1.6MB PDF 举报
"这篇论文提出了一种名为ReAct的新方法,用于时间动作检测(Temporal Action Detection),该方法基于编码器-解码器框架,并引入了关系注意机制和改进的动作分类训练策略。ReAct解决了直接应用DETR框架在动作检测中的几个问题,包括解码器中查询间关系的探索不足、分类训练不充分以及推理时分类分数的不可靠性。通过预测每个动作查询的本地化质量,ReAct能够在THUMOS14数据集上达到最先进的性能,同时降低了计算成本。" **时间动作检测(Temporal Action Detection)** 时间动作检测是一种计算机视觉任务,旨在识别视频中的特定时间段内发生的行为或动作。随着深度学习的发展,这一领域已经取得了显著进步,特别是单阶段动作检测器的出现,它们在保持简单结构的同时,能提供优秀的性能。 **ReAct方法** ReAct是受DETR(Transformer-based Encoder-Decoder for Object Detection)启发而设计的一阶段动作检测器。它通过一组可学习的动作查询来建模动作实例,这些查询在解码器中交互作用,关注编码器输出的特征并更新自身状态。ReAct针对DETR的几个局限进行了优化: 1. **关系注意机制**:为了增强解码器中查询间的关系探索,ReAct引入了一种新的机制,使得查询能够根据它们之间的关系进行注意力引导,这有助于更准确地定位和识别动作。 2. **动作分类训练的改进**:由于训练样本数量有限,传统的分类训练可能会不足。ReAct提出两个损失函数来促进和稳定动作分类训练,从而提高模型的泛化能力。 3. **推理时的本地化质量预测**:在推理过程中,ReAct预测每个动作查询的本地化质量,这样可以区分高质量的查询,提高检测结果的可靠性。 **实验和消融研究** ReAct在THUMOS14数据集上实现了最先进的性能,并且相比其他方法,它的计算成本更低。作者进行了广泛的消融研究,以验证每个提议组件的有效性,这表明了ReAct各个部分的重要性。 **代码和资源** ReAct的源代码可以在https://github.com/sssste/React上找到,这为研究人员提供了进一步研究和应用ReAct方法的基础。 ReAct通过创新的关系注意机制和优化的训练策略,提升了时间动作检测的性能,为该领域的研究提供了新的方向和工具。