解纠缠Transformer:新视角人机交互检测

0 下载量 83 浏览量 更新于2025-01-16 收藏 1.95MB PDF 举报
"本文介绍了一种新型的人机交互检测方法,即基于非纠缠Transformer的模型。这种方法针对人-物交互检测中的联合定位和分类问题,通过解纠缠Transformer的设计,将三元组预测任务分解为独立的实体检测和交互分类两部分,从而提高预测的准确性。与现有HOI Transformer的单分支和并行分支架构相比,该模型能够更精准地学习到不同区域的表示,减少了匹配过程中的错误。实验结果表明,该方法在两个公共HOI基准上显著超越了先前的工作。" 1. 人机交互检测(HOI)概述 人机交互检测是计算机视觉领域的重要研究方向,其目标是识别图像中的人、执行的动作(动词)以及与之交互的物体,形成人-动词-物体的三元组。这一领域的精确估计对于多项下游任务,如人体动作识别、场景图生成和图像标题生成等,具有重要的推动作用。 2. HOI Transformer的发展 近年来,Transformer架构被广泛应用到HOI检测中,主要分为两种类型:单分支和并行分支。单分支Transformer直接用一个解码器预测三元组,而并行分支Transformer则使用两个解码器分别检测对象和交互,再通过匹配组合成三元组,但这可能导致额外的组合错误。 3. 非纠缠Transformer创新点 提出的非纠缠Transformer模型摒弃了上述两种架构的局限,将三元组预测任务拆分为人-对象对检测和交互分类。模型包含一个基础解码器用于生成HOI的统一表示,随后输入到解纠缠解码器中,每个解纠缠解码器专注于不同的预测任务。这样,编码器和解码器都能更好地学习到与特定任务相关的特征,增强了表示学习的针对性。 4. 实验验证 通过大量实验,非纠缠Transformer展现出了优于现有方法的性能,尤其是在两个公共的HOI数据集上,取得了显著的性能提升,降低了错误率。 5. 应用前景 这种新方法不仅提高了HOI检测的准确性,也为未来Transformer在复杂视觉任务中的应用提供了新的思路。代码的开源将进一步促进研究社区对这一技术的探索和应用。 6. 结论 基于非纠缠Transformer的人机交互检测方法通过解耦预测任务,提升了模型的预测能力和泛化能力。这一创新性工作为理解复杂视觉场景提供了强大的工具,对于人机交互的理解和计算机视觉的未来发展具有深远的影响。