解纠缠Transformer：新视角人机交互检测

83 浏览量更新于2025-01-16 收藏 1.95MB PDF 举报

"本文介绍了一种新型的人机交互检测方法，即基于非纠缠Transformer的模型。这种方法针对人-物交互检测中的联合定位和分类问题，通过解纠缠Transformer的设计，将三元组预测任务分解为独立的实体检测和交互分类两部分，从而提高预测的准确性。与现有HOI Transformer的单分支和并行分支架构相比，该模型能够更精准地学习到不同区域的表示，减少了匹配过程中的错误。实验结果表明，该方法在两个公共HOI基准上显著超越了先前的工作。" 1. 人机交互检测（HOI）概述人机交互检测是计算机视觉领域的重要研究方向，其目标是识别图像中的人、执行的动作（动词）以及与之交互的物体，形成人-动词-物体的三元组。这一领域的精确估计对于多项下游任务，如人体动作识别、场景图生成和图像标题生成等，具有重要的推动作用。 2. HOI Transformer的发展近年来，Transformer架构被广泛应用到HOI检测中，主要分为两种类型：单分支和并行分支。单分支Transformer直接用一个解码器预测三元组，而并行分支Transformer则使用两个解码器分别检测对象和交互，再通过匹配组合成三元组，但这可能导致额外的组合错误。 3. 非纠缠Transformer创新点提出的非纠缠Transformer模型摒弃了上述两种架构的局限，将三元组预测任务拆分为人-对象对检测和交互分类。模型包含一个基础解码器用于生成HOI的统一表示，随后输入到解纠缠解码器中，每个解纠缠解码器专注于不同的预测任务。这样，编码器和解码器都能更好地学习到与特定任务相关的特征，增强了表示学习的针对性。 4. 实验验证通过大量实验，非纠缠Transformer展现出了优于现有方法的性能，尤其是在两个公共的HOI数据集上，取得了显著的性能提升，降低了错误率。 5. 应用前景这种新方法不仅提高了HOI检测的准确性，也为未来Transformer在复杂视觉任务中的应用提供了新的思路。代码的开源将进一步促进研究社区对这一技术的探索和应用。 6. 结论基于非纠缠Transformer的人机交互检测方法通过解耦预测任务，提升了模型的预测能力和泛化能力。这一创新性工作为理解复杂视觉场景提供了强大的工具，对于人机交互的理解和计算机视觉的未来发展具有深远的影响。

19568

基于非纠缠Transformer的人机交互检测

周德森

* 刘

志超

，

$王

健

乐山王

，

2 <

$胡涛

丁

二瑞

京东王

1百度公司

计算机视觉技术部

（

VIS

）

上海科技大学

{zhoudesen，wangjian33，hutao06，dingerrui} @ baidu.com

{liuzhch，wanglsh} @ shanghaitech.edu.cn，wangjingdong@outlook.com

摘要

人

物交互检测解决了人

物交互的联合定位和分类

问题。现有的

HOI

变换器要么采用一个单一的解码器

进行三元组预测，要么利用两个并行的解码器来检测

单独的对象和相互作用，并通过匹配过程组成三元组

相反，我们将三元组预测解耦为人

物体对检测和交互

分类。我们的主要动机是，检测人类对象的实例和分

类的相互作用准确地需要学习表示，侧重于不同的区

域。为此，我们提出了解纠缠的

Transformer

，其中编

码器和解码器都为了关联解纠缠解码器的预测，我们

首先用基本解码器生成

HOI

三元组的统一表示，然后

将其用作每个解纠缠解码器的输入大量的实验表明，

我们的方法优于以前的工作在两个公共

李克

HOI

基准

相当大的保证金。代码将可用。

介绍

人机交互（HOI）检测[11]旨在检测图像中所有的

人，动词，物体>三元组近年来，它在计算机视觉界引

起了越来越多的关注[8，10]。人-对象交互的准确估计

可以使多个下游任务受益，例如人类动作识别[38]，

场景图生成[25]和图像标题[4]。

最近的进展表明，HOI检测可以用集合预测问题来

表示[3，17，30，44]。现有的HOI变压器可以分为两

种类型：单分支变压器和并联分支变压器。单-

同等贡献。

[2]

智超和乐山在百度VIS实习时所做的工作。

图

不同

HOI

变压器的架构比较。

(a)

单分支

Transformer [30

，

44]

采用单个解码器来直接检测

HOI

三元组。（

）单支路

Transformer [3

，

17]

利用单独的解

码器检测各个对象和交互，然后通过匹配过程组成三元组，

这可能会引入额外的分组错误。

(c)

我们通过实例流和交互流

将三元组预测的任务分解为人

对象对检测和交互分类，其

中编码器和解码器都被分解。

分支Transformer [30，44]采用多任务策略，其中一个

查询可用于在单个解码器内预测人、动词、对象>三元

组。相比之下，并行分支Transformer [3，17]采用并行

解码器分别进行实例检测和交互分类。具体来说，一

个实例解码器遵循DETR [1]并检测单个对象，另一个

交互解码器估计图像中的交互。为了组成HOI 三元

组，它生成额外的关联嵌入以匹配交互和实例。由于

HOI检测是一个组合问题[13，15]，与统一的多任务策

略相比，后一种分解策略具有几个优势。首先，两个

子任务解码器

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

解纠缠Transformer：新视角人机交互检测

基于Transformer的CPC方法提升人机交互检测性能

类别感知Transformer提升人机交互检测性能

基于swin-transformer实现小目标检测任务python源码+使用说明+数据集.zip

基于Transformer模型的谣言检测系统

网络安全课设-基于CNN和Transformer的网络入侵检测系统python源码+数据集+详细注释.zip

基于Transformer模型的SDN环境流量异常检测技术探究,DL00596-基于transformer的SDN环境流量异常检测 ,基于transformer; SDN环境; 流量异常检测; DL0

多尺度Transformer提升人-物体交互检测性能

基于Transformer的端到端目标检测模型

基于transformer目标检测

基于transformer的工业缺陷检测算法设计

最新资源