第二阶段的HOI三重态不考虑在内。因此,所生成的
人类对象提议可能具有相对低的质量。此外,在第二
阶段中,所有的人-对象提案需要被线性扫描,而其中
只有少数是有效的。额外的计算成本很大。因此,我
们认为,
非顺序和高度耦合
的框架是必要的。
我们提出了一个
并行
的HOI检测框架,并重新制定
HOI检测为点检测和匹配问题。如图2所示,我们将一
个盒子表示为一个中心点和相应的大小(宽度和高
度)。此外,我们定义一个交互点作为人和物体中心
点的中点.为了使每个交互点与人点和物点相匹配,我
们设计了从交互点到相应的人点和物点的两个位移。
在此基础上,我们设计了一种新的单阶段并行点检测
与匹配框架PPDM,将复杂的HOI检测任务分解为两个
简单的并行任务。PPDM由两个并行分支组成。第一
个分支是
点检测
,其估计三个中心点(交互点、人点
和物体点)、相应的尺寸(宽度和高度)和两个局部
偏移(人点和物体点)。交互点可以被认为是为人类
和对象检测两者提供上下文信息。换句话说,估计交
互点隐含地增强了对人和物体的检测。第二个分支是
点匹配
。估计从交互点到人和物体点的两个位移源自
相同交互点的人和物体点被认为是匹配的。在新的并
行架构中,点检测分支估计交互点,从而为人和物体
检测提供上下文和正则化。不太可能形成有意义的
HOI三联体的孤立检测框被抑制,而更可能的检测框
被增强。它不同于两阶段方法中的人-对象提议生成阶
段,在两阶段方法中,所有检测人/对象框无差别地形
成人-对象提议以馈送到第二阶段。此外,在点匹配分
支中,仅在有限数量的过滤后的候选交互点周围进行
匹配,这节省了大量的计算成本。相反,在两阶段方
法 的 建 议 在 公 共 基 准 HICO-Det [2] 和 我 们 新 收 集 的
HOI-A数据集上的实验结果表明,PPDM在准确性和速
度方面优于最先进的
现有的数据集如HICO-Det [22]和V- COCO [11]极大
地推动了相关研究的发展这些数据集非常一般。然
而,在实际应用中,几个
有限的,频繁
的HOI类别,
图2. PPDM包含两个并行分支。在点检测分支中,检测表示
为中心点、宽度和高度的人/对象框此外,交互点,即,人
和物点的中点也被定位。同时,在点匹配分支中,估计从每
个交互点到人/物体的两个人点和物点起源于同一个相互作
用点被认为是匹配对。
需要特别注意。为此,我们收集了一个新的人机交互
应用数据集(HOI-A),具有以下特征:1)特别挑选
了烟、乘等10种应用价值广泛的HOI类别。2)巨大的类
内变化,包括各种照明和每个类别的不同人类姿势
HOI-A更多的是应用驱动的,服务是对现有数据集的
一个很好的补充。
我们的贡献总结如下:1)将HOI检测问题转化为点
检测 和匹 配 问题 , 提 出了 一 种新 的单阶 段PPDM算
法。2)PPDM是第一个实现实时的HOI检测方法,优于
HICO-Det和HOI-A基准测试的最先进方法。3)收集大
规模和面向 应用的HOI 检测数 据集 以补充现有 数据
集。源代码和数据集都将发布,以促进相关研究。
2.
相关工作
HOI
检测方法。现有的HOI检测方法主要可以分为两个
阶段:在第一阶段,应用对象检测器[23]来定位人和
对象;在第二阶段,将检测到的人和物体配对,并将其
特征输入到分类网络中,以预测人与物体之间的交
互。目前的工作更多的是探讨如何改进第二阶段。最
近的工作旨在通过捕获上下文信息[7,27]或人类结构
信息[26,6,5,33]来理解HOI。一些作品[22,28,
33]将第二阶段制定为图推理问题,并使用图卷积网络
来预测HOI。
上述方法都是基于提案的,因此它们的性能受到提
案质量的限制Addi-