成对身体部位注意力模型提升HOI识别性能

138 浏览量更新于2024-06-20 收藏 1.38MB PDF 举报

本文主要探讨了人-物交互（HOI）识别中的一个重要视角，即在理解人类与物体互动时，忽视了通常情况下身体部位在交互过程中的关键作用。传统的HOI识别方法往往将人体视为一个整体，对全身区域给予同等的关注，这可能并不符合人类实际的注意力分布和身体部位协同工作的特性。作者们指出，人的视觉注意力是偏向于特定身体部位的，比如手、脚或面部等，这些部位在与物体交互时起着决定性作用。因此，他们提出了一种创新的成对身体部位注意力模型，该模型旨在赋予不同的身体部位以不同的关注度，并强调不同部位之间的相关性。这个模型引入了两种关键组件：一种是基于注意力的特征选择机制，它帮助模型自动聚焦于关键的身体部位；另一种是特征表示方案，用于捕捉身体部位间的成对相关性。通过这种新颖的方法，论文在HICO数据集上实现了显著的性能提升，将原始的36.1 mAP提高到了39.9 mAP，提升了约10%的精度。这种方法的引入对于更准确地理解和预测静止图像中的人-物交互具有重要意义。研究者们强调，他们的工作不仅有助于改善现有HOI识别系统的准确性，还为深入理解人类视觉注意力模式提供了新的视角。同时，他们承诺将公开他们的模型和源代码，以便其他研究者能够在这一领域进行进一步的探索和优化。本文的核心贡献在于提出了一种关注身体部位特性和成对关系的注意力模型，这对于提升静态图像中人-物交互识别的性能具有重要价值，并有可能推动相关领域的研究进展。

H.S. Fang和J.Cao和Y.W. Tai和C. 陆

海

标签

图二.概述我们的框架。该模型首先从一组建议中提取人、物和场景的视觉特

征.我们使用ROI成对池化（a）对不同身体部位的特征及其成对相关性进行编

码。然后，我们的成对身体部位注意模块（b）将选择那些有区别的身体部位

对的特征图。来自人、对象和场景的全局外观特征（c）也将有助于最终预

测。在[29]之后，我们采用MIL来解决图像中多人同现的问题更多详细信息请

参见文本

我们的报纸在[27，39]中，LSTM网络用于学习关注每个帧内骨架的信

息关节，以识别视频中的动作他们的方法与我们的方法不同，他们的

模型学习专注于动作序列中3D骨架的判别关节。在[10]中，作者介绍

了一种用于动作识别的注意力池机制但是他们的注意力被应用到整个

图像上，而不是像我们一样明确地关注人体部位和身体部位之间的相

关性。

我们的方法

我们的方法利用全局和局部信息来推断HOI标签。全局上下文信息已

经被许多先前的作品[8，51，32，20]很好地研究，专注于利用人，物

体和场景的特征在第3.1节中，我们回顾了之前的深度学习模型[29]，

该模型利用了人和场景的特征基于[29]的模型，我们进一步结合了对象

特征。这形成了一个强大的基础网络，可以有效地捕获全球信息。请

注意，我们改进的基础网络已经实现了

比[29]提出的模型性能更好。

在第3.2节中，我们描述了将成对身体部位相关性纳入深度神经网

络的主要算法。具体来说，我们提出了一个简单而有效的池化方法，

称为ROI成对池化，它编码每个身体部位的局部特征和它们之间的成

对相关性。一个注意力模型的开发，专注于歧视性的成对特征。最

后，我们在第3.3节中提出了全局特征和局部成对相关特征的组合。

图2显示了我们的网络架构的概述。

(b)成对身体部位注意

模块

层

(a)ROI

成对合并

VGG

Conv 5

(c)全球亮相

层

Concat

密

耳

场景

人类

对象

身体

部位

ROI

池

对象

特征

场景

人类

选定的躯

干部位对

身体

部位

对

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

成对身体部位注意力模型提升HOI识别性能

2018HOI相关论文PPT

2022.5.16日汇报

安全人机工程的实践与运用讲义.pptx

如何结合Transformer和注意力机制，在深度学习框架中实现高效的人-物体交互(HOI)检测？

设计人-机交互子系统的策略

如何使用深度学习框架实现高效的人-物体交互(HOI)检测？请结合最新的Transformer技术和注意力机制给出示例。

如何利用深度学习框架结合Transformer技术和注意力机制实现高效的人-物体交互(HOI)检测？请提供示例代码。

ansible read -p交互式

如何结合使用叉生分析、Logistic回归和多因子降维法来揭示复杂疾病的基因-环境交互作用？

研究大气-陆地交互机制有什么用

最新资源