成对身体部位注意力模型提升HOI识别性能

0 下载量 138 浏览量 更新于2024-06-20 收藏 1.38MB PDF 举报
本文主要探讨了人-物交互(HOI)识别中的一个重要视角,即在理解人类与物体互动时,忽视了通常情况下身体部位在交互过程中的关键作用。传统的HOI识别方法往往将人体视为一个整体,对全身区域给予同等的关注,这可能并不符合人类实际的注意力分布和身体部位协同工作的特性。 作者们指出,人的视觉注意力是偏向于特定身体部位的,比如手、脚或面部等,这些部位在与物体交互时起着决定性作用。因此,他们提出了一种创新的成对身体部位注意力模型,该模型旨在赋予不同的身体部位以不同的关注度,并强调不同部位之间的相关性。这个模型引入了两种关键组件:一种是基于注意力的特征选择机制,它帮助模型自动聚焦于关键的身体部位;另一种是特征表示方案,用于捕捉身体部位间的成对相关性。 通过这种新颖的方法,论文在HICO数据集上实现了显著的性能提升,将原始的36.1 mAP提高到了39.9 mAP,提升了约10%的精度。这种方法的引入对于更准确地理解和预测静止图像中的人-物交互具有重要意义。 研究者们强调,他们的工作不仅有助于改善现有HOI识别系统的准确性,还为深入理解人类视觉注意力模式提供了新的视角。同时,他们承诺将公开他们的模型和源代码,以便其他研究者能够在这一领域进行进一步的探索和优化。 本文的核心贡献在于提出了一种关注身体部位特性和成对关系的注意力模型,这对于提升静态图像中人-物交互识别的性能具有重要价值,并有可能推动相关领域的研究进展。