基于双注意网络的人-对象交互识别模型及其性能分析

42 浏览量更新于2023-10-16 收藏 1.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3919基于双注意网络萧特特1、2张全富范2丹·古特弗罗因德2马修·蒙福特3 奥德·奥利瓦3周波磊41加州大学伯克利分校2麻省理工学院-IBM沃森人工智能实验室、IBM研究院3麻省理工学院4香港中文大学摘要对象是我们作用的实体，其中对象的功能取决于我们如何与它交互在这项工作中，我们提出了一个双重注意力网络模型，该模型考虑到人与物体的交互。双注意框架分别对物体和动作的重要特征进行加权。因此，对对象和动作的识别是相互受益的该模型倒某物投入某事旋转某物碗瓶撕破某物成两截折叠某物布纸显示了在人-对象交互数据集Something-Something上具有竞争力的分类性能此外，它可以执行弱时空定位和affor-dance分割，尽管只训练视频级标签。该模型不仅可以发现动作何时发生以及哪个对象正在被操作，还可以识别对象的哪个部分正在被交互。1. 介绍由James Gibson [9]引入的可供性是指对象的属性，通常是其形状和材料，这些属性决定了对象应该如何被操纵或交互。一个对象所能承受的可能的动作集是受约束的。例如，我们可以从塑料瓶中喝水，将水倒入其中，挤压它或旋转它，但我们不能轻易地将其撕成两片（见图1）。同样，对于一个给定的动作，它可以适用的可能对象也是有限的。例如，我们可以折叠纸，但不能折叠瓶子。一些工作已经利用对象信息来识别人-对象交互（HOI）和更一般的动作识别[3，10，31，19，44]。然而，理解HOI超越了对对象和动作的感知：它涉及对如何描绘动作和对对象的后果之间的关系的推理（即，对象的形状或位置是否被作用在其上的动作改变）。以前的大多数作品都为HOI预先定义了人-对象或动作-对象对[3，10，31]。分类是通过图形模型[12]，基于外观特征的分类器[10]，这项工作是在Tete Xiao在剑桥IBM研究院实习时完成的。图1：对象和动作的相互依赖。把东西撕成两半的动作可以在一张纸上完成，但不能在瓶子上完成。给定一个物体瓶子，我们可以把水倒进去或旋转它，但不能折叠或撕裂它。或图形解析模型[31]。先前方法的一个潜在问题是，随着对象和动作数量的增加，HOI模型的复杂性快速这些方法的推理能力也是有限的，由于动作对象对被预设为建模。此外，这些方法通常需要完整的注释，包括动作标签和对象边界框，以有效地建模HOI。在这里，我们提出了一个双注意力网络模型，利用对象先验知识作为指导，在视频流中可能执行的动作，反之亦然。注意力的焦点由热图表示，热图指示每个帧中动作发生的可能性或对象被操纵的可能性。这些注意力图可以增强视频表示并改善动作和对象识别，在Something-something [11]数据集上产生非常有竞争力的性能我们证明了注意力地图是直观和可解释的，可以更好地理解视频和模型诊断。这样的注意力地图也促进了对象和动作的弱监督时空定位。1.1. 相关工作动作识别。深度卷积神经网络已成功用于动作识别[23，38，45，13，16]。例如，我们可以利用-3920双重注意模块CNN对象注意力行动注意第一次预测行动纲领g.对象对象扔某物在空中，让它落下。（35.7%）行动纲领g.对象对象第二次预测有线电视（23.7%）图2：框架概述。我们的方法利用人的行动和对象的作用，通过双注意力模块在人-物交互。双注意力网络首先独立地预测可能的动作和对象标签作为先验（第一预测）。然后利用先验知识生成注意力图，对物体和动作的特征进行加权，进行第二次预测。行动计划：动作识别头。对象名称：物体识别头通过将基于CNN的特征从单帧馈送到RNN模型中，可以将CNN用于静态图像，RNN用于时间关系[49，5，20]。另一种方法是通过在原始视频上应用3D卷积滤波器（C3D）来扩展2D CNN，以直接捕获时空信息[39]。3D过滤器可以最近的工作涉及非局部网络[43]，它使用时空非局部操作来捕获长程依赖;和时间关系网络[50]，它从不同的时间段稀疏采样帧，并学习它们的因果关系。除了原始视频输入的端到端框架外，光流[15]在与从原始RGB图像中提取的特征结合时也被证明是有用的[35，2，50]人-物交互与视觉启示。一些作品已经利用了人与物体的交互和动作识别的Gupta等人[12]整合感知任务，以利用空间和功能约束来理解人与物体的相互作用。Kop- pula等[22]将问题框定为图，其中节点表示对象和子活动，而边表示人类活动和对象之间的启示和关系。图模型可以使用结构支持向量机（SVM）[22]或条件随机场（CRF）[24]进行优化。Jain等人[18]将spatiotemporal图与RNN合并，以模拟不同类型的时空问题，例如运动，动作预测和预测。Gkioxari等人[10]建议InteractNet通过利用检测到的人的外观特征来检测人，动词，对象的Dutta和Zielin-ska [7]采用概率方法来预测人与物体交互中的下一个动作[41]。Fang等人[8]提出了一种通过观看演示视频来学习对象的交互区域和动作标签的模型。注意模特们。注意力机制已经$#k出席的特点softmaxfk，1Fk，&…Fk，NHMLPpfk图像特征动作/对象先验图3：第k帧的注意力模块的图示它对动作（对象）先验进行编码，并相应地参与图像区域，从而产生对象（动作）识别的表示。采取行动表彰。Sharma等人[33]使用软注意力模块在空间上重新加权CNN特征。Ramanathan等人[32]建议参与特定事件的人员，以进行多人视频中的事件检测Song等人[36]利用注意力模块的骨架数据来提取以人为中心的动作中更多的区分特征。Du等人[6]提出将时空注意力模块并入经典的CNN-RNN视频识别模型。共同注意力模型[34，46，47，48，27，26]广泛用于与语言和视觉相关的任务，例如图像字幕[40]，视觉问题回答（VQA）[1]和视觉问题生成（VQG）[29]。Lu等人[27]提出了一种用于VQA的分层共同注意模型，其中图像表示用于引导问题注意，反之亦然，利用图像和文本这两种模态之间的关系。壮观（57.5%）举起某物完全地向上，然后让它向下。（85.5%）39211 2Tn φ θ k1k 2kn对比一下我们的做法。与用于动作识别的自我注意和人类注意模型提取特征。例如，所有帧都可以由LSTM建模，从而产生视频的最终表示和多模态（文本和视觉）任务的共同注意模型，我们的框架在上下文最后一句：VV=LSTM . f<$，f<$，···，f<$（二）在单一输入模态上的多任务学习，即原始视频我们的新迭代模型利用动作/对象关系来同时学习跨任务对象/动作注意力地图，这与使用自我引导注意力的先前作品有显著不同[33，6]。我们的模型不仅能够在人机交互数据集上超越以前的最先进技术[11]，而且还能产生可解释的注意力地图（见第4节）。2. 用于人-物交互的双注意力网络双注意力网络的设计方式是，通过交叉加权动作和对象的中间特征进行识别，使人类活动和对象的流相互作用我们的注意力模块是通用的，可以插入到任何基于CNN的动作识别模型中进行特征增强。我们首先在第2.1节和第2.2节中描述了用于视频理解的基于CNN的特征表示。然后，我们将在2.3节中介绍双注意模型，这是对动作和对象进行推理的基础最后，我们在2.4节中详细介绍了完整的框架。2.1. 用神经网络表示视频有两种事实上的范例来提取视频表示：1）基于图像的模型，其使用空间卷积核来独立地处理帧，并且稍后通过另一模型（诸如长短期记忆网络（LSTM））执行时间特征聚合[14]，或者时间关系网络（TRN）[50]; 2）基于视频的模型，跨帧应用卷积核来直接处理具有空间和时间维度的视频。1基于图像的模型。给定具有T个帧的视频V，独立地提取来自每个帧的CNN特征，从而产生T个原始特征的集合{f1，f2，···，fT}，其中d×N或者，TRN [50]是最近提出的一种简单而有效的网络模块，用于明确学习和建模不同时间尺度上稀疏采样帧的时间依赖性TRN可以应用于任何2D CNN架构之上。更具体地，对于给定的数n，n阶关系被建模为：.ΣR（V）=hg（f<$，f<$，···，f<$）（3）k1

下载后可阅读完整内容，剩余1页未读，立即下载