全卷积方法的人机交互检测

57 浏览量更新于2023-10-23 收藏 2.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4116使用交互点学习人机交互检测王天才1杨彤1马丁·达内尔扬2 法赫德·沙赫巴兹汗3、4张翔宇1孙健11MEGVIITechnology2ETHZurich，Switzerland3IIAI，UAE4Linko¨ pingUni versity，Sweden摘要理解人与物体之间的相互作用人-物体交互（HOI）检测努力定位人和物体以及识别它们之间的复杂交互。大多数现有的HOI检测方法是以实例为中心的，其中基于外观特征和粗略的空间信息来预测所有可能的人-对象对之间的交互。我们认为单凭交互点积分（b）第（1）款不足以捕捉复杂的人-物体交互。因此，在本文中，我们提出了一种新的全卷积方法，可以直接检测人-物体对之间的我们的网络预测相互作用点，直接定位和分类的相互作用。与密集预测的交互矢量配对，交互与人类和物体检测相关联以获得最终预测。据我们所知，我们是第一个提出HOI检测作为关键点检测和分组问题的方法。实验在两个流行的基准：V-COCO和HICO-DET上进行。我们的方法在两个数据集上都设置了新的最先进的技术。代码可在https://github.com/vaesl/IP-Net上获得。1. 介绍图像内容的语义理解是计算机视觉中的基本问题之一。检测人-物交互（HOI）是一类视觉关系检测，其中任务不仅是定位人和物体，而且还推断它们之间的关系，例如问题是，由于图像可能包含多个人同时进行相同的交互，因此会出现挑战该工作是在MEGVII Technol- ogy实习期间完成的。本工作得到了国家重点研究发展计划（2003年）的资助. 2017YFA0700800）和北京人工智能研究院（BAAI）。联系邮箱：angtc@tju.edu.cn图1. (a)大多数现有方法解决HOI检测问题，其中来自预训练检测器的检测到的边界框（人和物体）首先用于从主干提取然后，采用多流架构，其中来自三个并行流的各个分数：人、对象和成对地融合以获得所有人-对象对的最终交互预测。(b)与以前的方法不同，我们提出的方法将HOI作为关键点检测和分组问题，通过学习生成交互点和向量，这些交互点和向量直接与来自对象检测分支的人和对象实例一起分组与多个对象交互（这些复杂多样的交互场景在设计HOI检测解决方案时带来了重大挑战。大多数现有的方法[3，7，14，39]通过将问题分解为两个部分来检测以三元组形式存在的人-对象交互：人，动作，对象。对象检测和交互识别。对于对象检测，通常采用预先训练的对象检测器来检测人和对象两者。对于交互识别，文献中存在几种策略[23，25，34]。大多数最近的HOI检测方法[3，7，14，34]利用多流架构（见图11）。1（a））用于交互识别。多流架构通常包含三个单独的流：一个人一个物体和一对人类和物体流编码都出现了-特征提取分数融合对象检测配对所有H-O对（一）成对流人类流对象流HOIs对象检测4117人和物体的空间特征，而成对流的目的是编码人和物体之间的空间关系。然后，来自三个流的各个分数以后期融合的方式进行融合，以进行交互识别。在提高HOI检测性能的同时，基于上述多流架构的现有技术方法在计算上是昂贵的。在训练过程中，这些以实例为中心的方法需要将所有人与所有对象配对，以便学习积极和消极的人-对象对。这意味着推理时间与场景中的实例数量成二次比例，因为所有人-对象对都需要通过网络以获得最终的交互分数。除了计算上昂贵之外，这些方法主要依赖于外观特征和简单的成对流，该成对流采用两个盒子（人和物体）的并集来构造二进制图像表示。我们认为，这种依赖于外观特征和粗糙的空间信息是不足以捕捉复杂的相互作用，导致不准确的预测。在这项工作中，我们研究了一种替代方法，通过直接检测人-物对之间的交互作为一组交互点来解决这些缺点。贡献：在这项工作中，我们提出了一种新的HOI检测方法。受无锚对象检测方法最近成功的启发，我们将HOI检测作为关键点检测和分组问题（参见图1（b））。所提出的方法直接检测人-对象对之间的交互作为一组交互点。基于交互点，我们的方法学习生成相对于人和对象中心点的交互向量。我们进一步引入了一个交互分组方案，该方案将交互点和向量与相应的人类和对象边界框预测进行配对，以产生最终的交互预测。在两个HOI检测基准上进行了大量实验：[9][10][11][12][13][14][15][16][17]我们提出的架构在两个数据集上都取得了最先进的结果，比现有的以实例为中心的方法表现更好。此外，我们进行了彻底的消融研究，以证明我们的方法的有效性。2. 相关工作目标检测：近年来，在目标检测领域已经取得了显著的进展[15，17，19，21，28，29，35，36]，主要是由于深度卷积神经网络（CNN）的进步。一般来说，现代目标检测方法可以分为单阶段[17，20，26，27，33]和两阶段方法[1，15，28]。两阶段对象检测方法通常生成can-在第二阶段中，对目标提案进行数据化，然后对这些提案进行分类和回归。另一方面，单阶段对象检测方法通过直接分类和回归每个位置中的默认锚两级物体检测器通常被认为是更准确的，而单级方法的主要优点是它们的速度。在对象检测中，最近的无锚单级检测器[13，31，40，41]旨在消除锚盒的要求，并将对象检测视为关键点估计。CornerNet [13]将对象的边界框检测为一对关键点，即左上角和右下角。ExtremeNet [41]进一步检测对象的四个极值点和一个中心点，并将五个关键点分组到一个边界框中。CenterNet [40]将对象建模为单个点-其边界框的中心点，并且还扩展到人体姿势估计[6]和3D检测任务[24]。在现有的人-物交互（HOI）检测方法中，[9]的工作是第一次探索视觉感知问题，Mantic 角色标签这个问题的目标是本地化的代理（人）和对象，以及检测它们之间的相互作用。[8]的工作引入了一种以人为中心的方法，称为InteractNet，它扩展了Faster R-CNN框架，增加了一个分支来学习目标位置上的交互特定密度图。Qi等人，[25]提出利用图卷积神经网络，将HOI任务看作图结构优化问题。Chao等人，[3]构建了一个基于人-物体感兴趣区域和成对交互分支的多流网络。该多流体系结构的输入是来自预先训练的检测器的预测边界框（例如，FPN[15]）和原始图像。在这样的多流架构中的人和对象流基于外观特征（例如来自骨干网络）以在检测到的人和对象边界框上生成置信度预测。另一方面，成对流通过取两个框（人和对象）的并集来简单地编码人和对象之间的空间关系后来的工作扩展了上述多流体系结构，引入了以实例为中心的注意力[7]、姿势信息[14]和基于上下文感知外观特征的深度上下文注意力[34]。3. 方法在这里，我们提出了我们的方法的基础上相互作用点生成（第二。3.3）和分组（Sec. 第3.4段）。3.1. 动机如前所述，大多数现有的HOI检测方法[3，7，34]采用多流架构，其中4118输入图像骨干互动交流交互点分支输出：踢运动球对象检测交互矢量分支交互生成图2.所提出的具有定位和交互预测阶段的HOI检测框架的总体架构。与之前的几项工作[7，14，34]一样，我们采用标准对象检测器（FPN [15]）来获得人和对象边界框预测。我们的交互预测阶段包括三个步骤：特征提取、交互生成（第二节）3.3）和交互分组（第第3.4段）。交互生成包含两个独立的分支，分别生成交互点和交互矢量。交互点和矢量以及检测到的人和对象边界框预测然后被输入到交互分组以用于最终HOI预测：人、行动、物体的关系。以后期融合方式融合来自人、对象和成对流的各个分数以用于交互识别。我们认为，这种后期融合策略是次优的，因为外观特征本身不足以捕捉复杂的人与物体的交互。此外，成对流简单地将两个框（人和对象）的并集作为参考框来构造二元图像表示，这可能由于粗略的空间信息而导致不准确的预测。受无锚物体检测技术进步的启发为图像中所有可能的人和物体实例创建边界框。我们设计的主要重点是一个新的表示交互预测。它包括三个步骤：特征提取、交互生成（第二节）3.3）和交互分组（第第3.4段）。对于特征提取，我们采用沙漏[18]作为无锚单阶段方法[13，40，41]中典型使用的网络骨干给定大小为H×W×3的输入RGB图像，沙漏网络的输出是大小为H×W×D，其中H、W是输入S S[13，40，41]，我们认为HOI检测是相互作用点估计问题，通过定义人与物体之间的相互作用作为相互作用点。基于交互点，我们的方法还学习生成关于人和对象中心点的交互向量然后，它将交互点与相应的人类和对象边界框预测配对。与对象实例在图像中通常彼此独立的对象检测不同，HOI中的交互点估计由于多样且复杂的现实世界交互场景而更具挑战性，例如，多个人执行相同的交互或者同一个人同时与多个对象交互。据我们所知，我们是第一个提出HOI检测方法的人和对象之间的交互被定义为关键点。3.2. 整体架构我们的整体架构如图所示。二、它包括对象检测和交互预测。对于对象检测，我们遵循之前的HOI检测工作[7，34]图像和D，S是输出通道和步幅，活泼地如在[2，22]中，我们采用S=4的步幅来实现准确定位和计算效率之间的权衡从主干得到的特征被输入到交互生成模块以产生交互点和交互矢量。交互点被定义为人-物对之间的动作的中心点，并且是交互向量的起点。因此，交互点和向量连同检测到的人和对象边界框一起被输入到交互分组步骤，用于最终HOI三元组-人、动作、对象边界框预测。3.3. 交互生成交互生成模块包含两个并行分支：相互作用点和相互作用矢量预测。这两个分支都将从主干提取的特征作为输入。交互点分支：给定从主干网络生成的特征图，使用单个3 × 3卷积层来生成交互点热图并采用标准的对象检测器，FPN [15]，用于生成，尺寸H×W×C，其中C表示输入的数量。S S4119交互矢量分支：如图3、基于交互点（p x，p y），交互矢量分支旨在预测朝向对应的人类中心点的交互矢量。给定成对的人和物体边界框、人中心点h和物体中心点o，计算交互点p=（p x，p y）。然后，定义相互作用矢量v=（v x，v y），使得p+v=h和p-v= o。交互向量分支被训练以预测无符号交互向量v′=（|Vx|、|vy|），这在我们的训练中被用作基础事实。与在交互点分支中一样，我们使用单个3×3卷积层来生成无符号交互矢量图V大小为H×W×2，其中一个是相互作用的长度S S图3.示例图像上的交互作用点和交互作用矢量的插图交互点p（黄色圆圈）被定义为人-物体对之间的动作的中心点，并且其本身用作交互矢量v（黄色箭头）的起点。在训练期间，交互点热图是一个是水平方向的矢量，另一个是长度方向的矢量垂直方向的相互作用矢量。在推理时，我们基于交互点和无符号交互向量提取人类中心的四个可能位置，（x i，y i）=（p x± |V x|，p y± |v y|），i = 1，2，3，4。（一）HH由hu生成的地面实况高斯热图监督人和物体中心点（青色和红色圆圈）。比例尺图上交互点的原始像素坐标通过使用L1损失的交互矢量的水平和垂直长度来监督。在推理时，生成的交互点热图用于通过采用后处理策略提取前k个峰值交互点，如[13]所示基于前k个相互作用点的位置，在比例图的相应坐标处获得相互作用向量的水平和垂直长度。交互作用类别。在训练过程中，交互点热图由具有多个峰值的地面实况热图监督，其中每个交互点都使用相同的高斯核定义，如[13]所示。我们在整个实验中根据经验固定高斯核中的标准差。请注意，单个关键点位置只能表示单阶段对象检测中的一个对象类[40]。与对象检测不同，单个关键点位置可以指HOI检测中的多个交互类别例如，人可以同时用网球拍握持和击打。在这种情况下，图3显示了交互点示例（黄色我们进一步将交互框定义为矩形，由（1）给出的角。接下来，我们描述交互分组方案。3.4. 互动交流在训练期间，交互点及其对应的人和物体中心点具有固定的几何结构。在推理阶段，生成的交互点需要与对象检测结果（人和对象边界框）分组。这意味着，如果满足以下条件，则所生成的交互点p与具有中心h的人和具有中心o的对象配对：hp+v和op− v。用于高效准确地对交互点进行利用人和物体的边界框，我们进一步提出了一种交互分组方案，该方案利用软约束来过滤掉大部分负HOI对。图4示出了我们的交互分组方案的图示。它有三个输入：人/对象边界框（青色和红色）、从交互作用热图提取的交互作用点（橙色点）以及在交互作用点的位置处的交互作用向量（橙色箭头）。交互框（橙色）的四个角（绿色）由给定的交互点和无符号交互vec计算。定义为p=hx+ox，p=hy+oy，对于给定的使用Eq.（一）. 参考框r的四个角X2y2分别具有中心点h=（hx，hy）和o=（ox，oy）人-物体（HO）对请注意，交互点是为同时涉及人类和物体。对于没有任何关联对象的交互类别（例如，步行和跑步），交互点一般化到相应人的中心点。标准HOI检测数据集[4，9]中的大多数类别涉及人和物体。框(in紫色）可以由所检测的人和对象边界框的中心点来确定然后，基于生成的交互和参考框，我们计算这两个框的四个角的矢量长度dtl、dtr、dbl、dbr。在交互框和四个向量长度满足下面（2）中的约束的情况下，则当前人和对象边界框以及交互点被认为是真正的正HOI对。互动箱Object bbox你好Human bbox4120pkkK算法1相互作用输入：来自对象检测器的人/对象bbox：Hbbox，Obbox交互点和矢量热图：P、V人、物体和动作评分阈值：hτ、oτ、aτ角点的矢量长度阈值：d图4.交互分组方案的流程。它有三个输入：来自对象检测分支的人/对象边界框、来自交互点分支的交互点以及由交互矢量分支预测的交互矢量。交互作用框（橙色框）由给定的交互作用点和交互作用向量的长度（水平和垂直）确定。参考框（紫色）也可以由检测到的人/物体框确定。在参考框、交互框和人/物体边界框满足条件（2）的情况下，则当前人/物体边界框和交互点被认为是真正的正HO对。τ输出：HOI三元组与最终得分。//将热图P转换为交互点集A。//从V中提取交互向量。对于h盒∈Hbbox，o盒∈Obbox，a∈A，如果hscore> hτ，o score> oτ，a score> aτ，则//使用Ed获取交互框i box。1.一、//通过hbox和obox计算引用boxrbox。如果hbbox、obbox、ibox、rbox满足条件（2），则sf←h score·o score·p score//输出当前HOI对，最终得分为sf。如果结束端2）无符号的相互作用矢量v′=（|Vx|k，|vy|k）在相互作用点p k处作为地面实况。然后，对所有的交互点采用L1损失，电子邮件：info@hklou.combbox，我拳击）>0，1ΣNLv=Nk=1|-是的|.（四）IoU（obbox，ibox）>0，d，d，d，d

下载后可阅读完整内容，剩余1页未读，立即下载