多级特征网络：人物交互检测及姿势线索的全局空间配置

50 浏览量更新于2023-10-12 收藏 20.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

94690Pose-aware Multi-level Feature Network for HumanObject Interaction Detection0Bo Wan � Desen Zhou � Yongfei Liu Rongjie Li Xuming HeShanghaiTech University, Shanghai, China0{ wanbo, zhouds, liuyf3, lirj2, hexm } @shanghaitech.edu.cn0摘要0推理人-物交互是人类中心场景理解中的一个核心问题，检测这种关系对于视觉系统来说是一个独特的挑战，因为人-物配置存在很大的变化，多个共存的关系实例和关系类别之间存在微妙的视觉差异。为了解决这些挑战，我们提出了一种多级关系检测策略，利用人体姿势线索捕捉关系的全局空间配置，并作为一种注意机制动态地放大到人体部位级别的相关区域。具体而言，我们开发了一个多分支深度网络，在三个语义级别上学习姿势增强的关系表示，包括交互上下文、物体特征和详细的语义部位线索。因此，我们的方法能够生成对细粒度人-物交互的稳健预测，并具有可解释的输出。在公共基准测试中进行了大量实验评估，结果显示我们的模型在处理复杂场景方面优于先前方法，证明了其在处理复杂场景中的有效性。代码可在https://github.com/bobwan1995/PMFNet找到。01. 引言0视觉关系在更深入理解视觉场景中起着重要作用，这通常需要超越仅仅识别单个场景实体的推理[22, 15,30]。在不同类型的视觉关系中，人-物交互在我们的视觉环境中无处不在，因此其推理对于许多视觉任务至关重要，例如活动分析[1]、视频理解[29]和视觉问答[10]。人-物交互（HOI）检测任务旨在从输入图像中定位和分类人、物体和关系的三元组。尽管深度神经网络在物体和动作识别方面取得了显著进展[13, 21,6]，但由于人-物配置的大幅变化、多个共现关系实例和关系类别之间的微妙视觉差异，检测HOI仍然具有挑战性。0� 作者贡献相同，按字母顺序排列。0右肩0右手腕0左手腕0物体0放大0图1.我们的框架利用三个级别的表示，包括i）交互（蓝色框），ii）视觉对象（绿色框和黄色框），iii）人体部位（红色框）来识别交互。我们框架的亮点是人体部位级别的表示，它可以提供有区分度的特征。这里关注了几个信息丰富的人体部位，如“右肩”、“右手腕”和“左手腕”，以帮助识别动作“握住”。0由于人-物外观和空间配置的大幅变化，多个共存关系和类似关系之间的微妙差异[11,2]，导致了人-物交互检测问题的复杂性。大多数现有的人-物交互检测方法通过在视觉对象级别推理交互来解决这个问题[9, 7,20]。主要方法通常从一组人-物提议开始，并提取人和物体实例的视觉特征，将其与空间线索（例如，提议的掩码）相结合，以预测这些人-物对的关系类别[7, 25,16]。尽管这些方法取得了令人鼓舞的结果，但在处理相对复杂的关系时，这种粗粒度推理存在一些缺点。首先，由于缺乏上下文线索，很难确定人-物对实例与对象级别表示的相关性，这可能导致错误的关联。此外，许多关系类型是根据细粒度动作定义的，这些动作不太可能基于类似的对象级特征进行区分。例如，在体育场景中，需要一组详细的局部特征来区分“握住”和“接住”之间的区别。此外，由于这些方法在很大程度上依赖于整体特征，关系的推理过程是一个黑盒子，很难解释。在这项工作中，我们提出了一种新的多级关系推理方法。94700我们提出了一种解决上述限制的推理策略。我们的主要思想是利用估计的人体姿势来捕捉关系的全局空间配置，并作为提取不同HOIs的语义部分级别的局部特征的指导。这种增强的表示使我们能够将交互上下文、人物-物体关系和详细的语义部分线索纳入关系推理中，从而生成具有可解释性的稳健和细粒度的预测。为此，我们针对每个人物-物体提案在三个不同的语义级别上进行关系推理：i) 交互级别，ii)视觉物体级别，iii)人体部分级别。图1展示了我们关系推理的示例。具体而言，在人物-物体提案的交互级别上，我们采用人物和物体实例的并集区域，编码了关系提案的上下文，以产生人物-物体对的亲和力分数。这个分数表示人物-物体对之间是否存在视觉关系的可能性，并帮助我们消除背景提案。对于视觉物体级别，我们采用了[2, 7,16]中的常见物体级别表示，但通过人体姿势进行增强，以编码人物-物体的外观和相对位置。我们设计的主要重点是人体部分级别的新表示，其中我们使用估计的人体姿势来描述人物-物体对的详细空间和外观线索。为了实现这一点，我们利用部分和关系之间的相关性来产生部分级别的注意力，使我们能够关注对每种关系类型有信息量的子区域。此外，我们计算与物体实体相关的部分位置，以编码细粒度的空间配置。最后，我们将来自三个级别的HOI线索整合起来预测人物-物体提案的类别。我们开发了一个多分支深度神经网络来实现我们的多级关系推理，包括四个主要模块：骨干模块、整体模块、放大模块和融合模块。给定一张图像，骨干模块计算其卷积特征图，并生成人物-物体提案和空间配置。对于每个提案，整体模块集成了人物、物体及其并集特征，以及人体姿势和物体位置的编码。放大模块提取人体部分和物体特征，并从姿势布局中产生部分级别的注意力，以增强相关部分线索。融合模块将整体和部分级别的表示组合起来，为HOI类别生成最终得分。我们将我们的模型称为“Pose-aware Multi-level FeatureNetwork”（PMFNet）。在给定人物-物体提案和姿势估计的情况下，我们的深度网络以端到端的方式进行训练。我们在两个公共基准数据集V-COCO和HICO-DET上进行了广泛的评估，并在性能上超过了当前最先进的方法。为了更好地理解我们的方法，我们还提供了详细的消融研究。0我们在V-COCO数据集上评估了我们深度网络的性能。我们的主要贡献有三个方面：0•我们提出了一种多级关系推理方法用于人物-物体交互检测，其中我们利用人体姿势捕捉全局配置，并作为提取详细局部外观线索的注意力。 •我们开发了一种模块化的网络架构用于HOI预测，基于关系亲和力和部分注意力生成可解释的输出。 •我们的方法在V-COCO和HICO-DET基准数据集上达到了最先进的性能。02. 相关工作0视觉关系检测。视觉关系检测（VRD）[19, 22, 15,30]旨在同时检测图像中的对象并描述它们的交互，这是实现视觉场景理解的关键任务。Lu等人[19]提出利用语义词嵌入学习语言先验，以微调视觉关系。Zhang等人[30]设计了一个视觉转换网络，将对象嵌入到低维关系空间中，以解决视觉关系检测问题。此外，Xu等人[26]将结构化场景中的视觉关系检测建模为一个图，并在对象之间传递消息。在我们的任务中，我们专注于以人为中心的关系检测，旨在检测人物-物体交互。人物-物体交互检测。人物-物体交互（HOI）检测对于理解复杂场景中的人类行为至关重要。近年来，研究人员开发了几个人物-物体交互数据集，如V-COCO[11]和HICO-DET[2]。早期的研究主要集中在利用多流信息解决HOIs识别问题，包括人物、物体外观、空间信息和人体姿势。在HO-RCNN[2]中，Chao等人提出了多流方法来整合人物、物体和空间配置信息，以解决HOIs检测任务。Qi等人[20]提出了图解析神经网络（GPNN）来将结构化场景建模为图，并在每个人物和物体节点之间传递消息，并对可能的对象类别和动作进行分类。有一些尝试使用人体姿势来识别细粒度的人类相关动作[5, 7,16]。Fang等人[5]利用人体部分之间的配对关系来帮助解决HOIs检测问题。Li等人[16]探索了多个数据集中存在的交互性先验，并结合人体姿势和空间配置形成姿势配置图。然而，这些工作只将人体姿势视为人体部分和物体之间的空间约束，而没有将其用于提取每个部分的放大特征，这为HOI任务提供了更详细的信息。94710空间配置图融合模块0特征图0骨干0整体模块0放大模块0FCs0交互亲和性 � "0FCs + � #0. � $,&0+ 连接0. 乘法0图2.我们框架的概述：对于一对人-对象提议和相关的人体姿势，骨干模块旨在准备卷积特征图和空间配置图（SCM）。整体模块生成对象级特征，放大模块捕捉部分级特征。最后，融合模块将对象级和部分级线索结合起来，预测HOI类别的最终得分。0相比之下，我们利用这种细粒度特征来捕捉相似交互之间的细微差异。注意力模型。注意力机制在各种视觉任务中都被证明非常有效，包括图像字幕生成[27，28]，细粒度分类[14]，姿势估计[4]和动作识别[23，8]。注意力机制可以帮助突出显示信息丰富的区域或部分，并抑制一些不相关的全局信息。Xu等人[27]首次在图像字幕生成中利用注意力机制，自动关注与生成的句子相关的图像中的一些信息丰富的区域。Sharma等人[23]将由LSTM实现的注意力模型应用于动作识别任务，以学习视频帧的重要部分。Yu等人[14]提出了一种堆叠的语义引导注意力，以便关注信息丰富的鸟类部分并抑制不相关的全局信息。在我们的工作中，我们专注于对人体部位进行姿势感知0我们现在介绍我们的多层次关系推理策略用于人-对象交互检测。我们的目标是在图像中定位和识别人-对象交互实例。为此，我们使用人体姿势信息增强对象级线索，并提出了一个捕捉关系上下文、人-对象和详细局部部分的表达式关系表示。我们开发了一个多分支深度神经网络，称为PMFNet，来学习这样一个HOI表示并预测HOI实例的类别。下面我们首先在第3.1节中介绍我们的问题设置和方法流程的概述，然后在第3.2节中详细描述我们的模型架构，最后在第3.3节中概述模型训练过程。03.1.概述0给定一张图像I，人-对象交互检测的任务旨在为所有的{�xh，x o，c o，a h,o�}生成元组。0图像中的HOI实例。这里x h ∈ R 4表示人体实例的位置（即边界框参数），x o ∈ R4表示对象实例的位置。0表示对象实例的位置，c o ∈ {1，...，C}表示对象的类别，ah,o ∈ {1，...，A}表示与x h和xo相关联的交互类别。对于一对�x h，x o�，我们使用c a h,o∈ {0，1}来指示交互类别a的存在。对象和关系集C ={1，...，C}和A ={1，...，A}作为检测任务的输入。我们采用假设和分类策略，首先生成一组人-对象提议，然后预测它们的关系类别。在提议生成阶段，我们将对象检测器（例如，FasterR-CNN[21]）应用于输入图像，并获得一组具有检测分数的人提议{�x h，s h�}和具有类别和检测分数的对象提议{�x o，c o，so�}。我们的HOI提议是通过将所有人和对象提议配对生成的。在关系分类阶段，我们首先为每个交互a和给定的�x h，xo�对估计一个关系分数s ah,o。然后将关系分数与关系实体（人和对象）的检测分数相结合，以产生元组{�x h，x o，c o，ah,o�}的最终HOI分数R a h,o，如下所示。0Rah,o = sah,o ∙ sh ∙ so，(1)0我们同时采用人体得分sh和物体得分so进行软分数融合，表示每个提议的检测质量。本工作的主要重点是构建一个姿势感知的关系分类器，用于预测给定�xh，xo�对的关系得分sah,o。为了实现这一目标，我们首先将一个现成的姿势估计器[3]应用于提议xh的裁剪区域，生成姿势向量ph ={p1h，...，pKh}，其中pkh∈R2是第k个关节的位置，K是所有关节的数量。为了将交互上下文、人体-物体关系和详细的语义部位线索纳入关系推理，我们引入了一个多分支深度神经网络来生成0+连接。乘法...Γ"#$+.......𝛽(𝛽)𝑓+𝑓,𝑓-Γ-#"+94720坐标图0人体分支0物体分支0空间分支0联合分支0全连接层0放大模块0部位K0部位20物体0�'。0� # 物体0人体0联合0空间0整体模块0图3. 整体模块和放大模块的结构。整体模块包括人体、物体、联合和空间分支。放大模块使用人体部位信息和注意机制来捕捉更多细节。0关系得分：0P(cah,o = 1 | I) ∝ sah,o = Fa(I, xh, xo, ph) (2)0其中网络Fa由四个模块组成：骨干模块、整体模块、放大模块和融合模块。下面我们将描述我们模型架构的详细信息。03.2. 模型架构0我们的深度网络PMFNet实现了多级关系推理，包括以下四个模块：a）骨干模块计算图像特征图并生成人体-物体提议以及空间配置；b）整体模块提取提议的物体级别和上下文特征；c）放大模块专注于挖掘部位级别的特征和人体部位与物体之间的交互模式；d）融合模块将物体级别和部位级别特征结合起来预测交互得分。我们模型的概述如图2所示。03.2.1 骨干模块0我们采用ResNet-50-FPN[17]作为我们的卷积网络，生成通道维度为D的特征图Γ。对于提议生成，我们使用Faster R-CNN[21]作为目标检测器，生成关系提议对{�xh，xo�}。如前所述，我们还为每个人体提议xh计算人体姿势向量ph，并将其作为我们网络的输入之一。除了卷积特征之外，我们还提取一组几何特征来编码每个人体-物体实例的空间配置。我们从人体和物体提议的联合空间开始，使用两个二进制掩码来捕捉物体级别的空间配置，如[2,7]所示。此外，为了捕捉人体部位和物体的细粒度空间信息，我们根据[16]的方法添加了一个额外的姿势图。具体来说，我们将估计的人体姿势表示为一个线图，其中所有关节根据COCO数据集的骨骼配置连接。我们使用宽度为w =3像素和一组强度值从0.05到0.95的线图进行栅格化，并以通道方式将二进制掩码和姿势图连接起来生成空间配置图。0最后，将联合空间中的二进制掩码和姿势图重新缩放为M×M，并以通道方式连接起来生成空间配置图。03.2.2 整体模块0为了捕捉对象级别和关系上下文信息，整体模块由四个基本分支组成：人体分支、对象分支、联合分支和空间分支，如图3（左）所示。人体、对象和联合分支的输入特征通过应用RoI-Align [12]根据人体提议 x h 、对象提议 x o和它们的联合提议 x u 从卷积特征图 Γ 中裁剪得到。x u定义为包含 x h 和 x o的空间区域中的最小框。然后将人体特征、对象特征和联合特征重新缩放为 R h × R h的分辨率。空间分支的输入直接来自于第3.2.1节中生成的空间配置图。对于每个分支，采用两个全连接层将特征嵌入到输出特征表示中。我们将人体、对象、联合和空间特征的输出表示为 f h 、f o 、f u、f s，并将所有特征连接起来得到最终的整体特征 Γ hol ： Γhol = f h ⊕ f o ⊕ f u ⊕ f s (3)0其中 ⊕ 表示连接操作。03.2.3 放大模块0虽然整体特征提供了交互的粗略级别信息，但许多交互类型在细粒度级别上定义，需要详细的人体部分或对象的局部信息。因此，我们设计了一个放大（ZI）模块，以放大人体部分以提取部分级别的特征。整个放大模块可以看作是一个网络，它以人体姿势、对象提议和卷积特征图作为输入，并提取一组用于HOI关系的局部交互特征：0Γ loc = F ZI (p h, x o, Γ) (4)f ′pk = fpk ⊕ αk,f ′po = fpo ⊕ αo(5)f ′′pk = βk ⊙ f ′pk(6)fatt = f ′′p1 ⊕ . . . f ′′pK ⊕ f ′po(7)Γloc = FC(fatt)(8)sG = σ(FC(Γhol)).(9)saL = σ(FCa(Γloc ⊕ Γhol))(10)sah,o = saL · sG,∀a ∈ A.(11)94730我们的放大模块如图3（右）所示，由三个组件组成：i）部分裁剪组件，旨在提取细粒度的人体部分特征；ii）空间对齐组件，为人体部分特征分配空间信息；iii）语义注意力组件，增强与交互相关的人体部分特征并抑制无关的特征。0部分裁剪组件给定人体姿势向量 p h = {p 1 h, ..., p K h} ，我们定义一个局部区域 x p k∈ R 40对于每个关节 p k h ，它是一个以 p k h为中心的盒子，大小与人体提议 x h 的大小成比例，记作 γ。类似于3.2.2节，我们采用RoI-Align[12]对这些创建的部分盒子以及对象提议 x o进行操作，生成 (K+1) 个区域，并将其重新缩放为分辨率为R p × R p 。我们将汇集的部分特征和对象特征表示为 f p= {f p 1, ..., f p K} 和 f p o ，其中每个特征的大小为 R p ×R p × D。0空间对齐组件我们的放大模块旨在提取局部部分区域的细粒度特征，并建模人体部分与对象之间的交互模式。许多交互与人体部分和对象的空间配置密切相关，可以通过不同人体部分和目标对象之间的相对位置来编码。例如，如果目标对象靠近“手”，则交互更有可能是“拿着”或“携带”，而不太可能是“踢”或“跳”。基于这一观察，我们引入了相对于对象中心的 x、y坐标的空间偏移作为每个部分的附加空间特征。具体而言，我们生成一个与卷积特征图 Γ 大小相同的坐标图 α 。该图 α包含两个通道，表示 Γ 中每个像素的 x 和 y坐标，并通过对象中心进行归一化。然后，我们对每个人体部分 x p k 和对象提议 x o 在 α 上应用 RoI-Align[12]，得到部分 k 的空间图 α k 和对象的空间图 α o。我们将空间图与部分裁剪特征连接起来，对于一个 R p ×R p的裁剪部分区域，我们将相对空间偏移对齐到每个像素，从而用细粒度的空间线索增强部分特征。最终的第 k个人体部分特征和对象特征为：0其中 f ′ p k , f ′ p o ∈ R R p × R p × ( D +2) ， ⊕为连接操作。0语义注意力组件由于姿势表示还编码了人体部分的语义类别，这些类别通常与交互类型有很强的相关性（例如，“眼睛”对于“读书”很重要）。因此，我们使用来自第3.2.1节的相同空间配置图来预测语义注意力。0我们的语义注意力网络由两个全连接层组成。在第一层之后采用ReLU层，在第二层之后使用Sigmoid层将最终预测归一化到 [0 , 1] 。我们将推断得到的语义注意力表示为 β ∈R K。注意，我们不预测对象的语义注意力，并假设对象在不同实例中始终具有值为1的注意力，这意味着它在不同实例中具有均匀的重要性。语义注意力用于加权部分特征，如下所示：0其中 β k ∈ [0 , 1] 是 β 的第k个值， ⊙表示逐元素乘法。最后，我们将人体部分特征和对象特征连接起来，得到注意力部分级特征 f att，并将其馈送到多个全连接层（ FC）以提取最终的局部特征 Γ loc ：03.2.4 融合模块0为了计算每个交互类型 a 下对于每个人体-对象提案对 � x h , x o � 的得分 s a h,o，我们使用融合模块来融合不同层次的关系推理。我们的融合模块旨在实现以下两个不同的目标。首先，它使用粗粒度特征作为上下文线索来确定人体-对象提案是否存在任何关系。这使我们能够抑制许多背景对并提高检测精度。具体而言，我们将整体特征 Γ hol输入到由两层全连接网络和一个Sigmoid函数 σ组成的网络分支中，生成交互亲和度得分 s G ：0其次，融合模块使用对象级和部分级特征来基于细粒度表示确定关系得分。使用类似的网络分支，我们计算所有关系特征的局部关系得分 s L ：0其中 a表示关系类型。最后，我们融合上述定义的这两个得分，得到人体-对象提案对 � x h , x o � 的关系得分：03.3. 模型学习0在训练阶段，我们在我们的主干模块中冻结了ResNet-50，并在第3.2节中训练FPN和其他组件。94740以端到端的方式进行。请注意，对象检测器（FasterR-CNN [ 21 ]）和姿势估计器（CPN [ 3]）是外部模块，因此不参与学习过程。假设我们有一个大小为 N 的训练集，其中包含关系标签集 Y = { y i }和交互亲和度标签集 Z = { z i }，其中 y i = ( y 1 ,i , ..., y A,i) ∈ 1 A 表示第 i 个样本的地面真实关系标签，z i ∈ { 0 , 1} 表示该样本的相关性，i ∈ { 1 , ..., N }。我们定义 z i = 1如果 � a ∈ A ，y a,i = 1 ，否则 z i = 0。假设我们预测的局部关系得分为 S L = { s i L}，亲和度得分为 S G = { s i G }，其中 s i L = ( s 1 ,i L , ...,s A,i L ) 表示所有交互类型的预测局部得分，s i G 是第 i个样本的预测交互亲和度得分。由于我们的分类任务实际上是一个多标签分类问题，我们对每个关系类别和交互亲和度采用二元交叉熵损失。设 L CrossEntropy ( a, b ) = a log(b ) + (1 − a ) log(1 − b )，我们的训练目标函数 L定义为：0L = 10N0N �0i = 10�0a = 1 L 交叉熵 ( ya,i , sa,iL )0+ µL 交叉熵 ( zi , siG ) � (12)0其中µ是一个超参数，用于平衡多标签交互预测和二进制交互亲和力预测的相对重要性。04. 实验0在本节中，我们首先描述实验设置和实现细节。然后，我们通过与最先进方法的定量比较来评估我们的模型，随后进行消融研究以验证我们框架中的组件。最后，我们展示几个定性结果来证明我们方法的有效性。04.1. 实验设置0数据集我们在两个HOI基准数据集V-COCO[11]和HICO-DET[2]上评估我们的方法。V-COCO是MS-COCO[18]的一个子集，包括10,346张图像（2,533张用于训练，2,867张用于验证和4,946张用于测试）和16,199个人物实例。每个人物都用26个动作类别的二进制标签进行注释。HICO-DET包含47,776张图像，超过150K个人-物体对（训练集中有38,118张图像，测试集中有9,658张图像）。它有600个HOI类别和80个物体类别（与MS-COCO[18]相同），以及117个唯一的动词。0评估指标我们遵循[2]中的标准评估设置，使用平均精度来衡量HOI检测性能。当预测的人和物体的边界框与真实边界框重叠时，我们将HOI检测视为真阳性。0方法 AP 角色0Gupta等人[11] 31.8 InteractNet [9]40.0 GPNN [20] 44.0 iCANw/late(early) [7] 44.7 (45.3)Li等人(RPDCD) [16] 47.80我们的基线 48.6我们的方法（PMFNet）52.00表1. 在V-COCO [11]测试集上的性能比较。0IOU大于0.5的边界框，并且HOI类别预测正确。04.2. 实现细节0我们使用Faster R-CNN [21]作为物体检测器和CPN[3]作为姿态估计器，它们在COCOtrain2017数据集上进行了预训练。每个人的姿态有K =17个关键点，与COCO数据集相同。我们的主干模块使用ResNet-50-FPN [17]作为特征提取器，并从FPN[17]中的最高分辨率特征图中裁剪RoI特征。我们的空间配置图M的大小设置为64。整体模块中的RoI-Align的分辨率Rh为7，而在放大模块中，人体部分的大小为人体框高度的γ= 0.1，并且所有特征都被重新缩放为Rp =5。我们冻结ResNet-50主干，并训练FPN组件的参数。我们使用SGD优化器进行训练，初始学习率为4e-2，权重衰减为1e-4，动量为0.9。正负样本的比例为1:3。对于V-COCO[11]，我们在第24k次迭代时将学习率降低到4e-3，并在第48k次迭代时停止训练。对于HICO-DET[20]，我们在第250k次迭代时将学习率降低到4e-3，并在第300k次迭代时停止训练。在测试过程中，我们使用[7]提供的物体提议进行公平比较。更多细节请参见补充材料。04.3. 定量结果0我们将我们提出的框架与几种现有方法进行评估比较。我们将整体模块中的人物、物体和联合分支作为我们的基线，而我们的最终模型集成了第3.2节中的所有模块。对于V-COCO数据集，我们评估了24个动作的角色AP，角色如[11]中所示。如表1所示，我们的基线方法达到了48.6的mAP，优于所有现有方法[11，9，20，7，16]。与这些方法相比，我们的基线添加了一个联合区域特征来捕捉上下文信息，在像V-COCO这样的小数据集中，这种特征对于预测交互模式非常有效。此外，我们的整体模型达到了52.0的mAP，超过了所有当前最先进的方法，并进一步提高了我们的基线3.4的mAP。对于HICO-DET，我们选择了六种当前最先进的方法[16，24，2，9，20，7]进行比较。如表2所示，我们的基线仍然表现良好，超过了除[16]之外的大多数现有方法。一个潜在的原因是ComponentsMethodsSCMPCSpAlignSeAttenIAAProle94750默认知道对象方法完整罕见非罕见完整罕见非罕见0Shen等[24] 6.46 4.24 7.12 - - - HO-RCNN[2] 7.81 5.37 8.54 10.41 8.94 10.85InteractNet[9] 9.94 7.16 10.77 - - - GPNN[20] 13.11 9.34 14.23 - - - iCAN[7]14.84 10.45 16.15 16.26 11.33 17.73 Li等-RPDCD[16] 17.03 13.42 18.11 19.1715.51 20.260我们的基线 14.92 11.42 15.96 18.83 15.30 19.89 我们的方法（PMFNet）17.4615.65 18.00 20.34 17.47 21.200表2. HICO-DET[2]测试集上的结果比较。0默认方法交互性（520）非交互性（80）0我们的基线 15.97 8.05 我们的方法（PMFNet）18.79 8.830表3.我们模型在HICO-DET[2]测试集上在交互和非交互HOI方面的改进。0HICO-DET数据集对交互（117个类别）的细粒度标注比V-COCO（24个类别）更细致，因此仅凭对象级别的线索无法区分相似交互之间的微小差异。相比之下，我们的完整模型在默认和知道对象类别上分别达到了17.46 mAP和20.34mAP的最先进性能，超过了所有现有的方法。此外，它在默认和知道对象模式上分别将我们的基线提高了2.54mAP和1.51mAP。此外，我们将HICO-DET基准测试的600个HOI类别分为两组，如[16]所示：交互性（520个非平凡的HOI类别）和非交互性（80个人和80个对象类别的非交互性类别）。我们在表3中展示了我们的完整模型在这两个组上与我们的基线相比的性能。显然，我们的方法在交互性组上取得了更大的改进。由于非交互性组只包含背景类别，这表明我们的姿态感知动态注意力在细粒度交互分类这一具有挑战性的任务上更加有效。04.4. 消融研究0在本节中，我们在V-COCO数据集上进行了几个实验，评估了我们模型组件的有效性（表4）。0空间配置图（SCM）与[16]中一样，我们使用人体和对象的二进制掩码增加了一个额外的人体姿势配置图，它提供了更详细的人体部位的空间信息。这个增强的SCM使网络能够更有效地过滤掉非交互式的人-对象实例。如表4所示，SCM将我们的基线提高了0.7 mAP。0部分裁剪（PC）部分裁剪组件将焦点放在语义人体部位上，并提供人体的细粒度特征表示。表4中的实验显示了缩放部分特征的有效性，提高了mAP。0基线 - - - - - 49.20增量0� - - - - 49.9 � � - - - 51.0 � � � - - 52.4 � � � � - 52.70逐一删除0- � � � � 52.0 � - - - � 50.3 � � - � � 51.1 � � � - � 52.6 � � � � - 52.70我们的方法（PMFNet）� � � � � 53.00表4. V-COCO[11]验证集上的消融研究。0从49.9提高到51.0。我们注意到以下空间对齐和语义注意力组件是建立在部分裁剪组件之上的。0空间对齐（SpAlign）空间对齐组件计算相对于对象的所有部分的相对位置，并将它们整合到部分特征中，捕捉到“标准化”的局部上下文。我们观察到从51.0提高到52.4的显著改进。0语义注意力（SeAtten）语义注意力关注信息丰富的人体部位，并抑制其他无关的部位。它的部分注意力分数为我们的预测提供了可解释的特征。如表4所示，SeAtten略微提高了0.3 mAP的性能。0交互亲和度（IA）类似于[16]，交互亲和度指示人-物对是否有互动，并通过降低互动得分来减少误报。从表4中可以看出，IA将性能提高了0.3 mAP。0一对一排除实验我们进一步进行了一项一对一排除实验，将所有独立组件单独移除，如表4所示。结果表明，每个独立组件确实对我们的最终性能有贡献。04.5. 定性可视化结果0图4显示了我们与基准方法的HOI检测结果进行比较。我们可以看到，我们的框架能够检测到目标对象非常小且生成更自信的得分的困难HOI。这表明，部分级特征为困难的人-物互动对提供了更丰富的视觉线索。图5可视化了各种HOI案例上的语义注意力，每个案例都为我们的预测提供了可解释的结果。突出显示的关节区域表明我们的语义注意力（SeAtten）组件为相关的关键点生成了高于0.7的注意力得分。在图5(a)中，对于与不同目标对象互动的同一个人，我们的SeAtten组件能够自动关注与互动动作密切相关的不同人体部位。正如左上方的两幅图像所示，holdsitlaytalk_on_phonecarryskitalk_on_phonehit94760投掷：棒球 0.17，0.780携带：手提包 0.46，0.980喝：酒杯 0.08，0.600吃_obj：苹果 0.01，0.57 打电话：手机 0.05，0.72 看：电脑 0.29，0.91 投掷：棒球 0.16，0.960握住：广场 0.03，0.77 阅读：书 0.35，0.87 抓住：飞盘 0.18，0.860跳：滑板 0.09，0.850击打_instr：棒球棒 0.36，0.890切割_instr：刀 0.23，0.850踢：足球 0.13，0.730握住：盘子 0.28，0.760图4.在V-COCO[11]验证集上与基准方法进行的HOI检测结果比较。对于每个真实互动，我们将互动动作得分与基准方法进行比较。红色数字和绿色数字分别表示基准方法和我们的方法预测的得分。如图所示，当目标对象非常小且模糊时（所有得分提高大于0.5），我们的方法可以更自信地预测互动动作。0(a)0(b)0图5.语义注意力在（a）同一个人与不同对象互动以及（b）不同人与各种互动上的应用。0当孩子与椅子互动时，SeAtten会集中注意力在全身关节上；而当他与乐器互动时，SeAtten会专注于他的手。为了验证SeAtten组件的泛化能力，我们还在图5(b)中可视化了其他几个HOI示例。对于不同的人物和各种互动，我们的SeAtten组件始终能够产生与每种互动类型相关的人体部位的有意义的高亮。0组件始终能够为每种互动类型生成与之相关的人体部位的有意义的高亮。05. 结论0在本文中，我们开发了一种有效的多层推理方法来进行人-物互动检测。我们的方法能够在人体姿势信息的指导下融合互动级别、视觉对象级别和人体部位级别的特征，从而能够识别具有细微差异的视觉关系。我们提出了一个多分支深度神经网络来实现我们的多层推理核心思想。此外，我们引入了一个基于语义部分的注意力机制，以在部分级别自动提取与每个互动实例相关的人体部位。我们的注意力图的可视化为人-物关系检测任务提供了可解释的输出。最后，我们在V-COCO和HICO-DET基准测试中取得了最先进的性能，并在V-COCO数据集上大幅超越了其他方法。0致谢0本工作得到上海自然科学基金（编号18ZR1425100）和国家自然科学基金（编号61703195）的支持。94770参考文献0[1] Fabian Caba Heilbron，Victor Escorcia，BernardGhanem和Juan Carlos Niebles。Activitynet: A large-scalevideo benchmark for human activity understanding.《计算机视觉和模式识别（CVPR）IEEE会议论文集》，页961-970，2015年。[2] Yu-Wei Chao，Yunfan Liu，Xieyang Liu，HuayiZeng和Jia Deng。学习检测人-物交互。《2018IEEE冬季计算机视觉应用会议（WACV）》论文集，页381-389。IEEE，2018年。[3] Yilun Chen，Zhicheng Wang，YuxiangPeng，Zhiqiang Zhang，Gang Yu和JianSun。级联金字塔网络用于多人姿态估计。《计算机视觉和模式识别（CVPR）IEEE会议论文集》，页7103-7112，2018年。[4]Xiao Chu，Wei Yang，Wanli Ouyang，Cheng Ma，Alan LYuille和XiaogangWang。用于人体姿态估计的多上下文注意力。《计算机视觉和模式识别（CVPR）IEEE会议论文集》，页1831-1840，2017年。[5]Hao-Shu Fang，Jinkun Cao，Yu-Wing Tai和CewuLu。用于识别人-物交互的成对身体部位注意力。《欧洲计算机视觉会议（ECCV）》论文集，页51-67，2018年。[6] ChristophFeichtenhofer，Axel Pinz和AndrewZisserman。用于视频动作识别的卷积双流网络融合。《计算机视觉和模式识别（CVPR）IEEE会议论文集》，页1933-1941，2016年。[7] Chen Gao，Yuliang Zou和Jia-Bin Huang。ican:Instance- centric attention network for human-objectinteraction detec-tion.《英国机器视觉会议（BMVC）》，2018年。[8] RohitGirdhar和DevaRamanan。用于动作识别的注意池化。《神经信息处理系统（NeuIPS）》进展，页34-45，2017年。[9] Georgia Gkioxari，RossGirshick，Piotr Doll´ar和KaimingHe。检测和识别人-物交互。《计算机视觉和模式识别（CVPR）IEEE会议论文集》，页8359-8367，2018年。[10] YashGoyal，Tejas Khot，Douglas Summers-Stay，Dhruv Ba-tra和DeviParikh。使V在VQA中起作用：提升图像理解在视觉问答中的作用。《计算机视觉和模式识别（CVPR）》会议，2017年。[11]Saurabh Gupta和JitendraMalik。视觉语义角色标记。arXiv预印本arXiv:1505.04474，2015年。[12] Kaiming He，Georgia Gkioxari，Piotr Doll´ar和RossGir- shick。Maskr-cnn.《IEEE国际计算机视觉会议（ICCV）》论文集，页2961-2969，2017年。[13] Kaiming He，Xiangyu Zhang，ShaoqingRen和JianSun。深度残差学习用于图像识别。《IEEE计算机视觉和模式识别（CVPR）》会议，页770-778，2016年。[14] Zh

下载后可阅读完整内容，剩余1页未读，立即下载