利用场景图进行人机交互检测

197 浏览量更新于2023-10-14 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15984利用场景图进行人机交互检测何涛1、高连利2、宋景宽2、李元芳1*1莫纳什大学信息技术学院2电子科技大学未来媒体研究中心{tao.he，yufang.li}@ monash.edu，gmail.com @ jingkuan.song uestc.edu.cn摘要人-物交互（HOI）检测是定位和识别人与物体之间交互的基本视觉任务。现有的作品集中在人类和物体的视觉和语言特征上。然而，它们没有利用图像中存在的高级和语义关系，这为HOI推断提供了关键的上下文和详细的关系知识。我们提出了一种新的方法来利用这些信息，通过场景图，人-物交互（SG 2 HOI）检测任务。我们的方法SG2HOI以两种方式并入SG信息(1) 我们将场景图嵌入到全局上下文线索中，用作场景特定的环境上下文;以及(2) 我们构建了一个关系感知的消息传递模块，以从对象的邻域中收集关系实证评估表明，我们的SG 2 HOI方法在两个基准HOI数据集上优于最先进的方法：V-COCO和HICO-DET。代码将在https://github.com/ ht 014/SG 2 HOI上提供。1. 介绍最近，人-物体交互（HOI）检测[5，14]旨在检测人-物体对的交互类型。由于它具有广泛的实际应用，例如，动作识别[11]和人机交互（CHI）[8]。形式上，HOI的目标是检测和定位图像中的所有交互三元组，即人<、交互、对象>。HOI是一个具有挑战性的问题-一个图像通常包含多个人和对象在一个复杂的场景，而大多数的所有人-对象对是非关系。因此，一些仅基于视觉特征的作品[25，28，27]无法学习HOI的良好判别模式。*通讯作者。man_2附近对附近举行玻璃man_1的场景图SG2HOI吃HOIsman_2表man_1手叉食品表图1. 我们的场景图到人-对象交互方法的图示，其中我们将对象之间的场景图视为外部知识以促进以两种方式预测HOI：场景图嵌入（绿色箭头），参见第2节。3.1节中描述的关系感知消息传递（红色箭头）3.2.转向外部知识是直观的，例如，众所周知的知识图ConceptNet [23]，以缓解视觉外观特征的限制。然而，由于这种知识图通常是通用的，因此大多数检索结果是冗余的。因此，这样的外部知识可能不能为HOI提供足够的信息线索。相反，我们转向另一个密切相关的任务，即场景图生成（SGG），为每个图像生成微小的关系（知识）图，用作外部知识以构成视觉线索。SGG [17，18，29]和HOI [5，28]都旨在识别图像中对象之间的空间和其他类型的关系。图1示出了同一图像的场景图和HOI图。这两个任务之间有两个主要区别：（1）在SGG中，受试者可以是任何类型（人、汽车等），而在HOI中，它们被固定为人类，这导致SG中的更多边缘;（2）HOI的谓词仅由交互动词组成，而在SGG中可以存在许多类型的关系，包括方位介词（例如，on）和语义动作（例如，玩）。简单地说，SG是一般关系图，而HOI图是以人为中心的主题图，其可以被认为是从SG提取的子图因此，我们相信场景图可以为HOI检测提供更详细的线索，并提高HOI模型的性能。具体而言，将SG并入15985HOI任务有两个好处：（1）SG将每个对象和人放置在关系图中，这可以提供上下文线索并且有利于场景理解;以及（2）包含在SG中的关系中的信息可以被显式地或隐式地传递以更准确地识别正确的交互。因此，我们的动机是开发一种解码方法，将场景图中编码的知识转移到HOI图。为此，我们从两个方面解码SG：全球场景级和区域关系级。对于场景级，我们的目标是从详细的场景图中提取场景特定的线索，因为许多先前的工作[16，25，27]已经证明交互是场景偏向的，即一些交互与特定场景高度相关。以图1为例，从视觉上看，该图像是一个餐厅场景，更可能的是交互是关于吃饭的。因此，准确的场景线索可以有益于HOI识别。许多现有的作品[16，25]已经采用全局视觉外观作为场景线索。然而，由于外观特征的粗糙度，它们的性能没有获得显著的改善。相反，我们将场景图视为场景特定的上下文线索，并提出两个组件来嵌入它：场景图布局编码和基于注意力的关系融合。对于关系级，我们观察到场景图中的关系例如，如图1所示，由于三个关系三元组：hand<，of，man1>、和同时发生，我们更可能推断man 1的交互是eat at。此外，根据关系man2，near，man1>，我们可以推测它们可能具有相似的相互作用。此外，根据他的视觉特征，我们可以推断该男子也在餐桌上吃饭因此，对象对之间的确切关系的知识使得推理更加确定。为此，我们开发了一个关系感知的消息传递模块，通过收集类内和类间邻居的关系信息来推理SG，并改进它们的功能。总之，我们的贡献有三个方面：我们提出了一种新的场景图到人-物交互（SG 2HOI）检测网络，以弥合这两个任务之间的差距。据我们所知，我们是第一个利用场景图进行HOI检测的。我们设计了两个组件来解码SG：场景图嵌入和关系感知消息传递，以分别学习环境上下文和将SG关系转移到HOI交互。我们在两个流行的HOI检测基准数据集上评估我们的方法：V-COCO和HICO-DET，在广泛的评估指标的术语。我们的评估表明，SG2HOI方法优于两个数据集上的最先进的模型。2. 相关工作场景图生成（SGG）[30]是检测图像中所有对象对的视觉关系。这项任务已经被广泛研究了很多年[2，17，19，29，32]。与HOI不同，SGG试图检测关系三元组，即。<主语、谓语、宾语>，其中主语不限于人，因此关系三元组的组合比HOI通用得多，长尾成为SGG中的挑战性问题。最近的几项工作[10，24，31]提出了一系列技术来解决不平衡分布问题。[31]首先观察到有偏关系分布和统计显示谓词的频率是长尾的，即使使用频率信息作为先验也可以获得惊人的性能。随后，[24]分析了推理阶段的因果关系，并提出了一种新的去偏策略，能够无缝应用于其他SGG模型。[10]通过特征幻觉和从头部到尾部的知识转移来解决这个问题。人-物交互检测的目的是检测和定位人-物交互，需要对人-物交互有更深入细致的理解的场景。一般来说，大多数以前的作品[4，5，7，14，21，25]始终由两个步骤组成。第一种是利用预先训练的对象检测网络，例如，Faster-RCNN [22]，以生成所有的人类和对象提案并构建二次方数量的人类-对象对，第二步将这些对馈送到交互分类模块。由于第一阶段是基于现成的模型，许多工作集中在第二阶段，并致力于探索更多的视觉和上下文信息，使交互分类器可以捕获人与对象之间的本质隐藏的关系模式。具体来说，InterPoint [28]提出了一种完全卷积的方法来同时检测交互点并预测交互，这避免了所有人-对象对的计算并提高了计算效率。VSGNet[25]通过部署两个模块集中于相对空间和结构线索：空间注意网络和交互图。TIK [13]提出了一种交互性网络来抑制非交互式人-对象对，并改进了HOI模型PD-Net [33]设计了一个多义词解密网络，以解决动词的不同语义CHGNet [27]开发了一个同构图网络来在同构实体和异构实体之间进行消息传递，但它们传递的消息是以不可知的方式传递的。为了解决不充分和难以区分的vi-···15986鼠标手计算机表人的面前附近举行对场景图的面前场景图嵌入场景图形布局编码举行附近基于注意力的关系融合对关系感知的消息传递场景特定上下文.....精致的功能背骨ROI人对象特征HOI分类器计算机人手表鼠标...个保持人...表S我我我我输入图像<人，工作，计算机>图2.我们的场景图到人机交互（SG2HOI）方法的概述，其中场景图被馈送到两个重要模块：场景图嵌入和关系感知消息传递。前者的目的是学习场景特定的上下文线索，而后者的目的是在场景图上推理，并从邻居那里收集交互信息。不同交互的外观特征[16]提出了一个多流管道来放大关键线索，例如对象标签的然而，尽管SGG和HOI是不同的浓度，即SGG更侧重于不同对象对的关系，而HOI旨在高层次的关系（交互），目前还没有现有的工作将它们联系在一起。在一定程度上，我们认为SG可以通过提供场景上下文信息和推理知识图来作为HOI的重要线索3. 方法在本节中，我们将呈现我们的场景图到人-对象交互（SG 2 HOI）框架，如图2所示。我们的SG2HOI框架利用SG中包含的知识进行HOI检测，其中有两个主要模块：场景图嵌入（Sec.3.1）和关系感知消息传递（第3.2），其分别旨在学习场景特定的上下文线索和将SG关系转移到人-对象交互。类似于先前的作品[25，27]，我们还提取了人-物体空间图作为辅助特征。最后，我们融合这些特性：人类和物体的视觉外观特征（使用Faster-RCNN [22]提取），场景图嵌入，细化在HOI检测中起重要作用。与现有技术[16，25]中使用的视觉外观特征不同，场景图可以提供更高级的关系信息。例如，在图1中，即使去除了输入图像即，在没有视觉外观特征的情况下，并且仅给定SG，我们可以根据关系food、on、table>和，表示用餐环境。为了嵌入场景图，我们设计了两个组件：场景图布局编码和关系融合。3.1.1场景图形布局编码如图3所示，场景图布局由一组具有相关信息的对象组成，包括它们的标签、大小和位置，以及它们的相对空间关系。场景图布局包含两种类型的重要线索：来自每个对象的位置和大小的空间线索例如，餐桌、食物和叉子通常出现在用餐环境中。然而，由于HOI数据集没有场景图注释，我们首先使用在Visual Genome [12]上预训练的模型[24]来生成每个图像的场景图S其中，S=（V，E），V={〇i}n，E={ek=< 〇i，rij，〇j>}m、通过现场信息传递的人和物体特征哪里i=1k=1图，以及预测HOI的空间图（Sec.3.3）。3.1. 场景图嵌入从场景图中学习上下文知识可以为模型提供场景特定的线索，这起到了很好的效果。Oi、Oj是检测到的对象，Rij是Oi和Oj 之间的关系，N是检测到的对象的数量，M是检测到的关系的数量。生成后，我们提取每个对象的空间位置。具体地，在边界框bi={xt，yt，xb，yb}，其中前两个di-空间编码器15987RH总和.猫总和⊙i=1i=1·我C我我我我我我我∈Rn×d及其关系特征我我我我我∈⊗级联图3.场景图布局主要包括两项：空间定位和大小，以及对象的语义上下文。mensions表示左上坐标，而最后两个是右下坐标，我们将〇i的空间特征定义为：pi=WsΣxt，yt，xb，yb，xc，yc，xw，yhΣ（1）图4.我们的基于注意力的关系融合组件的架构，其中h表示从场景图布局编码导出的对象并且分别是Hadamard乘积和逐元素乘积。现在，对于图像i的场景图Si，我们有其我其中（x，c，y，c）是中心坐标，并且（x，w，y，h）是边界框bi的宽度和高度;并且W，s表示用于投影原始8-D向量的变换层[25]一个高维度的表示，以下然后，我们提取语言先验， GLO VE 词嵌入[20]，作为对象oi的语义特征ui。因此，对于场景图中的对象（节点），我们连接两个特征，表示为vi=[pi;ui]。为了编码对象的上下文，我们查看场景矩阵eiRm×d，其中d是特征的维数。在融合ei和hi之前，我们首先计算它们之间的相关性矩阵，其表示对象在关系上的相关性，因为我们认为每个对象与每个关系具有不同的相关性。例如，在图1中，关系hand、hold、fork>与man 1和fork的相关性大于man 2。为此，我们使用自注意机制[26]来计算相关矩阵。Ci∈Rn×m为：图节点作为语义和空间码字的序列：[v1，v2，. . . .，vn]，并采用RNN来对Ci=（hiWa）·e（四）每个单词隐藏表示为：[hi]n= RNN（[Wcvi]n）（2）其中是逐点乘积，Wa是表示自我注意力权重的可学习参数，并且是矩阵乘法。其中Wc是变换矩阵，并且hi是配备有上下文线索的节点特征。请注意，序列中节点的顺序基于每个对象从左到右的3.1.2基于注意力的关系融合场景图中的关系是场景理解的核心组成部分，在场景理解中起着重要的作用。在这个模块中，我们致力于融合场景图然后，我们使用i作为桥梁，通过以下方式将对象和关系融合在一起：˚gi=（Ci·hi）ei（5）其中是场景图的布局和关系的融合。图3显示了数据流的完整架构。然而，值得注意的是，˚gi的维度是Rm×d，并且在这里，我们在˚g的第一维度上使用求和运算将其减少为向量，并添加变换层Wg以将˚gi嵌入到最终表示中：对于给定的关系，我们将其表示为mi ij j三个特征的串联：g~=WgΣ˚gj=1（六）猫X.目标特征矩阵HIJ15988ek=Wr[hi;αij;hj]（3）其中αij是关系rij的词嵌入，以与语义特征vi相同的方式产生，并且Wr是变换层。3.2. 关系感知的消息传递人-对象交互可以涉及若干周围对象，并且因此与场景图中的多个因此，开发一个15989×个S纪NSvvSHOHO纪fh=Wh→hW·fhαjiHOHH在本节中，我们首先简要介绍数据集，评估-推理模块，我们可以从邻居那里聚集关系信息，然后学习关系和交互之间的内在相关性。为此，我们设计了一个关系感知的消息传递策略，能够聚集和传播场景图上的关系信号，并细化人类和物体的视觉特征。尽管先前的工作[21，27]已经提出了消息传递机制，但是这些方法中的消息是同质的，即，他们不知道图像中存在的特定这导致所收集的信息是模糊的和不具有代表性的。为了解决这个问题，我们建议使用视觉特征我们定义两种类型的消息用于特征细化：类间和类内消息，以捕获人和对象在交互中扮演的不同角色。阶级间的细化。对于类间细化，人类节点仅聚合来自对象的消息（S 卩，来自对象的消息）。3.3. HOI预测在嵌入场景图并细化视觉特征之后，我们得到图像k的全局场景图表示g~k以及细化的人类特征~fi和对象特征~fi. 此外，我们还提取每个人-对象对的空间掩模，大小为64 × 64，作为辅助特征f ij，如下[25，27]。HOI的最终预测由两个分支组合：视觉外观特征和通过消息传递细化的特征。对于人i和对象j，视觉分支由下式预测：p=δ（W[fij[fi;fj]]）（10）其中δ是S形活动函数，Wv是视觉特征的分类器参数。消息传递分支计算如下：pm=δ（Wm[g~k;~fi;~fj]）（11）h o非人类）节点，旨在更新人类的特征从对象邻居接收关系消息。例如，在图1中，通过合并fromhand的关系消息，模型可以推断man 1正拿着叉子。给定人fi和物体fi的视觉特征，我们其中Wm是用于细化特征的分类器参数。最后，我们将两个预测得分组合为：pij=λij·pv·pm（12）其中λij是检测到的人的乘积，并且通过聚合来自其对象邻居的关系消息来细化所述人类特征。消息间的计算公式如下：˚fi=Wo→hΣWo·fjαo→h（7）j∈Ni由[13]归一化的对象得分。在训练阶段，我们优化pij上的二进制交叉熵（BCE）损失以优化HOI模型。4. 实验其中i表示场景图中的人类i的邻居;α〇-h是从对象到人的关系rji的词嵌入，如等式（1）中所描述的。Wo和Wo→h是两个相变层。类内细化。另一方面，一个人可以与其他几个人互动，他们的关系可以提供重要的线索。与类间细化策略不同，类内消息仅从人类邻居计算：iΣhjh→hj∈Ni评估指标和基线模型，以及实施心理细节。接下来，我们将我们的模型与最先进的方法进行比较，并进一步进行一系列消融研究。最后，我们展示了几个定性的结果上的两个任务：SGG和HOI。4.1. 数据集和指标数据集：我们在两个标准基准测试中评估了模型V-COCO的训练集、验证集和测试集分别由2，533、2，867和4，946幅图像然后，细化的人类特征被公式化为：训练我们的模型V-COCO中的每个人-对象对都标记有29-D one-hot向量。值得注意的是ii伊岛在29个动作中，有三个（切、打、吃）没有交互。fh=fh+fh+fh（9）对于迭代细化，我们仅让fi被更新为~fi，并重复以下等式的计算：（7）、（8）和（9）。注意，对象特征细化也具有部分间和部分内，并且类似于人类细化，并且出于简洁的原因，我们省略了它们的细节。场景图作为消息来细化人和对象vi-（八）根据以前的作品[25，28]，我们还使用了训练和验证集，总共包含5，400张图像，以15990对象。HICO-Det是一个大型数据集，分为两组：38，118个训练图像和9，658个测试图像。在total，HICO-Det注释有600人对象交互类，80个对象类和117个动作，包括一个无交互类。根据以前的工作[1，28]，我们将相互作用分为三组：完整，罕见15991×个×× ×和非稀有，基于其训练样本的数量此外，我们进一步在“已知对象”设置下进行实验度量：我们使用标准进行模型评估对于优化器，我们使用随机梯度下降（SGD）来优化所有参数。所有的实验都是在四个Nvidia GeForceRTX2080Ti GPU上进行的。评估指标[25，28]角色均值平均精度（mAP作用）。更具体地，如果HOI三元组满足以下两个条件：（1）检测到的人和物体的边界框都大于0。5与相应的注释的地面实况框;以及（2）它们的交互类被正确预测，则我们认为HOI三元组是正确的。基线模型：我们将我们的模型与以下最先进的模型进行比较：InteractNet [5]，GPNN [21]，iCAN [4]，TIK[13]，VSGNet [25]，InterPoint [28]，FCN-[16]、PD-Net [33]和CHGNet [27]。这些方法的详细讨论可以在第2节中找到。二、4.2. 实现细节对于骨干网络，我们使用Resnet-50 [9]作为默认特征提取网络，以便与其他模型进行公平比较。在训练阶段，我们冻结从ImageNet上的预训练模型导出的主干参数[3]。输入图像大小重新调整为600 800或800600，这取决于图像的宽度和高度。我们使用ROIAlign模块来提取人和对象的建议功能，这是由两个完全连接的非线性层转换。此外，人类和物体边界框是由在COCO [15]数据集上训练的Faster-RCNN生成的，并且检测到的人类和物体的阈值分数根据经验设置为0。6和0。3，在[25]之后。语义词嵌入来自GL0VE[20]，并且所有词嵌入维度被设置为300。对于空间特征提取，我们使用两个64 64掩码作为输入，但与使用两个二进制掩码的先前作品[25，28]不同，我们使用两个语义掩码，即，对象建议区域填充有相应的使用对象类别信息来将它们彼此区分。场景图由最近的模型生成 [24] 。我们在 VisualGenome数据集[12]上训练它，这是一个用于视觉关系检测的大型数据集，拥有超过100，000张图像。为了获得高质量的场景图，我们使用训练集和测试集中的所有图像来训练SGG模型，并使用验证集来选择最佳模型。对于场景图嵌入，我们将阈值设置为0。2的关系预测，而我们使用的软标签的关系预测作为关系感知的消息进行推理。在HOI训练期间，我们将初始学习率设置为0的情况。01，并且每10个时期动态地衰减0.9。为了抑制检测到的对象的低置信度分数，我们使用与以前的工作[13]中提出的相同的策略表1. V-COCO数据集在mAP作用方面的性能比较。最好的分数用粗体标出。†表示使用在COCO [15]上预训练的Faster-RCNN作为人和对象的特征提取器的模型4.3. 最新技术水平比较我们首先提出了与九个最近的最先进的方法的性能比较，并报告了两个数据集上的平均平均精度得分结果。表1显示了V-COCO数据集的比较结果。在这些方法中，我们的SG2HOI获得竞争的性能优于大多数方法。具体来说，在ImageNet上使用预训练模型的组中，SG2HOI超过最佳模型CHGNet [27] 0。1个百分点。事实上，CHGNet比具有相同特征提取器的其他方法至少1 .一、5分，可能是因为CHGNet还利用了针对人类和对象特征的类间和类内特征细化。正如我们在SEC中所讨论的那样。3.2，因为CHGNet利用模糊的消息来细化特征和忽略来自场景图的有价值的关系，其性能在大且更复杂的HICO-DET数据集上劣化很多，如表2所示。另一方面，当在COCO上使用具有ResNet-50主干的预训练Faster-RCNN时，我们可以观察到半点改进（SG 2HOI†超过SG 2 HOI）。此外，SG2HOI †超过SOTA模型FCNNet 0。2分。表2显示了HICO-DET的比较结果根据先前工作中的实验配置[28]，我们还在三个不同的HOI类别集上评估了我们的模型：“完整”、“稀有”和“非稀有”，在“默认”和“已知对象”的两种不同方案下。可以观察到，我们的SG2HOI方法在两个方面都持续优于其他最先进的方法方法功能主干地图角色InteractNet [5]ResNet-50-FPN40.0GPNN [21]ResNet-15244.0iCAN [4]ResNet-5045.3TIK [13]ResNet-5047.8VSGNet [25]ResNet-5051.1InterPoint [28]沙漏-10451.0PDNet† [33]ResNet-5051.6CHGNet [27]ResNet-5052.7FCNNet† [16]ResNet-5053.1SG2HOIResNet-5052.8公司简介ResNet-5053.315992方法特征主干充分默认已知对象稀有非稀有全稀有非稀有InteractNet [5]ResNet-50-FPN9.947.1610.77----GPNN [21]ResNet-15213.119.3414.23----iCAN [4]ResNet-5014.8410.4516.1516.4312.0117.7514.61TIK [13]ResNet-5017.0313.4218.1119.1715.5120.2617.25VSGNet [25]ResNet-15219.8016.0520.91---InterPoint [28]沙漏-10419.5612.7921.5822.0515.7723.9219.27[33]第三十三话ResNet-5019.9914.9521.5024.1518.0625.9720.76CHGNet [27]ResNet-5017.5716.8517.7821.0020.7421.0819.18FCNNet† [16]ResNet-5020.4117.3421.5622.0418.9723.1220.57SG2HOIResNet-5020.6217.4121.0623.4819.0624.5421.03公司简介ResNet-5020.9318.2421.7824.8320.5225.3221.94表2.HICO-DET数据集的平均精密度（mAP）比较结果最好的分数用粗体标出†表示模型使用在COCO [15]上预训练的Faster-RCNN作为人和物体的特征提取器值得注意的是InteractNet、GPNN和VSGNet没有报告其在知识对象设置上的结果设置.具体来说，在使用ImageNet上预训练的ResNet-50模型作为特征提取器的模型中，我们的模型实现了最佳性能，0。比最好的模型InterPoint平均高出76分。在使用Faster-RCNN作为特征提取器的另一组中，我们可以明显观察到SG 2 HOI†一致优于竞争模型FCNNet和DPNet，通过1 .一、37和1。18个百分点。4.4. 消融研究在本节中，我们将研究模型中两个主要组件的有效性：场景图嵌入和关系感知消息传递。为了进一步与其他类似策略进行比较，我们还测试了其他两种对应策略：来自先前工作中使用的最后一个卷积层的图像全局特征[16，25]和先前工作中提出的非关系感知消息传递[27]。表3显示了V-COCO数据集的结果，其中列表示包含/排除各种模块的模型变体。基线列表示仅使用人类和物体的视觉外观特征和空间信息进行HOI预测的模型。表3中的行sge、cov、rel、no-rel分别表示场景图嵌入、图像全局特征、关系感知消息传递和非关系感知消息传递的模块。我们的完整模型是最后一列（⑤）。场景图嵌入旨在为HOI预测提供场景特定的全局线索，并且表3中的结果示出了该分量（sge）可以积极地有助于性能改进。具体地，增加2。8个绝对点随着场景图嵌入的增加而增加（①vs基线），并且随着关系感知消息传递的增加而增加5.7个点（②vs基线）。比较②和③，我们可以看出模块基线①、第二章③四⑤sge覆盖✓✓✓✓rel无关联✓✓✓✓地图角色46.549.350.251.151.052.8表3. V-COCO数据集上每个组件的有效性，通过平均精度（mAP 角色）测量。请注意，所有变体模型都使用在ImageNet上预训练的ResNet-50作为特征提取器。与仅使用视觉外观和空间特征的基线相比，我们的完整模型（⑤）将性能提高了13.55%。图像全局特征为0。9点电梯。然而，图像全局特征的性能仍然是1。比我们的场景图嵌入低9分与我们的完整模型⑤相比，当从图像特征切换到场景图嵌入时，模型获得了1。7点改进。这些结果表明，我们提出的场景图嵌入模块不仅是有效的，而且优于传统的图像特征。关系感知消息传递。为了评估该组件，我们设计了两个基线：（1）完全移除该模块，以及（2）用传统的非关系感知消息传递策略[ 27 ]替换它。比较基线和表3中②的结果，我们可以看到存在3。7点改进，增加了关系感知消息传递模块。比较①和④，我们可以观察到增加非关系感知消息传递贡献1。7个点上升。然而，非关系感知的消息传递仍然落后于我们的完整模型1。8个百分点（④vs ⑤）。我们还在HIC 0- DET数据集上进行消融实验，并且结果呈现在表4中，来自HIC 0- DET数据集。平均15993坐在男子滑板在路上的mannBe si detatablbleee安城的知道我知道我爱你人切糕人旁边表安城的刀手抓饼女人披萨举行手女人披萨吃女人披萨举行手女人披萨吃女性电脑工作坐在沙发书椅hoLd人手腿手册读坐在椅子图5.基于V-COCO的人机交互检测和场景图生成结果。对于每个图像，右上图是所生成的场景图，其示出了对象对之间的基本关系，而右下图示出了预测的HOI。生成的场景图生成的场景图人骑骑自行车的女人预测HOI预测HOI图6. HICO-DET人机交互检测和场景图生成结果。请注意，中间图像的红色箭头表示两个任务的错误预测。模块基线①、第二章③四⑤玩滑板的人也有同样的关系。sgecoverrel无关联默认值：全稀有非罕见别名：FullRare14.5412.9216.3716.8314.02✓17.2715.3617.4817.8216.24✓18.4616.8019.1418.1717.63✓✓19.0217.1519.5018.2518.02✓✓18.8517.0919.0220.7518.44✓✓20.6217.4121.0623.4819.06对于来自图6中所示的HICO-DET的示例，一些SG关系与交互类相同，诸如坐在和乘坐。因此，我们可以直接获得这些相互作用。另外，在场景图中预测了错误的关系：事实上，在图6中的中间图像中，书和椅子之间没有关系。有趣的是，由于SGG模型预测手和书之间的关系为保持，HOI模型也错误地预测相互作用为保持。因此，场景图生成的质量对HOI的预测有影响。非罕见18.0119.2519.7020.0722.3124.54表4. HICO-Det数据集上每个组件的有效性，通过平均精密度（mAP 作用）测量。请注意，所有变体模型都使用在ImageNet上预训练的ResNet-50作为特征提取器。与只使用视觉外观和空间特征的基线相比，我们的完整模型平均性能提高了33.1%。我们可以得到与V-COCO数据集相同的结论。4.5. 定性结果我们进一步可视化了两个数据集上的一些示例，分别如图5和图6所对于每个图像，我们绘制其场景图和预测的HOI。通常，我们可以发现生成的场景图比HOI图更详细，并且两个图具有内在的相关性。以图5中的第一图像为例，只要我们知道一个人在滑板上并且他的腿在滑板下，我们就可能猜测交互是滑板，因为大多数人都是在滑板上。5. 结论在本文中，我们提出了一个新的框架，表示为SG 2HOI，利用场景图信息作为关键的上下文线索来预测人-物交互。据我们所知，我们的方法是第一个弥合这两个任务之间差距的方法。具体来说，我们从两个方面来实现这一目标。首先，我们嵌入每个图像的全局场景图作为场景特定的上下文，为此我们提出了两种嵌入策略：场景图布局嵌入和基于注意力的关系融合。Secondly，我们把每个场景图作为一个推理图，并设计了一种新的关系感知的消息传递机制，收集的关系信息，从它的类间和类内邻居。我们对两个基准数据集进行了广泛的评估：V-COCO和HIC 0- DET，这表明我们的模型的性能优于当前最先进的方法。在未来，我们将整合这两个任务作为一个双任务学习问题，以提高这两个任务的性能。人切割蛋糕生成的场景图man旁边表对刀手抓饼预测HOI生成的场景图生成的场景图男子滑板对建筑腿预测HOI预测HOI女人披萨吃男子滑板滑板女人披萨举行手女性电脑工作坐在沙发生成的场景图妇女计算机在前面榻猫预测HOI手册读坐在椅子书上述椅子人手腿身边男人女人比克手伞下的的举行坐在背后15994引用[1] Yu-Wei Chao，Yunfan Liu，Xieyang Liu，Huayi Zeng，and Jia Deng.学习检测人机交互。2018年IEEE计算机视觉应用冬季会议（WACV），第381-389页IEEE，2018年。五个[2] Bo Dai，Yuqi Zhang，and Dahua Lin.用深层关系网络检测视觉关系。在CVPR中，第3076-3086页，2017年。二个[3] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。六个[4] 高晨，邹玉良，黄家斌。ican：用于人-对象交互检测的以实例为中心的注意网络 arXiv 预印本 arXiv ：1808.10437，2018。二六七[5] GeorgiaGkioxari ， RossGirshick ， PiotrDolla'r ，andKaimingHe.检测和识别人机交互。在IEEE计算机视觉和模式识别会议论文集，第8359-8367页一、二、六、七[6] 索拉布·古普塔和吉坦德拉·马利克。视觉语义角色标注。arXiv预印本arXiv：1505.04474，2015。五个[7] Tanmay Gupta，Alexander Schwing，and Derek Hoiem.简单的人机交互检测：因子分解、布局编码和训练技术。在IEEE/CVF计算机视觉国际会议论文集，第9677-9685页，2019年。二个[8] 编辑理查德哈珀，汤姆罗登，伊冯罗杰斯，阿比盖尔塞伦，作为人类，等。2020年的人机交互。2008. 一个[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。六个[10] 何涛，高连丽，宋景宽，蔡建飞，李元芳.向现场学习，向富人借钱：解决场景图生成中的长尾问题。在IJCAI，2020年。二个[11] Hueihan Jhuang ， Juergen Gall ， Silvia Zuffi ， CordeliaSchmid，and Michael J Black.对行动识别的理解。在IEEE计算机视觉国际会议论文集，第3192-3199页，2013年。一个[12] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A Shamma，et al.可视化基因组：使用众包密集图像注释连接语言和视觉。国际计算机视觉杂志，123（1）：32-73，2017。三、六[13] Yong-Lu Li，Siyuan Zhou，Xijie Huang，Liang Xu，ZeMa，Hao-Shu Fang，Yifeng Wang，and Cewu Lu.用于人-物体交互检测的可转移交互性知识 IEEE/CVF会议论文集计算机视觉和模式识别，第3585- 3594页，2019年。二五六七[14] 廖跃，刘思，王飞，陈艳杰，陈倩，冯季石.并行点检测和匹配，用于实时人机交互检测。进行中-IEEE/CVF计算机视觉和模式识别会议，第482-490页，2020年。一、二[15] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740Springer，2014. 六、七[16] Yang Liu，Qingchao Chen，and Andrew Zisserman.放大用于人-物体交互检测的关键线索。欧洲计算机视觉会议，第248Springer，2020年。二三六七[17] 卢策武，兰杰·克里希纳，迈克尔·伯恩斯坦，李菲菲.具有语言先验的视觉关系检测。在欧洲计算机视觉会议上，第852施普林格，2016年。一、二[18] Alejandro Newell和Jia Deng。通过关联嵌入将像素转换为图形在NIPS，2017年。一个[19] Alejandro Newell和Jia Deng。通过关联嵌入将像素转换为图形参见NIPS，第2171-2180页，2017年。二个[20] 杰弗里·彭宁顿，理查德·索彻，克里斯托弗·D·曼宁.Glove：单词表示的全局向量。在2014年自然语言处理经验方法会议（EMNLP）的会议记录中，第1532-1543页，2014年。四、六[21] Siyuan Qi ， Wenguan Wang ， Baoxiong Jia ， JianbingShen，and Song-Chun Zhu.通过图解析神经网络学习人-物交互在欧洲计算机视觉会议（ECCV）的会议记录中，第401- 417页，2018年。二五六七[22] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn ：实现区域建议网络的实时对象检测。 IEEETransactionsonPatternAnalysisandMachineIntelligence，39（6）：1137-1149，2016。二、三[23] 罗宾·斯皮尔、乔舒亚·陈和凯瑟琳·哈瓦西。概念-净5.5：一个开放的多语言通用知识图表。在AAAI人工智能会议论文集，第31卷，2017年。一个[24] Kaihua Tang，Yulei Niu，Jianqiang Huang，Jiaxin Shi，and Hanwang Zhang.从有偏训练生成无偏场景图。在IEEE/CVF计算机视觉和模式识别会议论文集，第3716-3725页，2020年。二、三、六[25] Oytun Ulutan ， ASMIftekhar ，

下载后可阅读完整内容，剩余1页未读，立即下载