图像中人-物交互检测的空间条件图

124 浏览量更新于2023-10-13 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13319用于检测人-物交互的空间条件图弗雷德里克·Z张1，3迪伦·坎贝尔2，3斯蒂芬·古尔德1，31澳大利亚国立大学2牛津大学3澳大利亚机器人视觉{firstname.lastname} @anu.edu.audylan@robots.ox.ac.ukhttps://github.com/fredzzhang/spatially-conditioned-graphs摘要我们解决了使用图形神经网络检测图像中的人-对象交互的问题与传统的方法不同，其中节点向它们的邻居中的每个发送缩放的但在其他方面相同的消息，我们提出根据它们的空间关系来调节节点对之间的消息，从而导致不同的消息去往相同节点的邻居。为此，我们探索了在多分支结构下应用空间条件反射的各种方式通过大量的实验，我们证明了空间条件的优点，计算的邻接结构，消息和细化的图形功能。特别是，我们凭经验表明，随着边界框的质量的增加，其粗糙的外观特征有助于相对较少的消歧的相互作用相比，空间的信息。我们的方法在HICO-DET上实现了31.33%的mAP，在V-C 0 C 0上实现了54.2%的mAP，显著超过了微调检测的最新技术水平。1. 介绍检测人-物交互（HOI）的任务需要定位和描述交互的人和物体对。特别地，HOI被定义为（主语、谓语、宾语）三元组，遵循来自Lu 等人的视觉关系[23]，其中主体和对象通常表示为标记的边界框。对于HOI三元组，主体总是人，因此感兴趣的交互简化为谓词和对象对，例如，骑马或坐在长凳。由于输出表示本质上是相似的，因此HOI检测最常被视为对象检测的下游任务。给定来自图像的一组对象检测，可以通过在检测到的人和对象实例之间进行穷举匹配来构建候选事实上，绝大多数以前的作品[3，6，10，17，25，24，28，5，11]使用现成的(a) 具有检测到的人和对象实例(b) 使用外观特征计算的邻接矩阵，按行（左）和列（右）标准化(c) 使用空间条件计算的邻接矩阵，按行（左）和列（右）进行归一化图1.许多图像包含的非交互式人-对象对比交互式人-对象对多得多交互类型和对应关系的正确推断需要外观和空间信息的组合。当仅使用外观特征时，图形神经网络的邻接矩阵往往由几个显著对象（b）主导由于从每个节点到其邻居的消息除了邻接缩放之外是相同的，这导致节点特征由最显著对象的那些特征主导，从而混淆分类器。在空间条件作用下，邻接矩阵能够在没有明确监督的情况下反映固有的交互对（c）。对象检测器[26]作为预处理阶段。我们采取同样的方法，利用现代物体检测器的成功虽然这将HOI检测任务转换为HOI检测任务。13320表1.在最近的HOI作品中，在图形模型的不同阶段使用外观（A）和空间（S）模态。细化是指在消息传递之后发生的后期融合，并且将图特征与其他模态融合。方法邻近（早期融合）消息（中间融合）细化（后期融合）GPNN [25]一一–Wang等人[第十一届]A、S一A、SDRG [5]SS–VSGNet [28]一一A、S我们A、SA、SA、S虽然在一组候选人识别HOI极具挑战性。虽然图像识别区分场景类型[31]或突出对象类型[27]，但专注于图像的整体这需要对实例之间的微妙关系以及它们的上下文进行推理。当存在具有相同交互类型的多个人-对象对时，这是特别必要的，其中模型需要正确地推断交互类型和各个实例之间的对应关系。此外，许多交互没有强烈的视觉提示，并且可能非常抽象，例如购买苹果或检查船只。这对标准CNN构成了巨大的挑战，因为它擅长识别纹理和形状等物理性质。HOI检测需要能够执行逻辑推理的更复杂的架构，而不仅仅是识别人和感兴趣对象的视觉线索。问题的复杂性和模糊性使得即使人类也不能正确地识别图像中的HOI，尽管我们能够推理视觉线索和空间关系。按照以前的工作，我们利用图形模型来模拟这些相互关系，并进行结构化预测。由于图像中的人和对象在交互中扮演不同的角色，因此我们构建二分图来表征这些相互关系，其中每个人节点连接到每个对象节点。直观地说，我们使用检测到的实例的外观特征作为节点编码，无论是人还是物体。然而，边缘编码以前的工作[25，11]将从人和对象框的最小覆盖矩形中提取的外观特征作为边缘编码。该表示不一定对人-对象对之间的空间关系进行编码，并且除了预期的对之外，在紧密框中可以存在附加的相反，我们使用显式学习的空间表示作为边缘编码。为了阐明它们的重要性，让我们考虑图1a所示的例子。图形模型允许在节点之间传播上下文信息在这种情况下，每个人类节点将接收提示自行车存在的信息。然而，传统算法从节点向其邻居发送相同的消息，其中唯一的变量是表征连接性的可学习权重。图1b显示，该连接矩阵无法仅通过外观信息识别正确的因此，我们认为，它是至关重要的，将空间信息来调节消息传递过程。我们的直觉是，在空间条件下，每个人类节点接收自行车的存在及其相对位置的信息。因此，如果图像中的所有自行车都在其左侧，而不是直接在其下方，则对于人类实例，骑自行车的交互可能会被抑制我们的主要贡献是一个空间条件的message传递算法，使传出的消息是依赖于接收节点。对于我们的bipartite 图，该算法还通过各向异性的消息在bipartition。此外，我们将空间调节机制扩展到图形的其他部分-计算的邻接结构和细化的图形特征-通过建议的多分支融合模块。虽然以前的工作也结合了外观和空间模态在这两个阶段的网络，如表1所示，我们的方法是consis-帐篷在每个融合阶段，特别是，获得显着的性能改善，从使用两个模态在消息传递。我们的第二个贡献是不同模式的相对意义的分析。我们的经验表明，随着检测质量的提高，粗糙的外观特征的重要性降低相比，空间信息。我们在HICO-DET [3]和V-COCO [9]数据集上获得了最先进的性能，为检测人与物体的交互建立了新的基准2. 相关工作HOI检测流水线与对象检测的流水线具有显著重叠类似于两阶段对象检测器，常见的方法是首先生成人-对象对提议，然后对它们的交互进行分类。具体来说，Faster R-CNN [26]已用于许多先前的工作[3，6，10，17，25，24，28，5，11，14，16]中以生成对象，每个对象与预测的类和置信度得分相关联。然后，通过适当的过滤，从剩余的检测中详尽地构建人-对象对。也就是说，每个人类实例将与每个对象实例配对。管道的其余部分各不相同，但通常采用具有13321i=1∈K∈∈- -图2.提出的二分图结构（左）和消息传递算法（右）的示意图。图结构及其连通性在左侧示出，特别突出了有向边和各向异性消息传递。在右边，我们放大了一对特定的节点，并说明了邻接的计算（等式2）。5）、消息（等式5）。3，4）和类logits。为了更清楚起见，我们有意将更新函数从图中排除，并请读者参考等式（Eq. 1、2）。多个流以利用不同的信息形式。例如，Chao et al.[3]提出了一种三分支体系结构来处理人和物体的外观特征及其成对的空间关系。不同于以往的许多作品，廖等。[18]提出了一种无建议的HOI检测管道，其中交互被直接检测为关键点。这样的关键点表示参与预测的交互的人-对象对的最小覆盖矩形的中心。通过相对于检测到的交互关键点回归位移来获得人和对象实例的位置，类似于CornerNet [15]，一种基于关键点的对象检测器。相反，我们采用了无处不在的方法，使用现成的检测器，由于其高性能和稳定性，并专注于提高分类性能给定的一组检测。在最近的HOI检测研究中，特征的选择经历了显著的发展。Chao等[3]使用RoIPool [7]提取人和物体的外观特征，并手工制作了一个双通道二进制掩码来编码成对的空间关系。虽然 RoIAlign [12] 现在优先于RoIPool用于外观特征提取，但二元掩模仍然被广泛使用[6，5，17，28，11]。然而，Gupta et al.[10]认为，手工制作的空间特征是编码空间关系的更有效的方式，明确地暴露边界框对的坐标、并集上的交集、纵横比等。他们和其他人[17，32，29]还提出使用人体姿势作为额外的信息，这导致了一些先前方法的成功。我们观察到类似的好处，使用手工制作的空间编码，但不使用人类姿势信息在这项工作中。相反，我们专注于展示如何结构化的架构可以最好地利用外观和空间信息来消除图形模型引入到HOI检测通过Qi等人[25]。他们提出了一个完全连接的图，其中检测到的人和物体实例作为节点。的节点功能初始化与框外观功能和迭代更新的消息传递算法。Wang等人[11]认为，图应该考虑到存在两组异构节点的事实，即人类节点和对象节点。因此，消息之间传递同质节点（类内消息）应建模不同的异构节点之间（类间消息）。Gao等人[5]还通过构建单独的以人为中心和以对象为中心的图来利用节点的异质性。他们将人-物对建模最后，Ulutan et al.[28]除了视觉分支之外，还提出了一个二分图，它利用了如表1所示，大多数以前的方法在图形模型中使用外观和空间模态。然而，它们的所有图形模型中的消息仅包含两种模态中的一种。此外，从一个节点发送到其邻居的消息是相同的，除了由邻接值加权，这就是使这项工作与众不同的原因。3. 空间条件图为了共同推理图像的外观和空间信息，我们提出了一种用于检测人与物体交互的图神经网络图的结构如图2所示。为了获得针对每个图像的检测的初始集合din，我们运行现成的对象检测器并应用适当的滤波。我们使用Faster R-CNN [26]，尽管我们的模型是检测器不可知的。检测由元组di =（bi，si，ci）给出，具有边界框坐标biR4、置信度得分si[0，1]和预测对象类ci，其中是依赖于数据集的对象类别的集合。13322E+∈⊕- -G H O EH{|}O{|}我∈JJJIJH→O我 IJ我们的服务 |H|我们的服务|O|}3.1. 一种二部图结构我们将二分图表示为 =（，，），其中=D ic i=“人”，=D ic i=“人”，以及是边的集合，使得一个二分区的一侧密集地连接到另一侧上的那些。使用RoIAlign [12]提取的外观特征初始化节点编码，并将边缘编码计算为手工制作的特征向量。我们首先对基本的空间信息进行编码：边界框的中心坐标、宽度、高度、纵横比和面积，所有这些都由图像的相应尺寸标准化。为了表征成对关系，我们还包括联合上的交集，由对象框归一化的人类框的面积，以及由[ReLU（d x）]给出的方向编码。ReLU（d x）ReLU（dy）ReLU（其中dx和dy是由人框的尺寸归一化的人框和对象框的中心坐标之间的差。这给出了成对空间编码PR18。遵循Gupta等人的实践。[10]，我们将空间编码与其对数连接，从而允许网络学习不同项的为了数值稳定性，在取对数之前添加一个小常数ε >0，这给出plog（p+ε）作为成对空间特征。为了初始化人节点和对象节点，相应的使用多层感知器（MLP）将外观特征映射到较低维度，以获得索引i，1，…，，j1，…并且时间步长t = 0。类似地，边缘编码zijRn通过将成对空间特征映射到使用另一个MLP的相同维度。边缘编码在消息传递期间是恒定的。我们将双向消息传递更新定义为nFCFFCCn/CReLUFCFFCC融合FFCCn/c无FCn_sC外观空间图3.多分支融合模块的结构。表观和空间特征被映射到c个子空间，融合并映射到中间表示大小。不同分支的输出通过求和来聚合图中标记了每个FC层的输入11，5，28]，节点之间的消息仅包含两种模态中的一种我们认为，这大大限制了图形模型的表示能力。为此，我们建议将节点之间的消息置于其空间关系上，这允许消息表达人或物体的相对位置，而不仅仅是它们的存在。要做到这一点，我们融合的边缘编码和节点编码（发送者）采取元素的产品。我们在第4.5节的消融分析中证明了这种设计选择的合理性。我们将此策略扩展到图的其他两个部分。首先，我们应用空间条件来计算邻接矩阵。这允许学习的图连接性也考虑空间关系。结果，能够推断出如图1c所示的交互式第二，我们应用空间条件反射电话+1你好，|O|Rt以获得人-对象对的表示。也就是说，在消息传递完成后，我们将xi=LN<$xi+σ<$j=1αijMO→H（yj，zij）（1）每个人-对象对的图形特征，以它们的边缘编码为条件。因此，我们的模型始终适用于-yt+1=LNyt+σΣ| H|αcM（xt，z），（2）应用空间条件来计算邻接矩阵，消息和最终的成对特征，其对应于模态之间的早期、中期和晚期融合其中 LN 表示 LayerNorm 操作 [1] ， σ 是激活函数（ReLU），α是节点之间的邻接权重。值得注意的是，消息函数M通过设计是各向异性的，因为它对于不同的方向具有不同的参数化。这种设计允许节点发送针对接收节点类型定制的不同消息。3.2. 空间制约外观和空间特征构成了复杂交互消歧的两个最重要的信息来源。然而，在所有以前的作品[25，3.3. 多分支融合为了增加空间条件的表达能力，我们使用多分支结构进行情态融合。我们将模态映射到降维的c个子空间，融合每个子空间中的投影，然后聚合输出，如图3所示。我们将所提出的模块称为多分支融合（MBF）。按照Xie et al.[30]中，我们将同质分支的数量称为基数。重要的是，参数的数量与基数无关i=113323˜IJ∈联系我们∈一KI∪A ×{}I A× K我J要将检测到的我JΣSHS通过设计，由于子空间降维关于{q k}| H×O|其中qk=（bh，sh，bo，so，sk）. 界限-我们将消息函数定义为k=1i i jjare从MO-H（yi，zi，j）=MBF〇（yi，zi，j）（3）ing框b和对象检测得分s对应的人和对象节点通过j，jedge（i，j）。所有操作的分类得分skt t是MH→O（xi，zij）= MBF h（xi，zij）.（四）两个融合模块具有独立的权重，允许各向异性消息。MBF还用于计算具有空间条件的邻接，其中附加的线性层将输出映射到标量。预归一化的邻接是α~k=wTσ。MBFα（xtyt，zij）Σ+bk（5）乘以物体检测分数。然而，在实践中，由于对象检测分数不考虑对象实例的交互性，因此它们往往过于自信。因此，我们在推理期间将对象检测分数提高到λ的幂以抵消这种影响。该操作的目的与低等级电阻抑制功能[17]相同但我们发现提高功率对我们的模型效果更好最后的分数是com-其中wk∈Rn，bk∈R，k是一个线性指数，对应于-对于一对（i，j），即k ∈ {1，… |H × O| {\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 期间假定为sk=.λ·。oλ 伊普斯湾（六）对共享相同索引i（行）的条目应用softmax归一化）。类似地，α c通过softmax获得，同时固定j（列归一化）。经过所有的消息传递迭代后，我们融合了空间特征和图特征，然后对每个目标类进行分类得分的计算5），除了一个额外的sigmoid层，并且输出维度等于目标类的数量事实上，相邻性可以被解释为一般的交互性，而类概率进一步取决于动作类型。出于这个原因，我们使用相同的MBF模块来计算邻接矩阵和类概率。在地面实况中，在每个检测到的对和地面实况对之间计算交集。根据之前的实践[3]，分别为人类和对象框计算IoU，并将其作为两者的最小值。当IoU高于指定阈值时，检测到的对被认为是阳性的。由于提案生成的性质，负面的例子要比正面的多得多。特别是，大多数例子都是简单的否定。这抑制了模型对未被很好分类的示例的进一步改进为了缓解这个问题，我们采用焦点损失[19]作为二元分类损失，由下式3.4. 上下文线索与大多数基于RoIPool的特征提取方法一样，FL（y，y）=−β（1−y）γlog（y），y=1−（1−β）yγlog（1−y），y=0（七）汇集的信息对于区域是本地的。虽然这对于对象检测是合理的，但关于上下文甚至全局场景的较长范围信息对于理解人-对象交互至关重要。而Qi et al.[25]该模型以人和物框的最小覆盖矩形作为边缘特征，以空间信息作为边缘特征。为了补偿上下文线索的丢失，我们采用另一个MBF模块来融合全局特征和空间特征，作为MBFg（g，zij），其中g表示全局特征。将这些特征与空间条件图特征相结合，得到MBFα（xT<$yT，zij）<$ MBFg（g，zij）用于分类.3.5. 训练和推理对于训练期间的每个图像，我们将地面实况框附加到检测集合，并为它们分配得分1。然后，我们删除检测到的低于阈值分数的框，并应用非最大抑制。然后选择m个得分最高的人和对象框来初始化二分图。在消息传递之后，我们从图中生成一组其中y [0，1]是某个类的示例的最终得分，y 〇，1是二进制标签，并且β[0，1]和γ [0，1]是二进制标签。R+是r-型参数。特别地，β是正例和反例之间的平衡因子。 β> 0。5，正例被分配更高的权重，反之亦然。参数γ减弱了在良好分类的示例上发生的损失这防止了大量的容易负的主导梯度。然而，抑制容易的负性降低了焦点损失的幅度[19]，因此需要归一化。我们扩展了Lin etal.' s[19]建议通过正logits数归一化损失来进行二进制分类。将输出空间限制为有意义的交互也很重要。用A表示动作集合，并为特定对象类型o ∈ K表示有效动作子集的o。那么感兴趣的交互作用就在集合中=o∈KO不，与。遵循Gupta等人的实践。[10]，我们只计算每个人-对象对的子集o上的损失，给定对象类型o。这将删除对不存在的交互的预测。任务类型，例如吃汽车，允许网络将其参数用于学习有意义的交互。IJ.消息传递，邻接值αr是通过ap-我ΣJ13324−在HICO-DET数据集[3]中，感兴趣的相互作用包括两个人之间的相互作用（即，人可以是HOI三联体中的对象和主体）。为了捕获这样的相互作用，我们构造二分图，使得对象节点包含人类节点，也就是说，对象节点与所有检测的集合相同。表示跨二分区的相同实例的人类节点被初始化为相同的，但将随着消息传递的进行而发散。4. 实验4.1.数据集和度量我们在HICO-DET [3]和V-COCO [9]数据集上评估了我们的模型。HICO-DET包含37 633个训练图像和9 546个带有边界框注释的测试图像80个对象类（与MS COCO中的对象类相同数据集[21]）、117种动作类型和600种交互类型。在训练集中有117871个注释的每个相互作用类的对的分布是高度不均匀的，遵循长尾分布。特别地，有47个交互类别，只有一个训练示例。评价指标为平均精度（mAP）。Detected human–object pairs are considered as positive when0.5.对于与相同地面实况实例相关联的多个检测到的对，仅最高得分对被认为是肯定的。mAP的计算遵循Pascal VOC挑战[4]中使用的11点插值算法。为了捕获我们的模型在具有不同数量注释的交互中的有效性，我们遵循之前的实践[3]并将结果报告为三个类别：完整（所有600个交互）、罕见（138个交互与少于10个训练示例）和非罕见（462个交互与10个或更多训练示例）。V-COCO是一个小得多的数据集，在训练集中有2533张图像，在验证集中有2 867张图像，在测试集中有4 946张图像该数据集包含26个不同的动作。出于传统原因，我们4.2. 实现细节我们使用Faster R-CNN [26]和ResNet 50-FPN [13，20]在MS COCO [21]上预训练来生成检测。对于每个图像，我们首先过滤掉分数低于0.2的检测，并使用0.5的阈值执行非最大抑制（NMS）。之后，我们提取m=15个最高得分的人框和m=15个最高得分的对象框。这给了我们最多15（30 1）=435个盒子对，在删除两次涉及同一个人的盒子对之后。推断遵循相同的设置，除了不使用地面实况检测。我们使用ResNet 50-FPN [13，20]作为特征提取的主干为了利用特征金字塔，框是-根据其大小签署到不同的金字塔级别[20]。池框功能映射到1024维向量的两层MLP。类似地，利用三层MLP将空间特征映射到相同维度（1024）。对于MBF模块，我们使用c = 16和n = 1024。我们对所有模型使用T = 2次消息传递迭代，除非另有说明。为了抵消对象得分中的过度自信，我们设置λ=2。8，同时保持λ = 1。0在训练中最后，对于焦点损失，我们设置β=0。5且γ=0。二、使用交叉验证选择所有超参数。我们采用了以图像为中心的训练策略[7]，并进行了轻微的修改。输入图像被归一化并重新调整大小，使得较短的边缘为800像素。然后相应地调整边界框的大小。之后，图像用零填充进行批处理。为了训练模型，我们使用AdamW[22]作为优化器，动量为0.9，权重衰减为10−4。我们使用10- 5的初始学习率作为主干，10- 4作为网络的其余部分。学习率在第六个时期下降了一个量级。所有模型在8个GeForce GTX TITAN X设备上训练10个epoch，有效批量为32。4.3. 与最新技术水平HICO-DET [3]测试集的定量结果如表2所示。我们使用三种不同的检测器报告模型的性能：一个是在MSCOCO数据集上预先训练的[21]，一个是在Gao等人提供的HICO-DET数据集上微调的。[5]，以及提供地面实况检测的oracle。当使用COCO预训练检测器时，我们实现了有竞争力的性能，但当使用更高质量的微调检测时，我们的性能明显优于最先进的检测技术，相对提高了20%。特别是，我们比下一个最好的方法IDN[16]好5mAP，尽管在使用预训练的检测时该方法的表现略这表明我们的图神经网络可以更好地利用高质量的检测。这得到了oracle检测器的结果的支持，其中我们比下一个最好的方法好7.5 mAP。我们在图4中示出了不同检测器输出的示例。在微调检测器中抑制不太显著的人和我们还报告了V- COCO [9]测试集，如表3所示。我们的模型使用预训练的检测器实现了有竞争力的性能，并从微调检测器获得一致的增益。4.4. 不同模式值得注意的是，我们的模型能够通过使用微调检测器获得近9 mAP，并且通过使用提供地面实况检测的或- acle检测器获得另外20 mAP，这比以前的方法获得的要高得多。由于在我们的模型中使用了空间条件反射，我们假设13325××表 2. 默认设置下 HICO- DET [3] 测试集的 HOI 检测性能（mAP100）。已知对象设置见附录。每个类别中最具竞争力的方法用粗体表示，而第二好的方法用下划线表示。方法主干已满罕见非罕见检测器预先训练对 MS CocoHO-RCNN [3]CaffeNet7.815.378.54InteractNet [8]ResNet-50-FPN9.947.1610.77GPNN [25]ResNet-10113.119.3414.23iCAN [6]ResNet-5014.8410.4516.15Bansal等人[二]《中国日报》ResNet-10116.9611.7318.52中文（简体）ResNet-5017.0313.4218.11Gupta等人[10] ResNet-15217.1812.1718.68RPNN [32]ResNet-5017.3512.7818.71Wang等人[第十一届]ResNet-50-FPN17.5716.8517.78DRG [5]ResNet-50-FPN19.2617.7419.71Peyre等人[24日]ResNet-50-FPN19.4014.6320.87VCL [14]ResNet5019.4316.5520.29VSGNet [28]ResNet-15219.8016.0520.91印尼文[16]ResNet5023.3622.4723.63我们ResNet-50-FPN21.8518.1122.97检测器微调关于HICO-DETPPDM [18]沙漏-10421.7313.7824.10Bansal等人[二]《中国日报》ResNet-10121.9616.4323.63VCL [14]ResNet5023.6317.2125.55DRG [5]ResNet-50-FPN24.5319.4726.04印尼文[16]ResNet5026.2922.6127.39我们ResNet-50-FPN31.3324.7233.31O RACLE检测器iCAN [6]ResNet-5033.3821.4336.95中文（简体）ResNet5034.2622.9037.65Peyre等人[24日]ResNet-50-FPN34.3527.5736.38印尼文[16]ResNet5043.9840.2745.09我们ResNet-50-FPN51.5341.0154.67表3. V-COCO [9]测试集上的性能（mAP100）。每个类别中最具竞争力的方法用粗体表示，而第二好的方法用下划线表示。使用微调探测器。方法骨干场景1场景2InteractNet [8]ResNet-50-FPN40.0–GPNN [25]ResNet-10144.0–iCAN [6]ResNet-5045.352.4中文（简体）ResNet-5047.854.2DRG [5]ResNet-50-FPN51.0–VSGNet [28]ResNet-15251.857.0Wang等人[第十一届]ResNet-50-FPN52.7–印尼文[16]ResNet5053.360.3我们ResNet-50-FPN53.058.2我们的ResNet-50-FPN54.260.9随着检测质量的提高，空间信息在消除相互作用的歧义中起着更重要的作用，而粗糙的外观特征贡献相对较小。表4中的证据支持了这一点，我们显示13326图4.来自预训练的MS COCO模型（左）的对象检测与微调的HICO-DET模型（右）的比较显示分数高于0.5的框。微调检测器抑制不太可能参与交互的对象表4.具有外观和空间特征（我们的）和仅具有外观特征（基线）的模型之间的性能差异，因为检测质量向右增加。探测器COCOHICO-DETOracle性能∆+1.93 +2.90 +4.36图5.使用预训练的检测器（左）和微调的检测器（右），在外观和空间模式的基线模型和我们的完整模型之间的性能差异随着检测质量的提高而为了研究这一假设，我们分别将具有零均值和可变标准差的高斯噪声添加到外观和空间特征中，并观察不同模式中的腐败如何损害性能。如图5所示，当使用预先训练的检测器时，外观和空间特征中的噪声对性能的影响大致相等。然而，在微调检测器的情况下，噪声空间特征具有大得多的影响。我们的结论是，空间信息有助于相对更多的检测质量提高的性能。4.5. 消融研究我们进行了一系列消融研究，以验证我们的设计选择。我们的基线是一个二分图的外观特征。具体地，从节点发送的消息是使用线性层从其外观编码计算的。邻接和类概率使用MLP从人-对象对的级联节点编码中计算，并且分类分数的计算与邻接的计算共享权重，我们首先研究空间条件反射在我们模型中不同阶段的重要性：对于计算机-13327表5.在HICO-DET数据集（mAP ×100）的模型的不同阶段消除空间条件反射的添加。舞台COCO探测器HICO-DET探测器无邻近20.56 29.48留言20.79 30.06全球特征改进所有（我们的）21.85 31.33(a) 互动：骑自行车表6.说明多分支融合设计选择，包括二元运算和基数（c）。COCO探测器HICO-DET探测器产品（c= 1）21.18 30.75总和（c= 1）康卡特（c= 1）21.02 30.66产品（c= 16）21.8531.33合计（c= 16）康卡特（c= 16）21.6731.65表7.改变消息传递迭代的次数（T）。型号COCO探测器HICO-DET探测器(b) 互动：坐在一条长凳上图6.定性结果与我们的模型的成功和失败的情况下。对应于（a）的分数在表8中，并且（b）的分数在表9中。真正的互动是坐在长椅上。如表9所示，我们的模型为所有正确的人类-实验台对分配高分表8. 图6a中骑自行车的交互的得分。我们的（T= 2）21.8531.33实例索引246我们的（T= 3）21.7231.7810.57420.00270.000030.46170.47350.000250.00060.00080.7899生成邻接、消息、全局特征和细化的图形特征。如表5所示，每个阶段都比基线有所改进，并且它们结合在一起以实现最佳性能。接下来，我们将展示不同设计选择对多分支融合的影响，包括融合方法的选择和分支数量（基数）。如表6所示，性能随着基数的增加而我们还表明，性能是不敏感的二进制融合操作的选择，与我们的选择（ elementwise 产品）是可比的elementwise总和和级联操作。最后，我们展示了在测试时消息传递迭代的数量如何影响结果。如表7所示，消息传递显然有助于解决这个问题，而额外的迭代进一步显著改善了结果。4.6. 定性结果我们在图6中显示了我们的模型的定性结果。在图6a中，地面实况交互是骑自行车。如表8所示，正的然而，网络也为负对（2，3）分配相对较高的分数。这是由于自行车（3）和正确的自行车实例（1）之间的空间接近性和视觉相似性图6b中给出了另一个示例，表9.图6b中坐在长凳上的交互的得分。实例索引1 3 4 62019 - 04 - 2600：00：005. 结论在本文中，我们提出了一个空间条件图神经网络检测人与物体的相互作用。为了执行空间条件反射，我们应用了多分支融合机制，该多分支融合机制利用人-对象对的空间配置来调制外观特征我们始终使用这种机制来计算邻接，消息和细化的图形功能，并表明我们的模型优于国家的最先进的一个considerable利润与微调检测。我们还表明，改进幅度随着检测质量的增加而增加，使我们的模型能够最有效地利用物体检测器研究的进展。确认该研究部分由 ARC 机器人视觉卓越中心（ CE140100016）和Conti- nental AG（D.C.）资助。我们的（T= 0）20.0528.86我们的（T= 1）20.7030.9913328引用[1] Lei Jimmy Ba、Jamie Ryan Kiros和Geoffrey E.辛顿层归一化。高级神经信息过程系统，2016年。4[2] AnkanBansal 、 SaiSakethRambhatla 、 AbhinavShrivastava和Rama Chellappa。通过功能泛化检测人-对象交互。AAAI，2020年。7[3] Yu-Wei Chao，Yunfan Liu，Xieyang Liu，Huayi Zeng，and Jia Deng. 学习检测人机交互。 IEEE WinterConference on Applications of Computer Vision，2018。一、二、三、五、六、七[4] Mark Everingham，S.M. 放大图片作者：Ali Eslami，Luc Van Gool ， Christo- pher K.I. Williams ， JohnWinn ， and Andrew Zisserman.Pascal Visual ObjectClasses挑战：回顾展。 Int.J.计算机目视，111（1）：98-136，2014. 6[5] Chen Gao ， Jiarui Xu ， Yuliang Zou ， and Jia-BinHuang.DRG：用于人与物体交互检测的对偶关系图。EUR. Conf. Comput. 目视，2020年。一二三四六七[6] 高晨，邹玉良，黄家斌。iCAN：用于人机交互检测的以实例为中心的注意力网络。英国人马赫。目视Conf. ，2018年。一、二、三、七[7] 罗斯·格希克。快速R-CNN。国际会议补偿目视，（9）：1440-1448，2015. 三、六[8] GeorgiaGkioxari ， RossGirshick ， PiotrDolla'r ，andKaimingHe.检测和识别人机交互。IEEE会议Comput. 目视模式识别，2018年。7[9] 索拉布·古普塔和吉坦德拉·马利克。视觉语义角色标注。arXiv预印本arXiv：1505.04474，2015。二六七[10] Tanmay Gupta，Alexander Schwing，and Derek Hoiem.简单的人机交互检测：因子分解、布局编码和训练技术。内部配置Comput.目视，2019年。一、二、三、四、五、七[11] 王海，郑伟石，凌英彪。用于人机交互检测的上下文异构图网络。EUR.确认补偿目视，2020年。一二三四七[12] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面罩R-CNN。国际会议补偿目视，第2980- 2988页三、四[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。IEEE会议Comput. 目视模式识别，第7706[14] 智厚、彭小江、虞乔、大成涛。用于人-物体交互检测的视觉合成学习以Eur.确认补偿目视，2020年。二、七[15] 黑律和贾登。CornerNet：将对象检测为配对关键点。EUR.确认补偿目视，2018年。3[16] Yong-Lu Li，Xinpeng Liu，Xiaoqian Wu，Yizhuo Li，and Cewu Lu. Hoi分析：集成和分解人-物交互。在高级神经信息。过程系统，2020年。二六七[17] Yong-Lu Li，Siyuan Zhou，Xijie Huang，Liang Xu，ZeMa，Hao-Shu Fang，Yifeng Wang，and Cewu Lu.用于人-物体交互检测的可转移交互性知识。国际会议补偿目视，2019年。一二三五七[18] Yue Liao ， Si Liu ， Fei Wang ， Yanjie Chen ， ChenQian，and Jiashi Feng.并行点检测和匹配13329用于实时人-物体交互检测。IEEE会议Comput.目视模式识别，2020年。三、七[19] 放大图片创作者：林宗毅， Priya Goyal ，Ross B.Girshick，Kaiming He，andPiotrDoll a'r. 密集目标检测的焦面损失。 Int.确认补偿目视，2017年。5[20] 林宗义、彼得·多尔、罗斯·格希克、何嘉明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络 IEEE会议Comput. 目视患者记录，2017年。6[21] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔和C.劳伦斯·齐特尼克。Microsoft COCO：上下文中的公共对象EUR.确认补偿目视，2014年。6[22] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重衰减正则化。国际会议学习。代表。，2018年。6[23] 卢策武，兰杰·克里希纳，迈克尔·伯恩斯坦，李菲菲.具有语言先验的视觉关系检测。EUR.确认补偿目视，2016年。1[24] Julia Peyre，Ivan Laptev，Cordelia Schmid，and JosefSivic.使用类比来侦测看不见的视觉关系。Int. Conf.Comput.目视，2019年。一、二、七[25] Siyuan Qi，Wenguan Wang，Baoxiong Jia，JianbingShen，and Song-Chun Zhu.通过图解析神经网络学习人-物交互。EUR.确认补偿目视，2018年。一、二、三、四、五、七[26] 任少卿，何开明，

下载后可阅读完整内容，剩余1页未读，立即下载