无虚饰的人-物体交互检测：因式分解、布局编码和训练技术

183 浏览量更新于2023-10-12 收藏 2.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9677无虚饰的人-物体交互检测：因式分解、布局编码和训练技术Tanmay Gupta Alexander Schwing Derek Hoiem伊利诺伊大学香槟分校{tgupta6，aschwing，dhoiem}@http://tanmaygupta.info/no_frills/ illinois.edu摘要走跨我们表明，对于人与物体的交互检测，一个相对简单的因式分解模型，从预先训练的对象检测器构建的外观和布局编码优于更复杂的方法。我们的模型includes检测分数，人类和对象外观，粗（盒对配置）和可选的细粒度布局（人体姿势）的因素。我们还开发了提高学习效率的训练技术：（1）消除训练推理不匹配;（2）在小批量训练期间拒绝容易的否定;以及（3）使用比现有方法大两个数量级的负与正的比率。我们使用具有挑战性的HICO- Det数据集进行了彻底的消融研究，以了解不同因素和训练技术的重要性[4]。1. 介绍人-物体交互（HOI）检测是定位预定的一组人-物体交互的所有实例的任务。例如，检测HOI“请注意，一个图像可能包含多个人划船（甚至同一艘船），同一个人可以同时与同一个或不同的对象交互。例如，一个人可以同时最近，已经提出了越来越复杂的技术用于编码HOI检测的位置和外观。例如，Chaoet al. [4]使用CNN对称为交互模式的双通道二进制图像进行操作，对人-对象框对的配置进行编码。Gkioxari等人[10]使用混合密度网络[1]基于人类外观预测目标对象位置上的分布。对于编码外观，方法范围从以人为中心图1：预先训练的对象和人类姿势检测器的输出为预测交互提供了强有力的线索。顶部：分别由Faster-RCNN [20]和OpenPose [2]预测的人类和对象框，对象标签和人类姿势我们使用这些预测（和Faster-RCNN特征）对外观和布局进行编码，并使用因子化模型来检测人与物体的交互。底部：框和姿态叠加在输入图像上分支[10]与对象分类一起，使用从图像[9]收集上下文信息的注意机制。在这项工作中，我们提出了一个没有装饰的模型HOI检测。与复杂的端到端模型相比，我们使用来自预训练对象检测器的外观特征，并使用手工制作的边界框坐标特征（可选人类姿势关键点）对布局进行编码。我们的网络架构也是适度的，包括轻量级的多层感知器（MLP），这些外观和布局功能。尽管进行了这些简化，但我们的模型在具有挑战性的HICO-Det数据集上实现了最先进的性能。我们的收获是由于选择了因式分解，直接编码和评分的布局，并改进了训练技术。我们的模型由人/物体检测项和交互项组成交互项还包括人和物体外观、盒子配置和姿态或精细布局因素。我们进行了全面的消融研究，以评估每个因素的影响。与现有的工作相比，需要培训一个马马9678(a) （b）使用指标术语容易否定的拟议方法图2：建议的培训技术。该图示出了针对简单性的单个HOI类（“人骑马”）的训练和推断。消除训练-推理不匹配：如（a）所示，现有模型[10，9]通常使用对象和交互分类损失来训练人/对象和交互分支。这些分支产生的分数在测试期间简单地相乘以产生最终的HOI分数。因此，训练不能准确地反映测试目标。如（b）所示，我们的模型通过使用多标签HOI分类损失直接优化组合分数来修复这种不匹配。拒绝简单的否定：在小批量中，我们将除“人骑马”之外的HOI类别的候选框对视为容易的否定，并且在训练和使用指示项的推断期间，它们对于HOI类别“人骑马”的概率被设置为0。这是通过应用二进制面具预测概率具体地，如果人候选框b1不属于“人”建议集合B human，或者如果对象候选框b2不属于“马”建议集合B horse，则将与（b1，b2）和HOI类别“human-ride-horse”相对应的掩码条目设置为0。CNN [4]或混合密度网络[10]来编码布局，我们使用手工制作的绝对和相对位置特征，这些特征是从边界框或人体姿势关键点计算出来的。我们的选择是由图1所1：预先训练的对象和姿态检测器为交互预测提供了强大的几何线索。我们还开发了以下训练技术，以提高因子模型的学习效率：(1) 消除训练-推理不匹配。[10，9]通过单独的检测和交互损失来学习检测和交互术语。在推理过程中，所有因素的分数简单地相乘，以获得最终的HOI类概率。相反，我们使用多标记HOI分类损失直接优化HOI类别概率（图1B）。2）（交互损失：十五岁89mAPvs.HOI损失：16。96mAP）。(2) 使用指标术语拒绝简单的否定。拒绝简单的否定不仅在测试期间而且在训练期间都是有益的，因为它允许模型专注于学习对硬否定进行评分。我们使用预先训练的对象检测器生成候选框对（b1，b2）如果b1不是这是通过在我们的对象检测因子中包括指示项来实现的，并且可以通过在由对象检测器预测的标签构建的预测概率上应用掩码来有效地实现（图2）。2）（w/o指标：15. 93mAPvs. w指标：十六岁96mAP）。(3) 训练时正负比例很大。我们通过对两个订单进行采样来构造训练小批量每个正对的负盒对的数量比相关工作大（1000vs. <第10段）。与对象检测器训练相比，预期更高的比率，因为负对的数量在对象提议的数量中是二次的，而不是对于对象检测器是线性的到 pos 。比例是 10 ：1340mAPvs. 一千分十六秒96mAP）。总而言之，我们的主要贡献是：（1）简单但用于HOI检测的竞争模型，其利用来自预先训练的对象检测器（以及可选地姿态检测器）的外观和布局编码;（2）粗粒度和细粒度布局编码的比较;（3）提高模型学习效率的技术。2. 相关工作评估人与图像中的对象之间的交互是一个具有挑战性的问题，其已经受到相当多的关注[25，24，8，7，6，17]。人类活动识别是分析图像或视频中人类行为的早期努力之一。UCF 101 [22]和THUMOS [12]等基准专注于将视频序列分类为101个动作类别之一。虽然UCF 101使用仔细修剪的视频，但THU-MOS挑战另外引入了未修剪视频中活动的时间定位的任务图像动作识别基准，如斯坦福40动作[26]对齐联合推断联合训练使用指示词屏蔽��{相当于抽样1仅来自使用指示词屏蔽��{相当于抽样仅限102人，来自马塞洛海分类损失指标是一种有效的机制，可以同时对所有HOI类别进行推断和培训，而无需抽样HOI评分/概率（例如失配条件独立训练联合推理��×1=在小批量中采样的盒对（ ��×1对象分类丢失��×1��×1交互分类损失交互得分对象得分（例如， for“ride”）（例如，人类评分HOI评分/概率（例如9679和PASCAL VOC 2010 [17]也已在文献中使用。虽然意图相似，但这些动作识别挑战在三个方面与人-对象交互检测不同：（1）任务限于包含单个以人为中心的动作的图像或视频，例如保龄球、潜水、击剑等; (2)动作类是不相交的，并且通常涉及与活动所特有的对象的交互（允许模型通过简单地识别对象来欺骗）;以及（3）既不需要人也不需要对象的空间定位从行动到互动，Chao等人。[5，4]介绍HICO和HICO-DET数据集。Coco数据集由600个人与物体交互的图像组成，其中包含80个COCO [15]对象类别的117个交互与以前的任务不同，HOI分类本质上是多标签的，因为每个图像可能包含与相同或不同对象交互的多个人。Chao等人[4]用每个HOI类的详尽边界框注释扩展HICO数据集由于注释任务的以人为中心的性质以及预定义的对象和交互集合，HICO-DET不会遭受困扰诸如用于一般视觉关系（对象-对象交互）检测的VisualGenome [14]和VRD [16]等数据集的遗漏注释问题（至少在相同程度上）在类似的努力中，Guptaet al. [11]增强COCO数据集[15]，用26个动作标签之一以及满足动作语义角色的对象的位置和标签来注释人（代理）。此外，对于语义角色标记（SRL），Yatskaret al. [27]创建一个用于情景识别的图像数据集，其中包括对活动、参与对象及其角色的识别。在这项工作中，我们选择HICO-DET作为测试床，由于其大，多样，详尽的HOI注释，允许一个准确和有意义的评估。HOI检测的现有模型。Chao等人[4]提出HO-RCNN，一种3流架构，每个流用于人类候选者、对象候选者和使用所提出的交互模式的一对框的几何编码。每个流为每个可能的对象交互类别产生分数（对于HICO-DET为600）。使用后期融合将3组分数组合以获得最终预测。注意，该方法将相比之下，我们的方法利用这种组合性来学习共享的视觉外观和几何表示（例如，换句话说，在我们的因子模型中，不同HOI类别之间的权重共享使其比[ 4 ]更有效，[ 4]使用最近600个HOI类别中的独立权重预测600个HOI类别的得分。在3个流中的每一个中的方式完全连接层。Gkioxari等人[10]提出了InteractNet，它需要多任务学习[3]的观点。这个想法是用以人为中心的分支和与原始对象识别分支一起训练的交互分支来增强Faster-RCNN [20]对象检测框架。为了结合几何线索，使用混合密度网络（MDN）[1]来产生给定人类外观的对象位置分布的参数。该分布用于为给定的人框的候选对象评分。使用对象分支的对象分类损失、以人为中心的动作分类分支和可选的交互分支的交互分类损失、以及地面真值盒对编码与由定位MDN预测的在推理过程中，来自这些分支的预测被融合在一起。除了因子分解的细节差异，以及在我们的模型中使用的外观和布局编码，我们介绍了训练技术，以提高学习效率的类似因子模型的这项任务。我们优化融合后的个人因素得分的最终HOI得分。我们还更直接地编码盒对布局，使用绝对和相对边界框功能，然后使用专用因子进行评分。Gao等人[9]遵循类似于[10]的方法，但引入了一种注意力机制，该机制利用来自图像的上下文信息来增强人和物体的外观使用从人/对象外观编码导出的线索来计算注意力图该模型使用交互分类损失进行训练。相比之下，在我们的模型中，上下文信息的唯一来源是来自对象检测器的ROI池化区域特征。添加类似的注意力机制可能会进一步提高表现。3. 无虚饰HOI检测在下文中，我们首先概述了所提出的模型，然后详细介绍了不同的因素和我们的培训策略。3.1. 概述给定图像x和一组感兴趣的对象交互类别，人-对象交互（HOI）检测是定位参与所述交互之一的所有人-对象对的任务。在人和物体边界盒上的组合搜索和尺度，以及对象标签O和交互标签I，使学习和推理都变得简单。为了处理这种复杂性，我们将推理分解为两个阶段（Alg. ①的人。在第一阶段，对象cate-gory特定边界框候选者Boo∈ O是9680算法1：对单个图像的推断输入：图像x，对象（O）、交互（I）和HOI（H{h}×O×I）类兴趣，预训练对象（Faster-RCNN）和人体姿态（OpenPose）探测器//阶段1：为每个对象（包括人类）1在xo∈ O上运行Faster-RCNN，以获得300个区域建议（Ro）2具有ROI外观特征和检测概率3 foreacho∈ Odo4构造Bo={b∈Ro使得5b存活于NMS（阈值0.3），并且6Pdet（ldet=o|b，x）> 0。01}7更新Bo以保持最多10个最高排名的检测。端89 在x上运行OpenPose以获得骨架关键点k（b）b∈Bh//阶段2：使用建议的因子模型对10 foreach（h，o，i）∈Hdo11对于每个（b1，b2）∈Bh×Bodo12使用（b1，b2）的计算框配置功能13使用（k（b1），b1，b2）计算姿态特征14计算P（y（h，o，i）= 1|b1、b2、x）使用等式1、2和316端部输出：（bh，bo）∈ Bh× Bo的排序列表，作为具有概率的类（h，o，i）的检测。属于类别（h，o，i）的（bh，bo′）的概率被预测为0。17端部//步骤10-17是通过对小批量预计算特征使用预先训练的对象检测器（例如Faster-RCNN）（使用非最大抑制和类概率阈值化）来选择。对于每个HOI类别，即，对于每个三元组（h，o，i）∈ H，通过配对每个候选人框来构造候选人-对象框对的集合bh∈Bh ，其中每个对象框候选bo∈Bo。在第二阶段中，使用因子化模型对每个HOI类别的候选盒对（bh，bo）∈Bh×bo 我们的因子图由人和ob组成-对象外观、盒对配置（粗略布局）和人姿势（细粒度布局）因素。这些因素对从预训练对象和人体姿态检测器的输出构建的外观和布局编码进行该模型被参数化以跨不同的对象和交互类别共享表示和计算，从而在单个前向传递中对所有感兴趣的HOI类别的候选框对进行有效评分。在（b1，b2）中的人-物体交互（h，o，i）如下：P（y（h，o，i）= 1|b1，b2，x，k（b1），Bh，Bo）（1）=P（yh= 1，yo= 1，yi= 1|b1，b2，x，k（b1），Bh，Bo）=P（yh= 1 |b1，x，Bh）·P（yo= 1 |b2，x，Bo）·P（yi= 1 |b1，b2，k（b1），x）.这里，yh∈ {0，1}是表示b1是否被标记为人类的随机变量，yo∈ {0，1}表示b2是否被标记为对象类别o，并且yi∈{0，1}表示分配给盒对的交互是否是i。上述分解假设人类和对象类标签仅取决于各个框、图像和相应类的边界框候选集在检测项中使用Bh和Bo来计算指示符功能，以方便消极拒绝。为了简洁起见，我们参考等式的左手侧（1）当P（y （ h ， o ， i ）= 1|b1，b2，x）。我们现在详细描述这些术语3.2.1探测器术语方程中的前两项（1）使用由预先训练的对象检测器产生的每个对象类的候选边界框集合和分类概率来建模。对于任何对象类别o∈ O（包括h），检测器项通过下式计算：P（yo=1|b，x，Bo）=n（b∈Bo）·Pdet（ldet=o|（b）、（x）、（2）其中，Pdet项对应于由对象检测器将对象类o分配给图像x中的区域b的概率指示器函数检查b是否属于Bo（o的候选边界框集），并设置概率否则为0。因此，对于类（h，o，i），即，对（b1，b2），其中b1∈/Bh或b2∈/Bo，被赋予0概率。简单的否定拒绝不仅在测试期间有益，而且在训练期间也有益，因为模型容量是不浪费在学习预测属于集合{（h，o′，i′）中的任何类的盒对的类（h，o，i）的低概率上|o′∈ O\{o}，i′∈ I}.3.2.2相互作用项交互作用项是指实体的概率在b1和b2中进行相互作用i∈ I。为了利用外观和布局信息，P（yi= 1|b1，b2，k（b1），x）进一步分解如下：人（i|b1，x）+ φobject（i|b2，x）+3.2. 因子模型φ箱（i|b1，b2）+ φpose（i|b1，b2，k（b1），（三）对于图像x，给定人-对象候选框对（b1，b2）、在b1内检测到的人姿态关键点k（b1）（如果有的话）以及每个对象类别的框候选集合，因子化模型计算出现其中σ是Sigmoid函数，每个φ是一个可学习的深度网络因子。我们现在描述这些因素中的每一个，以及这些9681因素所使用的网络架构、外观和布局编码：9682(a) Det+App+Box+Pose(b) Det+Box+Pose（无应用程序）(c) Det+App+Pose（无框）(d) Det+App+Box（无姿势）图3：交互混淆。每个热图中的元素（m，n）可视化P（yim = 1|b1，b2，k（b1），o，x），盒子对（b1，b2）的交互概率im ∈ I，在所有盒子对上平均，具有真实交互in ∈ I。每一行m被独立地归一化和取幂以突出与交互作用im最混淆的交互作用。外观. 因素φ 人和φ物预测的相互作用，人和对象是从事，基于视觉外观单独。图像中盒子的外观使用Faster-RCNN [20]（Resnet-152主干）从RoI中提取的平均合并fc 7特征进行编码。通过设计，该表示除了框内的内容之外还捕获上下文。2048维fc7特征被馈送到具有单个2048维隐藏层的多层感知器（MLP）中，该单个2048维隐藏层具有批处理正态分布。[13]和ReLU [18]。输出层有117个neurons，I中每个相互作用类别一个。包装盒配置。对象标签以及人和对象框的绝对和相对位置和比例经常指示交互，即使没有appearance（例如，在“马”框上方并与之重叠的人框强烈地暗示“骑马”交互）。φboxes通过在给定边界框和对象标签的编码的情况下预测每个交互的得分来捕获这种直觉。边界框使用21维特征向量表示。我们编码的绝对位置和规模的人和对象框使用框的宽度，高度，中心位置，纵横比和面积。我们还使用人和物体盒的中心的相对位置、盒的面积比和它们的交集来编码它们的相对配置我们还对编码为|O|（= 80）维一个热向量，以允许模型学习对于给定对象仅某些交互是可行的。例如，有可能“clean” or “eat at” a “dinning table” ( 对象标签编码与21维位置特征及其对数绝对值级联，并通过具有2个隐藏层112（= 2×21 +80）维（与输入特征维度相同），使用批量归一化和ReLU。在实践中-因此，对o的调节不会显著影响结果，因此不包括在等式中。1和等式3为了简单人类姿势。我们补充粗略的布局编码形象如果关键点周围的最小边界框有70%或更多的面积在人体框内，则为人体候选框分配关键点骨架。与框特征类似绝对姿态特征（18×3=54）由归一化到人体边界框框架的关键点坐标组成OpenPose预测的每个关键点的参考和置信度。相对姿态特征（18 ×5= 90）由对象框的左上角和右下角相对于每个关键点的偏移和关键点置信度组成。绝对和相对姿态特征及其对数值为在被传递通过Φpose之前，将其与独热对象标签编码一起级联。φpose也是具有2个隐藏层的MLP，每个隐藏层具有368（= 2×（54+90）+80这两个隐藏层都配备了批规范化和ReLU。输出层有117个神经元。每个因素都消除了一些相互作用的混乱。图中的热图图3显示了所有因素的模型和一次只遗漏一个因素的模型所混淆的相互作用。比较热图b和a显示了外观因素在减少交互之间的混淆方面的作用比如，没有App，“吃”就和“刷同”“喝同”混淆了，但在最终的模型中却没有。同样，c和d可以分别与“长方体”和“姿态”因子的效果的a3.3. 培训由于可能会将多个HOI标签分配给一对框，因此使用多标签二进制交叉熵损失以完全监督的方式训练模型。对于训练集中的每个图像，每个HOI的候选框类别（Bh×Bofor class（h，o，i））被分配二进制标签，基于人类和对象框是否都在该对具有大于0的情况。5与相应HOI类别的地面真值盒对。在训练过程中，小批量中的第j个由盒对（bj，bj）组成，HOIcate gorylj∈H，1 2通过边界框与更细粒度的布局信息由人体姿势关键点提供的图像。我们使用开放式[2，23，21]来检测每个人的18个关键点。其中盒对是候选者（（b1，b2）∈Bh×Bo是被认为是HOI类（h，o，i）的候选），二进制标签y，j，以指示与的地面真值框对匹配（或不匹配）。相互作用相互作用相互作用相互作用不同交互的评分函数9683Ll1 2阴性/POS.指标HOI损失交互损失地图10✓✓✗13.4050✓✓✗15.51100✓✓✗16.30500✓✓✗17.061000✓✓✗16.961500✓✓✗16.621000✗✓✗15.931000✓✗✓15.89表1：HICO-Det测试集的结果。Det、Box、App和Pose分别对应于对象检测器项、外观、框配置和姿势因子。每一行都是用指定的因素训练和评估的。Full（所有600个类）、Rare（具有10个训练实例的类）和Non-Rare（其余）表示HOI类的不同子集。<最佳和第二佳数字以颜色突出显示。类Lj的检测得分、对应于类Lj的人和对象类别的检测得分以及每个因子Φ的输入特征。在训练期间，作为多于一个HOI类别的候选者的盒子对由于每个图像的候选对的数量比阳性样本的数量（通常为3）大3个数量级（通常>1000<因此，我们选择每个图像的所有阳性样本，并随机抽取1000个阴性样本。给定从单个图像x构造的大小为N的小批量，损失为表2：使用Det + App + Box模型评估的训练技术。结果突出了以下方面的重要性：（1）小批量中的大的负与正比率;（2）在训练期间使用指示符以仅学习对特定于给定HOI类别而不是所有检测对选择的候选进行排名;（3）直接优化HOI分类损失，而不是利用交互分类损失进行训练，然后启发式地与对象检测器分数组合。最好的和第二好的数字以颜色显示。设置HICO-Det大小的1/12。每个HOI类别的详尽注释也使HICO-Det比缺少注释的VRD [16]更适合基于AP的评价VRD还包含因此，HICO-Det最适合评估我们的贡献。HICO-Det包含38，118个训练图像和9，658个测试图像，注释了600个HOI类别。我们使用80-20分割的训练图像来生成我们的实际训练集和验证集。HOI类别由80个对象类别（与COCO类别相同）和117个交互组成每个图像平均包含1。67次HOI检测。除了与最新技术水平进行比较外，我们的实验还包括因子消融研究（表1）。1），所提出的培训技术的影响（表。2）跨对象和交互类别的性能分布L小批量=1 ΣNN|H|ΣBCE（yj，pj），⑷（图）4），以及顶级检测和故障案例的示例（图4）。（五）。l∈H其中，BCE（y，p）是二进制交叉熵损失，并且pj=P（y1=1|bj，bj，x）是使用等式（1）针对第j个样本计算的HOI类别1的概率。1.一、在我们的实验中-项，我们只学习交互作用项的参数（即，用于计算因子Φhuman、Φbox和Φpose的MLP）。4. 实验数据集。HICO-Det [4]和V-COCO [11]数据集通常用于评估HOI检测模型。V-COCO主要用于遗留原因，因为早期的CAMO [5]数据集只有图像级注释。HICO- Det是为了扩展HICO而创建的，具有专门用于HOI检测任务的边界框注释。HICO-Det比V-COCO更大，更多样化。HICO-Det由47，776张图像组成，其中注释了与80个对象的117次交互，总共产生600个HOI类别，而V-COCO仅具有26次与训练的4.1. 与最新技术选项卡 . 1 表明我们的最终模型 Det+App+Box 和Det+App+Box+Pose优于现有方法。现在，我们将重点介绍与现有模型相比，我们方法的主要优势外观不需要重新学习。所有现有的方法都通过微调外观编码分支[10，9，11]或从头开始训练CNN [4]来学习任务特定的外观编码我们只使用在MS-COCO上预训练的Faster-RCNN的ROI池化特征[15]。布局是直接编码和评分。我们使用绝对和相对位置特征直接对布局进行编码，这些特征使用φbox（MLP）进行评分。我们的配方是更容易学习比InteractNet预测分布在目标对象的位置，单独使用人类的外观特征。显式表示也使我们的布局术语比HO-RCNN更有效地学习，模型充分罕见非罕见HO-RCNN [4]7.815.378.54[11]第十一话[10]）9.097.029.71InteractNet [10]9.947.1610.77[19]第十九话13.119.3414.23iCAN [9]14.8410.4516.15Det8.326.848.76Det + Box12.5410.4013.18Det +人类应用程序11.128.8211.80Det + Object应用程序11.057.4112.13Det +应用程序15.7411.3517.05Det + Human App + Box15.6312.4516.58Det + Object App + Box15.6810.4717.24Det + App + Box16.9611.9518.46检测+姿势11.098.0412.00确定+方框+姿势14.4911.8615.27Det + App + Pose15.5010.1417.10Det + App + Box + Pose17.1812.1718.689684图4：在与同一对象（顶部）的交互中以及在给定的交互（底部）。水平轴按中值AP排序需要学习使用CNN编码布局（交互模式）。权重共享，提高学习效率。在我们的因子模型中（也在InteractNet和iCAN中）共享权重使其比HO-RCNN更有效，HO-RCNN使用独立权重预测600个HOI类别的得分。最后600路全连接层。换句话说，HO-RCNN将“骑自行车”和“骑马”视为上下文的ROI池。iCAN遵循类似于InteractNet的方法，但是使用使用注意力机制计算的上下文特征来增强区域外观虽然我们的模型表现出强大的性能，在仅将ROI汇集的检测器特征作为上下文信息的源的情况下，我们可以进一步受益于类似于iCAN的注意机制。GPNN还试图通过在推断图上虽然在理论上，这种方法联合推断图像中的所有HOI检测（与一次对一个候选盒对进行预测相反），但是这种方法相对于像我们的因子模型和iCAN的更简单的固定图方法的优点仍有待证明。我们的模型还受益于改进的训练技术，这将在下面讨论。4.2. 训练技术选项卡. 图2显示了所提出的训练技术的效果训练时正负比例很大。在训练期间增加小批量中的负盒对与正盒对的比率导致性能的显著增加（neg.到pos。比例是10：1340mAPvs. 一千分十六秒96mAP）。请注意，相关工作[4，10]使用低比率（通常<10），类似于用于训练对象检测器的那些。对于HOI检测，由于负对的数量在对象提议的数量中是二次的，而不是对象检测器的线性的，因此期望更高的比率。消除训练-推理不匹配。培训如在[ 10，9 ]中所做的，在由交互项预测的概率上使用交互分类损失的模型与使用HOI分类损失的训练相比是次优的（15。89对十六岁96mAP），即使相同的参数集通过两种损耗进行优化。这是因为后者相对于检测项校准了相互作用项。在[4]中使用了类似的方法，但没有我们因子模型的强权重共享假设。拒绝简单的否定。为了让模型专注于学习正确地对硬否定进行排名，我们在因子模型中引入了指示项。指标函数确保因子模型预测盒对（b1，b2）的HOI类别（h，o，i）的概率为零，如果b1/∈Bh或b2/∈Bo. 选项卡. 2显示，删除指标项在训练期间导致mAP从16下降。96比1593（在推理过程中仍使用指标）。4.3. 因子消融研究为了识别不同来源的外观和空间信息在我们模型中的作用，我们用可用因子的子集训练模型。可以通过比较Det、Det+Box、Det+App和Det+Pose来评估单个因素的作用。请注意，外观项导致Det的最大增益，其次是Box和Pose。我们进一步分析了人和物体的外观对预测相互作用的贡献。有趣的是，虽然Det+Human App和Det+Object App9685用瓶子喝水，骑自行车0.76，跳摩托车0.93，吃热狗0.87，骑大象0.69，骑自行车0.93修理自行车，0.22驱动卡车，0.86抱爪，0.92摩托车转弯，0.62踢球，0.93背背包，0.94拥抱人，0.4看鸟，0.83开放式背包，0.02用刀切割，0.24检查飞机，0.61吻大象，0.05图5：定性结果显示了不同HOI类别的最高等级真阳性和假阳性以及预测概率。蓝色和红色框分别对应于由预训练Faster-RCNN检测器检测到的人和对象。姿势骨架由预训练的OpenPose检测器预测的18个关键点组成，并分配给人体框。执行命令（11. 十二和十一。05），该组合优于它们中的任何一个，mAP为15。74，表明人和物体的外观提供了补充信息。请注意，mAP为11。12（= max（11.十二十一05））或更小将表示完全冗余或噪声信号。在Tab中可以观察到类似的1用于App-Box、App-Pose和Box-Pose对。虽然 Det+Box+Pose 比 Det+Box 提高，但Det+App+Pose 和 Det+App 执行重复。类似地，Det+App+Box+Pose仅略微提高了Det+App+Box的性能。这表明，虽然除了粗略布局之外还对细粒度布局进行编码是有用的，但是经由对象检测器编码的人类外观已经在一定程度上捕获了人类姿势。另一种理解因素作用的方法是考虑从最终模型中删除特定因素时性能的下降。相对于Det+App+Box+Pose ，性能下降 2 。 69 ， 1. 68， 0 。App、Box和Pose因子分别为22mAP4.4. 绩效分配图4可视化了我们的模型在与给定对象的交互中以及在给定交互的对象中该图显示，对于大多数对象，某些交互比其他交互更容易检测（需要注意的是，任何类的AP计算对测试集中该类的阳性数量敏感）。类似的观察对不同的物体也一个互动。此外，我们观察到，仅与特定对象类别（如不存在框所指示的）发生的交互（如4.5. 定性结果定性结果（Fig.5）展示了在物体和姿态检测器的强大基础上构建HOI检测器的优势误报更常见的原因是不正确的交互预测，而不是不正确的对象/姿势检测。请注意，防止误报的提示可能与“检查飞机”和“观察鸟”的情况下的注视方向一样微妙5. 结论我们提出了一个没有多余的方法HOI检测，这是有竞争力的现有文献，尽管它的简单性。这是通过HOI类概率的适当因式分解、布局的直接编码和评分以及改进的训练技术来实现的。我们的消融研究表明，人和物体的外观，粗布局，细粒度的布局HOI检测的重要性。我们还评估了所提出的训练技术的重要性，这些技术可以很容易地融入其他因子模型。致谢：部分由NSF 1718221、ONR MURI N 00014 -16-1-2007、Samsung和3 M支持。9686引用[1] 克里斯托弗·M·毕晓普。混合密度网络1994. 第1、3条[2] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。一、五[3] 瑞奇·卡鲁阿纳多任务学习。学会学习。Springer，1998年。3[4] Yu-Wei Chao，Yunfan Liu，Xieyang Liu，Huayi Zeng，and Jia Deng.学习检测人机交互。在WACV，2018。一二三六七[5] Yu-Wei Chao ， Zhan Wang ， Yugeng He ， JiaxuanWang，and Jia Deng. Hico：识别图像中人与物体交互的基准。在ICCV，2015年。三、六[6] 文森特·德莱特，约瑟夫·西维克，伊万·拉普捷夫。学习静止图像中的动作识别的人-物交互。NIPS，2011年。2[7] 柴坦尼亚·德赛和德瓦·拉曼南。使用关系短语集检测动作、姿势和对象ECCV，2012年。2[8] 柴坦尼亚·德赛，德瓦·拉曼南，还有查利斯·福克斯。静态人机交互的判别模型。在CVPR研讨会，2010年。2[9] 高晨，邹玉良，黄家斌。ican：用于人-对象交互检测的以实例为中心的注意网络在BMVC，2018年。一二三六七[10] GeorgiaGkioxari ， RossGirshick ， PiotrDolla'r ，andKaimingHe.检测和识别人机交互。在CVPR，2018年。一二三六七[11] 索拉布·古普塔和吉坦德拉·马利克。视觉语义角色标注。arXiv预印本arXiv：1505.04474，2015。三、六[12] Haroon Idrees ， Amir R Zamir ， Yu-Gang Jiang ， AlexGorban，Ivan Laptev，Rahul Sukthankar，and MubarakShah.Thu- mos挑战在行动识别的视频在野外。CVIU，2017年。2[13] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML ，2015。5[14] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A Shamma，et al.可视化基因组：使用众包密集图像注释连接语言和视觉。IJCV，2017年。3[15] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV。三、六[16] 卢策武，兰杰·克里希纳，迈克尔·伯恩斯坦，李菲菲.具有语言先验的视觉关系检测。在ECCV，2016年。三、六[17] Subhransu Maji、Lubomir Bourdev和Jitendra Malik。从姿态和外观的分布式表示进行动作识别CVPR，2011。二、三[18] Vinod Nair和Geoffrey E Hinton。校正线性单元改善受限玻尔兹曼机。ICML，2010年。5[19] Siyuan Qi ， Wenguan Wang ， Baoxiong Jia ， JianbingShen，and Song-Chun Zhu.通过图解析神经网络学习人-物交互在ECCV，2018。6[20] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。2015年，在NIPS中。一、三、五[21] Tomas Simon，Hanbyul Joo，Iain Matthews，and YaserSheikh. 使用多视图自举的单图像中的手关键点检测在CVPR，2017年。5[22] Khurram Soomro、Amir Roshan Zamir和Mubarak Shah。Ucf101：来自野外视频的101个人类动作类的数据集arXiv预印本arXiv：1212.0402，2012。2[23] Shih-En Wei，Varun Ramakrishna，Takeo Kanade，andYaser Sheikh.卷积姿势机器。在CVPR，2016年。5[24] 姚邦鹏和李飞飞。Grouplet：一种结构化的图像表示，用于识别人和物体之间的交互. CVPR，2010。2[25] 姚邦鹏和李飞飞。在人-物交互活动中建立物体和人姿态的交互上下文模型。CVPR，2010。2[26] 姚邦鹏、蒋晓晔、 Aditya Khosla 、 Andy Lai Lin 、Leonidas Guibas和李飞飞。通过学习动作属性和部位的基来识别人体动作。见ICCV，2011年。2[27] Mark Yatskar Luke Zettlemoyer和Ali Farhadi 情况识别：面向图像理解的视觉语义角色标注。在CVPR，2016年。3

下载后可阅读完整内容，剩余1页未读，立即下载