大词汇量下的人-物体互动检测

102 浏览量更新于2023-10-13 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

13475通过查询和多尺度检测Suchen Wang† Kim-Hui Yap† Henghui Ding† Jiyan Wu† Junsong Yuan‡Yap-PengTan†纽约州立大学纽约分校纽约州立大学布法罗分校{wang.sc，ekhyap，ding0093，jiyan.wu，eyptan} @ ntu.edu.sg，{jsyuan} @ buffalo.edu摘要在这项工作中，我们研究了问题的人-物体的相互作用（HOI）检测与大词汇量的对象类别。以前的HOI研究主要是在限制对象类别的范围内进行的（例如，80个类别）。他们的解决方案可能在对象检测和交互分类中面临新的困难，这是由于对象的多样性增加（例如，1000个类别）。与以前的方法不同，我们将HOI检测问题归结为一个查询问题。我们提出了一个统一的模型，共同发现的目标对象和预测相应的interrac-tions的基础上的人类查询，从而消除了使用通用对象检测器，额外的步骤，作为关联的人类对象的实例，和多流的interrac- tion识别的需要。这是通过一个重新设计的trans-former单元和一个新的级联检测多尺度特征图。我们观察到，这样一个高度耦合的解决方案带来的好处，在一个大的词汇设置的对象检测和交互分类。为了研究大词汇量HOI检测的新挑战，我们从公开可用的SWiG和100天的手数据集收集两个数据集在这些数据集上的实验验证了我们提出的方法可以实现显着的mAP改进HOI检测与更快的推理速度比现有的一级 HOI 检测器。我们的代码可以在https://github.com/scwangdyd/large_vocabulary_hoi_detection上找到。1. 介绍发现人类与对象的交互在以人为中心的视觉理解中起着重要作用，并且提供了理解人类意图、动作和活动的手段目标是检测一个或多个元组human、verb、object>以指示人和对象在图像内的位置，并通过动词预测它们如何彼此交互（例如，拿着某物、重新配对某物等）。虽然最近关于人-对象交互（HOI）检测的研究[1，23，52，46，9，16，20，43，40，27]已经取得了很大的进展，但是它们主要集中在具有有限种类的对象（例如，80 COCO对象[26]）。在图1：在这项工作中，我们的目标是检测人类与大词汇量对象类别的交互，其中有大量的交互，只有少数数据样本可用于大多数类别。在现实中，人类可以与我们的视觉世界中的各种各样的对象进行交互。我们可以从YouTube视频[8]或互联网数据[36]中看到各种人类与日常物品的然而，它仍然是一个未充分开发的问题，在大词汇量的对象类别，其中有大量的相互作用，只有少数数据样本可用于大多数相互作用的制度中的HOI检测。在这种情况下，现有的方法将面临新的困难，由于更大的多样性的对象和背景。这项工作的主要目标是研究发现人类与大词汇量对象交互的新对于HOI检测，通常的做法是将问题分解成两个部分：（1）人物和物体实例检测;（2）实例匹配和交互分类。根据这两个部分是顺序进行还是并行进行，现有的工作可以进一步分为两阶段解决方案[20，19，52，40，9]。或端到端的单阶段解决方案[7，23，46，17]。不考虑哪种类型的解决方案，现有方法通常将对象检测部分作为通用检测器，更快的RCNN [34]，CenterNet [5]，RetineNet [25]等。由于之前的HOI研究主要在与COCO检测相同的类别空间中进行[26]，因此使用13476预训练权重的通用架构，以简化训练并确保检测结果。然而，新的和大的类别空间可能对HOI检测提出挑战，因为通用对象检测器可能在低样本状态下表现不佳[12]，并且在大词汇量情况下学习有效的检测器与大词汇量对象检测的工作不同[12，39，45，18，37，48]，我们希望探索一种有效的HOI特定解决方案，通过使用交互线索来找到目标对象。另一个挑战是当涉及更多对象类别时，交互的组合爆炸。考虑到交互的组合性质，直观地吸引人的是将交互检测解耦为单独的动作和对象预测，然后合并它们的分数以产生最终的交互分数。以前的方法通常使用完全独立或并行的分支来实现这一点。我们观察到，这样的方法将成为次优的大词汇量的情况下，动作和对象的预测往往相互冲突，并导致无效的组合。尽管可以基于先验知识或外部资源[50]过滤掉无效组合，但我们认为可以通过耦合交互和对象分类来有效地减轻在本文中，我们提出了一个新的策略来解决HOI任务，并制定它作为一个查询问题。由于个人往往是占主导地位的类别，传统的检测器通常可以给出可靠的结果。因此，我们首先检测图像中的人，并使用它们作为查询来搜索相应的交互和目标对象。我们的目标是开发一个由Transformers [41]驱动的统一模型，以联合检测与给定人类查询交互的对象并预测它们的交互。这减轻了使用通用对象检测器，多流交互识别，和额外的人类对象实例匹配过程的需要。其主要思想是通过在所有滑动窗口位置处将人类查询特征与图像特征进行比较来找到可能包含目标对象的区域然后，我们更新人类查询功能，逐步聚合的上下文信息，从高关注分数的地区更新后的功能将用于预测动作和对象类，并回归边界框。为了更好地提高检测能力，我们提出了一种新的级联检测流水线，并启用多尺度和高分辨率特征图的使用我们的贡献概述如下。（1）据我们所知，我们是第一个研究大词汇量对象范畴中的HOI检测。(2)为了使研究成为可能，我们从SWiG [32]中组装了一个具有1000个对象类别的HOI数据集。此外，我们从100DOH数据集[36]中组成一个子集，并用300个对象类别对它们进行注释，以进行手-对象交互。（三）我们提出了一个新的一个阶段和端到端的战略，通过共同检测的目标对象和相互作用。这是通过在多尺度特征图上使用重新设计的Transformer单元和新的级联检测框架来实现的。（4）实验结果表明，与前一级HOI检测器相比，该2. 相关工作以前的HOI作品[3，10，50，49，44，30，21]主要是用有限的物体进行的。现有的基准点[13，3]专注于人类与80个对象类别的交互。由于它们与MS-COCO[26]共享公共类别空间，因此现有方法通常使用通用对象检测器[34，24，5]及其预训练的权重来帮助实例检测，并专注于后续的交互分类。由于标准对象检测系统为图像中存在的几乎所有对象生成框候选，因此其通常为后续交互预测引入大量最近的研究已经倾向于可以在检测结果中更好地发现真正的交互的人和对象的解决方案。Gkioxari等人[11]预测与人类相关的高斯热图，以重新加权候选对象。 Li etal. [22]提出使用二元分类器来估计人-对象对的交互性，并在推理之前过滤掉低置信度的人-对象对。最近的一些作品[31，30，50]利用语义特征和词的类比来帮助交互预测。由于人体语言通常包含交互的强有力线索，因此最近的许多研究[51，42，14，6]对人体骨骼进行建模，以提高交互预测的鲁棒性。另一个有希望的方向是在所有框候选者上构建图形，然后执行图形解析以解决仅考虑单个人-对象对所引起的歧义[33，9]。与上述两阶段流水线不同，最近的一些作品[46，43]提出了一阶段解决方案来联合学习对象检测和交互分类。例如，PPDM [23]将CenterNet检测器[5]嵌入到整个框架中，并提出了一个交互分支来预测交互点和偏移量，以对目标实例进行分组。UnionDet [17]采用RetineNet [25]来生成对象框并并行预测联合区域，以更好地产生交互对和预测。由于交互作用的纯联合区域可能包括不必要的背景信息，DIRV [7]提出了一种新的一阶段方法来找到有区别的交互作用区域。我们观察到，无论两阶段或一阶段的方法，几乎所有以前的方法使用通用对象检测器来找到目标对象。在大词汇量场景中，学习对象检测器以检测不同的对象是具有挑战性的13477O{}A{}∈--FP {}∈F→∈联系我们∈--（action，object）人员查询JD京京京P5P4P3P2骨干FRCNN头输入图像级联检测图2：左：我们提出的方法的总体框架。我们提出了一种级联检测，以检测多尺度特征图（从低分辨率P5到高分辨率P2）的HOI。在每个级别，我们进行联合检测（JD）的目标对象和交互的基础上的人类查询。右：多尺度特征图上的级联检测的图示。对于小的对象，我们首先估计一个粗略的位置在最粗糙的特征图。然后，它基于初始猜测在更高分辨率的特征图上裁剪子区域，并执行第二轮检测。通过这种方式，它逐步发现目标对象并细化盒子。3. 方法这项工作的目的是解决问题的人与物体的交互（HOI）检测与大词汇量的对象类别。给定图像I，目标是生成多个元组（b p，b o，y o，y a）以表示HOI，其中边界框b p，b oR4指示个人和对象的位置，y a=1，. . .，A表示人的动作，并且y0=1，. . .，C表示对象类别。与现有HOI工作不同，这里我们假设C是一个大数字（例如，C=1000）而不是80个MS- COCO对象类别。3.1. 该方法现有的HOI方法通常将检测分解为两个阶段[10，20，52，9]或并行分支[23，7，46，17]，其中一个阶段（或分支）使用通用对象检测器（例如，更快的RCNN [34]，CenterNet [23]等）以生成人和对象框，而另一阶段（或分支）用于构建人-对象对并预测交互。然而，当检测不同的对象时，某些类别的数据将不可避免地稀缺。在这种情况下，用于通用对象检测的深度学习方法可能表现不佳[12]。与大词汇量对象检测的工作不同[12，37，18，48，45]，我们的目标是开发一个HOI特定的检测器，通过利用交互线索来找到目标对象。我们的目标是一个统一的模型，可以共同找到的对象和相应的相互作用。为了实现这一目标，我们重新制定HOI检测作为一个查询问题。我们采用标准的Faster RCNN来查找人框bp，然后将它们用作查询来搜索图像内的交互。主要目标学习一个模型（I，bp），该模型将图像和人物查询作为输入，并输出一组交互预测=P1，P2，. . .，P_K，其中每个预测P_k是由输入人员查询执行的一个交互或表示无交互情况的空元素O。图2示出了我们提出的方法的概述。我们提出了一个级联的框架来检测HOI多尺度有限元分析。真地图在每个特征级别，我们提出了一种新的HOI检测器（JD），共同预测动作和对象类别和回归目标对象的边界框。我们将在以下部分详细介绍每个模块。3.1.1人员查询生成与检测大词汇量的对象相比，人检测将是一个相对简单的任务，并且大多数现有的检测器可以给出可靠的结果。我们使用Faster RCNN首先生成人框bp，并为每个人框bp提取RoI池视觉特征fpRd。许多工作[11，40，52]表明，人与物体之间的空间信息往往提供了很强的先验的相互作用。因此，除了视觉特征之外，我们还计算每个框的位置嵌入fbRd[41]。具体地，盒[x，y ， w ， h] 被转换为四个 d/4 维嵌入的级联，fb=[ex;ey;ew;eh]，其中et是盒变量t x，y，w，h的组合正弦和余弦向量。感兴趣的读者可以在补充材料和[41]中找到计算的细节。让我们将q表示为个人查询向量，并且将q：RdRd表示为投影函数。我们通过以下方式q=Fq（fp+fb）∈Rd（1）3.1.2目标和交互给定人员查询，下一步骤是在图像内搜索交互和对应的目标对象令FRh×w×d表示图像的特征表示，其集成了来自骨干网络的视觉特征和位置嵌入。我们的核心思想是在每个滑动窗口位置将人查询q与F进行比较，以衡量可能与给定人查询交互的对象的存在然后，我们从高响应区域聚集特征来预测相互作用并回归边界框。我们通过使用重新设计的变压器单元来实现这一想法。因为每个人的查询都是独立处理的13478∈XYXY× × ××∈XY∈.. ΣΣ←..ΣΣD我ΣΣ为了简明地呈现，我们在下面仅讨论单个查询Q我们的目标是找到潜在的区域（由注意力地图反映），可能包括目标对象。考虑到一个人查询可以同时与多个对象交互。我们建议使用单独的注意力地图来消除歧义不同的目标对象。具体地说，我们将人员查询重复K次（例如，K=10），q1，. . .，qK，并且引入一组可学习的偏移向量δ1，. . . ，δK，从而得到它们，即qk+δk。我们期望偏移向量可以强制重复查询指向不同的目标对象（如果存在）。设AkRh×w表示关于第k个扰动查询的注意图。其在位置（x，y）处的权重可以计算为（qk+δk）TUTVFxyAk∝exp{√}（2）其中U，V∈Rd×d都是可学习的投影权值，FxyRd是位置（x，y）上的特征.理想情况下，我们期望注意力权重可以定位目标对象的区域（在大多数情况下，是有区别的部分）。然后，我们根据注意力权重将特征聚合为ck=W2[Ak·W1Fxy]（3）x为oh其中W1，W2Rd×d是可学习的权重。我们可以把ck理解为一种融合了目标对象信息的上下文特征。然后，我们使用它来更新原始查询向量，类似于原始Transformer。也就是说，qk层规范qk+脱落ckqk←LayerNormqk+ Dropout MLP（qk）多次进行上述计算以渐进地定位目标对象并聚合上下文特征。最终更新的查询特征将通过三个不同的前馈网络（FFN）来预测人类动作、回归目标对象的边界框以及识别对象类别。3.1.3级联多尺度检测由于变形金刚的计算复杂性，早期的目标检测任务[29，2]通常使用具有有限空间分辨率的高级特征图。它通常在小对象上获得低性能。最近的工作[53，47]已经提出了各种变体，以允许使用高分辨率特征图，并实现了明显的改进。受此启发，我们提出了一个级联检测框架，我们的HOI检测，也使使用多尺度特征图。我们采用特征金字塔网络（FPN）骨干[24]，旨在搜索P2，P3，图3：左：框内的注意力权重之和。右：最大注意力重量开箱。每个点表示一个框预测。大、中、小对象分别用绿色、蓝色和红色突出显示。小对象的边界框回归通常遭受更多的噪声，即使注意力模块可以精确地揭示它们的位置。P4，和P5特征图，分别比原始图像大小小4，8，16，32一种直观的方法是在每个特征级别进行单独的联合检测（如第3.1.2节所述），然后将其结果整合。然而，通过这种方式，计算复杂性将随着特征分辨率的增加而增加，因为我们将人类查询与地图中的每个位置进行比较。除此之外，我们发现，即使使用最高分辨率的P2特征图，小对象仍然遭受贫困的边界框回归。为了探索背后的原因，我们绘制了地面实况框外的最大注意力权重和框内的注意力权重之和（如图3所示）。我们观察到，对于小对象，盒子外的最大注意力相对于大对象而言较低，而盒子内的权重之和通常小于0.5，这意味着它聚集了大量噪声信息。这主要是由于大量的背景位置和简单地采用大的特征图（例如，P2）不会缓解这个问题。因此，我们提出了一个级联检测方法，逐步找到目标对象。假设是，尽管粗略特征图可能不会给出精确的局部化，但它可以粗略地揭示其在图像面板内的位置。基于初始估计，我们可以在更高分辨率的特征图中裁剪一个小区域，并进行第二轮预测。图2示出了所提出的级联检测的示例。我们首先执行一个基础检测的最粗糙的P5特征图，并获得初始预测的目标对象和相应的interrac- tions。然后，我们对 P4进行第二轮预测，以此类推.具体地，在Pi特征图处，i> 2，如果预测框的相对面积（与输入图像尺寸相比）小于预定义阈值τ2并且相对高度和宽度都小于τ i，则我们将继续使用下一个更高分辨率的特征图（即， P i-1）来改进预测。我们不使用整个地图，而是裁剪一个形状为（τi，τ i）的感兴趣区域（四）13479LbboxOL一L∼∼∼5∼∼之前预测的盒子。我们将阈值τ5、τ4、τ3定义为0。5，0。25，0。125分别我们这样做是出于两个考虑。首先，我们可以使用这种方式来控制高分辨率特征图的计算复杂度。其次，我们可以逐步消除背景区域并解决问题，如图3所示。3.1.4损失函数在本小节中，我们描述了我们提出的方法的损失函数我们使用标准的Faster RCNN [34]来生成人物框。第一个损失函数人遵循传统的Faster RCNN，包括区域建议网络和箱头的分类和回归损失。对于联合对象和交互检测器，我们计算每个特征级别的损失。在第i个特征级别，损失函数类似于DETR [2]，图4：四个数据集的归一化图像坐标中的对象中心的分布。VCOCO具有最大的空间多样性。我们组合的SWiG-HOI和DOH比常用的HICO-DET数据集具有更大的包括箱回归损失Li，广义IoU丢失伊久[35]和对象分类损失Li，而我们添加i-在逻辑上考虑动作分类损失i。对于每个人查询，模型将产生K个不同的预测。我们通过找到预测和地面事实之间的最佳二分匹配来为它们分配标签。最终损失计算为L+Σ（λLi+λLi+Li+Li）（5）表1：在提取的SWiG-H 0 I上的前n个类别不可知框的平均召回。ARs、ARm和ARl表示小、中和大对象的平均再调用。ARr、ARc和ARf表示罕见、常见和频繁对象的平均召回率。我们还报告了一个参考结果（Ref. *）在LVIS [ 12 ] v0.5 val set上使用RFS的Faster RCNN。人I=21bbox1个月比HICO-DET更复杂的更多细节其中λ1=5且λ2=2。4. 实验数据集我们从SWiG [32]和DOH数据集[36]中收集了两个数据集，以研究人类与大词汇量对象的交互。SWiG最初是为接地情况识别的任务而收集的。它提供了504个视觉基础动词，10k个名词类别和相应的边界框注释。我们提取了可以与人类交互的前1,000个频繁对象类别，并获得了406个人类动作。在我们提取的SWiG-HOI子集中，有45 k个训练图像和14 k个测试图像。为了进一步研究我们所提出的方法的有效性，我们还组成了一个数据集，从100DOH检测手与不同的日常对象的相互作用。由于原始DOH数据集只标注目标对象的边界框而没有特定的类别，因此我们用300个对象类别标注了30k个训练图像和5k个测试图像。要讨论的一个重要方面是对象是否分布在整个图像平面中，而不是突出在图像的中间。为此，图4显示了新组成的数据集的对象中心密度，并将其与HICO-DET [4]和VCOCO [13]基准进行了比较。结果表明，所有HOI数据集都有中心偏差，而新构建的数据集有中心偏差。补充材料中有数据集。实现细节我们的主干是具有特征金字塔网络（FPN）[24]的ResNet50 [15]，其使用预训练的COCO检测权重进行联合检测模型在每个特征级别使用4个Transformer解码器单元的堆栈（没有输入查询之间的交叉注意力计算），并将特征维度设置为256。我们采用AdamW[28]用40个epoch来训练模型，并将初始学习率设置为0.0001，权重衰减为0.0001。4.1. 目标对象检测HOI检测涉及人和交互对象的定位和分类。为了更好地理解具有大词汇量对象的任务的挑战，我们首先讨论对象检测的性能我们使用COCO风格的平均召回率（AR）来反映本地化质量，平均精度（AP）用于对象检测性能。由于大多数先前的两阶段HOI方法依赖于通用检测器（例如，更快的RCNN）来找到目标对象，在下文中，我们主要探索使用大词汇量技术[37，18，45，39]以及最先进的一级HOI检测器的更快RCNN的性能。n=10ARARs臂ARLARr电弧ARFRFS38.162.707.7441.9927.2026.1841.48EQL37.092.726.8940.8825.1625.6040.32我们57.966.1521.0162.8140.9941.1662.46n=100ARARs臂ARLARr电弧ARF参考文献∗32.6922.2545.8955.3233.4930.4133.16RFS54.6413.3331.5157.8646.8547.6256.61EQL54.7015.2334.7857.5547.4748.1656.56我们67.8416.7938.7770.5050.3552.8969.0213480∼E2e行动APAprAPCAPFFRCNN+RFS [12]✓6.122.455.6110.87EQL [37]购物车[18]✓5.746.621.512.475.216.0510.9511.98SimCal [45]5.611.275.0810.89去混淆[39]5.961.625.6710.21JSL [32]✓✓6.813.266.4210.80我们的基线✓5.701.395.1211.15我们✓✓7.313.836.7512.14n=10ARARs臂ARLARr电弧ARFPPDM57.896.1720.0062.8240.7640.4162.40DIRV55.654.7417.5760.5838.4537.7060.26我们57.966.1521.0162.8140.9941.1662.46n=100APAPSAPMAPLAprAPCAPFPPDM3.471.902.313.740.492.649.38DIRV3.081.521.943.340.462.358.30我们7.312.524.147.623.836.7512.14表2：SWiG-H 0 I上的大词汇量对象检测方法的平均精度。我们强调端到端（E2E）的approaches和方法使用的行动线索，以协助对象检测。目标对象覆盖率在使用Faster RCNN或Mask RCNN实现的大词汇量对象检测器[37，18，45，32，39]中，一个常见的假设是类不可知的建议通常对目标对象具有可靠的召回在表1中，我们探索了这种假设是否仍然适用于SWiG上的HOI任务，并报告了具有重复因子采样器（RFS）[12]和均衡损耗[37]（EQL）的FasterRCNN生成的建议的结果为了更好地理解，我们还报告了LVIS v0.5 val集上RFS的AR作为参考。考虑到通常存在与图像中的人类交互的几个目标对象（与对象检测任务相比）。我们限制提案的数量，并期望最有信心的提案能够很好地实现目标。与LVIS中的参考结果相比，我们观察到SWiG上产生的类不可知盒通常给出更高的AR，除了小（ARs）和中等（ARm）对象。较高的结果主要是由于需要检测的目标对象（仅与人类交互的对象）比LVIS少。我们假设低AR和ARm是由于小/中型对象在与人类交互时经常遭受遮挡，使得找到它们更具挑战性。表1还表明，我们提出的方法可以更好地找到目标对象。特别是在前10个盒子，我们的方法实现了20 AR的改进比对象检测对应。我们认为，该差距主要是因为通用检测器产生图像中存在的许多非相互作用对象，因为它们不能区分相互作用的含义。相比之下，我们的HOI特定检测方法可以通过将它们与人类查询进行比较来找到真正的目标;因此，它不太可能受到背景中其他对象的影响。除了框局部化之外，另一个具有挑战性的问题是对大词汇类别进行已经提出了一些先驱工作[37，18，45，39]来解决长尾实例分割和对象检测问题。在表2中，我们解释了他们在合成SWiG-HOI上的结果。此外，我们与联合态势定位器（JSL）从比较表3：与现有技术的单级HOI检测器的比较。我们报告了SWiG-HOI上前10个框的平均召回率和SWiG [32]修改了RetineNet，以基于动作预测和先前检测到的对象循环为了公平比较，所有方法都使用ResNet-50主干，并将每个图像的类别特异性检测的数量限制为100，最小得分阈值为0.001。表2显示，特定于任务的检测器（JSL和我们的）通常比通用对象检测器获得更好的结果。对于HOI任务，图像中存在的对象通常被稀疏地注释，因为只有交互的对象被视为前景，而其他对象将成为背景。这与通用对象检测器的目标不匹配，并且难以训练通用检测器，导致如表2所示的更差的结果。此外，我们观察到，耦合的动作预测可以协助对象分类。一个证据是，JSL，没有特殊设计的尾部类别，实现了6.81的AP和击败所有通用检测器。为了描述这一点，我们报告了一个基线模型，该模型从框架中消除了动作预测，这导致了1.61 AP下降。我们假设对象和动作通常具有明显的依赖关系。我们认为，除了通用的大词汇表技术之外，还可以利用HOI的独特字符（即，组成关系、对象和动作之间的依赖性）来处理大词汇量对象类别。除了我们的工作之外，一些先前的工作也提出了端到端的解决方案来检测相互作用的对象，而不是使用现成的对象检测器。因为它们最初是在有限对象类别的制度下发展起来的（例如， 80 MS-COCO cat-egories），我们测试他们的表现上的大词汇量的情况下。表3报告了两种最先进的端到端HOI检测器PPDM[23]和DIRV [7]的结果，其代码已经可用。他们的共同想法是预测交互点或区域，与嵌入式对象检测器一起工作，以更好地检测交互的人和对象。从表3中，我们可以看到，它们可以在捕获目标框时实现良好的召回，而AP的性能还有很多需要改进的地方。对象分数由嵌入式对象检测器13481≥∼地图mAP-rmAP编号MRECmRec-rmRec-nrPPDM3.171.626.5314.177.7728.13DIRV2.831.465.8212.506.9024.69JSR7.336.1010.0118.2014.3226.67我们7.986.6310.9320.1716.0329.21地图mAP-rmAP编号MRECmRec-rmRec-nrPPDM7.675.1913.0856.2450.7168.30DIRV7.495.0312.8752.6046.3466.26JSR19.4615.3228.4850.1440.8570.43我们20.9616.4829.8859.6448.6983.54图5：通过我们的方法检测到的与不同对象的人类交互的示例。表4：HOI检测的实验结果。我们报告了罕见相互作用（mAP-r，mRec-r）和非罕见相互作用（mAP-nr，mRec-nr）的平均精确度和召回率。其与它们的相互作用分支隔离。具体而言，PPDM使用CenterNet [5]，DIRV使用Efficient- Det [38]来生成对象分数。为了更好地处理罕见和常见类别，需要用于广告低激发样本的附加技术以与它们的检测器一起工作。此外，在重新训练期间，我们注意到DIRV对特征图中的所有锚进行1000路分类，导致巨大的内存成本和计算。4.2. HOI检测在本节中，我们将讨论大词汇量对象类别的完整交互检测。我们遵循前HOI基准[3]，并使用平均精确度（mAP）和平均召回率（mRec）评估指标。具体而言，我们首先计算每个交互类别的AP和Rec，然后报告平均值。只有当满足以下条件时，交互检测才被认为是积极的：（1）人和对象边界框具有IoU 0。5、真实的真相（2）交互预测是正确的，包括正确的动作和对象预测。在[3]之后，如果交互至少有一个但少于10个训练样本，则我们将其视为罕见情况。接下来，我们讨论交互检测的结果HOI检测与盒接地。我们测试了两个最先进的一级HOI检测器，其在SWiG-HOI和来自原始SWiG工作的良好训练的模型JSR中重新训练[32]。由于组成的性质表5：没有箱接地要求的HOI识别结果。在HOI中，可能的交互的数量将随着涉及更多的对象类别而快速增长在我们的组合测试集中，总共有4，745个人与物体的交互。其中，1,491例属于非罕见病例，3,254例属于罕见相互作用。表4报告了使用标准HOI评估度量的HOI检测结果。我们提出的方法优于国家的最先进的一级HOI检测器由一个明确的mAP余量（4.81 mAP）。在所有方法中，我们还观察到，我们的方法可以实现相对较高的召回的互动。HOI识别，无需机箱接地。在这里，我们放松了对局部化的要求，只考虑相互作用预测的正确性。在这种情况下，如果正确预测了交互类别，则预测将被视为真阳性。表5报告了无包装盒要求的评价结果。如图所示，我们的方法在交互预测上仍然给出了最佳性能我们还观察到，JSR在3,254个（50.25%）罕见交互中遗漏了1,635个。相比之下，我们的方法错过了1，507（46.31%）罕见的相互作用。虽然我们的结果比基线稍好，但它仍然是一个初步的结果，未来可以预期沿着这个方向的更先进的解决方案。动作和对象之间不可见的交互。上述评价主要是对可见的相互作用进行的。随着更多的对象类别被包括在内，将有有更多的机会看到新奇的互动。在组合测试集中，有大约1.8k个新的相互作用13482∼mAP-小说mRec-novelPPDM0.782.73DIRV0.752.62JSR2.344.30我们2.648.55推理速度（ms）PPDM237DIRV214JSR353我们93表6：左：新型相互作用的实验结果。右：单级HOI检测器的推断速度。不会出现在训练集中。表6（左）报告了动作和对象之间的这些新颖组合的结果（具有框要求）。与以前的方法相比，我们提出的方法可以捕捉更多的新的交互作用。虽然结果在mAP和mRec中都很低，但这提出了另一个有前途的研究方向，即研究如何在大词汇量对象类别的范围内处理新的组合。推理速度表6（右）示出了各种方法的推理速度。现有的一阶段HOI检测器包括匹配过程，以针对每个预测的动作类将所生成的人和对象实例相关联。它们的计算复杂度将随着需要考虑更多的动作和对象类而增加。相比之下，我们的模型联合检测目标对象和交互，而无需额外的匹配过程。由于这个优点，它可以实现比基线方法更快的速度。4.3. 手-物交互此外，我们调查的有效性，我们提出的模型上的另一个密切相关的任务 - 手和物体的互动。我们在100DOH数据集上进行实验，因为它提供了人手与各种日常对象的交互（包括基于我们的注释的300个类别）。为了保持与上述研究和我们的配方一致，我们把每只手作为一个查询和搜索的目标对象。在该实验中，动作被定义为接触状态（例如，自接触/人对人/接触到便携式/非便携式）。有关此数据集的更多详细信息，请参阅补充资料。表7报告了对象检测和交互检测两者的实验结果。与上述类似，我们使用COCO风格的AP来评估对象检测和mAP度量以反映交互预测的性能我们与DOH [36]基线方法和一级HOI检测器PPDM和DIRV进行比较。虽然在这个实验中，简单的接触状态定义可能不会提供额外的线索，以减轻对象识别，我们仍然看到，我们提出的方法可以有效地检测目标对象。如图所示，我们的方法在检测交互对象方面实现了2.5AP的改进。对于完整的相互作用检测，我们的方法可以获得1.9mAP的提升相比，选定的一个阶段的HOI基线。表7：在合成的DOH数据集上的实验结果。我们使用AP、APr（are）、APc（ommon）、APf（reqeunt）来评估对象检测性能使用类似于现有基准的mAP度量来评估交互检测。多尺度级联行动APAPSAPMAPF基线15.161.243.035.78基线2✓5.282.113.485.87基线3✓✓5.702.343.926.29完整模型✓✓✓7.312.524.147.62表8：所提出的方法的消融研究。我们消融的多尺度特征图，级联检测框架，耦合对象检测和动作预测。4.4. 消融研究在本节中，我们对我们提出的方法进行了一些消融研究表8报告了我们的基线模型的结果。我们首先调查使用多尺度和高分辨率特征图的有效性。第一个基线模型可以简单地解释为vanilla DETR [2]模型（基线1）的变体它只使用粗糙的如图所示，这种基本模型对AP和APm具有低结果。然后，我们将多尺度和更高分辨率的特征图。一种直观的方式是从FPN主干（基线2）并行检测P2、P3、P4、P5特征图处的对象我们看到，这样一个简单的修改，阳离子可以带来约0.87 AP的AP改进。然后，我们介绍了我们提出的级联检测框架（基线3），进一步提高了对象检测性能。最大的挑战是大词汇量情况下的框分类。当我们将对象分类与动作分类相结合时，我们看到AP性能的另一个明显提升。5. 结论在本文中，我们提出了一种新的模型来解决问题的HOI检测在大词汇量的对象类别的制度。它联合发现的目标对象和交互与人类查询的级联框架在多尺度特征图。它不依赖于任何前端对象检测器，并且可以进行端到端训练。我们作为-集成两个数据集从SWiG和DOH数据集，研究新的挑战，HOI检测在大词汇量设置和调查我们的方法的有效性。我们观察到，耦合的对象检测和交互预测不仅有助于检测目标对象，而且还提供了一个显着的改善交互预测。这些贡献使我们能够在日常生活中检测人类与不同对象的交互。APAprAPCAPF地图mAP-rmAP编号DOH20.810.318.927.822.612.125.6PPDM25.513.423.530.824.515.327.2DIRV25.114.222.131.524.015.226.6我们28.015.824.332.726.416.529.213483引用[1] AnkanBansal 、 SaiSakethRambhatla 、 AbhinavShrivastava和Rama Chellappa。通过功能泛化检测人-对象交互。在AAAI，2020年。1[2] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。在欧洲计算机视觉会议（ECCV），2020年。四五八[3] Yu-Wei Chao，Yunfan Liu，Xieyang Liu，Huayi Zeng，and Jia Deng.学习检测人机交互。在WACV，2018。二、七[4] Yu-Wei Chao ， Zhan Wang ， Yugeng He ， JiaxuanWang，and Jia Deng. Hico：识别图像中人与物体交互的基准。在IEEE国际计算机视觉会议（ICCV），2015年。5[5] 段凯文，白松，谢灵犀，齐红刚，黄庆明，田奇.Centernet：用于对象检测的关键点三元组。IEEE/CVF国际计算机视觉会议（ICCV）论文集，2019年10月。一、二、七[6] 方浩树，曹金坤，戴玉荣，陆策武。用于识别人与物体交互的成对身体部位注意力。在2018年欧洲计算机视觉会议（ECCV）上。2[7] 方浩树，谢一晨，邵典，陆策武。Dirv：用于端到端人机交互检测的密集交互区域投票2021年AAAI人工智能会议（AAAI）。一、二、三、六[8] David F Fouhey，Wei-cheng Kuo，Alexei A Efros，andJi- tendra Malik.从生活方式到日常互动。在IEEE计算机视觉和模式识别会议论文集，第4991-5000页1[9] Chen Gao ， Jiarui Xu ， Yuliang Zou ， and Jia-BinHuang.Drg：用于人机交互检测的对偶关系图。2020年欧洲计算机视觉会议一、二、三[10] 高晨，邹玉良，黄家斌。ican：用于人-对象交互检测的以实例为中心的注意网络2018年英国机器视觉会议。二、三[11] GeorgiaGkioxari ， RossGirshick ， PiotrDolla'r ，andKaimingHe.检测和识别人机交互。在CVPR，2018年。二、三[12] 阿格里姆·古普塔，皮奥特·多勒，罗斯·格希克。Lvis：用于大词汇实例分割的数据集。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2019年6月。二三五六[13] 索拉布·古普塔和吉坦德拉·马利克。视觉语义角色标注。arXiv预印本arXiv：1505.04474，2015。二、五[14] Tanmay Gupta，Alexander Schwing，and Derek Hoiem.简单的人机交互检测：因子分解、布局编码和训练技术。在IEEE国际计算机视觉会议（ICCV），2019年。2[15] Kaiming He，Xiangyu Zhan

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

大词汇量下的人-物体互动检测

PEP版三年级英语上册：期末检测题（无答案）含听力材料（4）.doc

英语词汇量估算工具代码

积累英语词汇量怎么开始，列一个计划表

如何快速提高英语词汇量

如何用python设计一个能够测试用户英文词汇量的程序

计算机视觉 专业英语词汇

用科技词汇润色：大气-陆地反馈

请整理camera driver 中常见的100个技术词汇

38000词汇思维导图(101-150词根)β版.rar

以词语空格情感的格式 例如 开心 happy给我一份情感词典不要加正向负向

描述行人检测效果的词汇

我是个中国人，我怎样才能学好英语？我的词汇量有20000个。

38000词汇思维导图(1-1525词根)β版.rar

我现在单词词汇量大概在3000左右，想要通过4级要多久

写一个英语词汇量测试的python程序

星火英语·大学英语4级:词汇周计划pdf

现在已经有了词汇表的txt，请帮我写一个能测试英语词汇量的代码

yolo系列电子围栏

最新资源

计算机视觉专业英语词汇

以词语空格情感的格式例如开心 happy给我一份情感词典不要加正向负向