人-物交互性场的双峰先验与基数差异下的互动与非互动对

195 浏览量更新于2023-10-25 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

20113⟨⟩人-物交互中的交互性场*刘新鹏1<$李永禄2<$吴晓倩1戴玉荣3卢策武1邓志强21上海交通大学2香港科技大学3快手科技{xinpengliu0907，yuwing}@ gmail.com，{yonglu li，enlighten，lucewu}@ sjtu.edu.cn，cktang@cs.ust.hk摘要人-物交互（HOI）检测在活动理解中起着核心作用。尽管最近的两/一阶段方法已经取得了令人印象深刻的结果，但作为必要的步骤，发现交互式人-物对仍然具有挑战性。这两种单/两阶段方法都不能有效地提取交互对，而不是产生冗余的负对。在这项工作中，我们引入了一个预先被忽视的交互性双峰先验：给定图像中的一个对象，在将其与人类配对后，生成的配对要么大部分是非交互性的，要么大部分是交互性的，前者比后者更频繁。基于这种交互性双峰先验，我们提出了为了使学习场与真实的HOI图像考虑兼容，我们提出了新的能量约束的基础上的基数和差异的内在的“交互性场”下的互动与非互动对。因此，我们的方法可以检测到更精确的对，从而显着提高HOI检测性能，这是在广泛使用的基准测试中验证的，在这些测试中，我们实现了比最先进技术更好的改进。我们的代码可在https://github.com/Foruck/Interactiveness-Field上获得。1. 介绍人-物交互（HOI）检测包括从静止图像中区分具有交互的人-物（H-O）对，并将交互分类为各种动词。在实践中，HOI实例被表示为一个三元组：人、动词、对象。考虑到其在机器人操作[14]、监视事件检测[1，30]等的最新进展中的重要作用，HOI检测一直吸引着计算机视觉的持续关注。总体而言，HOI检测可以分为H/O局部化、交互式H-O配对，即，定位互动的人和物体，并正确配对，*本研究部分由香港研究资助局资助，拨款编号为16201420。前两个作者的贡献相等。‡通讯作者。目标·图<<联系我们>>#×：互动：非互动图1. HICO-DET [4]中相互作用和非相互作用H-O对之间的相互作用比分布，其中显示了两个代表性样本。对于包含给定对象的对（黄色），非交互对或交互对占主导地位，前者更频繁。动词分类最传统的方法是HO-RCNN[5]中提出的两阶段范例[10，13，22，26，37]，其中首先采用对象检测器来检测给定图像中的所有人/对象实例，然后进行穷举配对和动词分类。这种直接方法的主要问题是，在实践中，只有一小部分人/对象实例涉及HOI关系，使得详尽的对象检测和配对过多，似乎是不必要的。另一种方法由PPDM [27]代表的一步法[18，35]组成。一阶段方法采用一阶段对象检测[21，44]之后的端到端方式，其中对象框被H-O对框替换，对象类别被HOI类别替换这避免了穷举实例检测和显式配对，同时实现了相同的目标。然而，假定典型的图像，例如，HICO-DET [4]平均包含2.47个HOI，但最近最先进的一阶段方法QPIC [35]仍然需要每个图像100个输出对来实现70%的召回率，这仍然是不令人满意的虽然取得了很大的进步，但两人20114AI·范例仍然受到H-O配对的瓶颈：它们不能有效地提取交互对，而是产生过多的冗余和负对。解决这个问题的早期研究之一是TIN [23，26]，其中通过交互式学习解决配对问题。插入成对交互性二元分类器以区分人和对象是否应当配对（即，交互式或其它方式）。尽管其设计简单，但改进相当不错，表明这种适当的配对策略具有巨大的潜力。鉴于这一早期的承诺，在这里，我们的目标是改善HOI检测研究的互动性问题，从全球和分布的角度。具体地说，我们提出了一个以前被忽视的，但功能强大的先验知识：交互性的双峰在图1中，给定图像中的相同对象，H-O对的主导比例是交互式的或非交互式的，而大多数时候它们是非交互式的。这种现象交互性分布的规律与Zipf定律[ 2 ]密切相关为了利用这一先验，我们追求一种动词不可知的交互性度量。根据场的概念及其全局测量[8]，我们引入具体地说，我们把复杂场景中的H-O对编码为一个场.每一对被编码为具有“能量”值的点，指示其与其他对的差异。期望该场服从双峰先验，即，高能量对应该是罕见的。在此基础上，分析了单电子对的修改对场的影响，并对场建模施加了能量约束：对高能电子对的修改应带来更显著的影响。然后，交互性标签与遵循先验的建模场有界为了使用交互性领域，我们提出了一个新的范例。首先，采用DETR [3]结构检测器直接检测以对象为中心的方式组织的初始H-O对，而不是穷举的人/对象检测。随后，基于服从双峰先验的交互性场，我们设计了一个交互性场模块来进一步过滤掉非交互性对。最后，过滤后的对被送入一个动词分类器进行HOI分类。在HICO-DET [4]和V-COCO [12]上，我们实现最先进和显著的改进。我们的贡献包括：1）HOI的交互性双峰先验被确定为改进H-O对滤波和提高HOI检测的关键，基于此引入交互性场模型;2）我们在广泛使用的HOI基准测试上实现了2. 相关作品近年来，HOI学习取得了迅速的进展。许多大型数据集[4，12，20，25]和深度学习基于方法[9已提出例如，Chaoet al. [4]提出了广泛使用的多流框架，而GPNN [33]和Wanget al.[38]采用图表来模拟HOI关系。iCAN [10]和PMFNet [37]采用了自我注意机制，从不同层面将人，对象和上下文关联起来。TIN[26]引入了交互性来过滤掉非交互对。此外，一些作品[19，32，42]关注HOI之间的关系在信息利用方面，DJ-RN [22] 介绍了 3D 信息以进行更好的推理。PaStaNet [25]引入了部分状态作为进一步HOI推理的中间语义层次。DRG [9]从以人为中心和以物体为中心的角度考虑HOI，而VCL [15]则利用了HOI的组成特征。IDN [24]从基于转换的角度分析了HOI是如何集成和最近，已经提出了几种单阶段方法[7，27，35，39]，其中并行HOI检测器直接检测HOI三重态，与传统的两阶段方法[10，26]相反，用于相互作用预测。PPDM [27]、UnionDet [7]和IP-Net [39]采用一级物体检测器[21，44]的变体进行HOI检测。虽然基于最近提出的Transformer detector- tor DETR [3]，但QPIC [35]设法实现了令人印象深刻的性能。通过利用强大的Transformer，DETR [3]在没有许多手工设计的组件的情况下实现了令人印象深刻的性能。一个固定大小的预测集在通过解码器的单次传递中产生。通过最优二分匹配匹配预测和地面实况预测，然后施加特定损失来计算主要损失。QPIC [35]通过回归人类和对象框来添加了动词分类器来检测HOI三元组。3. 方法我们的目标是解决HOI检测中的配对问题，通过利用受交互双峰先验影响的H-O对的潜在分布第3.1节首先介绍了我们的方法的预备知识和相互作用域的形式定义。然后，在3.2节中，我们介绍了如何用对分布特征来建模交互性场。在第3.3节中，我们演示了如何设计实用系统。3.1. 预赛给定图像I，我们将交互性场F定义为F=（A×A，E（·）：A×A →[0，1]），（1）其中表示中的任意区域，E（）是每个区域对的能量函数，表示每个区域对与其他区域对的相对差异鉴于互动性20115+++互动场= 别这样，别这样，��=��。��。|��|L|��L|L我H OF·我普雷普山口Lf∈fPE（·）⟨⟩SLE ∈RP ∈ R·PE ∈R：互动：非互动候选人对图像处理互动领域图2.交互性字段说明。在双峰先验下，能量函数与交互性密切相关：当对大多数是非交互的时，交互对将具有高能量，反之亦然。由于我们专注于HOI检测，其中只有人/对象实例被认为是潜在的交互，在Eq.中的定义1简化为F=（P=H×O，E（·）：P →[0，1]），（2）其中，分别是人和对象实例建议，如图2所示。在这里，我们专注于关于相同给定的对奥博特岛每个对h i，o i由提取的特征i表示，并且通过专门的设计了P神经网络。因此，相互作用场F一般可以表述为：F=（fP，E（·）），fs=g（fP），（3）图3.基于交互性双峰先验的交互性场建模。将分析在移除或修改单个局部对时的变化。第3.2.1-3.2.2节中详述的建模公式在第3.2.3节中，我们描述了如何将交互性标签纳入公式中，以增强所提出的场建模。3.2.1基数约束如图1所示，涉及相同对象的候选对可以被划分为两个集群：罕见的高能量集群和频繁的低能量集群。相应地，我们认为交互场应具有如下性质：候选对集P应由两个具有显著差异的不同集PS和PL组成，其中fs表示从在cardinality中。该性质被公式化为：具有汇总函数g（·）的对，能量函数E（·）取样本特征fi，产生能量P=PLPS，输入样本。直觉上，TIN [26]中引入的二进制成对分类器可以是一个简单的实现，S.T. 公司简介=0，|PS|P L|PL（四）|、E（）的概念，缺乏对全局交互性分布和对差的考虑。然而，在第四节中，哪里|·|表示基数。交互性字段是我们表明，如果没有交互性双峰先验，简单的TIN风格分类器输出一个有偏见的交互性得分，从而对交互性不满意。F=（fP，E（·）），E（fP）=Prob（PS.T. |≪| P L|.|.∈PS），（五）犯罪也就是说，对于涉及相同对象的图像中的几乎所有对，由于数据分布的极端不平衡而不是诉诸简单的建模使用成对的分类器，我们建议模型的互动领域注册-因此，给定所提取的对特征fPN×C，汇总函数g（）首先提取两个聚类S和L，由质心cs、clC和分配向量As、AlN表示，其中Ai、Ai分别表示概率对由交互双峰先验，考虑到潜在的全球分布属性。ingtoAii属于簇S，L，受试者-A i. f s=（c s，c l）则采用为：F3.2. 互动场模型在下文中，我们首先深入研究如何在第3.2.1节中根据交互性双峰先验对交互性场进行建模。值得注意的是，两个主要的限制是，在第3.2.2节中规定，图像处理人类实例：互动：非互动场能量E对象实例我我20116SPPPSL交互性字段的摘要表示。给出了每对i的能量函数E（i）=Ai，根据该对属于S. 图3-阐明了配方：c s，cl，A s，A l= g（fP），s.t. 我的天我我（六）20117：互动：非互动平均值C挂起的交互式字段互动领域更换��（更换FFFFPPP·PRSMSSL我 S我 LSSLPRSSSRSP秩互动领域改变了交互性字段<$−××移除��（更改了交互性字段−移除图4.字段更改以防止对删除。删除稀有配对（通常也是交互式的）会带来更显著的变化。调节磁场以满足交互性双-模态先验，基数损失L卡被配制为C汉GD互动领域的研究图5.场变化对修改。改性对罕见的配对（通常也是互动的）带来更多的变化。L卡= A i− A i。（七）我我损失对应于约束条件AiAi，这鼓励更明显的基数差异。pairs）。上述过程可以概括为fs=（cs，cl）=g（fP），f−i=（c−i，c−i）=g（f−i），（九）值得注意的是，这里我们不需要建模中的二元交互标签[26]。因此，上述建模可以被视为使用我们的双峰先验的无监督在第3.2.3节中，我们介绍了如何进一步增强二进制标签的交互性区分。D i= f s，f −i<$2.由于对的移除将明确地改变场，因此对于频繁的低能量对，不是强制Dr为零，而是强制秩损失Lr为Lr=Dj−Di，3.2.2字段更改约束秩R ri∈PSj ∈PL我我（十）我我PS= {i：As> Al}， PL= {i：Al> As}，上面介绍的基数约束集中在哪里 A，A是由下式产生的赋值向量：交互性字段的静态状态我们现在调查lrs如何通过观察在修改具有不同能级的局部对时应该如何改变来对场进行建模。字段更改反对删除配对我们首先探讨如何全局字段表示的变化时，某一样本被删除。从3.2.1节中的交互性场开始，我们可以看出，去除一个高能量点会比去除一个低能量点影响更多的整体表现（图4）。因此，我们采用差异指示符Dr来编码当移除某个样本时的全局场变化，其公式为：Di=D（F，F−i），g（fP）. L秩只鼓励假设的高能量对，以导致更多的字段变化与他们的删除比低能量对。字段更改对修改。另一个值得探索的约束是，当一个对被修改时，场如何变化，在我们的例子中，被平均对表示所取代。还是指互动性领域在3.2.1节中，给定一个大部分区域具有低能量的场，我们可以知道这个场的平均表示也应该具有低能量。因此，如果我们用平均值替换高能量对，则总体场表示应显著改变。另一方面RF=（fP，E（·）），F−i=（f−i，E（·）），（八）当低能量对被平均值代替时，总体场表示不应改变太多。因此，我们可以得到另一个差异指标Dm，其中D（·，·）表示两个场之间的差，Di=D（F，Fi），f−i=fP/fi表示特征对减去fi。M（十一）P P P·F=（fP，E（·）），Fi=（fi，E（·））.基于此，给定对特征fP，g（）（在3.2.1节中定义）首先提取字段摘要表示fs=（cs，cl）。然后，每一对i被移除，fiPP表示用平均表示f′代替fi。剩余对特征f−i被馈送到g（），其产生修改的域表示fs−i。之间的L2距离为了实现上述内容，在3.2.1节中首先通过g（·）提取字段表示fs。然后我们得到f和f-i则定义为差值指示符Di。较大的Di指示相关对更有可能通过将f i馈送到g（·）来修改域f i。不同的fs和fi之间的差异被定义为差异指数。具有更高的能量水平（或与另一个更不同catorDi=fs−fi。更大的差异表明，20118秩P}P{P P}{R∈ R∈P久regΣF····E ∈R（12）第一章H久OE ∈R久样本更可能是高能量对。秩损失Lm具有与Eq.10计算CNN将其编码为特征图H′×W′×CC，线性投影到CT的较低维度，展平为R（H′W′）×CT，然后将其馈送到3.2.3与交互性标签以前的建模公式仅采用交互双峰先验，以无监督的方式工作为了进一步增强，我们可以通过专门设计的损失将字段与交互语义绑定到从HOI标签转移的连续交互性标签，遵循TIN [26]。这鼓励模型化的字段在适用时遵循先验的同时模拟接近地面真实分布。在QPIC [35]中基于集合的训练过程之后，将交互性标签分配给候选对。给定指定的标签，我们得到S，L和交互式配对和非交互式配对。在下文中，为了便于描述，我们假设S类似的描述适用于L是交互式的。对As，Al施加一个简单的交叉熵损失Lce。然后，第3.2.1节中的基数损失用一个附加项来丰富：具有正弦位置嵌入的E（H′W′）×CT 为了输出最终的视觉特征f（H′W′）×CT. CNN编码器将局部信息聚集成补丁令牌，而Transformer编码器利用多头自注意力的能力，生成具有丰富全局上下文信息的特征图。3.3.2配对解码器采用Transformer译码器作为对译码器。在视觉特征f为K，V的情况下，利用学习的查询嵌入Q ∈RM ×CT来解码候选对P以及特征fP。在 fP上加一个全连通层来分类相应的物体类o，两个两层MLP回归人和物体盒坐标bh，bo。在之前的基于集合的训练过程[3，35]之后，使用匈牙利二分匹配算法，将地面真值标签分配给对预测。计算多个损失项目，包括一般-卡阿吉吉=我我我已化IoU（交并）损失L h，Lo，框回归L1损失Lreg、Lreg和对象类交叉能量其中nT是此对象的交互对的数量，损失Lo. 配对解码器首先与vi一起训练，目标丢失这个形象。这个附加项将S的基数调节为与交互对的数量相同此外，受[34]启发的聚类损失Lclus被公式化为L对=λ1（LhO久）+λ2（LhOreg）+λ3Lo，（14）pij=AiAj+AiAj，其中λ1、λ2、λ3是加权系数。s s llLclus=（（αij−1）log（1−pij）−αijlogpij），（13）i、j其中，如果对i、j都是交互式的或非交互式的，则αij = 1，否则α ij= 0。这种损失鼓励具有相同交互性标签的配对聚集在一起。有了这些损失，我们迫使场同时遵循交互性双峰先验，同时接近地面真实交互性分布。进一步讨论我们的交互性双峰的推广事先将列入补充材料。3.3. 实用系统设计接下来，我们将介绍如何将交互场结合到实际的HOI检测系统中。该系统由四个部分组成：视觉特征提取器、配对解码器、3.2节定义的交互域模块和动词分类器。图6显示了整个管道。3.3.1可视特征提取器我们的特征提取器是CNN和变换器编码器的组合。具体地，给定图像I ∈ RH×W ×3，3.3.3交互字段模块为了实现交互性字段模块，提出了E（）和g（）的多个首先使用玩具设计，其中E（）和g（）被实现为分层聚类，随后是以分层质心作为初始质心的软双均值聚类对于这两个聚类过程，采用欧几里得距离所谓对于更高级的版本，双均值聚类被修改后的多头注意力层取代。具体地说，它以fP为K，V，两个层次聚类中心为Q来提取C。为了获得分配矩阵，将原来用于从logits中产生注意力的softmax函数替换为平均后的sigmoid函数，其中平均前的注意力值被用作分配矩阵A。以这种方式，多头注意力模块适于通过将注意力机制视为软分配过程来进行聚类，从而获得更强大的平均场表示。的+L+LL20119P秩H交互式现场建模（第二节）3.2.1）字段更改与删除��−3.2.2）��−��（��−��H1��−��O1��= ��−��−��2H2超声波清洗机��（字段更改反对修改（第二节）3.2.2）��Ƹ��。��。 Σ�� ≪Σ��H3��መ��（��ҧ��Ƹ��= �� −2实用系统（Sec.3.3）托杯H1O1H2配对探测器H3动词分类器……O2…………交互字段模块：互动：非互动平均池化去除对图6.我们的流水线HOI检测与交互性场建模，它由四个组件组成。视觉特征提取器生成视觉特征图f，基于该视觉特征图f，对解码器将候选对与特征fP一起解码。我们提出的交互性字段模块对交互性字段进行建模，并为每对分配交互性得分Sb。动词解码器将用于生成最终分数的动词分数Sv推断为S=Sv·Sb。目标损失公式为L场=λ4L卡+λ5L卡+λ6L卡+λr（LrM秩），（十五）我们的实验结果表明，即使采用这种折衷策略，改进仍然是实质性的。尽管如此，一个可能的问题是，其中λ4、λ5、λ6、λr是加权系数，不同的损失项已在3.2节中定义。3.3.4动词解码器另一个Transformer解码器将f（整个图像特征）取为K、V、fP取为Q，后面跟着全连接动词分类器，其用于产生动词得分Sv。动词量词附加动词标签--跨能损失L动词。3.3.5HOI数据集培训分为三个阶段。首先，我们使用L对训练配对解码器和视觉特征提取器。然后引入交互场模块，利用损耗L=Lpair+Lfield对三个分量进行微调。最后，引入了动词分类器，并采用L=L对+L场+L动词的方法对整个系统进行了训练。在某些情况下，互动对占主导地位，例如，在一家餐馆里，除了服务员，几个人坐在餐桌我们在训练中考虑这种特殊情况。由于这些情况在HICO-DET [4]中只占不到10%，因此我们假设交互对在推理中总是少数因此，可以直接采用能量和差异指标来计算交互性二进制得分Sb。将这些差分指标聚集并归一化到[0，1] ，然后与 As 组合，得到 Sb= （ As+ （ σ （ Dr ） +σ（Dm）−1））/2∈[0，1]，其中σ（·）是sigmoid函数。最终的预测被构造为（bh，bo，o，S）∈Pr，其中S=SvSb.虽然交互性双峰先验在统计上是合理的，但仍然存在例外，例如，一个图像只包含一个人。对于这里的实际系统，我们以两种方式覆盖稀疏场景的情况。首先，由模型产生的人类pro-prosecution是丰富的大部分时间，使先验仍然适用。第二，具有相同对象类别的对被聚合并由相同字段建模，因为它们共享相似的交互模式。4. 实验4.1. 数据集和度量我们采用两种大规模HOI检测基准：HICO-DET [4]和V-COCO [12]进行评估。DET由38，118张训练图像和9，658张测试图像组成图像，600个HOI类别（包括80个COCO [28]对象和117个动词），以及超过150 K的注释HOI对。我们使用mAP进行评估：真阳性需要包含准确的人和物体位置（参考GT框的框IoU大于0.5）和准确的交互分类。在[4]之后，报告了默认和已知对象模式下三个集合的mAP：全（600个HOI）、罕见（138个HOI）、非罕见（462个HOI）。V-COCO [12]包含10，346个图像（训练集中有2，533个，验证集中有2，867个，测试集中有4，946个），并涵盖29个动词类别（25个HOI和4个身体运动）和来自COCO [28]的80个对象。我们使用场景1和场景2下的角色均值平均精度作为评估指标，其中仅考虑25个HOI。+L20120↑↑方法mAP默认mAP已知对象全稀有非稀有全稀有非稀有使用默认完整mAP33.51执行所有这些操作。即使与ATL [16]等采用AD的方法[10] 14.84 10.4516.1516.26 11.33 17.73[26] 20.03 20.4218.1119.17 15.51 20.26PMFNet [37]17.46 15.6518.0020.34 17.47二十一点二十[22]21.34 18.5322.1823.69 20.64 24.60PPDM [27]21.73 13.7824.1024.58 16.6526.84VCL [15]23.63 17.2125.5525.98 19.1228.03DRG [9]24.53 19.4726.0427.98 23.1129.43印尼[24]26.29 22.6127.3924.4729.37Zou等人[45个]26.61 19.1528.8429.13 20.9831.57ATL [16]28.53 21.6430.5931.18 24.1533.29AS-Net [6]28.87 24.2530.2531.74 27.0733.14QPIC [35]29.07 21.8531.2331.68 24.1433.93FCL [17]29.12 23.6730.7531.31 25.6233.02GGNet [43]29.17 22.1330.8433.50 26.6734.89SCG [41]31.33 24.7233.3134.37 27.1836.52CDN [40]31.78 27.5533.0534.53 29.7335.96我们33.51 30.3034.4636.28 33.1637.21表1.关于HICO-DET的结果[4]。第一部分采用COCO预训练检测器。第二部分采用HICO-DET微调或单级检波器。所有结果都是ResNet-50。方法AP角色（场景1）AP角色（场景2）iCAN [10]45.352.4[26]第二十六话47.854.2VSGNet [36]51.857.0印尼[24]53.360.3HOTR [18]55.264.4QPIC [35]58.861.0加拿大元[40]我们的63.0 65.2表2.ResNet-50在V-COCO上的结果[12]。4.2. 实现细节我们采用ResNet-50，其次是六层Transformer编码器作为我们的视觉特征提取器。配对解码器和动词解码器都被实现为六层Transformer解码器。在训练期间，使用具有1 e-4的权重衰减的AdamW [29]。视觉特征提取器和配对解码器从COCO [3]预训练的DETR [3]初始化在CDN [40]之后，查询大小被设置为64（对于CDN[4]）和100（对于V-COCO [12]）。失重系数λ1、λ2、λ3分别设为1、2.5、1，与QPIC [35]完全相同。视觉特征提取器和配对解码器被微调90个时期，学习率为1 e-4，在第60个时期下降了10倍。然后，引入交互性场模块，并以1 e-4的学习率微调另外9个时期。最后，添加动词解码器，并对整个模型进行30个epoch的训练。所有实验均在批处理大小为16的四个NVIDIA GeForceRTX 3090 GPU在推理中，进行阈值为0.6的成对NMS也就是说，人类和对象IoU > 0的低得分预测。6与同一类别相比，高分对被抑制。4.3. 结果HOI检测基准的结果我们首先报告HICO-DET [4]上的结果。表1比较了我们的方法与以前的最先进的方法。我们出去-在保留了目标属性信息的基础上，我们取得了4.98mAP的显著优势.当与其他基于变压器的方法（如HOTR [18] ， [45] ， AS-Net [6] ， QPIC [35] 和 CDN[40] ）相比时，我们的方法分别实现了 30.2% ，16.1%，15.3%和5.4%的相对改进。为了充分验证我们的方法的有效性，我们还采用了最新的CDN [40]，并显着优于它。请注意，即使与具有更多参数的CDN-L [40]（默认完整mAP 32.07）相比，我们的模型仍然保持显著优势。表2比较了我们在V-COCO [12]上的结果与先前最先进的结果，这表明我们的方法在场景1和场景2下实现了比先前方法63.0和65.2mAP的令人印象深刻的优势为了更好地证明我们对H-O对过滤的贡献，我们在HICO-DET [4]上评估了我们的交互性检测[26首先，根据[26]中提出的交互性AP，我们评估了我们的交互性检测，并与开源的最新技术[26，27，35，40]进行了比较。详细地说，我们采用Sb作为我们模型的交互性得分。对于TIN [26]，采用固有的交互性得分。对于PPDM [27]，QPIC [35]和CDN [40]，520HOI分数用作近似值。表3列出了结果，其显示TIN的相互作用AP显著较低，这与我们的分析相呼应，即即使在非相互作用抑制的情况下，它也会遭受大量耗尽生成的负H-O对[26]。就直接检测H-O对的一级PPDM[27]而言，由于避免了穷举配对，性能更好。令人惊讶的是，QPIC [35]和CDN [40]之间的交互性性能差距可以忽略不计，而我们的方法证明比先前的方法好得多，交互性AP为37.39。为了验证我们的方法在配对过滤方面更优越，我们选择了以前的开源最先进技术，并在表4中以Top-k方式比较了默认完整mAP [27]。也就是说，我们只为每个图像选择具有top-k置信度的预测即使每个图像只有5个预测，其优势仍然比其他方法令人印象深刻。此外，我们探讨了我们的配对过滤如何提高两阶段方法的性能。在CDN [40]之后，我们将代表性的两阶段方法iCAN [10]（使用无配对过滤的穷举配对）与我们检测到的配对进行馈送，并比较通过馈送穷举配对作为输入产生的结果此外，使用CDN [40]和QPIC [35]对作为输入的结果也是一致的。这里，报告了三个集合（完全、稀有、非稀有）的默认模式下的mAP。表5显示，iCAN的性能随着高质量的对而显著提高，特别是来自我们方法的对。20121·····≪ ≈≫[26]第二十六话PPDM [27] QPIC [35] CDN [40]我们AP14.3527.3432.9633.5537.39表3. HICO-DET上的交互性检测[4]。方法Top-5前10所有PPDM [27]18.9220.3521.10QPIC [35]29.0729.2929.07CDN [40]30.1930.4031.78我们32.6533.0733.51表4.HICO-DET上的Top-K结果[4]。方法充分罕见非罕见iCAN [10]14.1612.2614.73美国[10]21.7813.1824.35美国[10]24.0518.3225.76美国[10]26.0721.0327.58表5. iCAN [10]在HICO-DET [4]上的性能，具有不同的对检测。上标表示配对检测的来源，无上标表示穷举配对[10]。aB图7.场变化可视化。 fs（橙色）是场的总和特征，而非交互对（紫色）的f s −i在左边占多数;交互对（红色）的f s −i在右边占多数。如图所示，少数对的fs−i远离fs。充分罕见非罕见我们33.5130.3034.46不带IFM30.5426.0431.88不含Sb33.3029.7634.35g（·）通过FCg（·）通过聚类仅基数30.7030.9732.3825.6826.8627.9932.2032.2033.69仅字段更改32.7628.8233.94Unsup-IFM31.6227.3832.88表6. HICO-DET的消融研究[4]。4.4. 可视化图7显示了约束条件下的场变化（第3.2.2节）。不同对的字段摘要特征fs和变化的摘要特征fs−i用t-SNE可视化[31]，其中对应于少数对的fs−i很好地遵循约束，验证了我们的设计。4.5. 消融研究我们在默认模式下对HICO-DET [4]进行消融研究，结果见表6。首先，我们展示了如何影响模型，如果交互性场模块（IFM）被删除。2.97的mAP大幅下降验证了IFM的关键作用。然后，我们揭示了互动得分SB对性能的影响我们发现，去除Sb只会导致轻微的下降。这表明IFM不仅仅在结果融合中起作用：它还有助于特征学习。表7.预测和GT之间#交互对的错误其次，比较了IFM的不同实现如TIN [26]中所做的那样，用全连接层替换IFM，我们获得30.70 mAP（表6中通过全连接的g（）），这略好于去除IFM，但仍然不显著。通过如3.3节中提出的通过聚类实现g（），与不带IFM的模型相比，我们实现了边际改进，远远低于g（）的高级版本，显示了我们设计的有效性。另一方面，这个实验显示了双峰先验的重要性，即使是在简单的g（）实现中。此外，我们评估了不同约束的影响。只有基数约束（第3.2.1节），我们遭受1.13mAP下降（基数仅在表6中）。而如果仅保留字段变化约束（第3.2.2节）（仅表6中的字段变化），则mAP下降为0.75。第三，我们展示了IFM在无监督模式下运行的性能，称为Unsup-IFM。也就是说，我们将3.2.3节中提出的损失项归零。然后，IFM仅受双峰先验约束。即使没有使用交互性标签的监督，我们也可以仅使用双峰先验来实现良好的改进。此外，我们验证IFM的预测和GT交互对每个图像的不同实现g（）的数量之间的误差。预测的交互对数量是通过对每个对的预测交互概率求和来计算的。表7中的结果显示高级实现确实利用了先验知识。与无IFM的令人印象深刻的差距证明了原始数据驱动的方法无法很好地模拟双峰分布。最后，我们展示了在不同的互动比率下的性能。IFM组的相对改善率分别为9.23%（30.68 ~ 33.52）、0.11%（52.98 ~ 53.04）、3.04%（51.42 ~ 52.98），交互比一，一，一。这表明我们对有效案例的改进令人印象深刻，对无效案例的损害令人印象深刻。有关更多限制和社会影响的讨论，请参阅补充文件。5. 结论本文重点研究了HOI学习中以前被忽视的为了利用这一先验知识，提出并建模了交互性场。探索所提出的场的多个属性以匹配所学习的场和真实的HOI场景。我们的方法有效地区分交互式人-物对，并取得了显着的改善，验证了广泛使用的基准。虽然相互作用场促进了H-O配对，提高了HOI检测，但我们认为H-O配对的空间仍然很大，需要更多的探索。数据集#内部#no-intern≪ 1#内部#no-intern≈ 1#内部#no-intern≫ 1不带IFM0.380.552.34g（·）通过FCg（·）viaclustering我们的0.320.280.190.570.510.422.122.091.8820122引用[1] A. Adam，E.里夫林岛Shimshoni和D. Reinitz 使用多个固定位置监视器进行实时异常事件检测。 IEEETransactionsonPatternAnalysisandMachineIntelligence，30（3）：555-560，2008. 1[2] FelixAuerbach.Dasgesetzderbevoülkerungskonzentration.Petermanns Geographische Mitteilungen，59：742[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在Andrea Vedaldi ， Horst Bischof ， Thomas Brox 和 Jan-Michael Frahm，编辑，ECCV，2020年。二、五、七[4] Yu-Wei Chao，Yunfan Liu，Xieyang Liu，Huayi Zeng，and Jia Deng.学习检测人机交互。在WACV，2018。一二六七八[5] 余伟超、詹王、何宇耕、王嘉轩、登嘉。Hico：识别图像中人与物体交互的基准。在ICCV，2015年。1[6] Mingfei Chen，Yue Liao，Si Liu，Zhiyuan Chen，FeiWang和Chen Qian。将hoi检测重构为自适应集合预测。在CVPR，2021年。7[7] Hao-Shu Fang，Yuanlu Xu，Wenguan Wang，XiaobaoLiu，and Song-Chun Zhu.学习姿势语法编码人体结构以进行3d姿势估计。在AAAI，2018。2[8] Richard P Feynman ， Robert B Leighton，and MatthewSands. 费曼物理学讲义第一卷。 American Journal ofPhysics，33（9）：750-752，1965. 2[9] Chen Gao ， Jiarui Xu ， Yuliang Zou ， and Jia-BinHuang.Drg：用于人机交互检测的对偶关系图。在ECCV，2020年。二、七[10] 高晨，邹玉良，黄家斌。ican：用于人-对象交互检测的以实例为中心的注意网络在BMVC，2018年。一、二、七、八[11] GeorgiaGkioxari ， RossGirshick ， PiotrDolla'r ，andKaimingHe.检测和识别人机交互。在CVPR，2018年。2[12] 索拉布·古普塔和吉坦德拉·马利克。视觉语义角色标注。arXiv预印本arXiv：1505.04474，2015。二六七[13] Tanmay Gupta，Alexander Schwing，and Derek Hoiem.简单的人机交互检测：因子分解，应用和布局编码，以及训练技术。在ICCV，2019年。一、二[14] 布拉德利·海耶斯和朱莉·A·沙阿。可解释的模型，用于在协作机器人任务期间快速识别活动和解释异常2017年IEEE机器人与自动化国际会议（ICRA），第6586-6593页。IEEE，2017年。1[15] 智厚、彭小江、虞乔、大成涛。用于人-物体交互检测的视觉合成学习ECCV，2020年。二、七[16] 智厚，于宝生，乔玉，彭小江，陶大成。用于人机交互检测的示能迁移学习在CVPR，2021年。二、七[17] 智厚，于宝生，乔玉，彭小江，陶大成。通过fab-ricated组合学习检测人与物体的交互。在CVPR，2021年。7[18] Bumsoo Kim ， Junhyun Lee ， Jaewoo Kang ， Eun-SolKim和Hyunwoo J. Kim。Hotr：使用变压器的端到端人

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

人-物交互性场的双峰先验与基数差异下的互动与非互动对

设计人-机交互子系统的策略

ansible read -p交互式

人力资源数字化与人力资源信息化在交互方面有什么差异

续写：过去的研究多采用单一的研究视角，将水循环、碳循环、能量循环分别研究，在将大气-陆地交互机制应用时缺乏系统性和整体性的考虑

研究大气-陆地交互机制有什么用

matlab在vrml_3d场景中插入gui-hci人机交互

在网络应用中，经典的浏览器-服务器交互的过程是怎么样的？

spark-shell交互式编程

什么是人体互动检测算法

计算机领域分为计算机科学、软件工程、硬件工程、网络工程、人工智能、计算机图形学、人机交互，那他们又分为什么呢？一一列举出来

谈谈对机器人感知与人机交互的理解

描述一个vr深交互的内容场景

四层交互与7层交换的安全差异

unity 沉浸式场景交互

计算机领域包括计算机科学基础、软件工程、硬件工程、网络工程、人工智能、计算机图形学、人机交互那他们又分为什么呢？请一一列举出来

你认为回合制游戏如何增加其交互性

unity博物馆交互

获得反弹shell是个非交互的shell，怎么提高他的交互性？

mediapipe人机交互

最新资源