没有合适的资源?快使用搜索试试~ 我知道了~
4263级联式人-物交互识别Tianfei Zhou1人,Wengguan Wang2人,Siyuan Qi3人,Haibin Ling4人,Jianbing Shen1人1阿联酋Inception Institute of Artificial Intelligence,UAE2瑞士苏黎世联邦理工学院3谷歌,美国4美国石溪大学{ztfei.debug,wenguanwang.ai}@gmail.comhttps://github.com/tfzhou/C-HOI摘要人-物交互(HOI)识别的研究进展迅速考虑到任务的内在复杂性,我们引入了一个级联架构的多阶段,粗到细的HOI理解。在每个阶段,实例本地化网络逐步细化HOI建议并将其馈送到交互识别网络中。这两个网络中的每一个还连接到其在前一级的前一个,从而实现跨级信息传播。交互识别网络有两个关键部分:用于高质量HOI建议选择的关系排序模块和用于关系预测的三流分类器。通过我们精心设计的以人为本的关系功能,这两个模块协同工作,实现有效的交互理解。进一步超越关系检测上的边界框水平,我们使我们的框架工作灵活地执行细粒度像素明智的关系分割;这提供了对更好的关系建模的新的一瞥。我们的方法在ICCV2019 Person in Context Challenge中获得了第一在V-COCO上也显示出有希望的结果。1. 介绍人-物交互(HOI)识别的目的是从图像中识别有意义的人、动词、物体三元组,例如图1中的人、吃、胡萝卜三元组。它在许多视觉任务中起着至关重要的作用,视觉问答[34,28,54],以人为中心的理解[46,47,56],图像生成[23]和活动识别[40,48,8,35,33],仅举几个代表性的例子。虽然最近取得了很大的进展,但任务还远没有解决。主要挑战之一来自其内在的复杂性:一个成功的*前两位作者对本书的贡献相当†通讯作者:沈建兵。R1R2R3L1L2L3图1:我们的级联HOI识别网络的图示,该网络能够处理对象级关系检测和像素级关系分割任务。给定一个输入图像,我们的模型在实例本地化(L1<$L3)和交互识别(R1<$R3)上执行从粗到细的推理。HOI识别模型必须准确地1)定位和识别每个交互实体(人,物体),2)预测交互类(动词)。这两个子任务是困难的,导致HOI识别本身是一个高度复杂的问题。随着对其他计算机视觉和机器学习相关领域的更广泛了解,粗到细和级联推理已被证明可以很好地处理复杂问题[25,10,11,45]。其核心思想是利用越来越精细的近似序列来控制学习和推理的复杂性。这促使我们提出了一个级联HOI识别模型,它建立了多个阶段的神经网络推理的退火风格。对于实例定位和交互识别这两个子任务,该模型在每个阶段内依次排列,并对每个子任务上述设计产生了多任务、从粗到细的推理框架,这使得渐进改进的HOI表示学习成为可能。这也明显区别于我们的方法从以前的努力,依赖于单级架构。如图1,我们的模型由一个实例本地化网络和一个交互识别网络组成,两者以级联方式工作。通过实例定位网络,该模型逐步增加了实例建议的选择性。有了这样的逐步完善的HOI候选,以及来自前一阶段的有用的关系表示,更好的加速,4264可以通过现阶段的交互识别网络实现对事件的预测此外,在交互识别网络中,人类语义和面部模式都被挖掘以促进关系推理,因为这些线索与人类行为的潜在目的有关。利用这种以人为中心的特征,提出了一个关系排序模块(RRM),对所有可能的人-物对进行排序.只有排名靠前的高质量候选者才被送入关系分类模块(RCM)进行最终的动词预测。更重要的是,以前的HOI文献主要解决关系检测,即,在边界框级别识别HOI除了解决这个经典的设置,我们采取了更细粒度的HOI理解,即,在像素级识别相互作用的实体之间的关系(见图1)。1)。研究这种关系分割设置不仅进一步证明了我们的级联框架的有效性和灵活性,而且使我们能够探索更强大的关系表示。这是因为基于边界框的表示仅对具有噪声背景的粗略对象信息进行编码,而基于像素掩码的特征可以捕获更详细和精确的线索。我们实证研究的有效性,包围盒和像素明智的面具为基础的关系表示,以及他们的混合。我们的研究结果表明,像素掩模表示确实是更强大的。我 们 的 模 型 在 ICCV-2019 Person in ContextChallenge1(PIC19 Challenge)中获得了第一名,包括野外人-物交互(HOIW)和人-物交互。文本(PIC)跟踪,其中HOIW解决关系检测,而PIC专注于关系分割。此外,它还获得了有希望的结果V-COCO [19]。本文的主要贡献有三。首先,我们将HOI识别制定为具有新颖级联架构的粗到细推理其次,我们介绍了几种技术来学习丰富的功能,表示HOI的语义。第三,我们首次研究了HOI的特征表示,发现像素掩码比传统的边界盒表示更有效。我们希望这样的研究可以激发更多的未来努力,对像素级HOI的理解。2. 相关工作人机交互识别在计算机视觉中有着丰富的研究历史。早期的方法[51,50,5]主要利用结构化模型中的人-对象上下文信息,例如贝叶斯推理[17,18]和组合框架[7]。随着最近神经网络在计算机视觉中的复兴,基于深度学习的解决方案现在在该领域占据主导地位。例如,在[15]中,探索了一种多分支体系结构来解决人、对象和关系表征学习。一些研究人员重新审视了1http://picdataset.com/challenge/leaderboard/pic2019RR1R2R3LL1L2L3图2:(a)以前的HOI识别模型在很大程度上依赖于单级架构,并且只关注关系检测。(b)我们提出的HOI识别模型在一个统一的级联架构中进行实例请注意,为了清楚起见,省略了实例本地化部分的损失。经典的图模型,并在神经消息传递框架中解决了这个任务[37]。为了学习更有效的人类特征表示,姿势线索已被广泛采用在最近的领先方法[29,20,42,9,55]。其他一些努力利用外部知识解决了长尾分布和零发射问题[16,24,57,41]。所有这些模型都使用单级流水线进行推理(图1)。2(a)),并且它们可以潜在地受益于我们在这里提出的一般架构:一个多级流水线,执行粗到细的推理,如图所示。第2段(b)分段。受益于大规模数据集的可用性(例如,MS-COCO[31])和深度神经网络的强大表示能力。主流方法通常分为两阶段[39,21]或单阶段[38,32,27,36,43]范式。最近,已经探索了一些多级流水线用于从粗到精的对象检测[2,4]。类似地,我们重新审视了HOI识别中级联推理的一般思想,其中实例定位和关系识别耦合进行逐步HOI推理。3. 我们的算法3.1. 级联网络架构为了识别图像中的人物、动词、对象三元组,我们的方法在多个阶段对实例本地化和关系识别进行逐步细化(见图1)。第2段(b)分段)。在每个阶段t,多任务由两个网络实现:实例定位网络Lt生成人和对象提议,并且实例识别网络Rt识别动作(即,动词)为每个人的对象对采样的建议,如图所示第3(a)段。我们的级联网络组织如下:实例定位(§3.2):Ot=Lt(Ot−1),人-物对采样:(h,o)<$Ot× Ot,交互识别(§3.3):s t= Rt(X t,X t−1)。4265LOC(a)(b)第(1)款图3:(a)我们的级联网络的管道,用于从输入图像中识别一个三元组:人类,动词,对象。(b)我们的三流关系分类模块(RCM)的插图,实现了基于我们以人为中心的关系表示的HOI识别在阶段t,Lt将来自Lt-1的检测结果Ot-1作为输入,并输出细化结果Ot。然后,从Ot×Ot采样人-对象对(h,o)。最后,Rt使用(h,o)在当前和关键阶段的关系特征Xt和Xt−1来估计动词得分向量st。关于关系特征的更多细节在§3.3.1中给出。特别是RRM和RCM依赖于我们精心设计的以人为中心的关系表征(第3.3.1节)。3.3.1以人为中心的关系表示在每个阶段t,对于每个人-物对(ht,ot)∈ Ot×Ot,语义特征Xt,ge-S实例定位Lt与交互识别Rtnet-t tt作品密切合作,在每一个阶段,和Rt可以受益于改进的本地化结果Ot的Lt,并给出更好的相互作用的预测。接下来,我们将在§3.2中详细描述我们的实例定位网络,在§3.3中详细描述交互识别网络。3.2. 实例本地化网络实例定位网络L输出一组人和对象区域,从中采样人-对象对,并将其馈送到交互识别网络R中用于关系分类。它建立在一系列探测器上,在阶段t,Lt通过以下方式细化从前一阶段检测到的对象区域ot-1∈Ot-1度量特征Xg和视觉特征Xv被认为是一个彻底的关系表示,如图所示3(b)款。在以下段落中,除非必要,否则为简明起见省略上标语义特征Xs。它捕捉了我们对物体启示的先验知识[13](例如,电话提供呼叫)。我们将Xs∈RN构建为对象和动作类别之间标签共现的频率[52],其中N表示HOI数据集中预定义动作的数量。几何特征Xg.它表征了人与物之间的空间关系。类似于[3,12],我们首先采用双通道掩码表示策略,获得两个实体的(2,64,64)-d特征张量。然后是两个conv+pooling操作,然后是一个全连接的Yt=P(I,ot−1),(1)(FC)层应用于张量以获得Xg∈R256。〇t=Dt(Yt),(2)其中I是骨干网络的CNN特征,由不同阶段共享。Yt∈RC×H×W表示由I和输入RoI导出的盒特征。P和Dt分别表示RoIAlign [21]和箱回归头类似于先前的级联对象检测器[2,4],在每个阶段,Lt都是用特定的联合交互(IoU)阈值训练的,并且其输出被重新采样以训练具有更高IoU阈值的下一个检测器Lt+1。 通过这种方式,我们逐渐提高了级联中更深阶段的训练数据的质量,从而提高了对困难负面示例的选择性。 在每个阶段,实例本地化损失Lt与Faster R-CNN相同[39]。3.3. 交互识别网络As shown in Fig. 3 (a), the interaction recognition net-work R comprises a relation ranking module (RRM, §3.3.2)and a relation classification module (RCM, §3.3.3). 两视觉特征Xv.与Xs和Xg相比,视觉特征具有更重要的意义,对人类识别微妙的相互作用有着深远的影响。对于每个人-物对(h,o),我们有三个特征H∈RC×H×W,O∈RC×H×W和U∈RC×H×W,分别来自人、物及其联合区域:H= P(I,h),O= P(I,o),U=P(I,(h,o)).(三)这里,H、O和U是等式1中的RoIAlign特征Y的具体实例。(1,2),它们被重新命名,以明确它们来自不同的地区。为了更好地捕捉HOI中的底层语义,我们引入了两种功能增强机制:隐式的人的语义挖掘,以提高人的特征H和显式的面部区域参加,以提高对象的特征O。然后我们有视觉特征:Xv=[H<$,O<$,U]∈R3C×H×W,(4)StSXt∈RNSXt∈R256GS不GLXtSXtGXt不vH不NXt∈ R3C×H×Ws∈[0,1]v§3.3.2O不StvX<$t∈ R1024v§3.3.3ROI我Ut∈RC×H×WXt−1vR4266JJCh其中H<$和O<$分别表示增强的人和对象特征,[·]是连接操作。接下来,我们详细介绍我们的两个功能增强机制。1) 隐式人类语义挖掘。要推理人与物的互动,就必须理解人类如何与世界互动,一个动作涉及到哪些人体部位与目前采用昂贵的人体姿势注释的引导方法不同[42,9,29],我们提出隐式学习人体部位及其相互作用。对于人体区域(特征)H内的每个像素(位置)i,我们将其语义上下文定义为属于i的相同语义人体部位类别的像素。我们使用这样的语义上下文来增强我们的人类表示,因为它捕捉了部分内部和部分之间的关系。这种增强将需要人类部分标签图。在这里,我们计算一个语义相似度图作为替代,以加快计算。具体地,对于每个像素i,我们计算语义相似度图Ai∈[0,1]H×W,其中每个元素ai∈Ai存储像素i和j的潜在部分类别之间的ai=1exp(hh),(5) jzii从检测到的面部区域作为面部表示。学习注意力分数α∈[0,1],用于解释面部区域对于对象o的重要性:α=σ ( FC×2 ( [F , O] ) ) ,( 8)其中σ是sigmoid函数,FC×2代表两个堆叠的FC层。• 不可知论注意人脸感知增强解决了人脸和对象之间的相关性。为了挖掘物体与人体其他区域之间的潜在关系,我们提出了一种与人脸无关的注意。我们首先通过将面部区域中的像素值设置为零来从人类h中移除面部区域。然后从去除人脸的人体区域中提取相应的RoIAlign特征F<$∈ RC×H×W最后,我们呼吁-计算F<$和O之间的重要性得分α<$∈[0,1]:α<$=σ ( FC×2 ( [F<$ , O] ) ) 。( 九)考虑方程。(8,9),通过以下方式增强对象特征OO<$=O+αF+α<$F<$∈RC×H×W。(十)在我们的级联框架中,对于在阶段t的人-物体对 ( h , o ) ∈Ot×Ot , 我 们 通 过 考 虑 一 个Xt−1∈R3C×H×W来更新其视觉特征Xt∈R3C×H×W其中hi∈RC和hj∈RC是像素的特征向量V V在先前阶段:H中的i和j,请尊重i vel y。zi是归一化项:zi=X<$t=FC×2(Xt+Xt−1)∈R102 4.(十一)exp(hh). 这里Ai可以被认为是软标签v v vJIJ我们不更新语义X和几何X功能.i的语义人类部分的映射。然后,对于像素i,我们根据Ai从其语义上下文收集信息:S G3.3.2关系排序模块公司简介 我=a∈RC.(六)一旦获得了人体对象的特征{Xs,Xg,X<$ v},ij=1jj在为H内的所有部分(像素)组装所有语义上下文信息之后,我们得到语义上下文增强特征C∈RC×H×W,其用于计算改进的人类表示H′:H<$=H+C∈RC×H×W。(七)2) 明确的面部区域出席。 人脸对于HOI理解至关重要,因为它传达了与人类潜在注意力和意图密切相关的丰富信息。有许多直接涉及人脸的交互。例如,人类用眼睛看电视,用嘴吃食物,等等。此外,面部相关的交互通常是细粒度的,并且与交互对象上的重遮挡相结合,打电话、玩手机,给HOI模式带来很大困难为了解决上述问题,我们提出了另一种特征增强机制,称为显式面部区域参与。该机制经由两个注意机制来丰富对象表示O• 注意力集中。 对于人-物体对(h,o),我们使用现成的面部检测器检测面部区域[6]。然后我们得到一个RoIAlign特征F∈RC×H×W对,我们可以直接预测它的动作标签。然而,这里的一个考虑到从定位网络检测到的建议,先前的HOI方法通常将所有人和对象配对,从而导致大的计算开销。事实上,人类与世界的互动遵循着某种规律,而不是以一种纯粹的混沌方式[1]。通过利用这种规律性,我们提出了一个人-物关系排名模块(RRM),以选择高质量的HOI候选人的关系识别。这也有助于降低关系分类的难度,消除严重的类不平衡,因为“非交互”类的样本RRM建立在这样的认识之上,即尽管在HOI数据集中遗漏了一些人-对象关系,但是注释的人-对象对倾向于更相关(即,更高的排名分数)比那些没有 任 何 HOI 关 系 标 记 。 给 定 实 例 本 地 化 网 络 L(§3.2)的检测结果O,我们将所有可能的人-对象对的集合表示为:P={P=(h,o)∈ O×O}. P可以进一步分为两个子集:P=PP,其中P和P分别表示注释和未注释的人-对象对的集合RRM的目标是4267SEGRRMβLLOCRRMRCMSEG学习满足以下约束的排序函数g:R1024+ 256→RPP:g(P)>g(P),其中P∈P,P∈P.(十二)这里PP的意思是P的排名比P高。g(P)给出P的排名得分:g(P)=σ(FC ×1(X<$v,Xg))∈[0,1].(十三)在RRM中,通过最小化以下成对排序铰链损失来实现g其中o<$t∈O<$t表示生成的对象实例掩码。然后,在我们的关系识别网络(§3.3)中,从对象掩码中采样人-对象对(h,oO¯t与更精细的特征相关:H,O和U通过pixel-明智的王。此外,几何特征Xg的生成基于像素级掩模。二进制交叉熵损失Lt用于训练S。3.5.实现细节训练损失。 由于上述所有模块都是ΣLRRM=100Σˆ ˇmax(0,g(P可微,我们的级联架构可以在一个P∈PP ∈P其中,裕度λ根据经验被设定为0.2。这种损失使分配未注释的对P以端到端的方式。 在关系检测设置中,全部损失计算如下:具有更高的排名分数,与标记对P1相比。ΣTL=t=1t tLOC +γt(Lt不RCM )的情况。(十八)3.3.3关系分类模块这里,L是阶段t的局部化损失(§3.3)。 Lt通过RRM,只有少数排名靠前的高质量人-物对被保留并馈送到三流[53],关系分类模块(RCM)用于最终HOI识别。 对于HOI候选(h,o),语义Xs,geo,度量Xg和视觉X<$ v特征,分别输入到- 用于独立地估计HOI动作得分向量的RCM中的对应流:语义流:s s =σ(FC×1(X s))∈[0,1]N,和Lt分别为RRM(§3.3.2)和RCM(§3.3.3)的损失。 系数βt和γt用于平衡不同阶段和任务的贡献。在我们的方法中使用了三个阶段(T = 3),并且我们设置β =γ=[1,0. 5,0。25]。在关系分割设置中,实例分割头St被注入到网络中(第3.4节)。对应的实例分割损失Lt在Eq中进一步添加。(18),系数为[1,0. 5,0。25]。级联推理。在推理过程中,几何流:sg=σ(FC×1(Xg))∈[0,1]N,视觉流:sv=σ(FC×1(X<$v))∈[0,1]N,(十五)由实例定位网络以不同的方式阶段合并在一起。我们删除那些置信度分数小于0.3的然后,所有可能的其中,ss、sg和sv分别是来自语义流、几何流和视觉流的得分向量,并且N是HOI中预定义动作的数量。请注意,这里遵循多标签分类设置。在训练过程中,对于每个流,使用二进制交叉熵损失来评估输出分数与真值目标之间的差异总损失LRCM是来自流的损失之和。在推断期间,通过以下方式获得最终预测:s=(sv+sg)ss,( 16)其中⊙表示Hadamard乘积。3.4.关系分割到目前为止,我们严格遵循HOI识别中的经典关系检测设置[15,29,9,49],即,通过边界框识别交互实体。现在,我们专注于如何使我们的级联框架适应关系分割,它通过在像素级表示每个实体来解决更细粒度的HOI受[2]的启发,对于每个阶段t处的实例定位网络Lt,添加实例分割头St,并且整个工作流(等式2)(1,2)改为:实例检测:Yt=P(I,ot−1),ot=Dt(Yt),+L4268从剩余的提议生成的人-对象对被馈送到RRM中用于关系排序。在此之后,我们只选择前64对作为候选,并将它们送入RCM进行最终的关系分类。RCM的最后阶段输出被用作最终动作得分。4. 实验实验在三个数据集上进行,HOIW、PIC和V-COCO [19]。前两个来自PIC19挑战赛,最后一个是黄金标准基准。培训设置:除非特别说明,否则我们对所有实验采用以下训练设置。我们使用ResNet-50 [22]作为主干。训练包括两个阶段:1)训练实例定位网络; 2)联合训练实例定位和交互识别网络。在第一阶段,使用在COCO上预先训练的权重初始化网络[31]。这三个阶段使用逐渐增加的IoU阈值μ={0. 5,0。6,0。7}[2,4]。训练图像的大小被重新调整到最大1333×800,而不改变纵横比。我们将水平翻转应用于数据增强,并将网络训练12个epoch,批量大小为16,初始学习率为0.02,在epoch 8和11减少了在第二阶段,我们采用的形象-实例分段:Y<$t=P(I,ot),o<$t=St(Y<$t,Y<$t−1(十七))的情况下,中心培训策略[14],即, 使用成对样本4269挑战团队mAP相对我们66.04GMVM60.26PIC19挑战财华社56.93(HOIW轨道)F2INet49.13[29]第二十九话48.64挑战团队R@100mIoU:0.25R@100mIoU:0.50R@100mIoU:0.75是说我们60.1755.1142.2952.52PIC19挑战HTC+iCAN56.2152.3237.4948.67(PIC Track)RelNet53.1749.2632.4444.96XNET38.4233.1517.2929.62表1:HOIW上的关系检测结果表2:PIC 19挑战中PIC测试集上的关系分割结果。 请PIC 19挑战中的测试集(§4.1)。详见第4.1节。图4:PIC19挑战中HOIW测试集的相关性检测的目视结果(§4.1)。从一张图片中提取出一小部分。对于每个小批量,我们以1:3的阳性样本与阴性样本的比例采样最多128个HOI提案,以联合训练RRM和RCM。在每个阶段,使用相同的IoU阈值μ来确定积极的HOI建议,以便交互识别网络的训练数据与检测质量紧密匹配。此外,地面实况HOI也在每个阶段用于训练。第二阶段以学习率0.02和批量大小8训练7个epoch。重 现 性: 我 们 的 模 型在 PyTorch 上 实 现, 并 在 8 个NVIDIA Tesla V100 GPU上训练,每张卡具有32GB内存。测试是在一台NVIDIATITAN Xp GPU,12 GB内存。4.1. PIC19挑战结果数据集:PIC19挑战赛包括两个轨道,即,HOIW和PIC轨道,每个轨道都有一个独立的数据集:• HOIW[30]用于人与物体的关系检测。它有29,842张训练图像和8,794张测试图像,带有11个对象和10 个 动 作 类 别 的 边 界 框 注 释 。 由 于 它 不 提 供train/val分割,在我们的消融研究中,我们随机选择9,999张图像用于val,另外19,843张用于train;对于挑战结果,我们使用train+val进行训练。• PIC是用于人-物体关系分割的。它有17,606张图像(12,654张用于训练,1,977张用于验证,2,975张用于测试),具有143个对象的像素级注释它涵盖了30种关系,包括6种几何关系,(例如,下一个)和24个非几何形状(例如,看,说话)。评估指标:采用挑战中的标准评估指标。对于HOIW,性能由mAP相关性评估。如果预测的动词是正确的,并且人和对象框都至少具有IoU,则检测到的三元组“人、动词、对象”被认为是真阳性0.5与相应的地面事实。 对于PIC,我们使用召回@100(R@100),它是两个关系类别的平均值(即,几何的和非几何的)和三个IoU阈值(即,0.25、0.5和0.75)。在我们的烧蚀研究中,我们还考虑R@50和R@20来衡量更严格条件下的性能。HOIW赛道上的表现:我们的方法达到了第一位的关系检测的HOIW轨道。如表1所示,我们的结果明显优于其他团队。特别是,它比第二个(GMVM)绝对好5.78%,比第三个(FINet)好9.11%我们的方法也大大优于一个公布的最新技术水平,即,[29]第二十九话图4显示了HOIW测试的一些视觉结果。我们的模型对各种挑战表现出鲁棒性,遮挡、微妙的关系等。在PIC轨道上的表现:我们的方法也达到了第一位的关系 分 割 的 PIC 轨 道 上 . 如 表 2 所 示 , 我 们 的 总 得 分(52.52%)比第二名高出3.85%,比第三名高出7.56%。图5描绘了两个复杂场景的视觉结果。PIC测试。我们的方法在实例分割和交互识别方面表现出出色的性能。它可以识别几何和非几何关系,并能够识别许多细粒度的相互作用,例如,看起来像人拿着餐具在该轨迹中,实例定位网络被实例化为Eq.(17)。4.2. 关于V COCO数据集:V-COCO [19]为MS-COCO [31]提供动词注释。它于2015年提出,是第一个用于HOI理解的大规模数据集,并且仍然是今天最受欢迎的数据集。 它总共包含10,346张图像(2,533/2,867/4,946用于训练/验证/测试分割)。16,199个人类实例用26个动作标签注释,其中三个动作(即,cut,hit,eat)用两种类型的目标(即,工具和直接对象)。评估指标: 我们用原来的角色表示AP4270图5:在PIC 19挑战(第4.1节)中的PIC测试集上,关系分割的视觉结果。第一列:实例分段结果。最后五列:排名第一的人,动词,对象三胞胎。对于每个三元组,人和物体以红色和绿色显示。图6:V-COCO测试集上关系分割的视觉结果[19]。 详见第4.2节。图7:在HOIW值集(§4.3)上提出的注意力模块的每类性能改进的相对值表3:mAP作用V-COCO测试[19](§4.2)。(mAP角色),这与HOIW中的mAPrel性能表现:由于V-COCO具有边界框和掩码注释,因此我们提供了我们的方法的两个变体,即,Oursbbox和Oursmask,Oursbbox在这里训练而我们的面具使用地面实况面具。为了公平起见,在评估期间,我们的掩码的掩码输出被转换为框。表3总结了与8 种 最 新 技 术 相 比 的 结 果 。 我 们 的 bbox 优 于 TIN[29]0.5%,RPNN [55]0.8%。我们的掩码进一步提高了我们的bbox0.6%,这表明掩码级表示优于框级表示。我们要注意的是,[42]报告了52。0%mAP作用于V-COCO。然而,它依赖于昂贵的姿态估计器,因此直接与我们的方法进行比较是不公平的。在没有姿态估计器的情况下,[42]获得了48分。6%,比我们的面具略差。在图6中,我们示出了我们的掩模在V-COCO测试集上的HOI分割结果。它精确地识别许多细粒度的交互,如看电脑,看书等。总的来说,我们的模型在不同的数据集和两种不同的设置(即,关系检测和分割),这清楚地揭示了它的显着性能和强大的泛化能力。表4:级联模型中关键组件的消融研究4.3. 消融研究关键成分分析首先,我们研究了我们框架中的重要组成部分的影响,即,隐式人类语义挖掘(IHSM)、显式面部区域关注(EFRA)、关系排序模块(RRM)和级联网络结构(CAS)。我们首先构建一个没有任何这些组件的基线模型,然后逐渐将每个组件添加到基线中进行调查。 如表4所示,所有这些组件都可以提高PIC和HOIW数据集的性能。1)IHSM和EFRA有助于学习更多有区别的视觉特征并进一步提高性能(例如,在HOIW上性能提高0.5%和2.8%)。2)图7示出了IHSM和EFRA在HOIW值集上的每个类别的性能改进。显然,EFRA提高了与面部相关的交互的性能(例如,吃、喝、吸烟、打电话),并将这些类别与一些类似的类别区分开来,例如,方法出版物骨干mAP作用(%)古普塔等人 al.[19个]Arxiv15ResNet-50-FPN31.8互动[15]CVPR18ResNet-50-FPN40.0GPNN [37]ECCV18ResNet-5044.0ICAN [12]BMVC18ResNet-5045.3Xu et. al. [49个]CVPR19ResNet-50-FPN45.9Wang et. al. [第四十四届]ICCV19ResNet-5047.3RPNN [55]ICCV19ResNet-5047.5[29]第二十九话CVPR19ResNet-5047.8IHSMEFRARRMCASR@20PICR@50R@100HOIWmAP相对✗✗✗✗17.028.033.933.9✓17.928.634.334.4✓17.627.534.636.7✓✓18.528.335.437.5✓✓✓19.028.935.938.6✓✓✓✓27.838.345.343.74271不速度(ms)R@20PICR@50R@100HOIWmAP相对114519.028.935.938.6216325.536.443.842.1319827.838.345.343.7425327.838.345.243.7531427.638.145.243.4表5:级联模型中级数T的影响骨干级联R@20PICR@50R@100HOIWmAP相对ResNet-50✗19.028.935.938.6ResNet-50✓27.838.345.343.7ResNet-101✗20.831.438.940.2ResNet-101✓28.639.847.044.4ResNeXt-101✗22.934.342.644.2ResNeXt-101✓29.641.248.948.2表6:具有不同骨架的级联结构的消融研究。玩手机相比之下,IHSM对于具有特定姿势的动作更有效,例如,骑马踢球3)RRM在修剪负的人-物体对中起着关键作用,如表4所证明的。此外,RRM将HOIW的平均推理速度提高了约80ms。4)我们的级联体系结构大大提高了性能,即,PIC绝对改善8.8%,HOIW绝对改善5.1%级联体系结构分析。我们研究了级联网络中使用的级数T的影响,从1到5变化。用于这五个阶段的IoU阈值为[0。5,0。6,0。七比零。75,0。[8]。The results in Ta- ble 5show that the performance is significantly improved byadding a second stage, i.e., PIC中R@20为6.5%, HOIW中mAPrel为3.5%当进一步增加超过3级时,性能增益是边际的。表5还报告了HOIW值集上这些变体的平均推断时间。试验速度随级数的增加而降低,当级数达到4级或5级时,试验速度下降很快考虑到模型的复杂性和性能,我们选择T=3作为默认设置。表6报告了我们的方法在不同主链下具有(T=3)或不具有(T=1)级联的性能比较,即,ResNet-50、ResNet-101和ResNeXt-101。结果表明,我们的级联网络一致地提高了各种骨干网上的性能。我们的关系表征和分数融合策略的有效性。在我们的方法中,三种特征,Xs,Xg和Xv,用于捕获语义,几何和视觉信息的关系建模。表7报告了仅考虑一个单一特征的性能可见,视觉特征比其他两个更重要此外,我们进一步研究了不同的方法来融合的行动分数从三个功能,我们发现,一个使用在方程。(16)是最好的探索更好的关系表示。现有的HOI方法通常使用粗糙的边界框来表示实体,然而,它是最好的选择吗?为了回答这个问题表7:我们的关系表征和评分融合策略的消融研究。关系表示R@20R@50R@100是说BBox27.137.944.836.6掩模27.838.345.337.1BBox + Mask(max)27.638.345.137.0BBox + Mask(sum)27.738.345.137.0表8:掩码和bbox表示之间的比较。我们进行实验以探索更强大的关系表示。我们使用四种不同的表示来评估我们的模型在PIC val集上的性能:a)BBox; b)Mask; c)BBox+Mask(max);以及d)BBox+Mask(sum)。这里,a)和b)意味着我们通过分别在bbox和mask区域上应用RoIAlign来提取特征H、O、Uc)和d)分别是bbox和mask特征与逐元素的max和sum运算的融合请注意,检测到的实体对于所有基线都相同。表8中的结果表明,掩码优于bbox,特别是在最严格的度量R@20下。这两种混合表示比单独使用bbox更好,但比纯粹基于掩码的表示略差。总之,基于掩码的表示确实有利于HOI识别,因为它提供了更精确的信息。5. 结论本文介绍了一种级联网络结构的粗到精HOI识别。它由一个实例本地化网络和一个交互识别网络组成,在每个阶段都紧密相连,以充分发挥多任务的优势The interaction recognition network leverages human-centric features to learn better se- mantics of actions, andcomprises two crucial modules for relation ranking andclassification. 我们的模型在PIC 19 Challenge中的关系检测和关系分割任务中均获得第一名,并且在金标准基准V-COCO上也优于先前的方法。此外,我们经验性地证明了掩码比边界框更精确的关系表示的优势,并将在我们未来的研究中深入研究。鸣谢本研究由浙江实验室2019KD0AB04),浙江实验室这项工作还得到了ARO基金W 911 NF- 18-1-0296、YahooFaculty Research and Engagement Program Award 和 AmazonAWS Machine Learning Research Award的部分支持。方面变体R@20PICR@50 R@100HOIWmAP相对关系表示语义特征(ss)几何特征(s g)视觉特征(s v)14.519.622.220.026.232.823.332.138.226.530.338.1分数融合sv+s g+s ssvs gs s(sv+s g)s s26.727.027.837.037.738.343.143.545.341.341.943.74272引用[1] Christopher Baldassano,Diane M Beck,and Li Fei-Fei.人与物体之间的相互作用不仅仅是它们各部分的总和。大脑皮层,27(3):2276-2288,2017。4[2] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade R-CNN:Delv-高质量的物体检测。在CVPR,2018年。二三五[3]Yu-Wei Chao,Yunfan Liu,Xieyang Liu,Huayi Zeng,and贾登。 学习检测人机交互。在WACV,2018年。3[4] Kai Chen,Jiangmiao Pang,Jiaqi Wang,Yu XiaoLi,Shuyang Sun,Wansen Feng,Ziwei Liu,Jianping Shi,Wanli Ouyang,et al.实例分段的混合任务级联。在CVPR,2019年。二三五[5] 文森特·德莱特,约瑟夫·西维克,伊万·拉普捷夫。学习用于静止图像中的动作识别的人-物交互。NeurIPS,2011。2[6] 邓建康,郭佳,周宇翔,俞金科,艾琳Kotsia和Stefanos Zafeiriou。 RetinaFace:野生环境中的单 阶 段 密 集 面 部 定 位 。 arXiv 预 印 本 arXiv :1905.00641,2019。4[7] 柴坦尼亚·德赛和德瓦·拉曼南。检测动作,pose和objects与relational关系phraselets。ECCV,2012年。2[8] 范立峰,王文冠,黄思远,唐新宇,和朱 松春 利用 时空 图推 理理解 人类 凝视 通信 。在ICCV,2019年。1[9] 方浩树,曹金坤,戴玉荣,陆策武。用于识别人与物体交互的成对身体部位注意力。在ECCV,2018。二、四、五[10] 佩德罗 F 费尔岑斯瓦布 罗斯 B 女孩 和大卫麦卡莱斯特基于可变形零件模型的级联目标检测。CVPR,2010。1[11] Pedro F Felzenszwalb和Daniel P Huttenlocher。高效早期视力的信念传播IJCV,70(1):411[12] 陈高: 邹玉良, 和黄家斌iCAN:用于人-物交互检测的实例中心注意力网络。在BMVC,2018年。三、七[13] 詹姆斯·吉布森 视觉感知的生态学方法-版本:经典版。 Psychology Press,2014. 3[14] 罗斯·格希克。快速R-CNN。在ICCV,2015年。5[15] GeorgiaGkioxari , RossGirshick , PiotrDolla'r ,andKaiming
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功