没有合适的资源?快使用搜索试试~ 我知道了~
482PPDM:用于实时人机交互检测的并行点检测与匹配廖跃1、2刘思 1王飞2陈艳杰2陈倩2冯佳诗31北京航空航天大学2商汤科技3新加坡国立大学摘要22我们提出了一种单阶段的人-物体交互(HOI)检测方法,该方法在单个Ti- tan XP GPU上以37fps的速度在HICO-DET数据集上优于所有现有方法。这是第一种实时HOI检测方法。传统的HOI检测方法由两个阶段组成,即,人-对象提议生成和亲-对象分类。它们的有效性和效率受到顺序和分离的体系结构的限制。在本文中,我们提出了一个并行点检测和匹配(PPDM)HOI检测框架。在PPDM中,HOI被定义为点三元组人类点、交互点、对象点>。<人、物点为检测框的中心,交互点为人、物点的中点。 PPDM包含两个并行的分支,即点检测分支和点匹配分支。点检测分支预测三个点。同时,点匹配分支预测从交互点到其对应的人和物点的两个位移。将来自同一交互点的人点和物点视为匹配对。在我们的新的par-bandwidth架构中,交互点隐式地为人类和对象检测提供上下文和正则化。不太可能形成有意义的HOI三联体的孤立检测盒被抑制,这增加了HOI检测的精度。此外,人和物体检测框之间的匹配仅应用于有限数量的过滤后的候选交互点,这节省了大量的计算成本。此外,我们还建立了一个新的面向应用的数据库HOI-A,它是对现有数据集的一个很好的补充。1. 介绍人机交互(HOI)检测[30,11,10,[2016 - 09 - 16]最近,越来越受到关注通讯作者(liusi@buaa.edu.cn)1https://github.com/YueLiao/PPDM20181614121080.1 0.2 0.3 0.4 0.5 0.6每图像图1.HICO-Det测试集上的mAP与推断时间我们的PPDM-DLA优于国家的最先进的方法,推理速度为37fps(0。027s)。这是第一种实时HOI检测方法。我们的PPDM沙漏达到4。与最先进的技术相比,速度更快,mAP提高了27%。给定图像,HOI检测旨在检测三重态<人、交互、对象>。与一般的视觉关系检测不同[19,29,20,13,32],三元组的主体固定为人类,而交互是动作。HOI检测是对以人为中心的场景进行高级语义理解的重要一步。它在活动分析、人机交互、智能监控等方面有着广泛的应用.传统的HOI检测方法[2,22,12,16,26]主要包括两个阶段。第一阶段是人-对象提议生成。预先训练的检测器[8,23]用于定位人和物体。然后,通过成对地组合过滤的M个人框和N个对象来生成M×N个人对象提议弹出框。第二阶段是建议分类,预测每个人-对象pro-bandry的相互作用。两阶段法的有效性和效率的局限性建议生成阶段完全基于对象检测置信度。每个人/物的建议都是独立生成的。将两项提案结合起来形成一个有意义的平均值(mAP)PPDM-沙漏(我们的)PPDM -DLA(Ours)PMFNet无虚饰锡IC一个实时 eGPNNInteractNet483第二阶段的HOI三重态不考虑在内。因此,所生成的人类对象提议可能具有相对低的质量。此外,在第二阶段中,所有的人-对象提案需要被线性扫描,而其中只有少数是有效的。额外的计算成本很大。因此,我们认为,非顺序和高度耦合的框架是必要的。我们提出了一个并行的HOI检测框架,并重新制定HOI检测为点检测和匹配问题。如图2所示,我们将一个盒子表示为一个中心点和相应的大小(宽度和高度)。此外,我们定义一个交互点作为人和物体中心点的中点.为了使每个交互点与人点和物点相匹配,我们设计了从交互点到相应的人点和物点的两个位移。在此基础上,我们设计了一种新的单阶段并行点检测与匹配框架PPDM,将复杂的HOI检测任务分解为两个简单的并行任务。PPDM由两个并行分支组成。第一个分支是点检测,其估计三个中心点(交互点、人点和物体点)、相应的尺寸(宽度和高度)和两个局部偏移(人点和物体点)。交互点可以被认为是为人类和对象检测两者提供上下文信息。换句话说,估计交互点隐含地增强了对人和物体的检测。第二个分支是点匹配。估计从交互点到人和物体点的两个位移源自相同交互点的人和物体点被认为是匹配的。在新的并行架构中,点检测分支估计交互点,从而为人和物体检测提供上下文和正则化。不太可能形成有意义的HOI三联体的孤立检测框被抑制,而更可能的检测框被增强。它不同于两阶段方法中的人-对象提议生成阶段,在两阶段方法中,所有检测人/对象框无差别地形成人-对象提议以馈送到第二阶段。此外,在点匹配分支中,仅在有限数量的过滤后的候选交互点周围进行匹配,这节省了大量的计算成本。相反,在两阶段方法的建议在公共基准HICO-Det [2]和我们新收集的HOI-A数据集上的实验结果表明,PPDM在准确性和速度方面优于最先进的现有的数据集如HICO-Det [22]和V- COCO [11]极大地推动了相关研究的发展这些数据集非常一般。然而,在实际应用中,几个有限的,频繁的HOI类别,人体中心点流离失所者交互点物体位移对象中心点日高度wid图2. PPDM包含两个并行分支。在点检测分支中,检测表示为中心点、宽度和高度的人/对象框此外,交互点,即,人和物点的中点也被定位。同时,在点匹配分支中,估计从每个交互点到人/物体的两个人点和物点起源于同一个相互作用点被认为是匹配对。需要特别注意。为此,我们收集了一个新的人机交互应用数据集(HOI-A),具有以下特征:1)特别挑选了烟、乘等10种应用价值广泛的HOI类别。2)巨大的类内变化,包括各种照明和每个类别的不同人类姿势HOI-A更多的是应用驱动的,服务是对现有数据集的一个很好的补充。我们的贡献总结如下:1)将HOI检测问题转化为点检测和匹配问题,提出了一种新的单阶段PPDM算法。2)PPDM是第一个实现实时的HOI检测方法,优于HICO-Det和HOI-A基准测试的最先进方法。3)收集大规模和面向应用的HOI检测数据集以补充现有数据集。源代码和数据集都将发布,以促进相关研究。2. 相关工作HOI检测方法。现有的HOI检测方法主要可以分为两个阶段:在第一阶段,应用对象检测器[23]来定位人和对象;在第二阶段,将检测到的人和物体配对,并将其特征输入到分类网络中,以预测人与物体之间的交互。目前的工作更多的是探讨如何改进第二阶段。最近的工作旨在通过捕获上下文信息[7,27]或人类结构信息[26,6,5,33]来理解HOI。一些作品[22,28,33]将第二阶段制定为图推理问题,并使用图卷积网络来预测HOI。上述方法都是基于提案的,因此它们的性能受到提案质量的限制Addi-484Dd输入图像点热图点检测分支尺寸偏移[width,height]局部偏移交互点人体中心点对象中心点点匹配分支位移对人类运动球运球人位移位移对人类反对相互作用点位移反对人类对象粗人粗对象点点点点匹配点三元组预测HOI三联体个人运球运动球人运动球运球运球人运动球图3.拟议的PPDM框架概述。我们首先应用关键点热图预测网络,例如。沙漏-104或DLA-34,以从图像中提取外观特征。a)点检测分支:基于提取的视觉特征,我们利用三个卷积模块来预测交互点,人体中心点和物体中心点的热图。此外,为了生成最终框,我们回归2D大小和局部偏移。b)点配对科:该分支的第一步是分别回归从交互点到人点和物点的位移。基于预测的点和位移,第二步是将每个交互点与人类点和物体点匹配以生成一组点三元组。现有的方法在建议生成和特征提取过程中需要花费大量的计算代价。基于这些缺点,我们提出了一种新的一阶段和无提案的框架来检测HOI。 HOI检测数据集。主 要 有两种常见的使用的HOI检测基准:[11]《明史》卷110Det [2]和以人为中心的关系检测数据集:HCVRD[36] 。 VCOCO 是 一 个 相 对 较 小 的 数 据 集 , 它 是MSCOCO [18]的子集,包括10,346个图像,基于COCO注释注释了26个动作HICO-Det是一个大规模的通用HOI检测数据集,包括47,776张图像,其中有117个动词和80个对象类别(与COCO相同)。HCVRD从一般视觉关系检测数据集Visual Genome中收集[14]。它有52,855个图像,927个谓词类别和1,824种对象。比较前两个HOI检测数据集,其仅关注人类动作,HCVRD关注更一般的以人为中心的关系,例如,空间关系占有关系以前的HOI检测数据集主要集中在共同和一般的动作。从实用的角度出发,我们建立了一个新的HOI-A数据集,该数据集大约有38 K的图像,只标注了有限的具有实际意义的典型动作。3. 并行点检测与匹配3.1. 概述最终结果。所提出的并行点检测和匹配(PPDM)方法的框架如图3所示。PPDM的第一个分支是点检测。它估计中心点,相应的大小(宽度和高度)和局部偏移的人和对象。中心、大小和偏移协同地表示一些框候选。此外,还估计了交互点,该交互点被定义为对应的人体中心点、物体中心点,它由主体框和类、人的动作类和对象框和类组成。<我们将HOI检测的复杂任务分解为两个更简单的并行任务,它们可以组装成为了描述的方便,我们省略下标i,不会引起混淆。类似的省略也适用于(xo,yo)和(xa,ya)。在图3中,输入图像I∈RH×W被馈送到特征提取器中以产生特征V∈RH×W,485关闭关闭˜(xa,ya)DDyHexx(x,y)(xh,yh)ddkxy其中W和H是输入图像的宽度和高度,d是输出步幅。点热图尺寸回归损失Lwh被类似地定义。用于定位在(xh,yh)处的人体点的fset的地面真值局部是低分辨率的, 因此,我们也计算低-分辨率中心点。假设一个真实的人类定义为(δxhH,δy )=(xh−xh,yh−yh).点(xh,yh),对应的低分辨率点为(xh,yh)=(xh,yh)。低分辨率地面实况因此,损失函数Loff是人类箱损失Lh和物箱损失Lo - 是的d d1物点(x=0,y=0)可以以相同的方式计算。基于低分辨率的人和物体点,地面实况相互作用点可以定义为(xa,ya)=Loff=HM+DΣhoff~x关闭x)(2)(xh + xo,yh+yo)。Loff=(|δ(xh,yh)−δ(xh,yh)|2 2(x<$h,y<$h)∈S<$h(三)点位置丢失。 直接检测一个点是困难的,因此,我们遵循关键点估计方法[25]y(xh,yh)(xh,yh)|、将一个点分裂成一个高斯核热图。从而将点检测转化为热图估计任务三个地面实况低分辨率点(xh,yh)、(xo,yo)和(xa,ya)被分成三个高斯热图,包括人体点热图Ch∈其中,Sh和Sh表示训练集中的地面真实人类和物体点集。 M=|沙赫|和D=|绍绍|是人点和物点的数量。注意M不一定等于D。例如,人可以高×宽o T×H×W对应于多个动作和对象。Lo被定义[0,1]d d,物点热图C∈[0,1]d d,以及关闭相互作用点热图Ca∈[0,1]K×H×W,其中T类似于等式3。是对象类别的数量,K是数量。交互类e s的BER。 注意,在C~o和C~a中,只有对应于特定对象类和人类动作的通道是非零的。这三个热图是通过将三个相应的卷积块添加到3.3. 点匹配点匹配分支通过使用交互点作为桥梁将人盒与其对应的对象盒配对更具体地,交互点被视为锚点。两个位移dah=(dah,dah),特征图V,每个特征图由3×3的达奥X y凹凹卷积层与ReLU,其次是1×1卷积层和Sigmoid。对于这三个热图,我们都应用了逐元素的焦点损失[17]。例如,给定一个估计的interac-ˆa=(dx,dy),即,相互作用之间的位移行动点与估计人/箱点。粗略的人点和物点分别是(xa,ya)加dah和dao我们提出的位移分支由两个热点图C ˜a以及相应的地面实况卷积模块每个模块由一个3×3的控制器组成热图C损失函数为:卷积层与ReLU和1×1卷积层。Σ(1−Cˆa)αlog(Ca) ifCa=1主体和客体置换贴图的大小为1kxykxykxyH WLa=−(1−Ca)β(Cα)α否则2×d ×d.Nkxyxnkxy kxylog(1−Ca)的情况下,(一)位移损失。为了训练位移分支,我们对每个交互点应用L1损失地面-其中N等于交互点的数量(HOI三重态),Ca是位置(x,y)处的分数从位于的相互作用点的真值位移(xa,ya)到相应的人体点的距离可以计算出来。kxyˆ由(dhx,dhy)=(xa−xh,ya−yh)。预测对于预测的热图Ca中的类别k,我们按照[15,35,4]中的默认设置将α设置为2,将β设置为4。人点和物点的损失Lp和Lo(xa,ya)(xa,ya)在(xa,ya)位置的位移为(dhx位移损失定义为:奥菲希(xa,ya)可以类似地计算。大小和抵消损失。除了中心点之外,还需要框大小和中心点的局部偏移,1Lah=NΣ(x<$a,y<$a)∈S<$aHexx(xa,ya)(xa,ya)|(四)形成人/物的盒子。四个卷积块被添加到特征图V以估计2-D大小,并且Hexx(xa,ya)奥菲希(xa,ya)人框和对象框的局部偏移。每个块包含一个带有ReLU的3×3卷积层和一个1×1卷积层。在训练过程中,我们只计算地面真实人类点(xh,(L+L+的|δ-δ,d-|D+的|D-)的情况。|、486yh)和物体点(xo,yo)的每个位置处的L1损失,忽略所有其他位置。我们以局部偏移的损失函数为例,其中,Sa表示训练集中的地面实况交互点集。 N=|萨尼亚|是交互次数点从相互作用的位移损失函数点到物点Lao具有相同的形式。三重匹配。从两个方面来判断人/物点是否可以与交互点匹配。人/物体需要:1)靠近487(xa,ya)opt(x(x(xh)1000万xoxaHHH对于由交互点加上位移生成的粗略的人/物体点,以及2)具有高置信度分数。基于这些,对于检测到的交互点(xa,ya),我们通过等式5对检测到的人点集Sh中的点进行排序,并选择最佳的一个。a. <人、烟、香烟>b. <人、烟、香烟>C. <人、烟、香烟>hopthopt1)= arg minCh户外印杜河在汽车强烈照明下(x<$h,y<$h)∈S<$h(xh,yh),(|(xa,ya)−(dhx奥菲希(xa,ya))−(xh,yh)|)(五)其中C hhH表示人类d. <人、烟、香烟>(x,y)点(xh,yh)。最优对象框(x)和你一样)可以在黑暗场景中e. 攻击性烟雾:无香烟阴性样本f. 无预定义交互负样本e计算类似。3.4. 损失与推理optopt图4. 我们的HOI-A数据集的示例图像。我们采取<人、烟、香烟>为例。(a)-(d)显示了野生环境中人类、烟雾、香烟的巨大类内变化(e)-(f)示出了两种负样本。最后的损失可以通过对上述损失进行加权求和得到L=La+Lh+Lo+λ(Lah+Lao+Lwh)+Loff(6)这里我们把λ设为0。1、在[15,35]。La、Lh和Lo是点位置损失,Lah和Loh是位移损失,而Lwh和Loff是尺寸和偏移损失。在推理过程中,我们首先对预测的人、物体和交互点热图,其作用与NMS类似。其次,我们通过跨所有类别的相应置信度得分C_(10 ) h、C_(10)o和C_(10)a来选择前K个人类点S_(10)h、对象中心点S_(10)o和交互点S_(10)a。然后,我们通过等式5找到每个所选交互点的主题点和对象点。 为每个然后,我们引入了一个新的数据集,称为人机交互应用程序(HOI-A)。如表1所示,我们选择了由实际应用驱动的动词类别。HOI-A数据集中的每一种动词都有其对应的如果人在车内打电话,则可以认为是危险的驾驶行为。匹配人体点(x±hhopt ),我们得到最终的盒子:(xh)沃赫-选择(可选),Yaqih胡泽-选择选择),表1.核心动词的列表和出现次数-refH2w(xh,yh)refH2h(xh,yh)(七)HOI-A数据集中的响应对象。4.1. HOI A建筑xref+opt2opt ,yref+opt2 选择我们描述了图像采集和注释过程用于构建HOI-A数据集。第一步是收集--其中x=h=xh+δxh h和Yh=y+refopt(xopt,yopt)refopt提取候选图像,其可以被分为两部分,δ-γopt(可选)是人类中心的精确位置即正图像和负图像集合。积极的图像收集。 我们收集正面的图像w(xh,Yaqih)h(xh,Yaqih)的方式点 (可选)opt, opt opt)是中框的大小在两个方面,即, 摄像机拍摄和爬行相机2 2相应的位置。最终的HOI检测结果是一组三联体,并且三联体的置信度得分是射击是扩大类内变量的重要途径,数据的状态我们雇佣了50名演员,Cprefh参考乔乔reforefCaref一-是的ref在不同的场景中执行所有预定义的动作和照明,与各种姿势,并采取照片的4. HOI-A数据集现有的数据集如HICO-Det [22]和V- COCO [11]极大地推动了相关研究的发展然而,在实际应用中,有有限的频繁HOI类别需要特别注意,这在以前的数据集中没有强调(x,y,d,y,y,y,yyyy动词对象#实例吸烟香烟8624浅谈手机18763玩(手机)手机6728吃食品831喝喝6898骑自行车,摩托车,马7111举行香烟、手机、食物饮料,文件,电脑44568踢运动球365读文件869玩(电脑)计算机1402488分别使用RGB摄像头和IR摄像头。对于从互联网上抓取 的 数 据 , 我 们 基 于 HOI 三 元 组 person 、 actionname、object name>、action pair action name、objectname>和action name生成一系列关键字,并从互联网上检索图像。<负像集。负像集。有两种预定义的负样本489<人、交互、对象>。1)关注的对象出现在图像中,但关注的动作没有发生。例如,在图4(f)中,虽然香烟出现在图像中,但它不是由人吸烟因此,图像仍然是负样本。2)发生与关注动作类似的其他动作,但关注对象丢失。例如,在图4(e)中,一眼就看到该男子正在吸烟但仔细一看,图像中没有香烟我们是以“即时”的方式收集这类阴性样本的我们首先训练一个多标签的动作分类器的基础上的注释的积极的图像。分类器以图像作为输入,并输出动作分类的概率然后,我们让演员执行任意攻击分类器没有任何交互的对象。如果攻击成功,我们将此图像记录为硬负样本。注释。注释过程包含两个步骤:框注释和交互注释。首先,预定义类别中的所有对象都用框和对应的类别进行注释。第二,我们将图像中的注释器应该记录三元组person ID、action ID、object ID>。为了更准确地注释,每个图像由3个注释器注释如果至少有2个注释者共享相同的注释,则认为图像的注释4.2. 数据集属性规模我们的HOI-A数据集由38,668个注释图像,11种对象和10个动作类别组成。具体来说,它包含43820个人实例、60438个对象实例和96160个交互实例.平均数为2. 每人进行2次互动。表1列出了每个动词出现至少360次的实例数。60%的动词出现超过6500次。据我们所知,就每个交互类别的图像数量而言,这已经是最大的HOI数据集。类内变化。为了扩大数据的类内变化,我们的HOI-A数据集中的每种类型的动词将被捕获三个一般场景,包括室内,室外,门和车内,三种照明条件,包括黑暗,自然和强烈,各种人体姿势和不同的角度。此外,我们使用两种相机拍摄图像:RGB和IR。5. 实验5.1. 实验环境数据集。为了验证我们的PPDM的有效性,我们不仅在我们的HOI-A数据集上进行实验,而且在一般的HOI检测数据集HICO-Det [2]上进行实验。DET是一个用于常见HOI检测的大规模数据集。它有47776张图片(38118张用于训练,9658张用于测试),标注了117个动词,包括“无交互”和80个117个动词和80个宾语构成600个其中出现10次的138种HOI构成稀有集合,其余462种HOI构成非稀有集合。公制。在HOI检测任务中的标准设置之后,我们使用平均值珍贵(mAP)作为度量。如果一个预测的三联体被认为是一个真正的阳性样本,它需要匹配一个特定的真实三联体。具体来说,它们具有相同的HOI类,并且它们的人框和对象框具有大于0的IOU的重叠。五、在两个数据集上计算AP时存在微小差异。我们在HICO-Det中计算每个HOI类的AP,并在HOI-A数据集中计算每个动词类的AP。实施详情。我们使用两个常见的热图预测网络作为我们的特征提取器,Hourglass- 104 [21,15]和DLA-34[31,35]。Hourglass-104是一个通用的热图预测网络,常用于关键点检测和对象检测。 在PPDM中,我们使用[15]中提出的修改版本Hourglass-104。DLA-34是一个轻量级的骨干网络,我们应用了[35]中提出的改进版本。网络的感受野需要足够大,以覆盖主体和客体。沙漏-104具有足够大的感受野,而DLA-34的感受野由于其相对较浅的结构而不能覆盖包括人和物体的区域因此,对于基于DLA的模型,我们连接最后三个级别的特征,并应用基于图的全局推理模块[3]来扩大交互点和位移预测的感受域。在全局推理模块中,我们将节点和约简特征的通道分别设置为48和96。对于Hourglass- 104,我们只对所有后续模块使用最后一级功能。我们使用在COCO上预训练的权重初始化特征提取器[18]。我们的实验都在Titan Xp GPU和CUDA9.0上进行。在训练和推理过程中,输入分辨率为512×512,输出分辨率为128×128。PPDM在8个GPU上使用 Adam我们按照[35]设置超参数我们基于DLA-34用128大小的小批量训练模型,110个时期,学习率为5e-4,在第90个时期下降到5e-5。对于基于沙漏-104的模型,我们用32的批量训练它110个epoch,学习率为3.2e-4,在第90个epoch时下降了10倍。我们遵循[15,35]应用数据增强,即,随机缩放和随机移位来训练模型,并且在推理期间没有增强。我们将所选预测的数量K设置为100。5.2. 与最新技术我们比较PPDM与国家的最先进的方法在两个数据集。定量结果见表2和表3,定性结果见图5。比较的方法主要使用预训练的Faster R-CNN [23]来生成一组人类对象亲。490方法特征充分默认罕见非罕见充分了解对象罕见非罕见推理时间(ms)↓FPS↑Shen et. [第24话]A + P6.464.247.12-----HO-RCNN [2]A + S7.815.378.5410.418.9410.85--InteractNet [9]一9.947.1610.77---1456.90[22]第二十二话一13.119.3414.23---197 + 48 = 2454.08Xu et. [第28话]A + L14.7013.2615.13-----iCAN [7]A + S14.8410.4516.1516.2611.3317.7392 + 112 = 2044.90[26]第二十六话A + S14.9211.4215.9618.8315.3019.89--Wang et. [第27话]一16.2411.1617.7517.7312.7819.21--[12]第十二话A + S + P17.1812.1718.68---197 + 230 + 67 = 4942.02[第16话]A + S + P17.2213.5118.3219.3815.3820.5792 + 98 + 323 = 5131.95RPNN [33]A + P17.3512.7818.71-----PMFNet [26]A + S + P17.4615.6518.0020.3417.4721.2092 + 98 + 63 = 2533.95PPDM-DLA一20.2913.0622.4523.0916.1425.172737.03PPDM-沙漏一21.7313.7824.1024.5816.6526.847114.08表2.HICO-DET测试集的性能比较然后将其馈送到成对分类网络中。如表2所示,为了更准确地对HOI进行分类,许多方法使用附加的人类姿势特征或语言特征。5.2.1定量分析HICO- 检 测 器 见 表 2 。 我 们 的 PPDM-DLA 和 PPDM-Hourglss都优于所有以前的最先进的方法。具体而言,我 们 的 PPDM 沙 漏 实 现 了 显 着 的 性 能 增 益 ( 24 。5%),与之前的最佳方法PMFNet [26]相比。我们可以看到之前的mAP大于17%的方法都使用人体姿势作为附加特征,而我们的PPDM只使用了appearance特征。PPDM的性能在罕见子集上略低于PMFNet。然而,PMFNet中的基线模型在不使用人体姿态信息的情况下仅达到11。42%的mAP在稀有集。稀有集上的性能增益可能主要来自广告人物姿势特征。人类结构信息在理解人类行为中起着重要的作用,因此如何在我们的框架中利用人类背景信息是一个重要的未来工作。使用非常强大的检测器,我们的方法仍然优于它。其次,我们选择了两种开源的最先进的方法,iCAN [7]和TIN [16],作为我们HOI-A数据集的基线。我们首先在HOI-A数据集上使用FPN和ResNet-50预训练Faster R-CNN,然后按照它们的原始设置来训练HOI分类器。实验结果表明,我们的PPDM算法明显优于这两种方法.此外,对于我们选择的具有实际意义的交互类型,我们的PPDM可以实现高性能,这是实际适用的。5.2.2定性分析我们使用基于PPDM-DLA的HICO-Det数据集上的前3个置信度评分可视化HOI预测,并将我们的结果与典型的两阶段方法iCAN [7]进行比较。如图5所示,我们选择了两阶段方法的一些代表性失效案例。我们可以看到iCAN倾向于关注具有高检测分数但没有交互的人/对象。在图5(b)和图5(c)中,由于阳性/阴性样本之间的巨大不平衡,iCAN很容易产生“无相互作用”类型的高置信度。在图5(d)中,坐在飞机上的人太小了,以至于无法检测到。然而,我们的PPDM可以准确地预测HOI三联体在这些情况下具有高的置信度因为PPDM不依赖于提案。此外,PPDM集中在HOI三胞胎的理解。表3. HOI-A测试集上的性能比较。喂HOI-A数据集上的比较方法由两部分组成。首先,我们从ICCV 2019 PIC挑战HOI de的排行榜中选择前3名的5.2.3表4.HICO-Det测试集的成分分析效率分析保护轨道[1],这是我们基于HOI-A数据集持有的。与top-1方法相比,C-HOI [34],我们将单个Titan Xp GPU上的推理速度与已发布代码或报告的方法进行了比较。方法最大平均接入点(%)时间(ms)快速交互网络[1]56.93-GMVM [1]60.26-C-HOI [34]66.04-iCAN [7]44.23194[第16话]48.64501PPDM-DLA67.4527方法充分罕见非罕见时间1基本模型19.9413.0122.01242+ 特征融合20.0012.5622.22263+ 全局推理19.8512.9921.90264联盟中心18.6512.1120.61275PPDM-DLA20.2913.0622.4527491盆栽试验person人人没人飞机人人人没person人坐在...上拥抱/问候/拥抱人没没有/没有检查/加载/否书自行车人冲浪板人举行personpersonpersoneat杜努特人坐飞机直接试验person人人个人持有/携带坐在坐在沙发人骑自行车骑/跨坐在坐在自行车人冲浪板猜尔(a)(b)(c)(d)(e)图5.与HICO-Det上的iCAN相比的可视化结果第一行是iCAN的预测,第二行是PPDM。紫色表示主语,红色表示宾语。如果一个主体与一个物体有互动,它们将被一条绿线连接起来。我们显示每个图像的前3个置信度的结果:1蓝2黄3粉The ‘no’ denotes速度如表2所示,使用DLA和沙漏的PPDM都比其他方法快很多。PPDM-DLA是唯一的实时方法,推理仅需27ms。具体地说,两阶段HOI检测方法的推理时间可以分为程序生成时间和HOI分类器时间。此外,基于姿态的方法需要额外的时间来估计人体关键点.可以看出,PPDM-DLA的速度比所比较的方法的任何阶段都5.3. 成分分析我们从以下方面分析PPDM中提出的组件:定量和定性的观点。图6.交互点热图和位移的可视化。红色和紫色线表示从交互点(绿色)到人和物体的位移。特征提取器。我们分析了DLA骨干网中附加模块的有效性,即,特征融合和全局推理。表4中的第一行表示具有DLA的基本框架,其中我们仅基于最后一级特征来预测相互作用。结果表明,基本模型仍然可以优于所有现有的方法。这证明了我们设计的框架的有效性。第二行和第三行显示基本模型的结果,特征融合模块和全局推理模块,从表4中可以看出,性能变化很小。如果我们在基本框架中同时添加这两个设置,则性能提高0。35%的平均值。我们的结论是,一个更大的感受野和全球范围内的互动预测是有帮助的。点检测。为了验证两个中心点的中点是否是预测交互的最佳选择,我们进行了一个实验,基于交互点在人和物体盒的联合的中心,这是另一个合适的位置来预测交互。见表4第4行。与PPDM-DLA相比,mAP下降了1.64个点。常见的是,两个对象与同一个人交互并且可以位于人框中,在这种情况下,它们的并集框的中心点重叠。此外,我们定性地分析我们的交互点如图6所示,预测的交互几乎准确地位于人/物体点的中点处,尽管人远离物体或在物体中。点匹配。为了进一步理解位移,我们在图6中可视化位移。我们可以看到,交互点加上相应的位移非常接近人/物体盒的中心点,即使人/物体很难被检测到。6. 结论在本文中,我们提出了一种新的一阶段框架和一个新的数据集HOI检测。我们所提出的方法可以优于现有的方法的利润率也有显着更快的速度。该方法突破了传统两阶段方法的局限性,采用并行框架直接预测HOI。我们提出的HOI-A数据集更倾向于HOI检测的实际应用。承认这一点工作是部分由商汤科技有限公司支持。集团浙江实验室(No. 2019KD0AB04)、北京市自然科学基金(L182013,4202034)和中央高校基础研究基金。492引用[1] 图片排行榜。http://www.picdataset.com/challenge/leaderboard/hoi2019.[2] Yu-Wei Chao,Yunfan Liu,Xieyang Liu,Huayi Zeng,and Jia Deng.学习检测人机交互。在WACV,2018。[3] Yunpeng Chen,Marcus Rohrbach,Zhicheng Yan,YanShuicheng,Jiashi Feng,and Yannis Kalantidis.基于图的全局推理网络。在CVPR,2019年。[4] Zhiwei Dong , Guoxuan Li , Yue Liao , Fei Wang ,Pengju Ren,and Chen Qian.Centripetalnet:追求高质量的目标检测关键点对。在CVPR,2020年。[5] 方浩树,曹金坤,戴玉荣,陆策武。用于识别人与物体交互的成对身体部位注意力。在ECCV,2018。[6] Wei Feng , Wentao Liu , Tong Li , Jing Peng , ChenQian,and Xiaolin Hu.用于人-物体交互识别和人体姿态估计的Turbo学习框架。2019年。[7] 高晨,邹玉良,黄家斌。ican:用于人-对象交互检测的以实例为中心的注意网络在BMVC,2018年。[8] 罗斯·格希克。快速R-CNN。CVPR,2015。[9] GeorgiaGkioxari , RossGirshick , PiotrDolla'r ,andKaimingHe.检测和识别人机交互。在CVPR,2018年。[10] Abhinav Gupta , Aniruddha Kembhavi , and Larry SDavis.观察人与物体的相互作用:使用空间和功能兼容性进行识别。TPAMI,2009年。[11] 索拉布·古普塔和吉坦德拉·马利克。视觉语义角色标注。arXiv预印本arXiv:1505.04474,2015。[12] Tanmay Gupta,Alexander Schwing,and Derek Hoiem.简单的人机交互检测:因子分解、应用和布局编码以及培训技巧。在ICCV,2019年。[13] Roei Herzig、Moshiko Raboh、Gal Chechik、JonathanBe rant和Amir Globerson。用置换不变结构化预测将图像映射到场景图。在NIPS,2018年。[14] Ranjay Krishna , Yuke Zhu , Oliver Groth , JustinJohnson,Kenji Hata,Joshua Kravitz,Stephanie Chen,Yannis Kalantidis,Li-Jia Li,David A Shamma,et al.可视化基因组:使用众包密集图像注释连接语言和视觉。International Journal of Computer Vision,123(1):32[15] 黑律和贾登。Cornernet:将对象检测为成对的关键点。在ECCV,2018。[16] Yong-Lu Li,Siyuan Zhou,Xijie Huang,Liang Xu,ZeMa,Hao-Shu Fang,Yan-Feng Wang,and Cewu Lu.用于人-物体交互检测的可转移交互性先验。在CVPR,2019年。[17] 林宗义,普里亚·戈亚尔,罗斯·格希克,何开明,和彼得·多尔。密集目标检测的焦面损失。在CVPR,2017年。[18] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。2014年,在ECCV[19] 卢策武,兰杰·克里希纳,迈克尔·伯恩斯坦,李菲菲.具有语言先验的视觉关系检测。在ECCV,2016年。[20] Alejandro Newell和Jia Deng。通过关联嵌入将像素转换为图形在NIPS,2017年。[21] Alejandro Newell,Kaiyu Yang,and Jia Deng.用于人体姿态估计的堆叠沙漏网络。在ECCV,2016年。[22] Siyuan Qi , Wenguan Wang , Baoxiong Jia , JianbingShen,and Song-Chun Zhu.通过图解析神经网络学习人-物交互在ECCV,2018。[23] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。2015年,在NIPS[24] Liyue Shen , Serena Yeung ,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功