没有合适的资源?快使用搜索试试~ 我知道了~
3585用于人机交互检测李永璐,周思远,黄希杰,徐亮,马泽,方浩树,王艳峰,陆策武上海交通大学{李永路,ssluvble,黄宅男,梁旭,maze 1234556}@sjtu.edu.cnfhaoshu@gmail.com,lucewu@sjtu.edu.cn,wangyanfeng@sjtu.edu.cn摘要人-物交互(HOI)检测是理解人与物体交互的重要问题。本文探讨了人与物之间是否存在交互作用的交互性知识。 我们发现,交互性知识可以跨HOI数据集学习,而不考虑HOI类别设置。 我们的核心思想是利用一个交互网络从多个HOI数据集中(一)(b)第(1)款交互性HOIs并在推理中进行HOI分类之前进行非交互抑制由于交互性的普遍性,交互性网络是一种可传递的知识学习器,可以与任意的HOI检测模型协同工作,达到预期的效果。 我们广泛地评估所提出的方法在CANO-DET和V-COCO数据集。我们的框架优于国家的最先进的HOI检测结果的一个伟大的Margin,验证其有效性和灵活性。代码可在https://github.com/DirtyHarryLYL/Transferable-Interactiveness-Network上获得。1. 介绍人-物交互检测从静止图像中提取人和物体的位置信息,并推断交互类别。作为视觉关系的子任务[24,17],HOI与人体和物体理解密切相关[33,36,39,11,26,21,38]。它对于行为理解至关重要,可以促进活动理解[9,28],模仿学习[3]等。最近,通过利用深度神经网络(DNN)在这一领域取得了令人印象深刻的进展[34,19,32,31]。卢策武是通讯作者,他也是上海交通大学计算机科学与工程系、上海交通大学人工智能研究所、MoE人工智能重点实验室和上海交通大学SenseTime人工智能实验室的成员。图1.互动式知识学习。 (a)HOI数据包含内隐的交互性知识。我们可以通过执行显式交互性判别来更好地学习它,并利用它来提高HOI检测性能。(b)交互性知识超出了HOI类别,可以跨数据集学习,这可以带来更大的性能改进。通常,首先需要检测人和物体。给定图像及其检测,人和物体通常是完全配对的[19,31,32]。HOI检测任务旨在将这些对分类为不同的HOI类别。先前的一阶段方法[34,19,31,13,32]直接将一对分类为特定的HOI。这些方法实际上同时隐含地预测交互性例如,当一对被归类为HOI虽然交互性是HOI检测的一个基本要素,但我们忽略了如何利用它并改进其学习。与HOI范畴相比,交互性传达了更多的基本信息。基于此,我们提出了一种交互性知识学习方法,如图1所示。通过我们的框架,可以跨数据集学习交互性,并将其应用于任何特定的数据集。通过利用互动性,我们采取两个阶段来识别HOI:我们首先区分人-物对是否是交互的HOI检测模型交互性优先学习互动网络HOI分类器HOIs多个HOI数据集3586然后将其归类为特定的HOI。与以前的一阶段方法[34,19,31,13,32]相比,我们利用了强大的交互性知识,结合了来自其他数据集的更多信息。因此,我们的方法可以减少假阳性显着。此外,在第一阶段的交互性过滤之后,我们不需要处理大量的非交互对,这些非交互对压倒性地多于交互对。在本文中,我们提出了一种新的两阶段方法来分层分类对,如图2所示。我们引入了一个交互式网络,它可以与任何HOI检测模型相结合。 我们制定了一个分层的逻辑策略:通过使用二元交互性标签,交互性网络将带来强监督约束,该约束在训练中细化框架并从多个数据集学习交互性。在测试中,交互式网络首先执行非交互抑制(NIS)。然后HOI检测模型将剩余的对分类为特定的HOI,其中非交互对已经显著减少。此外,如果模型将一对分类为特定的HOI,它应该弄清楚这对是同时交互的。这种两阶段预测将减轻学习难度,带来历史性的预测。需要特别注意的是,交互性提供了额外的信息来帮助HOI分类,并且独立于HOI类别设置。这意味着它可以跨数据集传输,并用于增强为不同HOI设置设计的HOI模型。我们在HICO-DET [34],V-COCO [13]数据集上进行了广泛的实验。我们的方法与转移交互性相结合,在三个默认类别上比最先进的方法高出2.38、3.06和2.17在HICO-DET上设置,在V-COCO上设置4.0和3.42. 相关作品视觉关系检测。视觉关系检测[6,17,24,16]旨在检测对象并同时对其关系进行分类。在[17]中,Lu et al.提出了一种关系数据集VRD和一种结合语言先验知识的方法。主语、谓语、宾语三元组中的谓语包括动作、动词、空间和介词词汇。这样的词汇设置和数据集中严重的长尾问题使得这项任务非常困难。然后提出大规模数据集Visual Genome [24]以促进对该问题的研究最近的工作[23,25,40,30]将注意力放在更有效和高效的视觉特征提取上,并尝试利用语义信息来细化关系检测。人机交互检测。人机交互[1,4,2]对于理解以人为中心的对象交互至关重要。 最近几个大-提出了V-COCO [13]、HICO-DET [34]、HCVRD [18]等尺度数据集用于HOI的探测图2.图像内的HOI可以表示为HOI图。人和物体可以被看作是节点,而交互被表示为边。所有节点的穷举配对会引入过多的非交互边,并对检测性能造成损害。我们的非交互抑制可以有效地减少非交互对。这样,稠密图就可以转化为稀疏图,然后进行分类。侦测。与HOI识别[35,5,12,8,15]不同,随着DNN和大规模数据集的出现,最近的方法取得了重大进展。Chao等人[34]提出了一个多流模型,结合视觉特征,空间位置,以帮助解决这个问题。为了解决长尾问题,Shenet al.[37]研究了零射击学习问题,并分别预测动词和宾语在[19]中,引入了一种在[32]中,Qi等人提出了结合DNN和图形模型的GPNN,它使用消息解析来迭代更新状态并对所有可能的对/边进行分类。Gao等人[31]利用实例中心注意力模块来增强来自感兴趣区域的信息并促进HOI分类。这些方法一般只进行一步推理,存在严重的非交互对控制问题。为了解决这个问题,我们利用交互性来明确区分非交互对,并在HOI分类之前抑制它们。3. 初步HOI表示可以描述为图模型[32,23],如图2所示。关系和节点分别表示为节点和边。在具有exhaustive配对的情况下,HOI图G=(V,E)是稠密连通的,其中V包括人节点VH和对象节点Vo.设vh∈ Vh和vo∈ Vo表示人和物体节点。因此边e∈ E表示为e=(vh,vo)∈Vh×Vo. 对于n个节点,穷举解析将生成大量的边。我们的目标是在这些边缘上分配HOI(包括没有HOI)标签。考虑到存在于E中的绝大多数非交互边应该我们的目标是寻求一个稀疏的G,穷举配对HOI检测模型HOIs稠密HOI图非相互作用抑制(a)一阶段推理人-物对非交互 互动HOI检测模型HOIs人类节点HOI 1. HOI n对象节点谓词边稀疏HOI图(b)两阶段推理…3587CNN层池化目标检测分数LIS功能PCNN Block HP池化姿势贴图互动X或非交互CNN块OP池化ConcatFC 1024FC 1024NIS空间地图CCNN层池化HOI目标检测特征提取(R)人流对象流空间-姿态流空间流CNN Block HC池化HOIs人类特征CNN Block OC池化HOIs物体特征FC 1024FC 1024图3.概述我们的框架。交互性网络P可以与任何HOI模型(称为C)协作。P采用人,对象和空间姿态流提取特征的人和对象的外观,空间位置和人的姿态信息。三个流的输出被连接并输入到交互式控制器。当与诸如[34,31](人、对象和空间流)的多流C协作时,P中的HP和OP可以在联合训练期间与C中的HC和OC在这项工作中,这四个块都是残差块[14]。LIS和NIS将在第4.3节和第4.5节中详述。HOI标签在其边缘。4. 我们的方法4.1. 概述如上所述,我们引入交互性知识来提高HOI检测性能。也就是说,明确区分非交互对,并在HOI分类之前抑制它们。从语义的角度来看,交互性提供了比传统HOI范畴更普遍的信息。由于任何人-物对都可以根据HOI注释分配二进制交互性标签,即,“interactive”or “non-interactive”,为了利用这一线索,我们提出了交互性网络(交互性预测器,简称为P),它利用交互性来减少过多的非交互对候选人造成的误报。还包括一些常规的模块,即表示网络R(特征提取器)和分类网络C(HOI分类器)。R负责从检测到的实例中提取特征。C利用节点和边缘特征来执行HOI分类。 图3是我们遵循分层分类范式的框架具体来说,我们首先联合训练P和C来学习交互性和HOI知识。在通常情况下,非交互边的比率在输入中占主导地位。因此,P将带来一个强有力的监督信号来完善框架。在测试中,P分两个阶段使用。首先,P通过利用学习到的交互性知识来评估边的交互性,因此我们可以将密集HOI图转换为稀疏HOI图。其次,结合来自P的交互性得分,C将处理稀疏图并对剩余边进行分类。此外,由于交互性知识的泛化能力,它可以通过P在数据集之间传递(第4.4节)。框架体系结构的详细信息见第4.2节和第4.3节。培训和测试过程将在第4.4节中详述。4.2. 表示和分类网络人与物体检测在HOI检测中,首先需要检测人和物体。在这项工作中,我们遵循[31]的设置,并使用Detectron [29]和ResNet-50-FPN [20]来准备边界框和检测分数。在后处理之前,检测结果将首先通过检测分数阈值进行过滤。代表网络。在以前的方法[34,19,31]中,R经常从对象检测器修改,例如Fast R-CNN [10]或Faster R-CNN[11]。我 们还 利用 了a Faster R-CNN [11] withResNet-50 [14] basedR here.在训练和测试期间,R被冻结并充当特征提取器。给定检测到的边界框,我们通过根据框坐标裁剪ROI池化特征图来产生人和对象特征HOI分类网络。对于C,多流架构和后期融合策略被频繁使用并被证实有效[34,31]。遵循[34,31],对于我们的分类网络C,我们利用人流和对象流来提取人,对象和上下文特征。在每个流内,采用具有池化层和完全连接层(FC)的残差块[14](表示为HC、OC,参见图3)。此外,还有一个额外的水疗中心-3588低级副本压制功能10.90.80.70.60.50.40.30.20.100.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.91目标检测分数姿势贴图人类地图对象映射人1人2人1人2图4.空间姿势流的输入。包括三种地图:姿态图、人体图和物体图。 两张图片中的人物2都与长颈鹿有互动“喂食”。但是两对人1和长颈鹿都是不互动的。它们的姿态和位置有助于识别交互性。采用tial stream [34]对实例的空间位置进行编码。它的输入是一个双通道张量,由一个人类贴图和一个对象贴图组成,如图4所示。人和物体的地图都是64 x64,并且从人-物体联合框中获得。在人体通道中,人体边界框中的值为1,其他区域中的值为0。对象通道类似,在对象边界框中的值为1,在其他地方为0。在后期融合策略之后,每个流将首先执行HOI分类,然后将三个预测得分以相同比例进行元素求和以产生最终结果C。4.3. 互动网络互动需要通过提取和组合基本信息来学习。人和物体的视觉外观是明显需要的。除此之外,交互对和非交互对还具有其他区别特征,例如:空间位置和人体姿态信息。例如,在图4的上图中,人1和离他很远的长颈鹿没有交互。他们的空间地图[34]可以提供证据来帮助分类。此外,姿势信息也是有帮助的。在下图中,虽然两个人都靠近长颈鹿,但只有人2和长颈鹿是互动的。人2的手臂抬起并触摸长颈鹿。当人1回到长颈鹿身上时,他的姿势与典型的“饲料”姿势相当不同基于这些原因,结合视觉AP-图5. P(·)在低级抑制功能中的图示。它的输入是对象检测分数。高等级的探测目标将被强调并与低等级的目标区分开来此外,P(0)= 5。[15] E−05和P(1)= 9。99E-01。首先,我们从表示网络R中提取ROI池化特征,然后将其分别输入到残差块HP和OP中。HP和OP的架构与HC和OC相同(图3)。通过随后的全局平均池化和FC,两个流的输出特征分别表示为fh和fo空间姿态流。与[34]不同,我们的空间姿势流输入包括一个特殊的64x64姿势映射。给定每个人和他/她的配对对象的并集框,我们采用姿势估计[22,27]来估计他/她的17个关键点(以COCO格式[7])。然后,我们将关键点与不同的灰度值范围从0.15到0.95的线连接起来,以表示不同的身体部位,这隐含地编码了姿势特征。而另一个区域设置为0。最后,我们将联合框重新整形为64x64以构建姿势图。我们将姿态图与人和物体图连接起来,这些图与C. 这形成了我们的空间姿态流的输入。接下来,我们利用具有最大池化的两个卷积层和两个1024大小的FC来提取三个映射的特征fsp。最后,将输出与人、物流的输出进行连接,进行交互性判别.给定具有所有可能边的HOI图G,P将基于学习的知识评估对(vh,vo)的交互性,并给出置信度:空间位置和人体姿态信息,P(h,o)=fP(fh,fo,fsp)L(sh,so),(1)关键在于互动性的区分。因此,P需要将这些关键元素一起编码以学习交互性知识。一个自然的选择是多流架构,如所示:人、对象和空间姿态流。人和物体流。对于人和物的出现-其中L(sh,so)是一种新的权函数,称为低级实例抑制函数(LIS).它将人类和物体检测分数sh,so作为输入:L(sh,so)=P(sh)<$P(so),(2)人2人1人1人20.9910.001重量S3589(h,o)哪里互动P活性T数据集R权重 非交互式数据集- 互动P(x)=1 +e(k-wx)、(3)X共享CXHOIsP(·)是逻辑函数的一部分,T、k和w的值将由数据驱动的方式确定。 图5描绘了定义域为(0,1)的P(·)的曲线。边界框将具有低权重,直到其得分(一)(b)第(1)款多个数据集数据集X分级联合训练互动非交互式数据集XHOIs两阶段推理活性- 互动高于阈值。以前的作品[31,19]经常直接将检测分数乘以最终分类迁移前的互动培训两阶段推理得分但它们不能明显强调高质量和不准确检测结果之间的区别。LIS具有增强高等级和低等级物体检测之间的区分的能力,如图5所示。权重共享策略。我们的交互性网络的另一个好处是,如果与多流HOI检测模型C合作,P可以与C中的卷积块共享卷积块的权重。如图3所示,块HP和OP可以在联合训练中与HC和OC该权重共享策略能够保证多任务训练中的信息共享,更好地优化P和C4.4. 互动式知识转移培训在R、P和C的支持下,我们的框架有两种使用模式:默认模式下的分层联合训练和迁移学习模式下的交互迁移训练。分级联合训练。在默认模式下,我们介绍了我们的分层联合训练方案,如图6(a)所示。通过增加一个主管P,我们的框架工作在一个非传统的培训模式.具体地说,该框架是用层次分类任务训练的,即。外显交互性判别和HOI分类。该框架的目标函数可以表示为:L=LC+LP,(4)其中LC表示HOI分类交叉熵损失,而LP是二进制分类交叉熵损失。与单阶段方法不同,附加的交互性判别使模型能够学习交互性知识,从而带来更强的监督约束。也就是说,当一对被预测为特定的HOI,如实验结果(第5.4节)证明了交互式知识学习可以有效地细化训练,提高性能。默认模式下的框架在下文中被称为互动性知识转移训练注意,P只需要超出HOI类的二进制标签,因此交互性是可转移和可重用的。在图6.培训和测试方案。(a)在默认模式下,P和C首先在同一数据集上联合训练,权重共享。(b)在迁移学习模式中,P可以跨数据集学习交互性知识,并与在不同数据集上训练的多个C在测试中,我们的框架推断在两个阶段,即。P首先执行交互性判别,然后C对剩余的边/对进行分类。知识学习器从多个数据集学习交互性,并分别应用于每个数据集,如图6(b)所示。相反,考虑到不同数据集中HOI类别设置的多样性,C必须一次在单个数据集上训练一次。因此,特定HOI的知识难以转移。我们将在第5节中比较和评估交互性知识和HOI知识的可转移性。为了更好地表示交互性的可转移性和性能增强,我们设置了几种转移学习模式,称为“RP T n C D“,其中“T“表示“转移”,“n“表示P从“n“个数据集学习交互性知识:1)RP T 1 C D:在1个2)RPT2CD:在2个数据集上训练P,并将P分别应用于它们为了比较交互性知识和HOI知识的可转移性,我们为C设置了转移学习模式例如,我们首先在HICO-DET上训练和测试C其次,我们用适合V-COCO HOI数量的FC层替换C的最后一个FC层,然后在V-COCO训练集上微调C1个最后,我们在V-COCO测试集上对新的C语言进行了测试上述模式的详细信息见表1。4.5. 非交互抑制测试在交互性学习之后,我们进一步利用P来抑制测试中的非交互对候选,即。非相互作用抑制(NIS)。推理过程基于树结构,如图2所示。对测试集中检测到的实例进行穷举配对,生成人与物体的稠密图G。首先,我们使用P来计算所有边的交互性得分。接下来,我们抑制满足NIS条件的边,即。迁移学习模式,P可以作为一个可迁移的交互作用得分sP小于一定的阈值α。除其他PRNIS非CHOIRP除其他PRNIS非CHOIR C3590′′通过NIS,我们可以将G转换为G′其中G表示试验组方法P-列车组C-列车组近似稀疏HOI图。 HOI分类来自C的(v,v)的得分向量SC是:RPDCDHICO-DET HICO-DETHICO-DETRPT1CDV-COCO HICO-DET(h,o)hOC′ ′RPT2CDHICO-DET,V-COCOHICO-DETHICO-DETRCD- HICO-DET′其中ΓS(h,o)=FC[r;G(vh,vo)],(5)是输入功能。a的最终HOI得分向量V-COCORCT- V-COCORPDCDV-COCO V-COCORPT1CDHICO-DET V-COCOpair(vh,vo)可以通过以下方式获得:RPT2CDHICO-DET,V-COCOV-COCOV-COCORCD- V-COCOS(h,o)C(h,o)P(h,o).(六)RCT- HICO-DET表1.实验中的模式设置在这里,我们将P中的交互性得分sP乘以C.产量5. 实验(h,o)流将与C中的流共享权重。Spatial-Pose流由具有最大池化的两个卷积层和两个1024大小的FC组成。三个流的输出被级联并通过两个1024大小的FC,在本节中,我们首先介绍了数据集和采用的指标,然后给出了我们的框架的实现细节接下来,我们报告我们的HOI检测结果定量和定性与国家的最先进的approaches相比。最后,我们进行消融研究,以验证我们的框架中的组件的有效性。5.1. 数据集和指标数据集。我们采用两个HOI数据集HICO-DET [34]和V-COCO [13]。HICO-DET [34]包括47,776张图像(训练集38,118张,测试集9658张),80个对象类别上的600个HOI类别(与[7]相同)和117个动词,并提供超过150 k个注释的人-对象对。V-COCO [13]提供了10,346个图像(2,533个用于训练,2,867个用于验证,4,946个用于测试)和16,199个每个实例。每个人都有29个动作类别的注释(其中5个没有配对对象)。对象分为两种类型:“工具”和“对象”。指标. 我们遵循[34]中采用的设置,即。只有当人类和物体边界框都具有大于0.5的IoU时,预测才是真阳性,与地面实况相关,HOI分类结果准确。角色平均平均精度[13]用于衡量性能。5.2. 实现细节我们使用更快的R-CNN [11],ResNet-50 [14]作为R,并保持冻结。C由类似于[34,31]的三个流组成,从实例外观,空间位置以及上下文中提取特征Γ在人类和对象流中,使用具有全局平均池化的残差块[14相对地,空间流由具有最大池化的两个卷积层和两个1024大小的FC组成。在[34,31]之后,我们在C.P也由三个流组成(见图3)。具有全局平均池化的残差块[14]和两个1024大小的FC被采用在人和对象流中这两个区域进行交互性判别。为了公平比较,我们采用了作者提供的[31]中的对象检测结果和COCO [7]预训练权重。由于NIS和LIS可以抑制非交互对,因此我们将检测置信度阈值设置为低于[31],即。0.6对于人和0.4对于物体。还应用了以图像为中心的训练策略[11]。换句话说,来自一个图像的成对候选者构成小批量。我们采用SGD,并将初始学习率设置为1 e-4,权重衰减为1 e-4,动量为0.9。在训练中,正负样本的比例为1:3.我们共同训练了25个时期的框架 在等式3中提到的LIS中,我们设置T =8。4,k = 12。0,w = 10。0的情况。在测试中,NIS中的交互性阈值α设置为0.1。所有的实验都在一个Nvidia Titan X GPU上进行5.3. 结果和比较我们将我们的方法与HICO-DET上的五种最先进的HOI检测方法[34,37,19,32,31]进行了比较,V-COCO上的四种方法[13,19,32,31]。HOI检测结果用平均精密度进行评价对于HICO-DET,我们遵循[34]中的设置:默认和已知对象模式下的Full(600对于V-COCO,我们评估AP角色(24个角色动作)。更多的细节可以在[34,13]中找到。默认模式。从表2, 我们可以发现RPDCD已经优于比较方法。我们分别实现了17.03和19.17mAP上的默认和知道对象完整集的HICO-DET。特别是,我们在稀有集上提高了2.97和4.18为了说明,由于交互性的泛化能力超出HOI类别设置,信息稀缺和稀有类别的学习困难得到缓解。因此,稀有和非稀有类别之间的性能差异相应地减小。V-COCO的结果见表3。RPDCD也实现了卓越的性能,优于最先进的方法[31](晚期和早期融合模型),产生47.8mAP,=Ss3591默认已知对象方法完全稀有非稀有完全稀有非稀有Shen等人[37] 6.46 4.24 7.12HO-RCNN [34] 7.81 5.37 8.54 10.41 8.94 10.85[19] 2016年10月16日-[32] 13.11 9.34 14.23-[31]第三十一话10.4516.1516.2611.3317.73D表2. HICO-DET的结果比较[34]。D表示默认模式,T表示迁移学习模型。时间验证了交互性的有效性。值得注意的是,RCD显示有限的性能时,与其他模型包含P。这揭示了交互性网络P的性能增强能力。迁移学习模式。通过利用转移的交互性知识,RPT2CD呈现出极大的性能改进,并实现了最先进的性能。在HICO-DET 上 , RPT2CD 在 三 个 默 认 类 别 集 上 超 过[31]2.38、3.06和2.17同时,它在V-COCO上的表现也优于[31]4.0和3.4mAP。这表明交互性具有良好的可移植性和有效性。由于HICO-DET列车组(38 K)比V-COCO列车组(2.5K)大得多,因此从HICO-DET转移到V-COCO时,改进也更大可以看出,模式RPT1CD对V-COCO有明显的改善,但与模式RPDCD相比,它对HICO-DET的改善相对较小。我们还评估了HOIS知识的可转移性与RCD相比,RCT在两个数据集上显示出3.14和4.7mAP的显著性降低,如表2和3所示。这证明了交互性比HOIs知识更适合和更容易传递。非交互减少。采用NIS后的非交互作用对减少效应见表4. 第 一 章 在 默 认 模 式 下 , NIS 显 示 出 明 显 的 效果.RPT2CD算法通过多个数据集的交互性传递,在两个数据集上分别丢弃了70.94%和73.62%的同时,RPT1CD也表现良好,抑制了一定数量的非交互对候选。这表明互动性具有良好的可移植性。可视化结果。代表性预测如图7所示。我们可以发现我们的模型能够-检测各种复杂的HOI,例如一对内的多个交互、一个人与不同对象执行多个交互、一个对象与多个人交互、多个人与多个对象执行不同交互。图8显示了NIS的可视化效果。我们可以看到,NIS有效地区分了非交互对图7.样品HOI检测的可视化。主体和对象用蓝色和红色的边界框表示。而相互作用则由连接框中心的绿线标记。方法AP角色Gupta等人[13] 31.8[19]第十九话[32]第三十二话iCAN w/ late(early)[31]44.7(45.3)RCD43.2RPDCD47.8RCT38.5RPT1 CD48.3RPT2CD48.7表3.V-COCO的结果比较[13]。D表示默认模式,T表示迁移学习模型。并在极其困难的情况下抑制它们,例如一个人执行一个令人困惑的动作和网球,一群人打领带。在左下角,我们展示了一个更难的样本。当主语和宾语是左手和右手时,C预测错误的HOIC可能会把左手误认为键盘,因为它们太近了。然而,P准确地指出,两只手是不相互作用的。这些结果证明,一步方法会产生许多假阳性,没有互动性和NIS。5.4. 消融研究在RPDCD模式中,我们分析了低级实例抑制、非交互抑制和P中的三个流的显著性(见表5)。非相互作用抑制NIS在减少非相互作用对中起着关键作用。我们通过在测试期间删除NIS来评估其影响。换句话说,我们直接使用公式6中的S(h,o)作为最终预测,不使用NIS。结果表明,该模型的性能有明显的下降,说明了NIS的重要性.低级实例抑制LIS抑制低级物体探测,奖励高级物体探测。通过去除等式1中的L(sh,so),我们观察到表5中的退化。这表明LIS能够区分低等级检测,提高了性能放羊坐在餐桌旁在餐桌上吃饭背负式背包手持手机型抱、跳、骑、坐、跨在计算机上工作-仪表外行人自行车自行车读-指令保持 -指令hit-objhit-instr保持-objcut-obj静坐剪切应力hold-objRCRPDCD13.7517.0310.2313.4215.4518.1115.3419.1710.9815.5117.0220.26RCT10.617.7811.4512.478.8713.54RPT1 CD16.9113.3217.9919.0515.2220.19RPT2 CD17.2213.5118.3219.3815.3820.573592滑雪场滑板工具命中目标现场工作滑雪场键盘打字穿领带的坐在椅子上命中目标苹果树切奥布日手提袋图8.NIS的可视化效果绿线表示精确的HOI,而紫线表示被抑制的非交互对如果没有NIS,C将在一阶段推理中为这些非交互对生成假阳性预测,如图像下方的紫色文本所示。即使是一些非常困难的场景也可以被发现和抑制,例如彼此靠近的人和物体之间的错误分组,混乱场景中的人和物体。测试集方法简化RPDCD-65.96%HICO-DETRPT1CD-62.24%RPT2CD-70.94%RPDCD-65.98%在分层联合训练中,三条溪流。通过每次在P中保留一个流,我们评估它们的贡献,如表5所示。我们可以发现,空间姿态流是最大的贡献者,V-COCORPT1CD-59.51%但我们还需要另外两个人的外貌特征RPT2CD-73.62%表4.执行NIS后非交互对减少HICO-DET V-COCO方法默认全全KOAP角色RPD CD17.0319.1747.8无NIS15.8617.3546.2无LIS16.3518.8347.4不带NIS LIS15.4517.3145.8仅H流14.9116.2144.5O仅15.2816.8945.2仅S-P流15.7317.4646.0表5.消融研究结果。将人、物体、空间姿态流表示为H、O和S-P流。而不使用更昂贵的高级对象检测器。在没有NIS和LIS的情况下,我们的方法只在P和C的联合训练中有效。正如我们在表5中看到的,性能大大降低,但仍然优于其他方法,这表明增强流以实现更好的性能。6. 结论在本文中,我们提出了一种新的方法来学习和利用隐含的互动性知识,这是一般的和超越HOI类别。因此,它可以跨数据集传输。利用交互性知识,我们利用一个交互性网络在推理中进行HOI分类前的非交互性大量的实验结果表明了交互性的有效性。通过将我们的方法与现有的检测模型相结合,我们在HOI检测上取得了最先进的结果。鸣 谢 : 这 项 工 作 得 到 了 中 国 国 家 重 点 研 发 & 计 划(No.2017YFA0700800),国家自然科学基金资助61772332的部分支持。3593引用[1] Yang Wang,Hao Jiang,Mark S Drew,Ze-Nian Li,and Greg Mori.动作类的无监督发现。CVPR,2006。2[2] 尼基泽勒河G Cinbis,S Pehloun和P Duygulu。从静止图像中识别动作。国际公民权利和政治权利委员会,2008年。2[3] Brenna D Argall 、 Sonia Chernova 、Manuela Veloso 和Brett Browning。机器人从演示中学习综述。机器人和自主系统,57(5),2009年。1[4] Weilong Yang,Yang Wang,and Greg Mori.从具有潜在姿势的静止图像中识别人的动作。CVPR,2010。2[5] 文森特·德莱特,伊万·拉普捷夫和约瑟夫·西维克。在静止图像中识别人类行为:特征袋和基于部分的表示研究。在BMVC,2010年。2[6] M. A. Sadeghi和A.法哈迪。使用视觉短语的识别。CVPR,2012。2[7] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。2014年,在ECCV。四、六[8] Chao-Yeh Chen和Kristen Grauman。预测新的人-物交互中被交互者的位置。InACCV,2014. 2[9] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet:人类活动理解的大规模视频基准。CVPR,2015。1[10] 罗斯·格希克。快速R-CNN。在ICCV,2015年。3[11] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。2015年,在NIPS中。一、三、六[12] 余伟超、詹王、何宇耕、王嘉轩、登嘉。Hico:识别图像中人与物体交互的基准。在ICCV,2015年。2[13] 索拉布·古普塔和吉坦德拉·马利克。视觉语义角色标注。arXiv预印本arXiv:1505.04474,2015。一、二、六、七[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。三、六[15] Arun Mallya和Svetlana Lazebnik。动作和人-物交互的学习模型,迁移到问题回答。在ECCV,2016年。2[16] Mark Yatskar Luke Zettlemoyer和Ali Farhadi 情况识别:面向图像理解的视觉语义角色标注。在CVPR,2016年。2[17] 卢策武,兰杰·克里希纳,迈克尔·伯恩斯坦,李菲菲.具有语言先验的视觉关系检测。在ECCV,2016年。一、二[18] Bohan Zhuang,Qi Wu,Chunhua Shen,Ian Reid,andAn-ton van den Hengel.关心你:大规模以人为中心的视觉关系检测。arXiv预印本arXiv:1705.09892,2017。2[19] GeorgiaGkioxari , RossGirshick , PiotrDolla'r ,andKaimingHe. 检 测 和 识 别 人 机 交 互 。 arXiv 预 印 本arXiv:1704.07333,2017。一、二、三、五、六、七[20] 林宗义、杜拉拉、葛希克、何开明、哈里哈兰、贝隆吉.用于对象检测的特征金字塔网络。在CVPR,2017年。3[21] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。InICCV,2017. 1[22] 方浩树,谢淑琴,戴玉荣,陆策武。RMPE:区域多人姿势估计。InICCV,2017. 4[23] Danfei Xu,Yuke Zhu,Christopher B Choy,and Li Fei-Fei.通过迭代消息传递生成场景图。在CVPR,2017年。2[24] Ranjay Krishna , Yuke Zhu , Oliver Groth , JustinJohnson,Kenji Hata,Joshua Kravitz,Stephanie Chen,Yannis Kalantidis,Li-Jia Li,David A Shamma,et al.可视化基因组:使用众包密集图像注释连接语言和视觉。IJCV,123(1):32-73,2017。一、二[25] Hanwang Zhang、Zawlin Kyaw、Shih-Fu Chang和Tat-Seng Chua。用于视觉关系检测的视觉平移嵌入网络在CVPR,2017年。2[26] Cewu Lu,Hao Su,Yonglu Li,Yongyi Lu,Li Yi,Chi-Keung Tang,and Leonidas J Guibas.超越整体对象识别:通过零件状态丰富图像理解。在CVPR,2018年。1[27] Jiefeng Li,Can Wang,Hao Zhu,Yihuan Mao,Hao-Shu Fang,and Cewu Lu. Crowdpose:高效的拥挤场景姿 态 估 计 和 新 的 基 准 。 arXiv 预 印 本 arXiv :1812.00324,2018。4[28] 庞博、查凯文、曹汉文、陈石、册武卢。用于可视顺序应 用 程 序 的 深 度 rnn 框 架 。 arXiv 预 印 本 arXiv :1811.09961,2018。1[29] Ross Girshick 、 Ilija Radosavovic 、 Georgia Gkioxari 、Piotr Doll a´ r 和 KaimingHe 。 探 测 器 https : //github.com/facebookresearch/detectron,2018年。3[30] Jianwei Yang,Jiasen Lu,Stefan Lee,Dhruv Batra,andDevi Parikh. 用 于场 景 图生 成 的图 r-cnn 。 在ECCV,2018。2[31] 高晨,邹玉良,黄家斌。ican:用于人-对象交互检测的以 实 例 为 中 心 的 注 意 网 络 arXiv 预 印 本 arXiv :1808.10437,2018。一、二、三、五、六、七[32] Siyuan Qi , Wenguan Wang , Baoxiong Jia , JianbingShen,and Song-Chun Zhu.通过图解析神经网络学习人-物交互在ECCV,2018。一、二、六、七[33] 方浩树,徐元路,王文冠,刘晓柏,朱松春。学习位姿文法 编码 人体构 形以 进行3d位姿 估测 。在 AAAI,2018。1[34] Yu-Wei Chao,Yunfan Liu,Xieyang Liu,Huayi Zeng,and Jia Deng.学习检测人机交互。在WACV,2018。一二三四六七[35] 方浩树,曹金坤,戴玉荣,陆策
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功