没有合适的资源?快使用搜索试试~ 我知道了~
识别人-物交互的成对身体部位注意方浩树1[0000−0002−0758−0293]、曹金坤1、戴玉荣2、卢策武1*[0000−0002−4023−9257]1上海交通大学,中国fhaoshu@gmail.com网站,{caojinkun,lucewu} @ sjtu.edu.cn2腾讯优图实验室,中国yuwingtai@tencent.com抽象。在人-物交互(HOI)识别中,常规方法将人体作为一个整体来考虑,并且对整个身体区域给予统一的关注。他们忽略了这样一个事实,即正常情况下,人类通过使用身体的某些部位与物体进行交互。本文认为,在HOI识别中,对不同的身体部位应给予不同的关注,并进一步考虑不同身体部位之间的相关性这是因为我们的身体部位总是协同工作。 我们提出了一种新的成对身体部位注意力模型,它可以学习专注于关键部位,以及它们的相关性,用于HOI识别。在模型中引入了一种新的基于注意力的特征选择方法和一种能够捕获身体部位之间的成对相关性的特征表示方案我们提出的方法在HICO数据集上的HOI识别中实现了10%的相对改进(36.1mAP →39.9mAP)我们将公开我们的模型和源代码关键词:人-物交互,身体-部位相关性,注意力模型1介绍在静止图像中识别人-物体交互(HOI)是一个重要的研究问题,并且在图像理解和机器人技术中具有应用[1,44,48]。从静止图像,HOI识别需要推断检测到的人与对象之间的可能的相互作用。我们的目标是评估预定义的HOI列表上的某些相互作用的概率。常规方法考虑在整体身体水平[40,21,52]或非常粗糙的部分水平(例如,在身体的一部分)的HOI识别的问题。头、躯干和腿)[11]。然而,认知科学[35,4]的研究已经发现,我们的视觉注意力是不均匀的,人类倾向于关注不同的身体通讯作者为策武路,邮箱:lucewu@sjtu.edu.cn,twitter:@Cewu Lu,Cewu Lu是MoE部人工智能重点实验室、上海交通大学人工智能研究所、上海交通大学SenseTime人工智能实验室的成员。2H.S. Fang和J.Cao和Y.W. Tai和C. 陆(a) 常规HOI识别模型(b)我们的模型Fig. 1.给定图像,一个人在他/她的手中拿着杯子,常规模型(a)从整个身体特征推断HOI。相比之下,我们的模型(b)明确地关注有区别的身体部位以及对象与不同身体部位之间的相关性。在该示例中,保持马克杯的上臂和下臂在所有上述图像上形成锐角。根据不同的上下文。如图1所示,尽管HOI标签在所有示例中是相同的,但是身体姿势都是不同的,除了保持马克杯的手臂。这促使我们引入一个非均匀的注意力模型,可以有效地发现最具信息量的身体部位的HOI识别。然而,简单地在身体部位上建立注意力不能捕获重要的HOI语义,因为它忽略了不同身体部位之间的相关性在图1中,上臂和下臂以及手协同工作并且由于物理约束而形成锐角。这样的观察促使我们进一步关注多个身体部位之间的相关性。为了使一个实际的解决方案,我们认为每对身体部位之间的联合相关性这样的成对集合定义了一组新的相关特征图,其特征应该被同时提取具体而言,我们引入成对ROI池,其池出成对身体部位的联合特征图,并丢弃其他身体部位的特征。该表示对于不相关的人类姿势是鲁棒的,并且检测到的HOI标签具有显著更少的假阳性,因为不相关的身体部位被过滤。随着成对特征的集合,我们建立了一个注意力模型,以自动发现相对于每个HOI标签有意义的身体部位的判别性成对相关性。通过最小化端到端损失,系统被迫选择最具代表性的成对特征。通过这种方式,我们训练的成对注意力模块能够提取不同身体部位之间有意义的联系。据我们所知,我们的工作是第一次尝试将注意力机制应用于人体部位相关性,以识别人与物体的相互作用。我们在HICO数据集[5]和MPII数据集[2]上评估了我们的模型。我们的方法达到了最先进的结果,并优于以前的方法10%,相对于mAP上的CASTO数据集。成对身体部位注意力32相关工作我们的工作涉及计算机视觉的两个活跃领域:人-物体交互和视觉注意。人-物交互(HOI)识别是人类动作识别的一个子任务,也是理解人类实际动作的一个关键任务。它可以解决两个人具有几乎相同的姿势时动作识别中的歧义,并在识别标签中提供更高级别的语义。动作识别的早期研究考虑视频输入。代表作品包括[16,41,42]。在从静止图像的动作识别中,先前的工作尝试使用人的姿势来识别人的动作[43,40,21,47,28,52]。然而,仅考虑人的姿势是模糊的,因为在静止图像中没有为了解决这样的歧义,引入人-对象交互。通过额外的高级上下文信息,它已经证明了在提高动作识别性能方面的成功[8,51,32,20]。由于识别小对象是困难的,一些作品[50,54,36]试图通过识别有区别的图像块来简化对象识别其他工作线包括利用图像中的高级属性[26,53],探索BoF方法的有效性[6],结合颜色信息[24]和语义层次[33]以辅助HOI识别。最近,基于深度学习的方法[12,11,29,13]在这项任务上给出了有希望的具体地,Gkioxari et al. [11]开发一个基于部分的模型,根据整个人和部分边界框的输入进行细粒度的动作识别。Mallya和Lazebnik[29]提出了一个简单的网络,该网络融合了来自人边界框和整个图像的特征,以识别HOI。与上述方法相比,特别是基于深度学习的方法,我们的方法主要在以下几个方面有所不同首先,我们的方法明确考虑人体部位和它们的成对相关性,而Gkioxari等人。[11]仅考虑粗略级别的部分(即,头,躯干和腿),它们之间的相关性被忽略,和Mallya等人。[29]只考虑整个人的边界框。其次,我们提出了一个注意机制,学习专注于身体的特定部位和空间结构,这在以前的文献中还没有讨论过。注意力模型人类的感知集中在视野的一部分,以获取详细的信息,而忽略那些无关的。这种注意机制在计算机视觉领域已经研究了很长时间。由人类感知驱动的早期工作是显着性检测[22,19,15]。最近,有一些工作试图将注意力机制纳入深度学习框架[31,25,7]。这种尝试已被证明在许多视觉任务中非常有效,包括分类[45],检测[3],图像字幕[55,38,46]和图像问答[49]。Sharma等人。 [37]首先通过使用LSTM [18]将注意力模型应用于动作识别领域,以关注视频帧的重要部分最近的一些作品[27,39,10]部分与4H.S. Fang和J.Cao和Y.W. Tai和C. 陆海标签图二.概述我们的框架。该模型首先从一组建议中提取人、物和场景的视觉特征.我们使用ROI成对池化(a)对不同身体部位的特征及其成对相关性进行编码。然后,我们的成对身体部位注意模块(b)将选择那些有区别的身体部位对的特征图。来自人、对象和场景的全局外观特征(c)也将有助于最终预测。在[29]之后,我们采用MIL来解决图像中多人同现的问题更多详细信息请参见文本我们的报纸在[27,39]中,LSTM网络用于学习关注每个帧内骨架的信息关节,以识别视频中的动作他们的方法与我们的方法不同,他们的模型学习专注于动作序列中3D骨架的判别关节。在[10]中,作者介绍了一种用于动作识别的注意力池机制但是他们的注意力被应用到整个图像上,而不是像我们一样明确地关注人体部位和身体部位之间的相关性。3我们的方法我们的方法利用全局和局部信息来推断HOI标签。全局上下文信息已经被许多先前的作品[8,51,32,20]很好地研究,专注于利用人,物体和场景的特征在第3.1节中,我们回顾了之前的深度学习模型[29],该模型利用了人和场景的特征基于[29]的模型,我们进一步结合了对象特征。这形成了一个强大的基础网络,可以有效地捕获全球信息。请注意,我们改进的基础网络已经实现了比[29]提出的模型性能更好。在第3.2节中,我们描述了将成对身体部位相关性纳入深度神经网络的主要算法。具体来说,我们提出了一个简单而有效的池化方法,称为ROI成对池化,它编码每个身体部位的局部特征和它们之间的成对相关性。一个注意力模型的开发,专注于歧视性的成对特征。最后,我们在第3.3节中提出了全局特征和局部成对相关特征的组合。图2显示了我们的网络架构的概述。(b)成对身体部位注意模块FC层(a)ROI成对合并VGGFC6Conv 5(c)全球亮相FC层Concat密耳场景人类对象身体部位ROI池FC6对象特征场景人类选定的躯干部位对身 体部 位对成对身体部位注意力53.1全局外观特征场景和人体特征为了利用整个人和场景的特征进行HOI识别,[29]提出了一个有效的模型,我们采用它来构建我们的基础网络。如图2,给定一个输入图像,我们调整大小并将其转发到VGG卷积层,直到Conv5层。在这个共享的特征图上,ROI池化层提取每个人的ROI特征,并给出场景的边界框。对于每个检测到的人,他/她的特征与场景特征连接并通过完全连接的层转发,以估计预定义列表上的每个HOI的分数在HICO数据集中,同一图像中可以有多个人只要观察到相应的HOI,每个HOI为了解决多个人的问题,多实例学习(MIL)框架[30]被采纳。MIL层的输入是对每个人的预测在图像中,并且其输出是得分阵列,该得分阵列取所有输入预测中的每个HOI的最大得分。由于MIL不是我们工作的主要贡献,我们请读者参考[29,30]以了解MIL的更多细节以及如何将其应用于HOI识别。合并对象特征为了在上下文中对HOI有连贯的理解,我们通过合并对象特征进一步改进了基线方法,这在[29]中被忽略。特征表示给定对象边界框,一个简单的解决方案是提取相应的特征图,然后将它们与人和场景的现有特征连接起来。然而,这种方法对于HOI识别的任务没有太大的改进。这是因为对象和人之间的相对位置未被编码。因此,相反,我们将ROI设置为检测到的人和物体的联合框。我们的实验(第4.2节)表明这种表示是有效的。处理多个对象在HICO数据集中,图像中可以有多个人对于每个人,多个对象可以共同出现在他/她周围。为了解决这个问题,我们对不同对象和人的多个联合框进行采样,并将ROI池分别应用于每个联合框。在我们的实现中,一个人周围的采样对象的总数是固定的。实施细节将在第4.第一章将提取的对象特征与人和场景的特征这构建了用于捕获良好的全局外观特征的强基础网络3.2局部成对身体部位特征在本小节中,我们将描述如何使用我们的成对身体部位注意力模块来获得成对身体部位特征。6H.S. Fang和J.Cao和Y.W. Tai和C. 陆拾取最大值特征图对1对2FC层注意力分数X繁殖X缩放特征图对1对2top-k选择缩放特征图对iK(一)对mm个身体部位对X繁殖对m(b)第(1)款对jk个选定的身体部位对图三. (a)ROI成对池化层的图示。R1和R2分别表示不同身体部位的边界框。ROI成对池化层提取R1和R2的联合区域特征。其余区域将被丢弃。对于ROI成对池化中的每个采样的网格位置,对网格区域内的最大值进行采样。(b)成对身体部位注意模块的流水线。从成对的身体部位特征映射池的ROI成对池化层,我们应用FC层来估计的注意力得分。注意力分数然后乘以身体零件特征映射。最后,我们引入了特征选择层,它选择前k个最重要的身体部位对,并传播它们的缩放特征图到下一步。给定一对身体部位,我们希望提取它们的关节特征图,同时保留它们的相对空间关系。让我们用R1(r1,c1,h1,w1)、R2(r2,c2,h2,w2)表示ROI对,并且用Ru(ru,cu,hu,wu)表示它们的联合框,其中(r,c)指定ROI的左上角,并且(h,w)指定高度和宽度。一个直观的想法是将ROI设置为身体部位对的并集框,并使用ROI池化层来提取特征。然而,当两个身体部分彼此远离时,例如,手腕和脚踝,他们的联合框将覆盖大面积的不相关的身体部位。这些不相关的特征会在训练过程中混淆模型。为了避免它,我们将(两个)身体部位框外的激活指定为零,以消除那些不相关的特征。然后,为了保证Ru表示的大小一致,将联合盒Ru的特征映射转化为固定大小的H×W特征. 它以统一的最大池化方式工作:我们首先将hu×wu划分为H×W网格,然后对于每个网格,将该网格单元内的最大值汇集到相应的输出单元中。图3(a)说明了我们的ROI成对池的操作。使用ROI成对池化层,对两个身体部位的关节特征及其相对位置进行编码。注意,身体部位对的数量通常很大(对于n个部位,C(n,2)),并且许多成对的身体部位很少相关。我们自动发现这些歧视性的相关性,提出了一个注意模块。注意力模块图3(b)说明了我们的注意力模块的管道。我们的注意力模块获取所有可能的成对身体的特征图-R1RuR2...............成对身体部位注意力7部分对P ={pi,p2,…p m}作为输入,其中m = C(n,2)是身体部位对的数量。对于每个成对的身体部位pi,全连接层将回归注意力分数si。评分S ={s1,s2,…表示每个身体部位对的重要性。如前所述,只有一些身体部位对与HOI相关,并且不相关的身体部位对可能导致神经网络的过拟合。假设我们需要选择k个身体部位对的特征,我们的选择层将保留属于具有前k个得分的身体部位对的特征图,并丢弃其余的。所选集合可以表示为:Φ={pi}|sirankstopkinS}。(一)注意力分配不同的特征图总是具有相同的值尺度,但它们对HOI识别的贡献不同因此,我们应该重新缩放特征图以反映它们的实际影响。在数学上,它被建模为乘以对应的注意力分数,其可以表示为:fj=pc(j)×sc(j),(2)其中c(j)是Φ中的第j个元素的索引,并且表示第j个重新缩放的特征图。讨论我们只允许k个成对特征来表示相互作用。S被强制分配大的值到与输入交互相关的一些成对的身体部分,以实现更好的准确性。因此,S使注意力机制无需人类监督。在实验4.4部分,我们验证了学习的注意分数与人类感知一致。自方程以来的培训(1)不是可微函数,它没有要更新的参数,并且在反向传播期间仅将梯度从后一层传递到前一层当仅选择前k个成对特征图时,由特征选择层选择的特征图的梯度将从后一层复制到前一层。通过将相应的值设置为零,丢弃的特征图的梯度将被丢弃由于等式(2)可以很容易地得到,注意力分数在反向传播期间自动更新,并且我们的注意力模块以端到端的方式进行训练。结合ROI成对池化层和注意力模块,我们的成对身体部位注意力模块具有以下属性:– 每个身体部位的局部特征和身体部位之间的更高级别的空间关系都被考虑在内。– 对于不同的HOI,我们的新的成对身体部位注意模块将自动地发现有区别的身体部位和成对关系。8H.S. Fang和J.Cao和Y.W. Tai和C. 陆3.3组合全局和局部特征在获得所选择的成对身体部位特征和全局外观特征之后,我们将它们分别转发通过最后的FC层以估计最终的预测。预测被应用于每个检测到的个体实例。4实验我们在本节中报告我们的实验结果。我们首先描述了实验设置和训练我们的基线模型的细节。然后,我们将我们的结果与最先进的方法进行比较。进行消融研究,以进一步分析我们的网络的每个组件的有效性。最后,在本节的最后将给出一些分析。4.1设置数据集我们在两个常用的数据集,即HICO和MPII数据集上进行实验。HICO数据集[5]是目前最大的HOI识别数据集。它总共包含600个HOI标签,并且可以在图像中同时呈现多个标签地面实况标签在图像级别给出,而没有任何边界框或位置信息。此外,多个人可以出现在同一图像中,并且他们执行的活动可以相同也可以不同。因此,标签可以被视为图像中所有HOI活动训练集包含38,116张图像,测试集包含9,658张图像。我们从训练集中随机抽取10,000张图像MPII数据集[2]包含15,205张训练图像和5708张测试图像。与OOO数据集不同,图像中的所有人实例都被假设为采取相同的动作,并且每个图像都被分类为393个动作类中的一个在[29]之后,我们从训练集中抽取了6,987张图像作为验证集。HICO我们使用更快的RCNN [34]检测器来获得人和物体的边界框。对于每个图像,将对3个人类提议和4个对象提议进行采样以适合GPU存储器。如果人或物体的数量少于预期,我们用零填充剩余区域对于人体部位,我们首先使用姿势估计器[9]来检测所有人体关键点,然后基于关键点定义10个身体部位图5(a)中示出了我们的方法的所选择的代表性人体部位。每个部分被定义为具有与检测到的人体躯干的大小成比例的边长的规则边界框。对于身体部位对,不同身体部位之间的成对组合的总数是45(C(10,2))。我们首先将Mallya&Lazebnik[29]的简历作为我们的简历。然而,我们尽了最大的努力,只能达到35。6 mAP,而成对身体部位注意力9来自Mallya和Lazebnik的报告结果为36.1mAP。我们使用这个模型作为我们的基准模型。在训练过程中,我们遵循与[29]相同的设置,初始学习率为1 e-5,用于30000次迭代,然后1 e-6用于另外30000次迭代。批量大小设置为10。类似于[29,14]中的工作,网络被微调直到conv3层。我们在单个Nvidia 1080 GPU上使用Caffe框架[23]训练我们的模型在测试周期中,一个图像的一个正向通过花费由于HICO数据集中的HOI标签高度不平衡,因此我们采用加权sigmoid交叉熵损失ΣC损失(I,y)=wi·yi·log(y(i))+wi·(1−yi)· log(1−y(i)),p ni=1其中,C是独立类别的数量,Wp和Wn是针对像素和像素样本的权重因子,y是针对图像I的像素,并且y是针对图像I的图像。在[29]之后,我们设置w p=10和w n= 1。由于图像中的所有人都在执行相同的动作,因此我们直接在每个人身上训练模型,而不是使用MIL。MPII的训练集包含手动标记的人类关键点。对于测试集,我们运行[9]以获得人类关键点和建议。采用检测器[34]来获得训练集和测试集中的对象边界框。与HICO数据集的设置类似,我们对每个图像最多采样4个对象提案。在训练过程中,我们将初始学习率设置为1 e-4,每12000次迭代衰减0.1,并在40000次迭代时停止。对于MPII数据集,我们不使用加权损失函数与[29]进行公平比较。4.2结果方法全进口Bbox/Pose MIL Wtd Loss mAPAlexNet+SVM [5]C19.4美国有线电视新闻网[14]CC28.5[29]第二十九话CCC33.8摆个瑞古的姿势收件人合并[10]CC34.6我们CCC37.5Mallya Lazebnik,加权损失[29]CCCC36.1我们的,加权损失CCCC39.9表1.与先前在CITRO测试集上的结果进行比较R*CNN的结果直接复制自[29]。10H.S. Fang和J.Cao和Y.W. Tai和C. 陆方法全图像Bbox姿势确认(mAP)测试(mAP)密集轨迹+姿势[2]CC-5.5R*CNN,VGG16 [14]C21.726.7[29]第二十九话CC-32.2我们的,VGG16CCC30.936.8姿势登记员[10]第十届全国人大代表CC30.636.1我们的,Res101CCC32.037.5表2.与MPII测试集上先前结果的比较。测试集上的结果是通过将我们的预测通过电子邮件发送给[2]肘-踝身体部位对用于滑板跳跃腕-膝、腕-踝身体部位对骑自行车用的(a) 我们的模型能够发现不同身体部位之间的相关性,并倾向于为每个HOI选择相似的身体部位对具有最高注意力分数的身体部位对显示在红色框中。坐在长凳上跨骑自行车,骑自行车,坐在自行车上,拿着自行车举风筝,放风筝举领带,戴领带系领带,调整领带牵着马,骑马,跑马,跨骑在马上背着背包磨滑雪板跳滑雪板,骑滑雪板,站在滑雪板跳 滑 板 , 骑 滑板,翻滑板吉他,古典,民间,坐高尔夫小提琴,坐儿童保育(b) 我们模型预测的一些例子前两行是HICO数据集的结果,最后一行是MPII数据集的结果。检测到的人体边界框显示在绿色框中,具有最高注意力分数的身体部位对显示在红色框中。下面给出了预测的HOI了图 4.第一章我们的模型的预制品的保留。成对身体部位注意力11我们比较了我们在表1中的HICO测试集和表2中的MPII测试集上的性能。通过选择性地关注人体部位及其相关性,我们基于VGG16的模型在HICO测试集上实现了37.6 mAP,在MPII测试集上实现了36.8mAP。使用加权损失函数,我们可以进一步实现39.9 mAP的HICO测试集。由于[10]使用ResNet101 [17]作为他们的基础模型,我们还通过将我们的VGG16基础网络替换为ResNet101来对MPII数据集进行实验,以便与[10]进行公平比较我们可以看到,我们基于VGG16的模型在HICO和MPII数据集上已经取得了比[10]更好的性能,并且通过使用相同的基础模型,我们在MPII数据集上的表现优于[10] 1.4 mAP。这些结果表明,来自身体部位及其相关性的信息在识别人-物体交互中是重要的,并且它允许我们在两个数据集上实现最先进的性能。图4显示了我们的模型产生的一些定性结果我们将注意力得分最高的身体部位对可视化在红框中。更多结果在补充材料中给出。4.3消融研究为了评估我们网络中每个组件的有效性,我们在HICO数据集上进行了几次实验,结果如表3所示。方法地图a)基线35.6b)联管箱37.0密封盒36.3c)身体部位,无注意38.0身体部位对,无注意力38.9d)身体部位配对,注意39.9身体部位配对,注意39.13. 我 的 世 界 在 HICO 测 试 集 上 对 数 据 库 进 行 预 处 理 。“unionbox”是指从human和objecct的并集框的区域提取的对象的特征。“tig h t b o x“指的是一个不受约束的对象的情况,而该对象的执行是从一个不受约束的对象的执行中获得的。“无注意”指的是没有注意机制的方法。如表3(b)所示,我们改进的具有对象特征的基线模型可以实现比不使用对象特征的基线方法更高的mAP。结果表明,目标信息对HOI识别是重要的.从表中我们可以看出,使用来自联合盒而不是紧盒的特征可以实现更高的mAP。请注意,我们改进的基线模型已经实现了最先进的结果,0。9mAP高于[29]报道的结果。12H.S. Fang和J.Cao和Y.W. Tai和C. 陆从身体部位信息的改进我们评估的性能改进与额外的身体部位信息。10个身体部位的特征图直接与全局外观特征连接,而不考虑注意机制或身体部位相关性的优点。从表3(c)中可以看出,我们进一步获得了1的改进。0mAP。成对身体部位注意力为了评估我们的成对身体部位注意力模型的每个组成部分的有效性,已经进行了一系列实验,结果报告在表3(d)中。首先,我们考虑不同身体部位的相关性45个身体部位对的特征图与全局外观特征连接以估计HOI标签。考虑到身体部位成对信息,我们的模型可以达到38.9 mAP。它表明,利用身体部位之间的空间关系有利于HOI识别的任务。然后,我们在这个网络上添加我们的注意力模块。对于我们的特征选择层,我们将k设置为20。k值的影响将在4.4节的分析中讨论。通过我们的成对身体部位注意力模型,我们的模型进一步产生39.9 mAP,即使完全连接的层从更少的部分接收更少的信息。我们还通过同时学习专注于区分身体部位和身体部位对来进行实验。我们的注意力模型的候选者是10个身体部位和45个身体部位对的特征图。然而,最终结果略有下降,为39。ImAP。一个可能的原因是,我们的ROI成对池已经编码了每个单个身体部位的局部特征。身体部位的额外信息可能分散了我们的注意力网络。4.4分析在我们的特征选择层中,我们需要决定k,即我们传播到下一步的身体部位对的数量我们进行了一个实验来评估K的效果。我们在具有不同k值的HICO训练集上训练我们的成对身体部位注意力模型。验证集上的性能报告见图5(b)。当k增加时,我们的模型的性能增加,直到k= 20。在此之后,我们的模型的性能开始下降。当k等于45时,等效于不使用特征选择层。这种情况下的性能比最高精度低1.2 mAP这表明拒绝不相关的身体部位对是重要的。注意力评估为了查看我们的模型的注意力与人类的注意力有多接近,我们将区分H0I和由我们的训练注意力模块最频繁地选择的身体对上的优先级表4中给出了一些示例。整个清单载于补充材料。我们邀请30人来判断所选择的对的选择是否与给定的HOI标签相关。如果有一半的人同意成对身体部位注意力13(a)(b)第(1)款图五、(a)我们定义的人体部位。每个边界框表示定义的身体部位。(b)识别精度与特征选择层中所选成对身体部位特征图的数量之间的关系。海选择相关性猎鸟膝-腕-肘-颈-踝-肘板车踝左拥抱者肘颈跳车腕-骨盆右踝-骨盆右肘-颈调整结腕颈表4.一些HOI及其对应的由我们的模块选择的最多选择的身体部位对。“l”和“r”标志不适用于左和右。身体部位对对于决定HOI标签是重要的,我们认为所选择的身体部位对是正确的。在我们的设置中,前k个准确度意味着正确的身体部位对出现在注意力模块的前k个预测中。我们的top- 1精度达到0.28,top-5精度达到0.76。有趣的是,我们的注意力模块选择的身体部位对在某种程度上与我们的直觉相匹配。通过HOI类的改进为了了解哪些类型的交互由于身体部位信息的结合而变得不那么混乱,我们比较了在有和没有提出的成对身体部位注意力模块的情况下,在CNOO数据集中随机挑选的20个HOI的结果。比较总结见表5。当HOI需要更详细的身体部位信息,如冲浪板持有,苹果购买和鸟释放,我们的模型显示了一个很大的改进,基线模型。14H.S. Fang和J.Cao和Y.W. Tai和C. 陆海[29日]我们海[29日]我们猫抓病47.7 50.9 上车37.1 48.2撑伞83.7 86.9 苹果收购19.3 59.0键盘键入71.6 68.3 蛋糕照明16.3 24.1船艇检查21.1 31.9 杯形检测1.01.5烘炉清洗22.1 13.1 叉舔4.45.3冲浪板固定52.9 63.6 鸟类放生14.5 51.3餐桌上吃饭86.6 86.9 停车场28.9 26.3夹层无相互作用74.2 85.2 跳马87.0 86.9摩托车清洗57.7 64.8 勺洗14.5 15.3飞机载荷64.1 60.0 卫生间维修11.4 22.6表5.我们随机选择了20个类别的数据集,并将我们的结果与Mallya Lazebnik[29]的结果进行比较。评估度量是mAP。全套结果可在补充材料中找到。5结论在本文中,我们提出了一种新的成对身体部位注意力模型,它可以分配不同的注意力到不同的身体部位对。为了实现我们的目标,我们引入了ROI成对池化,以及提取有用身体部位对的成对身体部位注意模块。由我们的注意力模块选择的成对特征图我们的实验结果表明,我们的方法是强大的,它显着提高了识别精度,特别是对于HOI标签,需要详细的身体部位信息。在未来,我们将调查的可能性,包括多人互动到HOI识别。6确认本工作得到了国家重点研发计划(编号:2017YFA0700800)、国家自然科学基金(资助号:61772332)和商汤科技有限公司的部分支持成对身体部位注意力15引用1. 好的E E、 A.,A., Dürr,J. ,N ing,K., De llen,B., Wo¨rgo¨tter,F. : 通 过 操 作 系 统 来 管 理 B B CT- A C T O N 相 关 的 结 构 。TheInternatinalJounalofRobti csReserch30(10),12292. Andriluka,M.,Pishchulin,L.Gehler,P.Schiele,B.:2D人体姿势估计:新基准和最新分析。IEEE计算机视觉与模式识别会议(CVPR)(2014年6月)3. Ba,J.,Mnih,V.,Kavukcuoglu,K.:多目标识别与视觉注意。In:arXivpreprint arXiv:1412.7755(2014)4. Boyer,T.W.,Maouene,J.,Sethuraman,N.:对身体部位的关注随着视觉表现和视觉效果的变化而变化。CognitiveProcessing(20 17)5. Chao,Y.W.,王志,他,Y.,王杰,Deng,J.:Hico:用于识别图像中的人-对象交互的基准In:ICCV(2015)6. Delaitre,V.,拉普捷夫岛Sivic,J.:在静止图像中识别人类动作:一项关于特征袋和基于零件的表示的研究。BMVC(2010)7. Denil,M.,巴扎尼湖Larochelle,H. de Freitas,N.:了解在哪里参加针对数据挖掘的高级课程。N.E.U.R.C.PutAt〇n24(8),21518. Desai,C.,Ramanan,D. Fowlkes,C.:静态人体阻塞的判别模型。In:CVPR9. Fang,H.S.,Xie,S.,Tai Y.W. Lu,C.:RMPE:区域多人姿势估计。In:ICCV(2017)10. Girdhar河Ramanan,D.:动作识别的注意力集中。In:NIPS(2017)11. Gkioxari,G.,格尔希克河Malik,J.:整体和部分的动作和属性。In:ICCV(2015)12. Gkioxari,G.,Hariharan,B.,格尔希克河Malik,J.:用于姿态估计和动作检测的r-cnn。In:arXiv preprint arXiv:1406.5212(2014)13. G.,G., G i r s hi ck,R., 做吧,P He,K. :检测和识别对象间的相互作用。在:arXiv预印本arXiv:1704.07333(2017)14. Gkioxari,G.,格尔希克河Malik,J.:使用r* cnn进行上下文动作识别。In:ICCV(2015)15. Goferman,S.,Zelnik-Manor湖Tal,A.:上下文感知显著性检测。TPAMI34(10),191516. 汉,D.,博湖Sminchisescu,C.:用于动作识别的选择和上下文In:ICCV(2009)17. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。arXiv预印本arXiv:1512.03385(2015)18. Hochreiter,S.,Schmidhuber,J.:长短期记忆。神经计算9(8),173519. 侯,X.,Zhang,L.:显著性检测:光谱残差方法。在:CVPR(2007)20. 胡J.F. Zheng,W.S.,Lai,J.,龚,S.,Xiang,T.:通过基于范例的建模来识别人与物体的交互。In:ICCV(2013)21. Ikizler,N.,Cinbis,R.G.,Pehlivan,S.,Duygulu,P.:从静止图像中识别动作。In:ICPR(2008)22. 伊蒂湖Koch,C.,尼布尔,E.:基于显著性的快速搜索视觉注意模型。TPAMI20(11),125416H.S. Fang和J.Cao和Y.W. Tai和C. 陆23. Jia,Y.,Shelhamer,E.,Donahue,J.,Karayev,S.,朗J格尔希克河瓜达尔-拉马,S.,达雷尔,T.:Caffe:用于快速特征嵌入的卷积架构ArXiv预印本arXiv:1408.5093(2014)24. Khan,F.S.,Anwer,R.M.,van de Weijer,J.,Bagdanov,A.D.,洛佩兹上午Fels-berg,M. :将日志记录在存储器中。IJCV105(3),20525. Larochelle,H. Hinton,G.E.:学习把中央凹的影像和三阶玻尔兹曼机结合起来。NIPS(2010)26. 刘杰,Kuipers,B.,Savarese,S.:通过属性识别人类行为。在:CVPR(2011)27. 刘杰,Wang,G.,Hu,P.,Duan,L.Y.,科特,A.C.:用于3d动作识别的全局上下文感知在:CVPR(2017)28. Maji,S.,Bourdev,L.Malik,J.:从姿势和外观的分布式表示进行动作识别在:CVPR(2011)29. Mallya,A.,Lazebnik,S.:动作和人-物交互的学习模型,并转移到问题回答。In:ECCV(2016)30. M aron,O., Lo zano-P'erez,T. :Aframeworkforrultiple-instancelearng(1998)31. Mnih,V.,Heess,N.格雷夫斯,A.,等:视觉注意的循环模型。在:NIPS(2014)32. Prest,A.,施密德角Ferrari,V.:交互的弱监督学习是-tweenhumans和objects。TPAMI34(3),60133. Ramanathan,V. Li,C.,Deng,J.,汉,W.,Li,Z.,Gu,K.,Song,Y.,本吉奥美国,Rosenberg,C.李菲菲:学习语义关系以更好地检索图像中的动作。参见:CVPR(2015)34. Ren,S.,他,K.,格尔希克河孙杰:更快的r-cnn:利用区域建议网络实现实时目标检测。In:NIPS(2015)35. Ro,T.,Friggel,A.,Lavie,N.:对面部和身体部位的注意偏向。VisualC〇 gnit〇n15(3),32236. Sharma,G. Jurie,F.,Schmid,C.:静态图像中人体属性和动作识别的扩展部件模型。在:CVPR(2013)37. Sharma,S.,基罗斯河Salakhutdinov,R.:使用视觉注意力的动作识别38. Shih,K.J.,辛格,S.,Hoiem,D.:在哪里看:视觉问答的焦点区域。见:CVPR(2016)39. Song,S.,兰角邢杰,Zeng,W.,Liu,J.:一个端到端的时空注意力模型,用于从骨架数据识别人类动作在:AAAI(2017)40. T hurau,C., Hlava'c,V. :P〇Sepr imitivebasedhumanacti onredos或静止图像中的图像记录。载于:CVPR(2008年)41. 王,H., Klaéser,A., S chmid,C., Liu,C. L. :ACTI ONreS E T R AC TIONRE S E T R A C TI O NR AC T I O N S E T RAC TION在:CVPR(2011)42. 王,H.,Schmid,C.:具有改进轨迹的动作识别。In:ICCV(2013)43. 王玉,江,H.,德鲁理学硕士Li,Z.N.,Mori,G.:动作类的无监督发现。在:CVPR(2006年)44. W?rg?tter,F., 好的E E、 Krüger,N., Piater,J., Ude,A., 你还活 着 M : 基 于 手 - 物 关 系 的 简 单 操 作 动 作 本 体 。 IEEETransactionsonAutonomousMentalDevelopment5(2),11 7- 134(2013)45. Xiao,T.,徐,Y.,杨,K.,张杰,彭,Y.,张志:两级注意力模型在深度卷积神经网络中的应用,用于细粒度图像分类。参见:CVPR(2015)成对身体部位注意力1746. 徐,K.,Ba,J.,基罗斯河周,K.,南卡罗来纳州考维尔Salakhutdinov河Zemel,R.S.,Bengio,Y.:显示、出席和讲述:具有视觉注意的神经图像字幕生成。在:ICML。第14卷(2015年)47. 杨伟,王玉,Mori,G.:从具有潜在姿势的静止图像中识别人的动作。在:CVPR(2010)48. 杨,Y.,Fermuller,C.Aloimonos,Y.:检测操纵动作结果(mac)。在:CVPR(2013)49. 杨志,他,X.,高,J.,邓湖Smola,A.:用于图像问答的堆叠注意力网络。见:CV
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功