没有合适的资源?快使用搜索试试~ 我知道了~
382构成look_at-sth摆动摆动PaStaNet无作用踢某物足球人足球人站部件状态注释足球(b)第(1)款PastaNet:面向人类活动的知识引擎Yong-Lu Li,Liang Xu,Xinpeng Liu,Xijie Huang,YueXu,Shiyi Wang,Hao-Shu Fang,Ze Ma,MingyangChen,CewuLu上海交通大学{李永禄,梁旭,黄宅男,silicxuyue,shiywang}@ sjtu.edu.cn,{xinpengliu0907,fhaoshu}@ gmail.com,{maze1234556,cmy123,lucewu}@sjtu.edu.cn摘要现有的基于图像的活动理解方法主要采用直接映射的方法,即:从图像到活动城市概念,这可能会遇到性能瓶颈,因为巨大的差距。有鉴于此,我们提出了一种新的路径:首先推断人体部位状态,然后基于部位层次语义推理出活动。人体部位状态(Pasta)是细粒度的动作语义令牌,例如。手、握、物、物,它们可以组成活动,帮助我们走向人类活动知识的统一。人踢足球(a) 实例语义人踢足球(b) 分层:实例&部件语义gine。为了充分利用PaSta的强大功能,我们构建了一个大规模的知识库PaStaNet,其中包含7M+ PaSta注释。并提出了两个相应的模型:首先,我们设计了一个名为Activity2Vec的模型来提取PaSta特征,旨在对各种活动进行通用表示。第二,我们使用一种基于Pasta的推理方法来推断活动。在PaStaNet的推广下,我们的方法取得了显著的改进,例如。在监督学习中,完整和一次性的CNOO集分别为6.4和13.9 mAP代码和数据 可 在 www.example.com 上 获 得 http://hake-mvig.cn/。1. 介绍从图像中理解活动对于构建智能系统至关重要。在深度学习的推动下,这一领域取得了巨大的进步。最近的工作[7,64,61,40]主要解决这一高层次的认知任务的一个阶段,即。从像素到活动概念直接基于实例级语义(图1(a))。这种策略在大规模基准测试中面临性能瓶颈[3,24]。理解活动是困难的,原因有:长尾数据分布、复杂的可视模式等。此外,动作理解还需要一个知识引擎来支持与动作相关的任务.卢策武是通讯作者,中国上海交通大学人工智能研究所青元研究院和MoE人工智能重点实验室成员图1.实例级和层次方法。除了实例级路径,我们执行身体部位状态识别的部分级别与PaSta注释。在PaSta的帮助下,我们可以显着提高活动理解的表现因此,对于来自另一个领域和看不见的活动的数据,知识转移和适应所需的努力要小得多。此外,在大多数情况下,我们发现只有少数关键的人体部分与现有的动作相关,其他部分通常很少有有用的线索。考虑图中的示例1,我们认为,在人类的部分级别的语义感知是一个有前途的道路,但不幸的是被忽视。我们的核心思想是,人类的实例动作是由细粒度的原子身体部位状态。这与还原论有很强的关系[10]。此外,部分级路径可以帮助我们挑选出可区分的部分,而忽略不相关的部分。因此,从人体部位提取知识是实现人体活动知识引擎的关键.类属宾语部分状态[39]揭示了宾语部分的语义状态是有限的。例如,在对7M手动标记的身体部位状态样本进行穷尽检查后,我们发现,在日常生活活动中,“头”只有大约12个状态因此,本文对人体部位在活动中可能的语义进行了详尽的收集和标注,构建了一个大规模的人体部 位 知 识 库 PaStaNet ( PaSta 是 Body Part State 的 缩写)。现在,PaStaNet包括118 K+图像,285 K+人,383250个K+相互作用对象,724个K+活性和7个M+人体部分状态。大量的分析表明,PaStaNet可以覆盖大部分的部件级知识。在迁移学习中使用学到的PaSta知识,我们可以在V-COCO上实现3.2,4.2和3.2的改进[25],基于图像的AVA [24]和HICO-DET [3](第5.4)。鉴于PaSta Net,我们提出了两个强大的工具来促进基于图像的活动理解:1)Activ-ity 2 Vec:使用PaStaNet,我们将人类实例转换为由PaSta表示组成的向量。Activity2Vec通过PaSta识别提取部件级语义表示并组合其语言表示。由于PaSta对活动的公共知识进行编码,因此Activ-ity 2 Vec可以作为可见和不可见活动的通用特征提取器。2)PaSta-R:进一步提出了一种基于部分状态的推理方法(PaSta-R)我们构建了一个层次化的活动图,由人的实例和部分语义表示,并推断活动结合实例和部分级别的子图状态。我们的方法的优点是双重的:1)可重用性和可移植性:PaSta是动作的基本组成部分,它们的关系可以类比于氨基酸与蛋白质、字母与单词等。因此,PaSta是可重复使用,例如,hand,hold,hold是由各种动作所共有的,如“hold horse”和“eat aple”。因此,我们有能力用一个更小的PaSta集来描述和区分大量的活动,即。一次性标记和可转移性。 对少数人来说-镜头学习,可重用性可以大大减轻其学习难度。因此,我们的方法显示出显着的改进,例如。我们在单次发射的CO2上提高了13.9 mAP [4]。2)可解释性:我们不仅获得了更强大的活动表征,而且还获得了更好的解释能力。第当模型预测一个人在做什么时,我们可以很容易地知道原因:身体部位在做什么总之,我们相信PaStaNet将作为人类活动知识引擎。我们的主要贡献是:1)构建了第一个具有细粒度PaSta标注的大规模活动知识库PaSta Net。2)提出了一种新的部件级活动表示方法Activity2Vec和一种基于PaSta的推理方法。3)在监督学习和迁移学习中,我们的方法在大规模活动基准上取得了显着的改进,例如。6.4(16%)、5.6(33%)mAP改善[4][5][6][7][8][9][10]2. 相关作品活动理解。受益于深度学习和大规模数据集,基于图像的[4,25,33,1]或视频-基于[24,45,46,2,53,50,30]的活动理解最近取得了巨大的进步。人类活动具有层次结构,包含多种动词,因此很难为其类别定义一个明确的组织血淋淋的现有的数据集[24,4,12,25]通常在定义上有很大的差异,因此将知识从一个数据集转移到另一个数据集是无效的。与此同时,大量的工作已经提出来解决的活动下- standing [7,20,11,51,16,31,56,54]。 存在整体身体水平方法[55,7]、基于身体部位的方法[20]和基于身体的方法[57,11]等。但与其他任务(如目标检测[49]或姿态估计[15])相比,其性能仍然有限。人机交互。人-物交互(HOI)[4,3]占据了人类日常活动的大部分。在任务方面,一些工作集中在基于图像的HOI识别[4]。 此外,基于实例的HOI检测,问题[3,25]需要同时检测人和物体的准确位置并对交互进行分类。在信息利用方面,一些作品利用了整体人体和姿势[55,64,61,40,5],上下文也被证明是有效的[29,63,62,7]。根据学习范式,早期的作品通常基于手工制作的特征[7,29]。受益于大规模HOI数据集,最近的方法[20,13,22,19,41,48,17,34]开始使用深度神经网络来提取特征,并取得了很大的改进。基于身体部位的方法。除了实例模式之外,还研究了一些利用部分模式的方法[63,13,20,11,40,65]。Gkioxari等人[20]检测实例和部件,并将它们全部输入分类器。Fang等人[13个国家]定义零件对并对零件对特征进行编码以提高HOI识别。Yao等人[63]建立一个图形模型,并嵌入零件外观作为节点,并使用它们与对象特征和姿态来预测HOI。以往的工作主要是利用部分的外观和位置,但很少有研究试图将实例动作分解为离散的部分级语义标记,并将它们作为活动概念的基本组成部分相比之下,我们的目标是建立人的部分语义可重用和可转移的知识。部件状态。 部分状态在[39]中提出。 通过tokeniz-将语义空间作为一组离散的部分状态,[39]构建了一种基于分段的基本描述符[26,14,60]。为了利用这一线索,我们将人体划分为自然的部分,并利用其状态作为离散部分语义来表示活动。在本文中,我们关注的是人的部分状态,而不是日常物品。3. 构建PaSta网络在本节中,我们将介绍PaStaNet的构造。PaStaNet旨在探索人类PaSta作为原子元素的共同知识,以推断活动。PaSta定义。我们把人体分解成十个部分,即头、两个上臂、两只手、臀部、两个两条腿,两只脚。部件状态(PaSta)将分配给这些部件。每个PaSta表示目标部件的描述例如,“hand”的PaSta384或者在详尽地审查了收集的20万多张图像后,我们发现对任何人体部位的描述都可以归纳为有限的类别。也就是说,每个部件的PaSta类别编号是有限的。特别是,一个人可能有一个以上的行动同时,因此每个部分可以有多个PaSta,太。数据收集。一般来说,我们通过众包收集以人为中心的活动图像(30K图像与粗略的活动标签配对)以及现有的精心设计的数据集[4,3,25,33,66,36](185K图像),这些数据集围绕丰富的语义本体,多样性和活动的可变性进行结构化。他们的所有注释的人和ob-人用瓶装饮料手机上的人类用右手握住某物用头说话用右手握住某物为我们的建筑提取了木材。 最后,我们收集头-看 -某物坐在某物人力自行车右手握住某物右脚踩在某物上活动解析树超过20万张不同活动类别的图像左手握住某物左脚踩到某物活动标签。PaStaNet的活动类别是根据最常见的人类日常活动,与对象和人的交互来选择的。参考分层活动结构[12],现有数据集中的常见活动[4,25,66,33,24,12,1,36]和众包标签,我们从118 K图像中选择了156个活动,包括人-物体交互和身体运动。根据它们,我们首先从现有的数据集和众包中清理和重组注释的然后,我们对其余图像中的活动人物和互动对象进行注释。因此,PaStaNet包括156个活动的所有活动的人和对象边界框。身体部位包装盒。为了定位人体部位,我们使用姿势估计[15]来获得所有注释人员的关节然后我们生成十个身体部分框[13]。手动解决估计错误,以确保高质量的注释。每个零件框都以关节为中心,并且通过缩放颈部和骨盆关节之间的距离来预定义框大小。置信度高于0.7的关节当不是所有的关节可以检测到,我们使用身体知识为基础的规则。也就是说,如果颈部或骨盆不可见,我们将根据其他可见的关节组(头、主体、手臂、腿)配置部件框,例如,如果只有上半身可见,我们将手框的大小设置为瞳孔距离的两倍。PaSta注释。我们通过众包进行注释,收到了224,159个注释上传。过程如下:(1)首先,考虑到推广性,我们选择了PaSta类。基于156个活动的动词,我们从WordNet [44]中选择了200个动词作为PaSta候选,例如,“hold”, “pick” for hands, “eat”, “talk to” for head,如果零件没有对于任何活跃状态,我们将其描述为“不采取行动”。 2)其次,找到最常见的PaSta,可以作为可转移的活动知识,我们邀请了150个来自不同背景的注释者,用PaSta候选人注释156个活动的10K图像(图10)。2)。例如,给定一项活动图2. PaSta注释。基于实例活动标签,我们添加细粒度的主体部分框和相应的部分状态PaSta标签。在PaSta中,我们使用活动解析树中的边表示统计同现。它是指坐在上面,握着手,拿着东西,踩着、踩着、踩着的东西等。3)基于他们的注释,我们使用归一化逐点互信息(NPMI)[6]来计算活动和PaSta候选者之间的同现。最后,我们选择76个具有最高NPMI值的候选数据作为最终的PaSta。4)使用10K图像的注释作为种子,我们自动为所有其余图像生成初始PaSta因此,其他210个注释器仅需要修改注释。5)考虑到一个人可能有多个动作,对于每个动作,我们分别标注了它对应的十个Pasta。然后我们结合所有动作的PaSta集合。因此,一个部件也可以具有多个状态,例如, 在“边吃边说”中吃,吃,光头,看,有东西在同时移动。6)为确保质量,每张图像将被注释两次,并由自动程序和监督员进行检查我们对所有标签进行聚类并丢弃离群值以获得稳健的协议。活动解析树为了说明PaSta和活动之间的关系,我们使用它们的统计描述来构建一个图(图1)。2):活动是根节点,PaSta是子节点,并且边是同现。最 后 , PaStaNet 包 括 118K+ 图 像 , 285K+ 个 人 ,250K+交互对象,724K+实例活动和7M+PaSta。参考设计良好的数据集[24,12,4]和WordNet [44],PaSta可以覆盖大部分情况,具有良好的泛化能力。为了验证PaSta已经编码了公共部分级活动知识并且可以适应各种活动,我们采用了两个实验:覆盖实验。为了验证PaSta可以覆盖大多数活动,我们收集了其他50K图像关于PastaNet这些图像包含各种活动和手握0.574瓶装饮料头0.400饮料正面谈话0.354手柄0.497手机通话手柄0.430脚踏0.355骑自行车髋坐在零点二零三6e-05头看看385i=1p意大利面意大利面OpOpp oopi其中许多人在PastaNet中看不到。另外100名来自不同背景的志愿者被邀请去寻找我们的PaSta集不能很好描述的人体部位。我们发现,只有2。3%的病例无法找到合适的描述。这验证了PaStaNet对于活动是通用的。识别实验。 首先,我们发现PaSta可以很好地学习。用PaStaNet的一部分训练的浅层模型可以很容易地实现大约55mAP的PaSta识别。同时,在相同的数据和方法下,更深层次的模型只能在活动识别上实现大约40mAP通过第二节中的Activity2Vec转换为语义向量。四点二。我们相信它可以是一个通用的活动表示提取器。节中4.3,提出了一个层次活动图,通过利用PaStaNet来大大推进活动相关任务。4.1. 部件状态识别利用对象和身体部分框bo、Bp,我们如图所示操作PaSta识别。3.第三章。详细地说,COCO [35]预训练的Faster R-CNN [49]被用作特征提取器。对于每个部分,我们将部分Ric(Sec.5.2)。其次,我们认为帕斯塔可以很好b(i)中的特征f(i)和b中的对象特征f如─转移. 为了验证这一点,我们进行迁移学习实验(Sec.5.4),即首先训练一个模型,从PaStaNet中获取知识,然后用它来推断看不见的数据集的活动,甚至是看不见的活动。结果表明,PaSta可以很好地传输并提高性能(基于图像的AVA上的4.2mAP因此,它可以被认为是一般的零件级活动知识。4. 用PaStaNet在本节中,我们将讨论活动表示,Net.传统范例给定图像I,传统方法主要使用直接映射(图1)。(a)):Sinst=Finst(I,bh,Bo)(1)推杆对于仅身体运动,我们输入整个图像特征fc作为fo。所有特征将首先输入到部件相关性预测器。部位相关性表示身体部位对动作的重要性。例如,脚通常与“用杯子喝酒”具有弱相关性。而在“吃苹果”中,只有手和头是必不可少的。这些相关/注意标签可以直接从PaSta标签转换,即。注意标签将是1,除非其PaSta标 签 是 以 部 分 注 意 标 签 为 监 督 , 使 用 由 FC 层 和Sigmoids组成的部分相关性预测器来推断每个部分的注意{ai}10形式上,对于人和交互对象:ai=Ppa(f(i),fo),(4)来推断动作得分Sinst 以实例级语义为例,其中Ppa(·)是部分注意力预测器。 我们计算每个部分的交叉熵损失L(i),并将f(i)乘以tic representation finst. bh是人类的盒子,Bo=attp(i)i是它的标量注意力,即,fp=f(i)×a.{bo}i=1是这个人的m个交互对象框piPaStaNet Paradigm. 我们提出了一个新的模式,以uti-通用零件知识:1)PaSta识别和fea-第二,我们运营PaSta识别。对于每个部分,我们将重新加权的f(i)与f连接起来,并输入将人和交互对象B的真实提取到最大池化层和两个随后的512大小的f=R(一、B、b)、(2)FC层,从而获得第i的PaSta得分S(i)。意大利面A2VpO第二部分。 因为一个零件可以有多种状态,例如头其中Bp={b(i)}10是从同时执行“吃”和“看”。因此,我们使用多个Sigmoids来进行这种多标签分类。与姿态估计[15]自动跟随[13](头部,PaSta标签,我们构造交叉熵损失L(i). 的上臂、手、臀部、大腿、脚)。RA2V(·)指示Activity2Vec,其提取十个PaSta表示PaSta确认的总损失为:意大利面fPaSta={f(i)10i=1. 2)基于PaSta的推理(PaSta -based Reasoning)Σ10L=(L㈠)+L(i))。(五)R),即,从PaSta到活动语义:S部分=FPaSta−R(fPaSta,fo),(3)意大利面我4.2. Activity2Vec意大利面att其中FPaSta-R(·)表示PaSta-R,fo是对象特征。 S部分是部分级路径的动作得分。如果人不与任何对象交互,我们使用整个图像的ROI池化特征作为f〇。对于多对象情况,即,一个人与几个物体互动,我们}386节中3、根据最常见的活动定义PaSta也就是说,选择最常被大量注释者用于组合和描述活动的因此,PaSta可以被视为实例活动的基本组件。处理每个人-物体对(f意大利面,f(i))分别同时,PaSta识别可以很好地学习。 因此,在本发明中,并生成其Activity2Vec嵌入。接下来,我们介绍Sec中的PaSta识别。4.1. 然后,我们讨论了如何映射人类实例我们可以在PaStaNet上操作PaSta识别,强大的PaSta表示,具有良好的可移植性。它们可用于推理出实例操作387意大利面伯特意大利面意大利面伯特图3.部分状态(PaSta)识别和Activity2Vec的概述在监督学习和迁移学习中。在这种情况下,第i部分的PaSta评分,P PaSta ={P(i)10i=1例如,PaStaNet的工作原理与ImageNet类似[8]。这意味着一个更有可能的帕斯塔将得到更大的关注。PaStaNet预先训练的Activity2Vec功能是一种知识,L(i)意大利面∈R2304n是PaSta的最终语言特征,边缘引擎并将知识转移到其他任务。可视化PaSta功能。首先,我们从PaSta识别中提取视觉PaSta表示。具体来说,我们从PaSta分类器的最后一个FC层中提取特征,第i部分。 我们在整个过程中使用预转换和冻结的f(i,k)。此外,我们还尝试将每个PaSta重写为一个句子,并将其转换为固定大小的向量f(i,k),性能稍好(Sec. 5.5)。visualPaSta representationfV(i)∈R512。伯特帕斯塔代表。最后,我们合并并调整语言PaSta功能。我们的目标是弥合PaSta和活动语义之间的差距。语言优先权是L(i)意大利面,并将其与其相应的视觉五㈠在视觉概念理解中有用[38,58]。因此PaStafeature fPaSta. 然后我们得到代表性的帕斯塔-视觉和语言知识的结合是一个很好的(一)意大利面对于每个身体部分,∈Rm(例如, m =4096)。这选择建立这种映射。进一步提升过程表示为Activity2Vec(图)。(3)第三章。输出表示能力,我们利用未分类的BERT-BasefPaSta={f(i)10i=1 是部件级活动表示a-预训练模型[9]作为语言表示提取器。Bert [9]是一种语言理解模型,它考虑了单词的上下文,并使用深度双向转换器来提取上下文表示。它使用大规模语料库(如维基百科)进行训练,因此生成的嵌入包含有关活动和PaSta的有用的隐式语义知识。例如,维基百科中条目“篮球”的描述:“拖着脚不运球,带球,或双手持球。。把他的手放在球的底部;..被称为“带球具体来说,对于具有nPaSta的第i个身体部位,我们不-并且可以用于各种下游任务,例如,ac-活动检测、字幕等。实验结果表明,Activity2Vec具有较强的表征能力,能显著提高活动相关任务的绩效。它就像一个知识转换器Transformer,使用基本的PaSta组成各种活动。4.3. 基于PaSta的活动推理利用部件级的fPaSta,我们构造了一个层次活动图(HAG)来对活动进行建模。然后我们可以提取图状态来推理活动。分层活动图。 层次活动图将每个PaSta提供给令牌{t(i,k),t(i,k),t(i,k)}n例如,G=(V,E)在图中描绘。4.第一章对于人-物间-p v ok=1动词,宾语,宾语。 对象检测是对象检测的基础。每个PaSta将被转换为f(i,k)∈ R2304(连接三个768大小的向量的部分,动词,ob-动作,V={Vp,Vo}。对于仅有身体的运动,V= Vp。在实例层中,人是一个节点,实例代表-从以前的实例级方法[17,34,24]中删除对象),即,f(i,k)=R(t(i,k),t(i,k),t(i,k))。 {f(i,k)}n节点特征。 对象节点vo∈ Vo,并以fo为节点伯特伯特pvo伯特 k=1功能. 在部分层次上,每个身体部分可以看作是一个节点将被连接为f(i)∈R2304<$n,对于i-ii伯特头语言阿吉什部件状态识别头-看-某物LUArmRUArm特征LLHandp oright_hand-hold -sth代币左手握住某物屁股坐在某物上右脚踩在某物上左脚踩在某物上RHand⊗CNNs伯特臀部LT高RT高左脚RFeet意大利面意大利面向量头LUArmRUArm下游任务活动识别LHandRHand髋行动处布吕普布吕普ƒ∗PaStaNet头LUArmRUArmLT高RT高LFeetHOI检测LHand部分注意事项RHandRFeet帕斯塔髋关节LT高RT高LFeet部分对象Activity2VecRFeet产品特点视觉特征1995年意大利面…}FF第f}.388伯特第二部分。 其次,我们将f(i) 乘以预测的PaStaVP 以PaSta表示fPaSta作为节点特征。身体部位和物体之间的边是epo=(vi,vo)∈(一)L(i)(一)(i)p概率PPasta,即fPaSta=fBert×PPaSta,其中Vp×Vo,部分内边为eij=(v i,v j)∈Vp×Vp.(一)(一)n(i)pp ppPPaSta=Sigmoid(SPaSta)∈R ,SPaSta 表示所述我们的目标是解析HAG并推理出图的状态,…389意大利面分层活动图实例框‘’InstanceActivity2Vec预先培训PaStaNet头LUArmRUArmLHandRHand髋LT高RT高左足右足f帕斯塔人类节点身体部位节点对象节点对象fo节点实例级零件级看-骑自行车-自行车持有-自行车…(一)部件状态标签:具有零件状态的类比n ′(I,p1,p2,. . - 是的,第10页)标签:g(单位:千克)标签编号:‘’Partg′(n,n1,n 2,n3,n 4,n 5)标签:图4.从PaSta到分层活动图上的活动头-看-某物-右臂 -摆动左臂-挥右脚 -踢某物人踢足球9 8 1 1 2 17I.E.活动在部件级,我们使用基于PaSta的活动推理(PaSta-R)来推断活动。也就是说,随着图5.类似于活动识别。两个层次的交叉熵损失总损失为:来自Activity2Vec的PaSta表示,我们使用S部分=L=L+LPaSta + Linst.(六)FPaSta−R(fPaSta,fo)(等式3)推断活动得分S部分。仅用于身体运动的活动,例如。“跳舞”,Eq. 3是S部分=FPaSta−R(fPaSta,fc),fc是图像的特征总5. 实验意大利面CLSCLS我们采用FPaSta−R(·)的不同实现。线性组合最简单的实现是直接线性组合零件节点特征。我们将Activity2VecfPaSta的输出与fo连接起来,并将它们输入到带有Sigmoids的FC层MLP 我们还可以对Active2Vec输出进行非线性变换。我们使用两个1024大小的FC层和一个动作类别大小的FC与Sigmoids。图卷积网络对于部分级图,我们使用图卷积网络(GCN)[32]来提取全局图特征,并随后使用MLP序贯模型当以这种方式观看图像时:通过对人体各个部位和物体的一个个语言描述,人类可以很容易地猜出动作。受此启发,我们采用LSTM [28]来获取部分节点特征f(i),并使用最后一个时间步的输出来分类动作。我们采用两种输入顺序:随机和固定(从头到脚),固定顺序更好。树结构传递。人体有一种天然的结构。因此,我们使用树结构的图传递。具体地说,我们首先将手部和上臂节点组合成一个类似地,我们将脚和大腿节点组合为“腿”节点。头、臂、腿和脚节点一起形成第二层。第三层次包含“上半身”(头,手臂)和“下半身”(臀部,腿)。最后,生成主体节点。我们将它和对象节点输入到MLP中。实例级图推理可以通过基于实例的方法[13,17,34,24]使用等式(1)来操作1:Sinst=Finst(I,bh,Bo)。为了得到整个图的最终结果,我们可以使用早期或晚期融合。在早期融合中,我们将finst与fPaSta,fo连接起来,并将它们输入到PaSta-R。在后期融合中,我们融合了两个层次的预测,即。S=Sinst+Spart。在我们的测试中,在大多数情况下,晚期融合优于早期融合如果没有指定,我们在Sec中使用晚期融合。五、我们用Linst和LPaSta来表示5.1. 一个类比:MNIST行动我们设计了一个简化的实验来给出一个直观的结果(图1)。(五)。我们从0到9(28×28×1)随机抽样MNIST数字,并生成由3到5位数字组成的128×128×1每个图像都被赋予一个标签,以指示其中两个最大数字(0到18)的总和。我们假设身体的各个部分都可以看作是数字,因此人类是所有数字的联合体为了模拟复杂的人体运动,数字随机分布,并添加高斯噪声的图像。为了比较,我们采用两个简单的网络。对于实例级模型,我们将数字联合框的ROI池化特征输入到MLP中。对于分层模型,先进行个位数识别,然后将联合框和数字特征连接起来,输入到一个MLP(earlyfusion)中,或使用后期融合将两个层次的分数合并。早期融合的准确率达到43.7,明显优于实例级方法(10.0)。后期融合的准确率为44.2。此外,仅部分级方法而不进行融合也获得了41.4的精度。这支持了我们关于部件级表示的有效性的假设。5.2. 基于图像的活动识别通常,人-物交互(HOI)经常占据大部分活动,例如, 大规模数据集中超过70%的活动[24,12,2]是HOI。 评估- 在PaStaNet上,我们对Pasto进行基于图像的HOI识别[4]。在训练集和测试集中,COCO有38,116和9,658个图像,以及由117个动词和80个COCO对象组成的600个HOI [35]。每个图像都有一个图像级标签,该标签是图像中所有HOI的聚合,并且不包含任何实例框。Modes. 我们首先用PaSta标签预训练Activity 2 Vec,然后在Pasto训练集上一起微调Activity 2 Vec和PaSta-R在预训练和微调中,我们排除了在PaStaNet中测试数据,以避免数据污染。我们cls390方法充分德福尔罕见不非罕见充分已知Ob罕见ject非罕见[19]第十九话9.947.1610.77---GPNN [48]13.119.3414.23---iCAN [17]14.8410.4516.1516.2611.3317.73[34]第三十四话17.0313.4218.1119.1715.5120.26iCAN [17]+PaSta Net*-线性19.6117.2920.3022.1020.4622.59TIN [34]+PaSta Net*-线性22.1220.1922.6924.0622.1924.62[34]第34话:我爱你21.5918.9722.3723.8421.6624.49[34]第34话21.7319.5522.3823.9522.1424.49[34]第34话:我的世界21.6419.1022.4023.8221.6524.47[34]第34话:你是谁?21.3618.8322.1123.6821.7524.25PaStaNet*-线性19.5217.2920.1921.9920.4722.45TIN[34]+GT-PaStaNet*-线性34.8642.8332.4835.5942.9433.40[34]第34话22.6521.1723.0924.5323.0024.99表1.结果是,“Pairwise [ Few@ i表示少炮集上@i表示训练图像的数量小于或等于i。Few@1、5、10的HOI类别数量分别为49、125和163。采用不同的数据模式对Activity2Vec进行预训练:1)“P aSta Net*”模式(38K图像):我们使用Pasto火车集中的图像及其PaSta标签。与传统方式相比,此处唯一的额外监督是PaSta注释。2)“GT- PaSta Net*”模式(38 K图像):使用的数据与“P aSta Net*”相同。为了验证我们的方法的上界,我们使用地面真实PaSta(二进制标签)作为预测的PaSta概率在活动2Vec中。这意味着我们可以完美地识别PaSta,并从最佳起点推理出活动3)设置. 我们使用 图像级PaSta标签来训练Activ-ity 2Vec。每个图像级PaSta标签是图像中所有活动人员的所有现有PaSta的聚合。对于帕斯塔的认可,即,我们计算每个部分的PaSta类别的mAP,并计算所有部分的平均mAP。为了公平起见,我们使用[13]和VGG-16[52]中的人物,身体部位和对象框作为主干。批量大小为16,初始学习率为1 e-5。我们使用具有动量(0.9)和余弦衰减重新启动的SGD优化器[37](第一个衰减步长为5000)。预训练花费8万次迭代,微调花费2万次迭代。图像级PaSta和HOI预测都是通过3个人和4个对象的多实例学习(MIL)[42]我们选择以前的方法[41,13]作为分层模型中的实例级路径,并使用后期融合。特别是,[13]使用部件对外观和位置,但不使用部件级语义,因此我们仍然将其视为基线以获得更丰富的比较。结果结果报告于表中。1.一、PaStaNet*模式方法都优于实例级方法。部分级方法仅实现44.5 mAP,并显示出良好的互补性的实例级。它们的融合可以将性能提高到45.9 mAP(6mAP改进)。而[13]与[41]之间的差距在3.8 ~ 0.9mAP之间大大缩小。Activity2Vec达到55.9表2.结果在HICO-DET。在PaStaNet*模式下识别PaSta上的mAP:46.3(头部),66.8(手臂),32.0(手),68.6(臀部),56.2(大腿),65.8英尺。这证明了PaSta比Activity更容易被学习,因此 它 们 可 以 作 为 推 理 的 基 础 提 前 学 习 。 在 GT-PaStaNet*模式下,分层范例实现65.6mAP。这有力地证明了PaSta知识的有效性。因此,需要进一步提高对PaSta的识别,进一步提高活动任务绩效。此外,在PaStaNet模式,我们实现了相对16%的改善。 在少数拍摄集,我们的最佳结果显着提高13.9mAP,这有力地证明了PaSta的可重用性和可移植性。5.3. 基于实例的活动检测我们进一步在HICO-DET [3]上进行基于实例的活动检测,这需要同时定位人和物体并对动作进行分类。HICO-DET [3]是一个建立在CHTO [4]上的基准测试,并添加了人类和对象边界框。我们选择了几个最先进的[17,19,48,34]进行比较和合作。设置. 我们使用实例级的PaSta标签,即。用相应的PaSta标签标注每个人,以训练Activity 2 Vec,并在HICO-DET上将Activity 2 Vec和PaSta-R微调到一起所有测试数据均排除在预训练和微调。 我们遵循[3]的mAP度量,即.真阳性包含准确的人和对象框(IoU >0. 5参考地面实况)和准确的动作预测。用于PaSta检测的度量是类似的,即,估计的零件箱和PaSta动作预测都必须准确。计算每个部分的mAP和平均mAP为了进行公平的比较,我们使用[17,34]和ResNet-50[27]的对象检测作为骨干。我们使用具有动量(0.9)和余弦衰减重启的SGD[37](第一个衰减步骤为80K)。预训练和微调分别需要1M和2M次迭代学习率为1 e-3,正负样本比例为1:4。采用后融合策略。三种模式在SEC。5.2和不同的PaSta-R也进行了评价。结果 结果见表1。二、 所有PaStaNet*模式方法的性能明显优于实例级别方法,这有力地证明了从学习的PaSta信息的改进。在PaStaNet* 模式下,PaSta检测性能为30.2 mAP:25.8(头部),44.2方法地图很少@1很少@5很少@10[21]第二十一话28.5---Girdhar等人[18个国家]34.6---Mallya等人[41个]36.1---[第13话]39.913.019.822.3Mallya等人[41]第四十一话45.026.529.130.3成对[13]+PaSta Net*-线性45.926.230.631.8[13]第13话45.626.030.831.9[13]第十三话45.625.230.031.4Pairwise [13]+PaSta Net*-Seq45.925.330.231.6Pairwise [13]+PaSta Net*-Tree45.824.930.331.8PaStaNet*-线性44.526.930.030.7成对[13]+GT-PaStaNet*-线性65.647.555.456.6Pairwise [13]+PaSta净线性46.324.731.833.1391方法AP角色(场景1)AP角色(场景2)Gupta等人[25日]31.8-[19]第十九话40.0-GPNN [48]44.0-iCAN [17]45.352.4[34]第三十四话47.854.2[17]第十七话49.255.6[34]第34话51.057.5表3.V-COCO上的迁移学习结果[25]。(手臂),17.5(手),41.8(臀部),22.2(大腿),29.9(脚)。这再次证明了PaSta可以很好地学习。GT-PaStaNet*(上限)和PaStaNet(更多PaStala-bels)模式都大大提高了性能。在稀有集上,我们的方法获得了7.7mAP的改进。5.4. 迁移学习与Activity2Vec为了验证PaSta Net的可移植性,我们在大规模基准测试中设计了迁移学习实验:[25 ][26][27][28][29] 我们首先使用PaStaNet使用156个Activity和PaSta标签对Activity 2Vec和PaSta-R进行预训练。 然后,我们更改PaSta-R中的最后一个FC,以适应目标工作台的活动类别-mark. 最后,我们冻结Activity 2 Vec并在目标数据集的训练集上微调PaSta-R在这里,PaStaNet像ImageNet [8]一样工作,Activity2Vec用作预先训练的知识引擎来促进其他任务。维可可V-COCO包含10,346个图像和实例框。它有29个动作类别,COCO 80个对象[35]。为了公平比较,我们排除了V-COCO的图像和PaStaNet中相应的PaSta标签我们使用具有0.9动量和余弦衰减重新开始的SGD[37](第一次衰减为80K)。预训练花费30万
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功