没有合适的资源?快使用搜索试试~ 我知道了~
人机交互Keizo Kato1,Yin Li2,Abhinav Gupta21富士通实验室kato. jp.fujitsu.com2卡内基梅隆大学网址:yinl2@andrew.cmu.edu,abhinavg@cs.cmu.edu抽象。人与物体之间的交互世界是丰富的。虽然一般我们坐在椅子和沙发上,如果需要,我们甚至可以坐在电视机或架子上近年来,在建模动作和人机交互方面取得了进展。然而,这些方法大多需要大量的数据。目前尚不清楚,如果学习表示的行动是概括到新的类别。 在本文中,我们探讨了人与物体交互的零射击学习问题。鉴于训练数据中动词-名词的交互有限,我们希望学习一个即使在看不见的组合上也能工作的模型。 为了解决这个问题,本文提出了一种新的方法,使用外部知识图和图卷积网络来学习如何为动词-名词对组合分类器。 我们还提供了几个数据集的基准测试,用于零拍摄学习,包括图像和视频。我们希望我们的方法,数据集和基线将促进未来在这个方向上的研究1介绍我们的日常生活和活动是丰富而复杂的。考虑图1(a)中的示例。结构化“sit”与差异化(chair、bed、flo或)相结合,以确定结构化的实际差异化操作(“sit on chair”与“sit on chair”)。“s i t on flo or”)。同样,我们可以用许多不同的方式(打开、清洁、观看)与同一个物体(电视)进行交互。即使是很小的一组常用动词和名词也会创造出动作标签的巨大组合。我们不太可能捕捉到涵盖所有这些组合的动作样本。如果我们想识别一个我们以前从未见过的动作类别,例如,图1(b)中的这个问题被称为零射击学习,其中测试时的类别在训练过程中不存在。它已被广泛探索用于对象识别[31,1,11,12,15,37,60]。而且人们对零射击的兴趣正在兴起动作识别[55,24,21,51,35,18]。在零射击学习中,动作和物体有什么不同我们所知道的是,人类的行为是自然的compo- sitional和人类有惊人的能力,以实现类似的目标与不同的对象和工具。例如,虽然可以使用锤子击打,工作在K.加藤在卡内基梅隆大学2K.卡托湾Li和A. 古普塔坐在桌子上,椅子上,地板上,坐在电视上?看,携带,打开电视坐整洁躺在内阁表椅子(a)(b)(c)Fig. 1. (a-b)我们的许多日常行为都是合成的。这些动作可以用动作(动词)和对象(名词)来描述。我们建立在这种组合的零杆识别的人与物体的相互作用。我们的方法将运动和对象线索编码为动词的视觉嵌入(例如,坐)和名词(例如,TV)使用外部知识进行学习,以将这些嵌入组装成动作。我们证明,我们的方法可以推广到看不见的动作类别(例如,坐在电视上(c)相互作用的图形表示:动词-名词节点对经由动作节点(圆圈)链接,并且动词-动词/名词-名词对可以被连接。钉子,我们也可以使用精装书相同。因此,我们可以利用这种独特的组合来帮助识别新的动作。为此,我们解决的问题,零杆动作识别。我们特别关注日常人类对象交互的组合学习,这可以通过一对verb和noun(e. G. 、“w as ha mi rr or r”或“hol d a l ap t op”)。这种组合学习面临着一个主要问题:一个模型如何学习如何与它的约束元素相结合?例如,“坐在电视机上”与“坐在椅子上”相比有很大的不同,因为它们的身体姿势和身体姿势完全不同。即使模型已经学会了识别像“TV”和“Sitting”这样的独立事件,它仍然会失败。 我发现,我们与新奇事物的许多看似毫不费力的互动都建立在我们先前的知识之上。如果模特知道人们也坐在地板上,花瓶就放在地板上,花瓶也可以放在电视上。它可能能够将“电视”和“电视”的视觉效果组合起来,以重新识别“电视上的电视”的特征。更重要的是,如果现在的“sitt i n g”和“TV”都与“jukebox”相似,那么现代人可以重新认识“jukebox“吗? 因此,我们建议探索使用外部知识来弥补上下文的差距,并帮助建模的人与对象的交互组合性。具体地,我们从知识库[8,30]中提取主语、动词和宾语(SVO)三元组这些三元组捕获了大量的人类对象交互,并编码了我们关于动作的知识。每个动词(运动)或名词(对象)都是图中的一个节点,其w或d被定义为该节点的f eatu r e。EachSVO-tripletdef inesactionnde和经由动作节点的对应动词和名词节点之间的路径(参见图1(c))。这些动作节点从所有零特征开始,并且必须通过在训练期间沿着图传播信息来学习其表示。这种信息传递是通过使用多层图卷积网络来实现的[29]。我们的方法联合训练视觉特征的投影和人机交互的组合学习3图卷积网络,从而学习将视觉特征和动作节点都转换到共享的嵌入空间中。因此,我们的零镜头动作识别减少到最近邻搜索在这个空间中。我们在图像数据集(HICO [7]和Visual Genome [30]的子集)以及更具挑战性的视频数据集(Charades [48])上对我们的方法进行了全面评估。我们定义了适当的基准为零杆学习- ING的人与物体的相互作用,并比较我们的结果的一组基线。我们的方法展示了强大的结果,未知的组合已知的概念。我们的结果优于国家的最先进的方法HICO和视觉基因组,并执行与以前的方法的字谜。我们还表明,我们的方法可以推广到看不见的概念,具有比机会好得多的性能水平。我们希望我们的方法和基准将促进未来的研究在这个方向上。2相关工作零射击学习。我们的工作遵循零射击学习设置[53]。早期的工作集中在基于属性的学习[31,26,41,58]。这些方法遵循两个阶段的方法,首先预测属性,然后推断类标签。最近的作品利用语义嵌入不同类别之间的关系建模。这些方法学习将视觉特征[15,55]或标签[1,11,12,37]或两者[56,52,52]映射到公共语义空间中。然后通过测量视觉输入与该空间中的标签之间的距离来实现识别与基于属性的方法类似,我们的方法将交互视为动词-名词对。然而,我们不明确预测个别动词或名词。与基于嵌入的方法类似,我们学习交互的语义嵌入。然而,我们通过利用外部知识来关注组合学习[40]。我们的工作也涉及到以前的作品,结合边信息为零杆识别。例如,Rohrbach等人[43]从语言数据中转移部件属性,以识别未见过的对象。Fu等人。[16]使用超图标签传播来融合来自多个语义表示的信息Li等人[33]探索了零射击设置中的半监督学习受这些方法的启发,我们的方法使用外部知识库中的信息连接动作和对象然而,我们使用图卷积来传播动词和名词的语义表示,并学习将它们组装成动作。此外,以前的作品认为图像中的对象的识别。因此,我们的工作脱颖而出,通过解决识别的图像和视频中的人类对象的相互作用我们相信,我们的问题是一个理想的基准,为组合学习如何建立概括的表示。人机交互建模。对人类对象交互进行建模在计算机视觉和心理学方面都有着丰富的历史 本文从J. J. G ibs在[17]上。在使用语义对对象进行功能理解时,有很多w或k然而,这些早期的尝试都没有扩大规模,由于缺乏数据和脆弱的推断下4K.卡托湾Li和A. 古普塔噪声感知最近,建模人类对象交互的想法已经卷土重来[19]。几种方法已经研究了建模语义关系[20,57,10],动作3D关系[14]或完全数据驱动的方法[13]。然而,他们都没有考虑使用外部知识。此外,最近的工作集中在为人类对象交互创建大规模图像数据集[30,7,36]。然而,即使是目前最大的数据集- Visual Genome [30]也只包含我们日常互动的一小部分(数百),并且没有捕捉到视频中存在的互动的全部动态。我们的工作向前迈出了一步,使用外部知识来识别看不见的交互,并探索识别具有挑战性的视频数据集的交互[48]。我们认为智力和推理的一个重要测试是将原始元素组合成新概念的能力因此,我们希望我们的工作可以提供一个步骤,为未来的视觉推理为基础的方法零射击动作识别。我们的论文的灵感来自于人类对象交互的组合表示。从Biederman [4]和Hoffman等人的原始工作开始,在心理学和早期计算机视觉方面已经有了很多关于构图的工作。[23]第10段。最近,一些工作开始解决零镜头动作识别。与基于属性的对象识别类似,Liu et al.[35]学会了使用属性识别新的动作。超越认知,Habibian等人。[21]提出对视频中的概念进行建模以进行事件检测。受零拍摄对象识别的启发,Xu et al.提出了一种基于嵌入的动作方法[55]。其他努力包括文本描述的探索[18,51],演员和动作的联合分割[54],以及动作的模型域转移[56]。然而,这些方法只是把动作当作标签,没有考虑它们的组合性。也许最相关的工作是从[25,24,28]。Jain等人[25,24]注意到对象和动作之间的强关系,因此提出使用对象分类器进行零拍摄动作识别。作为前进的一步,Kalogeition et al.[28] 提出了联合检测视频中的对象和动作。而不是单独使用对象,我们的方法模型的身体运动(动词)和对象(名词)。更重要的是,我们探索使用外部知识将这些概念组装成新的行动。因此,我们的方法提供了一个重新审视的问题,从组合的角度来看,人类对象的相互作用。视觉和语言的组合学习。 在视觉问答(VQA)中已经探索了作文学习。Andreas等人[2,3]将VQA任务分解为模块化子问题的序列-每个子问题由神经网络建模。他们的方法根据问题的语法从各个模块组装一个网络,并使用特定于实例的网络预测答案。这一想法由Johnson等人进一步扩展[27],其中学习深度模型以从问题生成程序并在图像上执行程序以预测答案。我们的方法共享组合学习的核心思想,但专注于人类对象的交互。此外,在[45,50,59]中讨论了使用图形表示对SVO对进行建模。Sadeghi等人[45]构建了类似于我们的图形表示的SVO节点的知识图然而,他们的方法旨在验证人机交互的组合学习5S形交叉熵火车:见几个组合测试:组成新组合采取笔举行书开放动词(观察)动词(尼尔)动词-动词边缘(WordNet)名词-名词边缘(WordNet)词嵌入组合动作表示(a) 人-物交互知识的图形编码(b) 图卷积,在图上传播信息并学习组合新动作图二.概述我们的方法。(a)我们的图编码外部SVO对。每个动词或名词都被表示为一个节点,并带有其单词嵌入作为节点的功能由SV0p表示找到的每个节点在图上都是新的节点(橙色的节点),其链接到对应的名词和动词节点。我们还可以在动词和名词之间添加链接,例如,使用WordNet[39]。(b)图形卷积运算。我们的学习将在图上传播特征,并为动作节点填充新的表示这些动作特征进一步与来自卷积网络(c)的视觉特征合并,以学习动作概念和视觉输入之间的相似性度量使用视觉数据的SVO关系。在视频字幕[50]中提出了具有SVO节点的因子图模型,但没有使用深度模型。最近,Zellers et al.[59]提出了一种用于从图像生成对象及其关系的场景图的深度模型。然而,他们的方法不能处理看不见的概念。3方法给定输入图像或视频,我们将其视觉特征表示为xi,将其动作标签表示为yi。我们专注于人类对象交互,其中yi可以进一步分解为动词yv(例如,我我“电话”/“桌子”)。为了清楚起见,当很明显我们指的是单个图像或视频。在我们的工作中,我们使用卷积网络的视觉特征x,并表示动词yv和名词yn的词嵌入为zv和zn。我们的目标是探索使用知识的零杆动作识别。具体地,我们建议学习得分函数φ,使得p(y|x)= φ(x,y,v,y,n; K)(1)其中K是关于动作的先验知识我们的关键思想是通过一个图结构来表示K,并使用这个图来学习组成采取笔举行书开放FCFC(c)用于视觉特征的ConvNetFC6K.卡托湾Li和A. 古普塔一个VA新奇的动作。我们的方法的概述如图2所示。我们模型的核心组件是一个图卷积网络g(yv,yn;K)(见图2(a-b))。g学习基于动词和名词的嵌入以及SVO三元组和词汇信息的知识来组成动作表示za进一步将输出za与视觉特征X进行比较以用于零发射识别。 我们现在描述如何使用图来编码外部知识,以及如何使用该图进行组合学习。3.1知识的图形表示形式上,我们将我们的图定义为G=(V,E,Z)。G是以V为节点的无向图。E表示节点V和Z之间的链接,是节点E的特征向量。我们建议使用这种图结构来编码两种重要类型的知识数据:(1)对象的“aff ordance”,如“bookcanb e hol d”或“pen can b e t ak e n”,由S V Otri p l e ted from om x t e r n k n o l e d g e b as e [ 8]定义;(2) 动词或名词标记之间的语义相似性,由WordNet的词汇信息定义[39]。图构造。具体地,我们如下构造图。– 每个动词或名词都被建模为图上的一个节点。这些节点表示为Vv和Vn。它们带有它们的词嵌入[38,42],作为节点特征Zv和Zn– SVO中的每个动词-宾语对定义人类对象交互。这些交互由图上的单独的一组动作节点Va来建模。每个交互都将有自己的节点,即使它共享相同的动词或节点,但没有任何特定的交互。例如,“takeabook”和“holdabook”将是两个不同的这些节点用全零特征向量初始化,并且必须经由学习获得它们的表示Za– 动词节点只能通过有效的动作节点连接到名词节点即,每个交互将在图上添加新路径。– 我们还通过WordNet在名词或动词节点中添加链接[39]。因此,该图由其邻接矩阵A ∈R捕获|V| ×| V|特征矩阵Z∈Rd×| V|.基于对比,我们的图结构可以自然地分解为块,由下式给出:A=Avv0的va0AnnATZ=[Zv,Zn,0](2)不 A为了 0其中Avv、Ava、Aan、Ann分别是动词-动词对、动词-动作对、动作-名词对和名词-名词对的邻接矩阵。Zv和Zn是动词和名词的词嵌入。此外,我们有Za= 0,因此动作节点需要学习新的表示以进行识别。图形归一化。为了更好地捕捉图结构,通常需要对邻接矩阵进行归一化[29]。由于块结构一人机交互的组合学习7一个VAvn在我们的邻接矩阵中,我们在A的对角线上添加一个单位矩阵,并分别对每个块进行归一化。更准确地说,我们有AAvaA=0中文(简体),(3)-十一AanATI-十一-十一wh ereA=D2(A+I)D2,A=D2(A+I)D2,A=D2AD2vvvvvv-一个2vvnn1nnnnNNVAvvVA和An=Dvnvn+1)D2。D是每个的对角节点度矩阵块因此,这些是对称归一化邻接块。3.2用于作文学习给定知识图G,我们想要学习在s Z a上组成acti的表 示。 Z可以被用作零识别的“动作执行”。问题是我们如何利用图结构来学习Za。我们的主要观点是动词和名词的词嵌入编码了重要的语义信息,我们可以使用图来提取这些语义,并构建有意义的动作表示。为此,我们采用了[29]中的图卷积网络(GCN)GCN的核心思想是根据图中节点的邻居来变换节点的特征。形式上,给定归一化graphadjacencymatrixAandnodefeaturesZ,asingielayrGCNisgivenbyZ〜=GCN(Z,A)=AZTW(4)其中W是d×d~w e ig htl e从a开始。 D是用于缓存的输入数据的存储空间,D是输出数据的存储空间。Iintuitively,GCNfirst独立地变换每个节点上的每个特征,然后对连接的节点的特征进行这个操作通常是多次堆叠的,中间有非线性激活函数(ReLU)Not ethatAisablockmatrix. 这是我们开发组件GCU的关键所在每个区块的操作。这种分解为我们的模型提供了更好的见解,并可以显着降低计算成本。特别是,我们有Z~v=AvvZTWvZ~n=AnZTWnnZ~a=AnZTWan+ATZTWva(5)v n v va n其中Wvv=Wnn=Wan=Wva=W。我们还尝试为每个块使用不同的参数,这与[46]类似 注意Z~ainEq5的最后一行。在一个简单的层GCN中,该模型的函数W和W值是线性的将相邻词嵌入转换为动作模板。通过非线性激活和K个GCN层,模型将构造考虑更多节点的非线性变换以用于构建动作表示(从1-邻域到K-邻域)。3.3从图到零炮识别我们的图卷积网络的输出是变换后的节点fea-turesZ〜=[Z〜v,Z〜n,Z〜a]。我们将输出的活动副本Z~a用于该区域(A8K.卡托湾Li和A. 古普塔这是一个非常重要的问题。 这是通过对在ur e Z~a和visal特征x处的特征的学习来实现的。更确切地说,我们学习得分函数h,其采用输入Z~a和x,并且输出为一个简单的函数。h ( x , a ) =h ( f ( x ) Z~a )(6)其中f是一个非线性的形式,其在映射x中的h被定义为Z~a。⊕表示级联。h是由一个带有sigmoid函数的两层网络实现的到最后h可以被认为是暹罗网络的变体[9]。3.4网络架构与培训我们提出了我们的网络架构和我们的培训的细节。架构我们的网络架构如图2所示。具体来说,我们的模型包括2个图卷积层,用于学习动作表示。它们的输出通道是512和200,每层后面都有ReLU单元GCN的输出与来自卷积网络的图像特征连接通过学习的线性变换,图像特征具有512的降低的维度连接后的特征向量被发送到大小为512和200的两个完全连接(FC)层,并最终输出标量分数。 对于除了最后一个层之外的所有FC层,我们附加ReLU和Dropout(比率= 0)。(五)。训练网络。我们的模型是用附加到G.我们修复图像特征,但更新GCN中的所有参数。我们使用小批量SGD进行优化。请注意,在小批量中,负样本(不匹配的操作)比正样本多得多我们对阳性和阴性样本进行重新采样,以保持其比例固定(1:3)。这种重新采样策略防止梯度被负样本支配,并且因此有助于学习。我们还尝试了硬负采样,但发现它会导致较小数据集上的严重过拟合。4实验我们现在介绍我们的实验和结果。我们首先介绍我们的实验设置,然后描述数据集和基线。最后,我们报告我们的结果,并将其与最先进的方法进行比较。4.1实验装置标杆我们的目标是评估方法是否可以泛化到看不见的动作。鉴于人-物交互的组成结构,这些看不见的动作可以被表征为两种设置:(a)已知名词和动词的新颖组合;以及(b)具有未知动词或名词或两者的新动作。我们设计了两个任务来捕获这两种设置。具体来说,我们将名词和动词标记分成两个偶数部分。我们将名词的分裂表示为1/2,将动词的分裂表示为A/B。因此,1B指的是从名词的第一次分裂和人机交互的组合学习9动词的第二次分裂。我们选择用于训练和测试的分割的组合作为我们的两个基准任务。• 任务1.我们的第一个设置允许一个方法在训练过程中访问动词和名词的全部集合,但要求该方法识别seen或一个看不见的已知测试概念的组合例如,一个方法是给出了“hold dap p le e”和“w as hot or cycle e”的作用,并需要重新考虑“hold damp c y c le e”和“w as hap p le e”的作用。我们的集合是1A和2B(1A+2B)的子集。这个集合捕捉了名词和动词的所有概念,但遗漏了它们的许多组合(1B/2A)。我们的测试集由来自1A和2B的样本以及1B和2A的未见过的组合组成。• 任务2.我们的第二个设置在训练过程中只将部分动词和名词(1A)暴露给方法。但是该方法的任务是识别所有可能的动作组合(1A,1B,2A,2B),包括具有未知concept的那些。例 如 ,一种方法是从“洗摩托车”到“洗摩托车”和“洗摩托车”的结合,以及“洗摩托车”的结合。这项任务极具挑战性。它要求方法泛化到全新的名词和动词类别,并将它们组装成新的动作。我们相信,诸如词嵌入或SVO对之类的先验知识将允许从1到2和A到B的跳跃最后,我们相信这种设置提供了一个很好的测试平台的知识表示和转移。广义零射击学习我们想强调的是,我们的基准遵循广义零射击学习的设置[53]。也就是说,在测试过程中,我们没有限制识别测试集上的类别,但所有可能的类别。例如,如果我们在1A上训练,在测试期间,输出类可以是{1A, 2B, 2A, 2B}中的任何一个。我们也为每个子集单独报告数字,以了解什么方法有效。更重要的是,正如[53]所指出的,如果在预训练期间已经看到类别,ImageNet预训练模型可能会使结果产生偏差。我们强制ImageNet中出现的名词[44]留在我们所有实验的训练集中,除了Charades。从知识库中挖掘。我们描述了我们如何为所有实验构建知识图。具体来说,我们使用WordNet来创建名词-名词和动词-动词链接。我们认为两个节点是连通的,如果(1)它们是彼此的直接上义词或下义词(记为1HOP);(2)他们的LCH相似性得分[32]大于2.0。此外,我们从NELL [5]中提取SVO,并使用COCO数据集[34]进一步验证它们具体来说,我们解析COCO上的所有图像标题,只保留出现在COCO上的动词-名词对,并将其余对添加到我们的图中。实施详情。我们从ResNet 152 [22]中提取了最后一个FC特征,ResNet152 [22]使用ImageNet对CHTO和Visual Genome HOI数据集进行了预训练所有图像的大小都被重新调整为224x224,并且卷积网络是固定的。对于我们所有的实验,我们使用GloVe [42]来嵌入动词和名词标记,从而为每个标记产生200D向量GloVe使用Wikipedia和Gigaword5文本语料库进行预训练我们为CHTO和Visual Genome HOI数据集调整了硬负挖掘,但对Charades数据集禁用它以防止过度拟合。10K.卡托湾Li和A. 古普塔表1.我们方法的消融研究。我们报告这两个任务的mAP和比较我们的方法的不同变体。这些结果表明,向图添加更多链接(从而注入更多先验知识)有助于改善结果。方法地图 测试集1A+2B列1A列所有2A+1B看不见所有1B+2A+2B看不见机会0.550.490.550.51GCNCL-I20.9616.0511.937.22GCNCL-I+A21.3916.8211.576.73GCNCL-I+NV+A21.4016.9911.516.92GCNCL19.9114.0711.467.18公司简介20.4315.6511.727.19GCNCL+NV+A21.0416.3511.947.504.2数据集和基准我们评估了我们的方法在CNOMO [7],Visual Genome [30]和Charades [48]数据集上。我们使用所有类别的平均平均精度(mAP)分数作为评估指标。我们报告这两个任务的结果(看不见的组合和看不见的概念)。除非另有说明,否则我们对所有实验使用80/20的训练/测试分割这些数据集的细节描述如下。HICO数据集[7]是为人类与常见对象交互而开发的因此,它特别适合我们的任务。我们遵循分类任务。目标是识别图像中的交互,每个交互由一个动词-名词对组成。HICO有47,774个图像,包括80个名词,117个动词和600个输入字符。我们删除了“非操作性”和所有相关内容因此,我们的基准HICO包括116个动词和520个动作。Visual Genome HOI数据集源自Visual Genome [30]-用于结构化图像理解的最大数据集基于注释,我们从Visual Genome中划分出一个子集,专注于人类对象交互。在我们的实验中,我们将这个数据集称为Visual Genome HOI具体地,从所有其他方面来看,我们以“人性化”和局部化的形式来实现。并非我们不包含与“b e”、VisualGenome HOI数据集包括21256张图像,其中包含1422个名词,520个动词和6643个独特动作。我们注意到大量的动作只有1或2个实例。因此,为了测试,我们将我们的动作限制在532个类别,其中包括10个以上的实例。Charades数据集[48]包含9848个日常人-物体交互的视频剪辑,可以通过动词-名词对来描述 我们从原始的157个类别中删除具有“无约束力”的操作。因此,我们在Charades上的标记包括与37个对象和34个动词的交互,导致总共149个有效动作类别。我们注意到,Charades是一个更具挑战性的数据集,因为视频是在自然环境中捕获的。人机交互的组合学习11输入GCNCL-I GCNCL+NV+A输入GCNCL-I GCNCL+NV+AGT:WearSnowboardPred: RepairSkisPred: WearSnowboardGT:PizzaPred:CleanFridgePred:Pizza1A(见)2B(见)1B(未见)GT:Race/Ride/Sit on/跨骑/转弯摩托车Pred:公园自行车P r e d :骑式摩托车GT:读取/键入笔记本电脑Pred:打开书Pred:阅读笔记本电脑GT:Carry/Hold/PickUp蛋糕Pred:WearBackpackPred:CarryCakeGT:进位/保持背包Pred:坐在滑板Pred:WearBackpackGT:吃/保持三明治Pred:闻甜甜圈Pred:吃三明治GT:骑行/观看英文名称:ElephantPred:WalkElephant2A(未见)图三. HICO数据集上GCNCL-I和GCNCL+NV+A的结果。所有方法都在1A+2B上进行训练,并在可见(1A,2B)和不可见(2A,1B)动作上进行测试。每行显示一个子集的结果。每个样本包括输入图像及其标签,来自GCNCL-I和GCNCL+NV+A的前1个预测。我们使用前1个预测标签绘制注意力地图。红色区域对应于高预测分数。4.3基线方法我们为我们的实验考虑了一组基线这些方法包括• 目视产品[31](VP):VP通过计算动词和名词分类器的乘积(p(a,b)= p(a)p(b))来组合动词和名词分类器的输出。动词短语不模拟动词和名词之间的语境关系,因此可以认为是后期的融合。VP可以处理已知概念的不可见组合,但不适用于未知动词或名词的新动作。• 三联体网络(三联体):三胞胎连体是灵感[12][15]我们首先连接动词和名词嵌入并使它们通过两个FC层(512、200)。输出进一步与视觉特征连接,随后是另一FC层以输出相似性分数。该网络使用sigmoid交叉熵损失进行训练。• 语义嵌入空间(SES)[55]:SES最初是为零射击动作识别而设计的。我们把动词和名词的平均值作为动作嵌入。该模型使用L2损失来学习最小化动作嵌入与其相应的视觉特征之间的距离• Deep Embedding Model [60](DEM):DEM传递动词和名词embed-通过FC层独立地进行Dings。它们的输出被融合(元素求和)并使用L2损失与视觉特征匹配。• 分类器组成[40](CC):CC组成分类器而不是单词12K.卡托湾Li和A. 古普塔嵌入每个令牌由其SVM分类器权重表示。因此,CC学习将两个权重的组合转换为新的分类器。该模型使用sigmoid交叉熵损失进行训练如果不提供用于学习分类器的样本,则它不能处理新4.4消融研究我们从我们的方法的消融研究开始。我们将我们的基础模型表示为GCNCL(Graph Convolutional Network for Compositional Learning),并考虑以下变体• GCNCL-I是我们的基础模型,它只包含数据集上的动作链接。在该模型中,名词和动词之间没有联系,因而Avv和Ann的邻接矩阵是单位矩阵。• GCNCL进一步使用WordNet在名词/动词节点内添加边• GCNCL/GCNCL-I+A增加了来自外部知识库的行动链接• GCNCL/GCNCL-I+NV+A还包括新令牌(Word-Net上的1跳)。请注意,我们没有为Visual Genome数据集添加新令牌我们在HICO数据集上评估了这些方法,并将结果总结在表1中。对于识别新的组合看到的概念,GCNCL-I的工作比GCNCL版本更好。我们假设,删除这些链接将迫使网络通过动作节点传递信息,从而有助于更好地从看到的概念组成动作表示然而,当测试一个更具挑战性的情况下,识别新的概念,结果是有利于GCNCL模型,特别是在看不见的类别。在这种情况下,模型必须使用额外的链接(动词-动词或名词-名词)来学习新动词和名词的表示此外,对于这两种设置,添加更多链接通常有助于提高性能,而与模型的设计无关这一结果为我们的核心论点-外部知识可以用来提高零杆识别的人类对象的相互作用提供了强有力的支持。此外,我们在图3中提供了定性结果。具体来说,我们比较了GCNCL-I和GCNCL+NV+A的结果,并使用Grad-Cam [47]可视化了它们的注意力图。图3有助于理解外部知识的好处。第一,增加外部知识似乎提高了对名词的识别,但对动词没有。例如,GCNCL+NV+A成功地纠正了由GCNCL-I(e. G. 、第二,这两种方法都更好地识别名词对象的相互作用。它们的注意力地图突出显示了相应的对象区域。最后,动词的错误匹配是我们的方法的主要失败模式对于我们的实验的其余部分,我们仅包括GCNCL-I+NV+A和GCNCL+NV+A的最佳执行方法。4.5结果我们提出了我们的方法的完整结果,并将它们与我们的基线进行比较。HICO。我们的方法优于所有以前的方法时,任务是识别新的组合的行动。特别是,我们的结果为看不见的类别人机交互的组合学习13表2. CNOO上的识别结果(mAP)。我们的基准任务识别未知的组合已知的概念和识别新的概念。方法地图 测试集1A+2B列1A列所有2A+1B看不见所有1B+2A+2B看不见机会0.550.490.550.51三联体暹罗猫17.6116.4010.387.76SES18.3913.0011.697.19DEM12.2611.338.326.06VP13.9610.83--CC20.9215.98--GCNCL-I+NV+A21.4016.9911.516.92GCNCL+NV+A21.0416.3511.947.50表3. Visual Genome HOI上的结果(mAP)。这是一个非常具有挑战性的数据集,有许多动作类,每个类的样本很少。方法地图 测试集火车1A+2B1A列所有2A+1B看不见所有1B+2A+2B看不见机会0.280.250.280.32三联体暹罗猫5.684.612.551.67SES2.741.912.070.96DEM3.823.732.261.5VP3.842.34--CC6.355.74--GCNCL-I+A6.485.104.002.63公司简介6.635.424.072.44实现了6%的相对差距相比,从以前的工作的最佳结果。当测试更具挑战性的任务2时,我们的结果总体上更好,但比Triplet Siamese略差。我们进一步分解了不同测试分割的结果。结果表明,我们的结果只会更糟的分裂1B(-2.8%),其中物体以前见过。在所有其他情况下,我们的结果更好(2A为+2.0%,2B为+0.9%)。我们认为,三联体连体可能过度拟合所看到的对象类别,因此将无法转移知识看不见的概念。此外,我们还进行了显著性分析,以探索结果是否具有统计学意义。我们通过比较我们的GCNCL-I+NV+A与CC(在1A+2B上训练)和GCNCL+NV+A与Triplet Siamese(在1A上训练)的结果来对所有 班 级 进 行 t 检 验 。 我 们 的 结 果 显 著 优 于 CC ( P=0.04 ) 和 TripletSiamese(P=0.05)。视觉基因组。除了在第一个任务中看不见的类别之外,我们的模型工作得最好。我们注意到这个数据集非常具有挑战性,因为有比HICO更多的动作类,其中许多只有几个实例。我们想14K.卡托湾Li和A. 古普塔表4. Charades数据集上的结果(mAP)。这是我们尝试识别视频中的新颖交互。虽然差距很小,但我们的方法仍然是最好的。方法地图 测试集1A+2B列1A列所有2A+1B看不见所有1B+2A+2B看不见机会1.371.451.371.00三联体暹罗猫14.2310.110.417.82SES13.129.5610.147.81DEM11.788.979.577.74VP13.669.15--CC14.3110.13--GCNCL-I+A14.3210.3410.487.95公司简介14.3210.4810.538.09为了突出我们在任务2上的结果,其中我们的结果显示与先前最好的方法相比时超过50%的相对差距。这些结果表明,我们的方法有能力推广到全新的概念。猜字游戏最后,我们报告的结果Charades的视频动作数据集。这个实验为我们识别视频中的真实交互迈出了第一步。同样,我们的方法在所有基线中效果最好。然而,在这个数据集上的差距较小。与图像数据集相比,Charades的样本数量较少,因此多样性较低。方法很容易在这个数据集上过拟合。此外,构建视频表示仍然是一个开放的挑战。这可能是我们的性能受到视频功能的限制。5结论我们解决了人类对象交互的组合学习的挑战性问题。具体来说,我们探讨了使用外部知识学习组成新的行动。我们提出了一种新的基于图的模型,它将知识表示纳入到深度模型中。为了测试我们的方法,我们设计了仔细的零杆成分学习的评估协议。我们在三个公共基准上测试了我们的方法,包括图像和视频数据集。我们的研究结果表明,使用外部知识可以帮助更好地认识新的互动,甚至新的概念的动词和名词。因此,我们的模型在识别所有数据集上所见概念的新组合方面此外,我们的模型展示了识别新概念的有前途的能力我们相信我们的模型为零射击学习带来了新的视角,我们对使用知识的探索为理解人类行为提供了重要的一步。致谢。这项工作得到了ONR MURI N000141612007,Sloan Fellowship,Okawa Fellowship to AG的支持。作者要感谢Xiaolong Wang和GunnarSigurdsson进行了许多有益的讨论。人机交互的组合学习15引用1. Akata,Z.,Perronnin,F.,Harchaoui,Z. Schmid,C.:基于属性分类的标签嵌入。在:CVPR(2013)2. Andreas,J.,Rohrbach,M.,Darrell,T.,Klein,D.:学习构建神经网络进行问答。在:NAACL(2016)3. Andreas,J.,Rohrbach,M.,Darrell,T.,Klein,D.:神经模块网络。见:CVPR(2016)4. Biederman , I.: 按 组 件 识 别 : 一 种 人 类 形 象 理 解 理 论 。 PsychologicalReview 94(2),115(1987)5. Carlson,A. Betteridge,J.,Kisiel,B.,塞特尔斯,B.,小赫鲁施卡急诊室Mitchell , T.M. : 迈向 无止 境 语言 学习 的 架构 。 在:AAAI 。 pp. 1306-1313。02TheDog(2010)6. 卡雷拉,J.,齐瑟曼,A.:你好,动作识别?新模型和动力学数据集。在:CVPR(2017)7. Chao,Y.W.,王志,他,Y.,王杰,Deng,J.:Hico:用于识别图像中的人-对象交互的基准In:ICCV(2015)8. 陈旭,Shrivastava,A.,Gupta,A.:从网络数据中提取视觉知识In:ICCV(2013)9. Chopra,S.,哈德塞尔河LeCun,Y.:学习相似性度量有区别地,与应用到人脸验证。载于:CVPR(2005年)10. Delaitre,V.,Fouhey,D.拉普捷夫岛Sivic,J.,Efros,A.,Gupta,A.:场景语义来自对人的长期观察参见:Fitzgibbon,A.,Lazebnik,S.,Perona,P.,Sato,Y.Schmi d,C.(eds. )ECCV.pp. 28402Th
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功