没有合适的资源?快使用搜索试试~ 我知道了~
基于神经图匹配网络的少镜头三维动作识别
基于神经图匹配网络的少镜头三维动作识别Michelle Guo1[0000 - 0002 - 6574 - 6669]、Edward Chou1[0000 - 0002 - 0670 - 459X]、黄德安1[0000 - 0002 - 6945 - 7768]、宋淑然2[0000 - 0002 - 8768 - 7356]、SerenaYeung1[0000 - 0003 - 0529 - 0628]、李飞飞1[0000 - 0002 - 7481 - 0810]1斯坦福大学计算机科学系2普林斯顿大学计算机科学系抽象。我们提出了神经图匹配(NGM)网络,这是一个新的框架,可以学习识别以前看不见的3D动作类,只有几个例子。我们通过利用三维数据的固有结构,通过图形表示来实现这一点这使我们能够模块化我们的模型,并在少量学习中实现强大的数据效率。更具体地说,NGM网络以端到端的方式联合学习图形生成器和图形匹配度量函数,以直接优化少数 学 习 目 标 。 我 们 在 两 个 3D 动 作 识 别 数 据 集 CAD-120 和PiGraphs上评估了NGM,并表明学习生成和匹配图形都可以显著提高整体基线上的少量3D动作识别1介绍最近可用的商品深度传感器提供了捕获3D数据的新方法,但是标记的深度数据集很少,使得难以传输RGB领域深度学习技术的成功[1,2]。对于视频来说尤其如此,其中标记的难度和成本已经成为收集RGB视频数据集的障碍[3,4]。一种可能的方法是使用自监督[5,6]或无监督学习[7]来学习3D数据表示,该表示用作感兴趣任务的有效模型初始化。虽然这些方法已成功应用于RGB-D动作识别[5]和3D场景标记[7],但我们认为它没有充分利用现成的标记3D数据集[8在这项工作中,我们将少量学习[12]引入到3D动作识别中,其中模型被显式训练以处理以前未见过的类的稀缺训练数据。这与表示学习方法相反,表示学习方法不向模型通知感兴趣的任务。虽然最近的工作已经解决了RGB域中的少拍学习[13,14,12],但将这些方法适应3D空间是一项重要的任务。与存在有效RGB表示的图像不同(即,ImageNet [15]预训练的CNN),其在3D视频中的对应物仍然是一个开放的研究问题[16-18]。正如我们将在我们的实验中所示,将少量学习直接应用于现有的3D表示不会导致对新类的有效泛化2M. Guo,E. Chou,D.- A. Huang,S.宋,S.杨湖飞飞图1.一、建议的神经图匹配网络能够识别一个以前看不见的动作类,只有几个例子。我们通过利用3D数据中固有的空间信息来实现这一点如图所示,查询视频(中间)在视觉上类似于不同类别的视频(顶部),这可能会混淆整体方法。然而,NGM能够利用图形表示并将查询与具有正确类的视频匹配(底部)。我们解决这一挑战的关键观察结果是,3D数据中存在固有的结构,可以自然地利用这些结构为我们的表示提供模块化,从而实现更有效的少量学习。模块化和组合性已被证明可以有效地提高视觉问答中的数据效率[19如图1所示,同一个类的视觉上不同的动作可以通过它们的底层结构来关联有了这些见解,我们提出了神经图匹配(NGM)网络,一种新的基于图形的方法,学习生成和匹配图形的几杆3D动作识别。NGM由两个阶段组成,可以以端到端的方式联合训练。第一阶段是图形生成,其中我们利用由3D数据捕获的环境的3D空间信息来生成中间图形表示或交互图。对于每个动作,图使用节点来表示3D场景中的物理实体(例如,身体部位、对象)和边缘来表示实体之间的交互(例如,触摸,凝视)[22]。这种图形结构使我们能够更好地建模人和物体之间的空间关系,并捕捉视频的时间演变,同时在少数镜头设置中使用更强的数据效率第二阶段是图匹配,我们学习基于图的匹配函数作为一个度量,以便在生成的交互图上进行少量训练。以这种方式,NGM以端到端的方式自动学习3D环境的图形表示和最适合于新颖3D动作类的少量学习的图形匹配度量函数这与基于整体的方法[16-例如,PointNet [18]处理置换和几何不变点集,同时处理空间的点集。基于神经图匹配网络的少镜头三维动作识别3图二. CAD-120点云。我们在CAD-120数据集上评估NGM,该数据集包含日常动作的RGB-D视频。我们可视化单个点云帧,其中每个点是对应深度帧的3D投影(xi,yi,zi)。我们在两个3D动作数据集上评估了神经图匹配网络的少量学习:CAD-120 [9](图2)和PiGraphs [22]。我们表明,当只有一个例子可用时,NGM能够通过明确利用3D空间信息来超越此外,我们表明,建议的端到端的框架是能够学习有意义的图形生成和匹配的指标,显着优于启发式生成的边缘。为了总结我们的主要贡献,我们:(i)引入用于3D动作识别的少量学习任务,以解决与2D相比训练数据稀缺的挑战;(ii)建议使用图形表示来明确地利用3D数据中的空间信息;(iii)提出神经图匹配网络,这是一种新的框架,它学习以端到端的方式联合生成和匹配图形表示,这导致了3D少拍学习的更强的数据效率。2相关工作少拍学习。少镜头学习和类似的概念已经在过去的文献中进行了彻底的检查。这些作品中有许多涵盖了整体方法的使用[13,24-26,14,12]。Vinyals等人[12]使用匹配网络来执行一次性学习,使用具有余弦距离的k-最近邻为未观察到的类投射集到集的测试标签。Snell等人[14]使用欧氏距离并创建每个类的原型表示来进行这种方法。这两种方法都使用整体方法,其中原始输入和标签对被馈送到网络中,而不利用结构数据。还有,这两种工作都使用固定的相似性度量,因为对于K-NN分类只使用某些距离计算。进一步的工作已经引入了用于学习相似性度量的其他技术。Santoro等人[26]探索主题关系推理的一个示例,其中模块使用MLP和突触权重来学习关系网络3D动作识别。传统的3D动作识别方法依赖于手工制作的功能,例如HON4D [27]和HOPC [28]来捕获时空信息。一种主要的替代方案是基于骨架的方法[29,30],其中视频被表示为关节位置的序列。最近的3D动作识别方法利用骨架姿态或时间姿态来识别动作。4M. Guo,E. Chou,D.- A. Huang,S.宋,S.杨湖飞飞通常被馈送到卷积和递归网络的组合中的特征[31已经探索了用于RGB-D动作识别的部分感知LSTM;然而,重点是节点而不是图形。虽然大多数3D动作识别方法都是为监督学习而设计的,但针对少数镜头设置的3D动作识别相对未被探索。模块化和组合性。模块化方法已被证明是重要的数据效率的视觉理解。一个例子是视觉问题回答问题[20,21]。我们的工作与组合性有关,其中一组实体和交互用于描述动作。伊基兹勒等人[34]描述了一种分解每个身体部位的运动以组成更大的活动描述任务的方法。Gu等人。[35]概述了一种独特的组合方法,使用动作原语来描述动作而不是身体部位。其他代表包括:2D场景中的对象和关系的场景图[36],以及用于为场景合成建模3D数据的交互图[22]。图的深度学习。一些作品学习了单个大型图上的图节点嵌入[37-39]。这类似于在自然语言处理模型中学习的词嵌入(例如,word2vec[40])。然而,在这项工作中,我们必须处理代表各种动作视频示例的多个不同的图形与我们在图处理方面的工作相关的是图神经网络(GNNs),它能够处理任意图形。GNN已被用于对各种结构数据进行建模,包括分子指纹、引文网络和知识图[41,42]。GNN也被用于对图像之间的关系进行建模,以进行少量图像分类[43]。3问题公式化3.1少数学习我们首先根据以前的作品[14,12]中的定义来制定少次学习问题。与标准分类问题相比,在少量学习中,类被分成两种类型。令C={1,…K}是所有类的集合,其被分割成集合:Ctrain,有足够的数据进行少量学习的训练类,以及Ctest,只有少量标记数据的新的或看不见的类。少次学习中的k次N路分类意味着我们有N个新类(即,|= N),并且每个新类具有k个示例。|= N ), and each novel class has k examples.最近几次学习方法的成功[12换句话说,少次学习问题可以被公式化为从C训练中学习两个输入示例xi和xj的度量函数φ(xi,xj),这可以推广到新的类别C测试,使得φ(xi,xj)对于同一类别中的数据点较小,而对于来自不同类别的数据点较大且距离较远。学习φ(·,·)的一种朴素方法直接在C train上应用监督训练,直接最小化类内距离,同时最大化类间距离。但却基于神经图匹配网络的少镜头三维动作识别5由于在最佳情况下,快速算法可以实现重复训练,因此它模拟了几次射击设置,以学习C训练[12]中的φ(xi,xi)。这导致更强的泛化到新的类C测试。3.2基于图的少镜头学习我们的工作遵循少量学习设置,并将其引入到3D动作识别中(参见补充中的图8)。关键的挑战在于,与图像对应物不同,度量函数φ(·,·)的形式仍然是一个关键的研究问题。我们认为,直接应用整体方法,如PointNet [18],不能充分利用3D数据中的空间信息。图像处理以及提出和分割任意对象仍然是一个挑战[44],而3D数据中的额外维度使我们能够更好地建模人与对象之间的关系。因此,我们的主要贡献是明确地利用图形表示的空间信息。形式上,我们的神经图匹配网络可以被视为将度量函数分解为:φ(xi,xj)=φGM(g(xi),g(xj)),(1)其 中 g ( · ) 是 我 们 的 图 生 成 器 , 它 从 输 入 中 获 得 交 互 图 ,φGM(·,·)是我们与生成器联合学习的图匹配网络,以直接优化少量学习。4方法我们将少量学习表述为从训练类Ctrain中学习度量函数φ(·,·),目标是学习推广到Ctest 用于少数镜头分类。我们的工作的主要贡献是通过将度量分解为φ(xi,xi)=φGM(g(xi),g(xi))、在度量φGM处的grap和grap或g(·)来明确地利用3D信息。这种分解使我们能够更好地利用是3D数据中固有的,并导致更强的泛化为少数拍摄学习。我们的方法概述如图3所示。我们首先在4.1节讨论我们的图学习方法,然后在4.2节讨论图匹配方法。最后,我们在4.3节中展示了如何以端到端的方式训练两者的组合。4.1图生成我们的关键见解是,3D数据包含固有的空间结构,可以以图形形式编码,以提高少数学习的数据效率。挑战在于,我们的目标是实现图形生成,而无需图形监督和注释。一种简单的方法是使用基于统计学的方法并对图生成过程进行硬编码。然而,这样的启发式很容易受到噪声的影响,并且不能保证对我们的少杆学习有益6M. Guo,E. Chou,D.- A. Huang,S.宋,S.杨湖飞飞图3.第三章。神经图匹配(NGM)网络概述NGM由两个部分组成:图生成和图匹配度量,它们针对少量学习进行了联合优化在图生成中,我们利用图卷积来生成考虑上下文信息的节点特征。对于图匹配度量,我们提出图张量作为图表示,允许我们结合图结构和连续节点表示中的信息。问题.我们通过将图生成制定为可区分的过程来解决这一挑战,该过程可以与我们的图匹配度量一起进行训练,以直接优化少数镜头目标。我们使用交互图作为我们的图形表示,其由表示3D场景中的物理实体的节点组成(例如,身体部位、对象)以及表示实体之间的交互的边(例如,触摸,凝视)[22]。 给定一组节点类别C和一组节点关系E,表示视频帧xi,t的交互图Gi,t是元组(Ni,t,Ei,t),其中Ni,t={n1,…n n}是节点的集合,其中每个n j2C,并且E是形式为(n j,e,n k)的无向边的集合,其中n j,n k2N并且e2 E。节点构造。交互图的节点可以使用人类注释的对象和姿势检测或任何预先训练的对象或姿势检测器来获得。每个节点包含相关联的特征P1,t,其可以从图像的原始像素(例如,3D位置)。边缘学习。与在对象和姿态检测空间中被充分研究的问题节点构造相反,用于捕获场景中对象之间的关系的边缘学习仍然是一个正在进行的研究领域[45]。与以前使用完全监督学习的边缘[45]相比,我们将边缘生成与我们的图匹配度量联合学习,以进行少量学习。因此,重要的是边缘学习过程是可微分的。这扩展了我们学习的交互图边缘的语义,超出了预定义的启发式(例如,接触、凝视)[22]。给定来自图的两个节点xi,Xj,我们将节点之间的边强度Ai,j定义为:1)Ai,j= ψ(xi,xj)= MLPedge(|f(xi)−f(xj)|)、(2)基于神经图匹配网络的少镜头三维动作识别7i、j我-我j,iJ其中f(·)是节点的特征表示,并且MLP边缘(·)是多层感知器。取特征之间的绝对差而不是连接它们,确保操作满足对称性[43]。因此,f(·)对我们的边的质量起着重要的作用重要的是,f(·)还取决于图结构,并且不独立地应用于每个节点,因为取决于不同的上下文,相同的对象可以与其他对象具有非常不同的 当制作谷物时,用于微波炉的节点必须被关闭以保持,而当动作仅仅是打开微波炉时,该节点不会被关闭。因此,我们使用广义拓扑结构网络[42]来更新具有节点特征的节点特征,以使f(·)也取决于邻接矩阵。我们迭代地更新它们f(k+1)(x)=σ((D(k))−1A(k)(D(k))−1f(k)(x)W)、(3)2 2我我我边缘A(k)=MLPedge(|f(k)(xi)−f(k)(xj)|)、(4)其中D(k)A(k)是对角节点度矩阵,W边缘 是用于特征表示的可训练矩阵 我们使用来自nodecon结构的初始节点特征作为f(0)(·)。在这种情况下,我们的数据将取决于图的结构,这取决于上下文。 注意,我们保持邻接矩阵A中的连续边缘强度,以将学习到的边缘保留为我们的图匹配度量函数的可微输入。这允许我们训练图形生成以直接优化少数镜头泛化。4.2图匹配我们已经讨论了如何生成交互图作为图形表示,以明确地利用3D输入中固有的空间信息。如第3节中所讨论的,我们将少次学习φ(xi,xj)=φGM(g(xi),g(xj))表示为在iong(·)处的grap_h_m和在ch_ingφGM处的gr ap_m的learningj。现在我们讨论图匹配度量φGM。与经典的精确图匹配问题[46]相比,其中两个比较图之间存在同构关系,我们的数据驱动图可以具有不同数量的节点。这被称为不精确图匹配[47],并且对于图像分割和处理[48]很重要。然而,经典的不精确图匹配通常从节点表示或特征中抽象出来,这在我们的例如,即使当用于手的节点靠近对象时,对应的动作仍然取决于输入中的其他上下文,并且不能仅由图形结构捕获。另一个极端是最近的方法,其目的是学习图嵌入[49]作为捕获图中所有信息的单个向量表示。虽然可以通过图神经网络等方法包含边缘信息[42,50],但3D动作识别通常需要我们保持细粒度的信息。例如,当一个动作与杂乱的对象交互时,我们显式地建模它们的关系是很重要的8M. Guo,E. Chou,D.- A. Huang,S.宋,S.杨湖飞飞我N因此,我们建议使用图张量作为图匹配表示。图张量T2R|C| ×|C| × d是三维张量,其中|C|是节点类型的数量,d是节点特征的维度。我们定义:XTm,m,:=c(i)=mXf(xi),and Tm,k,: =c(i)=m,c(j)=kn(xi,xj)f或i6=j, (5)其中c(i)是节点i的节点类型,f(·)是节点匹配特征,并且ψ(·,·)用于匹配的边缘特征对于节点匹配特征,我们重新使用来自图生成的权重W边缘并定义:f(x)=σ(D~ −1AD~ −1f(x)W)、(6)2 2我我我边缘其中A是来自节点生成的最终邻接矩阵,并且f(·)是对应的最终节点特征。对于边缘匹配特征,我们重新使用来自Eq的node 仿射。(2):ψ(·,·)=ψ(·,·). 因此,对于图G1和G2,φGM(Gi,Gj)=||T(Gi)−T(Gj)||第二条第七款对应的图张量之间的距离。这里我们重载符号T,这里T(G)是图G的图张量。我们的方法的一个隐含假设是我们假设节点类型分类器c(·)的可用性,用于聚合和匹配相同类型的节点。在这种情况下,节点类型可以是人体关节或对象类。这解决了节点对应关系并简化了图匹配问题。在少数镜头设置中,我们希望学习从查询生成的查询图和从每个动作类中的支持示例我们遵循原型netPworks[14],并将clask的protypicag ra pi c a grap i c apica1c(i)= k T i是所有支持图的图张量的平均值。为了预测给定查询示例xi的操作类,我们比较Quer yexp(−||T(g(xi)),Tk||(二)p(y=k|x(i)=Pexp(−φGM(xi,xk))2)=P,(8)k0 exp(−|| T(g(x i)),T k0||k0 exp(−φGM(xi,xk0))其中xk是用于解释的类型k4.3学习和优化通过随机梯度下降最小化真类kJ= −logp(y = k|x)= Pexp(−φGM(xi,xk))(九)k0exp(−φGM(xi,xk0))我们使用基于情节的训练[12]来模拟训练时的少数镜头设置,以直接优化泛化到看不见的新类。基于神经图匹配网络的少镜头三维动作识别9注意,所提出的神经图匹配网络是可从输入X端到端训练的。我们将神经图匹配定义为:φGM(xi,xj)=||T(g(xi))−T(g(xj))||二、(十)从等式(3)和方程(4),我们可以看到,输出特征和邻接矩阵对于图生成器g(·)都是可微的。从等式(5),则在u_re_f(·)处的节点m和在u_re_ψ(·)处的边缘m都是可区分的。在这种情况下,我们能够在Eq. (9)通过基于情节的训练直接从输入中获得。这使我们能够联合学习优化的图和相应的图匹配度量,以进行少量学习。5实验在这项工作中,我们的目标是少拍3D动作识别,其中模型能够仅用几个训练示例对新类进行分类。我们建议使用交互图作为中间表示来明确地杠杆年龄的固有空间信息在3D数据中,而不是直接应用在图像空间中使用的整体方法。我们的实验旨在回答以下几个问题:(1)NGM的grap hicrep esention ap r oa与PointNet [18]等整体方法相比,如何进行(2)可学习边对于捕获超出启发式的节点交互(例如,距离)?(3)用于学习图匹配函数的所提出的图张量表示与诸如不精确图匹配和图嵌入的替代方案相比如何我们通过将NGM与最先进的3D表示进行比较来回答这些问题[10,18],并对我们模型的设计选择进行了广泛的消融研究。5.1数据集。我们使用两个三维动作数据集与各种人与物体的相互作用,其中存在具有挑战性的细粒度的动作识别。这是理想的评估,少数拍摄3D动作识别。因为大多数现有的少镜头方法依赖于将知识从可见类转移到不可见类的原则与此同时,这些操作仍然应该是细粒度的,以便有适当评估的挑战CAD-120。我们使用CAD-120,这是一个RGB-D视频数据集,包含4个受试者进行的超过60,000个活动视频帧(图2)。我们专注于评估子活动标签(例如,到达、移动、放置)以及它们与场景中的对象的组合(例如,碗、牛奶和微波炉)。这些与对象的细粒度交互使得分类在少数镜头设置中具有挑战性。此外,由于受试者只被给予动作的高级在我们的实验中,我们将数据集分为20个训练类和10个测试类。PiGraphs。我们使用PiGraphs数据集[22],其使用RGB-D传感器来捕获常见活动,注释为动词-名词对的集合,例如use-laptop,10M. Guo,E. Chou,D.- A. Huang,S.宋,S.杨湖飞飞表1.少数动作识别结果。我们比较我们的方法基线整体的方法和基线部分为基础的方法。CAD-120型图形单次拍摄5次射击单次拍摄5次射击PointNet [18]57.269.160.682.5P-LSTM [1]60.568.166.671.7S-RNN [51]65.485.4––NGM(不带边缘)66.185.075.971.1NGM78.591.180.288.3躺在床上看白板注释还包括动词-名词对组合,导致动作类,例如站立-地板+书写-白板和坐-椅子+观看-监视器+类型-键盘。该数据集包含重建的3D室内环境,这对于理解3D人-对象交互是理想的。此外,数据集附带CAD-120数据集中不可用的体素注释。我们利用来自原始PiGraphs数据集的iGraphs作为我们的启发式衍生基线。我们使用了32个训练班和10个测试班进行实验。对于这两个数据集,节点都是从数据集中的对象位置导出的。我们注意到,节点的位置可以很容易地提取使用一个国家的最先进的对象检测器,但我们的工作主要集中在生成和学习节点关系的问题。5.2评估用于少镜头学习的3D动作表示我们现在评估几次3D动作学习的表示,并分析显式图形结构学习的重要性我们将我们的方法与三个基线进行比较:PointNet。PointNet [18]利用置换不变算子并直接将点云作为输入。该方法在3D分类和语义分割方面取得了最先进的成果我们选择这个基线作为代表性的整体方法,而不明确地利用空间信息,并旨在通过从整个场景中学习来捕获动作分类为了进行公平的比较,除了点坐标和RGB值之外,我们还将每个点的检测到的对象类型连接起来作为PointNet的输入P-LSTM。部件感知LSTM(P-LSTM)[10]是一种重要的基于骨架的3D动作识别方法已经得到了广泛的应用。与PointNet不同,P-LSTM隐式允许在LSTM单元中出现结构。然而,这种结构并不像我们的神经图匹配中那样明确要求。除了人类关节位置,我们还将对象位置馈送到P-LSTM进行公平比较。无边缘的NGM。我们比较我们自己的消融模型没有边缘作为基线。在这种情况下,图生成中的图学习(第2.1节)和图学习(第2.2节)都不需要基于神经图匹配网络的少镜头三维动作识别11放置牛奶放置盒移动伸手药盒微波炉放置牛奶到达牛奶打开药盒到达药盒微波炉图4.第一章我们在CAD-120数据集上显示了我们的模型(绿色标签)和P-LSTM [10](红色标签)的预测每个动作示例由动作剪辑的三个帧(开始、中间、结束)图形覆盖在每个帧上,其中黄点是节点,绿线是边。我们的基于图的方法能够正确地预测动作类,而原始输入数据可能会混淆PLSTM。4.1)图匹配中的图张量(4.2节)也是不可能的。 在这种情况下,该模型被简化为图嵌入模型,而无需在节点之间传递消息。我们选择这个基线来显示学习边缘和图匹配张量的重要性。结果CAD-120和PiGraphs数据集上的1次和5次动作识别结果如表1所示。可以看出,NGM在两个数据集上显著优于基线。我们可以看到,在少量学习中没有足够的训练数据,像点网这样的整体表示无法学习有效的分类特征。另一方面,虽然P-LSTM和S-RNN对于监督式动作识别是有效的,但如果没有足够的数据,这些递归神经网络的隐藏状态就无法捕获视频的结构。与基线相比,NGM明确地利用交互图作为图形表示,并且在图匹配阶段使用图张量来比较节点的矢量重要的是,“NG M w /o Edge ge”的性能明显低于我们的这表明,学习场景中的对象/节点之间的结构和关系对于将少镜头学习推广到新类起着重要作用相比之下,PiGraphs和CAD-120的完全监督结果分别为94.7%和93.7%。在完全监督设置中的更高性能表明,少次学习比多次学习更具挑战性。12M. Guo,E. Chou,D.- A. Huang,S.宋,S.杨湖飞飞清洗微波炉做麦片叠碗微波食品做麦片表2.图形学习消融研究。我们评估边缘学习的效果。我们比较没有边缘,启发式定义的边缘和我们学习的边缘。边缘CAD-120图形单次拍摄5次射击单次拍摄5次射击没有一66.185.075.982.5人-物74.989.775.571.3接近77.288.1––了解到78.591.180.288.3图五. CAD-120图形学习结果。我们展示了五个生成图(绿色)的示例,并与中间行中的启发式定义图(红色)进行了顶行示出了对应的帧,并且底行示出了邻接矩阵。可以看出,NGM生成对于理解动作重要但未在启发式边中捕获的节点关系。例如,NGM在清洁微波动作中自动生成人与微波之间的边缘。在这些数据集上进行全监督学习。在下面的部分中,我们将讨论对模型的每个组件进行更全面的分析定性结果。我们在图4中显示了比较P-LSTM模型(红色标签)和NGM(绿色标签)的特别地,P-LSTM难以捕获与对象(例如,对象)的特定交互。放置与取奶,打开与到达药箱)。此外,对于人类与多个对象交互的动作序列放置牛奶与盒子,拿碗与微波)。从图4所示的图形中,我们可以看到,图形随时间演变的显式建模是预测正确操作的有用信号例如,在到达药盒的情况下,图形开始时没有边,然后在稍后的时间步在人和药盒之间创建边以表示“到达”。5.3评估边缘学习图形学习很重要。我们在5.2节中已经表明,通过边显式地学习对象/人的关系起着重要的作用基于神经图匹配网络的少镜头三维动作识别13见图6。PiGraphs图形学习结果。我们的启发式图(顶部)和我们生成的图(底部)的比较。与仅包含人类关节和直接接触对象的启发式边缘相比,我们学习的边缘能够结合动作的进一步上下文虽然不是手工制作的,但学习的边缘仍然能够捕捉到这是一个以人为中心的问题,并以人为中心。我们方法的成功我们现在分析不同边缘生成对appro a ches的影响。 在“NG多边形边缘”(在该部分中显示为“非”)中,我们考虑用于生成边缘的两种启发式方法:第一种是“邻近”,其中在3D局部区域封闭的情况下,通过两种方法来添加边缘。这种方法是“Hu man-O b jec t“,它与“Prox imit y”相似,但如果它位于人体关节和对象之间,则可以添加边缘。动机是它可以将模型集中在对理解动作很重要的人-对象交互上。结果示于表2中。可以看出,这种边缘学习方法的底部可以克服“非”基线,但是这种有效的边缘学习方法仍然表现最好。本质上,启发式定义的图对节点位置中的噪声敏感,并且受到手工制作的规则的约束,这些规则具有推广的挑战性。例如,如果人靠近不相关的对象,则基于接近度的边缘生成器将天真地创建人与对象之间的不期望的边缘关系。强制混合不相关的节点特征(例如在这种情况下)可能会影响性能。定性结果。与启发式边生成技术相比,NGM通过优化图结构来自动发现重要节点关系,从而获得更好的预测性能。NGM可以自由地学习超出特定手工设计标准的边缘语义邻近度)用于节点链接。我们在图5和图6中NGM学习的图(绿色)包含启发式定义的图(红色)中未捕获的节点图5中的清洁微波将人类节点与清洁布联系起来,而NGM还将人类与微波联系起来,甚至在人类-微波上放置比人类-布边缘更强的权重,表明这种关系对于预测动作类至关重要。在制作谷物的过程中,我们看到启发式图在人类和谷物之间建立了一条朴素的边。NGM也预测了这种优势,但也了解到牛奶罐和碗与谷物制作动作的相关性,尽管人类没有接触这些物体。14M. Guo,E. Chou,D.- A. Huang,S.宋,S.杨湖飞飞表3.匹配消融研究。我们评估我们的特征匹配和我们的图结构匹配,以及两者的组合的性能匹配CAD-120图形单次拍摄5次射击单次拍摄5次射击特征61.178.377.874.1邻接60.578.278.374.1邻接特征78.591.180.288.3与启发式图相比,我们在图6中的PiGraphs数据集上类似地可视化了我们学习的节点关系启发式图(顶部)主要捕获人体骨架和与骨架关节接触的直接对象。这种表示类似于基于姿势的动作识别方法[29,30]的几种现有方法。相比之下,我们的学习图捕获了场景中更复杂的关系,这些关系对于预测相应的动作类是直接最佳的。我们的学习边缘倾向于以人为中心,这是直观的,因为PiGraphs数据集专注于以人为中心的交互。然而,边缘不包含人体骨架边缘,这表明人体关节之间的边缘实际上可能对动作场景的分类并不5.4评估图匹配表示与经典的图匹配[47]和图嵌入[42]相比,我们在第4.2节中提出的图张量将节点表示与图结构结合到我们的匹配函数中。我们现在分析将连续特征与图结构相结合的重要性。结果示于表3中。可以看出,仅具有节点表示或图结构不能完全表示用于少量学习的图。这表明整体图嵌入和结构邻接矩阵中存在互补信息,并且所提出的图张量能够利用和组合这两种信息。6结论我们提出了神经图匹配(NGM)网络,这是一种新颖的少镜头学习框架,通过图形中间表示来利用3D中的固有空间信息。NGM由两部分组成:图生成器和图匹配度量,其可以以端到端的方式联合训练以直接优化少量学习目标。我们证明,这导致更强的泛化到看不见的类只有几个例子相比,整体和启发式定义的方法。基于神经图匹配网络的少镜头三维动作识别15引用1. Krizhevsky,A.,萨茨克弗岛Hinton,G.E.:Imagenet分类与深度卷积神经网络。在:NIPS。(2012年)2. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。在:CVPR中。(2016年)3. Fabian Caba Heilbron,Victor Escorcia,B.G.,尼布尔斯,J.C.:Activitynet:一个大规模的数据库为人类管理和环境提供了一个机会。(2015)9614. Karpathy,A.,Toderici,G.,Shetty,S.,Leung,T.,Sukthankar河李菲菲:用卷积神经网络进行大规模视频分类。在:CVPR中。(2014年)5. Luo,Z.,彭湾黄地方检察官Alahi,A.,李菲菲:视频长期运动动态的无监督学习。在:CVPR中。(2017年)6. 米斯拉岛Zitnick,C.L.,Hebert,M.:洗牌并学习:使用时序验证的无监督学习。In:ECCV. (2016年)7. Lai,K.,博湖Fox,D.:用于3d场景标注的无监督特征学习。In:ICRA.(2014年)8. Chang,A.X.,Funkhouser,T.,吉巴斯湖Hanrahan,P.黄,Q,Li,Z.,Savarese,S.,Savva,M.,Song,S.,Su,H.,等: Shapenet:信息丰富的三维模型库。arXiv预印本arXiv:1512.03012(2015)9. Koppula,H.S.,古普塔河Saxena,A.:从rgb-d影片学习人类活动与物体的动作国际机器人研究杂志(2013)10. Shahroudy,A.,刘杰,Ng,T. T.,王G:Ntu rgb+ d:用于3d人类活动分析的大规模数据集CVPR(2016)11. Song,S.,Lichtenberg,S.P.,Xiao,J.:Sun rgb-d:一个rgb-d场景理解基准测试套件。在:CVPR中。(2015年)12. Vinyals,O.,布伦德尔角Lillicrap,T. Wierstra,D.,等:匹配网络进行一次性学习。在:神经信息处理系统的进展。(2016)3630-363813. Garcia,V.,Bruna,J.:图神经网络的少样本学习。In:ICLR.(2018年)14. Snell,J.,Swersky,K.,Zemel,R.S.:用于少镜头学习的原型网络。arXiv预印本arXiv:1703.05175(2017)15. Deng,J.,Dong,W.,索赫尔河Li,L.J.,Li,K.,李菲菲:ImageNet:一个大规模层次化图像数据库。CVPR(2009)16. Masci,J.,Boscaini,D.Bronstein,M.,Vandergheynst,P.:黎曼流形上的测地在:ICCV研讨会。(2015年)17. 吴志,Song,S.,Khosla,A.余,F.,张,L.,唐,X.,Xiao,J.:3dshapenet:体积形状的深度表示。在:CVPR中。(2015年)18. Qi,C.R.,Su,H.,Mo K Guibas,L.J.:Pointnet:对点集进行深度学习,用于3D分类和分割。arXiv预印本arXiv:1612.00593(2016)19. Andreas,J.,Rohrbach,M.,Darrell,T.,Klein,D.:神经模块网络。IEEE计算机视觉和模式识别会议论文集。 (2016)3920. Johnson , J. , Hariharan , B. , 范 德 马 滕 湖 , Hoffman , J. , Fei-Fei , L.Zitnick,C.L.,Girshick,R.:推理和执行程序的视觉推理。arXiv预印本arXiv:1705.03633(2017)21. 胡河Andreas,J.,Rohrbach,M.,Darrell,T.,Saenko,K.:学习推理 : 用 于 可 视 问 答 的 端 到 端 模 块 网 络 。 CoRR , abs/1704.05526 3(2017)16M. Guo,E. Chou,D.- A. Huang,S.宋,S.杨湖飞飞22. Savva,M.,Chang,A.X.,Hanrahan,P.Fisher,M.,Nießner,M.:Pigraphs : 从 观 察 中 学 习 交 互 快 照 。 ACM Transactions on Graphics(TOG)35(4)(2016)13923. Qi,C.R.,Su,H.,Mo K Guibas,L.J.:Pointnet:对点集进行深度学习,用于3D分类和分割。CVPR(2017)24. Ravi,S.,Larochelle,H.: 优化作为一个模型的少镜头学习。(2016年)25. Santoro,A.Bartunov,S.,Botvinick,M.,Wierstra,D.,Lillicrap,T.:使用记忆增强神经网络的元学习。在:ICML。(2016年)26. Adam Santoro、David Raposo、D.G.B.M.M.R.P.P.B.T.L.:一个用于关系推理的简单神经arXiv预印本arXiv:1706.01427(2017)27. Oreifej,O.刘先生:Hon4d:用于从深度序列进行活动识别的定向4d法线的直方图。在:CVPR中。(二零一三年)28. Rahmani,H.,Mahmood,A.,Huynh D.Q. Mian,A.:Hopc:用于动作识别的3D点云的定向主成分In:ECCV.(2014年)29. 王杰,刘志,吴,Y.,Yuan,J.:挖掘actionlet合奏与深度相机的动作在:CVPR中。(2012年)30. 维穆拉帕利河Arrate,F.,切拉帕河:用李群中的点表示3d骨架的人体动作识别。在:CVPR中。(2014年)31. Li,C.,王,P.,王,S.,侯,Y.,李伟:基于骨架的lstm和cnn动作识别。arXiv预印本arXiv:1707.02356(2017)32. 刘,M.,陈春,Meng,F.M.,Liu,H.:使用多时间骨架可视化的3d动作识别。CVPR CVPR.2017.391(2017)33. Yan,S.,Xiong,Y.,Lin,D.:用于基于骨架的动作识别的时空图卷积网络。arXiv预印本arXiv:1801.07455(2018)34. Ikizler,N.,福赛斯,D.A.:搜索没有视觉示例的复杂人类活动。国际计算机视觉杂志(2008)35. Chunhui Gu和Chen Sun和Sudheendra Vijayanarasimhan和Caroline Panto faru和 David A.Ross 、 George Toderici 、 Yeqing Li 、 Susanna Ricco 、 RahulSukthankar、Cordelia Schmid和Jitendra Malik:Ava:时空局部化原子视觉动作的视频CoRR,CoRR:1705.08421(2017)36. Johnson,J.,克里希纳河斯塔克M. Li,L.J.,Shamma,D. Bernstein,M
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功