没有合适的资源?快使用搜索试试~ 我知道了~
13425基于语义图卷积网络的三维人体姿态回归龙钊1奚鹏2于天1穆巴西尔1迪米特里斯1卡帕迪亚罗格斯大学(Rutgers University)2宾厄姆顿大学(Binghamton University){lz311,yt219,mk1353,dnm}@ cs.rutgers.edu,xpeng@binghamton.edu摘要在本文中,我们研究了学习图卷积网络(GCN)回归的问题。目前GCN的体系结构局限于卷积滤波器的小感受野和每个节点的共享变换矩阵。为了解决这些局限性,我们提出了语义图卷积网络(SemGCN),一种新的神经网络架构,用于处理具有图结构数据的回归任务。SemGCN学习捕获语义信息,如局部和全局节点关系,这些信息在图中没有显式表示这些语义关系可以通过端到端的训练从地面事实中学习,而无需额外的监督或手工制定的规则。我们进一步研究将SemGCN应用于3D人体姿势回归。我们的公式是直观和充分的,因为2D和3D人体姿势都可以表示为编码人体骨架中关节之间的关系的结构化图。我们进行了全面的研究,以验证我们的方法。结果证明,SemGCN优于现有技术,同时使用少90%的参数。1. 介绍卷积神经网络(CNN)已经成功地解决了经典的计算机视觉问题,如图像分类[12,29,31,52],对象检测[19,46,55,63,74,79]和生成[43,58,71,73,80],其中输入图像具有网格状结构。然而,许多现实世界的任务,分子结构、社交网络和3D网格只能以不规则结构的形式表示,其中CNN具有有限的应用。为 了 解 决 这 一 限 制 , 最 近 引 入 了 图 卷 积 网 络(GCN)[17,28,49]作为CNN的推广,可以直接处理一般类别的图。它们在应用于3D网格变形[45,64]、图像字幕[70]、场景理解[68]和视频识别[66,67]时达到了最先进的性能。这些作品使用GCN来建模视觉对象的关系,阳离子。在本文中,我们研究使用深度GCN进行回归,这是计算机视觉的另一个核心问题,具有许多现实世界的应用。然而,由于基线方法的以下限制,GCN不能直接应用于首先,为了处理图节点可能具有不同数量的邻域的问题,卷积滤波器为所有节点共享相同的权重矩阵,这与CNN不可比较。其次,根据[28]的指导,通过限制滤波器在每个节点周围的一步邻域由于这种公式,卷积核的感受野被限制为1,这严重损害了信息交换的效率,特别是当网络更深时。在这项工作中,我们提出了一种新的图神经网络架构的回归称为语义图卷积网络(SemGCN),以解决上述限制。具体来说,我们研究学习语义信息编码在一个给定的图,即,节点的局部和全局关系,这在以前的工作中没有得到很好的研究。SemGCN不依赖于手工制作的约束[10,13,51]来分析特定应用的模式,因此可以很容易地推广到其他任务。特别是,我们研究SemGCN的2D到3D人体姿势回归。给定一个2D人体姿势(和可选的相关图像)作为输入,我们的目标是预测其对应的3D关节在某个坐标空间中的位置。使用SemGCN公式化这个问题是直观的。2D和3D姿势都能够自然地表示为一个规范的骨架在2D或3D坐标的形式,和SemGCN可以明确地利用它们的空间关系,这是理解人类行为的关键[67]。我们的工作做出了以下贡献。首先,我们提出了一种 改 进 的 图 卷 积 运 算 , 称 为 SemGConv(SemGConv),它来自CNN。其关键思想是学习边的通道权重作为图中隐含的先验,然后将它们与核矩阵相结合。这显著提高了图卷积的能力。其次,我们引入SemGCN,其中SemGConv和非局部[65]层是13426我我交错。该体系结构捕获节点之间的本地和全局关系第三,我们提出了一个端到端的学习框架,以表明SemGCN还可以结合外部信息,如图像内容,以进一步提高3D人体姿势回归的性能。我们的方法的有效性通过采用严格的消融研究进行综合评价并与标准3D基准上的最新技术水平进行比较来验证。我们的方法与Human3.6M [24]上最先进技术的性能相匹配,仅使用2D关节坐标作为输入,参数减少了90%。同时,我们的方法在结合图像特征时优于现有技术。此外,我们还展示了SemGCN的可视化结果,定性地证明了我们的方法的有效性。请注意,所提出的框架可以很容易地推广到其他回归任务,我们将其留给未来的工作。2. 相关工作图卷积网络。将CNN推广到具有图形结构的输入是深度学习领域的一个重要课题在文献中,已经有几次尝试使用递归神经网络来处理在图域中表示为有 向 非 循 环 图 的 数 据 在 [17 , 28 , 49] 中 引 入 了GNN,作为处理任意图形数据的更常见的解决方案在图上构造GCN的原理通常遵循两个流:光谱透视和空间透视。我们的工作属于第二个流[28,39,60],其中卷积滤波器直接应用于图节点及其邻居。最近对计算机视觉的研究已经通过利用GCN对视觉对象[68,70]或时间序列[66,67]之间的关系进行建模来实现最先进的性能。本文遵循他们的精神,同时我们探索将GCN应用于回归任务,特别是2D到3D人体姿势回归。3D姿态估计。Lee和Chen [30]首先研究了从其相应的2D投影推断3D关节。后来的方法要么是利用最近的邻居,bors来改进姿势推断的结果[18,25]或前手工制作的特征[1,23,47]以用于以后的回归。其他方法创建了适合于将人类姿势表示为稀疏组合的过完备基础[2,4,44,62,77]。越来越多的研究关注介绍了一种简单有效的方法,该方法完全基于2D检测来预测3D关键点。Fang等人[13]通过姿势语法网络进一步扩展了该方法。这些工作集中在2D到3D姿态回归,这是最相关的本文的上下文。其他方法使用合成数据集,这些数据集是通过使用地面实况[8,42,48]对人类模板模型进行变形而生成的,或者除了关节之外,还引入了涉及高级知识[40,53,69]的损失函数。它们是对其他人的补充。剩余工作的目标是利用时间信息[11,18,21,57]进行3D姿态回归。它们超出了本文的范围,因为我们的目标是从一个单一的图像处理2D姿态。然而,我们的方法可以很容易地扩展到序列输入,我们把它留给未来的工作。3. 语义图卷积网络我们提出了一种新的图网络架构,以处理一般的回归任务,涉及的数据,可以表示在图的形式。本文首先介绍了GCN的背景和相关的基线方法.然后介绍了SemGCN的详细设计。我们假设图形数据共享相同的拓扑结构,例如人体骨架[10,26,61,67],3Dmorphable models [33 , 45 , 72] and citation networks[50].其他在同一域中具有不同图结构的问题,例如,蛋白质-蛋白质相互作用[60]和量子化学[15]不在本文的范围内。这个假设使得学习图结构中隐含的先验成为可能,这激发了SemGCN。3.1. ResGCN:基线我们将首先简要回顾[28]中提出的“香草”GCN。设G={V,E}表示一个图,其中V是K个节点的集合,E是边,而→−x(l)∈RDl和→−x(l+1)∈RDl+1是节点i的表示,分别在第l次卷积之前和之后的曲线图基于卷积的传播可以在两个步骤中应用于节点i首先,将节点表示变换为一个可学习的参数矩阵W∈RDl+1×Dl.其次,这些转换后的节点表示被收集起来,节点i从其相邻节点j∈ N(i),后跟一个非线性函数(ReLU [37])。如果节点表示被收集到矩阵X(l)∈RDl×K中,则卷积运算可以写为:利用深度神经网络找到地图在2D和3D关节位置之间ping。一对夫妇的al-出租直接预测3D姿态从图像[75],X(l+1)=σ.WX(l)AΣ、(1)而其他人则将2D热图与体积表示相结合,其中A~是对称归一化的,从A在conven-sentation [41],成对距离矩阵估计[36]或图像线索[56]用于3D人体姿势回归。最近,已经证明2D姿态信息对于3D姿态估计是至关重要的Martinez等人[34] in-国家GCN。A∈ [0,1]K×K是G的邻接矩阵,对于节点j ∈ N(i),α ij = 1,αii= 1.Wang等人[64]一个非常深的图形网络基于等式[20]第20话,我的朋友13427M≈���∗���∗���∗(一)(b)第(1)款(c)第(1)款(d)其他事项图1.所提出的语义图卷积的图示(a)CNN的3×3卷积核(绿色突出显示)为核内的每个位置学习不同的变换矩阵wi。我们通过学习每个位置的加权向量ai和共享变换矩阵W来近似它。(b)传统的GCN只学习所有节点的共享变换矩阵w0。(c)(a)中的近似公式可以直接扩展到(b):我们为图中的每个节点添加额外的可学习权重ai。(d)我们进一步扩展(c)以学习每个节点的通道加权向量ai在将它们与香草变换相结合之后,矩阵W,我们可以得到一个新的核操作的图,具有可比的学习能力的CNN。所学习的权重向量示出了图中隐含的相邻节点的局部语义关系图像特征和3D顶点之间的映射。我们采用它的网络架构,并把它作为我们的基线表示为ResGCN。在Eq.1.一、首先,为了使图卷积在具有任意拓扑的节点上工作,所有边共享学习的核矩阵W。结果,相邻节点的关系或图中的内部结构没有被很好地利用。明智的操作,如果aij=1,则返回mij,或者在ρi之后具有饱和到零的大指数的负数;A用作掩码,其强制对于图中的节点i,我们仅计算其相邻节点j∈ N(i)的权重。如示于图1(d),我们可以进一步扩展Eq.2通过学习一组Md∈RK×K,使得对输出节点特征的每个通道d应用不同的加权矩阵第二,以前的工作只收集每个节点的一阶邻居的特征这也是有限的,因为感受野固定为1。X(l+1)=D?l+1¨¨d=1.σ→−w.dX(l)ρidΣΣ(3)3.2. 语义图卷积我们表明,学习隐含在图的边的相邻节点的语义关系是有效的,以解决共享核矩阵的限制。所提出的方法基于CNN的概念。图1(a)示出了卷积核大小为三乘三。它学习了九个相互不同的变换矩阵来编码内核在空间维度上。这使得操作本身的表达能力,以模拟包含在图像中的特征模式年龄我们发现,这个公式可以通过学习每个位置的加权向量→−ai来近似,然后将它们与共享变换矩阵W组合。如果我们将图像特征图表示为一个正方形网格图,其节点表示像素,则该近似公式可以直接扩展到GCN,如图所示第1段(c)分段。为此,我们提出了语义图卷积(SemGConv),其中我们添加了一个可学习的权重矩阵M∈RK×K到传统的图卷积。然后当量1转换为:其中,n表示逐通道级联,并且→−wd是变换矩阵W的第d行。与以前的GCN比较。aGCN [68]和GAT [60]都遵循自注意策略[59],通过关注其邻居来计算图中每个节点的隐藏表示。他们的目标是估计一个权重函数依赖于输入的边缘调制信息流在整个图。相比之下,我们的目标是学习边的独立于输入的权重,这些边表示图结构中隐含的先验,例如,在人体姿势估计中,一个关节如何影响其他身体部位。在ST-GCN [67]中引入的边缘重要性加权掩模是与我们的工作最相关的,但有以下两个明显的差异。首先,在[67]加权后没有利用Softmax非线性,而我们发现它稳定了训练并获得了更好的结果,因为节点对其邻居的贡献被Soft-max归一化。其次,ST-GCN仅将一个单个可学习掩码应用于所有信道,但我们的等式:3学习边缘的通道方式的不同权重因此,我们的模型拥有更好的X(l+1)=σ.WX(l)ρi. MAΣΣ、(二)适应数据映射的能力。3.3. 网络架构其中,ρi是Softmax非线性度,它在节点i的所有选择中对输入矩阵进行归一化;ρ i是一个元素,捕获图中节点之间的全局和远程关系能够有效地解决该问题12340567812340567800000012035412035413428(16,128)(16,128)(16,128)(16,128)图2.提出的语义图卷积网络的示例我们的网络的构建块是由两个具有128个通道的SemGConv层构建的一个剩余块[20],然后是一个非本地层[65]。该块重复四次。所有SemGConv层之后都是批处理归一化[22]和ReLU激活[37],除了最后一个。有限的感受野。然而,为了保持GCN的行为,我们通过基于它们的表示而不是学习新的卷积滤波器来计算节点之间的响应来限制特征更新机制。因此,我们遵循非局部均值概念[5,65]并将运算定义为:4.1. 框架概述最近,证明了可以通过仅使用2D人体姿势作为系统输入来直接获得准确的3D姿势估计[34]。形式上,给定一系列二维节理P∈RK×2和它们对应的三维节理J∈RK×3,预定义的相机坐标系(K是数字∗→−x(l+1)=→−x(l)+Wxf(→−x(l),→−x(l))·g(→−x(l)),(4)的关节),系统旨在学习回归函数F它最大限度地减少了数据集包含的以下错误i iKi j jj=1N个人体姿势:其中Wx被初始化为零;f是计算节点i和所有其它j之间的亲和性的成对函数; g计算节点j的表示。在实践中,Eq.4可以F= argminF1ΣNNi=1L(F(Pi),Ji).(五)由[65]中提出的非局部层实现。基于等式3和4,我们提出了一个新的网络架构-用于回归任务的结构称为语义图卷积网络,其中SemGConv和非局部层交错以捕获节点的局部和全局语义关系图2示出了示例。在这项工作中,所有块中的SemGCN具有相同的结构,其由一个我们认为,图像内容是能够提供重要的线索,解决模棱两可的情况下,如经典的转向- ING芭蕾舞演员视错觉。因此,我们扩展了Eq。5通过将图像内容视为附加约束。扩展公式可以表示为:1ΣN残差块[20]由具有128个通道的两个SemGConv层构建这F= argminFN i=1L(F(P)i|Ii)、Ji)、(6)重 复 几 次 , 使 网 络 更 深 。 在 网 络 开 始 时 , 一 个SemGConv用于将输入映射到潜在空间;并且我们有一个额外的SemGConv,它将编码的特征投影回输出空间。所有SemGConv层之后都是批量归一化[22]和ReLU激活[37],除了最后一个。请注意,如果SemGConv层被替换为vanilla图卷积并且所有非局部层被移除,则SemGCN降级为Sect.第3.1条直观地说,SemGCN可以被视为神经消息传递系统的一种形式[15],其中前向传递具有两个阶段:消息被本地更新,然后由系统的全局状态来细化。这两个阶段轮流处理消息,从而提高了整个系统的信息交换效率4. 3D人体姿势回归在本节中,我们提出了一种新颖的端到端可训练框架,其在Sect.3.利用图像特征进行三维人体姿态回归。(16、2)(16、3)SemGConv,128BatchNorm 1DReLU非本地1DSemGConv,128 BatchNorm1D ReLUSemGConv,128 BatchNorm1D ReLU非本地1DSemGConv,128 BatchNorm1D ReLUSemGConv,128 BatchNorm1D ReLU非本地1DSemGConv,128 BatchNorm1D ReLUSemGConv,128 BatchNorm1D ReLU非本地1DSemGConv,128 BatchNorm1D ReLUSemGConv,128 BatchNorm1D ReLU非本地1DSemGConv,K13429其中Ii是包含2D关节P1的对准的人类姿态的图像。在实践中,P可以在已知相机参数下或从2D联合检测器获得作为2D地面实况位置。在后一种情况下,2D检测器已经在训练过程期间对输入图像的感知特征进行了这一观察激励了我们的框架的设计。我们的框架的概述如图所示。3.整个框架由两个神经网络组成。给定图像,利用一个深度卷积网络进行2D关节预测;同时,它还充当骨干网络,并且从其中间层汇集图像特征。由于2D和3D关节坐标可以编码在人体骨骼中,所提出的SemGCN用于自动捕获嵌入在人体关节的空间配置中的模式。它预测3D坐标根据2D姿态以及感知特征从骨干网络。注意,我们的框架有效地简化为Eq。5、不考虑图像特征正如我们所展示的13430感知特征池+ 级联2D位置合并特征+RGB图像2D姿态正+ ++3D姿态2D姿态估计网络语义图卷积网络3D关节损失2D积分损失图3.说明我们的框架,结合图像特征的三维人体姿态估计。我们预先训练一个2D姿态估计网络来预测2D关节位置。它也是我们汇集图像特征的骨干网络所提出的SemGCN从2D关节以及图像特征预测3D姿态。请注意,整个框架是端到端可训练的。在实验中,SemGCN设法有效地编码从2D到3D姿态的映射,并且当结合图像内容时,性能可以进一步提升。4.2. 感知特征池ResNet [20]和HourGlass [38]在传统的人体姿态检测问题中被广泛采用。从经验上讲,我们采用ResNet作为骨干网络,因为它的中间层提供了图像的分层特征,这些特征在计算机视觉问题中非常有用,例如对象检测和分割[46,74]。给定输入图像中每个2D关节的坐标,我们从ResNet中的多个特别地,我们使用RoIAlign [19]连接从层conv1到conv 4提取的特征。然后将这些感知特征与2D坐标连接并馈送到SemGCN中。注意,由于输入图像中的所有关节共享相同的比例,因此我们将特征集中在以每个关节为中心的具有固定大小的方形边界框中,即,骨骼的平均骨长。这示于图3.第三章。4.3. 损失函数大多数先前的基于回归的方法直接最小化预测和地面真实关节位置[6,34,57,76]或骨向量[53]的均方误差(MSE)。遵循他们的精神,我们采用人体姿势中关节和骨骼约束的简单组合作为我们的损失函数,其定义为:数据集。每个骨骼都是从起始关节指向其相关父关节的有向向量,如[53]中所定义。5. 实验在本节中,我们首先介绍评估的设置和实施细节,然后对我们方法中的组件进行消融研究,最后报告我们的结果以及与最先进方法的比较。5.1. 实现细节如在先前的作品[34,53,75]中所建议的,不可能训练算法来推断任意坐标空间系统中的3D关节位置。因此,我们选择在相机坐标系中预测3D姿态[11,32,41,57],这使得2D到3D回归问题在不同相机之间相似。我们利用数据集中提供的地面真实2D关节位置,按照[75]的设置对齐3D和2D姿势。这意味着我们隐含地使用相机校准信息。然后,我们将2D和3D姿态都以预定义的根关节为中心,即,骨盆关节,这是符合以前的作品和标准协议。此外,为了简单起见,我们在训练过程中不使用数据网络培训。我们使用[54]中的ResNet50作为我们的骨干网络,它与积分损失兼容,并在ImageNet上进行了预训练[9]。在训练中,我们ΣML( B,J)=ΣK||Bi−Bi||2个以上||第二条第七款||2,(7)使用Adam [27]进行优化,初始学习率为0.001,并使用大小为64的小批量。学习`i=1x骨向量`i=1x关节位置率下降的衰减率为0.5时,损失的验证集饱和。我们使用[16]中描述的初始化来初始化图网络的权重。其中J={Ji|i=1,. . . ,K}是预测的3D关节坐标,并且B={Bi|i=1,. . . ,M}是根据J计算的骨骼;Ji和Bi是骨骼模型中的对应地面真值在我们的初步实验中,我们观察到整个网络从头开始的直接端到端训练无法达到最佳性能。我们认为13431可能是因为图形网络和用于2D姿态估计的传统深度卷积模块因此,我们采用多阶段训练方案,这在实践中是更稳定和有效的。我们首先训练骨干网络,用于使用2D地面实况从图像进行2D姿态估计。如[54]所述,使用积分损失。然后我们修复0.040.030.020.01020406080100120 1403503002502001501005020406080100120 1402D姿态估计模块并训练图网络,使用2D估计的输出的2D到3D姿态回归时期数量时期数量tion模块和3D地面实况。在该阶段中,在Eq.七是就业。最后,利用所有数据对整个网络进行微调。积分损失和Eq. 7已激活请注意,最后阶段是端到端的。5.2. 数据集和评价方案我们提出的方法在最广泛使用的3D人体姿势估计数据集上进行了全面评估:Human3.6M [24],遵循标准协议。数据集。Human3.6M[24]是目前用于3D人体姿势估计的最大公开可用数据集。该数据集包含由MoCap系统在室内环境中捕获的360万张图像,其中7名专业演员执行15项日常活动,如步行,吃饭,坐着,打电话和参与讨论。2D和3D地面实况都可用于监督学习。在[75]的设置之后,训练集和测试集的视频都从50fps降采样到10fps,以减少冗余。我们还使用MPII数据集[3],2D人体姿态估计的最先进基准,用于预训练2D姿态检测器和实验中的定性评估评估方案。对于Human3.6M [24],文献中有两种使用不同训练和测试数据的常见评价方案。一个标准协议使用受试者S1、S5、S6、S7和S8中的所有4个摄像机视图进行训练,并使用子视图S9和S11中的相同4个摄像机视图进行测试。在地面实况和预测与根关节对齐后计算误差。我们称之为协议#1。另一个协议利用六个被摄体S1、S5、S6、S7、S8和S9进行训练,并且对S11的每第64帧进行评估。它还利用刚性变换来进一步将预测与地面实况对齐。该方案被称为方案#2。在这项工作中,我们在所有实验中使用方案#1进行评估,因为它更具挑战性并且与我们方法的设置相匹配。评估度量是在对准预定义根关节(骨盆关节)之后,地面实况与跨所有相机和关节的预测3D坐标之间的以毫米为单位的平均每关节位置误差(MPJPE)我们将在以下部分中使用此度量进行评估。我们的网络预测3D关节的归一化位置。在测试期间,为了校准输出的比例,图4.训练曲线(左)和测试误差(右)不同设置的网络。我们的完整模型具有更低和更平滑的学习曲线以及更好的测试结果。方法参数数量MPJPE(mm)ResGCN0.14M94.4我们的,不含SemGConv0.30M65.9我们的w/o非本地0.27M52.5我们的(SemGCN)0.43M43.8表1. 2D到3D姿态回归误差和我们在Human3.6M数据集上具有不同设置的网络的参数编号[24]。我们的完整模型实现了最佳性能。我们要求所有3D骨骼的长度之和等于标准骨架的长度,如[41,75,78]所示因此,我们按照[75]中的方法进行标定.配置. 在Human3.6M平台上,我们的方法在以下两种不同的配置下进行了三维人体姿态估计配置#1。 我们只利用人类姿势的2D关节作为输入。SemGCN in Sect. 3被训练用于回归,并且在Eq.二是利用。2D地面实况(GT)或来自预训练的2D姿态检测器的输出用于训练和测试。为了与以前的作品[13,34]的设置保持一致,我们采用HourGlass [38](HG)作为2D探测器。它首先在MPII上进行预训练,然后在Human3.6M上进行微调。只有联合损失在方程。七是就业。配置#2. 我们使用2D图像作为输入,并在节中提出的框架四是回归训练在等式(1)中定义的逐通道加权SemGConv。三是就业。ResNet 50 [20]被用作2D姿态估计和特征池(RN w/ FP)的骨干网络。5.3. 消融研究我们对第3节中提出的方法进行了消融研究使用配置 #1 。 我 们 的 SemGCN 由 两 个 主 要 组 件 组 成 :SemGConv和非局部层。为了验证它们,我们训练了SemGCN的两个变体:一个仅使用SemGConv,另一个仅使用非局部层。 然后,我们将它们与第二节中的基线法结合起来进行评价. 3.1(ResGCN)和我们在节中的完整模型。3.3在Human3.6M上。请注意,为了摆脱ResGCNOurs w/o SemGConvOurs w/o Non-LocalOurs(SemGCN)ResGCNOurs w/o SemGConvOurs w/o Non-LocalOurs(SemGCN)训练损失MPJPE(mm)13432协议#1直接.讨论吃迎接电话照片构成采购坐坐着D.烟雾等WalkD。走WalkT.Avg.Ionescu等人[24]PAMI'16132.7183.6132.3164.4162.1205.9150.6171.3151.6243.0162.1170.7177.196.6127.9162.1Tekin等人[57]CVPR'16102.4147.288.8125.3118.0182.7112.4129.2138.9224.9118.4138.8126.355.165.8125.0Zhou等[77]CVPR'1687.4109.387.1103.2116.2143.3106.999.8124.5199.2107.4118.1114.279.497.7113.0Du等人[11]ECCV'1685.1112.7104.9122.1139.1135.9105.9166.2117.5226.9120.0117.7137.499.3106.5126.5[7]第七届中国国际纺织品展览会89.997.689.9107.9107.3139.293.6136.0133.1240.1106.6106.287.0114.090.5114.1Pavlakos等人[41]CVPR'1767.471.966.769.172.077.065.068.383.796.571.765.874.959.163.271.9Mehta等人[35]3DV'1752.664.155.262.271.679.552.868.691.8118.465.763.549.476.453.568.6Zhou等[75]ICCV'1754.860.758.271.462.065.553.855.675.2111.664.166.051.463.255.364.9Martinez等人[34]ICCV'1751.856.258.159.069.578.455.258.174.094.662.359.165.149.552.462.9Sun等人[53]ICCV'1752.854.854.254.361.853.153.671.786.761.567.253.447.161.653.459.1Fang等人[13]AAAI'1850.154.357.057.166.673.353.455.772.888.660.357.762.747.550.660.4Yang等[69]CVPR'1851.558.950.457.062.165.449.852.769.285.257.458.443.660.147.758.6[21]第二十一话48.450.757.255.263.172.653.051.766.180.959.057.362.446.649.658.3我们的(HG)48.260.851.864.064.653.651.167.488.757.773.265.648.964.851.960.8我们的(RN w/FP)47.360.751.460.561.149.947.368.186.255.067.861.042.160.645.357.6我们的(GT)37.849.437.640.945.141.440.148.350.142.253.544.340.547.339.043.8表2.在方案#1下,在Hu-man 3.6M [24]上我们展示了我们的模型的结果(节。3)使用配置#1,以HourGlass [38](HG)的2D预测作为输入进行训练和测试,我们的网络结果在第二节中给出。4,在配置#2下的培训和测试期间包含图像特征(RN w/FP)。我们还展示了我们的方法的上限,该方法使用2D地面实况(GT)作为训练和测试的输入。每个操作的前两个最佳方法分别以粗体和下划线突出显示。方法参数数量MPJPE(mm)[60]第68话0.16M82.9ST-GCN [67]0.27M57.4FC [34]4.29M45.5(62.9)FC [34] w/ PG-43.3(60.4)我们0.43M43.8(61.1)[13]第十三话-42.5(59.8)表3.在Human3.6M数据集上评估2D到3D姿态回归[24]。括号内的误差通过使用HG [38]的2D估计作为训练和测试期间的输入来计算否则,使用2D地面实况。我们的方法将其他基于GCN的方法提高了20%,并使用比[34]少90%的参数实现了最先进的性能。为了消除来自2D姿态检测器的影响,我们报告了使用2D地面实况进行训练和测试的结果。所有模型都是基于图1所示的架构进行训练的。200个epoch后2结果示于表1中。我们还在图中显示了他们的训练损失和测试误差曲线。4.第一章我们可以看到,我们的模型具有更多的组件比那些更少的组件,这表明我们的算法的每个部分的有效性。此外,我们使用SemGConv的网络具有更平滑的训练曲线,这表明学习节点之间的局部关系也可以稳定训练过程。5.4. 三维人体姿态回归2D到3D姿态回归。我们首先评估我们的方法用于2D到3D姿态回归,并且仅利用配置#1。我们将我们的方法与三种基于GCN的方法进行了比较:aGCN [68],GAT [60]和ST-GCN [67],以及两种最先进的方法:[34]第34话,你是谁?由于ST-GCN[67]是为视频设计的,因此我们将其时间维度设置为图像的时间维度。PG提出了一个改进3D姿态的框架,这是对FC和我们的补充因此,我们还报告了PG改进的结果。结果报告于表3中。我们的方法比其他基于GCN的方法性能更好(约20%)。更重要的是,我们的方法实现了最先进的性能,比[34]减少了约90%的同时,SemGCN的运行时间与[34]相比减少了10%,在TitanXp GPU上向前传递约为1.8ms。经过PG改进后,我们的方法获得了最好的性能。与最新技术水平的比较。我们显示了配置#1和#2下的评估结果。请注意,许多领先的方法都有复杂的框架或学习策略。其中一些方法针对野外图像[54,69,75]或利用时间信息[11,18,21,57],而其他一些方法使用复杂的损失函数[53,69]。这些方法与我们的研究目标不同因此,我们在评估期间纳入了其中一些以表2报告了结果。我们发现,我们的方法只使用2D关节作为输入是能够匹配的最先进的性能。在整合图像特征之后,我们的网络设置了新的艺术状态。特别是对于指路、拍照、摆姿势、坐下、遛狗、结伴行走等动作,我们对以往的方法进行了较大幅度的改进。我们假设这是由于这些动作中的严重自遮挡,而它们可以通过我们的SemGCN使用图中的关系进行有效编码。我们的方法训练和测试的结果与地面真实2D联合定位,13433图5.我们的方法在Human3.6M [24]和MPII [3]上的视觉结果。前三行显示Human3.6M上的结果。MPII的结果显示在最后三行。下面一行显示了四个典型的失败案例。最好用彩色观看。显示我们的上界。定性结果。在图5中,我们显示了我们的方法在Human3.6M和MPII测试集上MPII包含具有新颖人类姿势的野外图像,这些图像与Human3.6M中的示例不相似。如图所示,我们的方法能够准确地预测室内和大多数野外图像的3D姿态。这表明SemGCN可以有效地编码关节之间的关系,并进一步推广到一些新的情况。图1的底行图5还显示了我们的方法的典型失败这些图像包括极端的姿势,与Human3.6M中的姿势有很大不同我们的方法未能处理它们,但仍然产生合理的3D姿态。6. 结论我们提出了一种新的模型,三维人体姿态回归,语义图卷积网络(SemGCN)。我们的方法通过以下方式学习所述图中的节点之间的局部和全局语义关系。SemGCN和从图像内容汇集的特征的组合进一步提高了3D人体姿势估计的性能。综合评估结果表明,我们的网络获得了最先进的性能,与最接近的工作相比,参数减少了90%拟议的SemGCN也开辟了许多可能的方向,为未来的工作。例如,如何将时间信息(如视频)合并到SemGCN中成为一个自然的问题。致谢。这项工作的部分资金来自Dimitris Metaxas的BAAAFOSR-2013-0001赠款。这项工作也得到了NSF1763523、 1747778 、 1733843 和 1703883 奖 的 部分 支持。Mubbasir Kapadia部分由NSF IIS-1703883,NSF SAS-1723869和DARPA SocialSim-W 911 NF-17-C-0098资助。13434引用[1] Ankur Agarwal和Bill Triggs。从单目图像恢复3D人体姿态。IEEE Transactions on Pattern Analysis and MachineIntelligence(TPAMI),28(1):44[2] Ijaz Akhter和Michael J Black。用于3D人体姿势重建的姿势调节关节角度限制在CVPR中,第1446-1455页[3] Mykhaylo Andriluka,Leonid Pishchulin,Peter Gehler,and Bernt Schiele.2D人体姿态估计:新基准和最新分析。CVPR,第3686-3693页,2014。[4] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。SMPL:从单个图像自动估计3D人体姿势和形状。ECCV,第561-578页,2016年[5] Antoni Buades,Bartomeu Coll,and J-M Morel.一种非局部图像去噪算法。在CVPR,2005年。[6] Joao Carreira ,Pulkit Agrawal,Katerina Fragkiadaki,and Ji- tendra Malik. 迭 代 误 差 反 馈 人 体 位 姿 估 计 。CVPR,第4733-4742页,2016年[7] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。在CVPR,2017年。[8] Wenzheng Chen,Huan Wang,Yangyan Li,Hao Su,Zhenhua Wang,Changhe Tu,Dani Lischinski,DanielCohen-Or,and Baoquan Chen.合成训练图像以增强人体3D姿态估计。在3D视觉国际会议(3DV),第479-488页[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,第248-255页[10] 雍都、魏王、梁王。用于基于骨架的动作识别的分层递归神经网络在CVPR,第1110-1118页[11] Yu Du,Yongkang Wong,Yonghao Liu,Feilin Han,Yilin Gui , Zhen Wang , Mohan Kankanhalli , andWeidong Geng.基于单目图像序列和高度图的无标记三维人体运动捕捉在ECCV,第20-36页,2016年。[12] Mohamed Elhoseiny , Yizhe Zhu , Han Zhang , andAhmed Elgammal.将头部与“喙”连接起来:零拍摄学习从嘈杂的文本描述在部分精度。在CVPR,2017年。[13] Hao-Shu Fang,Yuanlu Xu,Wenguan Wang,XiaobaoLiu,and Song-Chun Zhu.学习位姿文法编码人体三维位姿估计.在AAAI,2018。[14] 保罗·弗拉斯科尼,马可·哥里,和亚历山德罗·斯佩杜蒂。数据结构自适应处理的一般框架IEEE神经网络学报,9(5):768[15] 放大图片作者:Justin Gilmer.帕特里克·舍恩霍尔茨Riley、Oriol Vi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功