三维人体姿态估计中的GCN和LCN：算法、实验与结果

106 浏览量更新于2023-10-12 收藏 928KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2262三维人体姿态估计海慈1，王春雨2，马晓璇1，王一舟1，3，41计算机科学系，北京大学2微软亚洲3Deepwise AI Lab4鹏程实验室{慈海，马晓璇，yizhou.wang}@ pku.edu.cn，chnuwa@microsoft.com摘要10. 头9. 鼻子8. 脖子人体姿势自然地表示为图，其中关节是节点，骨骼是边。所以应用图卷积网络（GCN）11. 左肩12. 左肘13. 左手7.belly0. 髋14. 右肩15. 右肘16. 右手从2D姿态估计3D姿态。在这项工作中，我们提出了一个通用的公式，其中GCN和全连接网络（FCN）是它的特殊情况。从这个公式中，我们发现，GCN有有限的表示能力时，用于估计三维姿态。我们克服4. 左髋5. 左膝6. 左脚1. 右髋2. 右膝3. 右脚引入本地连接网络的局限性（LCN），其自然地由该通用公式实现。它显著地提高了GCN的表示能力。此外，由于每个关节只与其邻域中的少数关节相连，因此它具有很强的泛化能力。公共数据集上的实验表明：(1)超越了最先进的技术（2）比其他模型更少的数据需求;（3）很好地推广到看不见的动作和数据集。1. 介绍三维人体姿态自然地由人体关节（诸如肘部和膝盖）的三维位置参数化的拓扑图表示。见图1当我们通过相机参数将3D姿势投影到2D图像时，所有关节的深度都丢失了。三维姿态估计的任务解决了从二维姿态恢复深度的逆问题。这是一个不明确的问题，因为多个3D姿态可能对应于投影后的相同2D姿态。但它实际上是可解的，因为3D姿态位于低维流形上，这提供了强的结构先验以减少模糊性[36]。最近的一项工作[18]介绍了全连接网络（FCN）的变体，以将2D姿态映射到3D空间。它在基准数据集上取得了令人鼓舞的结果。但我们实验发现它降低了交叉作用在[17]中也观察到了交叉数据集性能。这可能归因于FCN中的密集连接图1. 人体姿势本质上是一个骨架图模型con.由骨头连接的许多身体关节组成。图中显示了本文中使用的图形模型。并且训练集中的变化有限，这增加了连接不相关关节的机会。这也与人类可以通过仅看到其邻域中的2D关节来感知3图卷积网络（GCN）[3，5，6，8，10，11]14，27，28，34]是用于3D姿态估计的有希望的替代方案，因为它仅聚合“所选择的”节点的特征概念说明见图2（b）。我们提出了一个通用的配方，其中GCN和FCN的特殊情况。我们将GCN [6]中的Laplacian算子分解为结构矩阵和权重矩阵的乘积，结构矩阵编码节点之间的依赖关系，权重矩阵定义如何聚合依赖特征。基于制定，我们发现两个主要的限制GCN。首先，权重矩阵具有固有的权重共享方案，这损害了模型例如，在图2（b）中，可学习运算符T对于所有节点都是相同的。第二，结构矩阵由节点距离直接确定，缺乏灵活性以支持定制的节点依赖。在这项工作中，我们提出了本地连接网络（LCN）的通用配方，以克服GCN的局限性。首先，我们通过释放权重矩阵中的所有参数来2263BBBBBB（A、B）不是BCBBB（A、B）BABCBBBAaaACCA（A，B，C）不CA AaCCA（A，B，C）不是CA AaCC输入图形特征CFCN（一）C输出图特征输入图形特征（A、C）GCNB不是C（b）第（1）款C输出图特征输入图形特征（A、C）LCNBCTCAC（c）第（1）款输出图形特征图2.FCN、GCN和LCN之间的概念差异输入是一个有三个节点和两条边的图每个节点都与一个二维特征向量相关联，例如在3D姿态估计任务中其2D位置（a）在FCN中，不同节点的输入特征（b）在GCN中，节点的输出特征仅取决于由拉普拉斯矩阵确定的被视为“相关”的节点例如，当我们计算节点B（顶部分支）的特征时，它只将节点A和B的特征作为输入。不同的节点共享相同的过滤器T（蓝色矩形）。（c）在LCN中，每个节点具有不同的过滤器。此外，关节之间的依赖性指定在一个更直接和灵活的方式比GCN，我们将详细讨论的文件。充分发挥其代表性。例如，参见图2（c），三个节点（分支）具有它们自己的运算符TA、TB和TC。其次，我们提出了一个更直接和灵活的方式来构建结构矩阵，根据人体解剖结构，使我们能够自由地确定联合依赖。总之，LCN结合了GCN和FCN的优点。首先，它在节点之间具有稀疏的联合连接，这降低了过度拟合具有有限变化的数据集的风险，并增强了模型第二，它通过释放权重矩阵中的所有可学习参数而具有很强的表示能力。我们在公共数据集H36 M [11]和MPI-INF-3DHP [19]上评估了LCN。它在两个数据集上的表现都优于FCN，GCN和最先进的技术。首先，当输入的2D姿态是地面实况时，LCN的3D姿态误差小于具有密集连接的FCN [18这表明LCN具有足够的表示能力，虽然连接是稀疏的。其次，当从图像和不准确率估计2D位姿时，LCN的3D位姿误差小于最先进的，尽管它们中的一些甚至使用额外的训练数据集。第三，当我们将我们在H36 M上学习的模型应用于MPI-INF-3DHP数据集时，它比最先进的模型获得了更好跨数据集的结果表明，我们的方法的泛化能力很强，因为不相关的关节不连接，这降低了过拟合的风险。2. 相关工作我们将3D人体姿态估计器分为非监督和监督类。无监督方法[16，30，35，36，37]明确建模2D特征，3D模型和相机参数之间的关系，并优化3D模型的参数，使其投影匹配2D特征。例如，Lee和Cohen[16]使用数据驱动的MCMC搜索高维参数空间，以最大化包括肤色、轮廓和脊的图像特征的可能性。一些作品[30，36，37]提出通过最小化投影的2D姿态和估计的2D姿态之间的距离来从2D他们使用肢体长度先验来减少歧义。Ijaz和Black [2]建议在防止无效姿势之前学习姿势相关的弯曲角度。后来的作品[25，36]提出学习低维表示以抑制非法估计。另一类方法（例如，[12，22，23，24，29，31，33，38，39]）将3D姿态估计视为监督回归问题。Agarwal和Triggs [1]从图像中提取形状描述符，并学习相关向量回归机以将描述符映射到3D姿势。类似地，Paulet al.[21]提取边缘直方图并将特征散列为3D姿态。近来，由于2D人体姿态估计相对准确，许多方法（例如，[18，22，26]）已经专注于学习从2D姿势到3D 的映射，并取得了最先进的结果。特别地，Martinezet al. [18]提出了一个FCN的变体来将2D姿态映射到3D。类似地，Sunet al. [29]提出了一种端到端的学习方法，以从2D姿态热图估计3D姿态。我们的工作属于这个类，并学习了从2D姿势到3D姿势的映射。但不同的是，我们的工作重点是优化基于人体解剖学的关节依赖性，这在以前的作品中没有解决。3. 重新制定GCN我们首先回顾GCN的一个流行实现[6]。然后，我们把GCN中的拉普拉斯算子分解为结构矩阵和权矩阵的乘积。基于该公式，我们可以清楚地看到为什么GCN在用于3D姿态估计时然后，我们得到了一个更通用的模型的基础上制定克服的局限性。最后讨论了类属模型与FCN、GCN之间的关系。不2264ΣQQQQ3.1. 重新访问GCNGCN处理定义在图G=距离小于K。特征yq可以写为：KΣ−1ΣM其中，V表示N个节点的集合，E表示边的集合，W表示N个节点的集合。 ∈RN×N表示一个加权的adja，对节点之间的依赖性进行编码的cency矩阵。yq=k=0m=1K−1MX（m，：）·Lk（q，：）·θ.Σ（四）记x∈ RN作为在N个节点上定义的特征=X（m，：）·Lk（q，：）其中每个维度对应于一个节点。有每个节点总共有M个特征。我们把所有节点的所有特征放在一个大矩阵X∈RM×N中。我们使用X（：，n）表示第n个节点的特征，使用X（m，：）表示所有节点的第m个特征我们用Xr和Xc来k=0m=1其中Θkm∈ RN×1，θ km重复N次。然后，我们用一个更紧凑的矩阵形式重新表示m上的内和，得到分别表示按行和列主顺序的X的展平副本GCN中的基本算子是图拉普拉斯算子。的yq=KΣ−1Σk=0Mǁm=1X（m，：）Σ ΣMǁm=1.Σ ΣLk（：，q）θkm组合定义为L=D−W∈RN×N，其中KΣ−1Σ。MΣ 。 MD是对角度矩阵，其中D ii=jW ij。的=XrLk（：，q）⊙10公里（五）拉普拉斯算子可以通过傅立叶基U=[u1，···，uN]∈RN×N对角化，使得L=UΛU。图形特征向量x∈ RN的傅里叶变换是k=0KΣ−1=Xm=1.Sk⊙WkΣ，m=1rq qk=0y=gθ（L）x=gθ（U~U）x=Ugθ（Λ）Ux，（1）其中表示级联。Sk∈RMN×1是Lk（：，q）重复N次的向量它包含了邻居-其中gθ（Λ）可以使用多项式来参数化mial滤波器g（Λ）=<$K−1θΛk其中K是展开式节点Q的Hood信息。我们可以将公式-图中所有节点的位置如下：θk=0k阶，θk是可学习参数。3.2. 重新拟订KΣ−1y=Xrk=0. SkWk（六）我们通过对输入特征X应用滤波器gθ来获得N个节点的输出特征向量y∈ RNKΣ−1ΣM其中Sk和Wk都是形状为MN×N的二维矩阵。具体地，Sk是Sk的第q列，Wk是Wk的第q列。y=gθ（X）=k=0m=1θkm ·Lk·X（m，：）（2）3.3. 限制GCN的主要局限性在于权值共享滤波器对于不同的特征维度（总共M）和扩展阶数（总共K）具有不同的θ。然而，图中的不同节点共享相同的过滤器θ。见上述方程，同一组θ用于计算-在Wk中的方案。首先，我们可以从Eq。（5）每个Wk只有M个唯一参数，因为每个Θkm有一个唯一参数。通过重复θ km N次来获得召回Θ km。其次，GCN使用相同的参数集计算不同节点的特征，即：Wk=Wky的不同维度对应于不同的q p结让我们通过修改上面的公式，仔细看看与第q节点yq（y的第qKΣ−1ΣM公里公里⊤2265对于所有p和q。参见图2（b），这三个节点共享相同的算子T. W中的权重共享增强了模型然而，这将损害其代表性，yq=k=0m=1θkm ·Lk（q，：）·X（m，：）λ，（3）当它用于3D姿态估计时，它具有更高的能力，因为每个关节需要以独特的方式聚合来自其邻居的特征，以便推断其3D位置。基于拉普拉斯矩阵Lk的定义[9，6]，如果连接接头i和j的边的最小数目（即，它们在图上的距离）大于k，则Lk（i，j）=0。因此，上述公式可以被解释为聚合来自相邻节点的特征，另一个小限制在于GCN构造的方式结构矩阵S.如等式1所示。（6），它对待与感兴趣的节点具有相同距离的所有邻居而没有区别，使得我们没有灵活性来自由地连接任意距离的关节。22663.4. 泛化我们通过丢弃Sk和Wk中的结构约束来获得更通用的模型：y=X（SW）（7）我们将在下一小节中说明FCN和GCN都是一般模型的特殊情况。更重要-111 1因此，在一般模型的基础上，我们提出了一种构造结构矩阵S的直接方法，以直接反映联合依赖。概念图见图3。结合无约束权矩阵，得到了具有增强表示能力的LCN模型。我们将描述AP-node1node2node3node1node2node3在下一节中更详细地探讨。3.5. 与FCN和GCN的关系我们现在讨论上述通用模型和FCN之间的关系。首先，FCN本质上由权重矩阵和特征矩阵的乘积表示。通过将S中的所有值设置为1，可以实现将通用模型（7y=X（1 ⊙W），（8）这意味着所有的节点都是连接的。W中的参数都是免费的，并且是从训练数据集端到端学习的。我们可以看到，FCN不采取优势的图形结构，但简单地连接所有节点。见图2（a）。我们在实验中观察到这影响了它的泛化能力。GCN可以通过根据等式（1）初始化Sk和Wk来获得。（4和5）和堆叠Sk，Wk，（k =0，· · ·，K−1），以垂直地生成等式中的S和W。（七）、输入特征X也应该重复K次。所以GCN是一般模型的特殊化。4. 本地连接网络LCN也是Eq.（七）、但它结合了FCN和GCN的优点：(1)由于W中没有约束，所以它具有足够的表示能力：（2）由于S中关节是稀疏连接的，所以它具有很强的泛化能力。我们首先介绍如何实现LCN层，如图3所示，其中的核心是构造S并学习W。然后，我们描述了如何使用LCN层构建用于3D姿态估计的深度网络。注意S为所有离线构造基于指定的联合依赖性。不同的层有自己的W，W是端到端学习的。4.1. 联合依赖我们确定关节依赖关系的原则是图3. LCN层的图示。假设我们有3个节点，其特征表示为蓝色条。将权矩阵W和结构矩阵S∈R3M×3M′分别分解为3×3块。我们在结构矩阵中适当位置，以消除对应的成对的关节。例如，节点1的输出特征仅取决于节点1和3的输入特征。两个关节之间的流形距离由它们在图上的距离定义（即，骨架身体模型）。例如，左肘和左手之间的流形距离是1，因为它们直接相连。请参见图1了解骨架模型的定义。在本文中，我们研究了一个简单的方法来确定联合依赖，即。每个接头取决于其到接头的流形距离小于K的邻近者。例如，当K=2时，关节12是依赖的在13、11、8和7号接头上。我们将这种方法表示为LCN（K-NN）.我们将评估当使用不同K时的3D估计值得注意的是，确定联合依赖性的其他替代方案，但这不是本文探讨的重点。的点我们的模型可以利用任何预先确定的联合依赖关系作为先验。4.2. 结构矩阵我们构造S以反映上述定义的联合依赖性，由于重新公式化，这是非常直接的。如果jointj依赖于jointi，则我们将S的（i，j）块设置为1。否则，我们将其设置为零。以这种方式，第i个节点的特征将不会有助于第j个节点的输出特征的计算概念图见图3现在我们在数学上验证所构造的S具有所需的性质。还可以参考图3 .第三章。为了表示简单，我们使用h（i）来表示第i个关节h（i）=X（：，i）的M个输入特征，其中h（i）∈R1×M。类似地，我们使用u（j）来表示M′输出中文（简体）中文（简体）( )( )中文（简体）中文（简体）中国（1，1）中文（简体）中文（简体）中文（简体）中国（2，2）中国（2，3）中文（简体）中国（3，1）中国（3，2）2267ZcZc其中u（j）∈R1×M′. LCN中的操作ΣN h（i）（S（i，j）<$W（i，j））=u（j）（9）i=1我们可以看到，如果S（i，j）为零，那么h（i）将不会像我们期望的那样对u（j）的计算做出我们称之为操作，如图2所示，它是一个LCN层，为所有节点生成输出功能我们可以进一步用连续值来代替S中的值，以反映关节之间的“重要性”。代替手动指定值，我们还可以通过用可学习的参数替换S4.3. 应用于3D位姿估计对于3D姿态估计的任务，我们构建了一个深度神经网络，该网络使用上面讨论的LCN层作为基本构建块。受到Martinez等提出的网络结构的启发。[18]和Defferrard等人。[6]，我们的LCN有几个级联块，每个块由两个LCN层组成，与BN，LeakyReLU和Dropout交织每个块都被包装在一个剩余连接中。每个LCN层中的输出特征M’的数量被设置为64。值得注意的是，不同的层共享相同的结构矩阵，但具有不同的权重矩阵。LCN网络的输入是身体关节的2D位置，输出是相应的3D位置。我们使用L2之间的输出和地面损失真相网络可以端到端地训练。5. 实验5.1. 数据集和指标我们在公共数据集H36M[11]和MPI-INF-3DHP [19]。对于H36M，我们使用受试者1、5、6、7、8进行训练，并使用受试者9、11进行后续测试[18]。我们为所有动作训练一个模型。我们计算了在对准中间髋关节后，地面实况和3D姿态估计[18]我们将其称为方案#1。我们还报告结果时，估计是通过刚性变换与地面真相对齐我们称之为后处理协议#2。对于MPI-INF-3DHP，我们直接将在H36 M上训练的模型应用于测试集，以验证我们的方法的泛化能力。我们使用平均PCK和AUC的方法。根据以前的工作[40，17]，我们假设全球规模是已知的实验评估。5.2. 实现细节坐标系表示运动类型的三维位置世界坐标系（CS）为PW。我们先跨-表1.当在方案#1下在H36M数据集上使用不同坐标系时，两个模型的平均3D姿态估计误差用于训练和测试的2D姿势由在MPII上训练的SH [20通过外部相机参数将其形成到相机CSPC =R（PW-T）。然后，我们使用内部相机参数将PC=（X c，Y c，Z c）投影到像素CS：Pp=（u，v），其中u = f Xc+ c x和v = f Yc+ c y。许多著作[18]都学习了从Pp到PC的映射。然而，从一个角度来确定姿势比例是不可能的这是因为尽管他们声称在相机CS（具有尺度信息）中估计3D姿态，但他们实际上假设训练集和测试集中的姿态尺度和焦距是相似的，这是一个限制。我们建议删除PC中的比例。具体地，我们寻求一个标量λ，其使得λPc具有类似于Pp通过最小化<$λP<$C−P<$p<$2，其中P<$C和P<$p表示以骨盆关节为中心的姿势。我们只使用当计算λ时，姿态的x，y坐标。我们建议由Pp来估计λPc，它与实际的身体尺度无关。出于评估目的，使用λ将估计变换回相机CS。我们发现该坐标系对于不同模型的益处，如表1所示。2D检测我们的网络的输入是由在MPII数据集上训练的堆叠沙漏（SH）[20]模型估计的在一些实验中，我们还在H36M数据集上微调SH，这将被清楚地描述。训练细节我们使用Adam训练模型200个epoch，开始学习率为0.001，指数衰减，使用大小为200的小批量。在测试过程中，它可以处理约47K样本每秒使用批处理模式（每批200个样本）在一个单一的GTX 1080tiGPU。5.3. 基线第一个基线是由Martinez等人提出的FCN变体。[18 ]第10段。第二个基线是Defferard等人提出的GCN变体。[6]，它最初是为半监督节点分类任务设计的。我们稍微修改了它的公开实现，使其适合于3D姿态估计.我们还评估了LCN的不同变体。模型坐标系误差Martinez等人[18个国家]相机CS67岁50Martinez等人[18个国家]像素CS63岁21LCN（3-NN）相机CS62.952268模型误差#参数Martinez等人[18个国家]63岁214.第一章3米Defferrard等人[6]美国66岁。370的情况。05个月LCN（1-NN）五十八770的情况。95MLCN（2-NN）五十七731 .一、85米LCN（3-NN）五十七56二、92个月表2.不同模型在协议#1下对H36M数据集的平均3D姿态估计误差用于训练和测试的2D姿势由在MPII上训练的SH [20]估计。第三列示出了“权重矩阵”+“结构矩阵”的可学习参数的数量特别是，我们研究LCN（K-NN），其中K的范围从1到4。此外，对于LCN（K-NN），我们可以通过可学习的参数来替换S中的1的块，以反映其对其他关节的依赖程度。我们将这种方法表示为LCN（K-NN）-学习。我们还研究了一种方法，当我们不指定S根据人体解剖，但完全从数据中学习。这种方法被表示为LCN-Learn。5.4. 与基线的比较表2中所示的结果是当通过仅在MPII数据集上训练的SH模型[20首先，FCN模型[18]的误差为63。第二，直接使用GCN[6]将误差增加到66。37毫米。降低的精度应归因于GCN中的权重共享方案这损害了模型LCN得到了比两个竞争对手更小的误差。当一个关节只依赖于其最近的相邻关节时，即。LCN（1-NN），误差已经相当小。这表明关节的3D位置可以通过观察其邻域中的少量2D关节来估计。当从属运动类型的数量小于四个时，增加从属运动类型的数量会进一步然后错误开始增加。这可能是因为与不相关关节的冗余连接对模型的泛化能力有负面影响LCN（2-NN）-Learn的估计误差类似于LCN （2-NN）。图4示出了学习的结构矩阵。首先，学习的联合依赖性是近似对称的，这与我们的常识一致。其次，最强的依赖性通常来自直接连接的当我们仅仅依靠数据来学习结构模型时，即.在LCN-Learn（LCN-Learn）中，它得到更大的误差，这意味着重要的是利用模型的解剖学先验来防止其过度拟合。虽然学习结构矩阵图4. LCN（2-NN）-Learn学习结构矩阵。X轴和y轴表示关节的指数。S5.5. 与最新技术H36 M数据集我们将我们的方法（LCN（3- NN））与H36 M数据集上的最新技术进行了比较。2D姿态模型SH首先在MPII数据集上进行预训练，然后在H36M上进行微调。使用方案#1和#2的结果分别示于表3和5中。方案1：首先，当通过堆叠沙漏[ 20 ]估计2D姿态时，3D误差为52。7mm，比以前的最先进技术更小。第二，当在GT 2D姿势上训练时，我们的方法通过显著的幅度提高了[18方案2：我们的方法也实现了类似的重新-结果与以前的最先进的[22]，即使他们使用额外的序数注释。MPI-INF-3DHP数据集我们将在H36 M上训练的模型应用于MPI-INF-3DHP的测试集。表4示出了结果。首先，我们可以看到，[18]的结果较差，这表明FCN中的密集连接影响泛化能力。其次，我们的方法优于以前的最先进的方法[19，40]，这些方法致力于解决不同数据集之间的泛化问题特别地，Pavlakoset al.[22]在训练模型时使用额外的注释和数据集。这验证了我们的模型对新数据集的强大泛化能力。5.6. 泛化能力我们从三个方面系统地评估我们的方法的泛化能力。交叉动作我们在H36M数据集中的15个动作之一上训练我们的模型，并对所有动作进行测试。图5显示了结果。我们可以看到，我们的方法的MPJPE比[18]的小约20mm。回想一下，当我们使用所有动作进行训练时，间隙约为10mm2269141.2136.09130.16128.87128.23127.3109.43103.33103.07103.08102101.690.5184.1478.0278.3972.1274.8271.8467.0363.4261.8469.8460.39方法Dire。Disc. 吃迎接电话照片姿势购买。坐着吸烟等待步行步行平均Pavlakos等人[23日]67.4 71.9 66.7 69.172.077.065.068.383.7 96.571.765.874.959.163.271.9Tekin等人[32个]54.2 61.4 60.2 61.279.478.363.181.670.1 107.369.370.374.351.863.269.7Katircioglu等[13个国家] 54.9 63.3 57.3 62.370.377.456.757.179.0 97.164.361.967.149.862.365.4Zhou等[第四十届]54.8 60.7 58.2 71.462.065.553.855.675.2 111.664.266.151.463.255.364.9Sun等人[29日]---------------64.1[18]51.8 56.2 58.1 59.069.578.455.258.174.0 94.662.359.165.149.552.462.9Fang等人[七]《中国日报》50.1 54.3 57.0 57.166.673.353.455.772.8 88.660.357.762.747.550.660.4Yang等[39]第三十九届 51.5 58.9 50.4 57.062.165.449.852.769.2 85.257.458.443.660.147.758.6Pavlakos等人[22日]48.5 54.4 54.4 52.059.465.349.952.965.8 71.156.652.960.944.747.856.2我们46.8 52.3 44.7 50.452.968.949.646.460.2 78.951.250.054.840.443.352.7Martinez等人(GT)[18个国家]37.7 44.4 40.3 42.148.254.944.442.154.6 58.045.146.447.636.440.445.5我们的（GT）36.3 38.8 29.7 37.834.642.539.832.536.2 39.534.438.438.231.334.236.3表3.协议#1下H36M上不同方法的3D估计误差GT意味着2D姿势来自地面实况。训练数据GSnoGS户外全部（PCK）全部（AUC）[18]H36m49.842.531.242.517.0梅赫塔[19]H36m70.862.358.864.731.7杨[39]H36m+MPII---69.032.0周[40]H36m+MPII71.164.772.769.232.5罗[17]H36m71.359.465.765.633.2帕夫拉科斯[22]H36m+MPII+LSP---44.319.8[22]第二十二话H36m+MPII+LSP 76.563.177.571.935.3*我们H36m74.870.877.374.036.7表4.按场景划分的MPI-INF-3DHP测试集的结果。GS表示绿色屏幕背景。[18]的结果直接取自[17]。* 使用额外的序号注释。150140130120110100908070601000 2000 5000 10000 20000 50000训练数据数量我们的（稀缺）马丁内斯等人。（稀缺）我们的（丰富）马丁内斯等人（丰富）1401201008060图6.当我们使用不同数量的训练数据来训练我们的模型时，3D姿态估计误差. X轴表示训练中使用的数据数量。“rich”means the training data are from the “scarce” means the trainingdata are only from the first “Direction”40200我们Martinez等人Δ以达到最佳性能。相比之下，[18]需要超过5K。这反映了我们的方法是更少的数据饥饿，以实现合理的泛化能力。图5.训练FCN时的3D姿态估计误差[18]和我们的LCN模型对15个动作中的每一个动作进行测试。X轴表示训练中使用的动作。这表明我们的方法更好地推广到看不见的行动。训练数据数量我们调查的影响训练数据的数量。我们做了两个实验。在第一种方法中，我们从所有动作中随机抽取预定义数量的训练数据我们把这个实验称为在第二个中，我们只从第一个动作“方向”中采样图6显示了结果。在“稀缺”实验中35.4422.2025.2225.9126.4921.4321.6021.315.97 15.90十六23.8615.5118.1517.0015.48MPJPE（mm）MPJPE（mm）2270对噪声的鲁棒性我们评估了我们的方法对不准确的2D关节位置的鲁棒性。在该实验中，所有方法都使用地面实况2D和3D姿态对进行训练。在测试中，我们从不同方差的高斯分布中采样随机噪声，并将它们添加到地面真实2D姿势中。特别地，对于每个2D姿态，一个关节将被破坏。然后，我们从损坏的2D姿态中估计出3D姿态我们计算其余关节的平均3D误差增加。结果示于图7中。我们可以看到，当我们手动指定关节之间的依赖关系，并赋予它们相同的LCN（2-NN），由于稀疏连接，误差增加小于[18]。如果我们进一步学习部分相关性，即。LCN（2-NN）-学习或完全学习。LCN-学习，误差增加是2271方法Dire。 Disc. 吃迎接电话照片姿势购买。坐着吸烟等待步行步行平均Bogo等人[4]美国62.0 60.2 67.8 76.592.177.073.075.3100.3 137.383.477.386.879.787.782.3Pavlakos等人[23日]---------------51.9Martinez等人[18个国家] 39.5 43.2 46.4 47.051.056.041.440.656.569.449.245.049.538.043.147.7K.Lee等人[第十五条]38.0 39.3 46.3 44.449.055.140.241.153.268.951.039.133.956.438.546.2Fang等人[七]《中国日报》38.2 41.7 43.7 44.948.555.340.238.254.564.447.244.347.336.741.745.7Pavlakos等人[22日]34.7 39.8 41.8 38.642.547.538.036.650.756.842.639.643.932.136.541.8*我们36.9 41.6 38.0 41.041.951.138.237.649.162.143.139.943.532.237.042.2Martinez等人(GT)[18个国家]---------------37.1我们的（GT）24.6 28.6 24.0 27.927.131.028.025.031.235.127.628.029.124.326.927.9表5.协议#2下H36M上不同方法的3D估计误差。GT意味着2D姿势来自地面实况。* 使用额外的序数注释。25检测到2dLCN GT检测到2d LCN GT20（一）1510（b）第（1）款5051015 20 25高斯噪声标准（c）第（1）款Martinezetat.我们的（2NN）我们的（2NN）-学习我们的-学习图7.当一个关节被不同级别的噪声损坏时，其余关节的平均3我们给出了[18]和我们的结果。进一步大幅下降这可能是因为模型具有更大的自由度来建立连接并确定其强度，使得一些辅助连接被削弱，如图4所示。5.7. 定性结果我们在图8. 2D姿态由SH [20]估计。2D姿态估计并不完美，特别是当遮挡发生时。参见图8（d）的第一个示例，其中右手和脚的2D位置不正确。我们的方法仍然为身体的其他部分生成合理的3D姿势这表明不准确的2D姿态的影响被约束为局部的。6. 结论我们提出了LCN来估计三维人体姿态从二维构成。它可以看作是GCN的一个推广，克服了它的局限性。特别是适当的联合依赖设计使其具有较强的表示能力和推广能力它在两个公共数据集H36 M和MPI-INF-3DHP上的性能优于最先进的技术。（d）其他事项图8.通过我们的LCN方法在H36 M和MPI-INF-3DHP数据集上估计的样本3D姿态行（d）示出了具有错误检测到的一些关节的输入的结果。更重要的是，它可以很好地推广到看不见的动作，数据集，甚至是嘈杂的2D姿势.7. 确认这部分由国家自然科学基金资助61625201，61527804和高通大学研究资助。引用[1] A Agarwal和B Triggs。基于相关向量回归的人体轮廓三维在CVPR，第2卷，第II-II页中IEEE，2004年。[2] Ijaz Akhter和Michael J Black。三维人体姿态重建的姿态条件关节角度限制在CVPR中，第1446-1455页[3] 詹姆斯·阿特伍德和唐·陶斯利扩散卷积神经网络。在NIPS，第1993-2001页[4] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl：平均误差增量（mm）2272由单一影像自动估计三维人体位姿与形状。参见ECCV，第561-578页。施普林格，2016年。[5] Joan Bruna ， Wojciech Zaremba ， Arthur Szlam ， andYann Le- Cun.图上的谱网络和局部连通网络。arXiv预印本arXiv：1312.6203，2013。[6] MichaeülDefferrard，XavierBresson，andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。在NIPS，第3844-3852页，2016年。[7] Hao-Shu Fang，Yuanlu Xu，Wenguan Wang，XiaobaoLiu，and Song-Chun Zhu.学习姿势语法编码人体结构以进行3d姿势估计。在AAAI，2018。[8] Will Hamilton，Zhitao Ying，and Jure Leskovec.大图上的归纳表示学习。在NIPS，第1024-1034页[9] 我看到哈姆蒙德、皮埃尔·范德雷·恩斯特和雷米·格里邦瓦尔.基于谱图论的图上的小波。应用和计算谐波分析，30（2）：129[10] Mikael Henaff，Joan Bruna，and Yann LeCun.图结构数据上的深度卷积网络。 arXiv 预印本 arXiv ：1506.05163，2015。[11] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu.人类3。6m：自然环境中3D人体感知的大规模数据集和预测方法。T-PAMI，36（7）：1325[12] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik 。端到端恢复人体形状和姿势。在CVPR，2018年。[13] Isinsu Katircioglu 、 Bugra Tekin 、 Mathieu Salzmann 、Vincent Lepetit和Pascal Fua。用深度神经网络学习3d人体姿势的潜在表示。IJCV，第1- 16页[14] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。[15] Kyoungoh Lee，Inwoong Lee，and Sanghoon Lee. 基于联合相关性的三维姿态估计在ECCV，第119-135页[16] Mun Wai Lee和Isaac Cohen。建议地图驱动的mcmc在静态图像中估计人体姿态。在CVPR，第2卷，第II-II页中。IEEE，2004年。[17] 落辰虚、小楚、艾伦.尤耶。 Orinet：用于3D人体姿势估计的全卷积网络。BMVC，第92页，2018年。[18] Julieta Martinez、Rayat Hossain、Javier Romero和JamesJ Little。一种简单而有效的三维人体姿态估计基线。在ICCV，第1卷，第5页，2017年。[19] Dushyant Mehta ， Helge Rhodin ， Dan Casas ， PascalFua ， Oleksandr Sotnychenko ， Weipeng Xu ， andChristian Theobalt.使用改进的cnn监督进行野外单目三维人体姿态估计。在3DV中，第506-516页。IEEE，2017年。[20] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络。参见ECCV，第483-499页。施普林格，2016年。[21] Gregory Shakhnarovich Paul ， Paul Viola ， and TrevorDarrell.使用参数敏感散列的快速姿态估计。在ICCV。Citeseer，2003.[22] Georgios Pavlakos，Xiaowei Zhou，and Kostas Daniilidis.三维人体姿态估计的有序深度监督。在CVPR中，第7307-7316页[23] Georgios Pavlakos ， Xiaowei Zhou ， Konstantinos GDerpanis，and Kostas Daniilidis.单图像三维人体姿

下载后可阅读完整内容，剩余1页未读，立即下载