时空关系图卷积网络解决3D姿态估计的挑战

150 浏览量更新于2023-10-13 收藏 1.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2272利用时空关系通过图卷积网络进行3D姿态估计*蔡宇军1，葛柳浩1，刘军1，蔡剑飞1，2，詹达仁1，袁俊松3，Nadia Magnenat Thalmann11新加坡南洋理工大学2莫纳什大学，澳大利亚3纽约州立大学布法罗分校，美国纽约州布法罗{yujun001，ge0001ao，jliu029}@ e.ntu.edu.sg{asjfcai，astjcham}@ ntu.edu.sg，jsyuan@buffalo.edu，nadiathalmann@ntu.edu.sg摘要尽管在从单视图图像或视频中进行3D姿态估计方面取得了很大进展，但由于大量的深度模糊和严重的自遮挡，它仍然是一项具有挑战性的任务。基于空间相关性和时间相关性的有效性，我们提出了一种新的基于图的方法来解决从短序列的2D关节检测中估计3D人体和3D手部姿势的问题。特别地，关于人手（身体）配置的领域知识被明确地并入到图卷积操作中以满足3D姿态估计的特定要求。此外，我们引入了一个本地到全球的网络架构，这是能够学习多尺度特征的基于图的表示。我们评估所提出的方法具有挑战性的基准数据集的3D手的姿势估计和3D身体姿势估计。实验结果表明，我们的方法在这两个任务上都达到了最先进的性能。1. 介绍涉及从单视图图像或视频估计人手或身体的3D关节位置的3D姿态估计是一个快速增长的研究领域，并且在过去几十年中引起了长期的研究关注[11，47，48]，因为它在许多应用中起着重要作用这项研究得到了BeingTogether中心的支持，该中心是新加坡南洋理工大学（NTU）和北卡罗来纳大学教堂山分校（University ofNorth Carolina at Chapel Hill）之间的合作。该中心由新加坡总理办公室国家研究基金会在其新加坡国际研究中心资助计划下提供支持。这项研究也得到了新加坡教育部Tier-2 Grant（MoE 2016-T2-2-065）和布法罗大学启动资金的部分支持。图1.（a）整个人体和（b）人手的不同关节之间的图形时空依赖性时间边缘连接连续帧之间的相同关节，并且空间边缘表示每个帧的自然连接。为了便于说明，我们只在时空图的前框上绘制了整个空间连接我们对关节进行颜色编码，以显示人体（手）的不同部位。例如手势识别、机器人和人机交互。尽管近年来取得了巨大的成功[8，27，28，38，44，5，16，49，25，13]，但由于2D表示中频繁的自遮挡和大量的深度模糊，它仍然是一个具有挑战性的问题。许多现有的工作[3，12，17，29，54，53，15，14]依赖于有效的2D姿态估计框架，以首先在图像平面上定位2D关键点，然后从估计的2D关节位置提升3D此外，最近的工作[12，17，29]表明，设计良好的深度网络可以在仅使用2D联合检测作为输入的3D姿态估计中实现有竞争力的性能然而，值得注意的是，从2D表示估计3D姿态本质上是一个不适定问题，因为对于单个2D姿态可能存在多个有效的3D解释2273图2.我们提出的用于从连续的2D姿态进行3D姿态估计的网络架构的示意图概述。输入是从RGB图像估计的少量相邻2D姿态，并且输出是目标帧的3D关节位置我们在骨架序列上构建了为了进一步细化估计结果，应用姿态细化过程，其可以利用图卷积网络进行端到端训练。注意，该流水线适用于3D人体和手部姿势估计两者，并且这里我们简单地将3D人体姿势估计作为可视化示例。ton，这使得难以推断唯一有效的解决方案，特别是对于具有严重闭塞的情况。为了克服这种模糊性，几种方法[4，51，12]试图嵌入运动学相关性，以确保3D结构的空间有效性。例如，Fang等人。 [12]通过在估计的3D人体姿势上强制空间一致性，明确地将不同身体部位之间的几何依赖性此外，为了处理不连贯和抖动的预测，一些工作[17，39，30]转向利用跨序列的时间信息。例如，Hossain等人 [17]设计了一个序列到序列网络来预测3D关节位置，并在训练期间施加时间平滑度约束，以确保序列上的尽管他们有希望的结果，我们观察到，大多数现有的工作只集中在纳入空间配置约束或时间相关性，而忽略了这两种类型的信息之间的互补性。更确切地说，我们注意到，具有空间依赖性的先验可以降低生成物理上不可能的3D结构的可能性，并减轻自遮挡的问题，同时利用时间推断有助于解决具有挑战性的问题，如深度模糊和可见抖动。这些观察鼓励我们开发一种方法，该方法可以有效地将空间和时间关系嵌入到基于学习的框架中，并利用它进行3D姿态估计。受一系列骨架形式的基于自然图的表示的启发，并受到图卷积网络（GCN）[9，20，41，50]的最新进展的启发，在这项工作中，我们提出利用GCN来利用空间和时间关系进行3D姿态估计。注意，与最近的两篇论文[15，26]不同，这两篇论文都使用均匀GCN进行密集手工网格重建，或考虑空间图-lstm，我们的工作使用GCN的时空图与语义分组的序列三维姿态估计。具体来说，如图1所示，我们将骨骼关节的序列定义为时空图。图形拓扑由作为图形节点的关节形成，通过两种类型的连接来链接：表示不同关节之间的空间依赖性的空间边缘为了处理用于3D姿态估计的稀疏连接和功能变化的图边缘，我们提出针对不同邻域类型学习不同的卷积核权重，而通用图卷积运算统一地以相同的程度处理具有共享核权重的相邻节点此外，受先前以多个分辨率处理和合并信息的2D姿态估计方法[32]的启发，我们类似地提出了一种捕获多尺度特征的图卷积最后，引入姿态细化步骤以进一步提高估计精度（参见图2的系统概述）。这项工作的贡献有三个方面：• 通过将骨架序列视为时空图，我们建议使用GCN有效地利用空间结构和时间一致性进行三维位姿估计，这两个方面对于提高三维位姿估计的准确性具有重要意义。• 我们设计了一个局部到全局的网络架构，它能够通过连续的图池和上采样层学习多尺度图实验结果证明了这样2274i=1图3.（a）人体和（b）人手的不同相邻节点的可视化。相邻节点根据它们的语义被分为六类：中心节点（蓝色）、物理连接的节点（包括离骨架根较近的节点（紫色）和离骨架根较远的节点（绿色））、间接“对称”相关节点（深蓝色）、时间向前节点（黄色）和时间向后节点（橙色）。分层体系结构，可以有效地巩固我们的网络中的本地和全局特征。• 我们在一般图卷积运算的基础上提出了一种非均匀图卷积策略，该策略学习不同的卷积核根据不同相邻节点的语义含义对不同相邻节点进行加权。实验表明，所提出的图卷积策略是至关重要的性能提高与构造的稀疏时空图的三维姿态估计。我们对两个广泛使用的基准进行了全面的实验：Human3.6M数据集[18]用于3D人体姿势估计，STB数据集[52]用于3D手部姿势估计。实验结果表明，我们提出的方法实现了国家的最先进的性能在这两个任务。2. 相关工作3D姿态估计。在过去的几年中，已经探索了基于学习的人手（和身体）姿态估计的不同方面，其可以大致分为两类：i）从2D图像直接回归每个关节的3D位置; ii）将3D姿态估计解耦为2D姿态估计和来自2D联合检测的3D姿态估计。对于第一类，Li和Chan [24]设计了一个多任务框架，该框架联合学习姿势回归和身体部位检测器。Park等人 [36]介绍了一种端到端框架，同时训练2D关节分类和3D关节回归。Pavlakos等人。 [38]介绍了一种基于堆叠沙漏架构的深度卷积神经网络，具有3D空间的精细离散化，以预测每个关节的每个体素可能性。对于第二类，Martinezet al. [28]直接重-通过由几个完全连接的层组成的简单网络，从提取的2D姿态中提取3D关键点Zimmermann等人 [54]采用PoseNet模块来局部化2D手部关节位置，然后估计手部最可能的3D结构。为了将空间先验纳入框架，Fang[12]开发了一个深层语法网络来明确编码人体依赖关系和关系。此外，为了处理静态图像中的深度模糊和视觉抖动，Hossain等人 [17]通过基于序列到序列模型跨帧传播联合位置信息来利用时间信息。通过这些方法实现的性能增益激励我们采取后续的探索，对合并的空间和时间的依赖性，而不是只关注一个方面。具体来说，我们的方法通过将图卷积操作与用于3D姿态估计的特定于域的知识相图卷积神经网络（GCN）。GCN是基于深度学习的方法，可以在图上执行卷积运算。与传统的CNN相比，GCN具有其独特的卷积算子，用于不规则数据结构一般来说，GCN可以分为两类：基于光谱的GCN [9，20，22，23，41]和基于非光谱的GCN [1，2，10]。后者试图通过将图的顶点重新排列成某种网格形式来扩展卷积的空间定义，以便直接应用常规的卷积运算，而前者则利用傅立叶变换来执行卷积过程。通常谱GCN适合于处理拓扑固定的图，而非谱GCN可以处理拓扑变化的图。3. 方法概况. 图2描述了我们提出的网络架构的概述。给定从视频帧估计的手（或身体）的少量相邻2D关节位置作为输入，我们的目标是预测目标帧关节位置Φ={φi}M∈Λ3D，其中M是关节数，Λ3D是M×3维手关节空间。特别地，我们构造了一个时空图，节点和局部连通性在空间（骨架结构）和时间域作为图形边缘。为了有效地学习基于图的表示的多尺度特征，在框架中引入了分层的最后，姿态细化过程被添加以进一步细化3D姿态估计。整个模型以端到端的方式通过反向传播进行训练。接下来，我们将详细描述各个组件。2275K-一个22W=Wk，和Dii=JWij。˜˜Σ˜˜图4.“本地到全球”网络架构的图示，该架构能够跨规模有效处理和整合功能。为了便于说明，我们只在时空图的前框上绘制整个空间连接时空图的构建骨架序列可以自然地组织为时空图形表示。具体来说，我们将姿势序列定义为无向图G=（V，E，W），其中V={vti|t=1，…T;i=1，. M}表示顶点的集合对应于T个帧和每帧M个身体关节，E={eij}是边的集合，指示节点之间的连接，并且W=（wij ）N×N，其中N=MT是邻接y矩阵，其中wij=0，如果（i，j）/∈E，并且wij=1如果（i，j）∈ E.规范化的图Laplacian [7]是com-Θ∈ RC×F是滤波器参数矩阵，W和D是归一化形式，其中W=W+IN，D ii=Wij，Z∈RN×F是卷积信号矩阵。3.2.基于图卷积的位姿估计在现有的图形卷积（Eq. (2))，本质上每个核0由所有1跳相邻节点共享。这对于稠密图来说很有效。然而，我们的用于3D姿态估计的时空图是稀疏的，具有功能变化的图边缘（例如，、空间边缘假设L=I-D−1WD−1，其中Dii=Wij。边集由两部分组成：时间连接其将每个关节与相邻框架中的对应物连接，以及空间连接，其包括每个框架中的直接和间接运动学依赖性（参见图1）。3.1.再论图卷积神经网络在这项工作中，我们采用了基于频谱的GCN，因为它可以很好地与结构化图与预定义的拓扑结构。特别地，图[41]上的谱卷积可以被认为是信号x∈RN与傅立叶域中的滤波器gθ=diag（θ）gθx=Ugθ UT x，（1）其中图傅立叶基U是归一化图拉普拉斯算子L的特征向量的矩阵，并且UTx表示x的图傅立叶变换。为了降低计算复杂度，Kipf和Welling [20]引入了分层线性公式，对相邻节点的统一处理并不适合-有能力为了解决这个问题，从之前的研究[33，50]中得到启发，这些研究采用了具有更大内核大小的卷积运算符，我们对通用图卷积运算进行了修改。特别是，我们根据其语义对相邻节点进行分类，并对不同的相邻节点使用不同的内核。如图3所示，基于直观的解释，相邻节点被分为六类：1）中心节点本身; 2）与中心节点相比更靠近根节点的物理连接的相邻节点; 3）物理连接的相邻节点，其比中心节点更远离根节点; 4）间接的“相关的”相邻节点; 5）时间前向邻居节点;（6）时间向后邻近节点。基于分类，（2）中的图卷积被更新为：通过将多个局部图卷积层与图Lapla的一阶近似进行Z=0K-一个D2Wk D-一个2XΘk，（三）cian：Z=D2W/D12XΘ，（2）其中k是邻居类型的索引，并且Θk是用于第k类型1跳邻居节点的滤波器矩阵其中输入信号X∈RN×C是广义信号，表示图上N个顶点的C-dim特征注意，这里W被分解为k个子矩阵，KKJKKN−J以及表示不同相关性的时间边缘），对于22762不Σηφsi=1图5.针对（a）人体和（b）人手定义的分层图池化策略。给定每帧的原始图结构，我们首先基于可解释的骨架结构将节点划分为单独的子集，这些子集用相同的颜色表示，然后对每个子集执行最大池化操作。然后，将粗化后的图最大池化为一个节点，该节点包含整个骨架的全局信息。注意，在随后的自顶向下处理中，上采样被执行为所提出的池化的逆操作，其将较粗糙图中的顶点的特征分配给较精细图中的其子顶点。3.3. 基于GCN的局部到全局预测对于姿态估计特别有效的设计选择是以前馈方式以不同分辨率捕获视觉图案或语义。首先通过对特征图进行二次采样来执行自下而上的处理，然后通过对特征图进行上采样来进行自上而下的处理，其中组合了来自底层的更高分辨率的特征，如在用于2D姿态估计的堆叠沙漏网络[32]受这种分层架构的成功的启发，我们提出了一个概念上类似的图池化和上采样：对于基于图的表示，池化操作需要图上有意义的邻域，其中相似的顶点是clus。分辨率很低此后，网络进行一个自上而下的过程，包括一系列上采样和跨尺度特征的组合。为了同时利用自下而上和自上而下的功能，我们对具有相同规模的功能执行逐元素连接，然后是每个节点的FC层以更新组合的功能。此外，在生成3D姿势序列之前引入非局部块[45]，3.4. 姿态细化对于3D姿态估计任务，存在两种类型的广泛使用的3D姿态表示。第一种方法使用相机坐标系中关节的根相关3D坐标，而第二种方法涉及连接每个关节的预测深度和来自2D检测器的UV坐标。这两个表示可以很容易地从一个转换到另一个使用相机固有矩阵。对于相对准确的2D姿态，第二表示是优选的，因为它保证了预测的3D姿态和图像平面上的2D投影之间的一致性然而，对于较差的2D姿态，保持投影和3D姿态之间的一致性常常导致物理上无效的3D姿态结构;这里，第一表示更好，因为它更能够生成有效的3D姿态结构。为了在这两种情况之间取得平衡，我们设计了一个简单的两层全连接网络用于姿态细化，该网络将两种表示中的3D姿态估计结果（其中第二种表示中的深度值直接从第一种表示中计算最后，将细化的3D联合位置计算为两组估计结果的置信加权和。3.5. 培训我们在训练中使用以下损失在一起。在这项工作中，我们建议逐步cluss- ter整个骨架每帧的基础上可解释的胡，3D姿势损失。L不t=1ΣM 我是 -φt，i-2，其中人体（或手）配置，如图5所示对于自顶向下过程，上采样过程简单地采取图池化过程的相反步骤，其中较粗糙图中的顶点的特征被复制到较精细尺度中的对应子顶点。此外，时间链接在不同的抽象层次中保持不变，将每个节点与相邻帧中的对应节点连接起来。分层架构：图4显示了拟议的分层φt，i和φt，i表示估计的和地面真实3D分别在时间t处接头i衍生损失。类似于[17]，我们采用导数损失Ld来加强时间平滑性。考虑到位于肢体末端的关节通常比其他关节移动得更快，我们将人体的关节分为三组：躯干头部，肢体中部和肢体末端，而对于人手，我们将21个关节分为：掌根、指中、指末。数学上，衍生损失Ld定义为：有效地处理和整合不同规模的功能。在前期阶段，我们逐步执行图卷积-Ld=1000¨我是s t−1，i（4）¨从原来的规模到一个规模，t=2i=1s∈S2M-φp=Σ2277我们的（AUC=0.995）Iqbal（2018 ECCV）（AUC=0.994）Cai（2018 ECCV）（AUC=0.993）Yang（2019 CVPR）（AUC=0.991）Spurr（2018 CVPR）（AUC=0.983）Mueller（2018 CVPR）（AUC=0.965）Zimmermann（2017ICCV）（AUC = 0.948）Panteleris（2018 WACV）（AUC =0.941）CHPR（AUC=0.839）ICCPSO（AUC=0.748）t我平均误差距离（mm）不其中φs 表示关节1的预测3D位置STB数据集人类3.6M数据集70属于集合s，ηs是标量超参数0.9650.860控制每个集合的重要性，其中较高值被指定给通常比其他关节更稳定的关节集。0.755500.6450.5对称性损失L s。它被定义为惩罚左右骨对长度的差异，0.40.320 25 3035 40 45 50403530左臂右臂左腿右腿躯干头是说通常用于3D身体姿态估计。在数学上，Ls可以写为Σ Σ¨ ¨2误差阈值（mm）图6.左：3D PCK结果与STB上用于3D手部姿势估计的最新方法的比较。右：姿势细化对平均误差距离的影响Ls= t=1<$Bt，b−Bt，C（b）<$B（五）人体3.6M的不同部位其中，B是右侧骨的估计骨长度b和C（b）是对应的左侧骨。培训战略。在我们的实现中，我们首先使用3D姿态损失Lp在姿态细化层之前训练网络，其从输入的2D姿态序列生成连续的3D关节位置。然后，我们以端到端的方式训练整个网络，并使用组合损失：L=λp Lp+λd Ld+λs Ls（6）其中λ p= 1，λ d= 1，λ s= 0。01.注意，姿态损失Lp和对称性损失Ls被应用于所有3D姿态估计结果，包括所有中间3D姿态预测和最终细化的3D关节位置。导数损失仅应用于姿态细化之前的连续3D联合估计。4. 实验4.1. 实现细节在我们的实验中，我们首先将输入的2D骨架馈送到批量归一化层以保持输入数据的一致性，然后将其传递到我们提出的层次化“局部到全局”网络。具体来说，我们在自底向上过程中使用了六个图形卷积层，其中三个图形分辨率分别为3层、2层和2层。对于自顶向下的过程，我们为特征连接的每个阶段部署每个节点的全连接操作，以获得连续的3D关节位置，然后选择目标帧3D姿态估计。最后，我们将估计结果馈送到姿势细化网络中，该网络由两个完全连接的层组成，其中包含1024个隐藏单元，然后是ReLU函数。为了更好地理解，我们的网络架构的详细图表可以在我们的补充材料中找到。我们在PyTorch框架内实现我们的方法。对于第3.5节中描述的第一个训练阶段，我们使用Amsgrad优化器以256的小批量大小训练60个epoch。学习率从0.001开始，每个epoch后应用0.95的收缩因子，每10个epoch后应用0.5。在第二阶段，我们设置λ p= 1，λ d= 1，λ s= 0。01，并以5×10−6的学习率训练20个epoch。所有的实验都是在一个GeForce GTX1080 GPU上进行的，使用CUDA 8.0。4.2. 数据集我们在两个公开可用的数据集上评估我们的方法：Human3.6M数据集[18]用于3D人体姿势估计，STB [52]用于3D手部姿势估计。Human3.6M. Human3.6M数据集[18]是一个大型的-规模和常用的数据集的三维人体姿态估计，这是一个由4个不同相机拍摄的360万张图像组成的视频，其中11个主题执行各种动作，如该数据集中提供了3D姿态地面实况和所有相机参数（包括内部和外部参数）。在本研究中，我们遵循先前工作中的评估所有摄像机视图都使用单个模型进行训练，用于所有动作。我们使用级联金字塔网络（CPN）执行2D姿态检测[6]它是FPN的扩展，如[39]中所提出的。STB数据集。STB（立体手姿态跟踪基准）数据集[52]是在具有6个不同背景的不同照明条件为每帧提供总共21个手部关键点的2D和3D注释我们遵循[3，54]中使用的相同训练和评估方案，对10个序列进行训练，对另外两个序列进行测试，使用卷积姿态机[46]检测2D关节位置。4.3. 评估指标对于Human3.6M，我们报告每个关节位置误差的平均值（MPJPE）作为评估指标，它计算根关节（中心髋关节）对齐后估计关节与地面真实值的平均欧几里得距离。该协议被称为协议#1。在一些工作中，采用了替代度量，其中估计的w/o后处理w/post-processing3D PCK22278协议#1Dir.Disc.吃迎接电话照片构成采购坐SitD.烟雾等WalkD。走WalkT.Avg.Mehta，3DV57.568.659.667.378.182.456.969.1100.0117.569.468.055.276.561.472.9Pavlakos，CVPR 17 [38]（T=1）67.471.966.769.172.077.065.068.383.796.571.765.874.959.163.271.9Zhou，ICCV54.860.758.271.462.065.553.855.675.2111.664.166.051.463.255.364.9Martinez，ICCV51.856.258.159.069.578.455.258.174.094.662.359.165.149.552.462.9[43] 2016年12月24日星期日52.854.854.254.361.867.253.153.671.786.761.553.461.647.153.459.1Fang，AAAI50.154.357.057.166.673.353.455.772.888.660.357.762.747.550.660.4Pavlakos，CVPR 18 [37]（T=1）48.554.454.452.059.465.349.952.965.871.156.652.960.944.747.856.2Hossain，ECCV48.450.757.255.263.172.653.051.766.180.959.057.362.446.649.658.3李，ECCV 18 [21]（T= 3）40.249.247.852.650.175.050.243.055.873.954.155.658.243.343.352.8Liu，TPAMI50.760.051.163.659.769.348.852.072.7105.358.661.062.245.948.761.1Pavllo，arxiv---------------49.8Pavllo，arxiv47.150.649.051.853.661.449.447.459.367.452.449.555.339.542.751.8我们的，（T= 1）46.548.847.650.952.961.348.345.859.264.451.248.453.539.241.250.6我们的，（T= 3）44.948.146.149.450.658.447.244.457.162.249.747.252.238.240.849.1我们的，（T= 7）44.647.445.648.850.859.047.243.957.961.949.746.651.337.139.448.8协议#2Dir.Disc.吃迎接电话照片构成采购坐SitD.烟雾等WalkD。走WalkT.Avg.马丁内斯，ICCV39.543.246.447.051.056.041.440.656.569.449.245.049.538.043.147.7[43] 2016年12月24日星期日42.144.345.045.451.553.043.241.359.373.351.044.048.038.344.848.3Fang，AAAI38.241.743.744.948.555.340.238.254.564.447.244.347.336.741.745.7Pavlakos，CVPR 18 [37]（T=1）34.739.841.838.642.547.538.036.650.756.842.639.643.932.136.541.8Hossain，ECCV35.739.344.643.047.254.038.337.551.661.346.541.447.334.239.444.1李，ECCV 18 [21]（T= 3）34.935.243.242.646.255.037.638.850.967.348.935.250.731.034.643.4Pavllo，arxiv36.038.738.041.740.145.937.135.446.853.441.436.943.130.334.840.0我们的，（T= 1）36.838.738.241.740.746.837.935.647.651.741.336.842.731.034.740.2我们的，（T= 3）36.038.437.640.839.945.237.035.046.050.540.636.542.230.634.539.4我们的，（T= 7）35.737.836.940.739.645.237.434.546.950.140.536.141.029.633.239.0表1.在协议#1和协议#2下，Human3.6M上估计的姿态和地面实况之间的平均每关节位置误差（MPJPE）（以毫米为单位）的定量比较最好的分数用粗体标出。3D姿态经由刚性变换与地面实况对准，这被称为协议#2。对于STB数据集，我们用两个度量来评估3D手部姿态估计性能。第一个指标是正确关键点（PCK）分数百分比的曲线下面积（AUC），这是评估1帧3帧5帧7帧Human3.6M50.6249.0848.8648.78STB6.956.706.656.61表2.我们的方法在人3.6M和STB上具有不同输入序列长度的MPJPE结果（以mm计）。姿态估计精度与不同的阈值，作为建议，在[3，54]中。第二个度量是MPJPE，与3D身体姿势估计的度量相同。遵循[3，42，54]中使用的相同条件，我们假设在测试时提供全局手部尺度和根关节的绝对深度以进行3D手部姿势估计。4.4. 与最新技术人类3.6M的结果。如表1所示，我们将我们的方法的性能与之前在Human3.6M上报告的结果进行了比较，其中T表示输入帧的数量。为了公平比较，本表中列出了具有不同输入序列长度请注意，[39]报告了使用243帧进行3D姿态估计的更好结果然而，这不适合于我们关注的在线场景，其中具有长帧序列作为输入是不可行的。从表中可以看出，与具有类似输入帧数量的最先进方法相比，我们的方法在所有协议下都实现了最佳性能。STB数据集上的结果。图6（左）示出了与现有技术方法[3，19，31，34，35，方法误差（mm）制服GCN 69.8分割时间连接。54.8分割时间对称连接。54.0分离时间对称物理连接。（拟议）49.1表3. MPJPE我们的方法在Hu-man 3. 6 M上使用3个输入帧和不同的图卷积策略的结果（以mm为单位）。40，42，54]，用于3D手部姿态估计。可以看出，我们的方法在大多数误差阈值上优于最先进的方法，在20 mm和50 mm之间的联合误差范围内将AUC值提高到0.995。请注意，在这里，我们用单帧模型测量我们提出的方法的3D PCK曲线，以获得公平的一致性，因为大多数以前的工作都集中在从单个图像估计3D姿态。4.5. 消融研究输入序列长度的影响。表2显示了我们的方法在不同输入序列2279图7.我们提出的方法在Human3.6M和STB数据集上的可视化结果。第一行：Human3.6M [18]。第二行：STB [52]。请注意，骨架显示在一个新的观点，以方便比较。Human3.6M和STB数据集上的长度。我们可以看到，随着用于预测的输入帧的增加，我们提出的方法在3D人体和手部姿态估计方面都获得了更大的增益。这是预期的，因为时间相关性有助于解决诸如深度模糊和自遮挡之类的问题，这些问题通常对于单帧3D姿态估计任务是具有挑战性的。注意到T= 3（49.08 mm）的估计误差仅略高于T= 5（48.86 mm）和T= 7（48.78mm）的估计误差，我们在以下实验中固定T= 3以平衡估计精度和计算复杂度。修改图形卷积的效果。为了评估我们修改的图卷积用于3D姿态估计的有效性，我们使用我们的方法的三种变体在Human3.6M上进行实验。a）均匀GCN：邻域中的所有节点都用共享过滤器矩阵均匀处理b）分离时间连接。：相邻节点分为三类：时间向前节点、时间向后节点和其它节点。c）分裂时间&对称连接。：相邻节点分为四类：时间向前节点、时间向后节点、对称节点和其它节点。所有模型都有3个输入帧和一致的图形拓扑结构，以便进行公平的比较。结果如表3所示。可以看出，将相邻节点分成具有单独核权重的三个类（第一变型）的策略可考虑地大幅提高性能（从69.8 mm提高到54.8 mm）。在划分相邻节点的多种方法中，我们提出的实现（分裂时间对称物理连接）。实现了最好的结果（49.1 mm），这表明我们提出的非均匀图卷积的有效性，该非均匀图卷积基于稀疏时空图的语义对相邻节点进行精确分类以用于3D姿态估计。局部到全局预测的效果。我们通过从我们的模型中连续移除图池和上采样层来检查使用我们提出的局部到全局架构的优势。如表4所示，删除池化和上采样层会导致误差增加3 mm至5 mm，这表明在我们提出的框架中利用多尺度特征的好处方法误差（mm）∆我们的，提议的49.1-无最后一个池化第一个上采样层52.33.2不含所有池化上采样图层53.94.8表4.对我们网络架构的不同组件进行消融研究。根据方案#1，使用MPJPE指标对Human3.6M进行评价pose refinement的影响。我们还评估了所提出的姿势细化的影响。如图6（右）所示，通过姿态细化，不同身体部位的平均估计误差以及总体平均误差在Human3.6M上一致降低[18]，这表明我们提出的姿态细化可以进一步提高3D关节位置的估计精度。4.6. 定性结果。图7显示了我们的方法在Human3.6M [18]和STB [52]数据集上的一些可视化结果。我们展示了从各种角度捕获的具有严重自遮挡的样本。实验结果表明，该模型能够可靠地处理具有不同方向和复杂姿态的挑战性姿态。5. 结论在本文中，我们提出了一种新的基于图的方法，从一个短序列的提取的2D关节位置的3D姿态估计。为了结合所构建的时空图的特定于领域的知识，我们通过学习功能可变邻居的各个内核权重来引入非均匀图卷积运算。此外，还提出了一种局部到全局的网络架构，以有效地捕获不同尺度上的代表性特征。在两个基准数据集上的实验结果表明，我们的方法在3D手部姿态估计和3D人体姿态估计任务中具有优越的性能2280引用[1] 詹姆斯·阿特伍德和唐·陶斯利扩散卷积神经网络。神经信息处理系统的进展，第1993-2001页，2016年[2] 泽维尔·布列松和托马斯·洛朗。残差门控图卷积网。arXiv预印本arXiv：1711.07553，2017。[3] 蔡宇军、葛柳浩、蔡建飞、袁俊松。基于单角rgb图像的弱监督三维手势估计。在欧洲计算机视觉会议（ECCV）的会议记录中，第666-682页[4] Xianjie Chen和Alan L Yuille.通过具有图像相关成对关系的图形模型的铰接姿态神经信息处理系统的进展，第1736-1744页，2014年[5] Yujin Chen，Zhigang Tu，Liuhao Ge，Dejun Zhang，Ruizhi Chen，and Junsong Yuan. So-handnet：用于3d手部姿势估计的半监督学习自组织网络。在IEEE国际计算机视觉会议论文集，2019年。[6] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人位姿估计的级联金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第7103-7112页[7] 范若坚及范仲嘉。谱图理论。92号美国数学学会一九九七年。[8] Rishabh Dabral、 Anurag Mundhada 、 Uday Kusupati、Safeer Afaque、Abhishek Sharma和Arjun Jain。从结构和运动学习三维人体姿势。在欧洲计算机视觉会议（ECCV）的会议记录中，第668-683页[9] MichaeülDefferrard，XavierBresson，andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统的进展，第3844-3852页，2016年[10] DavidKDuvenaud 、 DougalMaclaurin 、 JorgeIparraguirre 、 Raf aelBombarell 、 Timoth yHirzel 、 Ala´nAspuru-Guzik和Ryan P Adams。用于学习分子指纹的图上卷积网络神经信息处理系统的进展，第2224-2232页，2015年[11] Ali Erol、George Bebis、Mircea Nicolescu、Richard DBoyle和Xander Twombly。基于视觉的手部姿势估计：综述。计算机视觉与图像理解，108（1- 2）：52[12] Hao-Shu Fang，Yuanlu Xu，Wenguan Wang，XiaobaoLiu，and Song-Chun Zhu.学习姿势语法编码人体结构以进行3d姿势估计。2018年第三十二届AAAI人工智能会议[13] 刘浩、蔡玉军、翁君武、袁俊松。手点网：使用点集的3d手姿态估计。在IEEE计算机视觉和模式识别会议论文集，第8417-8426页[14] Liuhao Ge ， Hui Liang ， Junsong Yuan ， and DanielThalmann.单深度图像中的鲁棒3d手部姿态估计：从单视图cnn到多视图cnn。在IEEE计算机视觉和模式识别会议论文集（ Proceedings of the IEEE conference oncomputer vision and patternrecognition），第3593-3601页[15] Liuhao Ge ， Zhou Ren ， Yuncheng Li ， Zehao Xue ，Yingying Wang，Jianfei Cai，and Junsong Yuan.根据单个RGB图像的3D手的形状和姿态估计。在IEEE计算机视觉和模式识别会议论文集，第10833-10842页[16] Yana Hasson、Gul Varol、Dimitrios Tzionas、Igor Kale-vatykh 、 Michael J Black 、 Ivan Laptev 和 CordeliaSchmid。学习手和操作对象的关节重建。在IEEE计算机视觉和模式识别集，第11807[17] Mir Rayat Imtiaz Hossain和James J Little。利用时间资讯进行三维人体姿态估测。欧洲计算机视觉会议，第69-86页。Springer，2018.[18] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6m：大规模数据集和预测方法，用于自然环境中的 3D 人体感知。 IEEETransactionsonPatternAnalysisandMachineIntelligence，36（7）：1325[19] Umar Iqbal，Pavlo Molchanov，Thomas Breuel JuergenGall，and Jan Kautz.基于潜在2.5维热图回归的手部姿态估计在欧洲计算机视觉会议（ECCV）的会议记录中，第118-134页[20] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。[21] Kyoungoh Lee，Inwoong Lee，and Sanghoon Lee.

下载后可阅读完整内容，剩余1页未读，立即下载