基于CVAE的2D至3D姿态生成及评估

118 浏览量更新于2023-10-13 收藏 2.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2325MultiPoseNet第1页3DP23DPK3D2DPoseNetzN（0，1）P2Dˆ…CVAE解码器关节热图2D姿态OrdinalNetOMkjMOrdinalScore OracleRGB图像有序映射P3DP3D甲骨文有序矩阵基于生成和有序排序的Saurabh Sharma1Pavan Teja Varigonda2，3Prashast Bindal2Abhishek Sharma3Arjun Jain2，31马克斯普朗克信息学研究所2印度理工学院3Axogyan AISaarbr uéck en Bombay Bangg alore生成的3D样本=>>><=<<<>=><><=图1：模块化框架的示意图我们通过训练CVAE来生成以2D姿势为条件的3D姿势样本，使用联合顺序关系进行评分和加权平均，并与2D姿势一起回归，从而解决2D到3D映射中的模糊性我们的上限性能是通过使用Oracle获得的。摘要由于二维到三维提升过程中的维数灾难和不适定性，从静态图像中估计单目三维人体姿态是一个具有挑战性的问题。在本文中，我们提出了一种基于深度条件变分我们表明，基于CVAE的3D姿态样本集与2D姿态一致，有助于解决2D到3D提升中固有的模糊性。我们提出了两种用于获得最终3D姿态的策略-（a）深度排序/序数关系，以对候选3D姿态进行评分和加权平均，称为OrdinalScore，以及（b）在来自Oracle的监督下。我们使用Ordi- nalScore在两个基准数据集上报告了接近最先进的结果，并使用Oracle报告了最先进的结果。我们还表明，我们的管道产生竞争力的结果，配对的图像到3D注释。训练和评估代码可在https://github.com/ssfootball04/generative_pose上获得。1. 介绍准确的三维人体姿态估计从monocular RGB图像发现应用于机器人，vir-虚拟/增强现实、监控和人机交互。真实场景中背景、布料、姿态、遮挡、照明和摄像机参数的多样变化使其成为一个具有挑战性的问题。流行的3D姿态注释数据集没有适当地覆盖这些变化。现实世界2D姿态估计[22，42]的最新进展已经导致了几种多级架构，其中3D姿态从图像特征和中间2D表示[3，8，23，45]回归，或者仅从估计的2D姿态回归[1，19，20，27，46]。不幸的是，基于回归的方法仅使用估计的2D姿态，忽略了将2D人体姿态提升到3D的模糊性：一个固有的不适定问题。受此缺点的启发，我们提出学习以相应的2D姿态为条件的生成3D姿态模型据我们所知，我们是第一个采用深度条件变分自动编码器[32]（简称CVAE）进行2D到3D生成人体姿势建模的人，并证明了其优于基于直接回归的方法。我们还表明，我们的生成2D到3D模块可以大部分工作是作者在孟买印度理工学院完成的。23263D3D3D3D在一个单独的MoCap数据集上训练，该数据集与评估图像到3D数据集没有任何交集，并且仍然表现得相当好。因此，我们的模块化方法解决了在现实世界中获得图像的3D姿态注释的不可行性（或高成本），并且与单独收集的现实世界图像和室内运动捕捉数据的2D姿态注释一起工作得很好[43]。我们管道是描绘在图 1.一、第一、的深度卷积网络骨干的2DPoseNet头C从单目RGB图像I估计2D姿态P=2D 。估计的2D姿态P=2D 和从先验分布p（ z ） = N （ 0 ， 1 ）采样的潜在码 z 被馈送到MultiPoseNetCVAE的解码器，以采样3D[27]，使用3D mocap数据[7]预训练的一组3D形状基础，用于通过优化重投影误差来学习人类3D姿态的稀疏表示。[47]通过凸松弛扩展了它，以解决该方案中的初始化问题。解剖学约束，以正则化的预测姿态w.r.t.在[40]中引入了肢体长度。进一步使用关节角度限制和学习姿势先验形式的解剖学约束，[27][28][29][29]在[20]中，使用欧几里得关节间距离矩阵来表示具有多维缩放的2D和3D姿态，以从预测的3D距离矩阵获得3D姿态。一些方法[3]通过拟合3D统计模型[18]来估计3D姿态和形状，波塞. 多个样本，zk∈ {z1，z2。. . zK}，从2D姿势和利用相互穿透约束。不同-p（z）产生3D姿态样本的不同集合，：k∈{1，2，. . . K}}，与P2D一致。然后，我们对编码在从C的Or dinalNet头获得的估计关节-序数关系矩阵M中的身体关节进行成对深度排序，以获得得分{f（Pk）：k∈{1，2. . . K}}的元素。这些分数终于馈送到Softmax算子以获得概率分布在S上，反映3D姿态样本与预测的顺序关系的一致性。最终的3D姿态P3D被计算为该分布的期望更多-此外，为了估计我们的生成模型的上限性能，我们还报告了精确度w.r.t.样本P_0_r_c_e，其是与地面真实3D姿态P_3D最接近的匹配。Oracle上限优于所有现有的最先进的方法，而不利用最近引入的有序数据集，时间信息或多阶段架构的端到端训练。这一观察结果支持了我们基于CVAE的2D到3D提升生成模型的优势。我们的贡献摘要如下-• 我们通过学习一个深度生成模型来解决提升2D到3D人体姿势的固有不适定问题，该模型综合了各种3D姿势样本，估计的2D姿势。• 我们首次采用CVAE进行三维人体姿态估计。• 我们从RGB导出联合序数深度关系成像并使用它们对3D姿态样本进行排序。• 我们表明，从我们提出的生成模型获得的基于预言机的姿势样本达到了状态-在两个基准数据集上的最新结果，Hu-man 3. 6 M[11]和Human-Eva [29]。• 我们的表现甚至超过了基线，当我们的2D到3D模块在一个单独的没有图像MoCap数据集。2. 相关工作提升2D到3D我们的方法属于从估计的2D姿态获得3D姿态的大量工作在从所有以前的方法中，我们采用CVAE来隐式地学习解剖约束和采样3D姿态候选者。[13]中的方法建立在[3]的框架上，以描述使用重新投影和对抗性损失来估计形状、潜在的3D姿态和相机参数的模型，其可以用2D姿态数据集和未配对的MoCap数据集来训练。在[19]中，提出了一个基线模型，该模型使用一个简单的全连接线性网络来完成这项任务，其性能令人惊讶地优于过去的方法。与这些从给定的2D姿态预测仅一个3D姿态的判别方法不同，我们生成3D姿态的多样化样本集假设生成一些先前的方法经由几何学对多个3D姿势进行[17]中的工作在人类图像的学习潜在嵌入中找到最近的邻居来估计3D姿态。[16]和[31]中的方法分别使用3D关节的“运动学翻转”来枚举3D姿态来自[30]的贝叶斯框架采用潜变量生成模型和一组基于HOG的2D部件检测器，并使用进化算法进行推理。最近，[5]使用最近邻搜索检索3D姿态[12]使用[1]的姿势先验模型从种子3D姿势生成多个假设，而[39]使用不同尺度的“骨架图”回归3D姿势假设。与以前的方法不同，我们的基于CVAE的生成模型隐式地学习以输入2D姿势为条件的解剖学上一致的姿势先验。它提供了一组候选3D姿态的有效采样，而不需要昂贵的MCMC或图形模型推理或现有的MoCap库。此外，它不需要额外的图像特征或结构线索。与我们的方法最接近的是采用生成模型进行手部姿势估计的现有技术。在[33]中，在不同模态（RGB、深度、2D姿势和3D姿势）的手部姿势样本之间假定一对一的对应关系，不幸的是，这种2D和3D姿态之间的转换忽略了固有的ambi，23273D在2D到3D提升中，我们通过基于CVAE的概率框架明确地解决了它。[4]中的工作从深度图生成多个手部姿势，以解决由于输入深度图中的遮挡/缺失值而导致的预测不确定性，并使用最大预期效用（MEU）从生成的样本中获得逐点预测。我们使用CVAE生成，并采用几何启发的序数评分来评分和合并多个样本。[38]学习从深度图到3D姿态的概率映射，以利用未标记的数据，这不是可证明的不适定的。然而，我们采用CVAE启发的概率框架来解决2D到3D姿态提升的可证明的不适定性质。顺序关系之前已经探索了顺序关系来估计深度[48，6]和反射率[44，21]。最近，[24]和[28]通过对违反顺序深度约束的行为施加惩罚，使用具有顺序注释的2D数据集作为单眼3D姿态估计的弱监督我们的有序预测网络在精神上类似于[26]，其使用以HOG特征为条件的结构SVM来预测捕获定性属性的姿势位，以促进3D姿势预测和图像检索。与[26]不同，我们利用深度网络来联合预测2D姿势和深度序数，并生成一组不同与我们的工作同时，[41]还预测深度排名，并从2D姿势回归3D姿势，并在粗到细的网络中进行深度排名。我们在预测序数作为空间地图的制定方面有所不同，这些空间地图与2D姿势协同定位。3. 该方法在本节中，我们将描述所提出的方法。秒3.1讨论了2DPoseNet从输入RGB图像获得2D姿态，3.2描述了我们的新颖MultiPoseNet，用于生成以估计的2D姿态为条件的多个3D姿态样本。节中3.3中，我们讨论了OrdinalNet，以从图像和估计的2D姿态中获得联合序关系最后，第3.4和3.5描述了我们从生成的样本中预测最终3D姿态的策略：（a）通过对生成的样本进行评分，图2：训练中的MultiPoseNet架构。注意：在GSNN中，我们对z<$N（0，I）进行采样，只需要解码器。3.2. MultiPoseNet：从2D到多个3D姿势最近，变分自动编码器和生成式广告网络在密度估计和合成样本生成方面表现出了巨大的成功。具体而言，CVAE可以生成以输入变量为条件的真实样本，这非常适合多模态回归映射[32]。因此，我们将[19]中的基线回归模型扩展到CVAE中，以解决2D到3D姿态映射的固有多模态问题，并对准确且多样化的3D姿态候选集进行S={P∈k：k∈{1，2，. . . 以估计为条件匹配的2D姿态P=2D。我们观察到S具有不同的解剖学上合理的样本，并包含与真正的地面实况P3DMul- tiPoseNet的详细架构如图2所示。训练3D姿态生成CVAE [32]包括• 识别网络或编码器：Enc（P3D，P2D），其对输入3D姿态P3D和条件P2D 进行操作，以输出后验 q（z）的平均和对角方差。|P3D，P2D）。• 解码器：Dec（z，P2D），它重建了通过将从后验q（z）采样的潜在z样本作为输入，|P3D，P2D）和条件二维位姿P2D.在培训过程中，我们优化了以下内容：使用序数关系集，称为OrdinalScore，以及（b）使用可进入LCV AE =λ1KL（q（z）|P3D，P-2D）||p（z|P-2D））（1）地面实况3D姿态，称为OracleScore。+λ2E zq（z|P-3D、P-2D）||P3D -Dec（z，P2D2）||二、3.1. 2DPoseNet：图像我们使用具有两个堆栈的堆栈沙漏模型[22]作为我们的主干C。2DPoseNet头将1x1卷积应用于中间特征表示，以回归每个关节的热图（目标位置处的高斯凸起）。阳离子），使用A r gmax运算符从其获得像素坐标中的预测的2D姿态，P=2D。其中先验分布p（z|假设P= 2（D））为N（0，I），KL（x||y）是Kullback-Leibler散度，λ s用作超参数来加权损失。的在第二项中对重构损失的期望值是在K个训练样本上取得的。在推理时，Encoder网络被丢弃，z从先验p（z）<$N（0，I）中提取，这导致预测和训练23283D3D3D3D3D3D3D管道。为了补救这一点，我们将编码器设置为等于giv en3D-姿态和g（P）ij表示序数关系先验网络p（z）<$N（0，I），这导致高斯随机神经网络框架，或GSNN，提出接头i和j。所获得的采样3D姿势的分数集合[32]。结合这两种方法我们得到了一个混合训练对象-根据图像，F={f（P 0本节讨论对拟议办法的实证评价。首先，我们描述的基准，我们采用定量评估，并提供了一些重要的实施细节，我们的方法。然后，我们提出了定量的结果，并比较我们的方法与国家的最先进的，并提供消融研究，分析我们的生成模型的性能。4.1. 数据集Mij=2：Di−Dj<03 ：Di−Dj0我们使用以下数据集来训练我们的管道的各种模块：3.4. OrdinalScore：评分和聚合生成的3D样本到目前为止，我们已经生成了一组不同的估计3D姿态从P-2D只有。然后，我们从以下事实中寻求最大化：在具有con-vector的正交摄像机投影下，关键点之间的恒定骨骼长度约束2D姿态和关节顺序关系几乎可以解析真实的3D姿态[36]。估计的有序矩阵M*用于分配每个样本的得分P，则为S的函数。问题：23293DCMU Mocap运动捕捉数据集由不同的3D姿势组成，144个不同的主体执行不同的动作。我们获得2D投影从三维骨架使用虚拟相机从多个视图，与假设的内在参数。我们使用获得的2D到3D姿势数据来训练MultiPoseNet和[19]的基线模型，用于在未配对设置下进行实验，而 2DPoseNet 和 OrdinalNet 在Human3.6M上进行训练。因此，我们有效地训练我们的网络，而不使用任何图像到3D地面实况数据。Σf（Pk）=（M）==g（Pk））（4）Human3.6M数据集包含360万个3D姿势。它3Diji，j三维ij由5名女性和6名男性受试者的视频和MoCap数据组成，从4个不同的角度拍摄，其中1（条件）是指示函数，其中g（Pk）是计算16×16有序矩阵的函数，正在进行常见的活动（打电话、走路、打招呼、吃饭等）。2330HumanEva-I是一个小型数据集，包含3个受试者（S1、S2、S3），具有3个摄像机视图，并且比Hu-man 3. 6M的动作更少。这是用于3D姿态估计的标准数据集，用于在以前的作品中进行基准测试。4.2. 实现细节数据预处理：我们在输入的RGB图像I中对人物进行了224×224的裁剪，使用了地面实况边界框。在[19]之后，我们处理3D-在相机坐标中的姿态，并通过减去平均值并除以标准偏差来对2D姿态输入和3D姿态输出应用标准归一化，并围绕髋关节对3D姿态进行零中心化对于Human3.6M和HumanEva-I，2D姿态包含N = 16，3D姿态分别包含N=17和N=16个关节。2DPoseNet：我们使用在MPII [2]上预训练的公共Stacked-Hourglass作为主干C和2DPoseNet，并在Human3.6M和HumanEva-I上进行微调，遵循[19]。MultiPoseNet：其架构基于[ 19 ]中的基线模型（补充材料中的详细信息）。在训练时，Eq. 使用Ktrain=10个样本估计1。λ1、λ2和α分别设置为10、100和0.5该网络使用Adam [14]训练了200个epoch，开始时学习率为2.5e-4，指数衰减，小批量大小为256。在测试时间，我们生成K测试=200个3D姿态候选以得到多样的样本集S。MultiPoseNet在Titan 1080ti GPU上训练需要10个小时OrdinalNet：我们在微调后冻结主干C和2DPoseNet的权重，并使用标准L2 Loss使用地面真实序数映射训练OrdinalNet 模块 60 个 epochOrdinalNet 在 Titan 1080tiGPU上训练需要12个小时。使用交叉验证获得温度T，并将其设置为0. 9用于地面真值序数，0. 3用于预测序数。在实践中，OrdinalNet可以-PREDOrdinals：使用OrdinalScore策略和OrdinalNet预测的序数关系。GT Ordinals：使用OrdinalScore策略和地面真值序数关系。Oracle：使用Oracle进行最终预测，这会给出最佳结果。4.3.1对Human3.6M的评价根据文献，我们使用两个标准协议来训练和评估我们的结果。方案-1：训练集由5名受试者（S1、S5、S6、S7 、 S8 ）组成，而测试集包括 2 名受试者（ S9 、S11）。原始的50 FPS帧速率被下采样到10 FPS，并且对来自所有4个相机和所有试验的序列进行评估报告的误差度量是每关节位置平均误差（MPJPE），即，从估计的Euclidean距离3D姿态，P-3D，地面实况，P-3D，平均超过17人体3.6M骨骼模型的关节。方案2：子样本S1、S5、S6、S7、S8和S9用于培训，S11用于测试。使用的误差度量是Procrustes Aligned MPJPE（PA MPJPE），其是在以下条件下计算的MPJPE：将预测的姿态与地面实况严格对准。表1和表2显示了我们对方案-1和2的结果。方案2。在配对设置中，我们训练每个模块，即 2DPoseNet 、 OrdinalNet 和 Multi-PoseNet，使用来自Human3.6M的成对图像到3D姿态注释。在此设置下，我们使用PRED序数进行评分来实现竞争结果GT Ordi- nals的使用使我们接近最先进的水平。我们只对使用额外的有序训练数据[24]，时间信息[8，10]和/或soft-argmax的方法更差[35]（用 *s表示），所有这些都与我们的方法兼容，并有望进一步提高性能最后，我们优于所有现有的方法使用Oracle监督。虽然这时间预测矛盾关系，即Mij穆吉，穆吉说明我们的CVAE生成的样本集包含candi-3;我们通过设置M的对角线项来解决它至3日期姿势非常接近地面实况姿势，因此并屏蔽掉其中M∈ij的元素在得分过程中，验证我们基于样本生成的方法。请注意，对于Human3.6M，3D姿态中的外部关节的顺序关系未被等式110中的评分函数考虑。4.第一章我们的流水线的不同模块的运行时间是-OrdinalNet：20 ms/image，MultiPoseNet：0.5ms/样本，我们取200个样本/图像进行推理。整个管道在商品显卡上以10fps的速度运行，这比其他实时方法略差4.3. 定量评价在本小节中，我们报告了我们的模型的结果，并将其与Human3.6M和HumanEva-I数据集上的现有技术进行了我们报告了三个评估指标来证明我们方法的好处：无配对3D监控：我们流水线的模块化特性使我们能够训练2D到3D提升模块在一个单独的 MoCap 库上，该库与 2DPoseNet ，OrdinalNet的训练图像没有交集。它提供了训练我们的管道，而无需昂贵和费力地获取成对的图像到3D注释。我们通过在 CMU MoCap 数据集上训练MultiPoseNet来证明这一点，该数据集仅由3D MoCap数据组成，并在Human3.6M的测试集上报告结果。请注意，MoCap数据集仅用于训练，而不是用于测试。来自CMU MoCap的3D姿态被虚拟地投影到其对应的2D 投影，其中相机位于原点和骨盆处，距离为5500mm。我们使用Human3.6M的固有相机参数，2331方案1直接.讨论吃迎接电话照片构成采购坐SitingD烟雾等WalkD走步行AvgPavlakos等人 [25日]67.471.966.769.172.077.065.068.383.796.571.765.874.959.163.271.9Zhou等人 [45个]54.8260.7058.2271.462.065.553.855.675.2111.664.166.051.463.255.364.9Martinez等人 [19个]51.856.258.159.069.578.455.258.174.094.662.359.165.149.552.462.9Sun等人 [34个]52.854.854.254.361.867.253.153.671.786.761.553.461.647.153.459.1Fang等 [9]第一章50.154.357.057.166.673.353.455.772.888.660.357.762.747.550.660.4*Pavlakos等人 [24日]48.554.454.452.059.465.349.952.965.871.156.652.960.944.747.856.2**Hossain等人-[10]44.246.752.349.359.959.447.546.259.965.655.850.452.343.545.151.9对**Dabral等人-[8]44.850.444.749.052.961.443.545.563.187.351.748.537.652.241.952.1*Sun等人 [35]第三十五届47.547.749.550.251.443.846.458.965.749.455.847.838.949.043.849.6我们的（PRED序数）48.6五十四554.255. 762. 6七十二050.5五十四3七十078岁3五十八155. 461岁4四十五2四十九7五十八0我们的（GT序数）四十二9四十八1四十七850块2 五十六1六十五044. 9四十八661岁869岁。952岁650块4 五十六0四十二1四十五152岁1我们的（Oracle）三十七8四十三2四十三044. 3 51岁1五十七039岁7四十三0五十六3六十四0四十八1四十五450块4三十七939岁9四十六岁。8Martinez等人 [19个]109 9112103 8一百一十五3119 3119 3114一百一十六6118. 9127 3一百一十二21198一百一十三41198111. 9一百一十五6我们的（PRED序数）九十九。9102.7979一百零五9一百一十二0111. 71039109 4111。71194104. 8一百一十8103 2一百零六9一百零二3106. 8取消配对97 .我的超次元帝国九千一百。595. 4103 7109 4一百零八5一百零二0一百零八0107。9一百一十五4102. 2一百零八9一百块8一百零五8一百块8104. 492.第92章大结局694。 690.698. 41038103 3 .第三章。6九十六。6101 8101. 7一百零八 896. 6一百零二7九十五3一百块6九十六。一百九十八。9表1：方案1下Human3.6M的详细结果（后处理中无刚性对齐）。误差单位为毫米（mm）。顶部：配对方法（PAIR），底部：非配对方法（UNPAIR）。[19]在非配对环境中的结果是使用其公开可用的代码获得的。* - 使用来自MPII和LSP的额外有序训练数据。** -使用时间信息。* -使用soft-argmax进行端到端训练。这些战略与我们的方法相辅相成。取消配对表2：方案2下的Human3.6M的详细结果（后处理中的刚性对齐顶部：配对方法（PAIR），底部：非配对方法（UNPAIR）。[19]在非配对环境中的结果是使用其公开可用的代码获得的。更接近Human3.6M测试集的2D投影分布我们还将3D姿态旋转90度、180度和270度，以进行数据增强。获得的2D到3D姿态数据集用于训练基线模型[19]和Mul-tiPoseNet 。估计的2D姿态和序数是从2DPoseNet 和OrdinalNet中获得的，这两个网络都是在Human3.6M上训练的。我们强调Human3.6M仅用于学习2D姿势和序数估计，因此，我们在训练期间不使用任何图像到3D的注释。由于两个不同的源用于图像到2D/序数和2D到3D模块，我们称之为不成对设置。这些实验的结果在表1和表2的底行中报告。我们的PRED基于序数的方法优于基线回归模型[19]和使用GT或-协议2直接.讨论吃迎接电话照片构成采购坐SitingD烟雾等WalkD走步行AvgZhou等人 [45个]47.948.852.755.056.849.045.560.881.153.765.551.650.454.855.955.3Pavlakos等人 [25日]47.550.548.349.350.755.246.148.061.178.151.148.352.941.546.451.9Martinez等人 [19个]39.543.246.447.051.056.041.440.656.569.449.245.049.538.043.147.7Fang等 [9]第一章38.241.743.844.948.555.340.238.254.564.447.244.347.336.741.745.7对Sun等人 [34个]42.144.345.045.451.553.043.241.359.373.351.044.048.038.344.848.3*Pavlakos等人 [24日]34.739.841.838.642.547.538.036.650.756.842.639.643.932.136.541.8**Hossain等人-[10]36.937.942.840.346.846.737.736.548.952.645.639.643.535.238.542.0**Dabral等人-[8]28.030.739.134.437.144.828.931.239.360.639.331.125.337.828.436.3*Sun等人 [35]第三十五届---------------40.6我们的（PRED序数）三十五3三十五9四十五8四十二0四十9 52岁6 三十六9三十五8四十三551岁944. 3三十八岁。8四十五529岁4三十四3四十9我们的（GT序数）31岁331岁039岁3三十七037.247.832.532.139.847.340.034.741.827.531岁0三十六7我们的（Oracle）27.627.534.932.333.342.728.728.036.142.736.030.737.624.327.132.72332Dinals和Oracle的性能只会增加。这表明我们的框架可以在没有图像到3D注释的情况下学习，并且对域转移也是鲁棒的。4.3.2HumanEva-I的评价根据[15]的协议，我们在HumanEva-I上评估了我们的模型。训练使用受试者S1、S2、S3在不同视点和动作序列慢跑和步行下进行，而测试是在所有三个受试者的验证序列上进行的，作为测试数据。所有模块均使用HumanEva-I进行训练。模型误差报告为刚性变换后的重建误差。我们使用Oracle估计值获得了最先进的结果，并使用HumanEva-I上的PRED Ordinals和GT Ordinals获得了接近最先进的结果，如表3所示。2333(a) Oracle vs OrdinalScore vs MEAN（b）MultiPoseNet vs基线抽样图3：消融研究。(a)增加样本数量对Oracle、OrdinalScore和MEAN 估计的影响（b）使用Oracle监督比较MultiPoseNet与基线抽样。图4：人类3.6M测试集的样本多样性。从左到右：输入图像，平均姿势，每个关节周围的每个关节的标准偏差，以及3个不同的样本覆盖在平均姿势的顶部。MEAN为实线，SAMPLE为虚线，位移场位于两者之间。请注意，手腕和肘部显示最大方差。最佳的彩色观看与缩放。4.4. OrdinalNet准确度OrdinalNet精度通过比较地面实况序数sM和预测序数M获得。Human3.6M和HumanEva-I验证集的结果分别为86.8%和81%。4.5. 消融研究增加样本集大小的影响：在图3a中，我们绘制了Human3.6协议-1上不同误差估计值随样本数量增加的值。MEAN去注释所有样本的均匀平均值。我们观察到，平均值随着样本数量的增加而提高，但饱和度-率很快。Oracle性能随着样本数量的增加而不断提高，这验证了获得接近地面实况姿态的机会随着样本数量的增加而增加的直觉。因此，使用PRED Ordinals或GT Ordinals估计的3D姿态随着更多的样本而保持改进，如从它们各自的曲线中明显的。这表明，提出的顺序评分是一种有效的策略，加权平均生成的样本。采样基线：在这里，我们比较了基线采样策略与基于CVAE的生成采样策略。基线采样将每个关节位置视为内相关高斯分布，平均值为外2334图5：来自MultiPoseNet和基线的样本（使用方差为100）使用ISOMAP映射到欧几里得空间[37]。请注意，MultiPoseNet会产生更多样化的样本，这些样本可能靠近GT姿势。慢跑散步S1S2S3S1S2S3AvgKostrikov等人[第十五条]44.030.941.757.235.033.340.3Yasin等人 [四十三]35.832.441.646.641.435.438.9Moreno-Noguer等人 [20个]19.713.024.939.720.021.026.9Pavlakos等人 [25日]22.121.929.029.823.626.025.5Martinez等人 [19个]19.717.446.826.918.218.624.6我们的（PRED序数）19.312.541.840.922.118.625.9我们的（GT序数）19.112.441.540.621.918.525.7我们的（Oracle）17.411.039.538.520.116.723.9表3：我们的模型在HumanEva-I数据集上的结果以及与以前工作的比较。报告的数字是刚性变换后计算的平均重建误差（mm）基线回归模型的投入[19]和{1，5，10，20，100，400}。每个关节位置被独立地采样以获得 3D姿态。 Oracle 监督用于基线采样和MultiPoseNet采样以获得最终的3D姿态。图3b显示了随着样本数量的增加，MultiPoseNet与Human3.6的Protocol-1上的基线采样的比较很随着样本变得更加荒谬，它也开始恶化，具有400 mm的更高方差另一方面，MultiPoseNet将其估计值提高了近20 mm，曲线的斜率表明，通过采样更多，可能会获得进一步的收益。4.6. 样本多样性定性分析：为了评估所提出的方法从给定的2D姿态生成多样化的合理3D姿态候选集的可行性，我们在图4中示出了来自Human3.6M测试集的两个不同图像的平均姿态、每个关节的标准偏差和一些候选3D姿态。我们观察到不同的有意义的变化-不同的身体部位和姿势，在最难预测的手腕和肘关节周围具有相对较高的变化。使用简化的可视化：为了可视化生成的候选3D姿态的分布，我们使用Isomap [ 37 ]将来自MultiPoseNet和基线采样（方差为100）的样本映射到欧几里得空间。图5示出了针对两个不同的输入2D姿态使用Multi-PoseNet和基线采样两者的1000个样本，以及MultiPoseNet的地面实况3D姿态和MEAN估计。有趣的是，来自Baseline的样本仅聚集在MEAN周围，而MultiPoseNet样本是多样的，更有可能靠近GT 3D姿势。5. 结论和未来工作这篇文章提出了一种用于单粒子3D姿态估计的新框架，该框架使用条件变分自动编码器对3D姿态候选进行采样，这些候选使用从深度CNN预测的顺序关系进行评分和加权平均。所提出的方法在使用OrdinalScore的两个基准数据集上实现了接近最先进的结果，并且使用可访问地面真实3D姿态的Oracle实现了最先进的结果。CVAE已经被示出为学习生成模型，该生成模型合成与输入2D姿态一致的各种3D姿态样本，从而处理从2D提升到3D中的模糊性它也可以在没有配对图像到3D注释的情况下进行训练，并且仍然可以产生有竞争力的结果。6. 确认这项研究的部分资金来自印度的梅赛德斯-奔驰研究与开发公司。我们也感谢Bernt Schiele对手稿提供了宝贵的反馈。2335引用[1] Ijaz Akhter和Michael J Black。三维人体姿态重建的姿态条件关节角度限制CVPR，2015。一、二[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。5[3] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl：由单一影像自动估计三维人体位姿与形状。在ECCV，2016年。一、二[4] Diane Bouchacourt ， M Pawan Kumar ， and SebastianNowozin. Disco nets：Dissimilarity coefficient networks。InNeurIPS，2016. 3[5] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。在CVPR，2017年。2[6] 陈伟峰，赵甫，杨大伟，邓佳。在野外的单一图像深度感知。在NIPS，2016年。3[7] CMU。卡内基梅隆大学图形实验室-运动捕捉图书馆，2014年。http://mocap.cs.cmu.edu/。 2[8] Rishabh Dabral、 Anurag Mundhada 、 Uday Kusupati、Safeer Afaque、Abhishek Sharma和Arjun Jain。从结构和运动学习三维人体姿势。在ECCV，2018。一、五、六[9] 方浩树，徐元路，王文冠，刘晓柏，朱松春。学习位姿文法编码人体构形以进行 3d位姿估测。在AAAI，2018。6[10] Mir Rayat Imtiaz Hossain和James J Little。利用时

下载后可阅读完整内容，剩余1页未读，立即下载