人体动作视频的归一化姿态特征

100 浏览量更新于2023-10-13 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

115211 23用于人体动作视频对齐的归一化人体姿态特征刘静媛1史明义2陈启峰1付洪波3戴洁兰11香港科技大学2香港大学3香港城市大学{jliucb，cqf，taicl}@ cse.ust.hkhongbofu@cityu.edu.hkmyshi@cs.hku.hk图1. 我们建议规范化的视频帧中的人体姿势计算姿势相似性。具有不同人体测量（b）的人在执行相同姿势（a）时导致关节位置的差异，但是他们的关节旋转是相似的。在（a）和（b）中由不同主体执行的相同姿势可以由相同的归一化姿势（c）表示以仅保留姿势信息。摘要我们提出了一种新的方法，从人体动作视频中提取人体姿态特征。我们的目标是让姿态特征只捕捉动作的姿态，而不受其他因素的影响，包括视频背景，视频主体这样的人类姿势特征促进姿势相似性的比较，并且可以用于下游任务，诸如人类动作视频对准和姿势检索。我们的方法的关键是首先通过将姿势映射到预定义的3D骨架上来正常化视频帧中的姿势，以不仅解开主体物理特征（诸如骨骼长度和比率），而且统一姿势的全局取向。然后将归一化的姿势映射到经由无监督度量学习学习的高级特征我们通过可视化定性地评估我们的归一化特征的有效性，并通过Human3.6M数据集上的视频对齐任务和Penn Action数据集上的动作识别任务定量地评估1. 介绍视频对齐旨在找到一对视频之间的密集时间在两个自然的人类动作视频之间寻找比对尤其具有挑战性。由于要对齐的两个视频在许多因素中可能具有很大的变化，例如视频主体的比例和取向、相机视点、动作速度和取向等。对这些变化稳健的特征在找到比对中是期望的。人类动作视频对准问题的常见方法是首先估计2D或3D人类动作视频对准。从两个输入视频中提取人的姿势，然后通过与从关节位置[48，11]中提取的特征匹配来找到对齐，从而减少视频背景和主体然而，人类姿势在比例、骨长度比、取向等方面仍然包含大的变化。由于现有的3D姿态估计方法[28，37]在相机坐标系中恢复3D姿态，因此相对于根关节的关节位置取决于视点（如补充材料中的玩具示例所示）。当地面真实3D姿态不可用时，通过Procrustes对准的全局方向归一化难以应用于除了视点之外，通过现有的3D姿态估计方法计算的关节位置还取决于视频对象这种人体测量变化将导致距离测量的差异（例如，L2距离），即使当视频中的对象执行完全相同的姿势时，如图1所示。11522考虑到使用基于关节位置的姿态表示进行视频对准的上述限制执行相同姿势的两个受试者的姿势应当具有相同的关节角度或关节旋转，但是由于相对骨长度的差异而可能产生关节位置的差异，如图1所示。另外，物理连接的关节的相对关节角度或旋转在相机之间是一致的并且对于视点是不变的。因此，提取用于比较的主体和场景不变特征的关键是提取关于关节角度表示而不是基于关节位置的表示的特征。乍一看，一个简单的解决方案可能是从关节位置计算关节角度，并使用原始关节角度[10]或其聚合[35，52]作为匹配的特征。然而，关节角度特征由于丢失骨架的关系上下文而遭受信息损失，这在捕获姿势区分方面具有已关节旋转也具有限制，因为直接从2D姿势回归3D关节旋转或通过逆运动学（IK）从3D姿势计算关节旋转是不适定问题，其中多个可能的关节旋转集合可以映射到相同的关节位置集合[17，53]。即使现有的工作已经尝试添加运动学约束以减少IK模糊性[17，46]，使用从关节位置计算的关节旋转直接在关节旋转空间中比较姿势相似性仍然是不切实际的[57]。为了解决基于位置和基于角度的姿势表示中的限制，我们提出使用归一化的人类姿势，中间姿势表示，其反映关于关节旋转的姿势信息，并且由关节位置参数化以保留身体配置的相关背景，如图1（c）所示。这种归一化的姿态表示被最近的工作所启发，这些工作使用关节旋转作为用于运动重建[45]和姿态序列生成[53，38]的姿态参数化。它们在神经网络中结合了一个FK根据关节旋转递归地将骨架中的骨骼从根关节旋转到叶关节，从而产生可以由地面真实关节位置监督的关节位置我们采用FK层来执行姿势归一化。我们的归一化姿态表示保留了视频帧中主体的关节旋转，使得它捕获姿态信息并且对于与视频中的原始场景和主体相关的所有其他因素是不变的;并且通过预定义骨架的关节位置来参数化，以减少比较姿态相似性时的模糊性。图2. 我们提出的方法的管道。(a)姿势归一化：将每个视频帧中的2D姿态映射到3D条件骨架上;（b）姿态嵌入：将3D条件骨架姿态映射到姿态嵌入空间。我们设计了一个神经网络，可以学习在视频中规范化人类姿势。具体而言，姿势归一化网络采用2D姿势并估计关节旋转，然后由FK将其应用于具有统一固定骨骼长度的预定义3D骨架（如[53]中所述称为条件骨架因此，视频中的对象的姿势的关节旋转以这种方式，条件骨架的关节位置的差异仅由关节旋转的差异引起。由于归一化姿势不与地面实况姿势配对进行训练，因此我们的网络采用了循环一致性训练策略（第3.2节）。通过关节旋转，还可以通过指定根关节旋转将姿势轻松统一到相同的全局方向。最后，通过度量学习从归一化的3D姿态中学习姿态特征所得到的姿态特征是高级的人体姿态表示，并且可以通过欧几里德距离直接进行比较。在本文中，我们主要集中在视频对齐任务，但所提出的特征也可以用于其他姿势相似性任务，如姿势检索，动作检测等。实验表明，我们提出的归一化姿态是鲁棒的变化，在视点和主体的人体测量。从标准化姿势学习的姿势特征已经在Human3.6M数据集上的密集对应任务和Penn Action数据集上的动作识别任务上显示出证明的性能。2. 相关工作人体动作视频对齐。近年来，针对诸如动作检测之类的许多视频分析任务，已经积极地探索了人类动作视频的对齐在不受约束的视频[16]中，从11523未校准的多视图视频[11]、动作同步[12]、少镜头视频分类[6]等。由于不存在具有逐帧标记的对准的大规模数据集例如，Dwibedi et al.[12]采用循环一致性学习来最大化视频之间的对应帧的数量; Ser-manet等人。[44]利用多视图视频进行跨视图对应; Misra等人。[33]Sumer et al.[47]提出通过惩罚动作子序列的时间顺序的序列验证任务来学习视觉表征。虽然现有的方法设计的时间建模技术，具体到视频对齐来处理视频中的变化，我们的方法的目的是在获得规范化的人类姿势，也可以推广到其他姿势相似性相关的应用。人体姿势参数化。常见的人体姿势参数化是通过关节位置。用于从视频帧或视频帧中回归3D关节位置的方法2D姿态已经在计算机视觉中被广泛研究[28，49，50]。然而，从2D信息回归3D姿态经常由于投影模糊性而遭受伪影为了减少模糊性，可以引入3D铰接式身体模型以提供物理约束。在这种情况下，视频中的姿势通常通过将身体模型的投影拟合人类姿势的另一参数化是通过关节旋转，使得运动学技术可以应用。在旋转参数化中，欧拉角和指数映射会由于其不连续性和奇异性而导致梯度爆炸，因此不适合神经网络[38]。更优化的关节旋转参数化，如四元数[53，45]和6Ds [58]，已在神经网络中采用，以确保连续性。在本文中，我们采用四元数来表示关节旋转，因为它们与主要的动画软件，如Blender和Unity兼容人体姿势特征。视频中的人类姿势或运动的特征（表示）已经被广泛地研究用于下游任务，诸如视频帧检索[48，10]、人类姿势估计[18，9，41]、运动图转变检测[25，2]等。特征[13]不是捕获人类姿势的上下文潜在表示的全面描述。一些作品[34，12]还提出直接从视频帧中学习特征，而不检测身体部位。这些特征提取自一般的视频帧不是为人类动作视频定制的，并且会受到相机运动和背景运动的变化的影响。设计用于人类姿势相关任务的深度神经网络，例如人类姿势估计[41]，姿势合成[40]和运动重定向[1]，捕获网络潜在层中的某些姿势特征。但是这样的潜在表征是特定于任务的，并且它们的距离可能不直接反映姿势相似性。一些现有的作品还提出通过度量学习技术从2D姿势或图像中学习高级人类姿势特征[34，47，48]。请参见下面的深度表示学习。表示学习预测类别内不同实例之间的相对距离，例如人脸[43]，文本[31]，图形[5]，运动[2]以及人类姿势[34，47，48]。与这些姿势嵌入方法相反，这些姿势嵌入方法采用2D姿势[34，48]和视频时间排序[47]的假设来指示姿势相似性，并让神经网络学习覆盖姿势的变化，我们的姿势归一化相当于一个预处理步骤，该预处理步骤明确地排除了数据集实体中的变化，以避免在度量学习中引入假设。已经提出了用于学习相对距离的各种损失。除了常用的对比损失[19，20]和三重损失[43，54]之外，软对比损失[5]和三重比率损失[48]还可以实现对输入不确定性进行建模的概率嵌入，而循环损失[51]可以重新加权相似性以进行更灵活的优化。为了自动定义相似和不相似的实例，还提出了各种挖掘策略，例如半硬三元组挖掘[43]，在线三元组挖掘[21]，批量硬策略[32]等。在本文中，我们还提出了一种用于人类动作视频的自适应三元组采样策略（第3.3节）。3. 方法3.1. 概述图2显示了我们的方法的流水线。输入是使用现成的2D姿态检测器从视频帧中检测到的2D姿态[7，14]。管道包含两个步骤：(1)姿势归一化，其将视频中的主体的姿势映射到3D条件骨架上，使得姿势从视频主体的人体测量中解脱出来3.2. 姿势归一化图3示出了姿势归一化训练流水线。该模型的核心是应用三维关节旋转11524不∈不∈不不不不不不不图3. 我们的姿势标准化模型。(a)网络EQ从输入的2D姿态回归3D关节旋转;（b）重建分支：对源骨架应用关节旋转以进行3D姿态重建以用于训练;（c）周期重建处：在条件骨架上应用关节旋转，然后投影到2D作为循环一致性的输入。从由卷积神经网络EQ计算的输入2D姿态到条件骨架上以归一化姿态（如图3（a）（c）中的灰色数据路径所示）。对于包含T个帧的视频，我们将帧t处的关节η的2D位置表示为XnR2，t= 1，2，…T，n= 1，2，…N，其中N是接头的总数。由EQ从输入2D姿势计算的关节旋转被表示为每个关节的单位四元数αnR4。将FK过程表示为X=FK（s，α），其中骨架s中的骨骼根据一组关节旋转α旋转，从而产生骨架的3D关节位置X为了训练EQ，我们将从2D姿势Xn计算的关节旋转αη应用于两种类型的骨架：条件骨架S，以促进姿势归一化的学习;以及从地面真实3D姿势计算的视频对象的源3D骨架st，以辅助EQ的训练。在下文中，我们描述了用于训练EQ的两个FK分支，即重建分支和循环重建分支。重建处重建分支是如图3（a）（b）中的绿色数据路径所示应用观察到，由于条件骨架具有与视频帧中对象的姿态相同的姿态，其投影应产生与原始输入2D产生的3D关节旋转摆姿势然而，在条件sk eleton上应用旋转αn会导致新的3D姿态X′S，而没有用于监督训练的配对基础因此，我们采用这种循环重新-在一个实施例中，可以使用将3D条件骨架姿势投影到2D姿势中的3D构造，并且然后从投影的2D姿势计算3D关节旋转。具体地说，三维条件的keleton姿态X′S是propose。由地面实况摄像机参数投射到2D姿态xn中，然后将其输入到EQ以计算条件s eleton的投射姿态的联合旋转αn。这些旋转通过FK再次应用于地面真实骨架，从而产生循环重建的3D姿态。这一过程对训练产生了两个限制。联合罗-站一致性损失被计算为来自输入2D姿势和来自投影骨架姿势的关节旋转之间的差异：Ljrc=Σαn−αn2。源3D骨架s上的αn导致重建的3Dt，nttt循环重构损失为：可以直接由地面监控使用重建损失的truth 3D姿势XnL=ΣFK（s，αn）−Xn2。不L= Σ FK（s，αn）− Xn 2。周期t，ntt tRecont，ntt t除了上述损失之外，我们还采用了脚接触损失Lfc，其通常用于3D姿态估计。循环重建分支。循环重建分支由图3中的橙色数据路径表示。循环重构分支的设计基于减少对环境的污染[46]。总损失函数-培训的目的是：L= Lrecon+ Lcycle+β Ljrc+λ Lfc，11525图4. 自适应三元组挖掘：基于主要姿态相似性来确定所述正候选范围和所述负候选范围。其中β、β和λ分别是循环重建损失、关节旋转一致性损失和足部接触损失的权重重建分支和循环重建分支仅用于训练。为了推断，仅回归量EQ用于从要应用到条件骨架上的2D姿势为了统一姿态的全局取向，根关节的四元数被设置为特定的旋转值（在我们的实验中[1，0，0，0]），以便将姿态旋转到相同的取向。3.3. 姿势嵌入在将视频帧中的姿态归一化为统一的骨骼长度和视点之后，我们使用度量学习将姿态映射到姿态嵌入空间以提取高级姿态特征。具体地，我们使用另一个神经网络EP来从归一化的3D姿态中提取特征，并利用三重态损失来训练EP[43]。我们对三种类型的网络进行了实验作为特征提取器，包括全连接[28]，GCN [56]和PointNet [39]，并且根据经验发现全连接的性能优于其他两种替代方案（参见第4.4节中的消融研究）。为了通过度量学习来训练特征提取器，重要的考虑是针对每个锚点3D姿态的正对和负对的定义。关于人类姿势相关度量学习的现有工作通常利用视频中的动作相干性[47，2，44]，并且在锚的固定时间偏移处对正对进行采样然而，由于不同视频中的动作是以各种速度执行的，并且一些姿势在整个动作中是重复的，因此固定的时间偏移可能不能很好地通用于所有视频。因此，我们建议自适应地挖掘视频内的三胞胎。如图4所示，对于视频中的每个帧（锚帧），我们通过测量锚帧和其他帧中的归一化姿态之间的平均每关节位置误差（MPJPE）来计算与所有其他帧的主要相似性。这些主要相似性被线性归一化到[0，1]，使得设置thresh-奥尔德角 ∈ [0，1]将主相似度分为正（[cpl，cpu]）和负（[cnl，cnu]）候选范围，从这些候选范围采样三元组自适应挖掘还促进了课程学习[3]，其中训练从简单的负对开始，并逐渐转向半硬对。三胞胎的难度水平可以通过设置阈值来容易地调节4. 实验我们在Hu-man 3. 6 M数据集[22]的训练集上训练了我们的网络，该数据集提供了地面真实的2D姿态、3D姿态和相机参数。可以根据地面实况3D姿态来计算地面实况源骨架。条件骨骼的骨长度定义为Human3.6M训练集中的平均骨长度更多实施细节请参考补充材料。4.1. 人体测量的稳健性数据集。为了在受试者的人体测量中产生变化，我们用不同的骨架来增强Human3.6M数据集。利用数据集中的原始关节角度和骨骼长度，对于每个视频中的每50帧，我们将原始骨骼长度乘以来自范围[0. 75，1。25]（骨架对称性保留），并按照Human3.6M数据集的原始构建过程计算新的真实2D和3D关节位置。基线。我们实验了三种最先进的方法[28，56，37]，从2D姿势估计3D姿势他们的模型和我们的模型都是使用各自的原始设置（例如：2D和3D姿态的预处理、时期的数量等）指标. 本实验的目的是测量当存在由骨长度变化引起的2D姿态变化时3D姿态的变化。如图5所示，假设x和Δx表示输入2D姿态和2D姿态的变化，y和Δy是相应的输出3D姿态和输出的变化当存在αx时，当αy接近于零时，该模型是鲁棒的.因此，我们将度量定义为在输入2D姿态中具有和不具有骨长度变化的重建3D姿态中的平均误差，表示为ΔMPJPE。图5. 模型的输入和输出变化的说明。我们还根据方案#1报告了MPJPE [49]。基线方法的MPJPE均来自原始文件。我们的方法的MPJPE是通过使用来自Human3.6M测试集的地面真实源骨架上的估计关节旋转来应用FK来计算的。11526方法MPJPE↓∆MPJPE↓马丁内斯[28]45.5058.27SemGCN [56]40.7861.07[37]第三十七话37.2058.40我们52.6153.35表1.姿态重建精度和对人体测量变化的鲁棒性的结果（单位：mm）结果结果示于表1中。 3D姿态估计方法[28，56，37]的MPJPE得分优于我们的重建姿态，部分原因是它们的训练直接受到关节位置误差的监督，而我们的需要满足FK约束。然而，我们的方法中的FK约束有助于区分人体测量的变化与关节旋转的变化，因此我们的方法对人体测量更鲁棒，导致∆MPJPE的最低值。4.2. 对视点为了评估视点中的归一化的有效性，我们将视频帧中的归一化姿态可视化，如图6所示。我们还试验了一种替代视点归一化方法，该方法首先在给定从视频帧检测到的2D姿态的情况下估计3D姿态[28]，然后通过Procrustes对齐将姿态与固定全局方向上的预定义T姿态对齐如图6（c）所示，通过地面实况相机参数转换到世界坐标的然而，当不存在地面实况相机参数时，3D姿态的关节位置取决于视点（图6（d））。应用刚性变换只能粗略地将它们对齐到相同的全局方向（图6（e）），这仍然会对关节位置产生很大影响。相比之下，我们的方法既可以准确地捕获视频帧中的姿态（图6（f）），又可以有效地将姿态变换为统一的取向（图6（g））。4.3. 稠密对应为了评估我们的姿势特征在视频对齐任务中，我们设计了一个实验，寻找人类动作视频对之间的密集对应关系。数据集。据我们所知，不存在具有密集标记的地面实况对应关系的视频的现有数据集，因为这种标记的手动注释将是极其费力的。因此，我们利用Human3.6M测试集中的同步多视图视频来构建合成的对应数据集。对于Human3.6M测试集中的59个动作中的每一个，我们将两个正面视点视频作为一对源视频和目标视频，它们最初在时间上严格对齐。到产生源视频和目标视频之间的长度差，视频中的每个帧以p = 0的概率被随机保留或丢弃。5，同时应用时间滤波器以确保没有五个连续帧被一起丢弃，以确保重构的视频数据集的真实性然后，通过在保留帧的索引上应用动态时间规整（DTW）[4]这些对应关系将被用作密集对应任务中的地面实况。有关数据集构建的更多详细信息，请参阅补充资料。指标. 我们设计的任务是在这个合成的数据集上找到密集的对应关系，如下所示：对于目标视频中的每一帧，基于在每一帧处提取的姿势特征的相似性来检索源视频中的对应帧的索引。在构建的数据集上定义两个评估度量：（a）命中率：具有在地面实况索引的小时间阈值（在我们的实施方式中τ = 5）内索引的检索到的源帧的帧的百分比;（b）均方误差（MSE）：在源视频中在检索的与地面实况对应之间的时间距离上的均方误差。基线。我们比较的基线包括两类：（1）现有的人类姿势特征，诸如来自2D姿势的姿势特征[10，48]、基于SMPL的姿势参数[24]和由网络捕获的潜在表示[56]，以及（2）我们当前方法的其他替代方案，诸如使用来自3D姿势的3D关节位置或角度。除了SMPL [24]需要视频帧作为输入之外，我们比较的所有其他方法都将2D姿势序列作为输入并输出一系列特征。结果结果示于表2中。与来自3D姿势的欧拉角匹配的性能大大优于来自2D姿势的匹配。我们的姿势特征在两个指标方面都优于从2D姿势[48]和基于SMPL的姿势特征中学习的特征。在该实验中，使用归一化姿态的L2距离来表示姿态相似性实现了比使用学习的姿态特征显著更好的性能，因为每对视频记录来自相同对象的姿态，并且因此重构的姿态被认为是相同的。图7示出了在野外视频上的视频密集对应的可视化对于每一对视频，我们选择了源视频中动作的八个代表性关键帧（上排），并通过将DTW与我们的姿势特征一起应用来检索目标视频中对应的关键帧（下排）。即使主体处于不同的外观和取向，检索到的帧在动作的姿势方面与关键帧相对应。11527图6. 姿态归一化结果的可视化。(a)来自Human3.6M测试集的视频帧;（b）世界坐标中的地面实况3D姿态;（c）Martinez [28]在世界坐标中估计的3D姿态;（d）相机坐标中的3D关节位置;（e）通过Procrustes对准将相机坐标中的3D姿态与预定义的T姿态统一;（f）通过我们的方法的3D条件骨架姿态;（g）在统一的全局取向下的我们的归一化3D姿态。图7. 在跑步（a）和举重（b）视频上的密集对应的可视化。4.4. 消融研究我们在我们的密集对应数据集上进行了消融实验，以验证单个系统组件的重要性和我们的选择，如表3所示。我们比较了三种类型的神经网络用于姿势嵌入（我们的管道的第二步），包括全连接层[28]，全局特征的PointNet [39]和图卷积网络[56]，以确定哪个最好地捕获姿势特征。我们已经发现，当使用全连接层作为编码器网络时，性能优于其他两种。我们还测试了替代配置，包括（1）联合训练EQ和EP;（2）添加时间卷积模块，从小时间窗口提取包括运动的11528方法Top-1（%）↑ Top-5（%）↑欧拉+2D姿势[10]52.5379.77[28]第二十八话50.3774.34[40]第四十话74.4887.55TCC [12]15.0743.82EnGAN [26]53.1868.91[56]第五十六话49.3472.19标准化姿势（NormalizedPoses）54.1275.19我们的（姿势特征）75.6688.58表2. 命中率和均方误差对寻找致密核响应任务。模型命中率（%）↑ MSE↓SemGCN61.0515.9751PointNet68.9613.8574FC联合训练74.9525.7612.710630.9361时间窗44.8125.8550无归一化53.6917.6033无自适应挖掘41.9228.7598表3.密集对应任务的消融研究特征而不是单个姿势;（3）在没有归一化的情况下从Procrustes对齐的3D姿态学习特征，以及(4)使用固定大小的时间窗口进行三元组挖掘。所有这些替代方案导致比我们当前配置差的性能4.5. 动作识别为了验证我们提出的姿势特征在其他人类动作视频分析任务中的工作情况，我们通过匹配对无监督人类动作识别任务进行了实验[16]。由于姿态特征是逐帧计算的，因此需要时间编码来聚合姿态特征以进一步描述动作。我们采用秩池化[15]作为时间编码器，如[16]中所述。我们在Penn Action数据集上进行了实验[55]。对于数据集中的每个视频，我们首先使用我们的方法或其他基线方法计算每帧特征;然后对特征序列进行秩池编码，得到一个定长向量;最后，通过与训练集中的向量进行K-近邻（k-NN）匹配，使用向量对测试集中的样本进行分类。我们没有在Penn Action数据集上重新训练;相反，我们在具有增强虚拟相机的Human3.6M数据集上重新训练我们的模型[27]，并根据原始实现对输入的2D姿势进行预处理。除了将视频帧作为输入的TCC [12]和将3D姿势作为输入的EnGAN [26]（由[28]计算）之外，所有其他方法都将2D姿势作为输入，因此可以将预训练模型直接应用于Penn表4. Penn Ac数据集。动作数据集。1-NN和5-NN的动作识别精度的结果如表4所示。我们的姿势特征在这项任务上远远优于大多数基线姿势感知特征[40]也实现了与我们相当的性能。它涉及来自相邻帧的姿势，因此也捕获运动特征。虽然姿势感知特征在隐藏层保留了大部分网络输出（每个姿势平均12，672个参数），但我们的特征是一个更紧凑的表示（每个64个参数）。5. 结论和未来工作在本文中，我们提出了一个归一化的人体姿态特征的视频对齐。提出了一种新的姿态归一化方法，从不受视点和物体物理结构影响的视频帧中获得归一化姿态此外，提出了一种自适应的三元组挖掘策略，使度量学习使用的姿势从视频更强大的动作速度。视频密集对应任务和动作识别任务的实验表明，我们提出的特征优于人类姿势特征的国家的最先进的技术。我们目前的方法有一个局限性，因为它从一个完整的归一化姿态提取特征。未来的工作包括建模的归一化姿态与部分observa和tions。值得探索的潜在解决方案是采用具有运动学约束[46，23]的概率建模作为网络中FK层的先验，使得通过满足运动学先验和非缺失关节位置来填充缺失关节位置。我们的方法的另一个限制是它需要训练中的地面真实3D采用弱监督设置，例如使用关节对的顺序深度[36，42]可以在野外数据集上进行训练。确认我们真诚地感谢匿名评论者的深刻意见和建议。方法命中率（%）↑MSE↓欧拉+2D姿势[10]33.2081.20[28]第二十八话66.9216.63[28]第二十八话53.1816.55[56]第五十六话41.8628.34诗歌[48]59.8816.90SMPL [24]69.0413.99标准化姿势（Normalized Poses）94.252.35我们的（姿势特征）74.9512.7111529引用[1] Kfir Aberman ，Rundi Wu ， Dani Lischinski ，BaoquanChen，and Daniel Cohen-Or. 2d中运动重定向的ACMTransactions on Graphics（TOG），38（4）：1-14，2019。3[2] AndreasAristidou ， DanielCohen-Or ， JessicaKHodgins，Yiorgos Chrysanthou，and Ariel Shamir.深刻的图案和运动签名。 ACM Transactions on Graphics（TOG），37（6）：1-13，2018。三、五[3] YoshuaBengio ， Je´ ro meLouradour， RonanCollobert ，andJa-son Weston.课程学习。第26届机器学习国际年会论文集，第41-48页，2009年5[4] 唐纳德·J·伯恩特和詹姆斯·克利福德。使用动态时间扭曲来发现时间序列中的模式。KDD研讨会，第10卷，第359-370页。Seattle，WA，USA：，1994. 6[5] AleksandarBojch e vski和StephanGünnemann。图的深度高斯嵌入：通过排名的无监督归纳学习。在国际会议上学习-ING表示，第1-13页，2018年。3[6] Kaidi Cao ， Jingwei Ji ， Zhangjie Cao ， Chien-YiChang，and Juan Carlos Niebles.通过时间对齐的少镜头视频分类。在 IEEE计算机视觉和模式识别集，第106183[7] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别会议论文集，第7291-7299页，2017年。3[8] 程晨、庄月婷、聂飞平、杨毅、吴飞、萧君。从几何姿势描述符学习3d人体姿势距离度量。IEEE Transactionson Visualization and Computer Graphics ， 17（ 11 ）：1676二、三[9] Xipeng Chen ， Kwan-Yee Lin ， Wentao Liu ， ChenQian，and Liang Lin.用于3d人体姿态估计的几何感知表示的弱监督发现在IEEE计算机视觉和模式识别会议论文集，第10895-10904页，2019年。3[10] Myung Geol Choi，Kyungyong Yang，Takeo Igarashi，Jun Mitani，and Jehee Lee.通过简笔画检索和可视化人体运动数据在Computer Graphics Forum，第31卷，第2057-2065页中Wiley Online Library，2012. 二三六八[11] 董俊廷，帅青，张元庆，刘贤，周晓伟，鲍虎军.来自互联网视频的动作捕捉。欧洲计算机视觉会议，第210Springer，2020年。第1、3条[12] Debidatta Dwibedi，Yusuf Aytar，Jonathan Tompson，Pierre Sermanet，and Andrew Zisserman.时间周期一致性学习。在IEEE计算机视觉和模式识别会议论文集，第1801- 1810页三、八[13] Marcin Eichner，Manuel Marin-Jimenez，Andrew Zisser-man，and Vittorio Ferrari.（几乎）无约束静止图像中的2D铰接人姿态估计和检索。International Journal of Computer Vision，99（2）：190-214，2012。3[14] 方浩树，谢淑琴，戴玉荣，陆策武。区域多人姿态估计。在IEEE计算机视觉国际会议论文集，第2334-2343页，2017年。3[15] Basura Fernando 、 Efstratios Gavves 、 Jose 'Oramas 、Amir Ghodrati和Tinne Tuytelaars。用于动作识别的排名池。IEEE Transactions on Pattern Analysis and MachineIntelligence，39（4）：773-787，2016. 8[16] Basura Fernando，Sareh Shirazi，and Stephen Gould.通过动作匹配的非监督人体动作检测在IEEE计算机视觉和模式识别研讨会会议上，第1-9页二、八[17] 基思·格罗肖，史蒂文·L·马丁，亚伦·赫茨曼，和佐兰·波普。基于样式的反向运动学。在CMSIG中GRAPH 2004论文，第522-531页。2004. 2[18] Ikhsanul Habibie ， Weipeng Xu ， Dushyant Mehta ，Gerard Pons-Moll，and Christian Theobalt.在野外使用显式2d特征和中间3d表示的人体姿态估计。在IEEE计算机视觉和模式识别会议论文集，第109053[19] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习一个不变映射来降低维数. 在 IEEE Computer SocietyConference on Computer Vision and Pattern Recognition，第2卷，第1735-1742页，2006中。3[20] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE计算机视觉和模式识别会议论文集，第9729- 9738页3[21] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失，进行人员重新鉴定。arXiv预印本arXiv：1703.07737，2017。3[22] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6m：大规模数据集和预测方法，用于自然环境中的 3D 人体感知。 IEEETransactionsonPatternAnalysisandMachineIntelligence，36（7）：1325-1339，2014. 5[23] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik。端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议论文集，第7122-7131页，2018年。三、八[24] Muhammed Kocabas 、 Nikos Athanasiou 和 Michael JBlack。Vibe：用于人体姿势和形状估计的视频推理。在IEEE计算机视觉和模式识别会议论文集，第5253-5263页三六八[25] LucasKova r，MichaelGleiche r，andFre'd e'ricPighin. 运动图ACM SIGGRAPH 2008课程，第12008年3[26] Jogendra Nath Kundu ， Maharshi Gor ， Phani KrishnaUppala和R Venkatesh Babu。姿势嵌入流形中人类动作轨迹的无监督特征学习。 arXiv 预印本 arXiv ：1812.02592，2018。811530[27] Lei Li，Siyu Zhu，Hongbo Fu，Ping Tan，and Chiew-Lan Tai.3d点云的端到端学习局部多视图描述符在IEEE计算机视觉和模式识别会议（CVPR），2020年。8[28] Julieta Martinez、Rayat Hossain、Javier Romero和JamesJ Little。一个简单而有效的三维人体姿态估计基线在IEEE国际计算机视觉会议论文集，第2640-2649页，2017年。一、三、五、六、七、八[29] Dushyant Mehta ， Oleksandr Sotnychenko ， FranziskaMueller ， Weipeng Xu ， Mohamed Elgharib ， PascalFua ， Hans-Peter Seidel ， Helge Rhodin ， Gerard Pons-Moll，and Christian Theobalt. Xnect：用一个rgb摄像头实时捕捉ACM Transactions on Graphics（TOG），39（4）：82-1，2020。3[30] DushyantMehta，SrinathSridhar，OleksandrSotnychenko ， Helge Rhodin ， Mohammad Shafiei ，Hans-Peter Seidel ， Weipeng Xu ， Dan Casas ， andChristian Theobalt. Vnect：使用单个rgb摄像头进行实时3d人体姿势估计。2017年第36卷。3[31] Tomas Mikolov，Kai Chen，Greg Corrado，and JeffreyDean.向量空间中词表示的有效估计。arXiv预印本arXiv：1301.3781，2013。3[32] AnastasiaMishchuk，DmytroMishkin，FilipRadenovic，and Jiri Matas.努力了解邻居的婚姻状况：局部描述符学习损失。神经信息处理系统的进展，第4826-4837页，2017年。3[33] Ishan Misra ， C Lawrence Zitnick ， and Martial Hebert.Shuf- fle和学习：使用时序验证的无监督学习。欧洲计算机视觉会议，第527-544页。施普林格，2016年。3[34] Greg Mori、Caroline Pantofaru、Nisarg Kothari、ThomasLe- ung、George Toderici、Alexander Toshev和WeilongYang。姿势嵌入：用于学习匹配人体姿势的深层架构。arXiv预印本arXiv：1507.00302，2015。3[35] 埃谢德·奥恩-巴尔和莫汉·特里维迪用于动作识别的关节角度相似性和hog2。在IEEE计算机视觉和模式识别研讨会会议，第465-470页，2013年。2[36] Georgios Pavlakos，Xiaowei Zhou，and Kostas Daniilidis.三维人体姿态估计的有序深度监督。在IEEE计算机视觉和模式识别会议论文集，第7307-7316页，2018年。8[37] DarioPavllo， ChristophFeichtenhofer， DavidGrangier，and Michael Auli.利用时间卷积和半监督训练的视频中的3D人体姿态估计。在IEEE计算机视

下载后可阅读完整内容，剩余1页未读，立即下载