没有合适的资源?快使用搜索试试~ 我知道了~
132110捕捉运动中的人体:从单目视频中的时间关注3D人体姿势和形状估计0魏文立�,林仁俊�,刘庭禄,廖宏源†0中央研究院信息科学研究所,台湾0图1。通过将运动连续性注意力与分层注意特征集成相结合,所提出的MPS-Net在处理野外视频时可以实现更准确的姿势和形状估计(底部行)。为了比较,还包括了TCMR [6],即最先进的基于视频的3D人体姿势和形状估计方法的结果(顶部行)。0摘要学习捕捉人体动作对于从单目视频中估计3D人体姿势和形状至关重要。然而,现有的方法主要依赖于循环或卷积操作来建模这种时间信息,这限制了捕捉人体动作的非局部上下文关系的能力。为了解决这个问题,我们提出了一种运动姿势和形状网络(MPS-Net),以有效地捕捉运动中的人体,从而从视频中准确地估计3D人体姿势和形状。具体而言,我们首先提出了一种运动连续性注意(MoCA)模块,利用从人体运动中观察到的视觉线索自适应地重新校准需要关注的范围,以更好地捕捉运动连续性依赖关系。然后,我们开发了一种分层注意特征集成(HAFI)模块,以有效地组合相邻的过去和未来特征表示,以增强时间相关性并改进当前帧的特征表示。通过耦合MoCA和HAFI模块,所提出的MPS-Net在视频中估计3D人体姿势和形状方面表现出色。尽管概念上很简单,我们的MPS-Net不仅在3DPW、MPI-INF-3DHP和Human3.6M基准数据集上胜过了最先进的方法,而且使用的网络参数更少。视频演示可以在https://mps-net.github.io/MPS-Net/找到。0* 两位作者对本文贡献相同 †廖宏源也是普罗维登斯大学的特聘教授01. 引言通过拍摄一张简单的照片/视频而不依赖复杂的3D扫描设备或多视角立体算法来估计3D人体姿势和形状,在计算机图形学、增强现实/虚拟现实、物理治疗等领域具有重要应用。一般来说,任务是将单张图像或视频序列作为输入,估计3D人体网格模型的参数作为输出。以SMPL模型为例[24]。对于每个图像,它需要估计85个(包括姿势、形状和相机)参数,这些参数控制着形成人体完整3D网格的6890个顶点[24]。尽管在3D人体姿势和形状估计方面取得了一些进展,但由于深度模糊、有限的3D注释和非刚性人体的复杂运动,它仍然是一个前沿挑战[6,17,20,21]。与从单张图像估计3D人体姿势和形状[11,17,21,29,31]不同,从单目视频中估计它是一项更复杂的任务[6,8,18,20,25,34]。它不仅需要估计每个图像的姿势、形状和相机参数,还需要关联序列中人体运动的连续性。尽管现有的基于单张图像的方法可以从静态图像中预测出合理的输出,但由于缺乏对连续帧中人体运动连续性建模的能力,它们很难估计出时间上连贯和平滑的3D人体姿势和形状。为了解决这个问题,最近提出了几种方法将基于单张图像的方法扩展到视频情况下。• We develop a HAFI module that effectively combinesadjacent past and future feature representations in ahierarchical attentive integration manner to strengthentemporal correlation and refine the feature representa-tion of the current frame.132120图2。可视化自注意力模块[38]在3D人体姿势和形状估计中生成的注意力图。可视化显示,注意力图容易将注意力集中在相关性较低的时间位置(即相距较远的帧,具有非常不同的动作姿势),从而导致不准确的3D人体姿势和形状估计(参见帧It)。在注意力图中,红色表示较高的注意力值,蓝色表示较低的注意力值。0这些方法主要依赖于循环神经网络(RNN)或卷积神经网络(CNN)来建模时间信息(即人体运动的连续性),以进行连贯的预测[6, 8, 18, 20,25]。然而,RNN和CNN擅长处理局部邻域[36,38],而单独的模型可能对学习长程依赖关系(即非局部上下文关系)不够有效,以描述人体运动的相关性。因此,现有的基于视频的方法仍有改进的空间,以估计准确且平滑的3D人体姿势和形状(见图1)。为了解决上述问题,我们提出了一种运动姿势和形状网络(MPS-Net),用于从单目视频中估计3D人体姿势和形状。我们的关键见解有两个方面。首先,尽管最近提出了一种自注意机制[36,38]来补偿(即更好地学习长程依赖关系)循环和卷积操作的弱点,但我们在实践中发现它并不总是擅长建模动作序列中的人体运动。因为自注意模块计算的注意力图通常不稳定,容易将注意力集中在相关性较低的时间位置(即相距较远的帧,具有非常不同的动作姿势),并忽略动作序列中的运动连续性(见图2)。为此,我们提出了一个运动连续性注意(MoCA)模块,以实现对动作序列中多样化的时间内容和关系的适应性。具体而言,MoCA模块在两个方面起作用。首先,开发了一个归一化的自相似矩阵(NSSM),用于捕捉动作序列中视觉表示的时间相似性和不相似性的结构,从而揭示人体运动的连续性。其次,NSSM被视为先验知识,并应用于指导自注意模块的学习,使其能够自适应地重新校准序列中需要关注的范围,以捕捉运动连续性依赖关系。在第二个见解中,受到3D人体网格估计中的时间特征集成方案的启发[6],我们开发了一个分层注意特征集成(HAFI)模块,利用过去和未来帧观察到的相邻特征表示来增强时间相关性并改进当前帧的特征表示。通过将MoCA和HAFI模块耦合在一起,我们的MPS-Net能够有效地捕捉运动中的人体,从单目视频中估计准确且时间连贯的3D人体姿势和形状(见图1)。我们将我们的MPS-Net的主要贡献描述如下:0•我们开发了一个HAFI模块,以分层的注意集成方式有效地结合了过去和未来的相邻特征表示,以增强时间相关性并改进当前帧的特征表示。0•我们提出了一个MoCA模块,利用从人体运动中观察到的视觉线索,自适应地重新校准序列中需要关注的范围,以更好地捕捉运动连续性依赖关系。0•在三个标准基准数据集上进行了大量实验,证明我们的MPS-Net在现有方法中实现了最先进的性能,并使用更少的网络参数。2.相关工作从单个图像中估计3D人体姿势和形状。现有的基于单个图像的3D人体姿势和形状估计方法主要基于参数化的3D人体网格模型,例如SMPL[24],即通过训练深度网络模型从输入图像中估计姿势、形状和相机参数,然后通过SMPL模型将它们解码为人体的3D网格。例如,Kanazawa等人[17]提出了一个端到端的人体网格恢复(HMR)框架,用于从单个RGB图像中回归SMPL参数。他们使用3D到2D关键点重投影损失和对抗训练来缓解有限的3D注释问题,并使输出的3D人体网格在解剖上合理。Pavlakos等人[31]利用2D关节热图和轮廓作为线索,提高了SMPL参数估计的准确性。类似地,Omran等人[29]使用语义分割方案提取身体部位信息作为估计SMPL参数的线索。Kolotouros等人[21]提出了一个自我改进的框架,将SMPL参数回归器和迭代拟合方案集成在一起,以更好地估计3D人体姿势和形状。Zhang等人[41]设计了一个132130在深度SMPL参数回归器中引入金字塔网格对齐反馈(PyMAF)循环,以利用多尺度上下文来改善重建的网格-图像对齐。已经提出了几种非参数化的3D人体网格重建方法[22,28,35]。例如,Kolotouros等人[22]提出了一种图形CNN,它将3D人体网格模板和图像嵌入(从ResNet-50[13]提取)作为输入,直接回归3D网格的顶点坐标。Moon和Lee[28]提出了一种I2L-MeshNet,它使用基于lixel的1D热图以完全卷积的方式直接定位3D网格的顶点坐标。尽管上述方法对于静态图像是有效的,但它们很难在视频序列中生成时间上连贯且平滑的3D人体姿态和形状,即可能出现抖动和不稳定的3D人体运动[6, 20]。0从单目视频中估计3D人体姿态和形状。与基于单张图像的方法类似,现有的基于视频的3D人体姿态和形状估计方法主要基于SMPL模型。例如,Kanazawa等人[18]提出了一种基于卷积的时间编码器,通过进一步估计相邻过去和未来帧中的SMPL参数来学习人体运动动力学。Doersch等人[8]通过结合CNN和长短期记忆(LSTM)网络,将模型训练在一系列2D关键点热图和光流上,以证明考虑预处理的运动信息可以改善SMPL参数估计。Sun等人[34]提出了一种骨架解耦框架,将任务分为多级空间和时间子问题。他们进一步提出了一种无监督的对抗训练策略,即时间洗牌和顺序恢复,以促进时间特征学习。Kocabas等人[20]提出了一个由双向门控循环单元(GRU)组成的时间编码器,将静态特征编码为一系列时间相关的潜在特征,并将其馈送给回归器以估计SMPL参数。他们进一步整合了对抗训练策略,利用AMASS数据集[26]区分真实的人体运动和其回归器估计的运动,以促进合理的3D人体运动的生成。Luo等人[25]提出了一个两阶段模型,首先通过变分运动估计器估计粗略的3D人体运动,然后使用运动残差回归器来细化运动估计。最近,Choi等人[6]提出了一个具有三种不同编码策略的基于GRU的时间一致网格恢复(TCMR)系统,以促进网络更好地学习时间特征。此外,他们提出了一种时间特征整合方案,将三个时间编码器的输出结合起来,以帮助SMPL参数回归器估计准确且平滑的3D人体姿态和形状。0尽管RNN和CNN取得了成功,但循环和卷积操作只能处理局部邻域[36,38],这使得它们难以学习特征表示之间的长程依赖关系(即非局部上下文关系)在动作序列中。因此,现有方法仍然难以估计准确且平滑的3D人体姿态和形状。0注意机制。注意机制在自然语言处理[2, 7, 32, 36,40]和与视觉相关的任务[5, 9, 14, 15, 33, 38,39]中得到了广泛应用,因为它能够捕捉长程依赖关系并有选择地集中在输入的相关子集上。有多种实现注意机制的方法。在这里,我们专注于自注意力[36,38]。例如,Vaswani等人[36]提出了一种基于自注意力的架构,称为Transformer,在其中自注意力模块被设计为通过整个句子的聚合信息来更新每个句子的元素,以绘制输入和输出之间的全局依赖关系。Transformer完全用自注意力模块取代了循环操作,并大大提高了机器翻译的性能。后来,Wang等人[38]表明自注意力是非局部均值的一种实例,并提出了用于CNN的非局部块来捕捉长程依赖关系。与Transformer中提出的自注意力模块类似,非局部操作计算输入特征表示中每个位置之间的相关性以生成注意力图,然后执行基于注意力的密集上下文信息聚合以绘制长程依赖关系。尽管自注意力机制表现良好,但我们凭经验发现,由自注意力模块(例如非局部块)计算的注意力图通常不稳定,这意味着很容易将注意力集中在相关性较低的时间位置上(即,相距较远的帧具有非常不同的动作姿势),并忽略动作序列中人体运动的连续性(见图2)。在这项工作中,我们提出了MoCA模块,通过引入NSSM的先验知识来自适应地重新校准序列中需要注意的范围,以捕捉运动连续性依赖关系。进一步提出了HAFI模块,通过其邻居加强时间相关性并改进每个帧的特征表示。03. 方法0图3显示了我们MPS-Net的整体流程。我们将MPS-Net中的每个模块详细说明如下。3.1. 时间编码器0给定输入视频序列V = {I_t}Tt=1,其中T为帧数。我们首先使用由Kolo-touros等人[21]预训练的ResNet-50[13]来提取每帧的静态特征,以XT2048g(X) = XWg ∈ RT × 2ϕ(X) = XWϕ ∈ RT × 2048m ,(3)andθ(X) = XWθ ∈ RT × 2parameterized by the weight matrices Wg, Wϕ, and Wθwherethesizeoftheresultingpairwisefunction132140图3.我们的运动姿势和形状网络(MPS-Net)的概述。MPS-Net基于静态特征提取器、时间编码器、时间特征集成和SMPL参数回归器,根据视频序列估计姿势、形状和相机参数Θ,生成3D人体姿势和形状。0图4. 一个MoCA模块。X的形状为T ×2048,具有2048个通道。g、ϕ、θ和ρ表示卷积操作,�表示矩阵乘法,⊕表示逐元素求和。对每一行执行softmax计算。0形成一个静态特征表示序列X = {x_t}Tt=1,其中x_t ∈R2048。然后,提取的X被送入提出的MoCA模块来计算时间特征表示序列Z = {z_t}Tt=1,其中z_t ∈ R2048。0MoCA模块。我们提出了一种MoCA操作来扩展非局部操作[38]。首先,我们引入NSSM来捕捉动作序列中视觉表示的时间相似性和不相似性的结构,以揭示人体运动的连续性。其次,我们将NSSM视为先验知识,并将其与非局部操作生成的注意力图结合起来,自适应地重新校准动作序列中需要关注的范围。我们将提出的MoCA模块形式化如下(见图4)。给定静态特征表示序列0m,旨在通过对所有时间位置的静态特征进行加权求和,捕捉整个表示序列中的运动连续性依赖关系。0Y = ρ([f(X, X), f(θ(X), ϕ(X))])g(X),(1)0其中m是用于减少计算复杂度的缩减比率[38],在我们的实验中设置为2。g(∙)、ϕ(∙)和θ(∙)是可学习的变换,通过使用卷积操作[38]来实现。因此,这些变换可以表示为0m,(2)0m,(4)0m,分别。f(∙,∙)表示一种成对函数,用于计算所有位置之间的关联性。我们使用点积[38]作为f的操作,即0f(θ(X), ϕ(X)) = θ(X)ϕ(X)T,(5)0m × T → RT ×T,它编码了转换后的静态特征表示序列下的时间位置之间的相似性。然后,使用softmax操作将其归一化为一个注意力图(见图4)。我们经验性地发现,尽管在转换后的特征空间中计算相似性提供了洞察隐含的长程依赖关系的机会,但有时可能不稳定,并导致对较少的位置进行注意。correlated temporal positions (see Figure 2). To this end,we introduce NSSM into the MoCA operation to enable theMoCA module to learn to focus attention on a more appro-priate range of action sequence.Regarding NSSM construction, unlike the non-local op-eration [38], we directly use the static feature representa-tion sequence X extracted from the input video to reveal theexplicit dependencies between the frames through the self-similarity matrix [10] construction f(X, X) = XXT ∈RT ×T .In this way, the continuity of human motion inthe input video can be more straightforwardly revealed.Similarly, we normalize the resultant self-similarity matrixthrough the softmax operation to form an NSSM (see Fig-ure 4) to facilitate subsequent combination with the atten-tion map.For the combination of NSSM and attention map, wefirst regard NSSM as the a priori knowledge to concate-nate the attention map through the operation [·, ·], and thenuse the learnable transformation ρ(·), i.e., 1 × 1 convolu-tion to recalibrate the attention map by referring to NSSM(see Figure 4 and Eq. (1)). The resultant ρ(·) is then nor-malized through the softmax operation, which is called theMoCA map. By jointly considering the characteristics ofthe NSSM and the attention map, the MoCA map can revealthe non-local context relations related to the human motionof the input video in a more appropriate range. To this end,3.2. Temporal feature integrationGiven the temporal feature representation sequence Z ∈RT ×2048, the goal of the HAFI module is to refine the tem-poral feature of the current frame zt by integrating the adja-cent temporal features observed from past and future framesto strengthen their temporal correlation and obtain betterpose and shape estimation, as shown in Figure 3.HAFI Module. Specifically, we use T/2 adjacent frames132150图5. 一个HAFI模块。它利用过去和未来帧观察到的时间特征以分层的注意力集成方式来优化当前帧z_t的时间特征,其中�表示矩阵乘法。0m可以通过ρ(∙)和g(∙)之间的矩阵线性组合来计算。最后,与非局部块[38]的设计一样,我们使用残差连接[13]来生成输出的时间特征表示序列Z ∈ RT ×2048(见图4),如下所示:Z = YWz +X,(6)其中Wz是通过使用卷积操作[38]实现的可学习权重矩阵,矩阵的数量为0Wz中的通道数被放大以匹配X中的通道数(即2048)。“+X”表示残差连接。残差连接允许我们将MoCA模块插入到任何预训练网络中,而不会破坏其初始行为(例如,如果Wz初始化为零)。因此,通过进一步考虑非局部上下文响应Y,Z将包含丰富的时间信息,因此可以将Z视为增强的X。0在分层注意集成方式下,使用HAFI模块对当前帧zt的时间特征进行细化,如图5所示。对于HAFI模块中的每个分支,我们将三个相邻帧的时间特征作为一组(组之间的相邻帧不重叠),并通过共享的全连接(FC)层将它们从2048维分别调整为256维,以减少计算复杂性。调整后的时间特征被连接起来(zconcat∈R768),并传递给三个FC层和一个softmax激活函数,通过探索它们之间的依赖关系来计算注意力值a ={ak}3k=1。然后,将注意力值加权返回到每个对应的帧上,以增强时间特征集成中重要帧的贡献,从而获得聚合的时间特征(参见图5)。底层分支产生的聚合时间特征将传递到上层,并以相同的方式进行集成,以产生最终的细化zt。通过逐渐集成相邻帧的时间特征来增强时间132160相关性将为SMPL参数回归器提供学习估计准确和时间上连贯的3D人体姿势和形状的机会。在这项工作中,与Kocabas等人[20]一样,我们使用[17,21]中提出的SMPL参数回归器作为我们的回归器来估计姿势、形状和相机参数Θt∈R850根据每个细化的zt进行姿势和形状的估计(参见图3)。在训练阶段,我们使用HMR [17,21]的预训练权重初始化SMPL参数回归器。3.3.损失函数在MPS-Net训练中,对于每个估计的Θt,按照Kocabas等人[20]提出的方法,我们对估计的SMPL参数和3D/2D关节坐标之间施加L2损失,以监督MPS-Net生成合理的真实世界姿势。通过将估计的SMPL参数传递给SMPL模型[24]获得3D关节坐标,并通过预测的相机参数[20]的2D投影获得2D关节坐标。此外,与Kocabas等人[20]一样,我们还应用对抗损失Ladv,即使用AMASS[26]数据集训练鉴别器,以区分MPS-Net的SMPL参数回归器生成的真实人体动作和生成合理的3D人体动作。4. 实施细节0在之前的工作[6, 20]中,我们将T =16设置为序列长度。我们使用由Kolotouros等人[21]预训练的ResNet-50[13]作为我们的静态特征提取器。静态特征提取器是固定的,并为每个帧输出一个2048维的特征,即xt∈R2048。SMPL参数回归器有两个全连接层,每个层有1024个神经元,并且后面跟着一个输出层,用于输出每个帧的85个姿势、形状和相机参数Θt[17,21]。我们使用的鉴别器架构与[20]相同。MPS-Net和鉴别器的参数由Adam求解器[19]进行优化,学习率分别为5×10-5和1×10-4。小批量大小设置为32。在训练过程中,如果性能在5个时期内没有改善,MPS-Net和鉴别器的学习率将减小10倍。我们使用NVIDIA Titan RTXGPU对整个网络进行30个时期的训练。代码实现使0首先,我们介绍用于训练和评估的数据集以及评估指标。然后,我们将我们的MPS-Net与其他最先进的基于视频和单张图像的方法进行比较,以展示其在解决3D人体姿势和形状估计方面的优势。我们还进行了消融研究,以确认MPS-Net中每个模块的有效性。最后,我们展示了一些示例,以展示定性评估结果。0数据集。根据之前的工作[ 6 , 20],我们采用混合3D和2D数据集的批次进行训练。对于3D数据集,我们使用3DPW [ 37 ],MPI-INF-3DHP [ 27],Human3.6M [ 16 ]和AMASS [ 26]进行训练,其中3DPW和AMASS提供SMPL参数注释,而MPI-INF-3DHP和Human3.6M包括3D关节注释。对于2D数据集,我们使用PoseTrack [ 1 ]和InstaVa- riety [ 18]进行训练,其中PoseTrack提供了真实的2D关节,而InstaVariety使用2D关键点检测器[ 4]注释的伪2D关节。在评估方面,使用了3DPW、MPI-INF-3DHP和Human3.6M数据集。其中,Human3.6M是一个室内数据集,而3DPW和MPI-INF-3DHP包含具有挑战性的室外视频。更详细的设置请参见补充材料。0评估指标。评估使用了四个标准指标[ 6 , 20 , 25],包括平均每个关节位置误差(MPJPE),经过Procrustes对齐的平均每个关节位置误差(PA-MPJPE),平均每个顶点位置误差(MPVPE)和加速度误差(ACC-ERR)。其中,MPJPE、PA-MPJPE和MPVPE主要用于表示估计的3D人体姿势和形状的准确性(以毫米(mm)为单位),而ACC-ERR(mm/s^2)用于表示3D人体动作的平滑性和时间连贯性。每个指标的详细描述包含在补充材料中。05.1. 与最先进的方法进行比较0基于视频的方法。表1显示了我们的MPS-Net与最先进的基于视频的方法在3DPW、MPI-INF-3DHP和Human3.6M数据集上的性能比较。按照TCMR [ 6]的方法,所有方法都在包括3DPW的训练集上进行训练,但不使用从Mosh [ 23 ]获得的Human3.6MSMPL参数进行监督,因为由于法律问题,Mosh的SMPL参数已被移除公开访问[ 25 ]。比较方法的值来自TCMR [ 6],但我们独立验证了它们。表1中的结果显示,我们的MPS-Net在几乎所有指标和数据集上都优于现有的基于视频的方法。这表明通过捕捉运动连续性依赖性并整合相邻过去和未来的时间特征,确实可以提高性能。尽管TCMR [ 6]也取得了很大的进展,但它受到递归操作(即GRU)在动作序列中捕捉非局部上下文关系的能力的限制[ 36 , 38],从而降低了估计的3D人体姿势和形状的准确性(即PA-MPJPE、MPJPE和MPVPE高于MPS-Net)。此外,TCMR的网络参数数量和模型大小也约为MPS-Net的3倍(见表2),相对较重。关于MEVA [ 25],如表1所示,MEVA至少需要90个输入帧,这是VIBE [20]57.691.9-25.468.9103.927.353.378.027.316MEVA [25]54.786.9-11.665.496.411.153.276.015.390TCMR [6]52.786.5103.26.863.597.68.552.073.63.916VIBE [20]72.434.17776MEVA [25]85.724.46858.8TCMR [6]108.894.9910733DPW3DPWHMR [17]76.7130.0-37.4GraphCMR [22]70.2---SPIN [21]59.296.9116.429.8PyMAF [41]58.992.8110.1-I2L-MeshNet [28]57.793.2110.130.9HMMR [18]72.6116.5139.315.2Doersch et al. [8]74.7---Sun et al. [34]69.5---VIBE [20]56.593.5113.427.11321703DPW MPI-INF-3DHP Human3.6M 数量0方法 PA-MPJPE ↓ MPJPE ↓ MPVPE ↓ ACC-ERR ↓ PA-MPJPE ↓ MPJPE ↓ ACC-ERR ↓ PA-MPJPE ↓ MPJPE ↓ ACC-ERR ↓ 输入帧数0MPS-Net (我们的方法) 52.1 84.3 99.7 7.4 62.8 96.7 9.6 47.4 69.4 3.6 160表1. 在3DPW [ 37 ]、MPI-INF-3DHP [ 27 ]和Human3.6M [ 16 ]数据集上评估最先进的基于视频的方法。根据Choi等人的方法[ 6],所有方法都在包括3DPW的训练集上进行训练,但不使用从Mosh [ 23 ]获得的Human3.6MSMPL参数。输入帧数遵循每种方法的原始协议。0#参数数量(百万) FLOPs(十亿) 模型大小(MB)0MPS-Net (我们的方法) 39.63 4.45 3310表2. 网络参数数量、FLOPs和模型大小的比较。0方法 PA-MPJPE ↓ MPJPE ↓ MPVPE ↓ ACC-ERR ↓0MPS-Net 54.1 87.6 103.1 24.1 - 仅Non-local [ 38 ] MPS-Net - 仅MoCA53.0 86.7 102.2 23.50MPS-Net 52.4 86.0 101.5 10.5 - MoCA + TF-intgr. [ 6 ] MPS-Net(我们的方法) - MoCA + HAFI 52.1 84.3 99.7 7.40表3. MPS-Net在3DPW [ 37]数据集上不同模块的消融研究。训练和评估设置与表1中在3DPW数据集上的实验相同。0方法 PA-MPJPE ↓ MPJPE ↓ MPVPE ↓ ACC-ERR ↓0单张图像0基于0基于视频0TCMR [ 6 ] 55.8 95.0 111.3 6.7 MPS-Net (我们的方法) 54.0 91.6109.6 7.50表4. 在3DPW [ 37]数据集上评估最先进的基于单张图像和基于视频的方法。所有方法都不使用3DPW进行训练。0这意味着它不能在短视频上进行训练和测试。这在实际应用中大大降低了价值。总体而言,我们的MPS-Net能够从视频中有效地估计准确(较低的PA-MPJPE、MPJPE和MPVPE)和平滑(较低的ACC-ERR)的3D人体姿势和形状,并且相对轻量级(网络参数较少)。三个数据集上的比较也显示了其强大的普适性。0我们的MPS-Net的正则化特性。消融分析。为了分析MPS-Net中MoCA和HAFI模块的有效性,我们在具有挑战性的野外3DPW数据集上进行了消融研究。具体而言,我们通过将MoCA模块替换为非局部块[ 38],仅考虑MoCA模块(不使用HAFI),以及将HAFI模块替换为Choi等人提出的时序特征集成方案来评估MPS-Net的影响。从表3中可以明显看出,所提出的MoCA模块(即MPS-Net-仅MoCA)在所有指标上优于非局部块(即MPS-Net-仅Non-local)。结果证实,通过进一步引入NSSM的先验知识来指导自注意力学习,MoCA模块确实可以改善3D人体姿势和形状估计。另一方面,结果还表明,我们的HAFI模块(即MPS-Net-MoCA+HAFI)优于时序特征集成方案(即MPS-Net-MoCA+TF-intgr.),这表明通过分层注意力集成方式逐渐整合相邻特征确实可以增强时序相关性,并使生成的3D人体动作更平滑(即较低的ACC-ERR)。总体而言,消融分析证实了所提出的MoCA和HAFI模块的有效性。基于单张图像和基于视频的方法。我们进一步将我们的MPS-Net与在具有挑战性的野外3DPW数据集上的基于单张图像的方法进行比较。请注意,许多先前的工作[ 6 , 8 , 17 , 18 ,20 – 22 , 28 , 34 , 41]没有使用3DPW训练集来训练他们的模型,因此在表4的比较中,所有方法都没有在3DPW上进行训练。与表1中的结果类似,表4中的结果0证明我们的MPS-Net在PA-MPJPE、MPJPE和MPVPE评估指标上表现优于现有的基于单张图像和基于视频的方法。尽管TCMR实现了最低的ACC-ERR,但它往往过于平滑,从而牺牲了姿势和形状估计的准确性。具体而言,当TCMR将ACC-ERR降低0.8mm/s^2与MPS-Net相比时,MPS-Net将PA-MPJPE、MPJPE和MPVPE分别降低了1.8mm、3.4mm和1.7mm。表4进一步证实了在连续帧中考虑时间信息的重要性。132180图6. TCMR[6](左)和我们的MPS-Net(右)在具有挑战性的野外3DPW[37]数据集(第1和第2个片段)和MPI-INF-3DHP[27]数据集(第3个片段)上的定性比较。这是一个嵌入式视频,请参阅我们的arxiv论文以查看视频。0图7. MPS-Net在具有挑战性的野外3DPW[37]数据集和MPI-INF-3DHP[27]数据集上的定性结果。对于每个序列,顶部一行显示输入图像,中间一行显示从相机视角估计的身体网格,底部一行显示从另一个视角估计的网格。0即,与基于单张图像的方法相比,基于视频的方法具有较低的ACC-ERR。总之,MPS-Net在3D人体姿势和形状估计的准确性和平滑性方面取得了更好的平衡。05.2. 定性评估 我们提供了1)与TCMR[6]的视觉比较,2)MPS-Net在不同视角下的视觉效果,以及3)学习到的人体运动连续性的视觉结果。与TCMR的视觉比较。在3DPW和MPI-INF-3DHP数据集上,TCMR和我们的MPS-Net之间的定性比较如图6所示。从结果中我们可以观察到,MPS-Net估计的3D人体姿势和形状能够很好地适应输入图像,特别是在肢体上。TCMR似乎过于注重生成平滑的3D人体运动,因此估计的姿势在帧与帧之间的变化相对较小,这限制了它适应输入图像的能力。0MPS-Net在不同视角下的视觉效果。我们在图7中从不同视角可视化了MPS-Net估计的3D人体。结果显示,0图8. VIBE[20]和我们的MPS-Net在人体运动连续性上的可视化示例。0MPS-Net可以正确估计全局身体旋转。这通过PA-MPJPE、MPJPE和MPVPE的改进得到了定量证明(见表1)。0学习到的人体运动连续性的视觉结果。我们使用一个相对极端的例子展示了MPS-Net学习到的人体运动的连续性。在这个例子中,我们随机从互联网上下载了两张具有不同姿势的图片,并将这些图片复制多次形成一个序列。然后,我们将这个序列发送给VIBE[20]和MPS-Net进行3D人体姿势和形状估计。如图8所示,与VIBE相比,从估计结果中明显可以看出我们的MPS-Net在姿势交换之间产生了过渡效果,并且这种过渡符合人体运动的连续性。这表明MPS-Net确实学习到了人体运动的连续性,并解释了为什么MPS-Net能够在基准(动作)数据集中实现较低的ACC-ERR(平均关节位置误差)。这个结果与使用3D运动预测器估计两个关键帧之间合理的人体运动的情况类似[12]。相比之下,VIBE过于依赖当前帧的特征,使其无法真正学习到人体运动的连续性。因此,它的ACC-ERR仍然很高(见表1)。更多结果和视频演示可以在以下网址找到:0https://mps-net.github.io/MPS-Net/。06. 结论我们提出了MPS-Net,用于从单目视频中估计3D人体姿势和形状。这项工作的主要贡献在于MoCA和HAFI模块的设计。前者利用从人体运动中观察到的视觉线索,自适应地重新校准序列中需要关注的范围,以捕捉运动连续性的依赖关系,后者允许我们的模型加强时间相关性并改进特征表示,从而产生时间上连贯的估计结果。与现有方法相比,MoCA和HAFI模块的集成展示了我们的MPS-Net在实现最先进的3D人体姿势和形状估计方面的优势。0致谢:本工作得到MOST的部分支持,合同号110-2221-E-001-016-MY3、110-2634-F-007-027和110-2634-F-002-050,以及中央研究院的支持,合同号AS-TP-111-M02。132190参考文献0[1] Mykhaylo Andriluka, Umar Iqbal, Eldar Insafutdinov,Leonid Pishchulin, Anton Milan, Juergen Gall, and BerntSchiele. PoseTrack: 人体姿势估计和跟踪的基准测试. 在CVPR,2018. 60[2] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio.通过联合学习对齐和翻译进行神经机器翻译. 在ICLR, 2015. 30[3] Antoni Buades, Bartomeu Coll, and Jean-Michel Morel.一种用于图像去噪的非局部算法. 在CVPR, 2005. 30[4] Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh.使用部分亲和场进行多人2D姿势估计. CVPR, 2017. 60[5] Ding-Jie Chen, He-Yen Hsieh, and Tyng-Luh Liu.自适应图像变换器用于一次性目标检测. 在CVPR, 2021. 30[6] Hongsuk Choi, Gyeongsik Moon, Ju Yong Ch
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功