基于点云数据的三维人体姿态和形状估计方法

145 浏览量更新于2023-10-23 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7275基于点云数据的王康侃1，2，谢金1，2，张国峰3，4，刘磊1，杨健1，21.高维信息智能感知与系统教育部重点实验室2江苏省社会保障图像与视频理解重点实验室南京理工大学计算机科学与工程学院3浙江大学CAD CG国家重点实验室4浙大-商汤三维视觉摘要这项工作解决了从一系列点云的三维人体姿态和形状估计的问题。现有的序列三维人体形状估计方法主要集中在深度图像序列的模板模型拟合和RGB图像序列的参数模型回归在本文中，我们提出了一种新的顺序三维人体姿态和形状估计框架，从一系列的点云。具体地说，所提出的框架可以从点云的潜在特征中回归不同分辨率下的基于低分辨率下估计的三维坐标和特征，我们提出了一种时空网格注意卷积（MAC）算法来预测高分辨率下网格顶点通过为空间和时间域中的不同相邻点分配特定的注意力权重，我们的时空MAC可以捕获点云的结构化空间和时间特征。我们进一步推广我们的框架，以实际数据的人体与弱监督微调方法。在SURREAL、Hu-man 3. 6 M、DFAUST和真实细节数据上的实验结果表明，该方法能够从点云序列中准确地恢复出三维人体模型序列。1. 介绍恢复3D人体形状在机器人、增强现实（AR）和虚拟现实（VR）中具有许多现实应用。特别地，随着诸如Microsoft Kinect之类的深度传感器的最近进步，从深度图像估计3D人体形状在3D计算机视觉社区中已经流行。从深度图像进行3D人体形状估计旨在恢复人体的3D网格[26，8，44，29]。然而，从深度图像准确地估计3D人体形状通讯作者：wangkangkan@njust.edu.cn是非常具有挑战性的，因为存在任意的变形和人体的自遮挡。此外，深度相机的视点变化和深度图像上严重的随机噪声使问题变得更加困难。大多数来自深度图像的3D体型估计方法[16，12，11，5，41，42]主要集中于利用时间信息来建立连续帧之间的点对应关系，并利用对应关系恢复每帧的3D模型在3D模板模型与输入深度图像之间的差异较大的情况下，难以使用最近邻搜索方法来建立正确的对应关系因此，这些方法不能有效地从单个深度图像恢复3D身体模型。另外，由于这些方法从深度图像顺序地恢复3D人体模型，因此对应误差在序列上累积。在[38]中，学习3D人体形状的局部描述符以构建密集对应，然后通过将模板模型拟合到输入深度来恢复3D模型。然而，这些工作主要集中在恢复三维人体模型从序列的深度图像。从点云序列中恢复三维人体模型的工作很少点云可以提供比深度图像更多的几何信息。从点云序列中恢复三维人体模型，以便利用点云的三维几何结构，这是人们所期望的。我们的目标是直接推断连续的三维人体模型，通过提取局部特征的点云序列。因此，我们不需要构建连续帧之间的点对应关系，并避免在顺序的3D人体模型恢复过程中的误差积累在本文中，我们提出了一种通过预测多分辨率3D人体网格的顶点坐标来从点云估计3D人体形状的顺序方法，而不是估计人体的SMPL [25]模型参数。首先，我们使用PointNet++[31]分别提取连续帧点云的潜在特征。7276然后，我们开发了一个时空网格注意力卷积回归顶点坐标的三维人体网格在不同的分辨率从潜在的功能。在低分辨率网格生成的基础上，通过对当前帧上网格顶点的单环邻域动态分配特定的注意力权重，构造了同样，我们也构造了一个时间MAC通过分配注意力的权重，相应的网格顶点上的连续框架。空间MAC可以在空间域中捕获点云的局部结构特征，而时间MAC可以融合连续帧上点云的结构特征，形成时间表示。此外，我们的方法可以很好地推广到深度传感器捕获的实际数据与弱监督微调方法。在SURRE-AL [37]、Human3.6M [17]、DFAUST [7]上的实验结果以及人体的真实数据证明了该方法的有效性。总之，我们的方法的主要贡献如下：• 我们创新地制定了三维人体姿态和形状估计的问题，从一系列的点云。• 我们提出了一个时空网格注意力卷积逐步回归的顶点坐标的三维人体网格。• 提出了一种弱监督的微调算法，用于具有细节表面的真实人体的三维模型恢复。2. 相关工作从深度图像进行3D人体建模。基于深度图像的三维人体建模方法大致可分为基于模板的方法和无模板的方法。基于模板的方法使用用于3D身体模型恢复的模板先验，例如嵌入式骨架[39，40]，模板模型[11]，或参数模型[5，44，29]。这些模板先验封装了模板的许多先验知识，从而使得3D身体重建鲁棒。例如，Guoet al.[11]将预扫描的模板模型变形为每个输入深度通过一种新的L0为基础的运动正则化，有效地减少了大的运动中的累积误差。无模板方法[26，16，9，12，8]创建3D身体模型，而无需任何关于体型这些方法在体积上融合所有捕获的深度图以实时重建3D模型，但它们仅限于慢动作。最近，一些方法[41，42，47]通过将模板先验引入无模板方法来扩展到处理大的人体运动。S. 对于基于模板和无模板的方法，需要通过最近3D点搜索方法为每个帧建立点对应。在单一输入深度的情况下，由于模板和深度之间的人体姿势和形状的大差异，所建立的对应关系容易不准确。点对应可以通过随机森林[30]或通过匹配学习的特征描述符[38]直接预测人体的深度图像。基于预测的点对应，然后通过将模板变形为深度数据来恢复3D身体模型。LBS Autoencoder [23]通过推断LBS模板的关节角度和变形将铰接网格模型拟合到点云，这主要是针对具有完整3D形状的点云而不是深度图像的点云提出的。3D人体姿势和形状从彩色图像。大多数从彩色图像进行3D体型估计的方法将参数化身体模型[2，25]或模板模型[13]拟合到输入彩色图像上的一组观察结果，例如关键点和轮廓。例如，Bogo et al.[6]首先检测2D身体关节，然后将SMPL模型[25]拟合到这些2D关节位置。许多基于深度学习的方法[35，27，22，36]使用卷积网络直接从彩色图像DensePose [10]通过学习RGB图像和模板身体模型之间的密集对应来Kanazawa等人[18]通过迭代3D回归量从单个RGB图像上的潜在特征推断SMPL参数。Graph CNN方法[21]首先将从输入彩色图像中提取的特征附加到模板网格的3D顶点坐标，然后使用卷积网格回归预测3D人体网格的顶点坐标最近的工作[49，48，1，33]试图恢复三维人体形状的表面细节超出了从彩色图像的参数模型。例如，Zhu等人[49]提出了一种分层网格变形框架，以通过利用身体关节、剪影和每像素阴影信息来恢复详细的身体形状。3D人体姿势和形状从视频。近年来，在3D人体姿态和形状估计中，经常采用前馈卷积网络来对来自图像序列的时间特征进行编码[19，45]。最近的研究[4]表明，前馈卷积模型不仅在广泛的序列建模任务上比规范的递归架构[14，24]执行得更准确，而且更简单，更容易训练。Kanazawa等人[19]通过使用时间卷积网络学习从视频中捕获3D人体动态，该时间卷积网络减少了单视图方法的3D预测中的不确定性和抖动[18]。Zhang等人[45]用因果结构改进了[19]的时间一些作品[15，35，43，46，3]通过强制时间一致性来恢复序列3D模型。72772图1.拟议框架概览我们的框架可以预测的3D人体模型序列从输入序列的点云提出的时空网格注意卷积通过捕获点云的结构化时空特征，在不同分辨率下回归网格顶点的3D坐标请参阅章节。3详细描述。连续帧。Tung等人[35]基于一致性约束将彩色图像序列映射到相应的3D网格序列，该一致性约束是网格顶点的3D运动在投影时应匹配2D光流。赞菲尔等[43]通过施加时间上相干的姿态和运动反射将单图像方法扩展到视频。[3]中提出的束调整算法可以在整个视频上联合优化[18]的每帧估计，并利用模型参数的时间一致性来解决模糊性。在这项工作中，我们使用前馈卷积网络的三维人体模型估计，提出了一个时间编码器的网格结构。3. 该方法给定一个人体的点云序列，我们的目标是估计序列的三维人体模型，可以适合相应的点云序列。我们提出的方法的框架如图所示。1.在该框架中，我们首先独立地提取每帧点云的局部特征然后，基于提取的特征，提出了一种时空网格注意力卷积（MAC）网络来预测每帧的三维人体网格从粗到细。时空MAC可以利用编码在粗网格中的空间和时间特征来推断高分辨率的细网格。此外，我们推广我们的方法，以实际点云的人体的弱监督微调方法。三维人体模型。我们采用蒙皮多人线性模型（SMPL）[25]作为3D人体模型。SMPL是一种广泛使用的统计模型，可以生成具有自然人体形状和姿态的各种3D人体模型。基于一组形状和姿势参数-最终，SMPL模型可以输出具有N=6，890个顶点的3D人体模型。详情请参阅[25]。在我们的方法中，而不是估计模型参数，我们直接预测的模型顶点的三维坐标，可以准确地适合输入点云从预测模型顶点，我们可以通过模型拟合方法轻松获得SMPL参数模型[25]。3.1. 时空网格注意卷积由于PointNet++[31]可以很好地表征点云的几何然后，我们开发了一个时空MAC网络，从提取的特征生成多分辨率的三维人体网格。如图1，在高分辨率下，我们首先从先前的低分辨率上采样粗网格，然后使用时空MAC生成具有固定拓扑结构的更精细的网格。通过将上采样矩阵与网格左乘来执行网格上采样。我们预先计算不同分辨率下SMPL模板模型的上采样矩阵，如[32]所示。时空MAC算法能够同时在空间域和时间域中捕捉存储在网格顶点上的点云结构特征。空间MAC动态地将特定的注意力权重分配给单个帧上的网格顶点的单环邻域，而时间MAC将注意力权重分配给连续帧上的对应网格顶点我们应用时空MAC在一个由粗到细的方式来生成最终的三维人体模型。3.1.1空间网格注意卷积在帧l处，我们首先采用上采样操作来生成具有第k分辨率的q个顶点的高分辨率网格Gk。为了简洁起见，我们在本小节的以下推导中忽略帧戳l。然后，我们通过MLP网络从输入的q个顶点的特征回归网格Gk我们公式化以下3D坐标损失以生成高分辨率网格的顶点坐标：ΣqLcoord（k）=pi−pi2，（1）i=17278JLLtL2lj jl=Σ其中p i是生成的网格Gk上的顶点i的坐标，并且pi是G k上的顶点xi的真实坐标。网格G是从整个地面上采样的真值模型与下采样操作[32]。我们还将网格顶点的输入特征映射到一组新的顶点特征h={h1，h2，.，hq}（hi∈RF），其中F是每个顶点的特征维数.3.1.2时间网格注意卷积由连续帧提供的时间上下文可以减轻单视图方法中的遮挡不确定性和形状模糊性问题因此，有必要对时间特征进行编码，并将其用于序列3D模型的恢复。网格顶点存储用于顶点坐标回归的特征，顶点坐标回归编码3D身体形状的信息。这些特征可以为序列中其他帧的3D模型估计提供许多有用的信息。由于连续帧在相同分辨率下具有相应的网格拓扑，因此可以在时间上融合所有帧中相同网格顶点的特征。我们应用一个时间网格at-tension卷积网格顶点利用有用的信息，从连续帧。具体地，对于帧l的网格Gk上的顶点i，我们计算帧j对帧l在顶点i上的注意力权重，如下所示：图2.我们的空间网格注意力卷积(a)以及时间网格注意卷积（b）。空间网格注意力卷积在单个帧上的网格顶点的单环邻域上执行，而时间网格注意力卷积在连续帧的对应网格顶点上执行。利用注意力机制[28]，我们构造了一个空间MAC来捕获生成网格Gk上顶点的单环邻域的局部结构特征。在所构造的空间MAC中，网格顶点的不同单环邻域被分配给特定的attentional权重。每个顶点的注意力权重，εi=ε（hi−h i），j∈{1，2，. 其中，fn是序列样本的帧号，和h_ i分别是帧j和l的网格G_k上的空间M_A_ C之后的第i个顶点x特征时间注意机制ε将特征向量差映射到时间注意权值，在我们的实验中，这是一个MLP网络。时间注意力权重也跨所有帧被归一化，如下所示：exp（εi）其邻域与顶点坐标和特征向量的差有关，其计算如下：我LJFNt=1LJexp（εi）.（六）σij=σ（[pij，hij]），j∈N（i），（2）其中pij=pj−pi，hij=hj−hi，N（i）是顶点i的邻居集（包括它自己）。通过取在时间MAC之后帧1中的顶点i的最终输出特征可以计算如下：briefn.h i=εih i+bi，（7）顶点坐标和特征向量的连接不同-实验中，注意力机制σ是一个MLP网络，它以事件为输入，学习空间注意力权重为了处理不同顶点和空间尺度上的邻居，注意力权重在顶点i的所有邻居上被归一化，如下所示：l lj j lj=1其中bi∈RF是可学习的偏差。通过图中所示的K= 4个不同的分辨率。1，网格被上采样到1，723个顶点。最后，我们应用另一个空间MAC映射到3D顶点坐标的顶点功能网格σij =softmax（σij）=Σexp（σij）s∈N（i）exp（σis）、（3）回归损失定义如下：ΣN其中σij是顶点j到ver的注意力权重向量。L目=vi−v特克斯岛在空间MAC之后，顶点i的最终输出特征可以通过邻居特征与归一化注意力权重的线性组合来计算：i=1其中v_i是在地面实况模型上的帧l的v_e_x_i的坐标为了避免高顶点冗余，湖里Σ=j∈N（i）ijhj+bi、（4）并减少训练时间，我们预测了具有1，723个顶点的3D模型，这是在原始SMPL顶点上下采样的4原始比例的3D模型可以其中bi∈RF是可学习的偏差。通过网格上采样（mesh upsampling）[32]，˜ε727922=v−预测3D模型然后，我们的方法的总损失函数定义为：其中vi和vi分别表示估计模型上的verte xi和V我们用公式表示三维坐标损失fn′coord（k）不同分辨率的估计网格L=l=1（L网格+λ）k=1 Lcoord（k）），（9）使用等式中定义的相同的三个损失。10不同网状拓扑。通过优化总微调对象-主动L′= λfn（L′+λ λKL′（k）），估计其中λ是正则化参数。l=1网格k=1coord3.2. 针对真实详细数据的弱监督微调由于没有包含衣服等细节的真实身体的地面真实3D模型通过使用预训练模型在真实点云上进行测试，可以获得与输入点云姿态和形状大致一致的3D模型V。虽然预测的3D模型V不能很好地拟合输入点云，但我们可以使用它们来监督实时的微调。穿衣服的数据。我们将微调网络中的网格回归损失定义如下：可以将3D模型配准到输入点云。4. 实验在本节中，我们首先阐述了我们的实现细节，然后通过与最先进的方法进行比较来评估我们的方法。最后，我们对我们的方法进行了烧蚀分析，并在实际数据上进行了测试。4.1. 实现细节数据集。我们在SURREAL [37]，Human3.6M [17]，DFAUST [7]和真实数据上进行实验。SURREAL的训练数据集包含55001个3D人体模型片段，每个片段大多有100帧长。我们-′网格 =L3D +βL 拉普拉斯 +γL 边缘、（10）对10，000个片段进行均匀采样，生成200，000个子片段。5帧长的男性和女性序列，其中L3D是3D对应损失，LLaplacian是Laplacian损失，Ledge是边缘损失，β和γ是正则化参数。3D对应性损失迫使估计模型的顶点与点云上的对应点对齐，定义如下：训练数据。DFAUST数据集[7]包含超过40，000个真实裸体的注册扫描，其形状和运动超出SMPL模型。由于DFAUST数据集有相应的SMPL模型，因此我们为男性和女性生成了50，000个随机数作为训练数据。我们把3D模型渲染出来-L3D=1ΣNNci=1mivi−pi2，（11）从不同的视图向深度图像添加元素，并使渲染图像的分辨率与真实数据几乎相同，以模拟真实深度。渲染的深度最终其中vi是估计的3D模型上的第i个顶点，pi是输入点云上vi的对应点，Nc为有效对应的个数，mi为0或1（如果是有效对应，mi= 1;否则，mi= 0）。点对应最初基于V构建，并在微调过程中迭代更新。以来3D对应丢失只限制了人体模型的可见顶点，被遮挡的人体部位容易恢复为不自然的形状。因此，我们引入拉普拉斯损失[34]来保持表面光滑度：ΣN转换为点云进行训练。对于SURREAL、Human3.6M和DFAUST，我们对男性和女性的约100帧长的100个序列进行了均匀采样作为测试数据。请注意，测试数据不包括训练数据中的任何相同主题。我们用Kinect V2传感器捕获了一个小的真实数据集，其中包含8100多个不同运动下不同主体的帧我们的网络是微调与方程。10个来自SURREAL、DFAUST和真实捕获数据的样本。建筑和实验设置。深度图像的原始点云被均匀地下采样到L =L。LLaplacian=i=1δi−δ在我们的实验中有2500分我们使用原始点-Net++[31]来提取点云上的局部特征的其中δ1Σi iNij∈N（i）vj是拉普拉斯坐标首先将提取的1，024维特征向量变换为（27<$256）-dim向量，具有全连通层，然后在估计的3D模型上的顶点i，N（i）是最近的-其中，Ni是顶点i的集合N（i）中顶点的个数，δ∈i是顶点xi在V上的拉普拉斯坐标. 此外，我们应用边缘损失[2]来惩罚不自然的边并强制3D模型的边长一致性：整形为27个顶点，具有256-dim特征向量。我们的时空MAC网络由四个不同的网格分辨率，上采样因子为{4，4，2，2}，最终输出1，723个顶点的3D坐标不同分辨率的特征通道为{256，128，64，32}，ΣNL边缘=ΣLL7280（vi−vj<$2−vi−v<$j<$2）2，（13）分别我们使用mlp{256，256，3}来表示顶点的共点。纵坐标回归量从时间和空间上看，2 2i=1j∈N（i）注意力机制，我们首先学习注意力权重，72812mlp{16，16}，然后使用随后的MLP层将它们映射到与输入特征大小每个网格卷积后面都有一个ReLu层，除了最后一个是回归三维坐标。学习速率设置为1×10−4。每个训练样本的长度为5帧。我们尝试使用训练样本，帧长度，但训练需要更长的时间。通过使用5帧的长度，我们的方法可以得到很好的重建精度。我们使用Adam optimizer [20]，批量大小为8。我们根据经验设定λ= 1，β= 60，γ= 100。测试样本的运行时间约为24。使用NVIDIA 2080 Ti GPU时平均耗时7ms错误度量。通过定量和定性实验对所比较的方法进行了评价。我们用平均顶点误差（MAVE）量化重建误差，所有恢复的3D模型的所有顶点以毫米（mm）为单位：方法超现实Human3.6MDFAUST纯模型拟合[25]140.6148.3110.1Bogo等人[6]美国56.160.557.5Wei等人[38个]58.664.162.2Kanazawa等人[18个国家]54.359.858.1Kanazawa等人[19个]52.757.356.1Kolotouros等人[21日]49.554.352.2我们的方法（非参数）18.221.419.7我们的方法（参数）19.422.820.3表1.在三个公共数据集的序列上测试不同方法的重建误差（mm）图3.重建精度的可视化使用d-=1NfΣNfk=11ΣNNi=1.（vi−vDFAUST 数据的不同方法。 (a) 输入扫描。 (b) The fittedparametric result of our method. (c) 我们的方法预测的(d)Kolotouros等人[21] 第20段。(e)Kanazawa 等人[19] 第10段。(f)Kanazawa等人[18]第10段。(g)Wei等人[38]第30段。其中Nf是测试样本的数量，vi是第i个顶点在所接收的3D模型上，v_i是在地面实况模型上的v_i的对应顶点x，并且N是顶点数。4.2. 与最新技术水平方法的我们首先比较了我们的三维人体模型估计方法与三种模型拟合方法从深度图像。纯模型拟合方法[25]使用模板和输入深度之间的搜索点对应性将SMPL模板变形到深度。 Bogo等人[6]首先检测2D身体关节，然后将SMPL模板拟合到检测到的关节。Wei等人。[38]通过匹配人体深度图像的学习特征描述符来构建点对应关系。然后通过将SMPL模板拟合到使用[38]找到的点对应来生成3D模型我们使用搜索点对应进一步将[6]和[38]的估计模型变形为输入深度。表1列出了不同方法的重建误差用不同方法对DFAUST数据的比较结果如图所示3.第三章。有关深度序列的比较结果，请参阅补充纯模型拟合法由于模板深度与输入深度之间存在较大的差异，恢复误差较大。[6]和[38]的性能分别高度依赖于检测到的关节和学习到的点对应的估计。不精确的关节和点对应可能导致使用这些方法的大的重建误差相比之下，我们的方法直接从点云预测3D人体模型，而无需建立点对应，从而导致更高的恢复精度。由于没有3D人体模型的深度学习方法，（h）Bogo等人[6]的文件。(i)纯模型拟合的结果。估计从深度图像，我们扩展了基于RGB的网络的比较，通过添加3D对应损失定义为方程。11个国家。我们在深度图像上训练回归网络我们还将我们的方法与最近的方法[21]进行了比较，通过Graph CNN提取深度图像上的特征并回归3D网格。Kanazawa等人[19]提出了一种用于从视频中恢复SMPL模型的时间编码器方法。我们通过在深度图像上采用他们的方法来比较[19]的时间编码器与我们的方法。如表1和图2所示。3、比较结果表明，本文方法在从深度图像序列中恢复连续三维人体模型方面优于现有方法。我们的方法不是像[18]和[19]那样估计SMPL参数，而是采用时空MAC网络以粗到细的方式预测网格顶点的3D坐标，从而提高了点云的拟合精度在[21]的Graph与[21]不同的是，我们的空间MAC方法基于特征向量和空间位置的差异来学习每个顶点的相邻与[19]的时间编码器的比较结果表明，我们的时空MAC可以成功地利用跨序列帧的网格顶点上的空间和时间特征特别是，通过将SMPL模型[25]拟合到我们的回归网格顶点，估计的参数模型具有与我们的回归3D网格相似的精度7282结果表明，该方法能够从非参数预测中准确地恢复出参数SMPL模型。4.3. 烧蚀分析空间网格注意卷积。我们首先评估我们的空间网格注意卷积（S-MAC）的有效性，通过比较我们的方法与SMAC。对于我们没有SMAC的方法，我们在特征映射后不应用相邻顶点特征与学习到的此外，我们通过用简单的邻域平均方法替换SMAC中的注意力模型来测试我们的方法[21]。使用不同方法的重建误差在表2中列出。我们的方法与SMAC可以实现更低的错误比其他方法，证明了我们的SMAC的有效性。与简单的平均方法相比，我们的SMAC可以更好地捕捉局部几何结构，在粗到细的回归框架中，通过动态分配相邻顶点的权重。时间网格注意卷积。我们还评估了建议的时间网格注意卷积（TMAC）的有效性，通过比较我们的方法与不TMAC。比较结果见表2证明我们的方法与TMAC可以提高估计精度的网格顶点，鼓励网络利用歧视性的时间特征。此外，利用连续帧数据可以减少形状的不确定性和模糊性。从图中所示的例子。4、无TMAC时，闭塞手不能准确复位。相比之下，我们的方法与TMAC忠实地估计3D手的形状，具有更高的精度，利用从顺序视图观察到的手的特征。图4.使用和不使用时间网格注意卷积（TMAC）的重建精度。(a)来自连续五帧的三个输入深度。（b，c）分别从两个视图示出了具有和不具有TMAC的帧1的结果。该方法通过TMAC提取相邻帧中的手部特征，能够更准确地恢复被遮挡手部的三维形状（被矩形包围）。时空网格注意卷积。我们通过将其与估计SMPL模型的3D回归方法[18]进行比较来进一步评估我们的时空MAC。在3D回归方法中，我们使用PointNet++ [31]从点云中提取特征，并替换2D联合损失方法超现实Human3.6MDFAUST我们的方法18.221.419.7没有SMAC45.349.147.6简单平均SMAC25.726.525.9没有麦蒂21.222.922.2三维回归65.868.465.3表2.我们的方法的重建误差（mm），我们的方法没有空间网格注意卷积（ SMAC ），我们的方法与简单的平均SMAC，我们的方法没有时间网格注意卷积（TMAC），和3D回归方法。点编号超现实Human3.6MDFAUST2,50018.221.419.75,00018.020.819.37,50017.920.719.1表3.不同采样点数下的重建误差（mm）[18]在3D通信损失。如表2所示，使用3D回归方法的恢复精度比我们的方法差，表明难以从点云准确估计SMPL模型参数。相比之下，我们的方法可以准确地估计三维坐标的网格顶点从粗到细，利用网格拓扑结构，通过时空MAC。图5.一个弱监督微调“女孩2”数据的例子。 (a)输入深度。（b，c）分别是弱监督微调之前和之后的结果。在3D模型和原始深度之间示出了具有对齐的叠加。对真实数据的弱监督微调。为了评估我们的弱监督微调对真实细节数据的有效性，我们比较了弱监督微调前后的估计结果一个例子如图所示。5.由于训练数据中缺乏真实详细的样本，在微调之前预测的3D模型不能很好地拟合输入数据。虽然预测的3D模型存在相对较大的恢复误差，但它们与点云大致对齐。通过对最初预测的3D模型的监督，我们的微调网络可以生成更准确的3D模型，这些模型具有与输入的真实数据一致的形状和姿势。采样点数。我们还研究了采样点数L对重建精度的影响，使用2500，5000和7500个采样点。表3示出了使用不同数量的采样点的重建误差。我们观察到，恢复精度略有提高，7283图6.一些恢复的3D模型使用我们的方法对真实数据。对于每个结果，我们显示提取的原始深度扫描，预测的非参数网格和拟合参数模型。从上到下：请注意，为了更好的可视化，我们在这里显示的是原始深度扫描而不是采样点。整个序列的重建结果请参见补充视频。增加点数。然而，培训过程也需要更长的时间。为了在估计精度和运行效率之间取得平衡，我们在实验中选择L=2，500实验结果表明，该方法在L=2500点的情况下仍能获得较好的精度，对少量采样点具有较强的鲁棒性。4.4. 真实数据我们测试我们的方法上的真实数据穿着人体的各种形状和姿势捕捉的Kinect V2传感器。“Kungfu” dataand “Girl” data are from [11], and图6示出了序列中的一些重建结果。完整序列的重建结果请参见补充视频。我们的方法的输入是从原始点云中均匀采样的2500个我们每次生成五个连续帧的3D人体模型由于我们的方法直接从点云预测3D模型，而不需要建立点对应关系，因此在处理整个序列时没有误差累积的问题。虽然存在严重的自遮挡和任意变形的实际数据，我们的方法仍然可以鲁棒和准确地估计三维人体形状，适合输入点云。通过提出的弱监督微调，我们的方法可以可靠地推广到真实点云的衣服机构。我们的方法可能会失败的情况下，非常大的姿势和宽松的衣服，如长裙。通过将我们的方法应用于更真实的详细数据，我们可以生成与真实数据一致的大型3D身体模型数据集，以满足社区中此类数据的需求传统的跟踪方法通常是通过在连续的深度帧上搜索点对应来跟踪人体运动，而本文的方法直接从点云数据中重建序列三维模型，这是一种新的跟踪人体运动序列的方法。5. 结论在本文中，我们解决了问题的顺序三维人体姿态和形状估计从一系列的点云。代替估计参数模型，我们提出了时空网格注意卷积，以从点云的潜在特征以粗到细的方式准确地预测不同分辨率的3D网格的顶点坐标。该方法通过在空间域和时间域中动态地为相邻点分配属性权重，既能利用单帧点云的局部结构特征，又能利用连续帧点云的时间结构特征，提高了序列三维人体模型的恢复精度此外，我们的方法被成功地推广到真正的详细数据捕获的深度传感器通过弱监督微调方法。在SURREAL、Human3.6M、DFAUST和真实细节数据上的实验结果表明了该方法的有效性。鸣谢本工作得到了国家自然科学基金项目61602444、61822310、U1713208和长江学者项目的部分资助。这项工作也得到了SenseTime研究基金。7284引用[1] ThiemoAlldieck ， MarcusMagnor ， BharatLalBhatnagar，Christian Theobalt，and Gerard Pons-Moll.学习从一个RGB摄像机重建穿着衣服的人。在IEEE计算机视觉和模式识别会议论文集，2019年6月。[2] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。SCAPE：形状完成和动画的人。ACM Transactions onGraphics，24：408[3] Anurag Arnab，Carl Doersch，and Andrew Zisserman.利用时间背景进行野外3D人体姿态估计。在IEEE计算机视觉和模式识别会议论文集，2019年6月。[4] Shaojie Bai，J. Zico Kolter和Vladlen Koltun。用于序列建模的通用卷积和递归网络的实证评估 arXiv ：1803.01271，2018。[5] 作者：Michael J.布莱克马修·洛珀哈维尔·罗梅罗从单目RGB-D序列对移动的人进行详细的全身重建。法律程序中 2015年IEEE计算机视觉国际会议[6] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J.黑色. SMPL：从单个图像自动估计3D人体姿势和形状。欧洲计算机视觉会议，第561-578页[7] Federica Bogo，Javier Romero，Gerard Pons-Moll，andMichael J.黑色. 动态浮士德：登记人体运动。在IEEE计算机视觉和模式识别会议上，2017年7月。[8] Mingsong Dou、Sameh Khamis、Yury Degtyarev、PhilipDavidson、Sean Fanello、Adarsh Kowdle、Sergio OrtsEs- colano、Christoph Rhemann、David Kim、JonathanTaylor、Pushmeet Kohli、Vladimir Tankovich和ShahramIzadi。Fusion4D：实时性能捕捉具有挑战性的场景。在ACM SIGGRAPH，2016年。[9] Mingsong Dou，Jonathan Taylor，Henry Fuchs，AndrewFitzgibbon，and Shahram Izadi.使用单个RGBD传感器对可变形物体进行3D扫描。在IEEE计算机视觉和模式识别会议集，2015年。[10] RızaA l pGuéler，Na taliaN ev er ov a，andIasonasKokkinos.DensePose：在野外进行密集的人体姿势估计。在IEEE计算机视觉和模式识别会议论文集，第7297-7306页[11] Kaiwen Guo，Feng Xu，Yanang Wang，Yebin Liu，andQionghai Dai.鲁棒的非刚性运动跟踪和使用L0正则化的表面重建。IEEE International Conference on ComputerVision，2015。[12] Kaiwen Guo ， Feng Xu ， Tao Yu ， Xiaoyang Liu ，Qionghai Dai，and Yebin Liu.使用一个rgbd相机进行实时几何、运动和运动重建。 ACM Transactions onGraphics，2017。[13] Marc Habermann ， Weipeng Xu， Michael Zollhoefer，Ger- ard Pons-Moll，and Christian Theobalt. LiveCap：实时从单目视频捕获人类表现。 ACM Transactions onGraphics，2019。[14] 作者：Mir Rayat Imtiaz Hossain和James J.点利用时间信息进行三维人体姿态估计。2018年欧洲计算机视觉会议[15] 黄英豪， Federica Bogo ， Christoph Lassner ， AngjooKanazawa ， Peter V. Gehler ， Javier Romero ， IjazAkhter，and Michael J.黑色.随着时间的推移，朝向准确的无标记人体形状和姿势估计。在3D视觉国际会议（3DV），2017年。[16] MatthiasInnmann，MichaelZollhoüfer，MatthiasNießner ， ChristianTheobalt ， andMarcStamminger.体积变形：实时体积非刚性重建。欧洲计算机视觉会议，第362-379页[17] 卡塔林·约内斯库，德拉戈斯·帕帕瓦，弗拉德·奥拉鲁，克里斯蒂安·明奇塞斯库.Human3.6M：大规模数据集和预测方法，用于自然环境中的 3D 人体感知 IEEETransactionsonPatternAnalysisandMachineIntelligence，36（7），2014年7月。[18] 作者：Michael J.作者：David W.雅各布斯和吉坦德拉·马利克端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议论文集，第7122-7131页[19] 作者：Jason Y.张，潘纳·菲尔森，和吉坦德拉·马利克。从视频中学习3D人体动力学。在IEEE计算机视觉和模式识别会议论文集，2019。[20] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。在2015年国际学习代表会议上[21] Nikos Kolotouros Georgios Pavlakos和Kostas Dani- ilidis卷积网格回归用于单幅图像的人体形状重建。在IEEE计算机视觉和模式识别会议集，2019年。[22] 放大图片作者：Christoph Lassner ， Javier Romero ，Martin Kiefel，Federica Bogo，Michael J.布莱克和彼得五世盖勒团结人民：关闭3D和2D人类表现之间的循环在IEEE计算机视觉和模式识别会议论文集，第6050-6059页[23] 李春丽、托马斯·西蒙、杰森·萨拉吉、巴纳布·帕索斯和亚瑟·谢赫。LBS自动编码器：自监督拟合铰接网格点云.在IEEE计算机视觉和模式识别会议论文集，2019。[24] Mude Lin，Liang Lin，Xiaodan Liang，Keze Wang，andHui Chen.循环3D姿态序列机器。在IEEE计算机视觉和模式识别会议上，2017年。[25] Matthew Loper、 Naureen Mahmood 、Javier Romero 、Gerard Pons-Moll和Michael J.黑色. SMPL：一个多人皮肤线性模型。 ACM Transactions on Graphics ， 34（6）：248，2015.[26] Richard Newcombe Dieter Fox和Steve Seitz动态-融合：非刚性场景的实时重建与跟踪。IEEE计算机视觉与模式识别会议论文集，2015年。[27] Georgios Pavla

下载后可阅读完整内容，剩余1页未读，立即下载