多视点图像下的人体位姿与形状重建方法

101 浏览量更新于2023-10-13 收藏 1.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4352基于多视点图像的形状感知人体位姿与形状重建俊邦亮明C.马里兰大学帕克分校{liangjb，lin}@ cs.umd.edu摘要我们提出了一种可扩展的神经网络框架，以在SMPL模型的子空间中从多视图图像重建人体的3D网格[23]。多视点图像的使用可以显著降低该问题的投影模糊性，提高服装下三维人体的重建我们的实验表明，这种方法的好处，从我们的管道生成的合成数据集，因为它具有良好的灵活性的变量控制，并可以提供地面实况验证。我们的方法优于现有的方法在现实世界的图像，特别是形状估计。1. 介绍人体重建，包括姿势和形状估计，已被广泛研究的各种领域，包括数字监控，计算机动画，特效，和虚拟/增强环境。然而，它仍然是一个具有挑战性和流行的话题。虽然直接3D身体扫描可以提供出色且足够准确的结果，但其采用在某种程度上受到所需专用硬件的限制。我们提出了一种实用的方法，可以估计身体姿势和形状直接从一个小的一组图像（通常为3至4）在几个不同的视角，这可以在许多应用中，如虚拟试穿。与现有的基于扫描的重建相比，我们的更容易使用。与以前的基于图像的估计方法相比，当输入人体不在身体质量指数（BMI）的正常范围内和/或当身体穿着宽松的衣服时，我们的方法具有更高的形状估计精度。此外，我们的框架在使用的图像数量上是灵活的，这大大扩展了它的适用性。与许多现有的方法相比，我们使用多视图图像作为输入。我们使用“多视角”一词它们可以使用专门的多视图相机拍摄，但这不是必要的（第2节）。6.4）。单视图图像往往缺乏必要和完整的信息由于投影变换的性质，可以推断人体的姿势和形状。尽管应用预定义先验可以减轻这种模糊性，但是在若干情况下，特别是当身体的一部分被衣服遮挡时，或者当姿势方向垂直于相机观察平面时，这仍然是例如，当人类走向相机时，可能难以区分站立与站立之间的差异。步行姿势使用直接的前视图图像，而侧视图像可以提供更多的姿势信息。通过从多个视角获得信息，可以大大减少来自投影的模糊性，并且还可以更准确地重新覆盖宽松服装下关于人体的姿势和形状估计的先前工作（参见第2）主要依靠优化。在这些方法中使用的最重要的度量之一是原始轮廓和估计轮廓之间的差异。结果，这些方法不能直接应用于其中人穿着宽松衣服的图像，例如，长外套晚礼服我们的方法的关键见解是：当估计一个人T恤如何被腹部或胸部推动而伸展，提供了比人的轮廓更多的信息因此，图像特征，特别是服装特征，在形状估计中起着重要的作用随着深度学习的最新进展，人们普遍认为深度卷积神经网络（CNN）结构可以有效地捕获这些细微的视觉细节作为激活值。提出了一种多视角多级网络结构，从不同视角有效地捕捉服装上的视觉特征，从而更准确地提取服装的姿态和形状信息。给定有限数量的图像，我们结合先验知识的人体形状要重建。具体而言，我们建议使用皮肤多人线性（SMPL）模型[23]，该模型使用主成分分析（PCA）系数来表示人体形状和姿势。为了训练模型以准确地输出SMPL模型的系数，需要足够数量的包含地面实况信息的数据4353是必需的.然而，据我们所知，不存在这样的数据集来提供具有其地面真实形状参数（即，原始网格）。先前的基于学习的方法不解决形状（几何形状）恢复问题[26]或仅输出接近人体的标准平均形状的一个近似[19]，这在恢复具有很大变化的形状的人体时是不够的利用物理仿真的优势，我们设计了一个系统流水线来生成大量的具有不同姿势，形状和衣服的多视图人体运动序列通过在具有地面真实形状数据的合成数据集上进行训练我们在实验中证明，使用额外的模拟数据训练的神经网络可以大大提高形状恢复的准确性。总而言之，我们工作的主要贡献包括：• 一种基于学习的形状感知人体网格重建，其使用SMPL参数用于直接在形状参数上监督的姿势• 一个可扩展的、端到端的、多视图的多阶段学习框架，用于解决从2D图像重建3D人体（几何）问题的模糊性，从而实现改进的估计结果。• 大型模拟数据集，包括穿着衣服的人体和相应的地面实况参数，以提高重建精度，特别是在形状估计中，其中在真实世界数据集中没有提供地面实况或监督。• 通过（a）提供相应的监督和（b）使用多视图框架深化模型，在服装遮挡下进行准确的形状恢复2. 相关工作在这一节中，我们调查人体姿势和形状估计，神经网络技术，以及其他相关的工作，利用合成数据的最新作品。2.1. 人体姿态和形状恢复人体复原由于其在诸如虚拟环境、计算机动画和服装建模等各种各样的应用中的重要性而获得了极大的兴趣然而，考虑到有限的输入和遮挡，问题本身自然是以前的工作减少了这种模糊性使用不同的假设和输入数据。它们包括四个主要类别：来自图像的姿势、来自紧身衣服下的图像的姿势和形状、扫描的网格以及具有宽松衣服的图像。从图像中摆姿势。在一个或多个人的图像中推断2D或3D姿势是计算机视觉中的一个热门话题，并且已经被广泛研究[31，42，43，54，55]。我们参考Mehta等人的最近的工作VNect。[26]它能够使用CNN实时从RGB图像中识别人类3D姿势。通过比较，我们的方法估计的姿势和形状参数在同一时间，恢复整个人体网格，而不仅仅是骨架。从紧身衣下的图像中获取姿势和形状。先前的工作[3，6，10，11，12，18]使用轮廓作为主要特征或优化函数来恢复形状参数。因此，这些方法只能在人穿着紧身衣服时使用，如示例[41，47]所示。通过在真实数据和合成数据中对各种服装下的人类图像进行训练，我们的方法可以学习基于图像特征捕获潜在的人类姿势和形状。从扫描的网格的姿势和形状。从扫描的网格中恢复人体的一个主要挑战是从穿着衣服的扫描人体中移除布网格[34]。Hasler等人[13]使用迭代方法。他们首先将拉普拉斯变形应用于初始猜测，然后基于统计人类模型对其进行正则化Wuhrer等人[50]在整个序列的关键帧中使用扫描输入的界标来优化身体姿势，同时基于“内部距离”恢复形状，该“内部距离”有助于约束网格停留在衣服下面，具有与邻近帧的时间一致性。Yang等[51]应用界标跟踪算法以防止过多的人力劳动。Zhang等人[53]更充分地利用了时间信息来检测皮肤和衣服区域。如前所述，基于扫描网格的方法是有限的：扫描设备昂贵且不常用。我们的方法使用更常见的RGB图像，因此适用范围更广。服装下图像的姿态与形状。B.A.M.L.等.[2]是第一个明确估计姿势和形状从图像的穿着人类。他们放宽了衣服区域的损失当皮肤检测器不起作用时，这种方法的性能很容易下降，例如。当人们有不同的肤色或穿长袖。然而，我们的方法是在大量的图像上训练的，这不需要这个约束。Bogo等人[4]使用2D位姿机获得关节位置，并基于关节差异和相互渗透误差优化位姿和形状参数Lassner等人[21]通过在SMPLify上合并剪影能量项创建了半自动注释数据集[4]。他们训练了一个决策森林，以根据SMPL模型[23]在优化期间提供的更密集的标志集回归参数将轮廓能量效应约束到人体参数子空间可以减少宽松服装的负面影响，但其注释数据来自SMPLify [4]的优化，其具有4354固有地引入了错误相比之下，我们生成大量穿着衣服的人体网格，具有姿势和形状地面实况，然后可以将神经网络训练为2.2. 基于学习的姿态/形状估计最近，已经提出了许多方法来改进具有校准的多视图输入的3D姿态估计，无论是使用LSTM [46，29]，自动编码器[36，45]还是热图细化[32，44]。它们主要关注3D关节位置而没有参数化，因此不能进行动画和动画。Choy等人[7]提出了一种基于LSTM的一般物体形状恢复网络。Varol等人[48]提出了一种两步估计人体姿态和形状的方法。然而，这两种方法在很大程度上受到由于体素表示的分辨率的限制。相比之下，我们的方法输出的整个身体网格参数化，因此与高分辨率的网格质量。此外，我们的方法不需要校准的相机，这是更适用于在野外的图像。Kanazawa等人[19]使用迭代校正框架，并使用学习的判别器对模型进行正则化。由于它们不采用除关节位置之外的任何监督，因此形状估计可能是不准确的，尤其是当人相对超重时。相比之下，由于来自我们的合成数据集的额外监督，我们的模型更具形状意识最近的作品[30，33，20]使用各种方法解决人体估计问题;通过比较，我们的方法在单视图或多视图输入中提供了更好的性能（参见附录C）。2.3. 使用合成数据集由于收集足够大的数据集来训练深度神经网络通常是时间和劳动密集型的，因此越来越多的注意力被吸引到合成数据集的生成上。最近的研究[5，52]表明，使用合成数据集，如果足够接近真实世界的数据，有助于训练神经网络执行真实任务。Varol等人[49]使用SMPL模型和CMU MoCap数据[8]建立了一个数据集（SURREAL），其中包含人类运动序列和服装虽然SURREAL数据集足够大并且非常接近我们的需求，但它仍然是不够的，因为（a）人类的衣服只是身体网格上的一组纹理点，这意味着它是紧身衣服，（b）身体形状是从CAESAR数据集[37]中绘制的，其中形状参数的不均匀分布可以用作神经网络的“先验偏差”。以及（c）数据仅由单视图图像组成，这不足以用于我们的训练。与[5，49]不同的是，我们的数据生成管道是基于物理模拟，而不是在人体上粘贴纹理，使模型能够从更真实的图像中学习，其中，男人穿着宽松的衣服。最近的作品[39，1]也生成合成数据来辅助训练，但他们的数据集在姿势，形状和纹理上只有非常有限的变化相比之下，我们的数据集由各种不同的姿势，形状和服装纹理组成。3. 概述在本节中，我们将概述我们的方法。首先，我们正式定义问题。然后，我们介绍了我们的方法的基本思想。问题说明：给定一组多视图图像，I1... 在，采取了相同的人与相同的姿势，重新-覆盖了人体的基本姿势和形状。在训练阶段，我们设置n= 4，即默认情况下，我们对人采取四种视图：前、后、左、右，但不要求精确的视角及其顺序，如第四点三。为了扩展我们的框架以兼容单视图图像，我们将输入图像复制四次作为输入。有关图像排序和扩展到其他多视图输入的更多详细信息，请参见第四点三。我们采用广泛使用的SMPL模型[23]作为我们的网格表示，因为它能够使用低维参数结构来表达各种人体。如前所述，由于遮挡和相机投影，该问题遭受模糊问题。直接在一个CNN上训练作为回归量很容易导致模型陷入局部最小值，并且它不能适应任意数量的输入图像。受残差网络结构[15]的启发，我们提出了一个多视图多阶段框架（Sec.（4）解决这个问题。由于现实世界的数据集受到有限的前景/背景纹理和地面实况姿态和形状参数的影响，我们使用合成数据作为额外的训练样本（第二节）。5）使得模型可以被训练成更具有形状感知。4. 模型架构在本节中，我们将描述网络模型的配置.如图1，我们迭代地运行我们的模型进行几个阶段的错误校正。在每个阶段内，多视图图像输入一次传递一个。在每个步骤中，共享参数预测块基于图像特征和输入猜测来计算校正我们同时估计相机和人体估计的姿态和形状参数在所有视图之间共享，而每个视图保持其相机校准和全局旋转。每一步的损失为关节损失和人体参数损失之和：Li=λ〇L2Dj〇int+λ1L3Dj〇int+LSMPL（1）4355图1：网络结构。多视图图像首先通过图像编码器以获得特征向量f1，.，fn.在初始猜测相机参数Θ1，i和人体参数Θ1，i的情况下，网络开始逐步估计参数Cb一个视图一个视图。第i阶段和第j视图处的每个回归块从图像特征fj（红色）和先前猜测Θi，j（蓝色）和Θi，j（绿色）回归校正值。结果将被加到输入值并传递到将来的块。而新Cb人体参数（绿色）可以被传递到下一个回归块，视图特定的相机参数（蓝色）只能被传递到同一视图的下一个阶段最后，输出最后阶段中的n个视图的预测以生成预测。其中λ0和λ1缩放单位并控制每个项的重要性我们在2D关节上使用L1损失，在其他关节上使用L2损失。如果没有地面实况，则省略LSMPL4.1. 三维实体表示我们使用皮肤多人线性（SMPL）模型[23]作为我们的人体表示。它是一个从人体网格数据训练的生成模型姿态参数是人体内23个关节的旋转，形状参数是从PCA中提取的。给定姿势和形状参数，SMPL模型可以生成由6980个顶点组成的人体网格：X（λ，λ）=WG（λ）（X0+Sλ+PR（λ））（2）其中X2R6980R3是计算的顶点，✓2R72是每个关节的旋转加上全局旋转，Ø2R10是PCA系数，W，S和P是训练的ma。trices ，G（ X）是全局变换， X0是平均体顶点，R（X）是相对旋转矩阵.对于相机模型，我们使用正交投影，因为它具有非常少的参数，并且当对象足够远时是对真实世界相机的接近近似，这是大多数情况。我们将计算的3D身体投影回2D以进行损失计算：x=sX（✓，Ø）RT+t（3）视图数。同时，它耦合了不同视图之间的可共享信息，使得可以使用来自所有视图的图像特征来优化人体姿势和形状。如图1，我们使用多视图多阶段框架来耦合多个图像输入，其中共享参数跨越所有回归块。由于来自多个视图的信息可以多次相互交互，因此回归需要运行几个迭代阶段。我们选择将该共享信息明确地因此，回归块的输入是对应的图像特征向量以及来自先前块的预测相机和人体参数。受残差网络[15]的启发，我们预测校正值而不是每个回归块的更新参数，以防止梯度消失。我们在每个阶段有n个块，其中n是视图的数量。由于所有输入图像包含具有相同姿势的相同人体，因此这n个块应该输出相同的人类特定参数，但可能是不同的相机矩阵。因此，我们共享跨不同视图的人体参数输出和跨相同视图的不同阶段的相机变换。更具体地说，第i阶段的回归块和第j视图23取（f，j，θi，j，Θi，j）的输入，并且输出校正的其中R2RR是正交投影矩阵，scb和t分别是缩放和平移其中fj表示第j个图像特征Cb向量，Θi，j是相机矩阵，并且Θi，j是人类4.2. 可扩展多视图框架Cbi+1，ji、ji、j我们提出的框架使用了一个经常性的结构，使其成为一个通用的模型，适用于任何4356参数之后，我们传递Θc= Θc+∆Θc到下一阶段的块在同一视图，而我们将Θi，j+1=Θi，j+θi，j传递到链的下一个块b b b4357图2：回归模块的详细网络结构第i级和第j视图。fj表示第j个图像的图像特征其中，Θi，j表示相机参数，并且Θi，j表示相机参数。重要的是，（c）来自其训练数据集的地面实况SMPL参数不具有足够的形状变化。对均值-形状偏置的数据集强制鉴别器将阻止模型预测极端形状。我们使用50层ResNet-v2 [16]进行图像特征提取。回归块内部的详细结构如图所示。二、在整个训练和所有测试实验中，我们将阶段的数量固定为3。学习率设置为10−5，训练持续20个epoch。培训在GeForce GTX 1080 Ti GPU上运行大约需要一天的时间。我们C人体参数。B合成数据集将与论文一起发布。(Fig.①的人。最后，我们计算总损失作为最后阶段所有n个视图的预测的平均值。与静态多视图CNN必须固定输入数量不同，我们使用循环形式的RNN结构来接受任何数量的视图，并通过使用纠错框架来避免4.3. 训练与推理直观上，我们在训练过程中使用n= 4，因为提供前、后、左、右视图通常可以提供关于人体的足够信息。我们从输入图像中选择一个随机的起始视图，以考虑第一个视图和初始猜测之间的潜在相关性。不需要输入视图的特定顺序，因为（a）每个回归块的网络参数是相同的，以及（b）在不同视图之间没有共享相机旋转信息。为了利用大型公共单视图数据集，我们将每个实例复制到4个相同的图像作为输入。在推理过程中，我们的框架可以适应具有任意数量的视图n的图像，如下所示。如果n 为4，我们使用与训练相同的结构。我们可以填充任何输入图像来填充剩余的视图。由于每个视图在全局旋转方面都是独立的，因此选择哪个视图进行填充并不重要。如果n >4，我们将网络扩展到n个视图。由于这是一种纠错结构，因此可以将额外步骤引入的超出值校正回来。注意，每个视图的相机参数校正的数量始终保持相同，即阶段的数量。4.4. 实现细节在训练期间，除了我们的用于增强形状估计的合成数据集之外（在第2节中详细讨论）5），我们在MS-COCO [22]，MPI INF 3DHP [24]和Hu-man 3. 6 M [17]数据集上进行训练。每个小批次由一半单视图样本和一半多视图样本组成。与HMR [19]不同的是，我们不使用鉴别器。这是因为（a）我们将我们的参数初始化为HMR的训练模型[19]，（b）由我们的数据集给出的地面实况用作正则化以防止关节位置未捕获的不自然姿势（例如，关节位置）。脚方向），以及大多数5. 数据准备据我们所知，没有公共的真实世界数据集捕获人体的运动序列，用姿势和形状（使用参数模型或原始网格）注释，具有相当大的形状变化和宽松的服装。这种数据的缺乏反过来又迫使大多数以前的人体估计只关注关节。恢复人体姿势和形状的最新工作[19]没有施加显式的形状相关损失函数，因此他们的模型不知道不同的人体形状。为了使我们的模型在衣服下具有形状感知，我们需要具有真实人体形状的数据训练需要大量的数据;对捕获地面实况形状参数的真实世界数据进行采样既具有挑战性又耗时。我们选择了另一种方法-使用合成数据。在本节中，我们提出了一个自动管道来生成形状感知训练数据，以提高形状估计性能。5.1. 参数空间采样我们采用SMPL模型[23]，其中包含人体的姿势和形状参数。姿态参数是关节的旋转角度。为了在日常生活中对有意义的人体运动序列进行采样，我们使用CMU MoCap数据集[8]作为我们的姿势子空间。形状参数是主分量权重。用高斯分布对形状参数进行采样是不理想的;否则，将存在比极端值多得多的平均形状值，从而导致不平衡的训练数据。到为了使模型更能感知形状，我们选择在[µ-3σ，µ+3σ]处对值进行均匀采样，其中µ和σ表示形状参数的平均值和标准差。5.2. 人体运动合成在将CMU MoCap姿态数据与采样的形状参数组合之后，由SMPL模型生成的人体网格可能由于形状差异而具有相互穿透。由于相互渗透是有问题的4358图3：渲染合成图像的示例。我们使用了大量的真实世界的背景和布料纹理，使渲染的图像是真实的和多样化的。对于布料模拟，我们设计了一个优化方案，以避免在几何意义上的它：最小kx-x0kS.T. g（x）+0（4）其中x和x0代表顶点位置，g（x）是穿透深度，被设计为为服装预留空间这里的主要思想是通过将顶点弹出身体来避免相互穿透，但同时保持调整后的距离尽可能小，以便身体形状不会发生太大变化。这种实用的方法在大多数情况下都很有效。5.3. 布料配准和模拟在我们开始模拟生成的每个身体上的布料之前，我们首先需要将它们注册到身体的初始姿势。为了考虑不同身体的形状差异，我们首先手动将布料配准到其中一个身体网格。我们标记布的相对刚性变换T。对于其他体网格，我们计算并应用全局变换，包括变换T和两个网格之间的缩放。5.2以避免任何剩余的碰撞，因为可以假设在转化之后的穿透量很小。我们使用ArcSim [28]作为布料模拟器。我们在数据生成期间不更改材料参数。不过，我们会随机抽取布料的松紧度我们通常希望在训练数据中同时使用紧身和宽松的服装。5.4. 多视图再现我们在不同的图像中随机应用不同的背景和布料纹理。我们保持相同的布料纹理，但在不同的视图中应用不同的背景。我们使用四种最常见的视图（前、后、左和右），它们是由w.r.t.定义的。初始人体方向并在渲染期间固定我们对100个随机形状进行采样，并将其随机应用于CMU MoCap数据集中的5个姿势序列（慢速和快速行走，跑步、跳舞和跳跃）。在解决了5.3中描述的冲突之后，我们在上面注册了两套衣服，一套是连衣裙，另一套是T恤、裤子和夹克（图10）。（3）第三章。姿势和服装种类可以说是足够的，因为（a）它们提供最常见的姿势和遮挡，以及（b）它是提供形状地面实况的辅助数据集，其与具有更丰富姿势地面实况的真实世界数据集联合训练。我们渲染每个模拟帧的两个实例，随机拾取背景和布料纹理。给定每个序列平均80帧，我们已经生成了32，000个实例，总数量为128，000个图像。我们将前90个形状设置为训练集，将最后10个形状设置为测试集。我们通过将我们的数据集与具有联合注释的其他数据集耦合，确保了姿势和布料的通用性（Sec. 4.4）。6. 结果我们使用Human3.6M中的标准测试集和MPI INF3DHP的验证集来展示引入多视图输入后的性能增益。由于没有公开可用的数据集具有真实的形状参数或网格数据，或者数据包含与BMI正常范围内的那些形状显著不同的形状（例如超重或体重不足的身体），我们使用合成测试集对先前的工作（作为基线）测试我们的模型。此外，我们在真实世界的图像上进行测试，以表明我们的模型比基线方法更具有形状意识-定性地使用在线图像，定量地使用我们的方法不假设相机校准的先验知识，因此预测与地面实况相比可能具有尺度差异。由于图像裁剪，还存在额外的平移和旋转。为了与其他方法进行公平比较，我们报告了刚性对齐后的方法，如下[19]。我们还在附录中报告了刚性对齐之前的度量。6.1. 消融研究我们进行了消融研究，以显示我们的模型和合成数据集的有效性。在实验中，HMR [19]使用相同的学习设置进行微调。6.1.1姿态估计我们使用多视图图像在数据集上测试了我们的模型，以证明我们框架的强度。我们使用身体14个关节的平均每关节位置误差（MPJPE）以及阈值为150 mm的正确关键点百分比（PCK）以及阈值范围为0- 150 mm的曲线下面积（AUC）[25]作为我们的指标。PCK给出了误差阈值内的关键点的分数，而AUC计算PCK曲线下的面积，在阈值内呈现更详细的准确性。4359我们使用MPI INF 3DHP [19]的验证集作为额外的测试数据集，因为它提供多视图输入。在我们的培训期间，它不用于验证。我们还评估了由单视图图像组成的原始测试集此比较结果请参见我们补充文件中的附录。比较：如表1和表2所示，在相同的训练条件下，我们的单视图模型在所有实验中的结果相似，如果不是更好的话同时，我们的模型在多视图中实现了更高的精度。方法MPJPEw/ syn. 培训MPJPE无同步信号培训HMR60.1458.1我们的（单人）58.5559.09我们的（多）45.1344.4表1：使用MPJPE对人3.6M的比较结果。误差越小意味着精度越高。方法PCK/AUC/MPJPEw/ syn. 培训PCK/AUC/MPJPE无同步信号培训HMR86/49/8988/52/83我们的（单人）88/52/8487/52/85我们的（多）95/63/6295/65/59表2：PCK/AUC/ MPJPE中MPI INF 3DHP的比较结果。更好的结果具有更高的PCK/AUC和更低的MPJPE。6.1.2形状估计据我们所知，没有公开可用的数据集提供具有所捕获的人体网格的图像或足够多样的人体形状集合中的其他表示。由于大多数基于图像的数据集都是为联合估计而设计的，因此我们决定使用我们的合成测试数据集进行大规模统计评估，然后使用真实世界的图像与[19除了MPJPE的关节精度，我们使用两个网格之间的Haus- dorff 距离来捕捉形状差异的地面真相。Hausdorff距离是一个集合中任何点到另一个集合的最大最短距离，定义如下：d（V1，V2）=max（d（V1，V2），d（V2，V1））（5）d（ V1，V2）= max minku-vk2（6）u∈V1v∈ V2其中V1和V2是处于相同地面实况姿态的两个网格的顶点集，以消除不同姿态的影响。直觉上，Hausdorff距离为d意味着将一个网格的每个顶点移动不超过d，两个网格将完全相同。如表3所示，与其他两个基线相比，我们的多视图输入模型实现了最小的误差值。经过综合数据的联合训练，所有4360方法MPJPE/HDw/ syn. 培训MPJPE/HD无同步信号培训HMR42/8389/208我们的（单人）44/65102/283我们的（多）27/5384/273表3：在MPJPE/Hausdorff距离（HD）中对我们的合成数据集的比较结果。更好的结果具有更低的值。模型在形状估计中表现更好，同时使用其他度量（表1和2）保持类似的结果，即它们不会过拟合。HMR[19]的联合误差相当好，因此它们仍然可以识别图像中的合成人。然而，较大的Hausdorff距离表明它们在形状恢复上失去精度。添加我们的合成数据集进行训练可以有效地解决这个问题，从而提供更好的形状估计。我们实现了一个小得多的Hausdorff距离（与syn。训练），甚至仅使用单个视图。这是因为我们的细化框架有效地更深入，不仅针对姿态，而且针对形状估计，这比仅针对姿态的估计更具挑战性利用相同的方法，与仅使用一个单视图图像的结果相比，多视图输入可以进一步提高6.2. 与多视图方法的由于其他多视图方法只估计人体姿态，而不是整个人体网格，我们比较姿态估计结果，他们在Human3.6M。如表4所示，即使在相机校准未知且未提供时间信息的情况下，我们也实现了最先进的性能。如第二节所述。6、未知的相机参数导致与地面真实值的缩放差异，因此联合误差将比实际情况更糟是.在考虑这种效应的Procrustes对齐之后，与其他方法相比，我们的方法实现了最好的MPJPE。误差的另一个潜在来源是我们的解决方案被约束在参数子空间中，而其他方法直接输出关节位置。相比之下，我们的方法计算整个人体网格，除了关节和结果可以直接连接和动画。6.3. 真实世界的评价我们首先进行研究，我们的方法如何执行不同的单视图或多视图输入在各种条件下。我们的测试对象有两种姿势：站立和坐着，模型还在图像的两组变体上进行了测试。一个稍微变暗，另一个在第一个图像的中心有一个大的黑色遮挡我们使用裁缝常用的人体测量误差百分比（即，颈部、手臂、腿部、胸部、腰部和臀部的长度），其使用对受试者的直接卷尺测量我们报道了av-4361方法MPJPE已知相机？运行时临时选项？发音清晰？形状？Rhodin等人[35]第三十五届Rhodin等人[36]Pavlakoset al. [32]Trumbleet al. [46]Trumbleet al.[45 ][46][47][48][49] [29]Tomeet al.[第四十四届]-98.256.8987.362.554.2152.8是的是的是的是的0.025fps--25fps3.19fps8.33fps-是的是否是否没有否否否否否否混合高斯不不不体积编号没有我们美国（PA）79.8545.13没有33fps没有是的参数化表4：Human3.6M与其他多视图方法的比较。我们的方法具有可比的性能与以前的工作，即使没有相机校准或时间信息的援助。PA代表Procrustes为我们对齐结果。方法站坐HMR [19]7.72%7.29%BodyNet [48]百分之十三点七二百分之二十九点三我们的（单人）6.58%10.18%我们的（多）6.23%5.26%表5：使用平均相对误差（越低越好）的磁带测量数据的比较结果。(a)输入图像。（二）我们的结果。（c）HMR。图4：与HMR相比的预测结果。我们的模型可以更好地捕捉人体的形状。恢复的腿和胸部更接近图像中的人。相对误差见表5。附录中还提供了每次测量的详细误差。结果表明，单视点输入会受到“遮挡坐姿”的影响HMR不受影响的原因是它们均匀地输出所有输入图像的平均人体形状。我们还报告了BodyNet的结果[48]。Bo- dyNet输出体素化网格，需要耗时的它的准确性很大程度上取决于最初的猜测。因此，它导致了大量的错误，对我们还在其他在线图像上测试了我们的模型，这些图像无法进行此类测量。如图4，HMR [19]可以预测身体姿势，但无法推断人的形状。相反，我们的模型不仅细化了相对腿的方向，但也很大程度上尊重和恢复的身体的原始形状更多的例子显示在我们的补充文件和视频。6.4. 日常生活通常难以使来自不同视角的多个相机同时捕获对象。我们的模型具有额外的好处，即不需要使用完全相同的姿势进行多视图输入。由于该模型具有误差校正结构，因此只要四个视图的姿态没有显著不同，就可以应用该模型我们不对背景施加任何假设，因此图像甚至可以用固定的相机和“旋转”的人类主体拍摄7. 结论和未来工作我们提出了一种新的多视角多阶段框架的姿态和形状估计。该框架在最多4个视图的数据集上进行训练，但可以自然地扩展到任意数量的视图。此外，我们引入了基于物理的合成数据生成管道来丰富训练数据，这对于传统数据集无法捕获的末端效应器的形状估计和正则化非常有帮助。实验已经表明，我们的训练模型可以使用单视图图像提供与现有技术同样好的姿态估计，同时使用多视图输入提供对姿态估计的相当大的改进，并且在所有数据集上提供更好的形状估计虽然合成数据通过地面实况参数提高了人体的多样性，但需要更方便的布料设计和配准，以最大限度地减少真实图像和合成数据之间的性能差距。此外，诸如头发、肤色和3D背景的其他变量是可以以更复杂的数据生成流水线的更高成本影响合成数据的感知真实性的细微元素。随着最近使用GAN [27]进行图像风格转换的进展，一个有希望的方向是将合成结果转换为更真实的图像，以进一步改善学习结果。鸣谢：这项工作是由美国国家科学基金会和伊丽莎白S。Iribe教授。4362引用[1] ThiemoAlldieck ， MarcusMagnor ， BharatLalBhatnagar，Christian Theobalt，and Gerard Pons-Moll.学习从一个单一的rgb相机重新构建穿着衣服的人。在IEEE计算机视觉和模式识别会议论文集，第1175-1186页，2019年。三、十四[2] Al e xandruOBalan和MichaelJBlack。赤裸裸的事实：估计衣服下的身体形状。在欧洲计算机视觉会议上，第15-29页。Springer，2008. 2[3] Alexandru O Balan ， Leonid Sigal ， Michael J Black ，James E Davis，and Horst W Haussecker.从图像中获得详细的人体形状和姿势计算机视觉与模式识别，2007年。07年CVPR。 IEEE会议，第1-8页。IEEE，2007年。2[4] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl：由单一影像自动估计三维人体位姿与形状。欧洲计算机视觉会议，第561-578页。施普林格，2016年。2[5] Wenzheng Chen，Huan Wang，Yangyan Li，Hao Su，Zhenhua Wang，Changhe Tu，Dani Lischinski，DanielCohen-Or，and Baoquan Chen.合成训练影像以提升人体三维位姿估计。在3D视觉（3DV），2016年第四届国际会议上，第479-488页IEEE，2016. 3[6] Yu Chen，Tae-Kyun Kim，and Roberto Cipolla.从单个视图推断欧洲计算机视觉会议，第300-313页。施普林格，2010年。2[7] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在欧洲计算机视觉会议上，第628-644页施普林格，2016年。3[8] CMU。卡内基-梅隆mocap数据库。由nsf eia- 0196217，2003资助创建。三、五[9] Rishabh Dabral、 Anurag Mundhada 、 Uday Kusupati、Safeer Afaque、Abhishek Sharma和Arjun Jain。从结构和运动学习三维人体姿势。在欧洲计算机视觉会议（ECCV）的会议记录中，第668-683页，2018年。13[10] EndriDibra 、 HimanshuJain 、 CengizOüztireli 、 RemoZiegler和Markus Gross。Hs-nets：用卷积神经网络从剪影中估计人体形状。在3D Vision（3DV），2016年第四届国际会议上，第108-117页。IEEE，2016. 2[11] Peng Guan，Alexander Weiss，Alexandru O Balan，andMichael J Black. 从人体模型估计人体形状和姿态一个单一的形象。在Computer Vision，2009 IEEE第12届国际会议上，第1381-1388页。IEEE，2009年。2[12] Nils Hasler ， Hanno Ackermann ， Bodo Rosenhahn ，Thorsten Thorm aühlen和Hans-PeterSeidel。从图像集对着装对象的多线性姿态和在计算机视觉和模式识别（CVPR）， 2010年IEEE会议上，第1823-1830页。IEEE，2010。2[13] Nils Hasler，Carsten Stoll，Bodo Rosenhahn，ThorstenThorm aühlen，andHans-PeterSeidel. 估计体型穿衣服的人Computers Graphics，33（3）：211-216，2009. 2[14] Kai m ingHe，Geo r giaGkioxari，PiotrDol la'r，andRossB.娘娘腔。面罩R-CNN 。 CoRR， abs/1703.06870，2017年。12[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。三、四[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。在欧洲计算机视觉会议上，第630-645页。施普林格，2016年。5[17] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu.人类3。6m：自然环境中3D人体感知的大规模数据集和预测方法。IEEE Transactions onPattern Analysis and Machine Intelligence，36（7 ）：1325-1339，2014. 5[18] ArjunJain 、 ThorstenThorm¨ hlen 、 Hans-PeterSeidel 和Christian Theobalt。影片整形：在视频中跟踪和重新塑造人类。ACMTransactions on Graphics（TOG），第29卷，第148页。ACM，2010年。2[19] 作者：Michael J.作者：David W.雅各布斯和吉坦德拉·马利克端到端恢复人体形状和姿势。在计算机视觉和模式识别（CVPR），2018年。二、三、五、六、七、八、十二、十三、十四[20] Nikos Kolotouros Georgios Pavlakos和Kostas Dani- ilidis卷积网格回归用于单幅图像的人体形状重建。在IEEE计算机视觉和模式识别会议论文集，第4501-4510页三、十三[21] Christoph Lassner 、 Javier Romero 、 Martin Kiefel 、Federica Bogo、Michael J Black和Peter V

下载后可阅读完整内容，剩余1页未读，立即下载