穿着衣服的3D扫描序列的重要性与挑战

58 浏览量更新于2023-10-16 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4191从穿着衣服的3D扫描序列Chao Zhang1，2，Sergi Pujades1，Michael Black1，and Gerard Pons-Moll11MPIforIntelligentSystems，Tubingen，German y2部英国约克大学计算机科学系图1：给定静态3D扫描或3D扫描序列（粉色），我们估计衣服下的裸体形状（米色）。我们的方法通过最小化捕获皮肤的可见细节的目标函数来获得准确的结果，同时对服装具有鲁棒性。我们展示了几对穿着衣服的扫描序列和下面的估计体型。摘要我们解决的问题，估计人的姿态和随着时间的推移，3D扫描的身体形状。3D体型的可靠估计对于包括虚拟试穿、健康监测和虚拟现实的化身创建在内的许多应用是必要的。然而，在最小的布料中扫描物体对这些应用提出了实际障碍。我们通过从一系列3D扫描中估计衣服下的体型来解决这个问题。以前的方法利用人体模型产生光滑的形状，缺乏个性化的细节。我们贡献了一种新的方法来恢复个性化的形状的人。所估计的形状偏离参数模型以拟合3D扫描。我们证明了该方法使用高质量的4D数据以及序列的视觉外壳，从多视图图像。我们还提供BUFF，这是一种新的 4D 数据集，可以进行定量评估http://buff.is.tue.mpg.de/。我们的方法在姿态估计和形状估计方面都优于现有技术，无论是定性还是定量。1. 介绍我们解决的问题，估计一个人穿着衣服的三维扫描序列或从多视图图像计算的视觉外壳的身体形状。可靠地估计衣服下的形状对于许多应用是有用的，包括虚拟试穿、生物测定和健身。它也是虚拟服装和布料模拟的关键组件，其中服装需要在最少穿着的身体上合成。此外，人类的大多数数字记录是穿着衣服完成的，因此需要从这样的数据中提取生物特征信息的自动方法。虽然衣服遮挡了人的最小穿衣形状（MCS）并且使任务具有挑战性，但是人的不同姿势对衣服下的形状提供了不同的约束。先前的工作[2，45]通过使用不同的姿势优化形状来利用这一事实。他们使用统计形状模型SCAPE [1]，该模型将人体形状分解为主体身份和姿势。这种方法的主要局限性在于，只有统计模型的参数是最优的。4192mized，因此解被约束为位于模型空间上。虽然统计模型对人类形状提供了强大的约束，但它们通常过于平滑，并且丢失了重要的身份细节，例如面部特征。更重要的是，当优化模型参数时，诸如“布料服装应该位于身体形状表面之外”的约束难以满足。这是因为大多数统计身体模型中的形状变形是全局的，因此模型空间中的一个步骤，例如，缩小腹部可能会使人变短的因此，我们提出了一种新的方法来估计MCS，该方法恢复了准确的全局体型以及重要的局部形状身份细节，如图所示。1.一、我们的假设是，一个人穿着相同的衣服的几个姿势提供了足够的约束，详细的身体形状捕捉。此外，如果身份细节可见，例如面部表情和手法应该能捕捉到他们为此，我们提出最小化单帧目标函数，该单帧目标函数（i）强制扫描布料顶点保持在MCS外部，（ii）使MCS紧密地配合可见皮肤部分，以及（iii）使用将MCS捕捉到附近的布料顶点并忽略远处的布料点的鲁棒函数。与以前的工作相比，只有模型形状参数优化，我们直接优化的N=6890顶点的模板在一个典型的这使我们能够通过满足客观约束来捕获局部形状细节。为了满足人体测量的限制，我们调整优化顶点，以保持接近统计身体模型。我们使用SMPL [20]，这是一种公开可用的基于顶点的模型，与标准图形管道兼容。虽然这种配方有更多的变量进行优化，我们表明，它会导致更准确，更详细的结果。虽然简单，但所提出的单帧目标是强大的，因为它可以适应不同的任务。为了平衡时间信息，人们希望一次优化序列中的所有扫描。然而，考虑到高分辨率扫描，这在计算上非常昂贵并且是存储密集的。因此，我们首先通过变形一个模板来配准/对齐所有扫描，以解释皮肤和布料扫描点。这些布料对齐是通过最小化将所有扫描顶点视为皮肤的单帧物镜的特殊情况来获得的。由于模型因素的姿态和形状，所有的布对齐模板生活在一个共同的un-posed空间，我们呼吁这些unposed对齐的融合扫描。由于对于所有帧，布料都应该位于身体外部，因此我们使用融合扫描作为输入来最小化单帧目标，并获得人的准确形状模板（融合形状最后，为了获得姿态和时变形状细节，我们使用融合形状作为正则化器再次优化单目标函数该方法的概述如图所示二、其结果是一个数字和视觉上准确的估计下的身体形状的衣服和它的姿势，适合穿着扫描（见图）。①的人。为了验证我们的方法，我们使用现有的数据集[45]并收集了一个新的数据集（BUFF：流动时尚下的身体我们在http://buff.is.tue.mpg.de/上公开提供BUFF用于研究目的。 BUFF包含在每个受试者总共有11，054个高分辨率的衣服扫描，具有真实的定性和定量-实验结果表明，我们的方法优于现有技术的方法。2. 相关工作身体模型。稳健的人体姿势和形状估计的关键成分是身体模型[32]。计算机视觉中的早期人体模型基于简单的基元[3，12，29，36]。最近的身体模型[1，20，49]分别对形状和姿势变形进行编码，并从数千次真实人物的扫描中学习。一些作品联合建模形状和姿势变形，如[15]，其中他们对三角形的旋转不变编码执行PCA。一个流行的身体模型是SCAPE [1]，它将三角形变形分解为姿势和形状。最近的工作提出了通过使用线性混合蒙皮（LBS）近似姿态相关变形来使SCAPE更有效[17，28]。为了增加形状空间的表现力，[7]将SCAPE与每个身体部位的局部多线性模型相结合。SMPL [20]使用线性函数对姿势和形状引起的变化进行建模。一些模型[26，31]还包括动态软组织变形;推断衣服下的软组织变形是一个令人感兴趣的未来方向。姿态和形状估计。大量的作品都是从穿着紧身衣的人身上推测出人体的姿态和体型方法[43，46，47]估计姿势和来自深度传感器的形状通常组合轮廓、深度数据或颜色项。在[4]中，他们从深度序列中估计身体形状，但他们专注于穿着最少衣服的人。在[33]中，他们根据深度数据估计姿势和形状，结合自下而上的对应关系和自上而下的模型拟合。然而，服装没有明确建模。在[16]中，他们提出了一种基于Kinect的实时全身跟踪器，但他们首先以固定姿势获取受试者的形状，然后保持形状参数固定。大量方法从图像或多视图图像中跟踪人体姿势/形状，忽略服装或将其视为噪声[6，11，39]。使用卷积神经网络[27，42，23]从大量注释数据中训练的人体部位检测器的出现使人类形状和姿势估计成为可能，这具有挑战性。4193Est场景[5，34，9，18]。在[5]中，他们将SMPL模型拟合到联合检测以估计姿态和形状。然而，估计的形状是一种简化，因为骨长度本身不能确定完整的身体形状。最近，[34]使用高斯和身体模型[39]并估计户外序列中的姿势和形状，但对齐能量不考虑服装。衣服下的形状估计被布料遮挡的底层形状是一个高度约束不足的问题。为了解决这个问题，大多数现有的方法利用统计身体模型，如SCAPE或其变体。在[14]中，他们从一个3D扫描中估计形状。它们的旋转不变体表示没有分离和姿态参数，因此不能简单地推广到序列。在[21]中，他们提出了一种分层的衣服模型，并通过检测衣服靠近身体的区域来估计身体形状。Wuhrer等人[44]在单个或多个3D扫描上估计衣服下的形状。姿态和形状在每个帧处被估计，并且最终形状被获得为多个帧上的平均值。Stoll等人[38]估计穿着衣服的模板下的裸露形状，但需要手动输入，并且它们的重点是估计近似形状以用作碰撞检测的代理。所有这些方法都需要手动输入来初始化姿势[14，21，44]。[35]的工作结合了一个服装模型，用于在服装下进行更稳健的跟踪，但仅显示了小腿的结果，并将形状作为该方法的输入。遵循相同的原则[13]，建议学习布料如何偏离身体的统计数据以进行鲁棒推理，但他们在2D中这样做类似地，在[37]中，他们使用物理模拟来穿戴SCAPE身体模型以学习此类统计数据，但服装种类非常有限。[2]的作者从多视图图像估计服装下的身体形状，并且像我们一样，他们利用了时间信息。然而，它们仅优化模型参数，因此不能捕获形状细节。仅使用生物特征形状特征提供数值评估。[45]的工作提出了一种类似的方法来估计运动中衣服下的形状和姿势，但他们从扫描中进行，并且只优化模型参数。[45]中使用的姿势变形模型太简单，无法跟踪复杂的姿势，如耸肩或抬起手臂。3. 身体模型SMPL [20]是一个身体模型，它使用一个学习的装配模板T，其中N=6890个顶点。SMPL的顶点位置根据身份相关的形状参数和骨架姿势进行调整人体的骨骼结构用由n=24个关节连接的刚性骨段组成的运动链建模每个关节被建模为具有3个旋转自由度（DoF）的球关节，用指数坐标ω参数化。包括平移在内，姿态θ由3×24+ 3= 75个参数的姿态向量确定建模形状和姿势相关变形SMPL以加法的方式修改模板，并从变形的模板预测关节位置该模型，M（β，θ）则为M（β，θ）=W（T（β，θ），J（β），θ，W）（一）T（β，θ）=Tµ+Bs（β）+Bp（θ）（二）其中W（Tµ，θ，J）：R3N×R|θ|×R3K<$→R3N是一个线性混合蒙皮函数，它采用静止姿势T µ中的顶点、关节位置J、姿势θ和混合权重W，并返回已设定姿势的顶点。参数Bs（β）和Bp（θ）是从模板的顶点偏移的向量。我们将这些分别称为形状和姿势混合形状。我们使用M来表示SMPL生产的网格。请注意，这与M不同，M仅指ver-tices见[20]更多详情。4. 方法我们的目标是估计裸体的形状和姿势的主题从一系列的衣服扫描{S}k。如果扫描有颜色信息，我们使用它将扫描顶点分成两个集合：皮肤（Sskin）和布料（ Scloth ），否则我们将所有顶点视为布料（Scloth=S）。这里我们使用[30]中的分割方法，参见Sup。Mat. 为续费我们的方法的输出是：个性化静态模板形状TFu、每帧姿势θ k和每帧详细模板形状Tk。理想情况下，姿态相关的形状变化应该由TFu和姿态变形模型来解释;然而，在实践中，模型偏离真实数据。因此，我们允许我们的结果以前的工作局限于优化模型参数，TkEst 随着时间的推移略有变化。这使我们能够捕捉到参数，因此，结果缺乏细节，因为它们是仅限于模型空间。我们超越了现有技术，并联合估计模型参数和主题特定的自由形式形状。其他工作是无模型的，并随着时间的推移估计非刚性3D形状[10，22，25，48]。虽然这项工作可以捕捉穿着衣服的人，但它不使用身体模型，无法估计衣服下的形状。我们的方法结合了身体模型的强约束和自由变形的无模型方法。时间变化细节，例如面部细节，存在于数据中这是模型所不能代表的。给定单次扫描，我们通过最小化单帧目标函数来获得形状（Sec. 4.1），其将扫描布点限制在身体外部，并且惩罚从身体到皮肤部分的偏差。然而，从单次扫描估计形状是约束不足的问题。幸运的是，当考虑序列中的所有信息时，底层形状受到更多约束，因为4194一BCDe图2：a）布料对齐b）未摆位对齐c）融合扫描d）融合形状e）摆位和跟踪形状。概述：显示了三个示例帧。请注意布褶皱中摆姿势a）和未摆姿势b）对齐之间的匹配。不同的时间框架提供了不同的约束在unposed空间。融合扫描是逐帧无定位对准的联合。颜色代码表示该区域的差异。从融合扫描c），我们获得融合形状d）。一BCD图3：皮肤项权重。a）路线分段（红色：皮肤，蓝色：布料）b）到对齐上最大布料顶点的测地线距离c）具有不平滑颈部和手臂的断开结果d）平滑结果。不同的姿势会使衣服在不同的部位紧贴身体。为了利用这种丰富的时间信息，我们首先把所有的输入扫描对应。因此，我们获得了一组已设定的配准和未设定的模板配准（见图11）。2 a和b）。未设定的模板的联合创建融合扫描（图2c）。我们用它来估计一个单一的形状，我们称之为融合形状（图2d）。由于所有的时间信息融合到一个单一的融合扫描，我们可以估计融合形状使用相同的单帧目标函数。使用融合形状模板作为先验，我们可以准确地估计序列的姿态和形状。在图2中，我们显示了该方法的不同步骤。每个阶段的结果都是使用同一单帧物镜的变体获得的。4.1. 单帧物镜我们将单帧目标函数定义为：E（TEst，M（β，0），θ;S）=λskinEskin+Ecloth+λcplE cpl+λ priorEprior，其中，Eskin是皮肤项，Ecloth是布料项，Ecpl结果（图3c）。为了使成本函数平滑，我们首先计算对齐中的一个点到最近的布料点的测地线距离，然后我们应用logis-tic函数映射0和1之间的测地距离值（图3b）。我们将这个函数命名为g（x）：R3<$→[0，1]。结果值通过最近距离传播到扫描点，并用于加权每个扫描残差。这这样，靠近蒙皮-布料边界的点具有平滑递减的权重。这有效地使函数平滑且对不准确的分割具有鲁棒性（图1）。3 d）。ΣEskin（TEst，θ;S）=g （ si ） ρ （ dist（ si ， M（TEst，θ），si∈S皮肤（三）其中d是点到表面的距离，ρ（·）是Geman-McClure罚函数。请注意，dist（）计算网格M（TEst，θ）、三角形、边或点上的最接近的本原ive;相应地计算每个中的解析导数。案子布料项：布料目标由两个项组成：Ecloth=λutsideEutside+λfitEfit。外部术语使穿过网格的布料点永久化，而适合术语鼓励网格保持靠近布料表面。这与之前的工作[45]相反，该工作假设封闭扫描并将模型推入内部。由于扫描不是封闭的表面，我们只是惩罚布点穿透我们的封闭配准表面。因此，该方法对于点云是通用的。外部项是每个扫描点的惩罚之和，标记为穿过形状网格的布料s∈Scloth是模型耦合项，E先验包括先验项EΣ（T ，θ;S）=δdist（s，M（T，θ））2，姿势、形状和平移。M（β，0）=Tµ+Bs（β）;Tµ是SMPL模型的默认模板，β是形状空间的系数，参见等式（二）、接下来我们外面Est我我si∈S布Est（四）描述每个术语。皮肤项：我们惩罚模型的偏差，以扫描标记为皮肤si∈S皮肤的点（见图3）。一个简单的惩罚只适用于皮肤点，在边界处的不连续性，这导致了不良的重新-其中δi是返回1的指示函数，如果扫描点si位于网格内部，否则为0。通过计算网格表面法线与连接扫描顶点和网格中最近点的矢量之间的角度，可以容易地获得激活δi仅外部项的最小化就可以使形状过薄。因此，拟合项Efit用于4195k=1布布布k=1θ图4：左：布料术语。x轴是有符号的离散4.2. 融合形状估计单帧物镜的问题有两个方面：时间信息被忽略，帧形状随时间变化，这取决于姿态。这可以在图的右边部分看到。4.第一章直接的方法是将单帧目标扩展到多帧，并联合优化单个TEst，β和N帧构成{θk}N帧。不幸的是我们的扫描结果s ∈S之间的距离布而M（TEst，θ）。内部的点大约150，000个点，并联合使优化效率非常低，内存-（负）有二次惩罚，而外面的点是使用鲁棒的Geman-McClure函数进行惩罚。右：单帧估计值与地面真实值之间的均方根误差和标准差。结果有显着的分散取决于姿势。（对象00005的结果，运动紧张此外，姿势中的轻微未对齐会使形状收缩太多。因此，我们提出了一个有效和更有效的解决方案。我们首先顺序地将所有扫描记录到一个单一的穿着模板。对于配准，我们使用没有布料项的单帧目标函数。由此，我们获得每帧Tk的模板覆盖。有趣的是，Tk模板的集合保持裸体模特的音量。每一次布料扫描如果顶点偏离了实体，则会受到惩罚。由于我们想对宽服装保持鲁棒性，我们将Efit定义为Geman-McClure成本函数。有了这个强大的成本函数，远点（例如，点在裙子或宽夹克）支付一个小的几乎恒定的惩罚。由此产生的布料术语在图的左边部分示出。4.第一章保留非刚性布料的运动与运动，由于姿势的因素，见图。二、裸体的形状应该躺在所有的衣服模板内。因此，我们收集所有模板，并将其视为一个单一的点云，我们称之为融合扫描SFu={Tk}N帧。因此，我们可以很容易地获得一个单一的形状估计，通过再次使用单帧ob。射的偶合项：仅优化Eskin和Ecloth结果TFu= argminTEst，βE（TEst，M（β，0），0;SFu）.（七）结果非常不稳定，因为没有人类拟人-强制执行ric约束。因此，我们约束模板TEst以保持接近统计形体模型Ecpl（TEst，M（0，β））=diag（w）（TEst，e−M（0，β）e）<$2（五）其中对角矩阵diag（w）简单地增加了对于像手和脚这样的部分的耦合强度，其中扫描噪声更大。在由下划线e指示的边缘上执行耦合。由于我们联合优化TEst和β，因此形状的模型被拉向TE st和反之亦然所获得的融合形状已经相当准确，因为融合扫描会在裸露的形状所在的区域进行切割。4.3. 姿态和形状跟踪最后，我们使用融合的形状进行跟踪regularizing估计的形状，以保持接近的融合形状。我们通过将估计耦合到融合形状而不是SMPL模型形状来空间所以耦合项is nowEcpl（TEst，M（0，β））›→Ecpl（TEst，TFu）.获得详细的形状最小化亦然优化的结果是一个详细的估计TEst和形状β的模型表示。TkEst5. 数据集= argminTEst，θE（TEst，TFu，θ. Sk）。（八）先验项：使用高斯先验对姿势进行正则化从[20]的姿势训练集计算另外还在姿势之前强制Mahalanobis距离：Eprior（θ）=（θ −µθ ）T−1（θ −µθ ）（6）其中平均值µθ和协方差θ是从姿势训练集计算的。类似的优先级可以在形状空间系数β，但我们发现它没有显着差异。为了优化单帧目标，我们使用自微分工具Chumpy[19]计算导数。我们使用在本节中，我们将介绍新的BUFF数据集。我们先介绍一下前面的数据集。5.1. 现有数据集INRIA数据集[45]由通过将视觉外壳重建应用于68色相机（4M像素）系统以30 fps获得的网格序列组成该数据集包括6名受试者（3名女性，3名男性）在3种不同运动和 3 种穿衣风格下捕获的稀疏运动捕获（MoCap）数据扫描的纹理信息不可用。图5a）和b）示出了来自数据集的帧。通过拟合来估计主题的4196µ图5：INRIA数据集：a）和b）扫描样品; c）估计b）的“地面实况”形状; d）b）和c）的重叠。S-SCAPE [17]模型到如图5c）和d），他们的统计身体模型没有捕捉到人体形状的个体细节。这种“地面实况形状”的主要缺点是它使评估偏向于模型空间。所有重新覆盖的细节，落在模型之外，将在定量评估中惩罚。或者，可以将获得的形状直接与视觉外壳进行比较。不幸的是，视觉船体不是很准确，有时高估，有时低估的真实形状。虽然与形状估计值的定性评价相关这促使我们创建BUFF，它保留了细节并允许对形状估计进行定量评估。5.2. 缓冲器为了创建BUFF，我们使用定制的多相机主动立体系统（3dMD LLC，Atlanta，GA）来以每秒60帧捕获全身3D扫描的时间序列。该系统使用22对立体摄像机、22台彩色摄像机、34台散斑投影仪和白光LED面板阵列。投影仪和LED灯以120 fps的速度闪烁，以在立体捕捉和彩色捕捉之间交替。与被动立体匹配方法相比，投影纹理模式使立体匹配更加准确、密集和可靠立体声对被安排为一系列活动提供全身捕捉，使我们能够捕捉运动中的人。该系统输出的3D网格平均约150K顶点。BUFF由6名受试者组成，3名男性和3名女性穿着2种服装风格：a）T恤和长裤，b）一套服装，见图。六、序列长度范围在4到9秒（200-500帧）之间，总计13，632次3D扫描。如先前的现有技术方法[2]所示，肤色是丰富的信息来源。因此，我们在数据集中包括纹理数据。所有受试者在参与研究前均提供了书面知情同意书。1例受试者未允许出于研究目的发布其数据。因此，公共BUFF数据集由11，054次扫描组成。图6：BUFF数据集：为了验证我们的方法，我们捕获了一个新的数据集，包括6个穿着不同服装风格和不同运动模式的受试者。图7：顶行：受试者03223穿着“最少的衣服”进行“A-T-U- Squat”运动。这些扫描用于计算地面实况MCSTGT。底行：三重扫描，估计的地面实况模型和两者叠加（帧000150）。所提出的地面实况形状捕获扫描点云中存在的细节。5.2.1计算地面实况为了估计我们数据集中的参与者进行“A-T-U-Squat”运动（图1的第一行）。（七）. 对于所有帧，我们使用我们的方法来拟合数据，将所有顶点视为“皮肤”（参见第二节）。4.1）。我们获得N个模板网格Ti，它们不完全匹配，因为姿势和形状在SMPL模型中没有完全分解[20]。我们将TGT定义为所有帧的估计值的平均值。我们定量地估计了我们的“地面”的准确性，真实的MCS估计。超过一半的扫描点与TGT的距离在1.5mm以内，80%的扫描点与T GT的距离小于3mm。因为扫描点云具有一些噪声（例如，扫描平台的点，重建不佳的手，头发，.），我们相信计算出的TGT提供了对受试者“最少穿衣形状”的准确解释在图的底行中。7我们定性地示出了计算的地面实况MCS的视觉准确性。6. 实验在本节中，我们介绍了评估措施和所获得的定性和定量结果。a）、b）、c）、d）、4197T恤，长裤足球服平均向左倾斜扭转0000500096000320005703223001140000500032000570322300114平均Yang等[45个]17.2918.6813.7617.9417.9015.4216.7716.9618.5220.4116.4017.27融合网2.582.892.392.532.432.382.502.632.372.282.282.47详细2.522.832.362.442.272.312.442.592.282.172.232.40臀部0000500096000320005703223001140000500032000570322300114平均Yang等[45个]21.0221.6615.7717.8721.8418.0522.5216.8119.5522.0317.5419.51融合网2.812.712.662.662.542.652.652.632.582.502.572.63详细2.752.642.632.552.402.562.582.592.502.382.512.55肩式轧机0000500096000320005703223001140000500032000570322300114平均Yang等[45个]18.7719.0218.0216.5018.1514.7818.7417.8815.8019.4716.3717.59融合网2.562.922.742.462.422.692.892.872.372.442.582.63详细2.492.852.722.372.262.592.832.822.282.332.512.55表1：估计的裸形状的数值结果。我们报告的均方根误差毫米的点到表面之间的距离构成GT网格和方法的结果。最佳值以粗体突出显示。图9：BUFF数据集上的定性形状估计结果。从左到右：Ground truth shape，Yang et al. [45]，融合的形状（我们的），详细的形状（我们的）。图8：BUFF数据集上的定性姿态估计结果。从左到右：scan，Yang et al. [45]我们的结果。6.1. 对先前数据集的评价我们对姿势估计的结果进行了定量评估，并对INRIA数据集中的形状估计进行了定性评估[45]。我们估计了所有紧身衣序列的形状。为了初始化姿态，我们使用[49]中自动计算的地标。我们将Mo- Cap标记位置与我们的结果和[45]。从每个序列的前50帧中均匀采样10帧，以获得10个对应集。在图10中，我们报告了所有帧和对应集的平均误差;我们的方法在姿态估计中获得了现有技术的结果。在图的第一行。11我们给出了INRIA数据集的定性结果。我们的结果是合理的估计最少的衣服形状。在图的第二行。11我们将我们的结果与[ 8 ]中关于舞者序列的先前工作进行了定性比较。我们的结果在视觉上优于先前的技术水平其他结果见4198100806040200010203040506070标志距离（mm）60504030200306090120150帧索引扫描姿势，并且在视觉上优于[45]，特别是在肘部和肩部估计方面。在图9中，我们示出了形状估计的定性结果。所提出的融合形状准确地恢复身体形状，而详细的虽然详细的形状在视觉上更接近地面实况，但两个结果非常相似，请参见Tab。1.一、为了评估皮肤/布分离时该方法的稳健性，图10：INRIA数据集上的姿势估计准确度。左：误差小于给定距离（水平轴）的界标百分比，单位为mm。右：每帧平均界标误差。[45]《易经》中的“五行图11：顶部：INRIA数据集的定性结果;扫描（粉红色），我们的结果。下图：Dancer序列的定性比较[8]。从左至右：scan，Wuhrer et al. [44]，Yanget al.[45]我们的结果。的Sup。垫;结果最好在视频中看到，包括在http://buff.is.tue.mpg.de/网站。6.2. 关于BUFF的为了定量评估BUFF中的结果，我们将估计的体型与计算的地面真实网格进行了比较（Sec.5.2.1）。我们将估计的身体形状的给定一个结果网格S，我们优化姿态θ，使姿态TGT最适合S。然后，S和所定的TGT之间的误差被计算为TGT中的每个顶点与其在表面S上的最近点之间的欧几里得距离。在选项卡中。1我们给出了由[45]得到的数值结果我们的融合网格，和我们的细节网格。用我们的方法获得的结果系统地优于最好的最先进的方法。图8我们展示了姿态估计的定性我们的方法正确地恢复了我们评估我们的方法，将BUFF的扫描标记为所有布料。虽然获得的形状不太详细，但它们仍然是准确的。所获得的平均误差为0.3 mm（所有布料），而不是0.2 mm。5mm（详细）时，使用我们提出的完整方法。附加结果和基线在Sup中列出。Mat.计算时间和参数。单帧目标计算每帧需要1000秒，融合网格计算每帧需要2000秒。细节细化每帧需要140秒。计算序列在并行和计算上执行3GHz的8-核心英特尔至强E5。使用λskin=100、λoutside=100、λfit=3和λcpl= 1估计BUFF上的累积。对于INRIA数据，我们降低了拟合项λfit= 1，以更好地适应宽服装。更多细节在UPMat.7. 结论我们介绍了一种新的方法来估计一个详细的身体形状下的衣服从一系列的三维扫描。我们的方法利用信息的序列，融合成一个单一的帧所有穿着登记。这导致非常准确的形状估计。我们还贡献了一个新的数据集（BUFF）的高分辨率3D扫描序列的衣服的人，以及地面真理最小的衣服形状为每个主题。BUFF是第一个高质量的4D扫描数据集;它将使得能够对体型估计进行准确的定量评估。BUFF的结果表明，相对于最先进的技术水平，有了明显的改进。该方法的局限性之一是低估了女性乳房的形状;这似乎是SMPL的局限性。SMPL不考虑身体的软组织变形;未来的工作将纳入软组织变形模型[31]，以获得更准确的结果。此外，使用所获得的最小衣服形状和衣服对齐，我们计划学习衣服偏离身体的模型。为了收集数据来学习这种模型，我们将研究使用惯性测量单元（IMU）[41，40]来获得更准确的宽衣服下的姿势估计。8. 致谢我们感谢[21]和[44]的作者提供他们的结果进行比较。我们特别感谢作者，[45]因为他们的方法是在BUFF上运行的。EHBS提出百分比（%）EHBS提出平均标志距离（mm）4199引用[1] D. Anguelov ， P. 斯里尼瓦桑 D.Koller ， S.Thrun ，J.Rodgers和J.戴维斯Scape：人的形状完成与动画在ACM Transactions on Graphics（TOG），第24卷，第408-416页中。ACM，2005年。一、二[2] A. O. B.a. J. 黑色. 赤裸裸的事实：估计衣服下的身体形状。欧洲计算机视觉会议，第15-29页。Springer，2008.一、三、六[3] C.巴伦和我。A.卡卡迪亚里斯从单个图像估计人体测量和姿势。计算机视觉和模式识别，2000年。诉讼IEEE会议，第1卷，第669-676页。IEEE，2000年。2[4] F. Bogo，M. J. Black，M. Loper和J.罗梅罗从单眼RGB-D序列中详细重建移动的人的全身。在国际计算机视觉会议（ICCV），第2300-2308页，12月。2015. 2[5] F. Bogo、A.金泽角放大图片，P. Gehler，J. Romero和M.J. 黑色. SMPL：从单个图像自动估计在计算机视觉Springer International Publishing，Oct. 2016. 3[6] A. O. 巴伊兰湖 Si gal，M. J. Black，J. E. D a vis和H.W. Haussecker从图像中获得详细的人体形状和姿势。2007年IEEE计算机视觉和模式识别会议，第1-8页。IEEE，2007年。2[7] Y. Chen，Z. Liu和Z.张某基于张量的人体建模。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第1052[8] E. 德阿吉亚尔角斯托尔角Theobalt，N.艾哈迈德，H.P.Seidel和S. Thrun.从稀疏多视图视频中捕获性能。27（3）：98，2008. 七、八[9] E. 迪布拉角厄兹蒂雷利河 Ziegle r和M. 恶心自拍的形状欧洲计算机视觉会议，第88施普林格，2016年。3[10] M. Dou，S.Khamis，Y.Degtyarev，P.Davidson，S.R. 法内洛A. Kowdle，S. O.埃斯科拉诺角Rhemann，D.金，J. taylor等人 Fusion4d ：挑战场景的实时性能捕获。 ACMTransactions on Graphics（TOG），35（4）：114，2016。3[11] J. Gall，B. Rosenhahn，T. Brox和H.- P. Seidel人体运动捕捉的优化和滤波。国际计算机视觉杂志，87（1-2）：75-92，2010。2[12] D. M. Gavrila和L. S.戴维斯基于3-D模型的行动中的人的跟踪：多视图方法。计算机视觉与模式识别，1996年。ProceedingsCVPR'96，1996 IEEE Computer SocietyConference on，pages 73-80.IEEE，1996年。2[13] P. Guan、O. Freifeld和M. J.布莱克。一个穿着本征服装的2d人体模型。欧洲计算机视觉会议，第285-298页。施普林格，2010年。3[14] N. 哈斯勒河斯托尔湾Rosenhahn，T. Thor méhlen和H.-P. 赛德尔估计穿着衣服的人的体型。 Comput-ersGraphics，33（3）：211-216，2009. 3[15] N. 哈斯勒角斯托尔山桑克尔湾Rosenhahn和H.-P. 赛德尔。人体姿势和体型的统计模型。在计算机图形论坛，第28卷，第337-346页。Wi-ley在线图书馆，2009. 2[16] T. Helten，A.Baak，G.Bharaj，M.Müller，H.-P. 赛德尔，以及C.希奥博尔特基于深度的实时全身跟踪器的个性化和评估。在2013年3D视觉国际，第279-286页IEEE，2013。2[17] A. Jain，T. Thor méhlen，H.- P. Seidel和C. 希奥博尔特Moviereshape：跟踪和重塑视频中的人类29（6）：148，2010. 二、六[18] C.放大图片作者：J. Romero，M.基费尔F. Bogo，M. J.Black和P. V. Gehler.团结人民：闭合3d和2d人类表征之间的循环。在IEEE计算机视觉和模式识别CVPR上，2017年。3[19] M.洛珀Chumpy是一个基于Python的框架，旨在处理自动微分问题。https：pypi.python.org/pypi/chumpy，2015. 5[20] M. 洛珀，N.Mahmood，J.罗梅罗湾Pons-Moll和M.J.布莱克。SMPL：一个多人皮肤线性模型。ACM Trans.Graphics（Proc. SIGGRAPH Asia），34（6）：248：1-248：16，Oct. 2015. 二三五六[21] A. Neophytou和A. Hilton.人体和服装变形的分层模型。2014年第二届3D视觉国际会议，第1卷，第171-178页。IEEE，2014。三、八[22] R. A. Newcombe，D. Fox和S. M.塞茨动态融合：非刚性场景的实时重建与跟踪。在IEEE计算机视觉和模式识别会议论文集，第343-352页，2015年。3[23] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。arXiv预印本arXiv：1603.06937，2016年。2[24] J. Nocedal和S. J·赖特数值优化Springer，New York，2nd edition，2006.5[25]S. 奥茨-埃什卡诺， C. 瑞曼 S. 法内洛 W. 张，A. 考德尔 Y. 杰格佳列夫 D. 金姆， P. L. 戴维森S. Khamis ， M. Dou 等人， Holoportation ：虚拟 3dteleportation在实时。在第29届用户界面软件和技术年度研讨会论文集，第741-754页。ACM，2016。3[26] S. I.帕克和J. K哈金斯皮肤和肌肉变形的数据驱动建模。ACM事务处理图表，27（3）：96：1 2[27] L. Pishchulin、E. Insafutdinov，S.唐湾Andres，M. An-driluka，P. Gehler和B.席勒Deepcut：联合子集划分和标记用于多人姿势估计。2[28] L. 皮舒林 S. 武勒 T. Helten C. Theobalt和B.席勒建立统计形状空间用于三维人体建模。[arXiv]，2015年3月。2[29] R. Plankers和P.呸用于基于视频的人体建模的铰接软物体。在 International Conference on Computer Vision ，Vancouver ， Canada ， number CVLAB-CONF-2001-005，pages 394-401，2001中。2[30] G. Pons-Moll ， S. Pujades ， S. Hu ，和 M 。黑色 .Clothcap：无缝的4D服装捕获和重定向。图形上的ACM转换（Proc.SIGGRAPH）[to appear]，2017. 34200[31] G. Pons-Moll，J.罗梅罗，北Mahmood和M. J.布莱克。Dyna ：动态人体运动模型。 ACM Transactions onGraphics（TOG），34：120，2015。二、八[32] G. Pons-Moll和B.罗森哈恩基于模型的姿态估计，第9章，第139-170页。Springer，2011. 2[33] G. Pons-Moll，J. Taylor，J. Shotton，A. Her

下载后可阅读完整内容，剩余1页未读，立即下载