多服装网络：图像学习3D人物着装

63 浏览量更新于2023-10-13 收藏 2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5420Multi-Garment Net：从图像学习3D人物着装Bharat Lal Bhatnagar Garvita Tiwari Christian Theobalt Gerard Pons-Moll Max PlanckInstitute for Informatics，Saarland Informatics Campus，Germany{bbhatnag，gtiwari，theobalt，gpons}@ mpi-inf.mpg.de摘要我们提出了多服装网络（MGN），这是一种预测体型和服装的方法，它从视频的几帧（1-8）中分层到SMPL [40]模型之上。几个实验表明，这种表示允许更高水平的控制相比，单个网格或体素表示的形状。我们的模型允许预测服装的几何形状，将其与身体形状，并将其转移到新的身体形状和姿势。为了训练MGN，我们利用包含712个对应的数字服装的数字衣柜，通过一种新颖的方法将一组服装模板注册到不同服装和姿势的人的真实3D扫描的数据集。来自数字衣橱或由MGN预测的服装可以用于以任意姿势打扮任何体型。我们将公开提供数字衣柜，MGN模型和代码，以便在[1]中使用服装穿着SMPL。1. 介绍从图像对人进行3D重建和建模是计算机视觉和图形学中的中心问题。虽然最近的一些方法[5，3，4，25，41，51]试图重建人的衣服，他们缺乏现实主义和控制。这种限制在很大程度上是由于它们使用单个表面（网格或体素）来表示衣服和身体。因此，他们无法将服装与图像中的主体分开捕获，更不用说将其映射到新颖的身体形状。在本文中，我们介绍了多服装网络（MGN），第一个模型，能够推断人体和分层的服装在顶部作为单独的网格直接从图像。如示于图 1这种新的表现形式允许完全控制服装的体型、纹理和几何形状，并为VR/AR、娱乐、电影摄影和虚拟试穿等一系列应用打开了大门。与以前的工作相比，MGN产生更高视觉质量的recruitment，并允许更多的控制：1)我们可以从一个主体推断出3D服装，并用它来穿戴第二主体（参见图1B）。（1）（2）（3）（4）（5）（6）（7）（8）（9）（10）图1：使用多服装网络（MGN）的服装重新定位。从左到右：来自源主体的图像、来自目标主体的身体、穿着源服装的目标。根据一个或多个图像，MGN可以分别重建身体形状和每件衣服。我们可以将预测的服装转移到一个新的身体，包括几何和纹理。通常将从图像捕获的服装纹理映射到相同类别的任何服装几何形状（参见图7）。为了达到这样的控制水平，我们应对两个主要挑战：从穿着衣服的人的3D扫描中学习每件衣服的模型，并学习从图像中重建它们。我们定义了一组离散的服装模板（根据长/短衬衫、长/短裤和外套的类别），并针对每个类别将单个模板注册到每个扫描实例，我们将其自动分割成服装部件和皮肤。由于服装几何形状在一个类别内显著变化（例如，不同形状、袖子长度），我们首先最小化模板与扫描边界之间的距离，同时尝试保持模板表面的拉普拉斯算子。该初始化步骤仅需要求解线性系统，并且很好地全局拉伸和压缩模板，我们发现这对于使后续非刚性配准工作至关重要。使用这个，我们编译了人们所穿的真实3D服装的数字衣柜（参见图1B）。（3）第三章。从这样的注册，我们学习基于顶点的PCA模型每件衣服。由于服装自然地与底层SMPL身体模型相关联，因此我们可以将它们转换为不同的身体形状，并使用SMPL对它们进行重新定位从5421图2：我们的方法概述给定少量的RGB帧（当前为8），我们预先计算语义分割图像（I）和2D关节（J）。我们的多服装网络（MGN）以{I，J}作为输入，并以规范姿势推断可分离的服装和底层的人体形状。我们使用我们的每帧姿势预测来放置这些预测我们结合2D和3D监督来训练MGN2D监督可用于测试时的在线细化数字衣柜MGN被训练以在给定一个或多个人的图像的情况下预测身体姿势和形状参数、每件衣服的PCA系数、以及在编码服装细节的PCA之上的位移场。在测试时，我们完善了自下而上的估计与一个新的自上而下的目标，迫使预计的规格和皮肤，以解释输入的语义分割。与标准轮廓匹配相比，这允许更细粒度的图像匹配我们的贡献可概括为：• 一种新颖的数据驱动方法，首次从图像（在相机前旋转的人的几个RGB图像）中推断出身体形状和服装。• 用于服装的3D扫描分割和配准据我们所知，有没有现有的工作能够将单个服装模板组自动配准到具有服装的真实人的多次扫描• 一种新颖的自上而下的目标函数，其迫使预测的服装和身体适合输入的语义分割图像。• 我们展示了几个应用程序，如服装与预测的三维服装从图像，服装纹理和几何形状的转移化身是不可能的。• 我们将公开提供MGN预测三维服装从图像，数字衣柜，以及代码2. 相关工作在本节中，我们将讨论与我们的方法最相关的两个工作分支，即服装和体型的捕获以及数据驱动的服装模型。性能捕获。传统的方法是把-将动态序列转换成对应关系的方法是非刚性地变形网格[11，18，10]或体积形状表示[28，2]以适合多个图像轮廓。在没有预扫描模板的情况下，融合[30，29，55，43，58]跟踪器在创造性地融合几何形状和外观[66]以在运行中构建模板。虽然灵活，但这些需要多视图[57，37，14]、一个或多个深度相机[19，45]，或者需要主体在围绕它们转动相机时静止不动[53，38，63，16]。来自RGB视频，Habermann et al. [25]引入了实时跟踪系统来捕获非刚性服装动态。最近，SimulCap [59]允许从深度相机对人类表演进行多部分跟踪。身体和布料从图像和深度捕捉。由于目前的统计模型不能代表服装，大多数作品[7，26，40，68，48，32，22，67，31，50，8，33，44，46]仅限于推断体型。模型拟合已被用于虚拟服装和操纵人这些方法都不能恢复3D服装。在[24，12]中已经尝试了从图像中估计身体形状和服装，但是它没有将服装与身体分离并且需要人工干预[65，49]。给定深度相机，Chen等人。[13]从数据库中检索相似的合成服装模板。 Dan eˇˇrek 等[9] 使用基于物理的模拟来训练CNN，但不联合估计服装和身体，需要预先指定的服装类型，并且结果只能与合成数据一样好。更接近于我们的是Alldieck等人的工作。[3，5，6]其从单个图像或视频重建衣服和头发作为SMPL顶部的位移，但不能将衣服与身体分离，并且不能将衣服转移到新的主题。与[3]形成鲜明对比的是，我们分别配准扫描服装（匹配边界）和身体，这允许我们学习从图像到人的多层表示的映射数据驱动的服装学习EF的共同策略-预测服装预测，GT服装-I服装-II..服装-N预测服装自我监督：2D分割丢失-3D监控：顶点丢失-形状预测身体中间损失姿势姿势，形状，平移，服装参数输入图像2D关节分割5422Gi、j有效的数据驱动模型是使用离线模拟[17，34，21，54，52，23]来生成数据。与使用真实数据训练的模型相比，这些方法通常缺乏真实性。很少有方法显示从真实数据中学习的模型。给定动态扫描序列，Neophytou et al. [42]学习两层模型（主体由于即使SOTA图像语义分割[20]也是不准确的，因此朴素提升到3D是不够的。因此，我们通过在非刚性对准之后求解SMPL表面的UV图上的MRF来合并身体特定的服装先验服装先验（针对服装g）从一组和衣服），并用它来装扮新奇的形状。类似的标签li∈ {0，1}表示SMPL的顶点vi∈S最近提出了一种模型[61]，其中服装层以模糊方式与主体相关联。其他方法[60，64]明确地关注于估计衣服下的身体形状。像这些方法一样，我们将底层的身体形状视为一个层，但与它们不同的是，我们分割出不同的服装，允许清晰的边界和更多的控制。对于服装配准，我们建立在ClothCap [47]的思想上，其可以将受试者特定的多部分模型配准到4D扫描序列。相比之下，我们注册一个单一的模板集多个扫描实例最重要的是，与之前的所有工作不同[35，47，61]，我们学习每件衣服的模型并训练CNN直接从图像中预测体型和衣服几何形状。3. 方法为了学习模型来直接从图像中预测身体形状和服装几何形状，我们处理了356个不同服装、姿势和形状的人的扫描我们的数据预处理（Sec. 3.1)包括以下步骤：SMPL与扫描配准，身体感知扫描可能会与衣服重叠我们的目标是-nalize标记顶点为g在这个区域之外，见图4。由于服装的几何形状在一个类别内变化很大（例如：不同袖子长度的T恤），我们定义随着测地距离distgeo（v）而增加的成本：热传导[15]。相反，我们定义了一个类似的惩罚标记的服装区域中的顶点与标签不同于g。作为数据项，我们在La颜色空间中结合了基于CNN的语义分割[20]和基于高斯混合模型的外观项。每一项的影响如图所示4、更多细节请参考supp。mat.在解决SMPL UV图上的MRF之后，我们可以通过将标签从SMPL配准转移到扫描来将扫描分割成3个部分。服装模板我们在SMPL+D，M（·）之上构建服装模板，它将人体表示为姿态（θ）、形状（β）、全局平移（t）和可选的逐顶点位移（D）的参数函数：M（β，θ，D）=W（T（β，θ，D），J（β），θ，W）（1）T（β，θ，D）= T + B（β）+B（θ）+D。（二）分割和模板配准。我们得到，对于ev-s p每个扫描、潜在的身体形状和登记到5个服装模板类别之一的人的服装：衬衫、t恤、外套、短裤、长裤。所获得的数字衣柜如图1B所示。3.该gar-ment模板被定义为SMPL表面上的区域;原始形状遵循人体，但其变形以在由于服装配准自然地与用SMPL表示的身体相关联，因此它们可以容易地被放置到任意姿势。有了这些数据，我们训练我们的多服装网络，以从一个人的一个或多个图像中估计体型和服装。3.2.3.1. 数据预处理：扫描分割和配准SMPL的基本原理是应用一系列线性在T姿势中，向具有η个顶点的基础网格T施加位移，然后应用标准蒙皮W（·）。具体地，Bp（·）对骨架J的姿势相关变形进行建模，并且Bs（·）对形状相关变形进行建模。W表示混合权重。对于每个服装类g，我们定义了一个模板网格，Gg的T姿势，我们随后注册解释扫描服装。我们定义Ig∈Zmg×n作为指标矩阵，其中Ig= 1，如果服装g顶点i ∈ {1. . . m（g）是与身体形状顶点j∈ {1. . . n}。在我们的实验中，我们将单个体型顶点与每个服装顶点我们计算服装下对应SMPL体型βg的位移为Dg=Gg−IgT（βg，0，0）（3）θD与ClothCap [47]不同，ClothCap将模板注册到4D扫描序列的单个主题，我们的任务是注册跨实例的不同风格，几何形状，身体形状和姿势的单一模板。由于我们的配准遵循[47]的思想，因此我们在这里描述主要差异。身体感知扫描分割我们首先自动将扫描分割成三个区域：皮肤、上衣和裤子（我们对每次扫描的服装进行注释）。5423因此，我们可以获得服装形状（未摆置），对于新的形状β和姿态θ为Tg（β，θ，Dg）=IgT（β，θ，0）+Dg（4）为了使服装的顶点摆姿势，每个顶点使用等式（1）中的蒙皮函数1的关联SMPL体顶点。G（β，θ，Dg）=W（Tg（β，θ，Dg），J（β），θ，W）（5）5424Ginit图3：数字3D衣柜。我们使用我们提出的多网格配准方法将扫描（左）中存在的服装配准到固定的服装模板。这使我们能够建立一个数字衣柜，并通过从衣柜中挑选服装（标记）来打扮任意主题（中心）q1：C={q1，. . . ，q，C}，具有对应的模板顶点索引j，1：C。令ICXmg是指示模板中对应于每个qi的索引的选择器矩阵。有了这个我们最小化以下最小二乘问题：ΣLgΣGg=Σ Σ∆init（六）wIC×mgw q1：C图4：从左到右：扫描，使用MRF和CNN一元的分割，使用CNN一元的MRF+服装先验+外观项，基于测地线和模板的服装（T恤）先验。请注意，服装先验对于获得稳健的结果至关重要。服装配准给定分段扫描，我们使用[47]中提出的多部分对准将身体和服装模板（上衣、下衣）非刚性地配准具有挑战性的部分是服装几何形状在实例之间显著变化，这使得多部分配准失败（参见补充）。因此，我们首先通过变形每个服装的顶点来初始化模板与SMPL配准的形状和姿态，其中第一个块LgGg=Δinit使解保持局部表面结构，而第二个块wIC×mGg=wq1：C使边界匹配。线性系统求解的良好特性是服装模板全局拉伸或压缩以匹配扫描服装边界，这将需要非线性非刚性配准的多次迭代[47]，具有收敛到不良局部最小值的风险在该初始化之后，我们非线性地配准每件衣服Gg以拟合扫描表面。我们建立在[47]和Pro中提出的多部分配准的基础上。在服装顶点上设置附加损失项，vk∈ Gg，以便于更好地进行服装去除，E去除，并最小化与底层SMPL身体表面S的相互渗透，Eiterp。获取变形顶点Gg. 请注意，由于ver-ΣEinterp=Σd（vk，S）（7）定义每个服装模板的纹理是固定的，服装初始变形的衣服模板的边界将Gvk∈Gg.不匹配扫描边界。为了全局变形模板匹配的服装边界在一个单一的镜头，我们定义了一个目标函数的基础上拉普拉斯d（x，S）=0，如果x在S（八）w*|x−y|二、如果x在S内变形[56]。设Lg∈Rmg×mg为服装网格的图拉普拉斯算子，初始变形后的服装模板的微分坐标为Linit∈Rmg×3其中w是一个常数（在我们的实验中w = 25），vk是G g的第k个顶点，y是S上最接近x的点。我们的服装配方使我们能够自由地休息服装顶点。我们可以利用这一点，以我们的优势，如动画穿着虚拟化身，gar-plationsGinit. 对于扫描边界上的每个顶点si∈Sb部件重定向等。然而，摆姿势是高度非-我们在相应的TEM中找到它最近的顶点平板服装边界，获得扫描点矩阵线性的，并且可能导致不期望的伪影，特别是当重新测量时。以不同姿势的服装为目标LG5425WKWJWWW由于我们在无姿态空间中重新定位服装，因此通过强制服装顶点设置为3D姿势IP=fθ（I，J），（10）尸体被移走Σ ΣE=（d（v，S）-d（v0，S0））2（9）以及对应于体型的公共潜在代码通过对每帧代码（Iβ）和服装（IG）进行平均，取消姿势KKGv k∈GgIβ，IG=1F−1fβ，G（If，Jf）.（十一）其中d（x，S）是点x和表面之间的L2距离FWf=0面向S。 v0和S0表示服装顶点和身体表面在不确定的空间中，使用Eq.分别为5和1着装SMPL的SMPL模型已被证明是非常有用的建模不穿衣服的形状。我们的想法是建立与SMPL兼容的数字服装的衣柜，以模拟穿着的主题。为此，我们提出一个简单的对于每个服装类，我们训练单独的分支M g（·），以将潜在代码IG映射到未设定的服装Gg，其本身是从低频PCA系数zg加上编码高频位移的Dhf，g重建的允许修饰SMPL的扩展。给定服装Gg，我们使用等式（Eq. 3、4、5来设置服装顶点的姿势和蒙皮。Mg（IG，Bg）=Gg=Bgzg+Dhf，g.（十二）通过将L个个体服装顶点[G1（β，θ，D1）T，. . . ，GL（β，θ， DL） T]T.我们定义函数C（θ，β，D），该函数返回皮肤和组合的每个服装的已摆姿势和成形的顶点。参见图5和补充图，以获得在不同SMPL主体上使用MGN重新靶向服装的结果。3.2. 从图像到服装从配准，我们学习服装的形状空间，并生成具有成对的图像和身体+3D服装对的合成训练数据集。从这些数据中，我们训练MGN：Multi-Garment Net，它将图像映射到3D服装和体型。服装形状空间为了从服装形状中分解出姿势变形，我们“unpose”第j个服装配准G g ∈ R m g ×3，类似于[64，47]。由于每个类别的服装都是对应的，我们可以很容易地计算PCA直接对unposed顶点，以获得姿态不变的形状基（Bg）。使用此，我们使用35个分量zg∈R35，加上偏移的残差向量Dhf，g，数学上：Gg=根据形状和姿势潜在代码1β、1θ，我们使用全连接层分别预测身体形状参数β和姿势θ。使用预测的身体形状β和几何形状Mg（1G，Bg），我们计算位移，如等式（1）中所示。第三章：Dg=M g（lG，Bg）−IgT（β，0θ，0D）。（十三）最后，利用C（β，θf，D）得到第f帧的最终预测3D顶点，并由此绘制2D分割模板Rf=R（C（β，θf，D），c），（14）其中R（·）是可区分的渲染器[27]，R（·）是帧f的渲染的语义分割图像，并且c表示假设固定的相机参数，而R（·）帧f的渲染的语义分割图像。人就会移动。Eq. (14)允许我们将预测与输入图像进行比较。由于MGN分别预测身体和服装，因此我们可以预测语义分割图像，导致更细粒度的2D损失，这是使用单个网格表面表示不可能的[3]。请注意，方程式14允许训练J JBgzg+Dhf，g. 从每次扫描中我们也提取出尸体自我监督。J J在衣服下面的形状类似于[64]，这是必不可少的将服装从一个身体重新定位到另一个身体。MGN：多服装网模型的输入是一组语义分割的图像， I={10，11，…IF-1}，以及相应的2D联合估计，J={J0，J1，...，其中，F是用于进行预测的图像的数量。在[20，3]之后，我们抽象去除RGB图像中的外观信息并提取语义服装分割[20]，以降低过度拟合的风险，尽管代价是忽略有用的阴影。3.3. 损失函数所提出的方法可以训练与三维监督的顶点坐标，并与自我监督的形式的二维分割图像。我们使用upper-hat用于已知的变量，并在训练期间用于监督。我们使用以下损失以端到端的方式训练网络• 在规范T-姿势中的3D顶点损失（θ=0θ）：ing信号。为了简单起见，现在让θ表示关节角度θ和平移t。L3D= ||C（β，0θ，D）−C（β，0θ54260θ，D）||第二条，（十五）基础网络fw将2D姿态J和图像分割I映射到每帧潜在码（IP），对应于：其中，0θ表示对应于零姿态的零向量。5427PL=Ff=0g=0W图5：仅使用图像敷料SMPL。我们使用MGN从源主题（中间）的图像中提取服装，并使用推断的3D服装从SMPL形状主题中以各种姿势穿着任意人体。这两组分别对应于男性（左）和女性（右）的身体形状。• 3D顶点损失在已设定的空间中：FΣ−1shape潜码分别生成lβ、lθ和lG详见补充资料。服装网络（Mg）：我们培训单独的服装网络-L3D=f=0||C(β,θf ，D）−C（β，θf，D）||二（十六）W适用于每个服装类。服装网络由两个分支组成。第一个预测整体网格• 2D分割损失：与[3]不同，我们不优化sil-houette重叠，而是联合优化投影针对输入分割掩模的每服装分割这确保了每件服装在图像中解释其对应的掩模：FΣ−1形状，第二个添加高频细节。从服装潜码（IG），由两个完全连接的层（大小=1024、128）组成的第一分支对PCA系数进行回归。这些系数与PCA基础的点积生成基础服装网格。公司现采用国际第二完全连接分支（大小=m/g），以回归在第一分支中预测的网格顶部上的2个Dsegf=0||Rf -我||第二章，（十七）我们将这些位移限制为≤1cm，以确保整体形状由PCA网格解释，而不是这些位移。• 中间损失：我们还将损失强加于国际-媒介和姿态、形状和图案参数预测：4. 数据集和实验Lθ=ΣF−1||θf−θf||2，Lβ=||βˆ−β||2，Lz=L−1||zg−zg||其中，F、L是图像的数量数据集我们使用356个不同身体的人的3D扫描和服装。z是真实PCA形状，姿势和不同的衣服。我们进行了70次扫描服装参数虽然这种损失有点多余，但它们可以稳定学习。3.4. 实现细节基本网络（f*）：我们使用CNN来映射输入集{I，J}到身体形状、姿势和服装潜在空间。它由五个2D卷积和最大池化层组成。不幸的是，平移不变性使CNN不能捕获特征的位置信息。为了在3D中再现服装细节，重要的是利用2D特征以及它们在2D图像中的位置。为此，我们采用类似于[39]的策略，将像素坐标附加到每个CNN层的输出中。我们将最后的卷积特征图分成三个部分，以个性化身体形状，姿势和服装信息。这三个分支被展平，并且我们将2D关节估计附加到姿势分支。三个完全连接的层和服装上的平均池用于测试，其余用于训练。类似于[3，5]，我们还将我们的设置限制为人在摄像机前我们使用多网格配准SMPL+G来配准这实现了进一步的数据增强，因为现在可以对配准的扫描进行重新定位和重新整形。我们采用[3]中的数据预处理步骤，包括渲染和分割。我们还承认，主要存在于对象大小和到相机的距离之间的尺度模糊性。因此，我们假设3D中的主体具有固定的高度，并回归它们与相机的距离。与[3]相同，我们也忽略了相机固有函数的影响。4.1. 实验在本节中，我们将定性和定量地讨论我们的方法的优点我们还以纹理转移的形式展示了现实世界的应用（图12）。（7）其中5428我我我我我我图6：与Alldieck等人的定性比较[3]的文件。在每个集合中，我们将来自[3]（左）和我们的方法（右）的3D预测可视化为五个测试对象。由于我们的方法明确地建模服装几何形状，它保留了更多的服装细节，这是显而易见的，从所有科目的最小失真。更多结果见补充资料。图7：纹理转移。我们的模型每个服装类作为一个固定的拓扑结构和表面参数化的网格。这使我们能够将纹理从任何服装转移到同一类的任何其他注册实例。第一列示出了源服装网格，而随后的图像示出了原始的和转移的服装纹理配准。我们保持源服装的原始几何形状，但映射新的纹理。我们还示出了使用图1中的MGN从图像的服装重定向。8.定性比较：我们将我们的方法与[3]在我们的扫描数据集上为了公平比较，我们重新训练Alldieck等人提出的模型。[3]在我们的数据集上，并与我们的方法进行比较（[3]使用的数据集不是公开的）。图6指示了在结构化预测中结合服装模型优于简单地对自由形式位移建模的优点。显式服装建模使我们能够预测更清晰的服装边界，并最大限度地减少扭曲（见图1）。（六）。补充材料中列出了更多的例子。定量比较：在这个实验中，我们对我们的方法进行了定量分析，以对抗最先进的3D预测方法[3]。我们计算预测和GT服装表面之间的对称我们报告每件服装的误差，E g（补充），和整体误差，即。所有服装上的E g平均值Sg分别表示服装g的第i个预测网格的顶点集和曲面。运算符（）表示GT值。 d（vk，S）计算顶点vk与曲面S之间的L2距离。该标准与[3]略有不同，因为我们不评估皮肤部分的误差。我们重建的3D服装，平均顶点到表面的误差为5.78毫米，8帧作为输入。我们在我们的数据集上重新训练octopus [3]，结果误差为5.72mm。我们承认[3]的性能稍好，并将其归因于基于单个网格的方法不将顶点绑定到语义角色的事实，即这些方法可以将顶点从网格的任何部分拉到解释3D变形，而我们的方法确保只有语义正确的顶点才能解释3D形状。还值得注意的是，MGN将服装预测为潜在代码的线性函数（PCA系数），而MGN将服装预测为潜在代码的线性函数[3]部署GraphCNN。基于PCA的公式虽然容易处理，但本质上偏向于平滑的结果。Eg=1ΣNNi=1.1|Sˆg|Σv∈Sgd（vk，Sg）+1|Sg|Σv∈SgΣd（vk，S（g）），我们的工作铺平了道路，为进一步探索到建立- ING服装模型的变化，在一个固定的拓扑结构的服装几何建模。KiKi（十八）我们报告的结果，使用不同数量的帧其中N是具有服装g的网格的数量。 Sg和在补充。5429KIK图8：通过MGN使用8个RGB图像的服装重定向。在这三个集合中的每一个中，我们示出了源主体、目标主体和重新定向的服装。使用MGN，我们可以重新定位服装，包括纹理和几何形状。GT与预测姿势：3D顶点预测是姿态和形状的函数. 在这个实验中，我们做了一个Ik=a r gmin ||vs−Ss||第二章，（二十）I∈[0，|Ss| −1]消融研究，以隔离姿态估计误差的影响，其中vs是源服装顶点，Ss是顶点k我k顶点预测的作用。这个实验对于在源身体顶点中，最接近的更好地了解优势和劣势的亲-到vs和St是目标k我k一种基于边缘化姿态拟合引起的误差。我们研究了两种情况，第一，我们预测的3D姿势和第二，我们可以访问GT姿势。我们报告的平均顶点到表面的误差为5.78mm与GT的姿势和11.90mm与我们的预测姿势。4.2. 再靶向我们的多网格表示基本上解耦了底层的身体和服装。这开辟了一种有趣的可能性，可以从源主题中提取服装并虚拟地装扮小说主题。由于源主体和目标主体可以处于不同的姿势，因此我们首先将源主体和服装与目标主体一起解构成。我们把（。为清楚起见，在下面的部分中，对未置空间使用0符号下面我们提出并比较两种药剂再靶向方法。在重新定位目标身体和重新定位的服装之后，将其重新摆成其原始姿势。初始重新靶向：将衣服从源重新定位到目标的最简单的方法是使用等式（1）从源对象提取服装偏移Ds，g。13，并使用Eq. 五、身体感知重定向：天真的方法是有问题的，因为它依赖于服装和身体之间的非局部预设顶点关联（Ig）。这导致身体混合形状Bp ，s与服装顶点之间的不准确关联。这最终导致对源偏移Ds，g的不正确估计，并且进而导致重新定向的服装与身体之间的更高的相互渗透（参见补充）。为了缓解这个问题，我们如下计算新的第k个目标服装顶点位置体顶点。MGN允许我们在3D中预测可分离的身体形状和服装，允许我们仅使用图像进行服装重定位（如上所述据我们所知，这是第一种方法。关于通过MGN的服装重新靶向的结果，参见图8。更多结果见补充资料。5. 结论和未来工作我们介绍MGN，第一个模型能够联合重建从几个图像，身体形状和服装几何分层网格。实验表明，这种表示有几个好处：它更接近于真实世界中衣服如何在身体上分层，这允许控制，例如用重建的衣服重新穿上新的形状。此外，我们第一次介绍了一个数据集的注册真实服装从真实的扫描获得一个强大的注册管道。当与更经典的单网格表示相比时，它允许更多的控制，并且定性地，结果非常相似。总之，我们认为MGN为一个有前途的研究方向迈出了第一步。我们将发布MGN模型和数字衣柜，以刺激这一方向的研究。对本文的局限性和未来工作的进一步讨论。确认这工作是部分资助德国研究共同体（DFG），德国研究基金会）-409792180 （埃米诺特方案，项目： Real VirtualHumans）和Google Faculty Research Award。感谢twin-dom（https：//web.twindom.com/）提供扫描数据，感谢Thiemo Alldieck提供纹理/分割代码缝合，和维里察Lazova forvt= vs− Ss+ St（十九）讨论。k k我k我k5430引用[1] https://virtualhumans.mpi-inf.mpg.de/mgn/. 1[2] 本杰明·阿兰，让-塞巴斯蒂安·佛朗哥，埃德蒙·博耶.一种有效的形状跟踪体框架在IEEE Conf. on ComputerVision and Pattern Recognition，第268-276页，Boston，United States，2015中。美国电气与电子工程师协会。2[3] ThiemoAlldieck ， MarcusMagnor ， BharatLalBhatnagar，Christian Theobalt，and Gerard Pons-Moll.学习从一个 RGB 摄像机重建穿着衣服的人。在IEEE/CVF计算机视觉和模式识别会议（CVPR），2019年。一、二、五、六、七[4] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.从单目视频的详细的人类化身。国际会议2018年9月在3D Vision上发布。1[5] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.基于视频的三维人体模型重建。在IEEE会议计算机视觉和模式识别，2018年。一、二、六[6] ThiemoAlldieck ， GerardPons-Moll ， ChristianTheobalt，and Marcus Magnor. Tex2shape：从单个图像中获得详细的完整人体几何形状。IEEEInternationalConference on Computer Vision（ICCV）。IEEE，2019年10月。2[7] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。SCAPE：人的形状完成和动画在ACM Transactions onGraphics，第24卷，第408-416页中ACM，2005年。2[8] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Pe ter Gehler、Javier Romero和Michael J Black。保持它SMPL：从单个图像自动估计3D人体姿势和形状。在欧洲会议中计算机视觉。施普林格国际出版社，2016年。2[9] Rc ， EndriDibra ， C¨ztireli ， RemoZiegler 和MarkusGross。深衣：3D服装形状估计一个单一的形象。在Computer Graphics Forum，第36卷，第269-280页中。Wiley Online Library，2017. 2[10] Cedric Cagniart，Edmond Boyer，and Slobodan Ilic.从多个视频中进行概率可变形表面跟踪在Kostas Daniilidis，Petros Maragos，and Nikos Paragios，editors，EuropeanConf. on Computer Vision ， Lecture Notes in ComputerScience，第6314卷，第326-339页，Heraklion，希腊，2010。斯普林格。2[11] Joel Carranza，Christian Theobalt，Marcus A Magnor，and Hans-Peter Seidel.人类演员的自由视点视频。在ACM Transactions on Graphics ，第 22卷，第569- 577页。ACM，2003年。2[12] 陈小武，郭玉，周斌，赵琴萍。可变形模型用于从单个图像中估计穿着衣服和裸体的人体形状。The VisualComputer，29（11）：1187-1196，2013. 2[13] 陈小武、周斌、路飞翔、林望、郎必、谭平。使用深度相机进行服装建模ACM Transactions on Graphics，34（6）：203，2015. 2[14] Alvaro Collet ， Ming Chuang ， Pat Sweeney ， DonGillett ， Dennis Evseev ， David Calabrese ， HuguesHoppe，Adam Kirk，5431史蒂夫·沙利文高质量的可流式传输的自由视点视频。ACM Transactions on Graphics，34（4）：69，2015。2[15] KeenanCrane ， ClarisseWeischedel ， andMaxWardetzky.热测地线：基于热流的距离计算新方法。ACM Transactions on Graphics（TOG），32（5）：152，2013。3[16] YanCui，WillChang，TobiasNo¨ll，andDidierStric k e r.Kinectavatar：使用一个Kinect的全自动身体捕捉。计算机视觉亚洲会议，第133-147页，2012年。2[17] Edilson de Aguiar，Leonid Sigal，Adrien Treuille，andJes-sica K.哈金斯为实时服装提供稳定的空间。ACM事务处理图表，29（4）：106：1-106：9，2010年7月。3[18] Edilson De Aguiar，Carsten Stoll，Christian Theobalt，Naveed Ahmed ， Hans-Peter Seidel ， and SebastianThrun. 从稀疏多视图视频中捕获性能。在 ACMTransactions on Graphics，第98页，2008中。2[19] Mingsong Dou ， Sameh Khamis ， Yury Degtyarev ，Philip Davidson，Sean Ryan Fanello，Adarsh Kowdle，Sergio Orts Escolano ， Christoph Rhemann ， DavidKim，Jonathan Tay- lor，et al. Fusion 4d：挑战场景的实时性能捕获。ACM Transactions on Graphics，35（4）：114，2016。2[20] Ke Gong，Xiaodan Liang，Yicheng Li，Yimin Chen，Ming Yang，and Liang Lin.通过部件分组网络的实例级人工解析。在欧洲会议中计算机视觉，2018年。三、五[21] 关湖Reiss，D. Hirshberg，A. Weiss和M. J.布莱克。Dressing Any PErson ACM Trans. on Graphics （Proc.SIGGRAPH），31（4）：35：1-35：10，2012年7月。3[22] PengGuan ， Ale xanderWeiss ， Ale xandruOBalan ，andMichael J Black. 从人体模型估计人体形状和姿态一个单一的形象。IEEE国际会议计算机视觉，第1381-1388页。IEEE，2009年。2[23] ErhanGundogdu 、 VictorConstantin 、 AmrollahSeifoddini 、 Minh Dang 、 Mathieu Salzmann 和 PascalFua。石榴石：一个双流网络，用于快速准确的3D布料悬垂。arXiv预印本arXiv：1811.10983，2018。3[24] Yu Guo，Xiaowu Chen，Bin Zhou，and Qinping Zhao.从单个图像估计穿着衣服和裸体的人的形状。Computational Visual Media，第43-50页，2012年。2[25] MarcHabermann ， WeipengXu ，， MichaelZollhoefer，Ger- ard Pons-Moll，and Christian Theobalt.Livecap：从单目视频中实时捕捉人类行为。美国计算机学会图形学报，（Proc. SIGGRAPH），jul 2019.一、二[26] Nils Hasler ， Carsten Stoll ， Martin Sunkel ， BodoRosenhahn，and H-P Seidel.人体姿势和体型的统计模型在Computer Graphics Forum，第28卷，第3372[27] 保罗·亨德森和维托里奥·法拉利。学习生成和重建三维网格只有二维监督。英国

下载后可阅读完整内容，剩余1页未读，立即下载