将显式模型注册到隐式模型中实现单幅图像分层服装重建

33 浏览量更新于2023-10-25 收藏 20.26MB PDF 举报

高保真度

单幅图像

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Heming Z1,21,21g Han1,3 �38450将显式注册到隐式：从单幅图像重建高保真度的服装网格01 SSE，CUHKSZ 2 SRIBD 3 FNii，CUHKSZ0hanxiaoguang@cuhk.edu.cn0图1.给定一张野外穿着衣物的人体图像，ReEF可以生成高保真度的分层服装网格。重建的服装外观与输入图像对齐良好。此外，生成的服装可以放在其他虚拟角色上。0摘要0受深度学习技术和隐式形状学习的推动，最近在单幅图像人体数字化方面取得了前所未有的准确性，并且可以恢复细粒度的表面细节，如服装皱纹。然而，基于隐式的方法的一个常见问题是它们无法为每个服装部件生成分离且拓扑一致的网格，这对于当前的3D内容创建流程至关重要。为了解决这个问题，我们提出了一种新颖的几何推断框架ReEF，通过将显式的服装模板注册到从单幅图像预测的整体隐式场中，重建具有拓扑一致性的分层服装网格。实验证明，我们的方法在单幅图像分层服装重建方面明显优于其他方法，并能为进一步的内容创建带来高质量的数字资产。01. 引言0各种现实应用场景对高质量的人体相关3D内容需求很高，包括虚拟直播、游戏和影视制作。然而，生成视觉上合理的3D数字人物资产一直是一个艰巨的任务。0对于专家建模者来说，这一直是一项费时费力的任务，甚至可能需要几个小时。0相比之下，商用相机和互联网上的野外图像更容易获取。因此，最近的研究广泛研究了从单个野外图像中进行人体数字化，旨在帮助没有专业知识的人高效生成视觉上合理的3D人体相关内容。0与最近在单幅图像人体[3，13，20-22，24，27，33，35，37]和穿着衣物的人体重建[1，2，7，25，32，36，38，42，44]方面的进展相比，单幅图像分层服装重建的研究相对较少。实现高保真度的服装重建的主要挑战有两个方面：生成不同风格的服装和恢复表面细节。为了生成具有不同风格的服装，Multi-GarmentNet（MGN）[5]，BCNet [17]和SMPLicit[10]采用了在数字衣柜上训练的显式参数模型或隐式参数模型，但无法从图像中恢复具有新颖服装风格的服装。为了从输入图像中生成新颖的服装风格，Deep Fashion3D[53]提出使用从输入图像预测的特征线来描述服装风格。然而，由于不准确性，它无法生成与输入图像对齐的服装风格。38460边界预测的准确性。至于恢复表面细节，MGN[5]和SMPLicit[10]只能产生带有有限表面细节的平滑服装网格。BC-Net[17]通过图卷积网络将细粒度细节雕刻到服装模板上，尽管它无法产生大规模的皱纹变形。虽然Deep Fashion3D[53]可以基于占据网络[31]生成大规模的表面变形，但生成的表面细节可能与输入图像偏离，因为它只采用全局图像特征。因此，现有方法都不能恢复与输入图像外观相一致的服装风格和表面细节。最近出现的像素对齐隐式方法 [38，039 , 49 ]框架使得利用像素对齐的框架重建着装人体成为可能。另一方面，它提出了一个问题，即如何利用像素对齐的框架的能力来产生能够忠实反映图像外观的分层服装网格。为此，我们提出了一种新颖的几何推断框架ReEF，通过将显式服装模板网格注册到从单个图像预测的全身隐式场上，可以生成高保真度的分层服装。然而，由于现实世界服装几何的多样性，建立显式服装模板与隐式着装人体的个别帧之间的对应关系并不是一件简单的事情。为了解决这个问题，我们提出了生成边界场和语义场的新方法，以将显式服装模板与隐式着装人体对齐。在对齐之上，可以通过专门设计的优化系统从隐式场中实例化具有类特定拓扑的分离服装网格。实验表明，ReEF能够从单个图像中生成高质量的服装网格，可用作各种下游应用的现成资产，例如动画和仿真。本文的主要贡献可以总结如下：0•我们提出了一种新颖的几何推断框架，通过将显式服装模板注册到隐式着装人体的单个帧上，从单个图像中重建高保真度和拓扑一致的服装网格。0•我们提出了一种基于学习的新方法，使用像素对齐特征和曲线对齐特征预测隐式服装边界场。预测的服装边界可以很好地与输入图像和隐式着装人体对齐。0•我们在合成数据集和野外数据集上进行了实验。实验表明我们的方法能够生成高质量的0具有准确风格和表达性表面细节的分层服装。2.相关工作02.1. 单视角3D人体数字化。0由于输入中关于形状空间多样性的信息稀缺，从单个RGB图像进行人体数字化本质上具有挑战性。为了使单视角3D人体数字化的不适定问题可追踪，提出了SCAPE [3]和SMPL[27]，它们为后续的以人为中心的数字化任务提供了强大的先验知识。通过将问题简化为低维身体参数估计，[3，13，19-22，24，27，33，35，37]实现了从单个图像中的人体和姿势估计。然而，这些基于参数化模型的工作[3，13，19，20，24，27，33，35，37]仅限于裸体人体重建。由于没有对服装和表面细节进行建模，生成的形状不适合可视化应用。由于最近3D深度学习的兴起，已经提出了许多关于单视角人体数字化的工作，以创建高质量的3D着装人体模型[1，2，7，25，32，36，38，42，44]。这些工作可以大致分为两个流派：参数化方法和非参数化方法。参数化方法[2，41，46，48，52]将着装人体明确建模为身体参数和与裸体3D参数化人体模型的偏移量。尽管它可以从单个野外图像生成合理的结果，但无法生成与身体不贴合的宽松服装。与基于参数的方法相反，非参数化模型不明确依赖于参数化人体，可以重建具有任意拓扑的着装人体。Siclope[32]通过从单个前视图图像预测的多视图轮廓重建着装人体。DeepHuman[52]通过图像引导的体积到体积转换网络实现了单个图像的人体重建。虽然这两种方法都可以生成具有任意拓扑的详细着装的人体形状，但生成的细节相对粗糙，或者不能忠实地再现输入肖像的外观。Saito等人通过像素对齐的隐式函数解决了这个问题，并实现了可以像素级对齐到输入图像的高保真度重建。在像素对齐的框架下，后续的工作攻击了模型的鲁棒性[47，49]，或者对隐式空间中编码的人体进行动画化[14，15]。然而，以上方法都无法提供与人体分离的服装网格。02.2. 单视角3D服装重建。0To generate layered garments with vivid surface details,Deep Fashion3D [53] adopted Occupancy Network [31]to reconstruct high-frequency surface details from the in-put image.The surface details generated by OccupancyNetwork are then transferred to smoothed template meshwith nonrigid-ICP. However, as Occupancy Network leansolely on global image features to produce surface details,it could not loyally recover the appearances from the in-put portrait. BCNet [17] firstly generates a coarse templatemesh with PCA and then emboss surface details with animage-guided graph attention network but fails to producelarge-scale wrinkle deformations.38470图2. 我们提出方法的流程图。(a) 语义注意力图 { H i s }。(b) 边界注意力图 { H i b }。(c) 显式模板网格 M t。(d) 姿态变形的模板网格 Mp。(e) 边界变形的模板网格 M l。(f) 输出的分层服装 M o。0为了生成具有生动表面细节的分层服装，Deep Fashion3D[53]采用Occupancy Network[31]从输入图像中重建高频表面细节。OccupancyNetwork生成的表面细节然后通过非刚性ICP转移到平滑的模板网格上。然而，由于OccupancyNetwork仅依赖全局图像特征生成表面细节，它无法忠实地从输入肖像中恢复外观。BCNet[17]首先使用PCA生成粗糙的模板网格，然后使用图像引导的图注意力网络添加表面细节，但无法产生大范围的皱纹变形。0与我们的工作更接近的是Multi-Garment Net(MGN)[5]，SMPLicit [10]，BCNet [17]和Deep Fashion3D[17]。MGN通过从大规模数字衣柜中学习每个类别的参数模型来开创先河。使用少量图像作为输入，MGN可以推断出分层服装。SMPLicit[10]引入了一种生成模型，支持从单个解析的肖像中重建分层服装。然而，MGN和SMPLicit都无法从单个输入图像中生成高频细节。02.3. 3D形状配准。03D形状配准是一个基础问题，在过去几十年中得到了广泛研究，旨在建立预定义模板和新观测之间的对应关系。以前的工作已经解决了将模板网格注册到显式形状（点云或网格）[9]或将隐式模板注册到隐式形状[11,51]的问题。与我们的工作更接近的是Clothcap[34]，MetaAvatar [45]，SCALE [29]和SCANimate[40]，它们可以将服装模板或人体模板注册到着装的人体扫描中，但只能处理扫描序列。POP[30]支持将可动画的关节密集点云注册到单个着装的人体扫描中。LoopReg[4]可以用于将参数化的SMPL身体模型注册到通过空间扩散的SMPL桥接的着装的人体扫描中。MGN [5]和Sizer[43]将服装模板注册到人体扫描中，但只能处理紧身服装。Deep Fashion3D[53]将边界变形的服装模板注册到重建的服装网格中，使用非刚性ICP。然而，上述方法都无法将服装模板网格注册到从单个野外图像预测的整体身体隐式场中。03. 概述0如图2所示，给定一个单一的野外图像I，ReEF的目标是通过将显式服装模板网格Mt与预测的整体身体隐式场ff进行注册，生成具有类别特定三角剖分的高保真度服装网格Mo。为此，我们将整个注册过程分解为两个阶段：显式对齐到隐式（第4节）和显式拟合到隐式（第5节）。在第一阶段，我们将显式服装模板对齐到隐式服装模板f(X, I) = g(X, ϕlocal(I, π(X)))(1)fc(X, I) =gc(X, ϕc(I, π(X)))(2)ff(X, I′) = gf(Ωc(X), ϕf(I′, π′(X)))(3)f ib(X) = d(X − lib) − ϵb(4)38480将明确的服装模板网格 M t 与隐式目标 f f 的隐式边界场 {f i b } 和从输入图像 I 预测的隐式语义场 f s进行对齐。在对齐的基础上，在第二阶段，我们将使用专门设计的优化系统将明确的服装模板 M t变形以适应隐式目标 f f 。04. 将明确的对齐到隐式0准确地建立模板和目标之间的对应关系是实现成功配准的关键。在接下来的部分中，我们将从以下几个方面仔细介绍如何将服装模板网格与隐式穿着人体进行对齐：明确模板的定义（第4.1节），隐式目标的生成（第4.2节）以及明确网格与隐式场之间的对齐（第4.3节）。04.1. 明确模板0我们在SMPL [ 27]身体模型的基础上设计了类别特定的服装模板网格 M t，遵循之前的工作[ 5 , 17 , 53 ]。设计的服装模板网格 Mt包括长/短/无袖上衣、长/短/无袖连衣裙、长/短/无袖开衫、长/短裤子和裙子等12个常见服装类别。值得注意的是，我们将每个服装模板 M t 的最外层曲线定义为服装边界 { Li t }。值得一提的是，对于属于开衫类别的服装模板，领口、中心前线和下摆线被视为不同的边界，尽管它们属于同一曲线。更多关于明确的服装模板的细节请参见附录。04.2. 隐式目标0我们采用像素对齐的隐式框架生成隐式目标 f f（即隐式穿着的人体），通过产生与输入图像非常匹配的结果，优于其他方法。像素对齐的隐式框架像素对齐的隐式框架[ 38 , 39]建立在隐式形状表示的基础上，其中3D形状可以表示为有界体积内的占用状态。在给定输入图像 I的条件下，像素对齐的隐式函数可以预测查询坐标 X ∈ R3 的占用状态：0其中 π ( X ) ∈ ( X x , X y )表示在图像空间上的投影2D位置。 ϕ local ( I, π ( X ))表示从投影位置获取的图像特征。隐式目标生成。受到PIFu[ 38 ]和PIFuHD [ 39]的启发，学习细粒度信息（例如表面细节和颜色）的过程将更加稳定。0如果在粗糙的形状信息描述符的条件下，可以通过细化形状场 f c来实现。因此，我们首先定义了类似于PIFuHD中的粗糙形状场 f c：0其中 ϕ c表示从下采样输入提取的图像特征。为了用细粒度的细节来凸显粗糙形状场 f c，我们在粗糙形状模块之上构建了一个作为隐式目标 f f的细粒度形状场。它使用粗糙形状嵌入 Ω c ( X )和细粒度图像特征 ϕ f 来预测细粒度形状的占用状态：0其中 I ′ 表示原始分辨率的裁剪输入图像， π ′ ( X )表示样本点在裁剪图像上的投影位置。04.3. 边界对齐0我们提出了一种在明确模板网格 M t 和隐式目标 f f之间建立边界对应关系的方法，因为边界具有服装形状最显著的几何特征。要在3D服装人体上获取服装边界，可以使用扫描表面解析或图像引导的曲线回归。然而，如第6节所示，使用表面解析生成的服装边界会受到人体和其他配饰的遮挡而严重损坏。虽然图像引导的曲线回归可以始终生成完整的边界曲线，但无法产生与隐式目标 f f对齐的准确边界。因此，我们提出了一种新方法，从输入图像 I 预测一组服装边界场 { f i b } ∈ ( − 1 , 1)，每个场表示一种类型的服装边界，例如领口、袖口、下摆线。服装边界场。服装边界是薄的3D空间曲线，难以被隐式函数捕捉。因此，我们提出将每个服装边界建模为带有有符号距离场的隐式圆柱体，而不是直接使用隐式函数建模每个边界曲线，如图2所示：0其中 d ( X − l i b ) 表示查询点 X ∈ R 3 到第 i个服装边界的距离。 ϵ b表示边界圆柱体的半径，经验性地设置为 1 e − 3。基准方法。我们设计了一种基准方法来预测服装边界场 {f i b } ，从输入图像 I 中。为了确保预测的边界场 { f i b } 与目标形状场 f f 对齐，我们联合训练了服装边界场 { f ib } 和目标形状场 f f ，条件是相同的粗糙形状嵌入 Ω c (X ) ：f ib(X, I) = gvanillab(Ωc(X))(5)f ib(X, I) = gb(Ωc(X), ϕh(I, π(X)))(6)f is(X, I) = gs(Ωc(X), ϕs(I, π(X)))(7)fs(X, I) = arg maxi(f is(X, I))(8)(9)38490尽管基准方法可以产生与目标形状场 f f 对齐的服装边界场{ f i b }，但由于缺乏来自图像空间的指导，它可能无法反映输入图像的边界外观。曲线对齐边界生成。因此，我们提出了一种曲线对齐边界生成模块，用于从输入图像 I中生成准确反映边界外观的服装边界场 { f i b }。与仅基于像素对齐的粗糙形状特征 Ω c ( X )的基准方法相比，我们提出的曲线对齐边界生成模块可能会从图像空间接收到额外的指导，即曲线对齐特征。为了生成边界场，我们设计了服装边界注意力图，用于描述每个服装边界在图像空间中的可能性。服装边界注意力图 { H i b }是通过 HigherHRNet [ 8 ] 从输入图像 I生成的，并可以从地面实况边界热图中接收监督。在边界注意力图产生的曲线对齐特征的条件下，可以生成服装边界场：0其中 ϕ h ( I, π ( X )) 表示从边界注意力图 { H i b }中采样的曲线对齐特征。04.4. 语义对齐0除了边界对应关系，还需要显式模板 M t 和隐式目标 f f之间的语义对应关系，以消除非相关区域对隐式目标 f f的影响。为此，我们设计了语义隐式场 { f i s ( X, I ) }，它表示3D空间中每种服装（即上半身服装和下半身服装）的占用概率。值得注意的是，与生成服装边界场 { f i b }的方式类似，采用了从输入图像 I 预测的语义注意力图 {H i s } 作为额外的2D指导：0其中 ϕ s ( I, π ( X )) 表示从投影位置 π ( X )获取的语义注意力图特征。可以通过聚合可能标签的隐式语义场来预测每个3D查询点 X 的语义标签：05. 显式拟合0在前一节中，我们已经建立了显式服装模板 M t和隐式目标（即0通过边界对应关系 { f i b } 和语义对应关系 { f i s }从输入图像 I预测出的服装人体）进行显式拟合。在已建立的对应关系之上，我们提出了一种显式拟合流程，逐步将服装模板网格M t 变形为与隐式目标 f f对齐。提出的显式拟合流程包括四个阶段，即模板初始化（第 5.1 节），边界拟合（第 5.2 节），模板拟合（第 5.2节）和后处理（第 5.4 节）。05.1. 模板初始化0由于显式服装模板网格Mt是建立在SMPL参数化人体[27]之上的，准确的身体姿势和形状估计可以通过设置良好的初始化（即姿势变形的服装模板网格Mp）来受益于配准过程。然而，从单个野外图像中准确估计3D姿势在深度模糊、未知相机参数和野外数据集注释稀缺性等方面具有困难。相比之下，最先进的2D姿势估计在野外图像上已经达到了相对较高的准确性。为此，我们提出优化SMPL身体参数SMPL(θ,β)，使其与隐式形状场在额外的2D关节Jgt的指导下对齐，这些关节是由现成的单图像姿势估计器[6]预测得到的：0Vpred, Jpred = SMPL(θ, β)0Lbody = MSE(J'pred, Jgt) + ηregReg(θ)0+ ηshapeCD(Vlres, Vpred)0其中Reg表示姿势正则化函数，用于减少不希望的姿势，Vlres表示从粗糙场fc提取的低分辨率网格顶点。05.2. 边界拟合0在第4.3节中，我们已经建立了模板网格Mt的边界{lit}与隐式目标ff的服装边界之间的对应关系，使用边界场{fib}。基于边界对应关系，我们可以将姿势变形的模板网格Mp的边界{lip}变形为与隐式目标ff的服装边界对齐：0Lb = fib(lip) + ηeaAvg(eib) + ηedVar(eib) (10)0其中eib表示服装模板网格Mp的边界边长。优化后的服装边界{lia}被设置为Bi-Harmonic变形的硬约束[16]。到目前为止，生成了一个与隐式目标ff的服装边界{lia}对齐的简单服装模板网格Ml。bblaplap(12)38500图3.我们提出的激活区域探测方案的示意图，我们提出的激活区域探测方案可以聚合隐式形状信息和隐式语义信息，以指导服装模板网格的变形。05.3. 形状拟合0在边界拟合阶段结束时，生成了一个简单的服装模板网格Ml，其边界与隐式目标ff的服装边界对齐。为了在边界对齐的简单模板网格Ml上加上细粒度的细节，我们编译了一个优化系统，具有以下设计目标：首先，生成的服装Mo网格应与隐式目标ff上的对应部分紧密粘合。其次，生成网格{lio}的边界应保持与隐式目标ff的服装边界对齐。第三，生成的网格Mo不应与预测的人体网格Msmpl相互穿透。然而，由于隐式目标ff编码了整个穿着衣物的人体，直接将显式模板Mp拟合到隐式目标ff可能会受到非相关区域的影响，例如头发、皮肤或其他衣物。为了解决这个问题，我们提出了一种称为激活区域探测的操作，它预测要变形的激活模板顶点以及激活顶点到隐式目标ff上相应区域的近似距离Dact。激活区域探测。给定显式模板Ml上的顶点Xi，沿着顶点法线方向分别向两个方向投射射线，每个方向采样k个点。对于每个顶点Xi，总共有2k+1个点{X0i,X1i,...,X2k-1i,Xi}被同时输入到隐式目标场ff和隐式语义场{fis}中。近似距离可以计算为模板顶点Xi到最近的穿透表面阈值ϵ（即0.5）的样本点Xbsti之间的距离。当投射射线到达等值面并且穿透点fs(Xbsti)的语义标签与当前模板一致时，顶点Xi的激活状态Bi∈{0,1}被设置为激活状态。最后，可以通过以下方式计算显式模板网格Mt上激活区域到隐式目标ff的近似距离：0Dact(Mo) = Avg(Bi˙MSE(Xi,Xbsti))/Sum(Bi) (11)0通过提出的激活区域损失Dact(Mo)，我们可以更新显式模板网格Mo，以适应隐式目标ff上的相应区域，损失函数如下：0+ ηbLb + ηlapLlap0Lo = Dact(Mo) - ηpenTSDF(Msmpl)(Mo)0其中TSDF（Msmpl）表示用于惩罚服装-身体穿透的姿势人体网格M p的截断有符号距离函数，Llap表示变形模板网格的拉普拉斯算子。在显式拟合阶段结束时，我们将获得与输入图像I对齐的高保真度的服装网格Mo。05.4. 后处理0尽管重建的服装网格Mo可以很好地从野外输入图像中恢复服装样式和表面细节，但与大多数现有的基于图像的重建方法一样，它可能无法重建像领口这样的折叠结构。因此，我们手动创建了一个领口仓库，其中包含了基于服装模板的各种真实世界领口，并训练了一个轻量级的图像分类网络，以选择与图像外观最接近的领口类型。由于我们生成的服装网格具有拓扑一致性，领口可以通过顶点对应附着到服装模板上。领口的几何形状进一步通过双调和变形进行调整，以与重建的服装网格相匹配。06. 实验结果06.1. 实现细节0数据准备我们采用RenderPeople[12]数据来训练我们提出的模型，其中包含400个具有高分辨率纹理和表面语义解析的真实3D穿着衣物的人体。我们将整个数据集分为360个主题的训练集和40个主题的测试集。所有纹理扫描都是按照PIFuHD[39]中的设置进行渲染的。值得一提的是，尽管RenderPeople提供的语义解析可以帮助自动识别服装边界，但由于人体和配饰的遮挡，它们可能受到严重破坏。因此，我们聘请专业艺术家在扫描表面上注释服装边界。更重要的是，艺术家可以使用他们在服装形状方面的专业知识将不完整的边界段连接成平滑的闭合曲线。网络训练粗糙形状、边界和语义场生成模块使用尺寸调整为512×512的输入图像进行训练。目标形状场生成模块使用原始分辨率的随机裁剪图像进行训练，窗口大小为512×512。我们同时训练粗糙形状生成模块、边界场(a)(b)(c)(d)(e)38510图4.在不同消融设置下生成的服装边界的定性比较。输入图像（a）后面是使用（b）PCT，（2）GCN，（3）w/oHM和（4）Ours生成的服装。0生成模块和语义场生成模块，学习率为1×10-4，从头开始训练六个时期。精细形状模块在固定的粗糙形状模块的条件下进行训练，学习率为1×10-4。以上提到的所有模块在两个GTX 3090GPU上训练大约需要72小时。有关网络训练和显式拟合的更多实现细节，请参阅附录。06.2. 消融研究0在本节中，我们编译了一系列消融实验，以验证边界场生成模块的算法组件的有效性。有关显式拟合阶段的消融细节，请参阅附录。我们对我们提出的模型和采用其他候选设计选择的替代方案进行了定量和定性比较：1）使用点变换器[50]解析显式曲面上采样的密集点云来预测服装边界，称为PCT。2）使用图卷积网络在图像引导下回归显式曲线来预测服装边界，称为GCN。3）使用与第4.3节中提到的基本方法相同的像素对齐的粗糙形状特征来预测服装边界，称为w/oHM。4）提出的完整模型，称为Ours。具体而言，我们使用Marching Cubes [28]从使用w/oHM和Ours生成的服装边界场中提取显式网格，以进行后续比较。表1显示了设计选择和提出方法之间的定量比较。如图所示，所提出的方法在所有设置中都表现出最佳的准确性。图4显示了在不同实验设置下生成的可视化结果。由于穿着衣物的人体形状多样，具有各种表面细节，PCT可能会产生损坏的服装边界和噪音。0方法 PCT GCN w/o HM Ours0CD（×10^(-3)）6.5329 9.18467 6.3786 1.10730表1. 提出模型与消融替代方案之间的定量比较。0解析。虽然GCN可以生成完整的曲线，但是GCN生成的边界曲线与服装边界大相径庭。由于缺乏图像空间的指导，w/oHM可能会生成具有不良形状的服装边界。我们的方法可以生成与图像中边界外观良好对齐的干净服装边界。06.3. 比较实验0我们将我们的方法与公开可用的最先进的单图像服装重建方法进行了定量和定性比较，包括Multi-Garment Net[5]、BC-Net [17]和SMPLicit[10]。定量比较我们使用我们的合成测试集的渲染图像对我们的方法和最先进的方法进行测试。值得注意的是，不同方法生成的服装网格与基于SMPL身体的地面真实服装网格对齐。将结果与地面真实服装网格对齐后，我们计算重建网格与地面真实服装网格之间的Chamfer距离（CD）以进行准确度测量。如表2所示，我们的方法在重建准确度方面远远优于其他对比方法。0方法 MGN SMPLicit BCNet Ours0CD（×10^(-3)）1.1424 1.3408 0.9725 0.54770表2. 我们的模型与最先进的服装重建方法之间的定量比较。0定性比较图6提供了从互联网收集的野外图像生成的结果的定性比较。与其他方法相比，我们的方法在重建准确的服装风格和忠实再现表面细节方面更优越。图7展示了我们的方法与BCNet [17]之间的定性比较。BCNet[17]无法产生具有正确风格的服装，而我们提出的方法可以将服装网格重建为与图像输入高度相似的边界和表面细节。06.4. 野外图像展示0图5显示了我们提出的方法在野外图像上生成的结果。结果表明，我们的方法能够产生具有细致纹理和正确服装风格的高质量服装。38520图5. 我们的方法在野外图像上生成的结果。每个图像后面是重建的分层服装网格。0(a) (b) (c) (d) (e)0图6.我们的方法与最先进方法的定性比较。对于每一行，输入图像（a）后面是由（b）Multi-Garment Net [5]、（c）SMPLicit[10]、（d）BCNet [17]和（e）我们的方法生成的结果。07. 结论和限制0从单个野外图像进行分层服装重建是一个具有挑战性的问题，原因是服装形状高度多样化且具有高频细节。为此，我们提出了一种新的流程，通过将显式网格注册到隐式场中，从单个图像中忠实地恢复高质量的服装。提出了一种新的服装边界场生成模型，用于将显式模板网格与隐式对齐。0图像 BCNet 我们的图像 BCNet 我们的0图7. 我们提出的方法与BCNet [17]在连衣裙重建上的定性比较。0基于显式和隐式之间的无缝对齐，提出的流程可以通过将模板网格与隐式目标上的相应部分进行拟合，从而产生高质量的服装网格。0局限性虽然我们的方法可以从单张图像生成高质量的服装，但只支持常见服装类别的重建。未来，我们将解决生成具有复杂拓扑和多层服装的问题。0致谢本工作得到河套深港科技合作区基础研究项目编号HZQB-KCZYZ-2021067、深圳市优秀人才培养基金202002号、广东省研究项目编号2017ZT07X152和2019CX01X104的支持。此外，还得到NSFC-62172348、61902334和深圳市一般项目(JCYJ20190814112007258)的支持。感谢中山大学深圳校区ITSO提供的高性能计算服务。38530参考文献0[1] Thiemo Alldieck, Marcus Magnor, Bharat Lal Bhatnagar,Christian Theobalt, and Gerard Pons-Moll.从单个RGB相机学习重建穿着衣物的人体。在《IEEE计算机视觉与模式识别会议(CVPR)》中，2019年6月。1，20[2] Thiemo Alldieck, Gerard Pons-Moll, Christian Theobalt,and Marcus Magnor.Tex2shape：从单张图像获得详细的完整人体几何形状。在《IEEE国际计算机视觉会议(ICCV)》中，IEEE，2019年10月。1，20[3] Dragomir Anguelov, Praveen Srinivasan, Daphne Koller,Sebastian Thrun, Jim Rodgers, and James Davis.SCAPE：人体形状的完整性和动画。《ACM Transactions onGraphics》24卷3期，408-416页，2005年。1，20[4] Bharat Lal Bhatnagar, Cristian Sminchisescu, ChristianTheobalt, and Gerard Pons-Moll.Loopreg：自监督学习隐式表面对应、姿态和形状用于3D人体网格配准。在《神经信息处理系统(NeurIPS)》中，2020年12月。30[5] Bharat Lal Bhatnagar, Garvita Tiwari, Christian Theobalt,and Gerard Pons-Moll.多服装网络：从图像中学习给3D人体穿衣。在《IEEE国际计算机视觉会议(ICCV)》中，IEEE，2019年10月。1，2，3，4，7，80[6] Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, andYaser Sheikh.OpenPose：使用部分亲和场进行实时多人2D姿势估计。在《arXiv预印本arXiv:1812.08008》中，2018年。50[7] Xiaowu Chen, Yu Guo, Bin Zhou, and Qinping Zhao.一种用于从单张图像估计穿着和裸体人体形状的可变形模型。《可视化计算机》29卷11期，1187-1196页，2013年。1，20[8] Bowen Cheng, Bin Xiao, Jingdong Wang, Honghui Shi,Thomas S. Huang, and Lei Zhang.Higherhrnet：面向自底向上的人体姿势估计的尺度感知表示学习。在《IEEE/CVF计算机视觉与模式识别会议(CVPR)》中，2020年6月。50[9] Haili Chui and Anand Rangarajan.一种新的非刚性配准点匹配算法。《计算机视觉与图像理解》89卷2-3期，114-141页，2003年。30[10] Enric Corona, Albert Pumarola, Guillem Alenya, GerardPons-Moll, and Francesc Moreno-Noguer.Smplicit：面向服装人体的拓扑感知生成模型。在《IEEE/CVF计算机视觉与模式识别会议(CVPR)》中，11875-11885页，2021年6月。1，2，3，7，80[11] Yu Deng, Jiaolong Yang, and Xin Tong.变形隐式场：利用学习的密集对应关系建模3D形状。在《IEEE/CVF计算机视觉与模式识别会议论文集》中，10286-10296页，2021年。30[12] Renderpeople GmbH. Renderpeople.https://renderpeople.com/，2019年。60[13] Nils Hasler, Carsten Stoll, Martin Sunkel, BodoRosenhahn, and H-P Seidel.人体姿势和身体形状的统计模型。在《计算机图形学论坛》第28卷，337-346页。Wiley Online Library，2009年。1，20[14] Tong He, Yuanlu Xu, Shunsuke Saito, StefanoSoatto和Tony Tung. Arch++:重新审视适用于动画的穿着人物重建.在IEEE/CVF国际计算机视觉会议(ICCV)论文集中，页码11046–11056，2021年10月。20[15] Zeng Huang, Yuanlu Xu, Christoph Lassner, Hao Li和TonyTung. Arch: 可动画重建穿着人物.在IEEE/CVF计算机视觉与模式识别会议(CVPR)上，2020年6月。20[16] Alec Jacobson, Ilya Baran, Jovan Popovi´c和OlgaSorkine-Hornung. 用于实时变形的有界双调和权重.《ACM通信》，57(4):99–106，2014年。50[17] Boyi Jiang, Juyong Zhang, Yang Hong, Jinhao Luo, LigangLiu和Hujun Bao. Bcnet: 从单个图像中学习人体和服装形状.arXiv预印本arXiv:2004.00214，2020年。1, 2, 3, 4, 7, 80[18] Ning Jin, Yilin Zhu, Zhenglin Geng和Ronald Fedkiw.基于像素的数据驱动服装框架.arXiv预印本arXiv:1812.01677，2018年。30[19] Hanbyul Joo, Tomas Simon和Yaser Sheikh. Total capture:用于跟踪面部、手部和身体的3D变形模型.在IEEE计算机视觉与模式识别会议上，页码8320–8329，2018年。20[20] Angjoo Kanazawa, Michael J. Black, David W.Jacobs和Jitendra Malik. 端到端恢复人体形状和姿势.在IEEE计算机视觉与模式识别会议上，页码7122–7131，2018年。1, 20[21] Muhammed Kocabas, Chun-Hao P. Huang, OtmarHilliges和Michael J. Black. Pare:用于3D人体估计的部分注意力回归器.在IEEE/CVF国际计算机视觉会议(ICCV)论文集中，页码11127–11137，2021年10月。1, 20[22] Muhammed Kocabas, Chun-Hao P. Huang, JoachimTesch, Lea Müller, Otmar Hilliges和Michael J. Black. Spec:使用估计的相机在野外观察人物.在IEEE/CVF国际计算机视觉会议(ICCV)论文集中，页码11035–11045，2021年10月。1, 20[23] Zorah Lahner, Daniel Cremers和Tony Tung. Deepwrinkles:准确而逼真的服装建模.在欧洲计算机视觉会议(ECCV)论文集中，页码667–684，2018年。30[24] Christoph Lassner, Javier Romero, Martin Kiefel, FedericaBogo, Michael J Black和Peter V Gehler. Unite the people:闭环3D和2D人体表示之间的联系.在IEEE计算机视觉与模式识别会议上，页码6050–6059，2017年。1, 20[25

下载后可阅读完整内容，剩余1页未读，立即下载