单目视频重建高保真度数字化人物形象

165 浏览量更新于2023-10-25 收藏 20.16MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

56050SelfRecon：从单目视频中重建您的数字化人物形象0Boyi Jiang 1,2 Yang Hong 1 Hujun Bao 3 Juyong Zhang 1*01中国科学技术大学2图像导数公司3浙江大学0摘要0我们提出了SelfRecon，一种结合隐式和显式表示的穿着人体重建方法，可以从单目自旋转人体视频中恢复时空一致的几何形状。显式方法需要给定序列的预定义模板网格，而对于特定的主体来说，获得模板是困难的。同时，固定的拓扑限制了重建的准确性和服装类型。隐式表示支持任意拓扑，并且由于其连续性质，可以表示高保真度的几何形状。然而，将多帧信息整合起来产生一致的注册序列以供下游应用是困难的。我们提出了结合两种表示优势的方法。我们利用显式网格的差分掩码损失来获得一致的整体形状，而隐式表面上的细节则通过可微分的神经渲染进行了改进。同时，显式网格定期更新以调整其拓扑变化，并设计了一致性损失来匹配两种表示。与现有方法相比，SelfRecon可以对任意穿着的人体进行高保真度的表面重建，并进行自监督优化。大量的实验结果证明了它在真实捕捉的单目视频上的有效性。源代码可在https://github.com/jby1993/SelfReconCode找到。01. 引言0多年来，穿着身体重建一直是一个重要而具有挑战性的研究课题。在电影和游戏行业中，高保真度的人体重建通常需要预捕捉的模板、多摄像机系统、受控的工作室和才华横溢的艺术家长期的工作。然而，这些要求超出了一般客户的应用场景，如远程存在感、增强现实/虚拟现实、人体测量学和虚拟试穿等。因此，直接从单目视频中重建高保真度的数字化人物形象将具有重要的实际应用价值。0*通讯作者0最先进的无标记单目人体性能捕捉方法[17,18,52]主要基于显式网格表示设计。它们需要特定于演员的装配模板，并利用检测到的2D/3D关节和轮廓来估计每帧的姿势和非刚性变形。DeepCap[18]在训练过程中还使用多视角信息来解决深度模糊，并提高单目推理的跟踪精度。显式表示具有一些优点，包括时空一致性和与现有图形控制流水线（如纹理编辑和重新定位）的兼容性。此外，这种范式下的蒙皮变形适用于模拟人体的大规模关节变形。然而，特定于演员的模板限制了这些方法在未知人体序列中的推广。对于自旋转的人在粗糙的A姿势下的视频，VideoAvatar[2]可以使用SMPL+D参数化表示[1-3,6,31,49]估计一般的穿着人体，但无法恢复褶皱和宽松的服装，如裙子。0最近，一些基于神经隐式表示的单目人体重建方法展示了令人信服的结果[10,20,21,23,41,42,46,50,55,56]。这些方法可以处理各种拓扑结构，因此可以表示各种服装和发型。然而，它们需要高质量的3D数据进行监督，并且只能对特定帧进行重建，无法保持整个序列表面顶点的时空一致性。保证一致性和正确的身体结构的一个简单解决方案是在规范空间中维护一个隐式模板表面，然后利用反向变形场将当前点映射到规范空间，以辅助其隐式函数查询。反向变形策略最近被广泛应用，并且对于小规模变形效果良好。然而，对于关节蒙皮变形来说，由于其在当前空间的某些部分是不可逆的，这种策略并不是非常合适。为此，提出了一些技术，如与姿势相关的蒙皮权重预测和特定的反向关节变形设计，但这些技术的复杂性高，泛化能力差。056060隐式人体重建。PIFu [ 41]采用深度网络提取图像特征，并将像素的特征和其对应的3D点深度信息连接起来作为多层感知器（MLP）的输入，以获得高保真的3D服装人体占据场。然而，在具有挑战性姿势的情况下，它可能会生成不正确的人体结构。StereoPIFu [22]针对双目图像，利用体积对齐特征和预测的高精度深度来指导隐式函数预测，可以有效地减轻深度模糊并恢复绝对尺度信息。PIFuHD [ 42]利用更高分辨率的特征和预测的法线信息来改进PIFu的几何细节。PaMIR [ 55]利用参数化的人体模型来减少隐式函数训练中的深度模糊影响，减少异常人体结构的出现，提高重建精度。这些方法训练一个MLP来表示人体的隐式几何，从单个或多个图像中获得令人印象深刻的结果。然而，它们需要相应的高质量3D彩色图像数据来训练模型，这很难获得，因此限制了它们对野外图像的泛化能力。此外，过度拟合人物运动序列的隐式神经表示以获得特定演员的重建变得流行。NASA [ 13]将裸体粗略地建模为关节部分的并集，每个部分都是一个隐式占据场。SCANimate [ 43]提出了一个端到端可训练的框架，将裸体人的原始3D扫描转换为可动画化的角色。02. 相关工作0SNARF [ 11]学习了一个前向变形场，以提高其对未见人体姿势的泛化能力。所有这些方法都需要4D扫描数据来训练其着装身体表示，因此很难广泛应用于一般图像数据。最近，一些隐式表示方法引起了研究人员的注意，这些方法可以基于多视图图像提取几何信息并合成新视图。神经身体[ 39]根据身体结构的潜在代码重建每帧的NeRF [ 34]场，并利用NeRF场合成新图像。然而，从NeRF中提取的几何形状存在噪声。H-NeRF [ 51 ]利用隐式参数模型[ 4]重建人类的时间运动。神经演员[ 30]整合纹理映射特征以改进体积渲染。IDR [ 53]将隐式有符号距离场和微分神经渲染相结合，从多视图图像生成高质量的刚性重建。并行IMAvatar [ 54]将IDR扩展到从单目视频中学习隐式头像。显式人体重建。在人体统计模型[ 5 , 25 , 31]的帮助下，一些工作利用图像线索自动获取模型参数[ 9 ,16 , 28 , 35 ]。为了表示人类服装，一些方法在SMPL [ 31]顶点上添加位移来模拟紧身衣物[ 2 , 7 , 33 , 37]。然而，这种SMPL+D表示只能支持紧身衣物类型并恢复粗略的几何形状。为了提高表示能力，一些工作采用单独的服装表示并与SMPL身体结合进行重建[ 26 , 32]，但它们需要服装类型和高质量的3D监督。此外，为了捕捉特定人物的表演，许多先前的工作使用特定于演员的模板来辅助跟踪。Monoperfcap [ 52]优化模板网格的变形以匹配2D线索。LiveCap [ 17]改进了优化流程，并实现了对特定人物的单目RGB输入的实时跟踪。DeepCap [ 18]采用网络来预测特定人物每帧的模板变形。然而，对预定义模板的要求限制了它们的广泛应用。03. 方法0SelfRecon旨在从描述自旋人物的单目视频中重建高保真度和时空一致的穿着身体形状，整个算法流程如图1所示。我们利用显式和隐式几何表示来实现上述目标。具体而言，我们利用正向变形场生成时空一致的显式网格。变形场被分解为两部分，其中第一部分表示每帧的非刚性变形，使用可学习的MLP，第二部分是蒙皮变形场。我们采用可微的掩码、正则化和平滑损失来控制显式网格的形状。为了更新隐式神经表示的形状，我们使用非刚性射线投射（第3.3节）找到射线与变形后的隐式表面的可微交点。然后，隐式渲染网络（第3.4节）将利用射线的颜色信息来改善几何形状。除非另有说明，我们还使用预测的法线图[42]来细化细节。最后，设计一致性损失来匹配两种表示。对于一个包含N帧的自旋视频，我们采用VideoAvatar[2]中描述的方法来生成SMPL模型的初始形状参数β和每帧的姿势参数{θi | i ∈ {1, ...,N}}。我们预定义了一个模板姿势，并使用β和该姿势参数生成初始的规范SMPL身体网格B。我们的隐式和显式表示都使用B进行初始化。接下来，我们详细介绍每个组件的算法细节。P: = arg min෡P𝑤|𝑓 ෡P | +𝐷𝑖 ෡P − c × v 2𝐷𝑖 ෡P − c𝑙𝑜𝑠𝑠𝑐𝒐𝒏𝒔𝑙𝑜𝑠𝑠𝑅𝐺𝐵𝑙𝑜𝑠𝑠𝐼𝑜𝑈npP, np, vPSη = {p ∈ R3|f(p; η) = 0}.(1)56070非刚性变形0蒙皮变形0微分渲染0渲染的掩码目标的掩码0微分非刚性射线投射P0RGB隐式神经渲染0图例 �0隐式0显式0损失项0图1.SelfRecon的流程。我们同时维护显式和隐式几何表示，并使用正向变形场将规范几何体变换到当前帧空间。对于显式表示，我们主要使用可微的掩码损失来恢复整体形状。对于隐式表示，我们使用采样的神经渲染损失和预测的法线来细化几何细节。最后，使用一致性损失来保持两种几何表示的匹配。0为了避免意外解，我们使用IGR[15]将S η初始化为初始的规范身体B。03.1. 规范隐式SDF0与VideoAvatar[2]中的类似工作一样，他们采用SMPL+D表示着装的人体。然而，SMPL+D的分辨率和表示能力有限，因此无法表示高保真度的几何形状和各种服装类型。在这项工作中，我们将规范模板形状S η表示为SDF的零等值面，其由具有可学习权重η的MLP f表示：0为了避免意外解，我们使用IGR[15]将S η初始化为初始的规范身体B。03.2. 变形场0与之前的工作[21,23]类似，我们利用骨骼蒙皮变换来控制人体的大规模运动，因为人体具有关节结构。然而，服装的非刚性变形无法完全由蒙皮变换表示。因此，我们扩展了另一个MLP来模拟非刚性变形场。非刚性变形场。我们使用具有可学习权重φ的MLP d来表示非刚性变形场。对于第i帧，d以其可优化的条件变量hi作为输入，并使用第i帧的特定非刚性变形来变形规范空间中的点。蒙皮变换场。给定第i帧的姿势参数θi，我们必须定义一个从规范空间到当前空间的蒙皮变换场W。由于初始模板身体B具有与其SMPL骨骼相关的明确定义的蒙皮权重，一个直观的想法是将B的顶点的蒙皮权重扩展到整个规范空间以定义蒙皮变换场。具体而言，我们首先在规范空间中预定义一个包含B的稀疏网格。对于每个网格点，我们找到其在B上的最近的30个顶点，并使用IDW（逆距离加权）对它们的蒙皮权重进行平均，作为其初始权重。然后，我们使用拉普拉斯平滑对所有网格点的权重进行平滑处理。最后，给定p = arg minˆpω|f(ˆp)| + ∥(Di(ˆp) − c) × v∥2∥Di(ˆp) − c∥2,(2)npvpෝ𝐩𝐩𝐓𝐓𝒊𝒟𝑖ො𝐱𝐱𝒟𝑖𝐜i∂f∂pT ∂p∂η = −∂f∂η[v]×∂x∂p∂p∂η = 0,(3)56080对于规范空间中的一个点，我们通过网格中的三线性插值计算其蒙皮权重。在我们的优化过程中，网格是预先计算和固定的。这种前向变形设计避免了逆蒙皮变换的麻烦[11, 13,24,47]，并为人体关节运动提供了规则的约束。最后，通过合成d和W，我们得到最终的变形场D =W(d(∙))。它以第i帧的条件变量h i和SMPL姿势参数θi作为输入，并将规范点转换为第i帧空间。为了简洁描述，我们用D i表示第i帧的变形场，S i表示第i帧的零等值面D i(S η)，ψ i表示D i的可优化参数{φ, h i, θ i}。03.3. 可微分非刚性光线投射0对于刚性场景，广泛使用球追踪算法[19, 27,53]来找到射线与SDF的交点。然而，由于变形场，这种方法在这里不可行。受[44]中提出的渲染变形SDF的方法的启发，我们利用显式网格来帮助找到射线与S i的交点。如图2所示，我们从规范表面S η中提取一个显式模板网格T。通过变形Di，我们可以得到第i帧的网格T i。理论上，T i 是S i的分段线性逼近。因此，考虑从相机位置c沿方向v发射的射线，其与T i 的第一个交点ˆ x是其与S i的交点的很好近似。此外，通过T i上的相交三角形，我们可以通过一致的重心权重找到ˆ x对应的模板T上的点ˆ p。显然，ˆ p靠近S η，并且是D − 1 i(ˆ x)的很好近似。以ˆp作为良好的初始化，我们可以找到规范表面S η上的一个点p，其变形点x = D i ( p)恰好是射线r与S i的交点。具体来说，我们通过以下方式求解p:0其中第一项约束ˆ p与S η接近，第二项限制了D i (ˆp)在射线上。在我们的实现中，我们设置ω =3.05，并执行10次梯度下降迭代来求解p。为了保证准确性，我们拒绝那些损失较大的样本。可微分公式。上述求解p的过程是一个迭代优化过程，不可微分。对于第i帧中的射线，相机位置c，视线方向v，D i的参数ψi和f的参数η唯一确定p。因此，p可以看作是这些参数的函数，我们需要计算p对所有这些参数的偏导数。为简洁起见，我们只在此处说明对η的计算，其他偏导数的计算方式类似。通过上述分析，p满足表面和射线约束：f(p) ≡ 0和(D i(p) − c) × v ≡ 0。我们0规范空间0当前空间0重心插值0图2.关于可微分非刚性光线投射和隐式神经渲染的一些相关符号和说明。0对这两个方程关于 η 进行求导，得到:0其中 x = D i ( p )，[ v ] × 是 v 的叉乘矩阵。我们将这两个方程连接起来得到一个 4 × 3的线性系统，然后求解 ∂ p0∂η通过求解其正规方程得到。03.4. 隐式渲染网络0IDR [53]提出了一个MLP M来近似渲染方程，并展示了光照和材质的某种解耦能力。在它们的刚性配置中，M以零等值面的点、其法线、视角方向和全局几何特征向量作为输入，来估计沿视角方向的点的颜色。我们通过将相关的当前帧属性转换为规范空间，将其巧妙地转移到非刚性场景中。如图2所示，考虑从相机中心c沿采样像素发射的射线，其方向v由相机的内部参数τ确定，我们使用第3.3节中描述的算法计算其与Sη的交点p。同时，我们通过梯度计算计算其法线np = �f(p;η)。然后，规范空间中的视角方向vp可以通过使用Jacobian矩阵Jx(p)将v转换为以变形点x =Di(p)为参考的p计算得到。至于全局几何特征，我们同样使用一个更大的MLP F(p; η) = (f(p; η), z(p;η))来额外计算它，它暗示了p周围的几何信息，并可用于帮助全局阴影的预测[53]。(4)�t∈Tρ(∥W(t; θi) − Di(t)∥2),(6)∥JNull(B)∥2F .(7)|�p∈P|Lp(X) − Ip|.(9)|�p∈Pωp∥np − unit(Jx(p)T Np)∥2. (10)56090最后，我们使用一个具有可学习权重γ的MLP M来计算p的颜色Lp(η, ψi, γ, τ)，表示为：0Lp(η, ψi, γ, τ) = M(p, np, vp, z(p; η); γ)np = �f(p; η)0x = Di(p)0vp = Jx(p)-1v，0其中相关符号已经在上面描述过。可以看出，变形点x在第i帧中沿着方向v的颜色由MLP权重η和γ、相机参数τ和变形场参数ψi决定。03.5. 损失函数0根据上述描述，对于一个N帧的自旋转视频，所有可优化参数的集合X为：0X = {η, γ, φ, τ} ∪ {hi, θi | i ∈ 1, ..., N}，0其中包括相机参数、整个序列共享的MLP的可学习权重以及每帧特定姿势参数和非刚性变形场的条件变量。我们的目标是设计一个损失函数并优化X以匹配输入视频的掩码和RGB图像{Oi, Ii | i ∈ 1, ..., N}。此外，预测的法线图{Ni | i ∈ 1,...,N}也被添加到优化中。由于SelfRecon同时维护显式和隐式几何，损失项可以分为两部分。03.5.1 显式损失0在计算显式损失时，我们临时将规范网格顶点T视为可优化变量，并与X一起计算其梯度。然后在一致性损失中，我们将其变化与我们的隐式表示关联起来。目前，显式损失主要包括掩码损失、变形正则化损失和骨架的平滑损失。掩码损失。我们利用基于点云的可微分渲染器[48]来渲染第i帧网格Ti =Di(T)的掩码Oi，使用相机参数计算与目标掩码Oi的IoU损失：0损失IoU = 1 - ∥ O(Ti) 0∥ O(Ti) ⊕ Oi - O(Ti) � Oi ∥1，(5)0其中 � 和 ⊕是执行逐元素乘积和求和的运算符。变形正则化损失。如第Sec所述。0根据第3.2节，第i帧的变形场Di包含变量d和固定W。d表示不能由蒙皮变换W表示的变形，这种变形应该相对较小。为了关联骨架0对于姿势，我们设计了以下正则化损失：0损失 regu = 1| T |0其中，t 是 T 的顶点坐标，| T | 是 T 的顶点数，ρ 是Geman-McClure鲁棒损失[14]。骨架平滑损失。关节的运动轨迹应该是低频的。与MonoPerf[52]类似，我们通过最小化到由离散余弦变换的10 个最低频基向量张成的 10 维线性子空间 B ∈ R 30 ×10 的距离来平滑 30 个连续帧的骨架坐标：0损失 ske = 10这里，Null ( B ) 表示 B 矩阵的零空间，矩阵 J ∈ R 72 ×30 堆叠了连续 30 帧的所有骨架坐标，∥ ∙ ∥ F 表示Frobenius 范数。最后，显式表示的损失为：0损失 exp = 损失 IoU + λ e 1 损失 regu + λ e 2 损失 ske . (8)0λ e 1 和 λ e 2调整相关损失的权重。每次迭代后，我们保留 X的梯度，并等待隐式损失迭代一起更新。对于规范网格顶点，我们使用 SGD 更新 T 到 ˆT，这将在一致性损失中用于匹配两种表示。03.5.2隐式损失0我们在真实掩码内采样像素，并利用第 3.3 节获取射线与 Sη 的交点 p，以及对应的真实颜色 I p 和预测法线 Np（如果有）。然后，基于这个采样点集P，我们构建了两个损失。颜色损失。根据公式(4)，我们将颜色损失定义为：0RGB损失 = 10这里，我们使用 X来替代公式(4)中的相关参数。直观上，这个损失要求渲染的图像应该与输入图像匹配。法线损失。我们利用PIFuHD[42]预测的法线图进一步优化几何形状。根据公式(4)，我们可以轻松计算出 p 的法线 np。此外，我们还需要将相应的预测法线 N p从当前帧的空间转换到规范空间，可以通过 J x ( p ) T N p计算得到，其中 J x ( p ) 是 p处正向变形场的雅可比矩阵[44]。因此，法线损失为：0法线损失 = 1|�p∈Sρ(∥logΣp∥F ),(11)|�p∈S(∥np∥2 − 1)2,(12)|�ˆt∈ ˆT|f(ˆt; η)|,(14)GT2.081.502.401.921.421.861.621.161.921.531.171.4856100这里，unit ( ∙ ) 表示对向量进行归一化。ω p 是由 n p和对应的视角方向之间的夹角的余弦定义的权重。由于预测的法线在帧之间存在噪声和不一致性，我们使用这些权重来减轻偏离视角方向的法线的影响，并避免几何伪影。我们还为隐式表示设计了正则化损失，这些损失定义在接近隐式表面的采样点集 S 上[15]。刚性损失。我们要求第一个变形场d 尽可能刚性，以避免变形。参考 Park等人[36]，我们设计了以下损失：0刚性损失 = 10其中，Σ p 是 d 在 p 处的雅可比矩阵的奇异值对角矩阵，ρ是鲁棒函数[14]。Eikonal Loss。我们采用IGR[15]的常规损失函数，使得 f 成为符号距离函数：0SDF损失 = 10其中，n p 是在 p 处对 f进行微分得到的。最后，隐式损失可以表示为：0损失 imp = 损失 RGB + λ i 1 损失 norm + λ i 2 损失 rigid +λ i 3 损失 sdf ，其中 λ i 1 ， λ i 2 和 λ i 3 是平衡权重。03.5.3 显式/隐式一致性0在显式迭代之后，规范网格已经更新为ˆ T，为了使隐式SDF与更新的显式网格一致，在隐式迭代过程中，我们设计了一种一致性损失：0损失 cons = 10其中 ˆ t 是 ˆ T 的一个顶点坐标。直观地，该损失要求ˆ T与隐式表面 S η匹配。在每个优化步骤中，我们首先执行显式迭代以获得ˆ T并保留 X的梯度。然后，我们计算隐式和一致性损失以累积新的 X的梯度。最后，使用Adam算法利用计算得到的梯度更新 X。04. 实验0我们进行定量和定性实验来证明SelfRecon的有效性。对于定量评估，由于缺乏高质量的人体几何数据，我们使用商业软件合成了几个序列。0表1.合成五个序列的误差（厘米）。我们报告了三个误差指标：重建网格与GT网格之间的平均距离（重建距离），GT网格与重建网格之间的平均距离（GT距离）和Chamfer距离。对于每个误差指标，我们分别报告了VideoAvatar和我们的结果的值，分别在两行中显示。0主体 f1 f2 f3 m1 m2 平均0重建距离1.59 1.71 1.93 1.81 1.27 1.660Chamfer距离1.84 1.60 2.17 1.86 1.34 1.760对于定性评估，我们主要利用PeopleSnapshot[2]数据集和我们自己收集的几个真实序列。我们还对损失项设计进行了消融研究，并提出了一个角色生成应用。04.1. 定量评估0我们合成数据来定量评估我们的重建算法。具体而言，我们使用Blender[8]设计了男性和女性角色的自旋动作。然后，我们使用CLO3D[12]设计了几件服装，并使用动作使衣物动起来。最后，我们合成了两组男性和三组女性穿衣序列。我们使用VideoAvatar[2]和我们的方法对这些序列进行重建，并报告了规范姿势结果的配准误差在表1中。与VideoAvatar相比，我们的方法显著降低了各种误差指标的值。在图3中，我们还展示了四组结果及其误差图。直观地，我们的结果捕捉到了整体形状，并具有一些合理的细节。由于VideoAvatar基于SMPL+D表示，它对于紧身服装（如男性示例）具有合理的结果，但缺乏详细的重建能力。此外，它不能正确重建宽松的服装，特别是穿裙子的女性。04.2. 定性评估0我们还将SelfRecon与多帧预测算法PaMIR[55]、优化方法VideoAvatar [2]和基于NeRF[34]的神经渲染方法NeuralBody[39]在PeopleSnapshot数据集的几个序列上进行了定性比较。在图4中，我们展示了输入视频的第一帧、我们的渲染图像以及所有方法的重建结果，从两个角度进行比较。我们将前两行与PaMIR进行比较，其他行与NeuralBody进行比较。从图中可以看出，基于SMPL+D的VideoAvatar只能大致捕捉到整体形状，但是细节如发型和服装褶皱丢失了。PaMIR使用多帧输入来改善其结果，56110图3. 四个合成自旋序列的规范姿势重建及其误差图。在每组中，依次显示GT网格、VideoAvatar和SelfRecon的结果（红色表示≥6厘米）。0输入渲染结果 PaMIR/NeuralBody VideoAvatar0图4. 与使用视频或多帧图像的方法进行比较的结果，包括PaMIR[55]，NeuralBody [39]和VideoAvatar[2]。对于第二组比较，前两行的方法是PaMIR，其余是NeuralBody。我们还提供了我们的渲染图像作为参考。SelfRecon可以重建站立姿势的高保真几何形状，包括面部特征和服装褶皱。0但仍然存在深度模糊。如第二个例子中所示，其重建的人物在侧面视图中不是直立的。此外，其结果具有一些细节，但缺少面部特征，而我们的方法具有更好的细节，并且可以恢复一定的面部特征。与SelfRecon类似，NeuralBody也输入视频进行自监督优化。它主要关注新视角合成，但仍然可以从底层NeRF表示中提取几何形状。我们可以看到，它的重建结果减轻了深度模糊，并符合人体的整体结构，但表面上存在大量噪音，这可能是由于体积渲染的过度自由引起的。与他们的方法不同，基于隐式表面表示的SelfRecon可以恢复无噪音的高保真几何形状。0图5.通过智能手机拍摄的视频的重建结果。每组显示视频的第一帧图像，对应的神经渲染图像和重建形状。0图5显示了我们使用智能手机拍摄的视频的重建结果。对于每组，我们展示了视频的第一帧图像，我们的渲染图像和重建结果。我们的结果对于各种服装和身体具有高保真的几何形状，我们的神经渲染图像也与输入图像非常接近。04.3. 消融研究0我们的完整算法需要彩色图像、蒙版和法线图作为输入。图6显示了三个输入上的两个示例的消融实验。结果显示，如果只使用蒙版损失，恢复的几何形状在轮廓的凸包内，但缺乏细节并且具有明显的凹陷。添加颜色损失后，细节显著改善，不自然的凹陷减少。对于第二个示例，结果已经非常接近添加法线损失的结果。然而，对于第一个示例，它无法完全消除凹陷的几何形状。56120仅有蒙版无法完整损失法线0图6.颜色、蒙版和法线损失的消融研究。仅使用蒙版损失，结果缺乏细节并具有许多凹陷的几何形状。添加颜色损失后，几何形状得到了显著改善，但无法完全消除凹陷。通过预测的法线，结果进一步改善。在最后一列中，我们还展示了神经渲染图像作为参考。0图7.在公式（10）中没有自适应权重和公式（13）中的小λi1的情况下，正常损失会导致伪影（中间）。调整权重后，相应的结果（右侧）更加合理。0没有法线损失。这可能是由于这些区域缺乏丰富的纹理和多视角观察。通过法线损失，我们的结果进一步改善，不自然的凹坑被消除，同时保留了细节。由于法线预测网络[42]是使用合成图像进行训练的，它的预测可能对实际测试不准确，并且在不同帧之间可能不一致。如图7所示，在公式（10）中没有自适应权重，法线损失可能会导致意外的结果。04.4. 生成头像0由于我们的正向变形场设计，我们可以提取具有一致拓扑的网格序列。根据跟踪结果，我们可以从图像中提取纹理模板网格，并使用蒙皮变换场的蒙皮权重进行绑定。然后，生成一个可动画的头像，并可以通过SMPL姿势参数驱动。对于纹理提取，我们遵循VideoAvatar[2]的方法。图8显示了从PeopleSnapshot数据集中生成纹理和驱动的两个示例。我们的方法可以恢复更好的几何细节，如面部特征和鞋子0图8.重建的纹理网格和驱动结果。左侧显示参考图像，由VideoAvatar和SelfRecon生成的纹理网格。右侧，我们使用三个姿势参数来驱动我们的纹理网格，并生成合理的结果。0由于更准确的跟踪结果，我们的驱动结果看起来是合理的，并且可能在某些应用中具有足够的质量。05. 结论与讨论0我们提出了SelfRecon，一种基于神经隐式表示和神经渲染的自监督重建方法。通过正向变形，我们的方法可以轻松应用于身体运动，并恢复时空连贯的表面，这对于下游应用非常方便。此外，结合显式表示，我们提出了一种非刚性光线投射算法，使其能够与变形的隐式表面可微地相交。SelfRecon可以从自旋视频中重建高保真度的着装人体形状，而无需预先计算的模板。我们还展示了使用我们的跟踪结果生成高保真度的虚拟人物，展示了SelfRecon的潜在应用。SelfRecon仍然存在一些局限性。首先，它需要相对较长的时间进行优化，这限制了其方便的应用。然而，借助于身体先验知识和神经渲染领域的快速发展，这个问题可以得到缓解。其次，当前方法依赖于预测的法线图来改善几何细节。如何直接从自监督渲染损失中恢复几何细节值得进一步研究。第三，所提出的方法主要适用于自旋运动，并且对于更一般的运动序列的研究是值得的。0致谢：本研究得到了中国国家自然科学基金（No.62122071），中国科学院青年创新促进会（No.2018495），中央高校基本科研业务费（No.WK3470000021）的支持。56130参考文献0[1] Thiemo Alldieck, Marcus Magnor, Bharat Lal Bhatnagar,Christian Theobalt和Gerard Pons-Moll.从单个RGB相机学习重建穿着衣物的人物.在IEEE计算机视觉和模式识别会议(CVPR)上，2019年6月. 10[2] Thiemo Alldieck, Marcus Magnor, Weipeng Xu, ChristianTheobalt和Gerard Pons-Moll. 基于视频的3D人体模型重建.在IEEE计算机视觉和模式识别会议(CVPR)上，2018年6月. 1 , 2 , 3 , 6 , 7 , 80[3] Thiemo Alldieck, Gerard Pons-Moll, ChristianTheobalt和Marcus Magnor. Tex2shape:从单张图像中获取详细的完整人体几何形状.在IEEE国际计算机视觉会议(ICCV)上. IEEE，2019年10月. 10[4] Thiemo Alldieck, Hongyi Xu和Cristian Sminchisescu.imghum: 3D人体形状和关节姿势的隐式生成模型.在IEEE/CVF国际计算机视觉会议上，页码5461-5470，2021年.20[5] Dragomir Anguelov, Praveen Srinivasan, Daphne Koller,Sebastian Thrun, Jim Rodgers和James Davis. Scape:人形的形状补全和动画. 在ACM SIGGRAPH2005论文集上，页码408-416，2005年. 20[6] Bharat Lal Bhatnagar, Garvita Tiwari, ChristianTheobalt和Gerard Pons-Moll. Multi-garment net:从图像中学习为3D人物着装.在IEEE国际计算机视觉会议(ICCV)上，2019年10月. 10[7] Bharat Lal Bhatnagar, Garvita Tiwari, Christian Theobalt,and Gerard Pons-Moll. Multi-garment net:从图像中学习为3D人物着装.在IEEE国际计算机视觉会议(ICCV)上，2019年. 20[8] Blender. 2021. https://www.blender.org/ . 6 [9] FedericaBogo, Angjoo Kanazawa, Christoph Lassner, Peter Gehler,Javier Romero和Michael J Black. Keep it smpl:从单张图像自动估计3D人体姿势和形状.在欧洲计算机视觉会议上，页码561-578，2016年. 20[10] Andrei Burov，Matthias Nießner和JustusThies。用于单目4D面部化身重建的动态神经辐射场，2021年。10[11] Xu Chen，Yufeng Zheng，Michael J Black，OtmarHilliges和AndreasGeiger。Snarf：用于非刚性神经隐式形状动画的可微分前向蒙皮。在计算机视觉国际会议（ICCV）中，2021年。1，2，40[12] CLO3D。2021年。https://www.clo3d.com/。6 [13]Boyang Deng，John P Lewis，Timothy Jeruzalski，GerardPons-Moll，Geoffrey Hinton，Mohammad Norouzi和AndreaTagliasacchi。NASA神经关节形状近似。在计算机视觉-ECCV2020：第16届欧洲会议，格拉斯哥，英国，2020年8月23日至28日，会议，第VII卷，页码612-628。斯普林格，2020年。1，2，40[14] Stuart Ganan和DMcClure。贝叶斯图像分析：单光子发射断层扫描的应用。美国统计协会，页码12-18，1985年。5，60[15] Amos Gropp，Lior Yariv，Niv Haim，MatanAtzmon和YaronLipman。用于学习形状的隐式几何正则化。在2020年机器学习和系统会议论文集中，页码3569-3579。2020年。3，60[16] Rıza Alp G¨uler，Natalia Neverova和IasonasKokkinos。Densepose：野外密集人体姿态估计。在IEEE计算机视觉和模式识别会议论文集中，页码7297-7306，2018年。20[17] Marc Habermann，Weipeng Xu，MichaelZollhoefer，Gerard Pons-Moll和ChristianTheobalt。Livecap：从单目视频实时捕捉人体表现。ACM图形学交易（TOG），38（2）：1-17，2019年。1，20[18] Marc Habermann，Weipeng Xu，Michael Zollhofer，GerardPons-Moll和ChristianTheobalt。Deepcap：使用弱监督进行单目人体表现捕捉。在IEEE /CVF计算机视觉和模式识别会议论文集中，页码5052-5063，2020年。1，20[19] John CHart。球追踪：隐式曲面抗锯齿光线追踪的几何方法。视觉计算机，12（10）：527-545，1996年。40[20] 何彤，John Collomosse，Hailin Jin和StefanoSoatto。Geo-pifu：用于单视图人体重建的几何和像素对齐的隐式函数。在神经信息处理系统会议（NeurIPS）中，2020年。10[21] 何彤，徐元路，齐脚，Stefano Soatto和Tony Tung。Arch++：动画准备的服装人体重建再探讨。在IEEE /CVF国际计算机视觉会议论文集中，页码11046-11056，2021年。1，30[22]杨鸿，张巨勇，姜博毅，郭宇东，刘立刚和包虎军。Stereopifu：通过立体视觉感知的深度感知服装人体数字化。在IEEE /CVF计算机视觉和模式识别会议（CVPR）中，2021年。20[23] 黄增，徐元路，Christoph Lassner，李浩和TonyTung。Arch：服装人体的可动态重建。在IEEE /CVF计算机视觉和模式识别会议论文集中，页码3093-3102，2020年。1，30[24] Timothy Jeruzalski，David I. W. Levin，AlecJacobson，Paul Lalonde，Mohammad Norouzi和AndreaTagliasacchi。Nilbs：神经逆线性混合蒙皮。CoRR，abs/2004.05980，2020年。1，40[25]姜博毅，张巨勇，蔡建飞和郑建民。基于深层分层神经网络的人体解缠嵌入。IEEE可视化和计算机图形学交易，2020年。20[26]姜博毅，张巨勇，杨鸿，罗金豪，刘立刚和包虎军。Bcnet：从单张图像学习身体和服装形状。在欧洲计算机视觉会议中。斯普林格，2020年。20[27] 姜越，季丹彤，韩志忠和MatthiasZwicker。Sdfdiff：用于3D形状优化的可微分渲染有符号距离场。在IEEE /CVF计算机视觉和模式识别会议论文集中，页码1251-1261，2020年。40[28] Angjoo Kanazawa, Michael J Black, David W Jacobs, andJitendra Malik. 从头到尾恢复人体形状和姿势。56140在IEEE计算机视觉和模式识别会议论文集中，页码7122-7131，2018年。20[29] Zhengqi Li, Simon Niklaus, Noah Snavely, and OliverWang.神经场景流场用于动态场景的时空视图合成。在IEEE/CVF计算机视觉和模式识别会议论文集中，页码6498-6508，2021年。10[30] Lingjie Liu, Marc Habermann, Viktor Rudnev, KripasindhuSarkar, Jiatao Gu, and Christian Theobalt. Neural actor:使用姿势控制对人类演员进行神经自由视图合成。ACMSIGGRAPH Asia，2021年。20[31] Matthew Loper, Naureen Mahmood, Javier Romero,Ge

下载后可阅读完整内容，剩余1页未读，立即下载