没有合适的资源?快使用搜索试试~ 我知道了~
34070从单个摄像机学习依赖于运动的外观,实现动态人物的高保真渲染0Jae Shin Yoon † ,� Duygu Ceylan � Tuanfeng Y. Wang �0Jingwan Lu � Jimei Yang � Zhixin Shu � Hyun Soo Park †0†明尼苏达大学 �Adobe研究0摘要0穿着衣物的外观经历了复杂的几何变换,这种变换不仅由静态姿势引起,还由其动态引起,即给定一个姿势,根据其移动方式,可能存在多种服装几何配置。这种以运动为条件的外观建模在现有的人物渲染方法中很大程度上被忽视,导致了物理上不可行的运动渲染。学习外观动态的关键挑战在于需要大量的观测数据。在本文中,我们通过强制等变性来学习一种紧凑的运动表示——表示预期按照姿势的变换方式进行变换。我们建模了一个等变编码器,可以从3D人体表面的空间和时间导数生成可推广的表示。这种学习到的表示由一个组合多任务解码器解码,以呈现高保真度的时变外观。我们的实验证明,我们的方法可以在给定单个视角视频的情况下生成一个未见过的姿势和新视角的动态人物的时间连贯视频。01. 引言0我们通过移动身体来表达自己,从而驱动一系列自然的次要运动,例如图1所示的舞蹈引起的服装动态运动。这种次要运动是与身体的复杂物理相互作用的结果,一般而言是时变的。这对于动态着装人物的合理渲染在视频基于重定向或社交存在等应用中构成了重大挑战。许多现有方法,如姿势引导的人物图像生成[7],将静态姿势作为条件变量。尽管其具有有希望的渲染质量,但它无法生成物理上合理的次要运动,例如对于快速和慢速运动生成相同的外观。0返回0前0预测0表面法线 外观 表面法线 3D速度0图1.给定3D人体模型的表面法线和速度,我们的方法合成了特定主体的表面法线和外观。我们特别关注通过学习有效的3D运动描述符来合成可信的动态外观。0可以通过视频学习次要运动的动态。然而,这需要大量的数据,即展示所有可能姿势和相关运动的视频。实际上,只有一个短视频剪辑可用,例如社交媒体(如TikTok)中的视频最长限制为15-60秒。因此,学习到的表示容易过拟合。在本文中,我们解决了“在有限的观测条件下,我们能否学习到动态的表示?”这个基本问题。我们认为可以通过强制等变性来学习到有意义的表示——表示预期按照身体姿势的变换方式进行变换。通过等变性,我们将次要运动的动态建模为3D人体的空间和时间导数的函数。我们通过在身体表面的规范坐标系(即UV映射)中重新排列3D特征来构建这种表示,该表示对于3D坐标系的选择是不变的。UV映射还捕捉到了身体部位的语义含义,因为每个身体部位由一个UV贴片表示。由此产生的表示是紧凑的且34080与常常因为2D投影而受到几何模糊的2D姿势表示相比,我们观察到两个主要因素对生成的外观的真实性有显著影响。首先,穿着衣物的轮廓会根据身体的运动和个体服装类型(例如,上衣和下装可能会经历不同的变形)的物理特性(例如,材料)进行变换。其次,身体和衣物的局部几何形状高度相关,例如T恤和身体表面的表面法线,这会导致褶皱和皱纹的出现和消失。为了融入这些因素,我们提出了一个将最终外观渲染分解为模块化子任务的组合解码器。该解码器预测时变的语义地图和表面法线作为中间表示。虽然语义地图捕捉到了时变的轮廓变形,表面法线则能够合成高质量的纹理,进一步实现重新照明。我们将这些中间表示组合起来产生最终的外观。我们的实验证明,我们的方法可以在给定单个视角的训练视频的情况下生成一个未见过的次要运动的时间连贯视频。我们与各种最先进的基准方法进行了全面比较。由于其辨别能力,我们的表示表现出卓越的泛化能力,在训练时间较短的视频上始终优于先前的方法。此外,我们的方法在处理包括3D旋转以及在自由视点渲染等应用中呈现一致视图方面表现出更好的性能。我们的方法预测的表面法线等中间表示还可以实现其他不可行的应用,例如重新照明。02. 相关工作0高质量人体合成已经使用了两种主要的渲染方法:基于模型和基于检索的方法。基于模型的方法利用3D形状模型,例如3DMM人脸模型[4],可以通过几何变换[11,57]合成新的视图。检索方法通过在局部和全局形状和外观中寻找匹配来合成图像[6,31]。现在,这些方法结合了深度表示形成了神经渲染和生成网络。神经渲染。由于人的外貌受其姿势的调节,可以使用参数化的3D人体模型(例如可变形模板模型[35])生成高保真度的外貌。例如,一些现有方法[44,67]通过将SMPL身体上定义的每个顶点的RGB颜色映射到合成图像中,学习了一个人的恒定外貌。纹理神经化身[51]通过将图像特征投影到身体表面坐标(对姿势不变)来学习特定于个人的纹理映射,以建模人的外貌。然而,这些方法仅限于静态,即生成的外貌对姿势和动作完全盲目。为了建模姿势相关的外貌,Liu等人[34]隐式地学习了姿势变化上的纹理变化,这使他们能够通过模板模型对从纹理映射获得的初始外貌进行改进。另一方面,Raj等人[47]明确地学习了姿势相关的神经纹理。为了进一步提高渲染质量,使用了个人特定的模板模型[2],并结合了表示服装的额外网格[65]。然而,这些方法都不能建模时间变化的次要运动。Habermann等人[19]利用运动线索来建模运动相关的外貌,同时需要预先学习的个人特定的3D模板模型。Zhang等人[68]提出了一种神经渲染方法,用于合成松散服装的动态外貌,假设提供了粗糙的3D服装代理。相比之下,我们的方法使用3D身体先验来建模紧身和宽松服装的动态外貌。通过利用灵活的神经渲染场,可以放宽对参数化模型的要求。例如,神经体积表示[39]已经被用来模拟一般的动态场景[15, 32, 56, 58,64]和人类[41,42],使用变形场。然而,生成的运动范围仍然有限。最近的方法在粗糙的3D身体模板的规范空间中学习了一个人的外貌,并使用蒙皮和体积渲染方法合成图像[8, 43,46]。Liu等人[33]通过引入姿势相关的纹理映射来扩展这些方法,以建模姿势相关的外貌。使用这种体积方法建模由次要运动引起的时间变化的外貌仍然是未知的研究领域。生成网络。生成对抗学习强制生成器合成几乎无法与真实图像区分的照片般逼真的图像。例如,图像到图像的转换可以通过使用各种姿势表示(如2D关键点[13, 36, 45, 49, 52, 55, 70],语义标签[3, 12, 14, 20, 38, 54, 66]或密集表面坐标参数化[1, 17, 40,50])来合成人的姿势条件外貌。尽管具有显著的保真度,但这些方法都是建立在每帧静态图像的2D合成基础上的,通常无法生成物理上合理的次要运动。为了解决这个挑战,一些作品利用时间线索,要么在训练时间[7]中以实现时间上的平滑结果,要么作为输入信号[59,60]来建模运动相关的外貌。Kappel等人[25]通过使用递归网络学习了基于2D关键点的松散服装的姿势相关外貌的时间连贯性。然而,由于2D姿势表示的特性,这种方法仍然无法建模时间变化的次要运动。0为了解决这个挑战,一些作品利用时间线索,要么在训练时间[7]中以实现时间上的平滑结果,要么作为输入信号[59,60]来建模运动相关的外貌。Kappel等人[25]通过使用递归网络学习了基于2D关键点的松散服装的姿势相关外貌的时间连贯性。然而,由于2D姿势表示的特性,这种方法仍然无法建模时间变化的次要运动。生成网络。生成对抗学习强制生成器合成几乎无法与真实图像区分的照片般逼真的图像。例如,图像到图像的转换可以通过使用各种姿势表示(如2D关键点[13, 36, 45, 49, 52, 55, 70],语义标签[3, 12, 14, 20,38, 54, 66]或密集表面坐标参数化[1, 17, 40,50])来合成人的姿势条件外貌。尽管具有显著的保真度,但这些方法都是建立在每帧静态图像的2D合成基础上的,通常无法生成物理上合理的次要运动。f0 = E(W−1p) = const.,A = D(Wf0),(3)f = E�p, ∂p∂x , ∂p∂t�≈ E(p) + E∆�∂p∂x , ∂p∂t�⇐⇒ f0 = E(W−1p)����const.+ E∆�W−1 ∂p∂x , W−1 ∂p∂t�, (4)34090记录在UV图上0MLP03状 表面法0投影到图像上03D表面0法线0�a �p �g Ds0�A� ��� �� �� 3D运符0� �0投影描述符0� Δ0� �−5 � �0� �−n0� �0�D0�0图2.我们人体渲染流程的概述。给定从单目输入视频中获得的一组时变的3D人体网格{Pt,..,Pt−n},我们旨在合成一个穿着衣物的人的高保真度外观。我们通过记录时间t处姿态3D网格的表面法线Nt和过去几个时间内的身体表面速度Vt在空间对齐的UV空间中来学习有效的3D身体姿势和运动表示。我们定义了一个编码器E∆,用于重构3D运动描述符ft3D,这些描述符编码了3D人体网格的空间和时间关系。给定目标3D身体配置,我们将ft3D投影到图像空间中,然后由我们的组合网络(Ds和Da)利用这些投影来预测具有语义标签、表面法线和最终外观的形状。0生成的运动的物理性受到限制,例如,我们的实验表明该方法在平面运动方面效果良好,但在表达3D旋转方面有限。Wang等人[62]是我们工作的最接近的方法,它将一系列密集表面参数化映射到用于使用Style-GAN[26]合成动态外观的运动特征。相比之下,我们的方法建立在一种新的3D运动表示上,具有更强的区分能力,在我们的实验中始终优于[62]在泛化到未见姿势方面的表现。03. 方法0给定一个运动中的人的单目视频和相应的3D身体拟合估计,我们学习一个运动表示来描述由身体运动引起的时变外观(第3.1节)。我们提出了一个多任务组合渲染器(第3.2节),它使用这个表示来渲染移动着衣人的特定于主体的最终外观。我们的渲染器首先预测两个中间表示,包括捕捉服装特定轮廓变形的时变语义地图和捕捉局部几何变化(如褶皱和皱纹)的表面法线。这些中间表示被组合起来合成最终外观。我们使用一种新的基于模型的跟踪优化方法从输入视频中获得3D身体拟合估计(补充材料)。我们的渲染框架的概述如图2所示。03.1. 等变3D运动描述符0我们将人体渲染问题视为通过特征编码器-解码器框架学习表示的问题:0f = E(p), A = D(f), (1)0其中编码器E以姿态身体的表示作为输入,p(例如2D稀疏或密集关键点或3D0身体表面顶点),并输出每个像素的特征f,解码器D可以用这些特征来重构相应姿势的外观A∈[0,1]w×h×3,其中w和h是输出图像(外观)的宽度和高度。我们首先讨论如何对E进行建模以渲染静态外观,然后介绍我们的3D运动描述符,以渲染具有次要运动效果的时变外观。从有限的数据中学习方程(1)的表示是具有挑战性的,因为编码器和解码器都需要记住每个外观与相应姿势A�p的关系。为了解决数据挑战,可以使用等变几何变换W,使得特征预期按照身体姿势的变换方式进行变换:0E ( W x ) = W E ( x ) 。 (2)0其中 x是任意姿势。满足这种等变性的朴素编码器通过将任何 p变形为中性姿势 p 0 来学习一个常数特征 f 0 :0其中 p = W p 0。图3(a)和(b)分别说明了W被定义为2D图像变形或3D蒙皮的情况。通过将 p 变形为T-pose,可以得到 f,然后将其特征变形回解码之前的姿态特征,即 D ( W E (W − 1 p )) 。由于 f 0 是常数,编码器 E不需要学习。可以只学习解码器 D来渲染静态外观。为了对依赖于身体姿势和运动的次要运动建模,可以将方程(3)扩展为编码空间和时间梯度的残差特征编码:22:→ 0p0ffdEp0pEp30ffdE23:→ Ep3∏0ffd21−∏f3D = E∆(W−1N, W−1V), A = D(ΠWf3D),(5)34100编码:0(a)2D特征等变性通过图像变形0重建:投影:0(b)3D特征等变性通过3D变换0(c)3D特征等变性通过身体表面0图3. 我们应用等变性来学习紧凑的表示。(a)在2D中,特征 f = E ( p ) 期望通过坐标变换 W 被转换为中性姿势的特征 f 0 = E ( W − 1 p) ,例如图像变形。这消除了学习编码器 E 的必要性,即姿势 p的外观是通过变形中性姿势的外观来生成的。(b)3D中的等变性可以通过结合3D身体重建 Π − 1 来应用,其中特征期望通过3D变形 W被转换,例如蒙皮。(c)我们使用规范身体表面坐标(UV坐标)来表示特征坐标变换。0∂t 是姿势的空间和时间导数,分别表示姿势校正变形[ 30 ,35]和导致次要运动的身体表面速度。由于这些空间和时间梯度不再是常数,需要学习一个编码器 E ∆以编码残差特征。在本文中,我们使用从图像中提取的3D姿势表示,通过利用单视角姿势重建的最新成功 [ 9 , 24 , 28]。因此,身体姿势的空间和时间导数对应于表面法线和身体表面速度:0其中 N = ∂ p ∂X ∈ R m × 3 是3D表面法线,V = ∂ p0∂t ∈ R m × 3 表示身体表面上 m 个顶点的瞬时速度。我们将几何变换函数W 建模为将任意3D姿势 p 变形为规范表示 p0。我们将 f3D记录在一个空间对齐的2D位置图中,具体来说是3D身体网格的UV图,其中每个像素包含身体网格表面上唯一点的3D信息。这使我们能够利用2DCNN应用局部卷积操作来捕捉相邻身体部分之间的关系[37]。因此,f3D ∈R m ×d,称为3D运动描述符,是在UV坐标系中定义的特征,其中d是每个顶点的3D特征的维度。f = ΠW f3D是在图像坐标系中投影的3D特征,其中Π是一个坐标变换,通过身体网格的密集UV坐标将在UV空间中定义的特征传输到图像平面上。3D运动描述符相对于常用的2D稀疏[25]或密集[62]关键点表示具有较高的区分性。考虑一个人左右旋转身体多次的玩具示例。给定这样一个运动的一个周期(即0-T)作为输入(图4(a)),假设我们想要合成执行相同运动的重复(即周期T-5T)的人的外观。作为概念验证,我们使用最近邻分类器来根据运动描述符的相关性从参考运动中检索每个身体部位的相关图像补丁(前两个补丁),如图4(c)所示。由于固有的深度模糊性,多个3D运动轨迹产生相同的2D投影轨迹[23]。因此,使用稀疏(图4(b),顶部)和密集(图4(b),中部)2D关键点的2D运动描述符会混淆平面外身体旋转的方向,导致错误的最近邻检索,如图4(d)所示。此外,2D表示将视点和姿势纠缠成一个公共特征。这不仅避免了紧凑的表示(例如,相同的身体运动相对于不同视点具有不同的2D轨迹并产生不同的特征),而且在图像空间中受到遮挡的影响。在图4(c)的示例中,上臂在输入视频的部分区域中被遮挡,用紫色块表示,因此在这些时间点无法计算可靠的局部运动描述符。相比之下,我们的3D运动描述符具有很高的区分性,不会混淆身体旋转的方向,从而实现准确的图像补丁检索。0给定3D运动特征,解码器D仍然需要学习生成多样且合理的次要运动,这在有限的数据量下容易过拟合。我们整合了以下可以缓解这个挑战的属性。(1)组合:我们设计解码器使用模块化函数的组合,其中每个模块化函数都学习生成物理上和语义上有意义的中间表示。学习每个模块化函数比学习一个整体函数更准确03.2.多任务组合解码器01 4 T0..................(a)(b)(c)(d)D = Da ◦ Ds,(6)st = Ds(st−1; ft)(7)At, nt = Da(At−1, nt−1; st, ft),(8)DLa + λsLs + λnLn + λpLp + λgLg,(9)La(P, A) = ∥ �A − A∥,Ls(P, A) = ∥s − S(A)∥,N(A)∥,∥V GGi( �A) − V GGi(A)∥,gS(A),A[log(D⋆(S(A), A)]+ES(A),A[log(1 − D∗(S(A), A)],341103 4T02 4T0T0参考运动03D网格0Densepose0地面真实值 Top-1 检索 运动周期0归一化互相关[-1, 1]0T 2 T 3 T 4 T 5 T0遮挡0全局运动 局部运动0遮挡0图4.我们使用一个玩具示例展示了我们的3D运动描述符的强度。给定一个人从左到右多次旋转身体的视频,我们将运动的第一个周期(即0�T)与剩余的周期(T�6T)关联起来。作为概念验证,我们使用最近邻分类器来建模D。(b)我们使用(顶部)2D关键点[5],(中部)2D密集UV坐标[18]和(底部)3D身体网格[35]来表示运动描述符。(c)我们使用归一化互相关(NCC)来测量整个身体(灰色)、局部手部(粉色)和上半身(蓝色)的运动描述符的相似性,在一个周期内的多个峰值表示描述符的模糊性。(d)给定运动描述符,我们检索相关的图像补丁。虽然3D运动描述符识别了与地面真实值相似的图像补丁,但由于深度的模糊性,2D运动描述符导致了模糊的匹配。此外,在遮挡的情况下,2D运动描述符定义不明确。0在我们的消融研究中,我们将解码器作为一个整体进行了研究(第4.1节);(2)多任务:每个中间表示都接收自己的监督信号,实现多任务学习。运动特征f3D由所有中间模块共享,从而得到紧凑的表示;(3)循环:每个模块都被建模为一个自回归网络,这允许学习动力学而不是记忆姿势特定的外观。我们的解码器由两个模块化函数组成:0其中D s和D a是生成带有语义映射的形状和外观的函数。Ds学习2D形状的动力学:0其中� f t = Π W t f t 3D是在时间t上投影到图像上的特征,�s t ∈ {0, ∙ ∙ ∙ , L} w ×h是带有语义的预测形状,其中L是语义类别的数量。在我们的实验中,我们设置L =7(背景,上衣,下衣,脸部,头发,皮肤,鞋子)。Da学习给定形状和3D运动描述符的外观动力学:0其中� A t ∈ R w × h × 3和� n t ∈ R w × h ×3是在时间t生成的外观和表面法线。0我们通过最小化以下损失函数来学习3D运动描述符以及模块化解码器函数:0L = �0其中L a,L s,L n,L p,Lg分别是外观、形状、表面法线、感知相似性和生成对抗性损失,λ s,λ n,λ p和λg分别是它们的权重。在我们的实验中,我们设置λ s = 10,λ n= λ p = 1和λ g =0.01。D是由真实的3D姿势P和其外观A组成的训练数据集。0L p ( P , A ) = �0其中� A,� s和�n分别是生成的外观、形状和表面法线。S和N分别是形状[16]和表面法线估计[22],VGG-16网络[53]中的conv-i-2层的特征提取器VGG是计算感知特征的,D*是PatchGAN鉴别器[21],用于验证基于形状掩码的合成图像的合理性。0134120EDN HF V2V DIW Ours GT0自定义10YouTube 20MPI0图5.我们将我们的方法与几种基线方法(EDN [7],V2V [61],HFMT [25],DIW[62])在不同的序列上进行了比较。对于每个示例,我们展示了地面真实(GT)目标外观,每种方法合成的外观,以及两者之间的误差的彩色图。对于我们的方法,我们还可视化了预测的表面法线。03.3.基于模型的单目3D姿势跟踪0尽管在单目3D人体估计方面取得了显著的进展[9, 28,29],但我们观察到准确预测和时间上连贯的3D人体序列仍然具有挑战性,这限制了重建高质量的3D运动描述符。因此,我们设计了一个新的优化框架,通过学习跟踪函数来解决这个挑战。我们在补充材料中描述了我们的3D跟踪流程的完整方法和评估结果。04. 实验0我们验证了我们的方法在各种示例中的性能,并与以前的工作进行了广泛的定性和定量比较。实现细节。我们使用Adam优化器[27]以学习率1×10-3训练我们的模型。给定一个输入视频(约10K帧),我们使用4个NVIDIA V100GPU进行大约72小时的模型训练,批量大小为4。我们的运动特征是从当前帧的身体表面法线和过去t =10帧的身体表面速度中学习的。这些特征记录在一个大小为128×128的UV贴图中。我们合成最终的渲染和大小为512×512的表面法线贴图。我们在Pytoch中实现我们的模型,并利用Pytorch3D可微分渲染层[48]。网络设计和3D跟踪流程的详细信息在补充材料中给出。将运动从UV空间传输到图像平面的坐标变换,即方程(5)中的Π,可以通过使用基于图像的密集UV估计[18]或直接渲染3D身体拟合的UV坐标来实现。为了与以前的工作进行公平比较,这些工作也使用了密集的UV估计,我们选择了前一种选项。当在我们没有相应的地面真实帧来估计密集的UV贴图的应用中演示我们的方法时(例如,新颖的视点合成),我们使用后一种选项。基线。我们将我们的方法与四种先前的方法进行比较,这些方法专注于合成运动中的穿着人类。1)Everybody dance now (EDN)[7]使用图像到图像的转换来合成以2D关键点为条件的人类外观,并使用时间鉴别器来强制可行的动态外观。2)Video-to-video translation (V2V)[61]是一个顺序视频生成器,它从2D关键点和密集的UV贴图合成高质量的人类渲染,其中运动是用图像空间中的光流建模的。3)High-fidelity motion transfer (HFMT)[25]是一个由2D关键点预测出合理的运动相关形状和外观的组合循环网络。4)Dance inthe wild (DIW)[62]根据由时间连续的2D关键点和密集的UV贴图组成的运动描述符合成人类的动态外观。我们只评估前景,通过使用人体分割方法[16]去除了EDN、V2V和DIW方法合成的背景。HFMT预测的前景掩码与我们的类似。在补充材料中,我们还将我们的方法与基于3D的方法[8]进行了比较0从UV空间到图像平面的特征,即方程(5)中的Π,可以通过使用基于图像的密集UV估计[18]或直接渲染3D身体拟合的UV坐标来实现。为了与以前的工作进行公平比较,这些工作也使用了密集的UV估计,我们选择了前一种选项。当在我们没有相应的地面真实帧来估计密集的UV贴图的应用中演示我们的方法时(例如,新颖的视点合成),我们使用后一种选项。基线。我们将我们的方法与四种先前的方法进行比较,这些方法专注于合成运动中的穿着人类。1)Everybody dance now (EDN)[7]使用图像到图像的转换来合成以2D关键点为条件的人类外观,并使用时间鉴别器来强制可行的动态外观。2)Video-to-video translation (V2V)[61]是一个顺序视频生成器,它从2D关键点和密集的UV贴图合成高质量的人类渲染,其中运动是用图像空间中的光流建模的。3)High-fidelity motion transfer (HFMT)[25]是一个由2D关键点预测出合理的运动相关形状和外观的组合循环网络。4)Dance in the wild (DIW)[62]根据由时间连续的2D关键点和密集的UV贴图组成的运动描述符合成人类的动态外观。我们只评估前景,通过使用人体分割方法[16]去除了EDN、V2V和DIW方法合成的背景。HFMT预测的前景掩码与我们的类似。在补充材料中,我们还将我们的方法与基于3D的方法[8]进行了比较00.10.20.30.40.50.60.7~~0.03LPIPS (↓)00.10.20.30.40.50.60.7~~0.0350.8LPIPS (↓)0.8DIWDIW15K1.5K3.5K7K0.30.40.5tLPIPS (↓) × 100543LPIPS (↓) × 1000.910.940.92SSIM (↑)0.930.950.920.940.930.91SSIM (↑)1.5K37654LPIPS (↓) × 10015K0.30.40.50.60.70.8tLPIPS (↓) × 10015K1.5K3.5K7K15K1.5K3.5K7K34130方法 YouTube 1 (6K) YouTube 2 (10K) YouTube 3 (4K) MPI (10K) 自定义 1 (15K) 自定义 2 (15K) 平均值0EDN [7] 0.954 / 3.06 / 0.356 0.943 / 4.39 / 0.465 0.871 / 6.23 / 0.467 0.824 / 4.59 / 0.287 0.916 / 5.26 / 0.450 0.928 / 5.06 / 0.423 0.906 / 4.76 / 0.408 V2V [61] 0.960 / 2.23 / 0.235 0.958 / 3.33 / 0.405 0.880 / 4.47 / 0.401 0.824 / 3.58 / 0.298 0.935 / 3.52 / 0.306 0.943 / 4.15 / 0.385 0.916 / 3.54 / 0.338 HFMT [25] 0.944 / 4.19 / 0.412 0.923 /6.63 / 0.775 0.862 / 7.16 / 0.456 0.826 / 5.03 / 0.291 0.905 / 6.24 / 0.321 0.915 / 6.63 / 0.390 0.895 / 5.98 / 0.440 DIW [62] 0.966 / 2.21 / 0.275 0.960 / 3.03 / 0.3700.894 / 4.69 / 0.396 0.825 / 2.94 / 0.359 0.939 / 3.23 / 0.304 0.944 / 3.95 / 0.412 0.921 / 3.34 / 0.3360我们的 0.973 / 2.01 / 0.240 0.964 / 2.83 / 0.338 0.897 / 4.50 / 0.412 0.825 / 2.82 / 0.203 0.942 / 3.12 / 0.279 0.946 / 3.81 / 0.404 0.925 / 3.18 / 0.3120表1.定量结果。每个序列中的训练帧数在顶部行中给出。这三个数字分别是SSIM(↑),LPIPS(↓)×100和tLPIPS(↓)×100指标。红色表示最佳表现者,蓝色表示次佳。0通过归一化交叉相关(NCC)计算的运动相似性[-1, 1]0自定义 10自定义 2 我们的0图6. 合成图像在训练和测试序列之间的运动相似性上的感知质量。0对于从单个摄像头进行神经化身建模的方法,它明确地重建了可动人体的几何形状。数据集-我们在视频序列上进行实验,这些序列展示了各种运动序列和服装类型,包括非平凡的次要运动。具体而言,我们从YouTube上选择了三个舞蹈视频(例如嘻哈和萨尔萨)和一段来自之前的工作[25]的序列,其中显示了一个穿着大裙子的女性。我们还捕捉了两个自定义序列,分别显示了一个男性和一个女性主体进行各种动作(例如行走、奔跑、拳击、跳跃等),包括3D旋转。度量标准-我们使用两个度量标准来衡量合成帧的质量:1)结构相似性(SSIM)[63]比较了归一化亮度和对比度空间中像素强度的局部模式。2)感知距离(LPIPS)[69]通过比较从深度神经网络中提取的感知特征来评估合成图像与真实图像的认知相似性。我们通过比较帧之间的感知变化来评估时间的合理性[10]:tLPIPS = ∥LPIPS(st, st-1) - LPIPS(gt,gt-1)∥,其中s和g分别是合成和真实图像。04.1. 评估0比较-我们在表1中提供了定量评估,并在图5中展示了定性结果(请参见补充视频)。与我们的方法类似,我们对每个基准方法进行了大约72小时的训练,直到收敛。定性和定量结果表明,EDN中使用的稀疏2D关键点姿势表示不如其他基准方法或我们的方法有效。HFMT在建模大多数平面运动(即MPI序列)的动态外观变化方面取得了成功,但在涉及3D旋转的其他序列中表现出较差的性能。这是由于稀疏2D关键点表示中固有的深度模糊所致。虽然V2V在数量上表现良好-0训练数据数量 训练数据数量 训练数据数量0图7. 性能与训练数据量的关系。0定量数字,它存在显著的纹理漂移问题,如图5第二行所示。我们推测这是由于光流估计中的错误,特别是在松散的服装情况下,这被用作监督信号。DIW使用密集的UV坐标来建模松散服装的动态外观变化,是最强的基准。虽然它表现一直很好,但我们观察到DIW和我们的方法之间的性能差距在由3D旋转组成的运动段上增加。当测试运动偏离训练数据时,这个差距被放大。在图6中,我们绘制了在训练数据和测试数据之间的运动相似性上感知误差的变化,这是通过计算类似于图4的两组时变3D网格之间的NCC得到的。我们观察到,随着测试帧与训练数据的偏离程度增加,DIW的误差增加更大。接下来,我们对DIW进行进一步比较,评估每种方法的泛化能力。泛化能力-一种有效的运动表示应该具有辨别力,能够区分由姿势变换引起的所有可能的变形,给定当前的身体状态和服装。为了比较我们的运动描述符和DIW提出的基于密集关键点的表示的辨别能力,我们评估每种表示在未见过的姿势上的泛化能力。具体而言,我们只使用原始训练序列的10%进行训练,通过对训练帧进行子采样来确保训练和测试姿势序列足够不同。考虑到数据量的减少,我们将训练时间限制为24小时。如表2所示,性能差距增大341400° 90° 180° 270°0图像照明 子弹时间效果(新颖视图合成)0参考0运动传输和背景合成0合成(Custom 2)0图8. 应用。我们的方法可以实现多种应用,例如带有背景合成的运动传输,具有新颖视图合成的子弹时间效果以及基于图像的预测表面法线的照明。0方法 YouTube 1(0.6K)YouTube 2(1K)YouTube 3(0.4K)MPI(1K)Custom 1(1.5K)Custom 2(1.5K)平均0DIW [62] 0.939 / 4.12 / 0.330 0.940 / 5.00 / 0.463 0.869 / 6.75 / 0.513 0.824 / 4.45 / 0.472 0.915 / 5.46 / 0.566 0.920 / 6.36 / 0.698 0.901 / 5.36 / 0.507 我们的 0.949 / 3.36 /0.457 0.951 / 4.16 / 0.402 0.883 / 5.35 / 0.546 0.824 / 4.09 / 0.327 0.928 / 4.25 / 0.512 0.931 / 4.95 / 0.558 0.911 / 4.36 / 0.4670表2. 我们在减少的训练集上(原始训练集的10%)训练DIW[62]和我们的方法,并在与表1相同的测试集上进行测试。每个框中的三个数字分别表示SSIM(↑),LPIPS(↓)× 100和tLPIPS(↓)× 100指标。0方法 完整数据(15K)10%数据(1.5K)0w/o shape 0.945 / 4.31 / 0.401 0.929 / 5.28/ 0.565 w/o surface normal0.945 / 3.89 / 0.418 0.929 / 5.17 / 0.602 w/o 3D motion 0.942 / 4.17 /0.584 0.928 / 5.43 / 0.7600完整0.946 / 3.81 / 0.404 0.931 / 4.95 / 0.5580表3. 消融研究。这三个指标分别是SSIM(↑),LPIPS(↓)×100和tLPIPS(↓)× 100。顶行中的数字表示训练数据的数量。0两种方法之间的差距增加。对于Custom1和2序列,我们进一步使用原始训练数据的10%,25%和50%进行相同的实验,如图7所示,我们的方法的性能显示出比DIW的退化更慢。这些定量结果以及补充材料中提供的视觉结果证明了我们的3D运动描述符在广义姿势泛化方面的优越性。消融研究使用Custom2序列,我们通过直接将密集uv渲染作为输入提供给解码器来训练一个没有3D运动描述符的变体。我们还禁用了形状(w/o shape)和表面法线(w/o surface nor-mal)预测组件。我们使用子采样数据(10%)重复这些训练。如表3所示,使用3D运动描述符和组合渲染改善了合成图像的感知质量。我们的完整模型和w/o surface nor-mal之间的性能差距在训练数据有限的情况下更大,这意味着我们的多任务框架有助于泛化。定性结果见补充材料。04.2. 应用0我们的方法可以实现如图8所示的几个附加应用。由于我们的方法使用基于3D人体的运动表示,因此可以通过简单地转移字符之间的关节旋转来将运动从源字符传输到目标字符。我们还可以通过创建目标mo-来创建子弹时间效果。0通过全局旋转3D人体来转换序列。由于表面法线预测,我们还可以执行否则不适用的照明。有关更多详细信息和结果,请参阅补充材料。05. 结论0我们提出了一种方法来渲染给定参考单目视频的着装人体的动态外观。我们的方法利用了一种新颖的3D运动描述符,该描述符编码了服装的时变外观,以模拟诸如次要运动等效果。我们的实验表明,我们的3D运动描述符在模拟涉及3D旋转的复杂运动序列方面是有效的。与最先进的替代方法相比,我们的描述符还展示了更强的鉴别能力,使我们的方法能够更好地泛化到新的姿势。虽然显示了令人印象深刻的结果,但我们的方法仍然有局限性。高度关节化的手部区域可能会出现模糊,因此用专门的模块改进这些区域的外观是一个有前途的方向。我们当前的模型是特定于主体的,将模型的不同部分(例如3D运动描述符学习)扩展为通用的也是一个有趣的未来方向。更广泛的影响虽然我们的目标是实现内容创作,例如基于视频的运动重定向或社交存在,但我们的技术可能会被滥用来制作虚假视频或新闻。我们希望深度面部检测和图像取证的并行进展可以帮助缓解此类问题。0致谢0我们要感谢JulienPhilip对我们的论文草稿提供的有用反馈。Jae ShinYoon受到明尼苏达大学博士论文奖学金的支持。本工作部分受到NSF CNS-1919965的支持。34150参考文献0[1] Badour AlBahar, Jingwan Lu, Jimei Yang, Zhixin Shu, EliShechtman, and Jia-Bin Huang.带有风格条件的细节保留姿势引导图像合成. ACM Transactionson Graphics , 2021. 20[2] Timur Bagautdinov, Chenglei Wu, Tomas Simon, FabianPrada, Takaaki Shiratori, Shih-En Wei, Weipeng Xu, YaserSheikh, and Jason Saragih. 感知驱动的全身虚拟化人物.SIGGRAPH , 2021. 20[3] Guha Balakrishnan, Amy Zhao, Adrian V Dalca, Fredo Du-rand, and John Guttag. 合成未见姿势的人体图像. CVPR , 2018.20[4] Volker Blanz and Thomas Vetter.用于合成3D人脸的可变形模型. SIGGRAPH , 1999年, 187–194页.20[5] Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh.使用部分关联场的多人2D姿势实时估计. CVPR , 2017. 50[6] Dan Casas, Marco Volino, John Collomosse, and AdrianHilton. 交互式角色外观的4D视频纹理.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- ASP.NET数据库高级操作:SQLHelper与数据源控件
- Windows98/2000驱动程序开发指南
- FreeMarker入门到精通教程
- 1800mm冷轧机板形控制性能仿真分析
- 经验模式分解:非平稳信号处理的新突破
- Spring框架3.0官方参考文档:依赖注入与核心模块解析
- 电阻器与电位器详解:类型、命名与应用
- Office技巧大揭秘:Word、Excel、PPT高效操作
- TCS3200D: 可编程色彩光频转换器解析
- 基于TCS230的精准便携式调色仪系统设计详解
- WiMAX与LTE:谁将引领移动宽带互联网?
- SAS-2.1规范草案:串行连接SCSI技术标准
- C#编程学习:手机电子书TXT版
- SQL全效操作指南:数据、控制与程序化
- 单片机复位电路设计与电源干扰处理
- CS5460A单相功率电能芯片:原理、应用与精度分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功