没有合适的资源?快使用搜索试试~ 我知道了~
自由视点渲染移动人物:HumanNeRF方法
162100HumanNeRF:从单目视频中自由视点渲染移动人物0翁中一 1 Brian Curless 1,2 Pratul P. Srinivasan 2 Jonathan T. Barron 2 Ira Kemelmacher-Shlizerman 1,201 华盛顿大学 2 谷歌研究0图1.我们的方法以单目视频1作为输入,其中人类进行复杂的运动,例如跳舞(左),并为序列中的任何帧创建自由视点渲染(右)。我们构建了一个规范的主体外观体积,并且有一个从观察到规范空间的运动场映射,通过视频进行训练。在测试时,我们仅使用源帧中的姿势(红色方框)并合成所有输出视图,包括目标视图。请参考项目页面2以查看动画结果。0摘要0我们介绍了一种自由视点渲染方法-HumanNeRF,它适用于给定的人类单目视频,其中人类进行复杂的身体运动,例如来自YouTube的视频。我们的方法使得可以在任何帧上暂停视频,并从任意新的摄像机视角或甚至为该特定帧和身体姿势创建一个完整的360度摄像机路径来渲染主体。这个任务特别具有挑战性,因为它需要合成身体的光线真实细节,从各种摄像机角度看,这些角度在输入视频中可能不存在,还需要合成细节,如布料褶皱和面部外貌。我们的方法通过优化人体的体积表示和运动场来实现,该运动场通过反向变形将估计的规范表示映射到视频的每一帧上。运动场被分解为由深度网络生成的骨骼刚体和非刚性运动。我们展示了相对于以前的工作的显著性能改进,并展示了在具有挑战性的非受控捕获场景中从单目视频中渲染移动人类的引人注目的例子。01 例如,https://youtu.be/0ORaAnJYROg 2https://grail.cs.washington.edu/projects/humannerf/01. 引言0给定一个人类进行活动的单个视频,例如舞者的YouTube或TikTok视频,我们希望能够在任何帧上暂停并围绕表演者旋转360度,从任何角度观察他们在那个时刻的情况(图1)。这个问题-自由视点渲染移动主体-是一个长期存在的研究挑战,因为它涉及合成以前未见过的摄像机视角,同时考虑到布料褶皱、头发移动和复杂的身体姿势[4,5,14,17,26,37,57,63]。对于使用单个摄像机(单目视频)拍摄的“野外”视频,这个问题尤其困难,这也是我们在本文中要解决的问题。以前的神经渲染方法[2,32,35,36,48,64,073]通常假设多视角输入、精心的实验室捕捉,或者在人类身体运动方面表现不佳。人类特定的方法通常假设SMPL模板[33]作为先验,这有助于约束运动空间,但也会引入服装和复杂动作方面的伪影,这些伪影不被SMPL模型所捕捉[47,48]。最近的可变形NeRF方法[45,46,49,62]在小变形方面表现良好,但在大范围的全身运动(如跳舞)方面表现不佳。我们介绍了一种方法,称为HumanNeRF,它以一个移动人物的单个视频作为输入,并在每帧上进行离线分割(包括一些手动清理)。162110通过自动3D姿势估计和优化,我们的方法针对人体的一个规范的体积T形姿势进行优化,并通过反向变形将估计的规范体积映射到每个视频帧上的运动场。运动场将骨骼刚体运动与非刚性运动结合起来,每个运动都以体积表示。我们的解决方案是数据驱动的,规范体积和运动场从视频本身中导出,并针对大型身体变形进行优化,端到端训练,包括3D姿势细化,无需模板模型。在测试时,我们可以在视频中的任何帧暂停,并在该帧的姿势条件下,从任何视角渲染出结果的体积表示。我们展示了各种示例的结果:现有的实验室数据集,我们在实验室外捕获的视频以及从YouTube下载的视频(经过创作者许可)。我们的方法在数值上优于现有技术,并产生了更高的视觉质量。请参考项目页面以查看动态结果。02. 相关工作0自由视点渲染的物理学涉及建模几何和表面属性,然后从新的摄像机视角进行渲染。然而,重新创建复杂的几何和微妙的光照效果仍然很困难。作为替代,基于图像的渲染[55,59]提供了根据图像域中给定视图集合渲染新视图的方法,过去几十年中进行了大量研究[7, 8, 12, 16, 20, 21, 29,76]。人体特定渲染:Kanade等人的工作[26]是对人体自由视点渲染的最早研究之一。它引入了一个装备有摄像机的圆顶,用于恢复深度图和网格,通过重新投影和混合不同的视图来渲染新视图,以解决由于遮挡而导致的网格孔洞。之后,Matusik等人[37]通过仔细选择没有辅助几何表示的像素,从主体的轮廓重建了一个视觉外壳,并进行了渲染。Carranza等人[4]使用参数化的身体模型作为先验,并结合无标记运动捕捉和视角相关纹理[12]。后续的工作引入了非刚性变形[63]、纹理变形[5,70]以及基于体积[11]或球体[57]的各种表示方法。Collet等人[10]和Guo等人[17]构建了一个系统和流水线,可以生成高质量的可流式[10]或可重新照明[17]的移动人物自由视点视频。这些方法大多依赖于多视图视频-通常是昂贵的工作室设置-而我们对一个简单的单目摄像机配置感兴趣。神经辐射场:NeRF[40]及其扩展[2, 22, 42, 56, 60, 73,75]可以高质量地渲染静态场景的新视图。NeRF最近被扩展到动态场景[15, 30, 45, 46, 49, 62,69],尽管这些方法通常假设运动很小。0我们将在结果部分将我们的方法与这些动态和可变形的NeRF工作进行比较。人体特定的神经渲染:Liu等人的工作[32]从预捕捉的身体模型开始,学习建模时变的动态纹理并强制保持时间上的一致性。Martin-Brualla等人[35]训练了一个UNet来改善体积捕捉引入的伪影。Pandey等人的后续工作[44]通过半参数学习将所需的输入帧数减少到仅一个RGBD图像。Wu等人[68]和Peng等人[48]探索了使用学习的结构化潜在代码嵌入点云(来自MVS[53])或重新放置的网格顶点(来自SMPL[33])并学习伴随的UNet或NeRF-based神经渲染器。Zhang等人[25]将场景分解为背景和单独的表演者,并用分离的NeRF表示它们,从而实现了场景编辑。除了自由视点渲染,还有另一个相关的活跃研究领域,专注于2D[1, 6, 34, 41, 52, 65, 66]或3D[18, 19, 24, 31, 47, 51, 67,72]中的人体动作重定位。我们的方法与这些工作的主要区别在于,我们以包含复杂人体动作的单目视频作为输入,并实现高保真度的完整3D渲染。此外,我们对骨骼运动的表达受到了Weng等人提出的Vid2Actor的启发,这是一种用于刚性可动画角色的方法。相反,我们专注于自由视点应用,并恢复姿势相关的非刚性变形,在这个应用中明显优于它们。同时进行的工作:Xu等人[71]从图像中同时学习隐式几何和外观。他们主要关注多视图设置,并在少数单目视频上展示了人体动作简单(A-pose)的例子。Su等人[58]使用过度参数化的NeRF来刚性变换NeRF特征以改善身体姿势和最终渲染。非刚性运动没有被明确建模,渲染质量也不高。Noguchi等人[43]也发现了类似的方法,但仍然显示出有限的视觉质量。03. 以神经场表示人体0我们用规范外观体积Fc表示一个移动的人,通过将其扭曲到观察姿势来产生输出外观体积Fo:0Fo(x, p) = Fc(T(x, p)), (1)0其中Fc:x → (c, σ)将位置x映射到颜色c和密度σ,T:(xo,p) →xc定义一个运动场,将观察空间中的点映射回规范空间,由观察姿势p = (J,Ω)引导,其中J包括K个标准的3D关节位置,Ω ={ωi}表示局部关节旋转,表示为轴角向量ωi。Wc(x) = CNNθskel(x; z).(6)162120图2.我们的方法以视频帧作为输入,优化规范外观(表示为连续场)以及从观察空间到规范空间的运动场。运动场被分解为骨骼刚性运动和非刚性运动,分别表示为离散网格和连续场。我们还通过改进一个现成的身体姿势估计器初始化身体姿势,以实现更好的对齐。在观察空间中的体积渲染和输入图像之间施加损失,引导优化朝向一个解决方案。0我们通过将运动场分解为两部分来处理复杂的人体运动和复杂的变形:0T(x, p) = Tskel(x, p) + TNR(Tskel(x, p), p), (2)0其中Tskel表示骨骼驱动的变形,实质上是逆(体积)线性混合蒙皮,TNR从骨骼驱动的变形开始,产生一个偏移Δx。实际上,Tskel提供了由标准蒙皮驱动的粗略变形,而TNR提供了更多的非刚性效果,例如由于服装变形引起的效果。对于“野外”图像,我们使用现成的3D身体+相机姿势估计器。由于姿势估计的不准确性,我们还求解一个姿势校正函数Ppose(p),更好地解释观察结果,并将此改进应用于骨骼驱动的变形,即在方程2中将Tskel(x, p)替换为Tskel(x,Ppose(p))。图2概述了我们系统的组成部分。在接下来的章节中,我们将详细描述这些组成部分。规范体积:我们将规范体积Fc表示为一个连续场,其中MLP根据给定的点x输出颜色c和密度σ:0Fc(x) = MLPθc(γ(x)), (3)0其中γ是一个正弦位置编码,定义为(x,sin(2 0 πx),cos(2 0 π x),...,sin(2 L − 1 π x),cos(2 L − 1 πx)),L是一个确定频率带数目的超参数[40]。骨骼运动:根据Weng等人[67],我们将骨骼变形Tskel计算为一种逆线性混合蒙皮,将观察空间中的点映射到规范空间中:0到规范空间:0Tskel(x, p) =0i=1 wio(x)(Rix + ti), (4)0其中wio是第i个骨骼的混合权重,Ri、ti分别是将骨骼坐标从观察空间映射到规范空间的旋转和平移;Ri和ti可以从p中明确计算得到(详见补充材料)。然后我们的目标是优化wio。在实践中,我们通过将K个混合权重存储为一组体积{wic(x)}来求解在规范空间中定义的wic,从中导出观察权重:0wio(x) = wic(Rix + ti) ÷ K k=1 wkc(Rkx +tk). (5)0在规范空间中解决单一权重体积集合{wic(x)},而不是在观察空间中解决N个{wio(x)}(对应于N个输入图像),可以避免过拟合,从而提高泛化性能[9, 67]。我们将{wic(x)}的集合打包成一个具有K个通道的单一体积Wc(x)。我们选择明确的体积表示而不是使用MLP对Wc进行编码,有两个原因:(1)方程5表明,计算每个wio(x)需要进行K次MLP评估,这在优化中是不可行的(在我们的工作中,K=24);(2)通过三线性插值重新采样的具有有限分辨率的明确体积可以提供平滑性,有助于规范化优化。在实践中,我们在优化过程中,不直接求解体积Wc,而是求解一个CNN的参数θskel,该CNN可以从一个随机(常数)潜在编码z生成体积:TNR(x, p) = MLPθNR(γ(x); Ω),(7)Ppose(p) = (J, ∆Ω(p) ⊗ Ω),(8)∆Ω(p) = MLPθpose(Ω).(9)T(x, p) = Tskel(x, Ppose(p))+TNR(Tskel(x, Ppose(p)), p)(10)N�i=1L{Γ[Fc(T(x, pi)), ei], Ii},(11)C(r) =D�i=1(i−1�j=1(1 − αj))αic(xi),αi = 1 − exp(−σ(xi)∆ti),(12)αi = f(xi)(1exp( σ(xi)∆ti)),(13),(14)162130我们还添加了一个背景类别的通道,并将 W c 表示为具有K + 1 个通道的体积。然后,我们对 CNN的输出应用通道级别的 softmax,在通道之间强制实现单位分割。然后可以使用方程式 5的分母来近似计算可能性 f ( x ) ,其中 f ( x ) = � K k =1 wk c ( R k x + t k ) 。当 f ( x )接近零时,我们很可能处于远离主体的自由空间中,在体积渲染过程中我们会使用这一点。优化混合权重(或蒙皮场)的思想并不新颖。类似的方法已经应用于人体建模[3, 9, 13,24, 39, 47, 50, 61,72]。我们的公式遵循了Weng等人的方法[67],但也与Tiwari等人的方法[61]有相似之处;后者从3D扫描中学习,而我们从2D图像中学习。非刚性运动:我们将非刚性运动 TNR 表示为相对于骨骼驱动运动的偏移量 ∆ x,在该运动的条件下,即 ∆ x ( x , p ) = T NR ( T skel ( x, p ) , p )) 。为了捕捉细节,我们使用一个 MLP 来表示T NR :0在这里,我们再次使用标准的位置编码 γ ,并将 MLP的条件设置为 Ω ,即身体姿势的关节角度 p。姿势校正:从图像估计得到的身体姿势 p = ( J, Ω)通常不准确。为了解决这个问题,我们求解姿势的更新:0在这里,我们固定关节 J ,并优化关节角度的相对更新 ∆Ω = (∆ ω 0 , ..., ∆ ω K ) ,然后将其应用于 Ω以获得更新的旋转向量。经验上发现,与直接优化 ∆ Ω相比,求解一个以 Ω 为条件生成 ∆ Ω 的参数 θ pose的 MLP 的收敛速度更快:0通过这种姿势校正,我们可以将从观察空间到规范空间的变换方程重新写为:04. 优化 HumanNeRF0在本节中,我们描述了我们最小化的整体目标函数,我们的体积渲染过程,我们如何规范化优化过程,特定的损失函数细节以及射线采样方法。HumanNeRF 目标:给定输入帧 {I 1 , I 2 , ..., I N } ,身体姿势 { p 1 , p 2 , ..., p N },和相机 { e 1 , e 2 , ..., e N } ,我们正在解决以下问题:0最小化 Θ0其中 L{∙} 是损失函数, Γ[ ∙ ]是体积渲染器,我们对所有网络参数 Θ = { θ c , θ skel , θNR , θ pose } 最小化损失。正如我们所见,F c 由参数 θc 确定,而从观察空间到规范空间的变换 T 则依赖于参数θ skel , θ NR 和 θ pose 。04.1. 体积渲染0我们使用体积渲染方程式[38]渲染神经场,如Mildenhall等人[40]所描述的那样。一条射线 r 的预期颜色 C ( r )可以表示为:0其中 ∆ t i 是样本 i 和 i + 1之间的时间间隔。我们进一步扩展了 α i的定义,当近似前景概率 f ( x ) 很低时,将其设为较小值:0我们采用NeRF提出的分层采样方法[40]。我们不使用分层采样,因为可以从主体的3D身体姿势估计其边界框。然后我们只在边界框内采样点。04.2. 延迟优化非刚性运动场0当求解方程11中的所有网络参数时0一次性求解时,我们发现优化的骨骼驱动和非刚性运动并不是解耦的-部分主体的骨骼运动由非刚性运动场建模-这是由于非刚性运动对输入图像的过拟合导致的。结果是,在渲染未见过的视角时,质量下降。我们管理优化过程来解决这个问题。具体而言,我们在优化开始时禁用非刚性运动,然后以粗到细的方式将其引入[23,45]。为此,对于非刚性运动MLP,我们对其位置编码的频带应用了截断的Hann窗口,以防止过拟合数据[60],随着优化的进行增加窗口大小。根据Park等人的方法[45],我们定义了位置编码的每个频带j的权重:0w ( τ ) = 1 - cos(clamp( τ - j, 0 , 1) π )0其中τ ∈ [0 ,L)确定截断Hann窗口的宽度,L是位置编码中频带的总数。然后我们将τ定义为优化迭代的函数:0τ ( t ) = L ma0T e - T s , (15)3https://youtu.be/0ORaAnJYROg4https://youtu.be/gEpJDE8ZbhU5https://youtu.be/ANwEiICt7BM162140主体 377 主体 386 主体 3870PSNR ↑ SSIM ↑ LPIPS* ↓ PSNR ↑ SSIM ↑ LPIPS* ↓ PSNR ↑ SSIM ↑ LPIPS* ↓0Neural Body [48] 29.11 0.9674 40.95 30.54 0.9678 46.43 27.00 0.9518 59.470Ours 30.41 0.9743 24.06 33.20 0.9752 28.99 28.18 0.9632 35.580主体 392 主体 393 主体 3940PSNR ↑ SSIM ↑ LPIPS* ↓ PSNR ↑ SSIM ↑ LPIPS* ↓ PSNR ↑ SSIM ↑ LPIPS* ↓0Neural Body [48] 30.10 0.9642 53.27 28.61 0.9590 59.05 29.10 0.9593 54.550Ours 31.04 0.9705 32.12 28.31 0.9603 36.72 30.31 0.9642 32.890表1. ZJU-MoCap数据集的定量比较。我们用颜色标记出最佳指标值的单元格。LPIPS* = LPIPS × 10^3。0其中t是当前迭代次数,T s 和T e是确定何时启用非刚性运动优化和何时使用完整频带的超参数。我们在不影响性能的情况下去除了位置标识[2]。通过这样做,我们可以通过设置τ =0完全禁用非刚性运动优化[46]。04.3. 损失和光线采样0损失函数:我们既使用MSE损失来匹配像素级外观,又使用感知损失LPIPS[74]来提供对轻微不对齐和光照变化的鲁棒性,并改善重建的细节。我们的最终损失函数为L = L LPIPS+ λ L MSE。我们使用λ =0.2,并选择VGG作为LPIPS的骨干。基于补丁的光线采样:在NeRF[40]中,对随机光线样本进行训练不能最小化我们的损失,因为LPIPS使用卷积来提取特征。相反,我们在图像上采样大小为H ×H的G个补丁,并在每个批次中渲染总共G × H ×H条光线。将渲染的补丁与输入图像上相同位置的补丁进行比较。我们在实验中使用G = 6和H =32。类似的方法也在基于NeRF的生成模型中使用[54]。05. 结果05.1. 评估数据集0我们在ZJU-MoCap数据集[48]、自采集数据(橄榄球、连帽衫)和从互联网下载的YouTube视频(story 3,way2sexy 4, invisible5)上评估了我们的方法。这些视频中的所有主体都同意使用他们的数据。对于ZJU-MoCap,我们选择了6个具有不同动作的主体(377、386、387、392、393、394),使用“camera1”拍摄的图像作为输入,其他22个摄像机用于评估。我们直接应用数据集提供的相机矩阵、身体姿势和分割。对于“野外”视频(自采集和YouTube视频),我们运行0我们使用SPIN[28]获取近似的相机和身体姿势,自动分割前景主体,然后手动纠正分割中的错误。(高质量的分割对于获得最佳结果是必要的;纯自动分割器不够准确,改进它们超出了本文的范围,是未来工作的领域。)我们还调整视频帧的大小,以使主体的高度约为500像素。05.2. 优化细节0我们使用Adam优化器[27]优化方程11,其中超参数β1 =0.9和β2 =0.99。我们将学习率设置为5×10-4用于θc(规范化MLP),对于其他所有参数设置为5×10-5。我们每条光线使用128个样本。优化过程需要在4个GeForce RTX 2080 TiGPU上进行400K次迭代(约72小时)。我们对ZJU-MoCap数据应用延迟优化,其中Ts = 10K,Te =50K,并对其他数据应用Ts = 100K,Te =200K。此外,我们将姿势细化推迟到在野外视频中进行20K次迭代后再进行。05.3. 评估方法0Neural Body HyperNeRF HumanNeRF0设置多摄像机 单个摄像机 单个摄像机0主体动态人类0准静态一般场景0动态人类0先验身体姿势,SMPL顶点(重新放置)0刚性身体姿势(近似)0表2. 比较方法之间的差异。0我们将我们的方法与Neural Body[48](通常与多个摄像机一起使用)和HyperNeRF[46](围绕主体的单个移动摄像机)进行比较,这是用于建模人体和新视角合成的最先进方法。我们的方法适用于单个相机,可以是静态或移动的;我们专注于使用静态相机和移动主体的结果,这是捕捉人的表演的一种自然方式。这些方法之间的差异列在表2中。162150图3. ZJU-MoCap数据集的定性比较。05.4. 比较0我们在实验中发现HyperNeRF在新视角合成方面没有产生有意义的输出,如图4所示,可能是因为它依赖于多个视角(移动0对于静态相机情况下的移动主体,它无法恢复有意义的深度图,并且似乎只是记忆输入图像而不是从中推广。我们注意到动态162160图4. 与HyperNeRF [46]的定性比较0人体动作也比HyperNeRF的示例更加极端。定量上,如表1所示,HumanNeRF在所有受试者和所有指标下优于NeuralBody,除了393号受试者在PSNR上(这是一个偏好平滑结果的指标[74])。在感知指标LPIPS上,平均改善了近40%。图3显示,与该数据集上的NeuralBody相比,HumanNeRF的视觉质量明显更好。我们的方法能够在完全未观察到的视角上产生与真实情况相似的高保真细节,而NeuralBody往往会产生更模糊的结果。图5显示了自拍和YouTube视频的结果,也显示了HumanNeRF的重建质量始终更高。05.5. 消融研究0图6.姿势校正和非刚性运动改善了新视角合成。姿势校正使右臂变直并增加了细节(图(b)与(c)中的红色箭头),非刚性变形改善了服装的对齐和形状(图(c)与(d)中的绿色箭头)。0表3说明仅骨骼变形就足以显著改善ZJU-MoCap数据集上的NeuralBody。添加非刚性变形可以进一步提高效果。(对于该数据集,我们提供了准确的姿势,因此我们在这里没有对姿势优化器进行消融实验。)图6直观地展示了在野外数据中包括非刚性运动和姿势校正对未见过的视角的重要性。0PSNR ↑ SSIM ↑ LPIPS* ↓0神经身体[48] 29.08 0.9616 52.270我们的(无非刚性)29.81 0.9657 34.170我们的(完整模型)30.24 0.9679 31.730表3.对ZJU-MoCap的消融研究。我们计算了6个序列的平均值。我们用最佳和次佳的度量值着色单元格。LPIPS* = LPIPS × 10 3。0图7.延迟优化(d,e)比没有延迟优化的结果(b,c)更好地解耦运动。仅骨骼变形的结果没有延迟优化很差,可以通过非刚性变形进行“修正”,但导致视角泛化效果差(下方)。0图7显示了延迟优化在解耦骨骼变形和非刚性变形方面的重要性。当解耦不好时,对新视角的泛化效果较差,如图8所示。0图8.没有延迟优化和骨骼与非刚性变形的强解耦,对未见视角的泛化效果较差(b)。通过延迟优化,解耦可以实现良好的泛化效果(c)。06.讨论限制:当视频中的身体部分未显示时,我们的方法会产生伪影。姿势校正可以改善图像对齐,但如果初始姿势估计不准确或图像包含强烈的伪影(如运动模糊),姿势校正可能会失败。此外,我们观察到逐帧的身体姿势即使在姿势校正后仍然不具有时间上的平滑性。我们假设非刚性运动是姿势相关的,但这并不总是正确的(例如,由于风或动态主体运动后的跟随而导致的衣物移位)。我们还假设光照相对均匀,以便主体上的点旋转时外观不会发生剧烈变化。162170图5.自拍视频(前两行)和YouTube视频(后三行)的定性比较。0最后,对于野外视频,我们依靠手动干预来纠正分割错误。这些限制指出了未来工作的一系列有趣的方向。结论:我们提出了HumanNeRF,为单目视频中移动人物的自由视点渲染提供了最先进的结果。通过精确建模身体姿势和运动以及规范化优化过程,我们展示了这个具有挑战性的场景的高保真度结果。我们希望这个结果能够指引0朝着对运动中的人类建模以及最终实现从非正式捕捉中实现完全逼真的自由视点渲染的方向迈出了一步。0致谢:我们感谢MarqueseScott慷慨地允许我们在这项工作中展示他的激励视频。特别感谢亲爱的LuluChu对我们的持续支持。这项工作得到了UW RealityLab,Meta,Google,Futurewei和Amazon的资助。162180参考文献0[1] Guha Balakrishnan, Amy Zhao, Adrian V Dalca, Fredo Du-rand和JohnGuttag.合成未见姿势下的人类图像。CVPR,2018年,20[2] Jonathan T. Barron, Ben Mildenhall, Matthew Tancik, PeterHedman, Ricardo Martin-Brualla和Pratul P. Srini- vasan.Mip-NeRF:用于抗锯齿神经辐射场的多尺度表示。ICCV,2021年,1,2,50[3] Bharat Lal Bhatnagar, Cristian Sminchisescu, ChristianTheobalt和Gerard Pons-Moll.Loopreg:自监督学习隐式表面对应、姿态和形状用于3D人体网格配准。神经信息处理系统进展,33,2020年,40[4] Joel Carranza, Christian Theobalt, Marcus A Magnor和Hans-PeterSeidel.人类演员的自由视点视频。ACM图形学交易(TOG),2003年,1,20[5] Dan Casas, Marco Volino, John Collomosse, and AdrianHilton.4D视频纹理用于交互式角色外观。计算机图形学论坛,2014年,1,20[6] Caroline Chan,Shiry Ginosar,Tinghui Zhou和Alexei AEfros。Everybody dance now. ICCV,2019年。20[7] Gaurav Chaurasia,Sylvain Duchene,OlgaSorkine-Hornung和GeorgeDrettakis。深度合成和局部变形以实现可信的基于图像的导航。ACM Transactions on Graphics (TOG),2013年。20[8] Shenchang Eric Chen和LanceWilliams。用于图像合成的视图插值。SIGGRAPH,1993年。20[9] 陈旭,郑宇峰,Michael J Black,Otmar Hilliges和AndreasGeiger。SNARF:用于非刚性神经隐式形状动画的可微分前向皮肤化。ICCV,2021年。3,40[10] Alvaro Collet,Ming Chuang,Pat Sweeney,DonGillett,Dennis Evseev,David Calabrese,Hugues Hoppe,AdamKirk和Steve Sullivan。高质量可流式自由视点视频。ACMTransactions on Graphics (ToG),2015年。20[11] Edilson De Aguiar,Carsten Stoll,ChristianTheobalt,Naveed Ahmed,Hans-Peter Seidel和SebastianThrun。稀疏多视角视频的性能捕捉。SIGGRAPH,2008年。20[12] Paul E Debevec,Camillo J Taylor和JitendraMalik。从照片建模和渲染建筑物:一种混合几何和基于图像的方法。SIGGRAPH,1996年。20[13] 邓博阳,JP Lewis,Timothy Jeruzalski,GerardPons-Moll,Geoffrey Hinton,Mohammad Norouzi和AndreaTagliasacchi。神经关节形状近似。ECCV,2020年。40[14] Matthew Flagg,Atsushi Nakazawa,QiushuangZhang,Sing Bing Kang,Young Kee Ryu,Irfan Essa和JamesMRehg。人类视频纹理。在2009年交互式3D图形和游戏研讨会论文集中,页199-206,2009年。10[15] 高晨,Ayush Saraf,Johannes Kopf和Jia-BinHuang。来自动态单目视频的动态视图合成。ICCV,2021年。20[16] Steven J Gortler,Radek Grzeszczuk,RichardSzeliski和Michael F Cohen。光场图。SIGGRAPH,1996年。20[17]郭凯文,彼得∙林肯,菲利普∙戴维森,杰伊∙布什,余学明,马特∙韦伦,杰夫∙哈维,塞尔吉奥∙奥尔茨-埃斯科拉诺,罗希特∙潘迪,杰森∙多加里安等。可重照的人体体积捕捉与逼真的光照。ACMTransactions on Graphics (TOG),2019年。1,20[18] Marc Habermann,Lingjie Liu,Weipeng Xu,MichaelZollhoefer,Gerard Pons-Moll和ChristianTheobalt。实时深度动态角色。ACM Transactions on Graphics(TOG),2021年。20[19] 何彤,徐元璐,齐藤俊介,Stefano Soatto和TonyTung。Arch++:动画准备的着装人体重建再探讨。在IEEE/CVF国际计算机视觉会议论文集中,页11046-11056,2021年。20[20] Peter Hedman和Johannes Kopf。即时3D摄影。ACMTransactions on Graphics (TOG),37(4):1-12,2018年。20[21] Peter Hedman,Tobias Ritschel,GeorgeDrettakis和Gabriel Brostow。可扩展的内部图像渲染。ACMTransactions on Graphics (TOG),2016年。20[22] Peter Hedman,Pratul P. Srinivasan,BenMildenhall,Jonathan T. Barron和PaulDebevec。为实时视图合成烘焙神经辐射场。ICCV,2021年。20[23] Amir Hertz,Or Perel,Raja Giryes,OlgaSorkine-Hornung和DanielCohen-Or。SAPE:用于神经优化的空间自适应渐进编码。arXiv:2104.09125,2021年。40[24] 黄增,徐元璐,Christoph Lassner,李浩和TonyTung。Arch:着装人体的可动态重建。CVPR,2020年。2,40[25]张家凯,刘新航,叶新宜,赵福强,张延顺,吴敏烨,张英亮,徐岚,于静怡。使用分层神经表示的可编辑自由视点视频。ACMSIGGRAPH,2021年。20[26] Takeo Kanade, Peter Rander, and PJ Narayanan. 虚拟现实:从真实场景构建虚拟世界. IEEE multimedia , 1997. 1 , 20[27] Diederik P Kingma and Jimmy Ba. Adam:一种随机优化方法. ICLR , 2015. 50[28] Nikos Kolotouros, Georgios Pavlakos, Michael J. Black,and Kostas Daniilidis. 通过模型拟合学习重建3D人体姿势和形状.ICCV , 2019. 50[29] Marc Levoy and Pat Hanrahan. 光场渲染. SIG- GRAPH ,1996. 20[30] Zhengqi Li, Simon Niklaus, Noah Snavely, and OliverWang. 神经场景流场用于动态场景的时空视图合成. CVPR , 2021.20[31] Lingjie Liu, Marc Habermann, Viktor Rudnev, KripasindhuSarkar, Jiatao Gu, and Christian Theobalt. 神经演员:具有姿势控制的神经自由视图合成. ACM Trans. Graph.(ACMSIGGRAPH Asia) , 2021. 20[32] Lingjie Liu, Weipeng Xu, Marc Habermann, MichaelZollh¨ofer, Florian Bernard, Hyeongwoo Kim, Wenping Wang,and Christian Theobalt.通过学习动态纹理和渲染到视频的转换进行神经人体视频渲染.IEEE Transactions on Visualization and Com- puter Graphics ,2020. 1 , 2[45] Keunhong Park, Utkarsh Sinha, Jonathan T. Barron, SofienBouaziz, Dan B Goldman, Steven M. Seitz, and RicardoMartin-Brualla. Nerfies: Deformable neural radiance fields.ICCV, 2021. 1, 2, 4162190[33] Matthew Loper, Naureen Mahmood, Javier Romero,Gerard Pons-Moll, and Michael J Black. SMPL:一个皮肤多人线性模型. ACM transactions on graphics (TOG) ,2015. 1 , 20[34] Liqian Ma, Xu Jia, Qianru Sun, Bernt Schiele, Tinne Tuyte-laars, and Luc Van Gool. 姿势引导的人物图像生成.arXiv:1705.09368 , 2017. 20[35] Ricardo Martin-Brualla, Rohit Pandey, Shuoran Yang,Pavel Pidlypenskyi, Jonathan Taylor, Julien Valentin, SamehKhamis, Philip Davidson, Anastasia Tkach, Peter Lincoln, et al.LookinGood: 用实时神经重渲染增强性能捕捉. ACMTransactions on Graph- ics (TOG) , 2018. 1 , 20[36] Ricardo Martin-Brualla, Noha Radwan, Mehdi S. M.Sajjadi, Jonathan T. Barron, Alexey Dosovitskiy, and DanielDuck- worth. 野外的NeRF: 用于无约束照片集合的神经辐射场.CVPR , 2021. 10[37] Wojciech Matusik, Chris Buehler, Ramesh Raskar, StevenJ Gortler, and Leonard McMillan. 基于图像的视觉外壳.SIGGRAPH , 2000. 1 , 20[38] Nelso
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功