稀疏输入下的人体辐射场生成及自由视点视频合成

153 浏览量更新于2023-10-25 收藏 4.09MB PDF 举报

视频合成

神经表示

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7743HumanNeRF：从稀疏输入有效生成人体辐射场赵富强1杨伟2张嘉凯1裴琳1张英良3余静怡1徐兰1，41上海科技大学2华中科技大学3DGene4上海市智能视觉与成像工程研究中心稀疏视图输入HumanNeRFHumanNeRF无微调HumanNeRF一小时微调图1.我们提出的HumanNeRF利用实时高效的一般动态辐射场生成和神经混合，为动态人类提供高质量的自由视点视频合成。我们的方法只将稀疏图像作为输入，并在大型人类数据集上使用预先训练的网络。然后，我们可以有效地从一个新的角度合成一个照片般真实的图像。虽然这些结果包含文物，我们微调300帧的特定表演者只使用一个小时，并产生改进的结果。摘要最近的神经人类表示可以产生高质量的多视图渲染，但需要使用密集的多视图输入和昂贵的训练。因此，它们在很大程度上限于静态模型，因为训练每个帧是不可行的。我们提出HumanNeRF-一种具有有效泛化能力的神经表示-用于动态人类的高保真自由视图合成 Analogous to how IBRNet assists NeRF by avoidingper-scene training, HumanNeRF em- ploys an aggregatedpixel-alignment feature across multi- view inputs alongwith a pose embedded non-rigid defor- mation field fortackling dynamic motions. 原始的人类- NeRF已经可以在看不见的主题和相机设置的稀疏视频输入上产生合理的渲染为了进一步提高渲染质量，我们增加了小时内场景特定的微调，以及一个外观混合模块，用于结合神经体积渲染和神经纹理混合的优点。在各种多视角动态人体数据集上的大量实验证明了我们的方法在合成具有照片般真实感的自由视角人体方面的有效性，该方法具有非常稀疏的相机视角输入。1. 介绍人类活动的视图合成使视觉效果和远程呈现中的许多然而，来自轻量化捕获设置的方便且高质量的解决方案仍然是一项前沿但瓶颈的技术。早期的解决方案需要一个基于圆顶的多视图设置，用于精确重建[7，10]和新视图中的基于图像的渲染[3，65]。体积方法[44，58]可以实现轻量重建，但它们仍然严重依赖于深度传感器，并且受到有限网格分辨率的限制。最近的神经渲染技术已经取得了重大进展[13，27，29，47]。值得注意的是NeRF [29]及其动态扩展[24，33，35，50，53，64]使动态场景的照片级逼真的新视图合成成为可能，而无需严重依赖重建精度。然而，这些解决方案仍然需要昂贵的密集捕获视图或遭受繁琐耗时的每场景训练，这高度限制了实用性。只是最近，一些方法[5，54，62]增强了NeRF [29]，一般人体辐射场7744图像调节特征，以打破静态场景的有效辐射场生成的每场景训练约束。但很少有研究者探讨这种普遍的NeRF表示下的复杂的动态人类设置。最近的工作[45]通过将纹理混合与隐式几何推断[37，38]相结合，仅在新视图中进一步实现了6个RGB流的通用人类渲染。然而，由于缺乏全局固有的几何和纹理建模，它遭受了严重的伪影附近的遮挡区域。在本文中，我们提出了HumanNeRF-一个实用的和高质量的神经自由视图合成方法，为一般的动态人类使用稀疏的RGB流。如示于图1，我们的方法通过在一小时内针对看不见的表演者有效地优化更通用的辐射场来实现照片般逼真的人类渲染，有利地超越了先前的长期每场景训练方法。我们的主要思想是在一个轻量级的两阶段框架中将动态NeRF表示与基于神经图像的混合我们将广义辐射场的概念扩展到动态和时间设置中，以打破每个场景的约束，从而提高渲染效率。我们还探索了一种有效的隐式混合策略，以提高体绘制的纹理效果与稀疏输入图像的细节水平。具体而言，我们首先采用隐式方案来聚合来自稀疏输入的图像条件特征，这使得能够在动态NeRF框架中对运动和外观进行一般化推断。然后，我们引入了一个姿态嵌入的混合变形方案，以提高在各种运动和规范下的不可见恒等式的推广能力。它结合显式基于模型的变形和隐式微妙的位移建模，从而学习一个可靠的辐射场在一个固有的正则空间。请注意，我们的方案还支持有效的每表演者微调与时间稀疏采样，显着提高渲染质量，即使在看不见的姿势。然而，我们观察到，现有的动态NeRF为基础的体绘制仍然无法生成高频纹理细节，特别是对于具有挑战性的不可见的身份和姿态。为此，我们将基于图像的渲染与基于NeRF的体绘制结合起来，通过隐式和遮挡感知的混合权重学习，形成一种新的神经元混合方案。它使得能够在目标视图中以相邻输入图像中的纹理细节水平进行精确的外观渲染。总而言之，我们的主要贡献包括：• 我们提出了一种高质量的性能渲染方法，通过有效的辐射场生成的任意表演者从稀疏的RGB流，实现了显着的优越性，现有的最先进的。• 我们通过隐式特征聚合和混合变形将可概括的NeRF扩展到动态和轻量设置的新领域。• 我们提出了一种新的隐式混合方案，以保留输入图像的纹理细节，提供照片级真实感的外观渲染。2. 相关工作人因绩效捕获。无标记人体图像捕获技术已被广泛应用于人体自由视点视频的获取或几何重建。最近的一些工作仅依赖于轻量化和单视图设置[6，14，59，60]，但这些方法需要预扫描模板或裸体人体模型，并且它们难以实现照片级真实感视图合成。高端方法[13，24，26，41]能够产生高质量的表面运动和外观重建，但它们需要密集的相机和不易接近的受控成像环境。其他基于单目RGB-D的方法[12，19，30，43，57，63]采用传统的建模和渲染管道来合成人类的新视图然而，这些方法仍然受到固有的自遮挡约束，不能捕捉到被遮挡区域的运动。与我们的方法最相似的轻量级多视图解决方案[9，10，58]作为过度要求的硬件设置和高保真重建之间的良好折衷，但仍然依赖于3至8个RGBD流作为输入。神经渲染。近年来，基于点云[1，55]、体素[27，39，61]或纹理网格[25、48]。最近的隐式方式为基础的工作[23，29，32，40，42，49，56]对于特定场景的新颖视图合成实现了令人印象深刻的结果然而，当将表示应用于新场景时，在这些方法中需要专用的每场景训练。一些方法[5，21，36，37，45，54]利用来自源图像的像素对齐特征然而，方法[37]由于依赖于隐式纹理表示而生成模糊纹理结果，而方法[45]由于缺乏时间信息而遭受几何不连续性。最近，Kwon等人。 [21]利用时间聚合特征来补偿稀疏输入视图，实现可推广的人类辐射场生成。然而，他们仍然遭受模糊文物时，一般化的复杂运动，由于自遮挡看不见的身份。相比之下，我们利用具有遮挡感知像素对齐特征的可推广的人类NeRF，并采用隐式混合，实现高质量的新颖视图7745我{}F {}∈我的天不我的天不SMPL几何结构外观我的天不捕捉场景可泛化神经辐射场神经外观混合场图2.我们的HumanNeRF方法的概述。假设来自表演者周围的六个RGB摄像机的视频输入，我们的方法由可概括的神经辐射场（Sec. 3.1），一个可选的快速每场景微调方案和一个新的神经外观混合场（第3.1节）。3.2）。与输入图像中存在的纹理细节的水平进行合成基于图像的渲染。IBR [8，11，22]的先前工作旨在通过混合参考像素的权重从一组源图像合成新视图，而不恢复详细的3D几何形状。混合权重基于光线空间近似[22]近似代理几何[2，8，16]计算虽然它们的渲染效果令人印象深刻，但可渲染视点的范围是有限的。在最近的工作[4，34，65]中，研究人员提出了通过从输入图像推断深度图作为代理几何形状的改进方法。例如，一些工作[15，46]利用两个阶段的多视图立体。首先，他们生成一个取决于视图的网格表面，然后有一个CNN来计算混合权重。虽然这些方法可以处理比其他方法更稀疏的视图，并在某些情况下实现有希望的结果，但它们对重建的代理几何结构的质量很敏感[18，37]。相比之下，我们的方法包括在轻量级多RGB下将图像混合到隐式表示流水线中，这使得在新的视图中具有照片般真实的外观和几何重建。3. HumanNeRF方法我们首先介绍我们的HumanNeRF方法的问题制定和整体方案。给定在不同视点（优选地围绕360°）处捕获的表演者的K个同步视频，在每个视频中具有T个帧，i = Ik，t，我们的方法旨在合成表演者的自由视点视频，并且还将运动以高保真度推广到任意人。图2说明了我们系统的高级组件。我们方法的核心步骤是用于动态人类的有效广义神经辐射场，其使NeRF[29]适应动态人类表示。我们利用参数化人体模型SMPL[28]用于估计基础模型，并使用MLP网络来学习人体的细微位移。然后将输出变形为用于NeRF优化和渲染的规范姿势（Sec. 第3.1节）。有效的泛化能力来自于我们通过将3D采样点投影到图像中并混合各个图像特征而从多视图输入图像中聚合的像素对齐特征=Ft虽然我们生成的NeRF输出具有良好质量的人体几何形状，但合成的纹理可能包含伪影并且缺乏高频细节。因此，我们使用一种新的神经外观混合方案，通过聚合来自邻近视图的颜色来细化纹理细节。最终的合成结果显示出具有精细细节的照片般逼真的外观（第12节）。3.2）。3.1. 广义动态神经辐射场我们保留了NeRF的能力，新颖的视图合成和几何细节渲染。然而，NeRF假设静止的主体并执行每个场景的优化，这使得它不能直接适用于我们的问题。我们对NeRF进行了两个主要更改，以处理人体动力学并获得泛化能力。具体而言，我们首先在NeRF采样之前扭曲相机射线以考虑人体运动，并将观看方向输入与聚合像素对齐特征相结合以获得泛化能力。聚合像素对齐功能。我们提出了一个聚合像素对齐功能NeRF一般化。具体地说，我们使用一个U-Net网络U来提取代表局部图像外观的图像特征图。给定输入图像IkRH×W×4带面罩作为最后一个通道，U的输出是2D特征图7746MLP混合权重CNN特征图pF像素对准特征Fp'Fpp'+{Rd，Rv}{Rd，i，Rv，i}帧t帧t+1标准姿势变形领域神经辐射场颜色- -- -∈∈Q∈∈Mk=1QQQSC=T（p）（1−e）c（5）ripΣq qq损失密度地面实况预测的视图图3. 我们的可推广神经辐射场模块的图示。对于特征提取，我们将fiKi=1与源视图的每个查询射线的视图方向θ i Ki =1和视图方向相对于源视图的每个查询射线的角度θiKi=1联系起来。我们使用Rd和RV来建模采样点p与SMPL骨架的24个关节之间的距离和方向。我们使用神经辐射场来回归正则空间中位置p′处的体密度和RGB辐射及其对应的混合特征F。fk∈RH×W×C，即，fk=U（Ik）（1）刚性变形场可以用公式表示为：p′=S（p，M，ws）+MLPd（Rd，Rv，Fp）（3）对于每个空间点p R3馈送到NeRF，我们首先将其投影到qkR2处的视图k中，并获取相应的特征向量fk。p的聚合像素对准特征则是图像特征的加权和，如Fp=Kwkfk，其中k在1. K，我们使用MLP网络-将混合权重wk估计为：wk=MLPB（θk，fk）（2）其中，θk是摄像机vw中p的vw方向，θk是观察方向w.r. t的角度从p到q的样本射线k。姿势嵌入非刚性人体变形。为了适应人体动态，我们将人体从当前时间帧扭曲到常见的规范姿势，以便NeRF接收静态采样查询，类似于[24，31，35，51]。在实践中，我们发现MLP模块倾向于学习细微的位移，而不是处理大的变形。为了解决这个问题，我们将SMPL模型拟合到当前时间帧中的人体，并使用逆蒙皮变换将模型变形为常见的规范姿势[17，24]。由此产生的模型通常表现出与图像观测的不一致。我们进一步应用姿态相关的非刚性变形场MLPd来学习微妙的位移。我们的姿势嵌入了非-其中，是估计的运动，是采样点p的对应蒙皮权重。我们使用RdR24和RvR72来建模p与SMPL骨架的24个关节之间的距离和方向。Fp是聚合像素对齐特征。最后，我们有我们的可推广的动态神经辐射场Φ，其将变换后的3D位置p′、view方向σv和Fp作为输入，并预测变形前点p处的电压密度σ和颜色c为：（c，σ）=Φ（p′，σv，Fp）（4）图3示出了我们的可概括的动态神经辐射场的概述。动态人体体绘制。我们利用基于物理的体绘制[20]技术来合成类似于原始NeRF的新视图图像这里唯一的区别是查询射线在发送到NeRF之前被变形场弯曲特别地，我们通过行进对应的射线并在近边界和远边界之间的采样点处累积辐射来计算帧t处的像素Nσpiδ pi我i=17747C=（||C−C||）（8）crrLQi=1∈×k=1我 i和δ（pi）=pi+1−pi是v2并获取颜色Cq1Σ和Cv2，以及相应的可见度Ov1和Σq q qq-i−1σpδp最近视图/左侧相邻样本之间的距离，N是射线上采样点的数量。快速每个主题微调。由于有限的训练数据以及不同身份和场景之间的多样性，在传递运动时，对于看不见的人仍然可以观察到伪影和缺陷。为了解决这个问题，我们采用了快速微调的解决方案作为对我们的原始框架的补偿，该原始框架将在执行者上优化的网络视为初始化状态。具体来说，我们首先在各种主题/表演者上训练我们的网络，并冻结混合网络MLPB的功能。然后，当给定一个看不见的主题，我们优化我们的变形场MLPd和可推广的神经辐射场Φ的网络参数。3.2. 神经外观混合我们观察到，在上述部分中由NeRF渲染产生的纹理受基于图像的绘制方法的启发，我们进一步提出了一种新的用于外观细化的神经混合方法在我们的多视图设置中，目标视图中的大部分纹理信息可以通过其仅两个相邻的输入视图来恢复。考虑到某个时间帧，我们首先在推断时间从我们的可推广神经辐射场渲染目标视图v处的深度图Dv然后我们将Dv中的每个点q用颜色Cv反投影到图4.我们的神经外观细化方案的插图我们的外观混合网络以两个相邻的图像特征fr，fl和相应的遮挡信息作为输入，然后输出三维权重，以将我们的渲染结果与相邻输入视图的精细细节外观信息混合。为了优化我们的网络，我们使用颜色损失c来衡量渲染颜色Cr和相机光线r的地面真实颜色Cr之间的差异：ˆ22r∈R以及轮廓损失Lm，其被公式化为：相邻两视图QQ和vQr∈R由深度差决定的Ov2在训练同时，深度图是从合成人体模型数据集（如Twindom[52]）中渲染的。我们进一步提取q其中α（r）=NT（pi）（1−e−σpiδpi）是r的渲染掩码。总损失是Lc和Lm的组合：q qL=Lc+λLm（10）和可见性信息到我们的神经外观混合网络MLPA中，其中λ是平衡两个损失的权重具体W=MLP（ fv1，0v1，fv2，0v2）（6）在我们的实现中，我们设置λ=0.1而我们只QAq q q q使用Lc作为神经外观混合模型。其中WqR3是外观混合权重。q在v中的最终颜色是：Cv=Wq·Cq，Cq= [Cv1，Cv，Cv2]（7）其中·表示点积。3.3. 实现细节在这里，我们描述的实施细节，包括我们的方法的培训计划。我们的可推广NeRF模块（包括特征提取网络U、特征混合网络MLPB、变形网络MLPd和自适应NeRFΦ）和外观混合网络MLPA是独立的，我们分别训练它们。培训详情。我们使用Adam optimizer训练我们的模型，学习率在训练过程中从1e-4衰减到1e-5此外，我们为每个小批次采样4，096个相机射线，到遵循分层抽样策略。我们在 PC 上使用单个 Nvidia GeForceRTX3090 GPU优化所有网络。我们的可生成NeRF模块的训练时间约为2天。根据视频帧的数量，微调时间范围从30到90分钟，输入图像10801080分辨率。此外，我们训练我们的神经外观细化模型大约1到2天。数据集。我们在来自Twindom [52]数据集的1820个静态扫描上训练我们的可推广NeRF，该数据集由120个相机视图组成。我们收集6观看视频26+颜色混合权重渲染小说视图+最近视图/右侧/可见性：是/否Final Rendered Novel查看PML其中T（pi）=ev1BCE（Mr−αr）（9）Lm=7748图5.我们的HumanNeRF方法在几个序列上的外观结果，包括具有挑战性动作的科目，如舞蹈和瑜伽。我们还通过操纵预扫描的3D模型和模拟具有挑战性的姿势来增强数据，以提高我们网络的生成能力。对于神经外观混合模块，我们只在Twin- dom [52]数据集上训练它。4. 实验结果在本节中，我们将在各种具有挑战性的场景中评估我们的HumanNeRF方法。如图所示5、我们的方法生成高质量的外观结果，并处理具有丰富纹理、具有挑战性的姿势等的人。4.1. 比较我们首先将我们的HumanNeRF方法与每个场景的优化方法进行了比较，包括定性和定量的神经体[33]，神经元[27]和ST-NeRF [64此外，我们还比较了我们的方法与一般化的方法，即，IBRNet [54]和NeuralHumanFVV [45]，在我们的稀疏视图输入设置中。如图6、与逐场景优化相比我们的HumanNeRF在很短的微调时间内实现了更好的结果。我们的方法的结果显示出更好的纹理，并且对于来自公共ZJU-MoCap [ 33 ]的“Taichi”和我们自己收集的“Batman”数据，几何形状都是完整和准确的当与可推广的方法相比时，我们的方法优于其他方法，并且很好地解决了自遮挡问题，如图所示。7 .第一次会议。在定量比较方面，我们给出了我们的方法和其他方法在真实测试数据上的PSNR，SSIM，LPIPS和MAE指标。1.一、具体而言，我们将参考相机图像设置为地面实况，并从比较方法中计算合成图像的度量。从表中可以看出，我们的HumanNeRF在所有指标上都优于其他方法。这表明我们的方法生成的视图最接近真实捕获的我们还想指出，即使没有7749捕捉场景我们神经体神经体积ST-NeRF图6.与按场景训练方法的定性比较。我们比较了我们的方法与神经体，神经卷和ST-NeRF的“蝙蝠侠”从我们的多视图数据集和“太极”从ZJU-MoCap数据集。我们的方法概括了最真实的照片和更精细的细节。方法PSNR↑SSIM↑LPIPS↓MAE↓ST-NeRF17.340.85470.149311.38神经胶质瘤27.320.94080.09992.905NeuralBody28.210.95440.07622.294IBRNet30.730.98170.03481.154NeuralHumanFVV27.860.97850.04401.237我们的沃博25.800.94560.08253.354我们的世界29.510.97410.04611.521我们的worf29.690.96200.07032.016我们33.010.98420.03340.9307表1. 定量比较了几种方法的渲染精度。通过与NeRF、ST-NeRF 、 Neural Networks 、 NeuralBody 、 IBRNet 和 Neural-HumanFVV等算法的比较，我们的算法在PSNR、SSIM、LPIPS和MAE等指标上取得了最好的性能。捕捉场景Ours Oursno_ftIBRNetNeuralHumanFVV虽然我们的方法对每个场景进行了微调，但仍然获得了相当的结果。4.2. 消融研究外观混合和快速微调。在这里，我们评估我们的approach中不同模块的性能。我们首先通过直接比较可推广的NeRF的输出和微调后的结果来证明我们的每场景微调策略的有效性。正如我们可以看到的图。8、没有微调的结果是低细节和模糊的。由于缺乏新颖的外观细化模块，导致渲染伪影模糊，特别是在边界附近。相比之下，我们完整的图7. 与可推广方法的定性比较。我们将我们的方法与IBRNet，NeuralHumanFVV进行了比较。请注意，我们的方法生成更好的外观结果，并很好地解决了自遮挡问题。该方法实现了具有照片般真实感的结果，对于各种实体具有更好的摄像机编号。为了评估输入视图的数量对我们的框架的影响，我们比较了我们的方法与不同数量的输入相机视图的结果如图9、视图数小于2的绘制结果存在严重的几何和绘制艺术问题。7750完整模型w/o每场景微调w/o外观细化w/o两者完整模型w/o每场景微调w/o外观细化图8.我们的方法中不同变化的定性评价。该评估证明了我们的算法组件的贡献和有效性。捕捉场景6次浏览4个视图2个视图捕捉场景我们我们神经体神经体(Seen姿势）（Uneenpose）(Seen姿势）（看不见的姿势）图9.输入摄像机视图数的评估。我们重建的外观结果，分别使用两个，四个和六个相机。事实我们还使用所有相机生成的结果作为参考来计算相应的PSNR，SSIM和LPIPS。姿势概括。我们进一步评估了HumanNeRF的姿势泛化能力，我们从多视图数据集中的视频中选择了500帧我们使用400帧进行微调，并对剩余的100帧进行姿势生成测试结果示于图10，我们的Hu- manNeRF即使在看不见的姿势上也能生成视觉上良好的结果，并在Tab中显示良好的指标。二、5. 结论我们提出了一种轻量级的方法，有效地产生高质量的新的视图合成的动态人类只使用稀疏的相机集我们利用融合的图像特征和姿态嵌入的人体变形模块进行动态人体合成，并转换现有方法的长期逐场景优化方案此外，我们的隐式神经外观混合策略细化体绘制的结果，从两个相邻的视图借用精细的细节。在不同数据集上的实验结果表明，我们的方法在照片级真实感的自由视角合成中是有效的。图10. 姿态泛化的定性评价。PSNR↑SSIM↑LPIPS↓MAE↓我们的（见）36.010.98970.03560.5963我们的（看不见的）34.530.98730.03860.7065NB（可见）32.160.97560.06261.083NB（不可见）27.610.97050.06401.756表2.姿态泛化的定量评估。我们和NB（神经体）对可见姿态和不可见姿态的结果。即使是挑战人类的姿势和动作。凭借高效生成的能力，我们相信我们的方法可以为VR/AR中的许多关键应用带来良好的见解，例如游戏，娱乐，教育，沉浸式远程呈现等。6. 确认本课题得到了上海市扬帆计划（21 YF 1429500）、上海市地方高校能力建设计划（22010502800）、国家自然科学基金项目（61976138，61977047）、国家重点研究发展计划（2018 YFB 2100500）、上海市科技攻关计划（2015 F0203 -000- 06）、上海市机电工程师学会（201 9-01-07-00-01-E00003）。w/o两者7751引用[1] Kara-Ali Aliev ， Artem Sevastopolsky ， Maria Kolos ，Dmitry Ulyanov，and Victor Lempitsky.基于神经点的图形学。在计算机视觉-ECCV 2020中：第16届欧洲会议，格拉斯哥，英国，2020年8月23日至28日，会议记录，第22部分，第696-712页。Springer，2020年。2[2] Chris Buehler 、 Michael Bosse 、 Leonard McMillan 、Steven Gortler和Michael Cohen。非结构化发光图绘制。在Proceedings of the 28th annual conference on Computergraphics and interactive techniques ， pages 425- 432 ，2001中。3[3] Joel Carranza，Christian Theobalt，Marcus A Magnor，and Hans-Peter Seidel.人类演员的自由视点视频。ACM图形交易（TOG），22（3）：5691[4] Gaurav Chaurasia 、 Sylvain Duchene 、 Olga Sorkine-Hornung和George Drettakis。深度合成和局部扭曲的合理图像为基础的导航。ACM Transactions on Graphics（TOG），32（3）：1-12，2013。3[5] Anpei Chen ， Zexiang Xu ， Fuqiang Zhao ， XiaoshuaiZhang，Fanbo Xiang，Jingyi Yu，and Hao Su.Mvsnerf：Fast generalizable radiance field reconstruction from multi-view stereo.IEEE/CVF计算机视觉国际会议论文集，第14124-14133页，2021年。一、二[6] 陈欣，庞安琪，杨伟，马悦欣，徐岚，余静怡。Sportscap：单目3d人体动作捕捉和精细理解具有挑战性的体育视频。国际计算机视觉杂志，129（10）：2846-2864，2021。2[7] Alvaro Collet 、 Ming Chuang 、 Pat Sweeney 、 DonGillett 、 Dennis Evseev 、 David Calabrese 、 HuguesHoppe、Adam Kirk和Steve Sullivan。高质量的可流式传输的自由视点视频。 ACM Transactions on Graphics（TOG），34（4）：69，2015. 1[8] Paul E Debevec，Camillo J Taylor，and Jitendra Malik.从照片中建模和渲染建筑：一种基于几何和图像的混合方法。在 Proceedings of the 23rd annual conference onComputer graphics and interactive techniques，pages 11-20，1996中。3[9] Mingsong Dou，Philip Davidson，Sean Ryan Fanello，Sameh Khamis，Adarsh Kowdle，Christoph Rhemann，Vladimir Tankovich，and Shahram Izadi.Motion2fusion：实时容积性能捕获。 ACM Transactions on Graphics（TOG），36（6）：1-16，2017。2[10] Mingsong Dou、Sameh Khamis、Yury Degtyarev、PhilipDavidson、Sean Fanello、Adarsh Kowdle、Sergio OrtsEs- colano、Christoph Rhemann、David Kim、JonathanTaylor、Pushmeet Kohli、Vladimir Tankovich和ShahramIzadi。Fusion4D：实时性能捕获的摄影场景。在2016年的ACM SIGGRAPH计算机图形和交互技术会议上。一、二[11] Steven J Gortler、Radek Grzeszczuk、Richard Szeliski和Michael F Cohen。光显仪。在Proceedings of the 23rdannual conference on Computer graphics and interactivetechniques，pages 43-54，1996中。3[12] Kaiwen Guo ， Feng Xu ， Tao Yu ， Xiaoyang Liu ，Qionghai Dai，and Yebin Liu.实时几何、反照率和运动7752使用单个RGB-D照相机的构造ACM Transactions onGraphics（ToG），36（4）：1，2017。2[13] Marc Habermann，Lingjie Liu，Weipeng Xu，MichaelZoll- hoefer，Gerard Pons-Moll，and Christian Theobalt.实时深度动态人物。ACM Transactions on Graphics（TOG），40（4）：1-16，2021。一、二[14] Marc Habermann，Weipeng Xu，Michael Zollhoefer，Ger- ard Pons-Moll，and Christian Theobalt. Livecap：从单目视频中实时捕捉人类行为。ACM TransactionsOn Graphics（TOG），38（2）：1-17，2019。2[15] Peter Hedman，Julien Philip，True Price，Jan-MichaelFrahm，George Drettakis，and Gabriel Brostow.自由视点图像渲染的深度混合。 ACM Transactions onGraphics（TOG），37（6）：1-15，2018。3[16] 本诺·海格尔，莱因哈德·科赫，马克·波勒费斯，约阿希姆·登兹勒，吕克·范古尔。从手持相机拍摄的图像序列进行全光建模和渲染在Musterekennung 1999，第94-101页中施普林格，1999年。3[17] Zheng Huang ， Yuanlu Xu ， Christoph Lassner ， HaoLi，and Tony Tung. Arch：可动画化的衣服人的重建.在IEEE/CVF计算机视觉和模式识别会议论文集，第3093-3102页4[18] 我叫扬科塞克，托马叫帕季德拉。保持弱支撑曲面的多视图重构见CVPR 2011，第3121-3128页。IEEE，2011年。3[19] Yuheng Jiang，Suyi Jiang，Guoxing Sun，Zhuo Su，Kaiwen Guo ， Minye Wu ， Jingyi Yu ， and LanXu.Neuralfusion：人-物交互下的神经体绘制。arXiv预印本arXiv：2202.12825，2022。2[20] James T Kajiya和Brian P Von Herzen。光线跟踪体积密度。ACM SIGGRAPH计算机图形学，18（3）：165- 174，1984。4[21] Youngjoong Kwon，Dahun Kim，Duygu Ceylan，andHenry Fuchs.神经人类表演者：学习人类表现渲染的可推广的辐射场。神经信息处理系统进展，34，2021。2[22] Marc Levoy和Pat Hanrahan。光场渲染。在第23届计算机图形学和交互技术年会的论文集，第31-42页3[23] Lingjie Liu ， Jiatao Gu ， Kyaw Zaw Lin ， Tat-SengChua，and Christian Theobalt.神经稀疏体素场。神经IPS，2020年。2[24] Lingjie Liu ， Marc Habermann ， Viktor Rudnev ，Kripasindhu Sarkar，Jiatao Gu，and Christian Theobalt.神经参与者：具有姿势控制的人类演员的神经自由视图合成。 ACM 事务处理图表 (ACM SIGGRAPHAsia），2021年。一、二、四[25] Lingjie Liu ， Weipeng Xu ， Michael Zollhoefer ，HyeongwooKim，FlorianBernard，MarcHabermann，Wenping Wang，and Christian Theobalt.人类演员视频的神经渲染和重演ACM Transactions onGraphics（TOG），38（5）：1-14，2019。2[26] Yebin Liu ， Juergen Gall ， Carsten Stoll ， QionghaiDai，Hans- Peter Seidel，and Christian Theobalt.使用多视图图像分割的多个字符的无标记运动捕获IEEETransactionsonPatternAnalysisandMachineIntelligence，35（11）：2720-2735，2013. 27753[27] Stephen Lombardi 、 Tomas Simon 、 Jason Saragih 、Gabriel Schwartz、Andreas Lehrmann和Yaser Sheikh。Neural volume- umes ： Learning dynamic renderablevolumes from images.ACM事务处理图表，38（4），2019年7月。一、二、六[28] Matthew Loper 、 Naureen Mahmood 、 Javier Romero 、Gerard Pons-Moll和Michael J Black。Smpl：一个有皮肤的多人线性模型。ACM图形交易（TOG），34（6）：1-16，2015。3[29] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场。欧洲计算机视觉会议，第405-421页。Springer，2020年。一、二、三[30] Richard A Newcombe，Dieter Fox，and Steven M Seitz.动态融合：非刚性场景的实时重建与跟踪。在IEEE计算机视觉和模式识别集，第3432[31] Keunhong Park 、 Utkarsh Sinha 、 Jonathan T Barron 、Sofien Bouaziz 、 Dan B Goldman 、 Steven M Seitz 和Ricardo- Martin Brualla。可变形神经辐射场。arXiv预印本arXiv：2011.12948，2020。4[32] 彭思达，董俊婷，王倩倩，张尚战，帅庆，周晓伟，包虎军。用于动态人体建模的非匹配神经辐射场。在IEEE/CVF计算机视觉国际会议集，第14314-14323页，2021年。2[33] Sida Peng ， Yuanqing Zhang ， Yinghao Xu ， QianqianWang，Qing Shuai，Hujun Bao，and Xiaowei Zhou.神经体：隐式神经表示与结构化的潜在代码，用于动态人类的新视图合成。在CVPR，2021年。1、6[34] Eric Penner和Li Zhang。用于视图合成的软三维重建。ACM Transactions on Graphics（TOG），36（6）：1-11，2017。3[35] Albert Pumarola，Enric Corona，Gerard Pons-Moll，andFrancesc Moreno-Noguer.D-nerf：动态场景的神经辐射场IEEE计算机视觉与模式识别会议（CVPR）IEEE，2021年6月。1、4[36] Gernot Riegler和Vladlen Koltun。稳定的视图合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第12216-12225页，2021年。2[37] Shunsuke Saito、Zeng Huang、Ryota Natsume、ShigeoMor-ishima、Angjoo Kanazawa和Hao Li。Pifu：Pixel-aligned implicit function for high-resolution clothed

下载后可阅读完整内容，剩余1页未读，立即下载