DoubleField：高保真度人体重建和渲染中的表面和辐射场关联

95 浏览量更新于2023-10-25 收藏 20.97MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

rithms under multi-view setups, especially in the real-worldsystems. Even with high-resolution images as input, thelimited representation power of features (feature map or fea-ture volume) [37, 40] as well as the calibration and the ge-ometry inference errors (especially for real captured data)will signiﬁcantly deteriorate the detail reconstruction per-formance due to multi-view inconsistency for current im-plicit ﬁeld based methods [37,39,64].To overcome the limitations above for achieving high-quality 3D human reconstruction from sparse-view setups,we propose a novel DoubleField framework (to effectivelybridge the surface and radiance ﬁelds and enable a sharedlearning space for both geometry and radiance reconstruc-tion) and a view-to-view transformer (to build self attentionbetween multi-view inputs and cross attention between theinput views and the query viewpoints for multi-view fea-158720DoubleField：连接神经表面和辐射场，实现高保真度的人体重建和渲染0邵瑞智1，张宏文1，张贺2，陈明佳1，曹彦培3，于涛1，刘叶斌101 清华大学 2 北京航空航天大学 3 快手科技0摘要0我们引入了DoubleField，这是一个结合了表面场和辐射场优点的新框架，用于高保真度的人体重建和渲染。在DoubleField中，通过共享的特征嵌入和表面引导的采样策略将表面场和辐射场关联在一起。此外，引入了一种视图转换器，用于融合多视角特征并直接从高分辨率输入中学习视图相关特征。借助DoubleField和视图转换器的建模能力，我们的方法显著改善了几何和外观的重建质量，同时支持直接推断、场景特定的高分辨率微调和快速渲染。通过对几个数据集的定量评估和在真实世界稀疏多视角系统中的定性结果验证了DoubleField的有效性，展示了其在高质量人体模型重建和逼真的自由视点人体渲染方面的优越能力。数据和源代码将公开供研究目的使用。01. 引言0表面场[2, 31, 35]和辐射场[32,0[12, 39, 40, 66]和纹理渲染[37, 59,65]的3D人体的隐式和连续建模的有希望的解决方案。然而，在考虑同时进行几何和外观重建时，它们的局限性变得明显，更不用说在稀疏多视角设置下。具体而言，表面场[12,39, 64,67]将几何学习与外观学习分离，因此阻碍了更详细的几何和渲染结果的联合微调能力。此外，辐射场[21, 32, 36, 37,44]以隐式方式将几何和外观的学习交织在一起，没有有效的相互约束，导致几何重建不一致和训练效率相对较低。尽管表示方法不同，但特征融合策略在多视角设置下部署算法时也主导了最终的重建质量。0图1.在给定的稀疏多视角RGB图像上，我们的方法实现了高保真度的人体重建和渲染。158730ture fusion).具体而言，对于DoubleField，我们通过在网络架构中使用一个由这些字段共享的特征嵌入和一个表面引导的采样策略来建立表面和辐射场之间的关联。这样一个共享的学习空间使得表面和辐射场能够互相受益。一方面，表面场对辐射场施加几何约束，鼓励神经渲染的更一致的密度分布。另一方面，辐射场通过可微分渲染在表面场中实现更多的几何细节。此外，表面引导的采样策略将几何组件与外观建模分离，使得DoubleField在提高重建和渲染性能的同时具有更快的学习过程。0在使用多视角输入部署DoubleField时，我们提出了一个视图到视图的转换器，用于在多视角输入之间建立自注意力，更重要的是，在输入视图和查询视点之间建立交叉注意力。我们通过在我们的视图到视图转换器中采用编码器-解码器架构来实现这一点。具体而言，编码器旨在融合多视角特征，而解码器旨在基于查询视图和所有输入视图之间的学习注意力生成视图相关特征。由于转换器的注意力学习能力，我们的方法减轻了多视角不一致性问题，因为转换器中的注意力处理了输入和查询视图之间的关系，并且对于真实世界的多视角设置中的几何推断和校准误差更加稳健。此外，视图到视图转换器还使我们的方法能够利用原始的高分辨率图像。通过考虑原始的RGB值，视图到视图转换器可以直接从高分辨率图像中学习视图相关特征，并为高保真度的渲染性能做出贡献。0与基于表面和辐射场的现有方法[37, 39,64]相比，DoubleField不仅改善了几何和外观的重建质量，还具备了在先前方法[37]中消除先决条件SMPL拟合甚至处理宽松服装（例如长裙）的能力。更重要的是，借助于利用大规模人体扫描数据集的能力，DoubleField可以充分利用大规模人体扫描数据集中的先验知识，并实现对高分辨率自由视点渲染的直接推断和快速微调。总之，我们在这项工作中的贡献是：1）一个DoubleField框架（共享双重嵌入和表面引导的采样策略），将表面和辐射场的优点结合起来，用于稀疏多视角人体重建和渲染；2）一个视图到视图的转换器，以高效的方式充分利用超高分辨率图像输入；3）我们的方法在几何重建和纹理渲染方面实现了最先进的性能。0使用稀疏视角输入进行人体表演的建模。02. 相关工作0神经隐式场最近，神经隐式场已经成为几何重建和图形渲染的强大表示形式。与传统的显式表示形式（如网格、体积和点云）相比，神经隐式场通过神经网络直接将3D模型编码为将3D位置或视点映射到占用性质[2,31]、SDF[35]、体积[27]和辐射[32]等的对应属性。神经隐式场基于空间坐标而不是离散的体素或顶点，具有连续性、分辨率独立性和更高的灵活性，从而实现了更高质量的表面恢复和照片级渲染。对于几何重建，基于表面场的方法[39,40,54]可以从一个或少数几个图像生成详细的模型，并且使用局部隐式场[1,16]实现高保真度的几何。对于图形渲染，基于隐式场的方法适用于可微分渲染[17, 24, 32, 42,58]。其中，最近提出的NeRF[32]在新视角合成和照片级渲染方面取得了重要进展，激发了许多衍生方法[23, 30, 38,41, 50, 59]和应用。最近，还有一些并行工作[34, 49,57]以显式方式结合表面场和辐射场，并展示了适用于特定案例的学习和推断的有希望的结果。然而，将它们扩展到大规模人体扫描数据集的训练以进行通用推断并不直接。在训练过程中，明确建立两个场之间的清晰数值关系也仅限于表示固体、非透明表面。相比之下，我们的DoubleField框架以隐式方式在特征级别上结合了这两个场，因此我们可以在训练过程中自然地将像素对齐的特征纳入，并从大规模数据集中学习几何先验知识。我们的隐式组合也更适合处理头发、半透明裙子和薄衣物等一般和复杂的人体情况。0人体重建最近，有许多努力致力于从单目或多视图相机以不同的层次捕捉基于模板的人体，包括形状和姿势[14, 19, 22, 46,62]，以及服装表面[4, 7, 8, 48,55]。受到表示能力的限制，这些方法通常在几何和外观恢复方面都具有低质量的结果。此外，对于这些基于模板的算法来处理拓扑变化也是困难的。其他高质量人体重建的方法需要非常昂贵的要求，如密集视点[18, 25, 26, 52]甚至是受控照明[3, 10]。最近，隐式场[15, 39,64]使得可以从稀疏视图中进行详细的几何重建。基于稀疏RGB-D相机，高保真度的几何重建也可以实时实现[11, 43, 53,60]。最近，彭等人[37]提出了在动态序列中学习神经辐射场，并在新视角合成方面取得了有希望的结果。然而，他们的方法假设能够准确估计身体模板的可用性。此外，从稀疏视图输入同时重建高保真度的几何和外观对于现有解决方案来说仍然非常具有挑战性。我们的工作探索了一种新的路径，实现了高质量的几何重建和高保真度的人体渲染，而无需使用身体模板。fs(x, φ(x, I)) = s,(1)ˆC(r(t)) =� tf158740(a)0(b)0(c)0图2.不同神经场表示的比较。(a)PIFu中的神经表面场。(b)Pixel-NeRF中的神经辐射场。(c)提出的DoubleField。联合隐式函数f db桥接了表面场和辐射场。0稀疏RGB-D相机，可以实时实现高保真度的几何重建[11,43, 53,60]。最近，彭等人[37]提出了在动态序列中学习神经辐射场，并在新视角合成方面取得了有希望的结果。然而，他们的方法假设能够准确估计身体模板的可用性。此外，从稀疏视图输入同时重建高保真度的几何和外观对于现有解决方案来说仍然非常具有挑战性。我们的工作探索了一种新的路径，实现了高质量的几何重建和高保真度的人体渲染，而无需使用身体模板。0TransformerVaswani等人[47]提出了Transformer，这是第一个完全基于注意力的序列转导模型。Transformer的有效性最近在广泛的NLP和CV问题中得到了证明[5, 6,61]。注意机制是Transformer的核心，已经被大量文献证明可以捕捉长距离依赖关系[47,51]。它获取相关性的能力已经应用于许多应用，如视觉问答[20]，纹理转换[56]，多视图立体[29]，手势姿势估计[13]和人体重建[64]。在我们的工作中，我们应用视图到视图的变压器来捕捉多视图输入之间的对应关系。03.初步0我们的DoubleField结合了神经表面场[39]和辐射场[32,59]的表示能力。在本节中，我们对这两个场进行简要介绍。0神经表面场神经表面场表示为占据场[31,39]，是一种用于建模3D表面的分辨率无关表示。如图2a所示，表面场可以被表示为一个将3D点x映射到表面场值s的隐式函数fs，例如fs(x) = s：s∈[0,1]。为了提高泛化性能并获得详细的几何形状，PIFu[39]使用以下公式将其条件化为像素对齐的图像特征：0其中φ(x,I)是位于图像I上x投影位置的图像特征。PIFu进一步扩展了这个公式，通过预测点xc上满足fs(xc) =0.5的RGB颜色c来在表面上重建纹理：fc(xc, φ(xc, I)) =c。尽管PIFu为联合建模几何和外观提供了一种直接的解决方案，但它将几何和纹理隔离开来，并使纹理学习空间不连续，阻碍了在纹理监督下的几何优化过程[33]。0神经辐射场如图2b所示，NeRF[32]将场景表示为密度σ和颜色c的连续体积辐射场fr，描述了几何和外观的交织形式，例如fr（x，d）=（σ，c），其中d是视角方向。在这种表述下，可以通过沿投影射线进行体积渲染来合成新的视图图像：0∫tnT(t)σ(t)c(t)dt，（2）0其中r（t）=o+td表示具有起点o和方向d的相机射线。T（t）=exp（−∫ttnσ（s）ds）用于处理遮挡，[tn，tf]是预定义的深度范围。为了仅通过稀疏的多视图输入实现新视角合成，PixelNeRF[59]类似于PIFu，利用像素对齐的图像特征进行扩展：0fr（x，d，φ（x，I））=（σ，c），（3）0由于密度和颜色的交织建模为NeRF的训练带来了高度的灵活性，仅给定稀疏视图输入时，PixelNeRF中学习到的表面是不一致的，这导致了新视角渲染中的幽灵或模糊结果等伪影。此外，纯粹的NeRF的高度灵活性使得其导数解的训练和微调[37, 59]耗时较长。04. 方法0我们的方法建立在DoubleField网络和视图转换器之上。如图3所示，仅给定稀疏视图分割图像（例如4K）即可实现高保真的几何和外观重建结果，而无需使用任何人体模板。158750图3.我们方法的流程。给定稀疏的多视图分割图像和视图方向图，我们的视图转换器的编码器融合来自不同视点的低分辨率图像特征并输出融合特征。双重MLP E db 将融合特征作为输入并产生双重嵌入edb，该嵌入将用于通过几何MLP预测表面场s和密度值σ。对于高保真纹理的预测，解码器以双重嵌入e db、查询视角方向d、已知视角方向di 和超高分辨率图像的彩色编码p（x）作为输入，并产生纹理嵌入e c 用于颜色值c的预测。0在本节中，我们首先通过隐式方式（第4.1节）介绍了我们的DoubleField网络，将表面场和辐射场连接起来。基于DoubleField，设计了一种高效的视图转换器，利用高分辨率图像并自适应地合成逼真的渲染结果（第4.2节）。我们的网络还支持高分辨率图像的高保真几何和外观恢复的高效微调（第4.3节）。04.1. DoubleField网络0为了克服现有神经场表示的局限性，我们引入了DoubleField网络。DoubleField的核心包括共享嵌入和表面引导采样策略，它将表面场和辐射场连接起来，使它们可以相互受益。基本上，DoubleField可以被表示为一个联合隐式函数fdb，由多层感知机（MLPs）表示，以适应表面场和辐射场：fdb（x，d）=（s，σ，c）。此外，DoubleField还以像素对齐的图像特征φ（x，I）为条件。具体来说，如图2c所示，给定查询点x，视角d和图像特征φ（x，I），我们的DoubleField网络f db学习共享的双重嵌入并同时预测表面场s、密度场σ和纹理场c。我们的DoubleField网络由一个共享的MLP（DoubleMLP E db）用于双重嵌入edb，以及两个独立的MLP（几何MLP E g和纹理MLP Ec）用于表面场和辐射场的预测组成，如图3所示。总体而言，我们的DoubleField网络可以表示为：0e db = E db (γ (x), φ (x, I)),0(0f db (x, d, φ (x, I)) = (s, σ, c), (4)0其中 γ (x) 是 x 的位置编码，E g 是用于预测表面场中占用 s和辐射场中密度 σ 的几何 MLP，而 E c是用于预测辐射场中颜色 c 的纹理 MLP。由于 s 和 σ是同一 MLP中最后一层的两个输出值，这种形式隐含地建立了两个场之间的强关联，并在特征级别上使它们协同工作。0基于表面引导的采样策略为 DoubleField提供了更好的关联学习和加速渲染过程。表面引导的采样策略首先确定表面场中的交点，然后在交叉表面周围进行细粒度采样。具体而言，给定渲染视图的相机参数和射线 r = o+ t d，首先在深度范围 [t n, t f]上对射线进行均匀采样，共 N s 个采样点，每个点的公式为x i = o + t id。我们查询每个点的表面场值，以确定表面上的第一个交点位置 min {t i | s (o + t i d) ≥0.5}。然后，我们使用这些交点来引导在间隔 δ内围绕真实表面进行更细粒度采样，共 N r个采样点。我们的表面引导采样策略可以强调网格表面周围两个场之间的关系，从而促进训练和微调过程。与 NeRF采样相比，我们的策略在积分过程中需要更少的采样点，因此速度更快。04.2. 视图到视图转换器0在将 DoubleField应用于多视图输入时，我们需要融合来自多视图图像的特征。一种直接的方法是首先基于 x 的投影获得像素对齐特征，然后将这些特征进行融合得到 Φ (x)：Φ(x) = ψ(Φ , ..., Φ ),(5)EncoderThe goal of the encoder is to fuse the geometryfeatures from multi-view inputs. It adopts the self-attentionand feed-forward operation ψ in Eq. 5 to obtain the fusedfeatures Φ, which will be fed into the double MLP Edb forthe generation of the double embedding:Qe, Ke, V e = F eQ,K,V (φ1, ..., φn)Φ = F e(Att(Qe, Ke, V e))edb = Edb(γ(x), Φ),(6)where F eQ,K,V denotes the linear layers producing thequery, key and value matrices Qe, Ke, V e, respectively, F eis the feed-forward layer, and Att is the multi-head attentionoperation in the transformer.DecoderThe goal of the decoder is to produce the view-dependent color embedding ec according to the observa-tions from all input views, and the query view directiondq. To leverage the high-resolution information, the de-coder takes both low- and high-level observations into ac-count, including the raw rgb pi and double embedding edb.Speciﬁcally, the process can be formulated as:Qd = F dQ(dq)Kd = F dK(d1, ..., dn)V d = F dV ([edb, γ(p1)], ..., [edb, γ(pn)])ec = F d(Att(Qd, Kd, V d))(7)where F dQ, F dK, F dV denote the linear layers producing thequery, key and value matrices Qd, Kd, V d, respectively, F dis the feed-forward layer. Here, similar to the position en-coding γ(x), we also map the raw RGB values pi to ahigher dimensional space as the colored encoding γ(pi) forthe learning of high-frequency appearance variations [45].After obtaining the color embedding ec from the de-coder, the high-resolution color at the point x is predictedby the texture MLP Ec: c = Ec(ec).4.3. Training and FinetunningThough our network can leverage high-resolution im-ages as input, the expensive training time cost on such ahigh-resolution domain is unacceptable. For a more feasi-ble solution, in implementation we divide the problem intotwo phases: low-resolution large-scale-dataset pre-trainingand efﬁcient person-speciﬁc high-resolution ﬁnetuning.Large-ScaleDatasetPre-trainingOurpre-trainingphase is similar with the training process of PIFu [39] andPixelNeRF [59]. We collect human models from Twindom1dataset (1,500 for training) and render low-resolutionimages with the size of 512 × 512. We adopt the spatialsampling strategy in PIFu [39] for the learning of geometry,and the proposed surface-guided sampling strategy for thelearning of appearance. For the loss of geometry training,1https://web.twindom.com/158760正向解决方案采用类似 PIFu [39] 或 PixelNeRF [59]的融合策略，从多视图图像中提取像素对齐特征，然后进行 DoubleField推断的融合。具体而言，给定来自 n 个视点的图像输入 {I i} (i = 1, 2, ..., n)和相应的相机参数，首先通过图像编码器提取图像特征。对于查询点 x，图像 I i上的像素对齐特征 φ i (x, I i) 被提取出来。0Φ (x) = ψ (Φ 1, ..., Φ n), (5)0Φ i = ⊕ (φ i (x, I i), d i)0其中 ⊕ 表示连接运算符，φ i ( ... ) 表示第 i个视点图像上的像素对齐特征，d i 表示第 i个输入视点的观察方向，ψ ( ... )表示特征融合操作，例如平均池化 [39] 或自注意力[64]。融合后的特征 Φ ( x ) 可以作为方程 4 中DoubleField 的条件特征，用于预测查询方向 d q下的几何和外观：f db ( x , d q , Φ ( x )) = (s, σ,c)。虽然上述多视图特征融合方法可以产生稳健且合理的结果，但它们仅利用相对较低分辨率的图像特征图。此外，现实世界数据中的几何推断误差和标定噪声也显著限制了最终渲染结果的质量。为了克服这一限制，我们提出了一种视图到视图的转换器，直接将高分辨率图像的原始 RGB值作为输入，并采用自注意力和交叉注意力方案。具体而言，我们的视图到视图转换器采用编码器-解码器架构，利用所有输入视图中点 x的观察结果，更重要的是，利用查询视图的方向 d q来预测视图相关渲染的颜色特征 ec。通过这种方式，我们的视图到视图转换器不仅可以在编码器中有效融合多视图特征，还可以在解码器中实现查询视图与所有输入视图之间的交叉注意力，这与现有的基于转换器的融合方法 [64]不同，后者仅将转换器用作输入视图之间的自注意力编码器。接下来，我们介绍视图到视图转换器的编码器和解码器。we adopt the spatial sampling loss function in PIFu [39] andthe implicit geometric regularization loss (L1 form) [9]:Lg = 1NgNg�i=1∥s(xi) − s∗(xi)∥22Lr = 1NrNr�i=1∥∇s(xi) − n∗(xi)∥1,(8)where s∗(xi) is the ground truth occupancy of xi, andn∗(xi) is the ground truth normal of xi. Ng and Nr arethe number of sampling points for spatial sampling and ge-ometric regularization, respectively. The regularization losscan further improve the quality of geometry reconstructionwithout requirement of normal map as input. To obtain theground truth of normal, we only sample points on the meshsurface when applying regularization loss. And for appear-ance loss, we adopt the L1 loss between the rendered colorand the ground truth color as:Lc = 1NcNc�i=1| ˆC(ri) − C∗(ri)|,(9)158770其中，渲染的颜色ˆC(ri)是通过沿着射线ri在表面附近的区间上进行积分[32]获得的。C�(ri)是射线ri的真实颜色。Nc是采样射线的数量。总之，我们的最终损失可以表示为：L =λgLg + λrLr + λcLc，其中λs平衡损失项。0微调阶段在微调阶段，网络以特定人体的稀疏多视图的超高分辨率图像作为输入，并通过可微分渲染损失以自监督的方式微调网络参数。具体来说，我们首先固定变换器和颜色MLP，对几何进行2000次迭代的微调，然后固定双重MLP和几何MLP，对颜色MLP进行另外2000次迭代的微调。在每次迭代中，我们随机选择一个视角作为真实值，将其他视角作为输入。我们只使用了一个损失函数Eq.9，并且为了稳定的微调性能，学习率进行了调整（微调阶段为1e-6，预训练阶段为1e-5）。05. 实验05.1. 合成数据上的实验0我们通过在两个高质量的3D人体扫描数据集上使用合成多视图图像进行评估：1）Twindom数据集（测试集200个），2）THuman2.0 [ 60]，一个公开可用的高质量人体模型数据集（测试集100个）。我们将DoubleField与基于表面场和辐射场的最先进方法进行比较。0图4. 使用Twindom数据集进行外观重建的比较。PixelNeRF [ 59]和我们的方法都进行了额外的4000次迭代微调。请注意，NeuralBody [ 37 ]无法处理与人体远离的其他物体，如手提包。0图5. 使用真实多视图图像（5个视角）进行几何重建结果的比较。0包括PIFu [ 39 ]，PixelNeRF [ 59 ]，NeuralBody [ 37]和PIFuHD [ 40 ]。我们还基于PIFu实现了DVR [ 33]（表示为PIFu+DVR），以验证DoubleField表示和其在未知数据上的微调能力的效率。为了公平比较，我们还使用正则化损失（PIFu+R）训练PIFu，并将PIFu [ 39 ]，PIFuHD[ 40 ]和PixelNeRF [ 59]中的平均池化操作替换为自注意力模块进行多视图特征融合。我们使用相同的训练设置和数据集重新训练这些网络。ChamferP2SChamferP2SPSNRSSIMPSNRSSIM158780方法0Twindom（6个视角几何）0THuman2.0（6个视角几何）0PIFu [ 39 ] 0.754 0.716 0.710 0.613 PIFu+R 0.739 0.6990.697 0.606 PIFuHD [ 40 ] 0.742 0.701 0.700 0.609PIFu+DVR [ 33 ] 0.746 0.701 0.709 0.611 PixelNeRF [ 59 ]0.945 0.931 0.815 0.725 我们的方法（无Ft） 0.737 0.7000.696 0.6050NeuralBody [ 37 ] 1.597 2.146 1.528 2.126 PIFu+DVR（Ft）0.779 0.736 0.724 0.623 PixelNeRF（Ft） 1.072 1.052 0.7900.701 我们的方法（Ft） 0.711 0.690 0.662 0.5890表1.量化的人体几何重建结果。Ft表示经过4000次迭代微调的方法。0方法0Twindom（6个视角彩色）0THuman2.0（6个视角彩色）0PIFu [ 39 ] 20.80 0.805 22.35 0.846 PIFu+DVR [ 33 ]20.65 0.804 22.17 0.843 PixelNeRF [ 59 ] 21.57 0.80822.95 0.854 我们的方法（无Ft） 22.95 0.842 24.23 0.8800NeuralBody [ 37 ] 20.69 0.808 22.65 0.862PIFu+DVR（Ft） 21.62 0.812 23.08 0.855PixelNeRF（Ft） 21.85 0.813 23.57 0.863我们的方法（Ft） 23.56 0.857 25.10 0.9050表2. 量化的人体渲染结果。Ft表示经过4000次迭代微调的方法。0设置和数据集上的比较。几何重建的比较。与NeuralBody [37]的比较中，我们将NeuralBody视为基于帧的方法，并在6个视角的输入上进行15小时的训练。由于训练成本较高，我们仅从Twindom测试数据集中随机选择了50个模型和THuman2.0数据集中的30个模型进行NeuralBody评估。我们使用点到表面距离和Chamfer距离在表2中对几何恢复性能进行定量评估。我们的方法在没有微调的情况下与PIFuHD、PIFu+R和PIFu+DVR相比取得了竞争性的结果。经过微调，我们的方法可以在没有地面真实几何作为监督的情况下进一步提高几何质量，基于DoubleField表示。外观重建的比较。为了评估外观重建性能，我们准备了从30个视角渲染的4K分辨率图像，并使用来自6个固定视角的图像作为输入，使用其他24个视角的图像进行评估。定量结果如表2所示。由于视角到视角的变换器和DoubleField表示的帮助，我们的方法实现了高保真度的渲染。此外，我们的方法可以在20分钟内进行快速微调，支持更高质量的外观重建（几何微调10分钟，纹理和变换器微调10分钟，0Twindom（6个视图彩色）0THuman2.0（6个视图彩色）0PSNR SSIM PSNR SSIM0平均池化 22.53 0.826 23.89 0.870 w/o DbMLP 22.010.818 23.42 0.866 w/o CE 22.89 0.831 24.11 0.874我们的方法（无Ft）22.95 0.842 24.23 0.8800Ft w/o HD pixel 23.28 0.847 24.97 0.896我们的方法（Ft）23.56 0.857 25.10 0.9050表3.在Twindom和Thuman2.0数据集上进行消融研究，使用四种设置：平均池化（使用PIFu和PixelNeRF中相同的多视图特征融合），无DbMLP（去除双重MLP并分别学习两个字段），无CE（去除颜色编码并直接采用3维RGB），Ft w/o HDpixel（仅使用低分辨率图像进行微调）。0总共进行了4,000次迭代）。此外，我们的方法在像长裙这样的宽松衣物和物体交互的场景中也具有良好的泛化能力，如图4所示。消融研究。我们比较了对我们方法有贡献的不同因素。如表3所示，与视图间转换器和颜色编码相比，DoubleField网络对最终结果的贡献最显著。与简单的池化层相比，视图间转换器更有效地实现了多视图和交叉视图特征融合。我们还在高分辨率领域进行了带微调的实验。使用仅低分辨率图像（512x512）对“Ft w/o HDpixel”模型进行微调。这种设置的性能虽然不如我们的方法，但优于其他方法，证明了我们的视图间转换器在捕捉不同视图之间的对应关系和利用高分辨率输入方面的能力。05.2. 真实世界多视图数据的结果0我们使用从稀疏多视角相机（5个视图）捕获的真实世界数据来评估我们的几何重建和纹理渲染性能。图5比较了Neural-Body[37]，PIFuHD[40]和我们方法的定性几何重建结果。请注意，我们的方法是使用一个帧的多视图图像进行微调，而NeuralBody[37]是使用整个多视图视频序列进行训练，因为当只给出一个帧时，它在几何重建方面失败。如图5所示，与NeuralBody[37]不同，我们方法重建的表面更一致，包含更多细节。微调可以进一步修复几何上的一些缺失部分，例如孔洞，这表明双重MLP已经学会了在这两个领域之间建立隐式关联。最后，即使不使用法线贴图作为输入，我们的方法与PIFuHD的多视图扩展相比，也能产生更准确的结果。我们还在ZJU-mocap数据集[37]和我们的多视图系统上评估了渲染质量。结果如图6和图7所示。我们的方法产生了更清晰的渲染结果，并且网络微调时间更短（<20分钟与>15小时）。此外，我们的方法不依赖于人体形状先验SMPL [28]，与NeuralBody[37]相比，在挑战性场景下（如摆动的裙子、拓扑变化和松散的布料），实现了逼真的渲染效果，这证明了我们的方法对真实世界数据的强大泛化能力。更多结果，请参考我们的补充视频。158790图6. 与NeuralBody的比较。左边的4张图像来自ZJU-mocap数据集，右边的4张图像来自真实世界的多视图（5个视图）系统。每个视频有300帧，我们训练NeuralBody花费了20小时。0图7. 在5视图设置下，与PixelNeRF [59]和PIFu [39]的真实世界数据比较0使用更少的网络微调时间（<20分钟与>15小时），我们的方法不依赖于人体形状先验SMPL [28]，与NeuralBody[37]相比，实现了逼真的渲染效果，即使在摆动的裙子、拓扑变化和松散的布料等挑战性场景下。这证明了我们的方法对真实世界数据的强大泛化能力。更多结果，请参考我们的补充视频。06. 讨论0结论。我们提出了DoubleField来结合几何和外观场的优点，用于人体表面重建和渲染。在我们的工作中，提出的DoubleField网络和视图间转换器实现了显著的性能改进。0在几何重建和纹理渲染的改进。我们相信我们的方法可以启发人体渲染和重建领域的后续工作。0局限性。由于需要像素对齐的图像特征提取，所以所提出的流程仍然依赖于准确的背景图像减法进行Double�eld推断。此外，我们的方法不支持多个角色场景的重建和渲染。0潜在的社会影响。我们的方法专注于人类表演的自由视点渲染，可用于体育比赛，电影，虚拟现实，远程存在等，没有明显的负面社会影响。0致谢。本文由中国国家重点研发计划（2021ZD0113503）和NSFC No. 62125107和No. 62171255资助。158800参考文献0[1] Rohan Chabra，Jan E Lenssen，Eddy Ilg，TannerSchmidt，Julian Straub，Steven Lovegrove和RichardNewcombe。深度局部形状：学习详细三维重建的局部SDF先验。在ECCV中，第608-625页。Springer，2020年。20[2]陈志勤和张浩。学习生成

下载后可阅读完整内容，剩余1页未读，立即下载