人物-物体交互下的神经体积渲染方法

47 浏览量更新于2023-10-26 收藏 22.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

61550NeuralHOFusion: 人物-物体交互下的神经体积渲染0Yuheng Jiang 1 Suyi Jiang 1 Guoxing Sun 1 Zhuo Su 2 Kaiwen Guo 30Minye Wu 4 Jingyi Yu 1,5 Lan Xu 1,501 上海科技大学 2 腾讯 3 Meta研究实验室 4 KU leuven 5上海智能视觉与成像工程研究中心0摘要0对人物-物体交互的4D建模对于众多应用至关重要。然而，从稀疏输入中高效地进行复杂交互场景的体积捕捉和渲染仍然具有挑战性。在本文中，我们提出了一种名为NeuralHOFusion的神经方法，使用稀疏的消费级RGBD传感器进行人物-物体的体积捕捉和渲染。该方法将传统的非刚性融合与最近的神经隐式建模和混合技术相结合，对捕捉到的人物和物体进行逐层解耦。对于几何建模，我们提出了一种神经隐式推断方案，其中包括非刚性关键体积融合和模板辅助的鲁棒物体跟踪流程。我们的方案能够在复杂的交互和遮挡下生成详细和完整的几何体。此外，我们引入了一种逐层的人物-物体纹理渲染方案，结合了空间和时间域中的体积和基于图像的渲染，以获得逼真的结果。大量实验证明了我们的方法在合成复杂的人物-物体交互下逼真的自由视角结果方面的有效性和效率。01. 引言0以人为中心的4D内容生成为虚拟现实/增强现实、远程呈现和教育等众多应用提供了可能。然而，在人物-物体交互下方便地重建和渲染人物活动仍然是一个未解决的问题。早期的高端解决方案[5, 7, 12, 13, 20,29]需要密集的相机和定制的照明条件来实现高保真度的重建。但是这样复杂而昂贵的系统设置对于消费级使用来说是不可取的。轻量级的体积性能捕捉更加实用和有吸引力。早期的解决方案[14, 21, 22,51]依赖于预扫描的模板，这对于即时的人物-物体交互建模是不适用的。体积融合0逐层自由视角渲染稀疏RGBD重建0: 源视图 :新视图0图1.我们的NeuralHOFusion使用仅6个RGBD相机实现了逐层和逼真的重建结果。与Fusion4D [9]和Motion2Fusion[8]等传统方法相比，我们的方法能够在实时中进一步重建复杂的人物-物体交互场景，并且能够处理拓扑变化。但是这些传统方法严重依赖高质量的深度传感器和高端GPU，这对于消费者使用来说是不可行的。此外，低端的融合方法[34,43, 44, 57,63]采用了最简单的单目设置和时间融合流水线[35]，但是受到了自遮挡的限制。此外，融合方法的外观结果受限于有限的几何分辨率。最近的基于学习的技术使得仅仅使用轻量级输入就能够实现稳健的人体建模。特别是，各种方法[40,41,48]利用隐式函数来建模人体几何，这在体积捕捉流程[25,26, 44,62]中也被广泛采用。但是这些方法仅限于人体建模，无法建模人物-物体交互，并且无法生成引人注目的逼真纹理。同样地，尽管在逼真人体渲染方面取得了一些进展[30, 32,33, 48,56]，但是很少有研究者探索用于人物-物体交互的神经渲染策略，特别是在体积捕捉框架下。另一方面，各种研究者[16, 17, 38, 50,64-67]对人与周围物体或环境之间的交互进行了建模。但是他们只恢复了参数化的人体模型，而没有重建和渲染交互场景。仅有最近的一些方法[45,47]在同一场景中同时显式建模人和物体。61560体积捕捉框架。但是它们仍然无法处理高度限制实际应用的交互场景。在本文中，我们提出了一种使用轻量级消费者RGBD传感器的神经体积人-物体捕捉和渲染系统（见图1概述）。与现有系统形成鲜明对比，我们的方法处理各种复杂的人-物体交互场景，甚至包括多人交互。它实现了用于表演者和交互对象的新视点的逼真的分层几何和纹理渲染。在保持轻量级和高效设置的同时生成这样的人-物体自由视点视频并实现分层视觉效果是非常困难的。我们的主要思想是将传统的体积非刚性融合流程与最近的神经隐式建模和混合进展有机地结合起来，同时采用分层场景解耦策略。为此，我们首先利用现成的实例分割方法从六个RGBD流中区分人体和物体。对于人体重建，我们提出了一种基于融合的神经隐式方案，以在新视点中推理出仅涉及人体的几何细节。具体而言，它将像素对齐特征与考虑遮挡的截断投影SDF（TSDF）特征[62]相结合，通过在仅涉及人体的情况下利用传统的关键体积非刚性融合流程[9，57]。这种基于关键体积融合的隐式方案可以有效处理遮挡。对于物体重建，受到最近的工作[45]的启发，我们采用了一个模板辅助的鲁棒物体跟踪流程，并进行了特定的初始化过程，以进行后续的神经混合。最后，基于上述人-物体几何代理，我们提出了一种分层神经混合方案，以解耦人体和物体，实现逼真的性能渲染。对于人体阶段，我们将基于图像的渲染与传统的基于顶点的纹理使用颜色体积[59]相结合，通过考虑遮挡的混合权重学习。它能够在目标视图中准确地渲染人体外观，并具有空间相邻输入中的纹理细节水平。对于物体渲染，我们将空间神经混合扩展到时间域，从空间和时间候选输入视图中学习混合权重，以实现逼真的渲染。总之，我们的主要贡献包括：0•我们首次提出了一种使用轻量级消费者RGBD传感器的神经体积捕捉和渲染系统，用于人-物体交互场景。0•我们提出了一种基于融合的神经隐式推理方案，以在考虑遮挡的情况下保留细节的人-物体重建。0•我们引入了一种分层神经渲染方案，它在空间和时间域中结合了体积和基于图像的渲染。02. 相关工作0人-物体捕捉。无标记的人-物体性能捕捉技术已经被广泛研究，以实现自由视点视频或沉浸式远程呈现。早期的高端作品[7，13]使用密集相机通过网格重建和运动跟踪来重建和渲染人体和物体，但是构建同步和校准的多相机系统成本高昂。最近的低端方法在单个RGB设置[23，60，64]，单个RGBD设置[6，45]或稀疏RGB设置[47，48]下实现了轻量级性能捕捉。在另一方面，[16，17，38，50，65-67]模拟了人与物体或周围环境之间的相互作用。PHOSA[64]在没有任何3D监督的情况下进行人-物体捕捉，考虑了人与物体之间的关系以消除歧义。但是他们只恢复了裸体人体模板并产生了一个在视觉上合理的空间布局。Robust-Fusion[45]通过体积融合捕捉人体和物体，并通过迭代最近点跟踪物体。但是他们无法处理拓扑变化，而且他们的纹理会出现模糊伪影。HOI-FVV[47]利用解耦策略分别处理人体和物体，使用六个RGB相机。尽管他们展示了令人印象深刻的人-物体交互渲染结果，但他们只处理了人体的简单姿势，推理速度非常慢。相比之下，我们的方法以快速速度实现了对复杂人-物体交互的高保真捕捉和渲染，包括复杂的人体姿势和严重的遮挡。人体体积捕捉。基于体积融合的方法[34，58，61，63，69]允许在无模板、单视图、实时方式下进行自由形式的动态重建，通过将深度更新到规范模型并进行非刚性变形。一系列的工作被提出来使体积融合更加稳健，包括SIFT特征[18]，人体关节骨架先验[61，63]，额外的IMU传感器[69]，数据驱动先验[44]，学习的对应关系[4]或神经变形图[3]。由于这些单视图设置在遮挡部分存在跟踪误差，多视图设置被引入以通过改进的融合方法减轻这个问题。Fusion4D[9]提出了一种关键体积更新策略。Motion2fusion[8]将基于学习的表面匹配融入到流程中。UnstructuredFusion [59]实现了非结构化的多视图设置。Function4D[62]结合了时间上的体积融合和隐式函数生成完整的几何。然而，这些方法要么无法处理建模人-物体交互，要么无法生成逼真的渲染结果。相比之下，我们的方法实现了对人-物体交互的高保真捕捉和渲染能力。神经渲染和混合。在逼真的新视点合成和3D场景重建领域，我们引入了一种分层神经渲染方案，它在空间和时间域中结合了体积和基于图像的渲染。Per-frame TSDF…��61570几何生成0关键TSDF/反射率0神经混合0多视角RGBD流0基于模板的刚性ICP0人体混合0物体混合0关键帧更新0变形到实时帧0组装的深度0渲染结果0人体纹理0物体纹理0刚性融合0人体掩码0物体掩码0法线细化0实时反射率0变形的RGB图像0掩码的RGB图像0变形0运动场0更新变形0参考视图选择体积0非刚性人体0精细网格0图2. 我们的方法包括两个阶段。几何模块包括神经人体重建（第4.1节）和模板辅助物体融合（第4.2节），混合模块包括神经人体混合（第4.3节）和时态神经物体混合（第4.4节）。0神经渲染显示出强大的能力和巨大的潜力。为了获得更好的性能和特性，采用了各种数据表示方法，例如点云[1, 49,56]，体素[30]，纹理网格[28, 52]或隐式函数[33,36]和混合神经[47,48]。NHR[56]将空间特征嵌入稀疏动态点云中，神经体积[30]通过VAE网络将输入图像转换为3D体积表示。最近，[24, 37, 39, 53,68]将神经辐射场[33]扩展到动态设置。然而，对于上述所有方法，训练需要密集的空间视图或完整的时态帧以实现高保真度的新视角渲染。基于混合的方法学习相邻视图的混合权重，并以轻量级的方式合成逼真的新视图。[48]使用遮挡图作为混合权重估计的指导。[47]结合方向信息以减少宽基线中的伪影。然而，它们无法处理遮挡区域。相比之下，我们的混合方法结合了时空信息，能够在极端遮挡区域下恢复人体和物体的逼真纹理。03. 概述0在稀疏RGBD设置下给定人物-物体交互视频，NeuralHOFusion可以重建高质量的几何形状，并在具有极端姿势和遮挡的挑战性场景中合成逐层逼真的自由视点视频。如图2所示，NeuralHOFusion分别包括人体和物体的两个流，每个流包括两个步骤：几何生成和神经混合。0几何生成。为了在稀疏RGBD相机设置下实现高质量的人体物体几何形状，NeuralHOFusion将全局时空信息融入关键体积中。对于人体，我们动态地维护一个关键TSDF体积V_k及其反射率0体积C_k。NeuralHOFusion通过一种像素对齐的方法生成非刚性人体的完整几何形状，该方法同时使用当前帧的融合TSDF体积V_t或V_k来辅助全局重建。此外，法线细化有助于恢复更多的几何细节。然后我们利用完整的几何形状进行准确的神经纹理混合和关键TSDF体积V_k更新。对于物体，我们采用刚性跟踪和体积融合来利用由占据回归网络生成的模板重建几何形状。0神经混合。为了基于上述几何形状产生逼真的纹理，我们提出了神经混合方案，从输入纹理中提取特征并预测它们的混合权重。对于人体，混合网络以反射率体积的投影图像和相邻的变形RGB图像作为输入，然后预测混合权重以混合最终纹理。对于物体，我们将非遮挡的时空观测保留到一个观测角度组中。然后我们从该组中检索“相邻视图”以进行时空混合。在组装混合的人体和物体纹理之后，NeuralHOFusion输出最终的渲染结果。04. 方法04.1. 神经人体重建0为了重建完整和精细的人体几何形状，我们按顺序执行基于融合的隐式重建和关键体积更新。基于融合的隐式重建。基于隐式函数的神经网络擅长于完成重建，但缺乏几何细节和时间一致性，而传统的体积捕捉方法[9, 34,59]已经实现了时间一致的重建结果。从这种互补性的角度来看，我们遵循Function4d[62]的方法，通过从TSDF体积中提取特征将非刚性融合与隐式函数相结合。Feature averageOccupancyMLP……��Albedo Volume��,��,��,��p,q)∈Rgeo�nTp (p − Tq)�2 +(pt,q)∈Rtem�nTpt (pt − Tq)�2 + (2)61580然而，当面对人物与物体交互中的严重遮挡时，[62]会失败，因为它们的非刚性融合方式不能提供完整的TSDF特征。因此，我们非刚性地融合一个关键体积Vk作为参考模型，在其中从实时帧到它的运动场，并将每个深度融合到该TSDF体积中。请参考[44, 59,63]了解有关这个非刚性融合过程的详细信息。然后，我们将关键体积Vk与从当前深度和RGBD图像提取的当前体积Vt结合到我们的隐式重建网络f中，以推断出详细和完整的几何形状，如图3所示。我们遵循PIFu[40]的网络架构，回归一个隐式函数f来预测空间中每个3D点X的占用情况，表示为：0f(ϕ(X), α(X), z(X)) = s : s ∈ [0.0, 1.0],0ϕ(X) = 10n0i F i ( π i ( X )) , (1)0其中πi(∙)表示第i个相机的投影矩阵；z(∙)是X的深度值。Fi(πi(X))=g(Ii(πi(X)))是X在RGBD图像上的图像特征，g(∙)是特征提取网络，Ii是输入图像。α(∙)表示从Vt或Vk的3D点X查询的TSDF值，其中Vt提供当前帧的详细几何信息，而Vk保留遮挡区域的全局信息。为了充分利用它们，我们引入了一种动态选择策略：当点X靠近可见的人体时，我们选择Vt的值，α(X)=Vt(X)，否则，我们选择在扭曲的Vk中的值。这个操作确保了我们的方法在可见区域重建高保真度的几何形状，在遮挡部分重建合理的几何形状。关键体积更新。我们的Vk为网络提供全局先验，以在遮挡场景中推断出完整和时间一致的人体重建。在实践中，我们定期重置Vk，以减少由于其与实时帧的差异而引起的错位，并能处理拓扑变化问题。具体来说，我们不仅通过估计的运动场[63]将TSDF体积Vk与当前深度和最终几何输出融合，还通过对输出网格和SMPL模型上的节点重新采样来重置关键体积并更新ED图，以在固定频率（论文中为40帧）下重新初始化运动场。04.2. 模板辅助物体融合。0尽管天真的体积融合[45]提供了通常正确的物体几何形状，但由于部分深度丢失和匹配点云之间的有限重叠，表面可能会恶化，如图7(b)所示。为了实现稳定和准确的物体重建，0隐式重建0更新运动场0当前TSDF0关键帧0体积融合0人体重建0UNet0UNet0UNet0RGBD图0人体深度0法线细化0关键TSDF/反照率0变形到实时帧0: 连接0: 动态选择0图3. 人体几何重建的示意图（第4.1节）0权重映射0混合模型0变形的RGBs 遮罩的RGBs0结果0重新投影0W0W0: 连接0: 加权求和0混合模型0�� ,�� W0图4. 神经人体混合的网络结构（第4.3节）0我们还加入了一个对象模板生成模块。具体来说，该模块提供了一个全局线索来调节对象跟踪，极大地提高了跟踪的鲁棒性，从而导致更准确的几何结果。首先，我们利用数据驱动的占用回归网络从多视角RGBD图像生成完整的对象模板，其中的公式类似于没有TSDF特征的方程1。然后，我们在ICP框架下优化相应的对象点云的刚性运动T，如下所示：0Eobject(T) = λgeo �0λtem �0λsp o E spo，0其中Rgeo是源点云和融合点云之间的对应点集，Rtem是源点云和模板点云之间的对应点集。q是源点，p是融合模型中的点，pt是模板中的点。Espo是一个用于惩罚网格穿透的项，请参考[45]了解更多细节。最后，根据估计的T，将源点云融合到TSDF体积中以更新对象几何。04.3. 神经人体混合0为了实现快速的新视角合成，我们采用了神经混合流水线来生成逼真且非23……Setup Canonical Space��…��Blending{��| j = 1,2…,K}��61590刚性ICP0刚性ICP0时间10体积融合0融合体积0变形图像0对象几何和纹理0新视角0对象纹理0图5.我们的目标捕捉和渲染示意图。左侧是对象的刚性跟踪和融合（第4.2节）。右侧是时间神经对象混合（第4.4节）。在新视角下的遮挡人体纹理，它结合了关键帧中维护的反照率体积、相邻输入视角和局部细节几何，如图4所示。我们扩展了工作[48]，定义了方差和遮挡图来学习我们的混合网络。具体来说，我们使用关键反照率体积和占用场分别在4.1节中获取目标视角中的反照率图像和深度图（Ik和Dk）。反照率图像Ik缺乏细节但保留了完整的纹理。它通过提供颜色候选项并帮助找到遮挡部分，在遮挡部分提供了混合流水线所需的丰富信息。然后，我们将相邻的RGBD图像变形到目标视角，表示为ˆI1,t，ˆI2,t，ˆD1,t，ˆD2,t。随后，我们计算遮挡图O_i = Dk - ˆDi,t，i =1,2，并计算每个元素的方差图Vi,t = (ˆIi,t - Ik)^2，i =1,2。我们的混合网络ΘHBN利用反照率图像和相邻图像的颜色信息，方差信息Vi,t和遮挡信息Oi来预测像素级的混合图W，可以表示为：0W = Θ HBN (ˆ I 1,t , V 1,t , O 1 , ˆ I 2,t , V 2,t , O 2) . (3)0我们的人物新视图结果可以表示为：0I n = ˆ W 1 ∙ ˆ I 1,t + ˆ W 2 ∙ ˆ I 2,t + ˆ W 3 ∙ I k .0其中ˆ W i表示融合权重，总和为1.0。法线细化。为了进一步提高新视图中的几何质量，我们按照[48]进行法线细化，通过法线细化网络Θ HRN推断目标深度的位移。我们分别对源视图RGBD图像I i,t、Ik和带有新深度D k 的I n 进行[55]处理，得到源N i,t的法线图、新视图N k 的反照率和新视图N n。我们将相邻的N i,t 和N k 与ˆ W i进行融合，得到融合的法线图N b 。Θ HRN 以N n 、N b和D k 作为输入，最终预测深度位移。04.4. 时间上的神经物体融合。0通过物体融合和后续跟踪的时间观察，我们引入了一种策略，将这些观察无缝有效地结合到我们的物体融合流程中。在物体捕捉的初始化阶段，我们有意向相机展示非遮挡图像，并且系统在线使用刚性跟踪来收集一组 G oa的观察角度对。在跟踪阶段，非遮挡的观察角度对也被添加到 G oa中。对于新视图生成，我们插值“附近视图”。具体来说，我们按照[54]从 G oa中识别出一组18个“附近视图”，然后从该组中随机采样6个视图。通过这种方式，我们的融合可以在更宽的基线上收集更多的信息。然后，我们引入了一个时间上的神经物体融合流程来预测新视图物体的纹理，如图5所示。这个融合网络可以表示为：0W = Θ T BN ({ˆ I j, O j | j = 1, 2 ..., 6}). (5)0ˆ I j 是从 G oa 中附近源视图 I j 经过变换的图像。O j表示遮挡图。我们将生成类似于方程4的新视图图像。尽管物体的反照率体积也可以用于物体融合，但我们发现我们的与 G oa 观察的融合策略足以获得良好且完整的渲染结果。04.5. 实现细节0对于人物物体分割，我们首先使用[27]进行背景分离，然后训练[2]得到初始的物体粗略掩码。随后，我们按照[45]进行掩码的细化。对于图像编码器g，我们按照[48]使用U-Net，输出64通道的特征图。对于隐式解码器f，我们使用具有跳跃连接的MLP，如[62]所示，其中隐藏神经元为(128,128,128,128,128)。此外，MLP f的损失函数最小化均方误差的平均值，如[40]所示。ΘHBN、Θ HRN和Θ TBN采用U-Net结构。对于几何训练，我们首先收集了100个人物序列和40个物体在一个圆顶内，并利用3D-FUTURE[11]中的现有物体网格。然后，我们将一个人物放置在我们的相机设置中心，并添加具有预定义轨迹的物体以模拟人物物体交互。然后，我们根据我们的相机参数渲染RGBD图像，并根据[10]添加合成噪声。对于训练融合网络，我们将RGBD图像、法线和掩码渲染为180个新视角的真实值。此外，我们同时使用L1损失和感知损失[19]。对于模板辅助物体融合，我们使用以下经验确定的参数：λ geo = 0.8，λ tem =0.2，λ sp o = 1.0。61600图6.我们的神经人物物体融合在各种交互序列上的几何和纹理结果握手”。5. 实验结果0在这一部分中，我们评估了我们的神经人物物体融合在各种极具挑战性的人物物体交互中的表现。所有实验都在一台配备有Nvidia GeForce RTX3090 GPU和Intel i7-8700kCPU的PC上运行。通过从同步Kinect系统中捕获六个RGBD流，我们的方法产生了高质量的几何和纹理结果。为了实现快速性能，我们遵循[62]和[48]在GPU上实现了整个流程。对于每个部分，人物几何生成需要129毫秒和7GB，接下来的神经人物融合流程需要20毫秒和2.3GB。物体几何初始化需要10秒，鲁棒的物体刚体融合需要大约33毫秒。最后，神经物体融合需要42毫秒。整个物体分支的内存消耗约为7GB。我们的神经人物物体融合的各种几何和纹理结果如图6所示，包括不同类型的交互，甚至包括严重的遮挡和拓扑变化，比如沙发中的嵌套、握手和脱衣服。05.1. 比较0我们将我们的NeuralHOFusion与最先进的方法UnstructuredFusion [ 59 ]，RobustFusion [ 45]和NeuralHumanFVV [ 48]在几何和纹理上进行比较。如图7所示，UnstructuredFusion [ 59 ]无法处理人体与物体的交互，RobustFusion [ 45]不支持拓扑变化，而NeuralHumanFVV [ 48]无法在面对不同的物体类型时重建正确的几何。而我们的NeuralHOFusion实现了更详细、完整和独立的几何结果，以及更具照片般逼真的渲染结果，即使在具有挑战性的交互和极端人体姿势下也是如此。请注意，我们的方法还可以实现逐层渲染，这是UnstructuredFusion和NeuralHumanFVV不支持的。表1和表2中的定量结果也证明了我们的方法在所有指标上都能取得一致更好的结果。05.2. 割舍研究0神经人体几何生成。如图8(b)所示，没有TSDF特征，生成模型无法恢复被遮挡的人体部分，并且缺乏细节，而在图8(c)中编码了TSDF特征后，模型可以生成具有中等几何细节（如服装皱纹）的完整人体，但仍然存在过度平滑的结果，特别是在面部上。(c)(b)(a)(d)(e)平衡车61610图7. 定性比较。 (a) 输入图像。 (b-e) 分别是来自UnstructuredFusion [ 59 ]，RobustFusion [ 45 ]，NeuralHumanFVV [ 48]和我们的几何和纹理结果的新视角。表1. 渲染结果的定量比较。0方法 PSNR ↑ SSIM ↑ MAE ↓0UnstructuredFusion [ 59 ] 22.456 0.937 3.058RobustFusion [ 45 ] 26.537 0.941 1.868 NeuralhumanFVV[ 48 ] 27.526 0.979 1.131 我们的方法 33.59 0.984 0.6270表2. 几何重建的定量比较。0方法 P2S × 10 − 4 ↓ 倒角 × 10 − 4 ↓0Multi-PIFu [ 40 ] 14.475 10.564 RobustFusion [ 44 ] 5.770 6.375我们的方法 2.692 2.8530相比之下，我们的完整方法通过法线细化实现了详细的人体几何重建，如图8(d)所示。为了进一步定量分析，我们使用CD和P2S评估每个组件，如表3所示，突出了我们每个组件的贡献。模板辅助物体融合。如图9(b)所示，没有MLP生成的模板，简单的刚性ICP容易出现轻微不匹配，这影响了融合网格的生成。此外，由于体积分辨率的限制，模板辅助刚性ICP仍然存在过度平滑的问题，如图9(c)所示。相比之下，我们的完整流程通过细化可以恢复更详细的物体几何。表3中的进一步定量分析证明了我们的方法具有更高的准确性。神经人体混合。在图10中，我们使用相同的几何代理评估了不同的纹理方案。从图10(b)中提取的纹理模糊不清，而简单的神经混合结果在图10(c)中出现严重的块状伪影，将物体纹理混合到人体上。相比之下，我们的完整神经人体混合方案在图10(d)中实现了逼真且完整的纹理结果。此外，我们还对一个包含400帧的合成序列进行了比较，并生成了180个不同的目标视图进行评估。表4证明了我们的方法的优势。0表3. 重建方案的定量评估。0方法 P2S × 10 − 4 ↓ 倒角 × 10 − 4 ↓0无TSDF（人体） 7.7407 7.969 无法正常细化（人体） 3.14253.4086 神经人体几何生成 2.855 3.2390无模板（物体）35.138 19.383 无法线细化（物体）11.529 9.256模板辅助物体融合 11.480 9.1660表4. 纹理方案的定量评估。0方法 PSNR ↑ SSIM ↑ MAE ↓0反照率体积（人体）26.758 0.925 2.167简单神经混合（人体）25.983 0.962 1.735 神经人体混合 30.0400.968 0.9450反照率体积（物体）33.455 0.950 0.564简单神经混合（物体）30.760 0.968 1.255 时间神经物体混合37.901 0.971 0.3760实现更高的准确性。时间神经物体混合。对于物体纹理的评估，图11 (b)表明纹理融合方案会导致模糊，图11 (c)显示简单神经纹理混合方案错误地恢复了属于人体部分的纹理。相比之下，我们的时间神经物体混合充分利用了之前的非遮挡帧和当前帧。因此，即使在图11 (d)中的某些部分被严重遮挡，我们也能忠实地恢复准确的纹理。关于合成物体序列的定量实验可以参考表4。相机数量。我们在多视图设置中评估输入视图数量的影响，相机均匀地放置在一个圆周上，并从0到5进行编号。我们比较了两个相机系统（0，3），四个相机系统（0，1，3，4）和六个相机系统的结果。如图12所示，如果没有足够的相机视图，重建的几何会稍微下降，而纹理结果则显著恶化。经验上，我们发现六个相机的系统在相机数量和质量的折衷中产生了良好的结果。(c)(b)(a)(d)(c)(b)(a)(d)(c)(b)(a)(d)(a)(b)(c)(d)(c)(b)(a)(d)(c)(b)(a) (d)(b)(d)(c)(a)(e)We have presented a practical neural volumetric captureand rendering approach for complex human-object interac-tion scenes, using sparse RGBD cameras. By combiningtraditional non-rigid fusion with neural implicit modelingand blending, our system achieves detailed and realistic re-sults with the unique layer-wise viewing experience. Ourfusion-based neural implicit inference and template-aid ob-ject tracking enable detailed and complete geometry genera-tion under occlusions, while our texturing scheme combinesvolumetric and image-based rendering in both spatial andtemporal domains to synthesize photo-realistic texture. Ourexperimental results demonstrate the effectiveness of Neu-ralHOFusion in complex interaction scenarios with variousposes and clothing types. We believe that our approach isa critical step to virtually but realistic teleport human per-formances under complex interactions, with many potentialapplications like consumer-level telepresence, active objectscanning and human behavior analysis.Acknowledgements. This work was supported by Shang-hai YangFan Program (21YF1429500), Shanghai Local col-lege capacity building program (22010502800).61620图8. 人体几何生成的定性评估。 (a) 输入图像。 (b)没有TSDF特征的几何； (c) 没有法线细化的几何； (d)我们的方法。0图9. 物体几何生成的定性评估。 (a) 输入图像。 (b)没有模板的几何； (c) 没有法线细化的几何； (d) 我们的方法。0图10. 神经混合的定性评估。 (a) 输入图像； (b)顶点纹理； (c) 简单神经混合； (d) 我们的方法。 5.3.限制0虽然NeuralHOFusion可以通过充分利用时间观察来执行复杂的人体-物体交互下的详细和完整的重建和逐层逼真的渲染，但它仍然存在一些限制。首先，我们的方法严重依赖于实例分割方法，糟糕的分割将导致糟糕的几何和交错的纹理。此外，由于深度传感器缺乏对特定材料（如蓬松的头发和纱线衣物）的观察，我们的方法无法获得这些区域的良好几何。对于这个问题，不同人体部位的语义感知隐式函数将是关键。此外，在法线细化后，我们的方法会产生纹理复制的伪影。我们当前的流程将人体和物体分开建模，构建一个物理框架（如[42]）是一个有趣的方向。0图11. 对物体上的神经混合方案的定性评估。 (a) 输入图像； (b)顶点纹理； (c) 简单神经纹理混合； (d) 我们的方法。0图12. 相机视角数量的评估。 (a) 参考图像。 (b, c, d)使用两个、四个和六个相机重建的纹理结果。 (e)平均绝对误差的累积分布函数。0我们提出了一种实用的神经体积捕捉和渲染方法，用于复杂的人体-物体交互场景，使用稀疏的RGBD相机。通过将传统的非刚性融合与神经隐式建模和混合相结合，我们的系统在唯一的逐层观看体验中实现了详细和逼真的结果。我们基于融合的神经隐式推断和模板辅助物体跟踪实现了在遮挡下的详细和完整的几何生成，而我们的纹理方案在空间和时间域中结合了体积和基于图像的渲染，以合成逼真的纹理。我们的实验结果证明了NeuralHOFusion在各种姿势和服装类型的复杂交互场景中的有效性。我们相信我们的方法是在复杂交互下虚拟但逼真地传送人类表演的关键一步，具有许多潜在应用，如消费级远程存在感、主动物体扫描和人体行为分析。致谢。本工作得到了上海市杨凡计划（21YF1429500）、上海市本地高校能力建设计划（22010502800）的支持。06. 结论61630参考文献0[1] Kara-Ali Aliev，Artem Sevastopolsky，Maria Kolos，DmitryUlyanov和VictorLempitsky。神经点图形。arXiv预印本arXiv:1906.08240，2019年。30[2] Daniel Bolya，Chong Zhou，Fanyi Xiao和Yong JaeLee。Yolact++：更好的实时实例分割。IEEE模式分析与机器智能交易，2020年。50[3] Aljaz Bozic，Pablo Palafox，Michael Zollhofer，JustusThies，Angela Dai和MatthiasNießner。用于全局一致非刚性重建的神经变形图。在IEEE/CVF计算机视觉和模式识别会议论文集中，页1450-1459，2021年。20[4] Aljaz Bozic，Michael Zollhofer，ChristianTheobalt和MatthiasNießner。Deepdeform：学习非刚性RGB-D重建的半监督数据。在IEEE/CVF计算机视觉和模式识别会议论文集中，页7002-7012，2020年。20[5] Derek Bradley，Tiberiu Popa，Alla Sheffer，WolfgangHeidrich和Tamy Boubekeur。无标记服装捕捉。在ACMSIGGRAPH 2008论文集中，页1-9，2008年。10[6] Andrei Burov，Matthias Nießner和JustusThies。用于穿着人体的动态表面函数网络。arXiv预印本arXiv:2104.03978，2021年。20[7] Alvaro Collet，Ming Chuang，Pat Sweeney，DonGillett，Dennis Evseev，David Calabrese，HuguesHoppe，Adam Kirk和SteveSullivan。高质量可流式自由视点视频。ACM Transactions onGraphics (TOG)，34(4)：69，2015年。1，20[8] Mingsong Dou，Philip Davidson，Sean RyanFanello，Sameh Khamis，Adarsh Kowdle，ChristophRhemann，Vladimir Tankovich和ShahramIzadi。Motion2fusion：实时体积性能捕捉。ACM Transactionson Graphics (TOG)，36(6)：1-16，2017年。1，20[9] Mingsong Dou，Sameh Khamis，Yury Degtyarev，PhilipDavidson，Sean Ryan Fanello，Adarsh Kowdle，Sergio OrtsEscolano，Christoph Rhemann，David Kim，JonathanTaylor等。Fusion4d：具有挑战性场景的实时性能捕捉。ACMTransactions on Graphics(ToG)，35(4)：1-13，2016年。1，2，30[10] P´eter Fankhauser，Michael Bloesch，DiegoRodriguez，Ralf Kaestner，Marco Hutter和RolandSiegwart。Kinectv2用于移动机器人导航：评估和建模。在2015年国际高级机器人大会（ICAR）上，页388-394。IEEE，2015年。50[11] Huan Fu，Rongfei Jia，Lin Gao，MingmingGong，Binqiang Zhao，Steve Maybank和DachengTao。3D-

下载后可阅读完整内容，剩余1页未读，立即下载