神经关节辐射场：一种学习可变形三维表示的方法，用于姿态可控的铰接对象

119 浏览量更新于2023-10-13 收藏 835KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1神经关节辐射场野口敦宏1小孙2林志颖2原田达也1，31东京大学2微软亚洲研究院3理研摘要我们提出了神经关节辐射场（NARF），一种新的可变形的三维表示从图像中学习的虽然3D隐式表示的最新进展已经使得学习复杂对象的模型成为可能，但是学习铰接对象的姿态可控表示仍然是一个挑战，因为当前方法需要3D形状监督并且不能呈现外观。在制定3D铰接对象的隐式表示时，我们的方法在求解每个3D位置处的辐射场时仅考虑最相关对象部分的刚性变换。通过这种方式，所提出的方法表示姿势相关的变化，而不会显著增加计算复杂度。NARF是完全可区分的，并且可以从具有姿势注释的图像中训练。此外，通过使用自动编码器，它可以学习对象类的多个实例的外观变化。实验结果表明，该方法具有较好的鲁棒性和泛化能力。该代码可在 https://github.com/nogu-atsu/NARF上获得以供研究。1. 介绍在这项工作中，我们的目标是学习一个表示渲染新的视图和姿态的三维关节的对象，如人体，从图像。我们的方法遵循逆图形范式[27，26，37，28]，通过尝试用紧凑的图形代码合成图像来这些代码通常被分解，以允许对单个外观属性（例如对象位置、姿势、照明、纹理和形状）进行细粒度控制来渲染场景/对象。对于人类的情况，新视图和姿势的合成可以用于诸如电影制作、照片编辑、虚拟布料[64，29]和运动转移[33，4]的应用。各种基于逆图形的方法已经专门设计用于静态场景[60，21，54]，刚性对象[9，68，62，56，3]，关键点的混合形状[61，4]和密集网格[64，33]。然而，有效的变形li={Ri，ti}全球位置全局坐标位置编码1个P（xl），.，（xl）加权concatxl=Ri（x-ti）本地全局我-1（p1，…pP）x属于每个部分σ，c分割深度3D姿态li={Ri，ti}地面实况遮罩，颜色掩模颜色体绘制L2损失σ，c密度、颜色NARFMLP选择器图1.解开NARF（NARFD）的训练管道。NARF是一种有效的姿势感知3D表示，仅从姿势注释的图像中训练。所学习的表示是基于部件的，并且能够通过改变输入对象姿势配置来渲染铰接的3D对象的新颖姿势。使用神经网络对铰接的3D对象进行建模仍然是一项具有挑战性的任务，这是由于关节位置的大变化（特别是对于诸如手的端点）、严重的自遮挡以及正向运动学变换中的高非线性[69]。虽然已经完成了对底层人体姿势[33]和关键点位置[4]的显式控制，但其神经渲染方法要么限于2D [4]，这会阻止对视图相关外观[7]的建模，要么基于网格表示[33]，其中渲染质量可能会受到离散模板网格分辨率的影响。最近在3D对象和场景的隐式表示方面取得的进展，例如符号距离函数[20，43]和占用场[12，38]，极大地促进了逆图形范式的发展。这样的表示在模型尺寸上是轻量的、连续的和可区分的，使得它们与先前占主导地位的体积表示相比非常实用[11，16，24，39，46，55，57，67]。尤其是，米尔登-57625763hall等人[40]提出神经辐射场（NeRF），其采用单个连续5D坐标（3D空间位置和2D观看方向）作为输入，并输出每个空间位置处的体积密度和视图相关的发射辐射。结合经典的可微分体积渲染技术[23]，它能够通过从静态场景的输入视图的稀疏集合中学习来合成新颖的视图。NeRF完全放弃了基于网格的表示，并将其替换为基于辐射的模型，该模型可以有效地对视图相关外观进行编码，使其能够以高逼真度再现复杂几何形状的场景。在本文中，我们将NeRF扩展到一个铰接的NeRF，称为神经铰接辐射场（NARF），以表示铰接的3D对象。在NeRF框架内考虑3D关节是一个具有挑战性的问题，因为3D关节的运动学表示与结果辐射场之间存在复杂的非线性关系，使得难以在神经网络中隐式建模[69]。此外，给定3D位置处的辐射场受沿着运动学树的至多单个人工化部分及其父部分的影响，同时提供完整的运动学模型作为输入。因此，输出与不相关部分的依赖性可能会被无意地学习，这会损害模型泛化到训练中看不见的姿势[65]。为了解决这些问题，我们提出了一种方法，该方法仅基于最相关的铰接部分来预测3D位置处的辐射场。使用一组子网络来识别该部件，这些子网络在给定部件的3D位置和3D几何配置的情况下输出每个部件的概率。零件的空间配置是用运动学模型显式计算的，而不是在网络中隐式建模。然后，NARF预测仅以所选部分的属性为条件的3D位置的密度和视相关辐射该方法的概述示于图1中。1.一、所呈现的NARF具有以下性质：• 它学习相机视点、骨骼参数和骨骼姿势的分解表示，允许在渲染中单独控制这些属性。• 从具有铰接对象的姿态注释的2D图像的稀疏集合学习密集3D表示，其可以潜在地通过具有已知相机参数的多视图图像上的外部姿态估计技术来获得[22]。• 从具有姿势注释的图像学习部件分割。不需要额外的监督。• 可以通过使用自动编码器来针对各种形状和外观的铰接对象训练NARF，所述自动编码器提取附加地解缠结的潜在形状和外观通过这种方法，可以从姿态注释的2D图像渲染新的视图和铰接的3D对象的姿态，而几乎不增加计算的复杂性2. 相关工作关节式3D形状表示关节式对象的变形传统上通过蒙皮技术[18，19，30，31]来建模，其中表面网格顶点的位置由运动学[2]控制的骨骼变换来确定。已经为人体[34，17，42]和动物[70]开发了具有微妙姿势相关和身份相关变形建模的有效蒙皮模型。然而，基于蒙皮的模型的表示能力受限于离散模板网格的分辨率，并且通常需要复杂的着色技术[48]来进行高质量的图像渲染。此外，需要大量的3D扫描数据和专家监督来制备模板网格。最近，邓等。[8]提出了一种基于神经网络的铰接形状表示（NASA）。NASA学习空间中每个点的神经指示器/占用函数[6，38，44]，条件是对分段分解进行编码NASA为3D关节形状提供然而，地面实况占用需要训练网络，并且NASA不学习外观，这是渲染的关键元素。图像生成模型的最新进展，如可变自动编码器（VAE）[25]和生成对抗网络（GAN）[15]，为生成逼真的图像提供了强大的工具。以目标姿态为条件的关节化对象（通常是人）的图像生成是一个重要的方向，具有各种应用，如电影制作，照片编辑，虚拟布料[64，29]和运动转移[33，4]。大多数这些作品[4，35，36，52，58，10，1]通过从目标姿势的2D关键点图学习GAN模型来该人的外观信息通过与该人在目标姿势[35，52]中的图像的显式级联来提供，该图像针对单个人[4]自动编码或使用自动编码器[36]。这些工作仅限于2D，这阻止了视图相关外观的建模[7]。一些作品[64]利用底层的3D网格表示，并使用对齐的网格三角形将外观从一个网格转移到另一个网格。基于网格的表示的质量受其离散模板网格的分辨率的限制，并且需要3D模板网格。隐式3D表示我们的工作建立在最近成功的隐式3D表示。这个代表-5764N0表示是记忆有效的，连续的，无拓扑，并已用于学习3D形状[38，44，53]，3D纹理[41]，静态场景[40，54]，零件分解[14，13]，铰接对象[8]，变形[47，32，63，45]、来自稀疏图像的3d重建[49，50]，以及图像合成[51，5]。早期的方法需要地面真实3D几何[38，其中h是隐藏特征向量。经典体绘制[23]用于绘制具有近边界tn和远边界tf的相机射线r（t）=o+td的颜色C（r），并且其中o表示相机位置。∫t44]，但结合可微分渲染，它们进化为从2D图像中学习。尤其是神经根T（t）=exp（−∫tfσ（r（s））ds），（3）tndiance fields（NeRF）[40]能够仅使用多视图姿势C（r）=T（t）σ（r（t））c（r（t），d）dt（4）tn图像.然而，NeRF处理静态场景，并且不能处理可变形对象。最近，已经提出了扩展NeRF以学习变形和动力学的方法[47，32，63，45]。这些模型已经成功-T（t）表示沿射线的累积透射率。积分通过沿着射线r的采样点上的离散近似来计算。成功地学习可变形隐式表示使用构成的视频帧[47，32，63，45]。然而，这些模型不考虑对象的结构，因此它们不能生成具有显式姿态控制的图像。Tj= expj−1−k=1σkδk），C（r）=∑j=1Tj（1−exp（−σjδj））cj（五）3. 方法在本节中，我们介绍了神经关节辐射场，这是一种基于NeRF的关节式3D对象的新型隐式表示。我们首先简要回顾一下Sec中静态场景的基本NeRF公式。第3.1条节中在图3.2中，NeRF被扩展为经由运动学模型以姿态为条件，并且由此导出直接的基线我们重新制定的姿势条件NeRF，以允许刚性对象的转换，以及全球形状的变化，在第二节。三点三节中3.4中，我们将铰接的3D对象表示为由正向运动学规则控制的可移动刚性对象部分的组合。为了实现相对于对象部分数量的恒定模型复杂度，我们提出了一种有效的解纠缠NARF架构。培训策略见第二节。三点五3.1. 神经辐射领域再探神经网络用于表示辐射场，使得3D位置x=（x，y，z）和2D观看方向d被转换为密度σ和RGB颜色值C.密度σ的作用类似于微分不透明度，控制通过x的光线累积多少辐射[40]。FΘ：（γ（x），γ（d））→（c，σ），（1）其中γ（p）=[（sin（21πp）， cos（21πp）]L是将输入标量映射到更高维空间中以表示场景的高频细节的位置编码（PE）层。FΘ由两个ReLU MLP网络组成。具体来说，体积密度σ仅是位置x的函数，而RGB颜色c是位置x和观察方向d的函数。FΘσ：（γ（X））-（σ，h），FΘc：（h，γ（d））-（c），⑵∑（5765联系我们这里，σj和cj是光线r上第j个点的密度和颜色，δj是第j个和第（j+1）个采样点之间的距离。NeRF在从具有已知相机参数的多个视图拍摄的单个静态场景的图像上进行训练。训练每个位置的密度和颜色，使得每个视图的渲染图像变得接近其地面实况。在训练之后，可以从任何视点合成高分辨率图像。3.2. 姿势调节NeRF：基线我们的目标是将NeRF的表示能力从静态场景扩展到可变形的铰接对象，其配置可以通过运动学模型描述[2]。因此，3D位置的辐射场取决于姿态配置。一旦学习了这种在这项工作中，我们专注于建模铰接对象不考虑背景。因此，为了紧凑性，我们假设背景被预先清理。运动学模型形式上，运动学模型[2]表示P+1个关节的铰接对象，包括端点，以及树结构中的P个骨骼，其中关节之一被选择为根关节，并且每个剩余关节通过固定长度的骨骼链接到其单个父关节。具体来说，根关节J0由全局变换矩阵T0定义。令Zi是从第i个关节Ji到其父关节的骨骼长度，i，…P，θi表示关节相对于其父关节的旋转角度。骨骼被视为刚体，定义为局部刚体5766当地--当地----P--P {}−ΘσΘΘc--当地Θσ关节与其父关节之间的变换。transfor-由刚性transform定义的其自身的局部坐标系矩阵Ti被计算为Ti=Rot （ θi ）Trans （ ζi ），（6）其中Rot和Trans分别是旋转和平移因此，从根关节到关节Ji的全局变换可以通过沿着从根关节到第i个关节的骨骼乘以变换矩阵来获得：形成li=Ri，ti，其使用正向运动学明确地估计，而不是通过神经网络隐含地建模。然后，我们在第3.3节中展示了如何在刚性变换的神经辐射场（RT-NeRF）中有效地建模刚性变换的对象部分。基于RT-NeRF，我们在第 3.4 节中描述了如何训练一个统一的NeRF，它以避免部分依赖问题的方式编码多个部分Ti=（Πk∈Pa（i）Tk）T0（7）3.3. 严格变换的神经辐射场其中Pa（i）包括第i个关节及其沿运动学树的所有父然后可以从变换矩阵Ti获得第i个关节的对应全局刚性变换li=Ri，ti。在运动姿态配置=T0，ζ，θ上的3D位置x处调节辐射场的最直接的方法是直接连接表示为模型输入的向量。由于前向运动学计算是一个复杂的非线性函数[69]，难以在神经网络中模拟，因此我们使用前向运动学获得的变换li=Ri，ti作为网络输入。FΘP：（γ（X），γ（{1}|i=1，…P}），γ（d））-（σ，c）⑻我们将这种朴素的方法称为姿势条件化NeRF（P-NeRF）。实施细节可以在补充材料中找到。尽管P-NeRF建立了辐射场和姿态之间的依赖性，但由于以下两个原因，使用该模型进行推广是困难的• 隐式变换。铰接物体由多个刚体组成，当物体姿态变化时，物体表面的点应随刚体变换而移动。因此，点的移动可以使用每个部分的刚体变换来显式地描述，但是这样的变换对于神经网络来说可能难以隐式地学习。• 部件依赖性。3D位置处的密度仅取决于其所在的骨骼的参数以及沿运动学树的其父骨骼的参数。然而，所有的参数都用于估计Eq. 8.由于对这样的3D位置的训练被反向传播到所有参数，因此网络可能学习物理上不存在的错误依赖性对于在训练数据中看到的测试姿势，仍然可以获得正确的姿势预测，但是对新姿势的模型泛化可能会降级[65]。为了解决上述问题，我们将铰接对象分解为P个刚性对象部分。每个部分都有给定物体的刚性变换l=R，t，我们现在估计物体坐标系中的辐射场，其中密度相对于局部3D位置是恒定的。从形式上讲，l：（γ（xl））-（σ，h）（9）其中xl=R−1（x t）表示局部对象坐标系中的3D位置。我们希望模型能够处理某些形状变化。例如，儿童的肢体长度和厚度应该与成人的肢体长度和厚度明显不同。为了考虑形状变化，我们进一步对模型进行骨参数ζ的调节。Fl，ζ：（γ（xl），γ（ζ））-（σ，h）（10）同时，局部3D位置处的颜色c可以随着对象坐标系的变换而改变，因为这可能导致局部光照条件的改变。由于局部3D位置处的RGB颜色c应进一步取决于刚性变换l，因此我们使用变换l的6D向量se（3）表示ξ作为网络输入。Fl，ζ：（h，γ（dl），γ（ξ））-（c）（11）其中dl=R−1d是对象坐标系中的2D视图方向。组合方程如图10-11所示，在l=R，t空间中定义的刚性变换神经辐射场（RT-NeRF）表示为Fl，ζ：（γ（xl），γ（dl），γ（ξ），γ（ζ））-（c，σ）（12）RT-NeRF作为神经元辐射场的基本构建块，接下来我们将展示如何利用它3.4. 神经关节辐射场建议的神经关节辐射场（NARF）是建立在RT-NeRF。我们首先介绍两种基本的解决方案，部分明智的NARF和整体NARF，并分析各自的优点和缺点。然后，我们提出了我们的最终解决方案，名为解开NARF，分享部分明智和整体NARF的优点。概念性的数字在Fig.二、F5767LIjNΘi{1}|}--}{|}{|∑∑Θσ∑JJ JJσ=i= l，c=i= l，（15）PNARF（NARFH）。从形PP我Fl，ζ位置编码NARFP本地位置1（x）σ1，c1加权太阳σ，c密度我们可以进一步渲染分割图像，指示哪个RT-NeRF（对象部分）用于渲染每个像素：NARFH全球位置（xl）（xl），…，（xl）σP，cP和颜色σ，csj（r）=a r gmax{σi|i∈[1，P]}（17）Si（r）=∑T（1-exp（-σδ））（s（r）==i）（18）j=1NARFD（xl选择器），…，（xl）加权σ，c其中Sj是具有最大密度y的部分的index，并且S1表示用于第i部分的分割掩码。concat图2.三种类型的神经连接辐射场。为了更清楚起见，省略了除位置X部分式NARF（NARFP）给定铰接对象的运动学3D姿态配置T0，ζ，θ，我们首先计算全局刚性变换l ii=1，…P为每个刚性部分使用方程中的正向运动学。六比七为了估计来自2D观看方向d的全局3D位置X的密度和颜色（σ，c），我们训练单独的RT-NeRF，Fli，ζ，讨论NARFP方法在单独的RT-NeRF中对铰接对象的刚性变换部分进行建模，其中每个部分在不同的3D姿态配置下具有一致的辐射场。由于每个RT-NeRF的刚性变换是经由正向运动学显式地计算的还通过采用具有最高密度的估计来解决部分依赖性问题，同时抑制等式中的全局3D位置的其他部分的贡献。十五岁然而，由于以下原因，其计算是无效的。xli =Ri−1（x−ti），dl=Ri−1d（13）• 计算成本与数量我Θi：（γ（xIi），γ（dIi），γ（ξi），γ（ζ））-（ci，σi），（14）对象部分的表示，限制了复杂的铰接对象的表示能力对于每个部分，使用Eq.12、将密度和颜色σ i，c i，i=1，…P由不同的RT-NeRF估计成一个。我们将这种方法表示为部分式 NARF（NARFP）。由于对象的表面点可以仅属于对象部分中的一个，因此仅σ i，c i，i=1，…P必须为非零。全局3D位置X的密度和颜色（σ，c）可以通过采用具有最高密度的估计来确定。然而，最大运算是不可微的，因此我们使用softmax函数，它是所有估计值的可微加权和∑Pe x p （σ i/τ）σ i∑P exp（σ i/τ）c iexp（σi/τ）exp（σi/τ）• 训练由大量的零密度点样本支配由于对象上的表面点只能属于对象部分中的一个，因此它将被训练为剩余部分的零密度样本由于具有小密度的部分对方程的值影响不大，因此实际上没有必要计算这些部分的密度。整体NARF（NARFH）为了解决上述问题，我们提出了另一种方法，该方法将NARFP中的RT-NeRF模型的输入组合起来，然后将它们作为一个整体馈送到单个NeRF模型中，用于最终密度和颜色（σ，c）的直接回归。我们称这种方法为整体性其中τ是softmax函数的温度参数。然后使用组合Fl，ζ：Cat（{γ（X1）|i∈[1，P]}，γ（ζ））→（σ，h），（19）密度σ和颜色c，以生成渲染颜色C（r）Fl，ζ：Cat（h，{l，ζ}）我 |i ∈ [1, P ]}) → (c),(20)Θc由等式五、由于渲染和softmax操作是（γ（d），γ（ξ））两者都是可微的，图像重建损失可以将梯度传递到所有RT-NeRF模型以进行有效训练。我们注意到，除了颜色C（r）之外，前景掩模M（r）也可以被估计为沿着相机射线的不透明度的积分NM（r）= Tj（1−exp（−σjδj））（16）j=1MLPMLPMLPMLP......（p1，…pPi=1Pi=111我我5768其中Cat表示级联运算符。讨论只有一个NeRF模型在NARFH中训练。计算量几乎与物体零件数和零密度问题保持恒定自然避免。然而，与零件式NARF不同，NARFH不满足零件依赖性，因为针对每个3D位置考虑所有参数。此外，对象部分分割掩模不能从Eq. 18、没有依赖关系5769SSSΓ----×ΓΘσγ（x）p |i ∈ [1，P]}，γ（ζ））→（σ，h），（22）22我∑ΘcIj解纠缠的 NARF （ NARFD ）我们提出了解纠缠的NARF（NARF D），其共享NARF P和NARF H两者的优点，同时通过引入选择器来避免它们的缺点。选择器识别全局3D位置x属于哪个对象每个部分由P个轻量级子网络对于第i个部分，子网络Oi将li=Ri，ti中的X的局部3D位置和骨骼参数ζ作为输入，并输出X属于第i个部分的概率Pi。由于x应该只分配给一个对象部分，因此softmax激活用于规范化选择器的输出：像素，然后遵循原始NeRF [40]的分层体积采样策略来查询每条射线的N个样本。利用已知的运动学3D姿态配置T0、ζ、θ，通过NARF模型估计样本然后使用体绘制来使用等式（1）绘制该射线的颜色C（r）和掩模M（r）分别为5和16。损失是渲染的和真实的像素颜色和蒙版之间的总平方误差。L=[||C（r）−C（r）||2个以上||M（r）−M（r）||（25）r∈R其中R是每个批次中的射线集合，C和M是ili ii iexp（o）O：（γ（x），γ（x））→（o），p=∑（二十一）地面真值颜色和前景蒙版。在补充质询中─谈到材料，我们经验表明，额外的掩模损失可见Oi实际上是一个占有网络有助于学习更清晰的背景。其他培训详情工作[38，8]定义Γ在局部对象坐标系。在学习率、批量大小和优化器上可以找到在补充材料中。与NASA [8]相比，NASA为了实现，我们使用了一个两层的MLP与10个隐藏节点的每个occu- pancy网，这是轻量级的，但有效的。解纠缠的NARF通过使用选择器的输出piFl，ζ：Cat（{Li4. 单个对象在本节中，我们将在单个有关节的3D对象的情况下评估我们的模型。数据集和设置我们创建自己的人体合成数据集用于实验。它由两个人组成，一个男性和一个女性，选自人类3D纹理网格（THUman）数据集[66]。每人有56个和48种不同的姿势，其中26种用于训练和Fl，ζ：Cat（h），{（γ（d）li）* p i，γ（ξi）* p i）|i ∈ [1，P]}）→（c）（二十三）其他人进行测试。我们绘制了100张不同方向和缩放比例的图像用于训练，20张用于测试，最终每个网格有2600张训练图像请注意，虽然我们已经删除了对ir的依赖性通过掩蔽相关部分的输入，得到的输入仍然是级联的形式。这是有目的地完成的，因为所有骨骼共享单个NeRF，其需要区分不同的骨骼以便生成对应的密度和颜色。不同的骨骼通过表示它们的级联向量的维度详细的网络架构可以在补充材料的图A中找到。由于选择器输出属于每个部分的全局3D位置的概率，因此我们可以通过选择特定部分所占据的位置来生成分割掩码，然后使用等式十八：sj（r）=a r gmax{pi|i∈[1，P]}（24）3.5.培训详细信息我们为3D位置x和其他参数设置的位置编码维度分别为10和4。在训练过程中，在每次优化迭代中，我们从所有人.请注意，在此设置下，训练集和测试集的视点分布相同。我们将该测试数据设置表示为新颖姿势/相同视图设置。所有渲染图像的分辨率均为128 128。此外，我们还介绍了其他三种测试设置，以便进行更全面的比较。相同姿势/相同视图设置使用从与训练中相同的姿势和相同的视点分布渲染的测试图像新颖姿势/新颖视图设置使用新颖姿势和与训练中不同的视点分布最后，相同的姿势/新视图设置使用相同的姿势，但视点分布与训练不同。运动学3D姿态配置是从由THUman数据集提供的SMPL模型参数推断的，并且我们使用骨长度作为等式中的骨参数ζ。10个。三个指标用于评估性能。峰值信噪比（PSNR）和结构相似性指数（SSIM）[59]是图像重建的两个常用此外，我们引入掩模图像的L2距离误差（掩模），其更好地描述了渲染对象的3D形状与地面实况的接近程度（越低越好）。Pk=1 exp（ok）5770→PPP××表1.单个对象的定量比较最佳结果以粗体显示。图3.生成结果比较一个单一的对象与一个新的姿态和新的看法。一个模特一个身份。三角形指向应注意的区域。在六种方法中，NARF D最好地推广到新视图/新姿势。视图骨姿势骨参数图4. NARF学习到的分解表示D.对于骨骼参数插值，将对右腿长度进行插值。除了NARF的三个变体（NARFP、NARFH和NARFD）之外，还包括三个其他基线以供比较。第一种是类似于[4]的基于2D CNN的方法，该方法从“姿势棒”生成目标对象在我们的例子中，姿势棒是通过将3D关节投影到2D图像（具有给定的相机参数）中，然后添加线条来连接这些2D关键点而生成的第二个是P-NeRF方法描述在第二节。3.2.第三个是D-NA RF，这是D-NERF [45]对铰接对象的简单扩展。D-NA RF的目标是学习映射Ψ：x x′，该映射将给定点变换到其在正则形状空间中的位置在我们的实现中，学习规范姿势c的静态NeRF模型，然后映射网络[45]Ψ估计特定姿势实例的场景和规范姿势c的场景之间的变形场。三个基线的详细信息可在补充材料结果定量比较结果见表1.#Params、#FLOPS和#Memory表示数字参数的数量、每条射线的浮动点操作以及每条射线在向前传播期间要保留的元素的数量，这与存储器成本成比例。可以看出，我们的方法，NARFD，在所有的评估指标和测试数据集下优于其他方法（最好的结果以粗体显示）。特别地，它在新姿态和/或新视图设置下表现出高性能（在SSIM上4%内的轻微性能下降），具有低计算成本（接近单个NeRF模型，P-NeRF）。因此，我们可以得出结论，NARFD有效且高效地学习了关节连接的3D对象的辐射场，并且该模型以高保真度推广到新的姿势和视图。相比之下，所有其他方法都以这样或那样的方式存在缺陷在新视图下测试时，基于CNN的方法失败（SSIM性能下降10%），因为很难从2D输入中学习有效的3D表示。P-NeRF和D-NARF在几乎所有情况下都失败，主要是由于隐式变换和部分依赖性问题。NARFP具有良好的性能和推广能力，但需要更多的计算（10#FLOPS和17#存储器的NARFD）。当在新姿势上测试时，由于部件依赖性，NARFH不太有效（在SSIM上性能下降8%）。在新姿态/新视图设置下的定性结果如图所示。3.第三章。显示渲染的RGB图像（第一行）、深度图（第二行）和部分分割可以看出，基于NeRF的方法（除了基于CNN的方法之外）可以获得深度图像，并且CNNP-NeRFD-NARFNARFPNARFHNARFDRGB深度GT分割成本相同姿势，相同视图小说姿势，相同视图相同姿态，新奇的观点新奇的姿势，新奇的视角方法#参数触发次数#记忆口罩↓PSNR↑SSIM↑口罩↓PSNR↑SSIM↑口罩↓PSNR↑SSIM↑口罩↓PSNR↑SSIM↑CNN15.6M--76.929.120.9429134.827.300.9211365.925.190.8532392.224.530.8470P-NeRF0.85M156M356K778.721.420.80061077.020.420.7696844.921.190.78971110.120.270.7648D-NA RF0.66M121M382K2182.618.900.11432308.218.810.11402137.319.090.11442241.318.880.1133NARFP11.8M2140M6544K92.028.560.9258116.226.830.9052101.527.540.9144125.826.500.9104NARFH1.06M197M344K型55.629.910.9470376.824.090.866570.528.810.9370374.623.980.8646NARFD1.10M205M382K50.530.860.9586114.427.930.931764.129.440.9466123.827.240.92305771（二十六）我Θσ和NARFD）可以获得分割图。我们的最终解决方案NARFD可生成比其他解决方案更高质量的RGB、深度和分割图，以获得新颖的视图和姿势。此外，如图在图4中，NARF D学习相机视点、骨骼参数和姿态的分离表示，从而允许在渲染中单独地控制这些外观属性。5. 自动编码器的外观变化在本节中，我们训练一个基于NARF的自动编码器，以模拟多个铰接对象之间的形状和外观变化。自动编码器由编码器和解码器组成。首先，使用基于2DCNN的编码器从输入图像生成潜在向量z得到的潜在向量连同给定的摄像机视点和人的姿势被送入我们的NARF解码器重建的输入图像。在基于NeRF的生成器[51]的实现之后，我们首先将z分解为形状特征向量zs和外观特征向量za。然后，将z_s连接到密度相关输入，即位置编码的位置X和骨骼参数ζ。同时，Za被连接到颜色相关输入，即，位置编码的视图方向d和局部变换ξ。具体来说，当将自动编码器与NARFD模型结合时，我们有Fl，ζ，z：Cat（{γ（xl）* p i|i ∈ [1，P]}，γ（ζ），z（s）→（σ，h），RGB深度分割输入图5.使用自动编码器从NARF D获得单视图重建结果。所有输出均由单个模型生成。视图骨姿势骨参数外观图6.使用自动编码器学习的解纠缠表示。对于骨骼参数插值，对头部位置进行插值。另一个人的。其他结果见补充材料。F l，n，z：Cat（h，{（γ（dli）np i，γ（di）np i）|i ∈ [1，P]}，z）→（c）Θca（二十七）6. 结论和今后的工作编码器和解码器使用等式（1）中的相同损失联合训练。二十五对于实验，我们默认使用最佳性能的NARFD。其他型号的比较结果见补充材料。数据集我们从THUman [66]创建另一个合成人体数据集用于实验。使用THUman数据集中的所有男性（总共112个）和姿势（每个人平均35个）。我们为每个姿势绘制10张图像，随机采样视点，以生成35450张用于训练的图像和3940张用于评估的图像。所有渲染图像的分辨率均为128× 128。图5示出了重建的RGB图像以及从输入RGB图像生成的附加深度图像和分割图。针对所有对象训练单个自动编码器，指示外观变化被有效地建模。图6示出了基于NARF的自动编码器学习相机视点、骨骼参数、人体姿势和颜色外观的分解表示，允许在渲染中单独控制这些属性。对于颜色外观，其通过将外观本征向量za替换为在本文中，我们提出了一种学习隐式表示的铰接对象的方法。我们表明，它是可以学习的观点，姿态，骨骼参数，并从3D姿态注释图像的外观虽然需要姿态注释来训练模型，但是模型是可区分的，并且因此可以被扩展以减少所需的监督信息，例如，通过利用模型同时训练3D姿态估计和分割。此外，由于所提出的表示提供了明确的3D形状和部分分割，它可以被应用于无监督的深度估计和分割学习。7. 确认这项工作得到了Microsoft Research Asia的D-CORE资助，部分得到了JST AIP加速研究资助号JPMJCR 20U3和JSPS KAKENHI资助号JP 19 H 01115的支持。我们要感谢Sho Maeoki、Thomas Westfechtel和Yang Li进行的有益讨论。我们还感谢Microsoft Azure机器学习提供的5772引用[1] Guha Balakrishnan，Amy Zhao，Adrian V Dalca，FredoDu- rand，and John Guttag.合成人类在看不见的姿势的图像。在CVPR，2018年。2[2] Oene Bottema和Bernard Roth。理论运动学，第24卷。1990. 二、三[3] Arunkumar Byravan和Dieter Fox Se 3-nets：使用深度神经网络学习刚体运动。在ICRA，2017年。1[4] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A Efros.大家跳舞吧在ICCV，2019年。一、二、七[5] Eric Chan ， Marco Monteiro ， Petr Kellnhofer ， JiajunWu，and Gordon Wetzstein.pi-gan：用于3d感知图像合成的周期性隐式生成对抗网络。在CVPR，2021年。3[6] 陈志勤和张浩。学习隐式场生成形状建模。在CVPR，2019年。2[7] Paul E Debevec，Camillo J Taylor，and Jitendra Malik.从照片中建模和渲染建筑：一种基于几何和图像的混合方法。在 Proceedings of the 23rd annual conference onComputer graphics and interac- tive techniques ， 1996中。一、二[8] Boyang Deng ， JP Lewis ， Timothy Jeruzalski ， GerardPons- Moll，Geoffrey Hinton，Mohammad Norouzi，andAndrea Tagliasacchi. NASA：神经关节形状近似。在ECCV，2020年。二、三、六[9] Alexey Dosovitskiy ， Jost Tobias Springenberg ， andThomas Brox.学习用卷积神经网络生成椅子。CVPR，2015。1[10] PatrickEsse r，EkaterinaSutte r，andB joürnOmme r. 用于条件外观和形状生成的可变u-网在CVPR，2018年。2[11] 约翰·弗林，迈克尔·布罗克斯顿，保罗·德贝维克，马修·杜瓦尔，格雷厄姆·费弗，瑞安·奥弗贝克，诺亚·斯内弗利和理查德·塔克。Deepview：查看合成与学习梯度下降。在CVPR，2019年。1[12] Kyle Genova 、 Forrester Cole 、 Avneesh Sud 、 AaronSarna和Thomas Funkhouser。三维形状的局部深度隐式函数。在CVPR，2020年。1[13] Kyle Genova 、 Forrester Cole 、 Avneesh Sud 、 AaronSarna和Thomas Funkhouser。三维形状的局部深度隐式函数。在CVPR，2020年。3[14] Kyle Genova 、 Forrester Cole 、 Daniel Vlasic 、 AaronSarna、William T Freeman和Thomas Funkhouser。使用结构化隐函数学习形状模板在CVPR，2019年。3[15] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014。2[16] Phlipp Henzler ， Volker Rasche ， Timo Ropinski ， andTobias Ritschel.单图像断层扫描：来自2D颅骨x射线的3D体积。在计算机图形论坛，第37卷，第377-388页，2018年。1[17] Nikolas Hesse，Sergi Pujades，Michael J Black，MichaelArens，Ulrich G Hofmann，and A Sebastian Schroeder.从rgb-d序列学习及追踪自由活动婴儿的三维体型。TPAMI，42（10）：2540-2551，2019。2[18] Alec Jacobson ， Zhigang Deng ， Ladislav Kavan 和 JPLewis。蒙皮：实时形状变形。ACM SIGGRAPH 2014课程，2014年。2[19] Doug L James和Christopher D Twigg。蒙皮网格动画。ACM Transactions on Graphics （TOG），24（3）：3992[20] Chiyu Jiang，Avneesh Sud，Ameesh Makadia，JingweiHuang，Matthias Nießner，Thomas Funkhouser，et al.三维场景的局部隐式网格表示。在CVPR，2020年。1[21] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。从场景图生成图像。在CVPR，2018年。1[22] Hanbyul Joo、Tomas Simon、Xulong Li、Hao Liu、LeiTan、Lin Gui、Sean Banerjee、Timothy Scott Godisart、Bart Nabbe 、 Iain Matthews 、 Takeo Kanade 、 ShoheiNobuhara和Yaser Sheikh。Panoptic Studio：用于社会互动捕捉的大规模多视图系统。TPAMI，2017。2[23] James T Kajiya和Brian P Von Herzen。光线跟踪体积密度。ACM SIGGRAPH计算机图形学，18（3）：165-174，1984。二、三[24] Abhi

下载后可阅读完整内容，剩余1页未读，立即下载