从休闲视频构建可动画的3D神经模型

154 浏览量更新于2023-10-25 收藏 2.85MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2863姿势2骨BANMo：从许多休闲视频中构建可动画的3D神经模型杨庚山2*明武3纳塔利娅·内韦洛娃1德瓦·拉马南2安德烈·韦达尔迪1韩宝11Meta AI2卡内基梅隆大学3Meta Reality Labs一个物体颜色：蒙皮权重规范空间姿势1图1.给定捕获可变形对象的多个休闲视频，BANMo重建可动画化的3D模型，包括隐式规范3D形状、外观、蒙皮权重和时变关节，而无需预定义的形状模板或注册的相机。左：输入视频;中间：规范空间中的3D形状、骨骼和蒙皮权重（可视化为表面颜色）;右：在每个时间实例处的具有颜色和规范嵌入的姿势重建（对应关系显示为相同的颜色）。摘要用于关节式3D形状重建的先前工作依赖于专门的多视图和深度传感器或预先构建的可变形3D模型。这样的方法不能扩展到野外的不同对象集合。我们提出一种不需要它们的方法。它的目标是在一个可区分的渲染框架中从许多休闲RGB视频中创建高保真，清晰的3D模型我们的主要观点是融合三个学派：（1）利用关节骨骼和混合蒙皮的经典可变形形状模型，（2）建立像素与规范3D模型之间的对应关系的规范嵌入，以及（3）服从基于梯度的优化的体积神经辐射场（NeRF）。我们引入神经混合皮肤模型，允许不同的和可逆的关节变形。当与规范嵌入相结合时，这些模型使我们能够在视频中建立密集的对应关系，这些视频可以通过周期一致性进行自我监督。在真实和合成数据集上，我们的方法显示出比人类和动物的先前作品更高保真的3D重建，具有从新颖视角渲染逼真图像的能力项目页面：https://banmo-www.github.io/。*在Meta AI1. 介绍我们感兴趣的是开发工具，可以重建准确的和动画的三维物体模型，从偶然收集的视频。代表性的应用是用于虚拟和增强现实的内容创建，其中目标是3D化由用户捕获的图像和视频以用于在3D空间中消费或创建诸如化身的可动画化资产。对于刚性场景，传统的运动恢复结构（SfM）方法可用于利用大量非受控图像（例如从网络下载的图像）来构建地标和整个城市的精确3D模型[1，42，43]。然而，这些方法没有推广到可变形对象，诸如家庭成员、朋友或宠物，这些对象通常是用户内容的焦点。因此，我们有兴趣从随意收集的视频重建3D可变形物体。然而，单独的视频可能不包含足够的信息来获得给定对象的良好重建。幸运的是，我们可以预期，用户可能会收集同一子对象的多个视频，例如在几个月或几年的时间内拍摄家庭成员或宠物在这种情况下，我们希望我们的系统能够将所有可用视频中的信息收集到单个3D模型中，从而桥接任何时间不连续性。在本文中，我们提出了BANMo，一个灵活的3D神经模型从多个休闲RGB视频。通过将来自数千张图像的2D线索整合到一个固定的规范空间中，BANMo学习了一个高视图1查看2规范嵌入BANMo2864用于目标非刚性对象的外观、3D形状和关节的保真度神经隐式模型BANMo的输出模型的清晰度由神经混合蒙皮模型表示，类似于[5，39，59，60]，通过操纵骨骼变换使输出可动画化如NRSfM [4]所示，从单目视频重建自由移动的非刚性对象是具有挑战性的，其中极线约束不直接适用。我们解决了BANMo中的三个核心问题：（1）如何在标准空间中表示目标的三维几何形状和外观;（2）如何在规范空间和各个时间实例之间变形3D点;（3）如何在给定不同视点、照明、背景和对象变形的视频上找到像素或部分对应。具体地说，我们利用神经隐函数[29]来表示正则空间中的颜色和3D表面。与基于3D网格的方法相比，这种表示能够实现更高保真的3D几何重建[59，60]。与动态NeRF方法相比，BANMo中神经混合蒙皮的使用提供了一种约束目标对象变形空间的方法，允许更好地处理姿态变化和未知相机参数的变形[5，22，33，38]。为了找到correspondences，我们提出了一个模块，执行像素和隐式特征量之间的密集匹配。最后，为了在大量视频帧上进行鲁棒和高效的优化，我们预先训练了人类和四足动物的姿势网络，以提供初始相机方向。简而言之，BANMo提出了一种在动态NeRF框架[5，22，33，38]中合并最近的非刚性对象重建方法[59，60]的方法我们通过实验证明，BANMo通过更好地利用多个视频中的大量帧，比以前的最先进方法[60]产生更高保真的3D形状细节2. 相关工作人体和动物体模型。3D人体和动物重建中的大量工作使用参数化形状模型[25，35，51，56，67，68]，这些模型是根据人体或动物的配准3D扫描构建的，并且用于在测试时重新覆盖给定单个图像或视频的3D形状[2，3，15，15，66]。尽管参数化人体模型在利用大量地面真实3D数据重建人体方面取得了巨大成功，但将相同的方法应用于具有有限3D数据的类别（诸如穿着不同服装的动物和人类）是具有挑战性的。从图像或视频进行类别重建。最近的一些方法从具有弱2D注释的图像或视频（例如，从人类注释者获得或通过现成模型预测的关键点、对象轮廓和光流）构建对象类别的可变形3D模型[7，12，16，20，21，55，63]。此类方法通常依赖于粗略的形状模板[18，49，65]，并且不能恢复细粒度的细节或大变形。最近，HDNet [10]使用社交媒体视频来学习穿着衣服的人的深度估计。类别无关的视频形状重建。非刚性运动结构（NRSfM）方法[4，8，17，19，41]以类不可知的方式从一组2D点轨迹重建非刚性3D形状。然而，由于难以获得准确的远程对应[40，45]，它们在野外的视频中效果不佳。最近的努力，如LASR和ViSER [59，60]重建铰接形状从单目视频与微分渲染。正如我们的结果所示，它们仍然可能产生模糊的几何形状和不切实际的表达。神经辐射场。NeRF上的先前工作在给定一组图像的情况下优化了用于新颖视图合成的连续场景函数，通常假设场景是刚性的并且相机姿势可以准确地配准到背景[11，23，27为了将NeRF扩展到动态场景，最近的作品引入了额外的函数来将观察点变形到规范空间或随时间变化[22，33，34，38，48，52]。然而，它们严重依赖于背景配准，并且当物体和背景之间的运动较大时失败。此外，变形不能由用户输入明确地控制Similar to our goal, some recent works [24, 32, 36, 37, 44]produce pose- controllable NeRFs, but they rely on ahuman body model, or synchronized multi-view videoinputs.3. 方法我们在一个规范的时不变空间中对可变形物体进行建模，即.休息身体姿势空间，其可以在每个时刻利用前向映射变换到相机空间中的关节式姿势，并且利用后向映射变换回来。我们使用隐式函数来表示对象的3D形状、颜色和密集的语义嵌入。我们的神经3D模型可以通过可微分体绘制在每个时刻变形并渲染成图像，并进行优化以确保渲染图像与观察图像中的多个线索之间的一致性，包括颜色，轮廓，光流和像素特征嵌入。我们请读者参阅图1中的概述。2和补充中的符号列表。3.1. 形状、外观和变形模型我们首先表示的形状和外观的可变形物体在一个规范的时不变的休息姿势空间。典型形状模型。为了在规范空间中对对象的形状和外观进行建模，我们使用了一种受神经辐射场（NeRF）启发的方法[29]。正则空间中的一个三维点X∈R3是相关联的有三个性质：颜色c∈R3，密度σ∈[0，1]，2865Xt向后曲速（第二节）3.2）i向前翘曲。（第二节）3.2）天后座流颜色 c（xt）相机空间Xt时间t通过规范嵌入注册（第3.3节）体绘制（第3.1节）我我∈e∈∈Q−和第i个样本，作为g iv en，由τ=p（1−p）表示。她的eijiΣ−W我我我2DN隐式表示（Sec. 第3.1节）颜色σ（X）密度G（X）canoni cal二维嵌入2D规范空间图2. 方法概述。 BANMo优化了一组形状和变形参数（Sec. 3.1），其基于可微分体绘制框架以像素颜色、轮廓、光流和高阶特征描述符描述视频BANMo使用神经混合皮肤模型（Sec.3.2）在相机空间和规范空间之间变换3D点，从而能够处理大变形。为了跨视频配准像素，BANMo联合优化了隐式规范嵌入（CE）（Sec.3.3）。一个典型的嵌入函数16.这些属性由多层感知器（MLP）网络预测：ct=MLP（Xt，vt，ωt），（1）做出这样的假设;相反，我们采用了一种神经混合皮肤模型，它可以处理大的变形，而无需预定义的骨架模型。ce体绘制。为了渲染图像，我们使用体积ren-σ= Γβ（MLPSDF（X）），（2）= MLP（三）在NeRF [29]中，但扭曲3D射线以考虑变形[33]。具体地，令Xt∈R2是像素I0。在时间t处的阳离子，并且Xt∈R3是采样的第i个3D点与NeRF一样，颜色ct也取决于随时间变化的视图it方向vtR2和可学习的环境代码ωtR64它捕捉环境照明条件[27]。沿着射线从x发出。由于颜色和密度是在规范空间中定义的，因此我们将采样的使用Xi=Wt，←（Xt）指向规范空间。的形状由MLPSDF给出，计算点到表面的符号距离函数（SDF）。骗-颜色我c和不透明度o∈[0，1]则由下式给出N N对于体绘制，将SDF转换为密度σ∈[0，1]，我们使用c（xt）=πτct，o（xt）=πτ，（4）i=1i=1控制物体的坚固性，对于固体物体接近零[53，61]。先前的工作[53，61]分别探索了Logistic和Laplace分布的累积，我们遵循VolSDF [61]使用Laplace分布的累积。与NeRF中使用的Softplus激活的ReLU相比，它提供了一种原则性的方法来提取表面作为SDF的零水平集。最后，MLP嵌入式网络将3D点映射到一个典型的特征嵌入式网络，该网络可以通过来自不同视点和光照条件的像素进行匹配，从而实现跨视频的长距离对应。该特征可以被解释为连续表面嵌入（CSE）[30]的变体，但以体积定义。时空扭曲模型我们考虑一对时间-相关扭曲函数：前向翘曲函数其中，N是样本数量，τi是光子在相机中心之间行进的自由飞行概率I1j=1pi= exp（σi δi）是光子穿过的概率通过第i个样本和下一个样本之间的间隔δi发射。颜色ci和密度σi通过等式计算。一比二我们进一步计算预期的曲面相交：NX（xt）=τiXi。（五）i=1为了渲染2D流，我们通过前向扭曲t′，将扭曲的射线点向前推到另一个时间t′，以找到其预期的2D重新投影：t，→：XXt将规范位置X映射到当前时间的相机空间位置Xt，并且向后具有零均值和β尺度的单峰分布的累积，记为Γβ（x）。β是一个可学习的参数2866W→W→xt′=i=1τiΠt’。Wt′，→（Xi）、（6）翘曲函数t，←：XtX表示逆映射。先前的工作，如Nerfies [33]和神经场景流Fields（NSFF）[22]在已知相机姿势和小物体变形的假设下学习变形。详见第二节。 3.2和第二节 3.4我们没有其中，“t”是针孔相机的投影矩阵。我们优化视频特定的初始化。有了这个，我们计算2D流渲染为：F. xt，t → t′= xt′ − xt.（七）Σ2867SBB.Σ.ΣRB不F·BB方向和方向被转换为五号b|Cb=0BBBBVb和C0是可学习的静息骨构型。3.2. 基于神经混合皮肤的变形模型剥皮重量。与SCANimate类似[39]，我们定义我们定义映射t，并且t，←基于神经网络蒙皮权函数S：（X，ωb）→W∈RB，混合蒙皮模型apWproximatinWg铰接体模型第定义神经变形表示的可逆扭曲是困难的[5]。我们的公式表示为神经加权的刚体变换，其中每一个是可微的和可逆的组合物的3D翘曲。混合蒙皮变形。给定一个3D点Xt，将X分配给给定身体姿势代码ωb的骨骼。在向后映射期间，我们应用于时间t点和姿势代码ωt来计算向后蒙皮权重Wt，←。期间通过前向映射，我们将相同的S应用于规范空间点和静止姿态码ωb，以计算前向蒙皮权重Wt。直接将S表示为神经网络可以是不同的。t，我们希望在正则空间中找到其对应的3D点X。从概念上讲，X*可以被认为是静止姿势中固定相机视点处的点。我们的公式通过混合骨骼的3D坐标的刚性变换来找到Xt和Xt设Gt∈SE（3）是对象根体的变换从正则空间到时间t，且Jt∈SE（3）是一个刚性Cult优化因此，我们将神经蒙皮权重设置在随骨骼坐标移动的显式3D高斯椭圆上与LASR [59]类似，高斯蒙皮权重由X和高斯椭球之间的马氏距离确定：不转变，使bB- 从它的休息孔的第th骨头-Wσ=（X-Cb）Qb（X-Cb），（13）变形为变形状态t，则我们有其中Cb∈RB×3是骨中心，Qb=VT<$0Vb是由骨骼方向组成的精度矩阵Xt=Wt，→（X）=GtJt，→X，（8）Vb∈RB×3×3和对角尺度矩阵Λ0∈RB×3×3.Xt=Wt，<$（Xt）=Jt，<$（Gt）−1Xt，（9）其中Jt，→和Jt，←是B刚性的加权平均值转换{Jt}使骨头移动-计算向后蒙皮权重时，骨骼中心-Jb. V0|其中，Jb是等式中的骨变换。11个国家。 Λ0，B在静止配置和时间t配置之间。福尔-降低线性混合蒙皮变形[9]，为了对精细几何体的蒙皮权重进行建模，我们发现在粗略组件被良好优化之后添加增量蒙皮权重是有帮助的 Delta蒙皮权重是代表-B BJt，→=Wt，→Jt，Jt，<$=Wt，<$（Jt）−1，（10）表示为坐标-MLP，W<$=MLP<$（X，ωb）∈b=1t，→Bbt，←Bbb=1RB. 最后的蒙皮函数是和精细分量，由softmax函数归一化，其中，Wb和Wb表示姿势相关蒙皮将点Xt和Xt指定给第b个骨骼的权重。摆姿势表示。我们用角轴旋转和3D平移表示姿势，从MLP回归：W=S（X，ω b）=σsoftmaxWσ+ W.（十四）高斯分量将蒙皮权重正则化为空间平滑和时间一致，和Gt=MLP（ωt），Jt=MLP（ωt）（11）处理大变形比纯粹隐式更好GrbJb其中ωt和ωt分别是帧t与直接优化SE（3）姿势相比，我们发现这种过参数化表示与随机一阶梯度方法收敛得更好。我们没有将姿势代码视为每帧学习的独立参数，而是将潜在代码的每个维度表示为正弦基函数的线性组合：ωb=AiF（t）（12）其中（）是正弦和余弦的一维基，其频率在对数尺度上线性增加[46]，并且我们学习单独的权重矩阵Ai∈{1. M}的每个视频。帧索引t由最大视频长度b ∈{1，.，B）2868我∈∈我定义的人。此外，我们的公式化的蒙皮权重是依赖于唯一的姿势状态的建设，因此规范化的空间蒙皮权重。3.3. 通过规范嵌入为了配准不同时刻的像素观察结果，BANMo维护规范特征嵌入，该规范特征嵌入对规范空间中的3D点的语义信息进行编码，该语义信息可以由像素特征唯一地匹配，并且通过形状、关节和嵌入的联合优化为配准提供强有力的线索规范嵌入匹配。给定帧t的xt处的一个像素，我们的目标是在规范空间中找到一个点X，其特征嵌入（X）R16与像素特征嵌入t（xt）R16最匹配。（帧t的）像素嵌入矩阵t由CNN计算不同Mi=1 |.|. 使用时间F_∞基稳定了从ViSER [60]从头开始学习嵌入，我们优化并产生更平滑的变形。使用CSE [30，31]初始化像素嵌入，Max2869FLFLL.Σ. ΣWW的¨¨Σ匹配¨¨2三维循环i¨我i¨2eRBBXtMLPX轴损失和3D循环一致性正则化损失：L=.Lsil + Lrgb + LOFxl+。L匹配+L2D-循环+L3D-循环G（X）R16“重建的损失”x`featurere g istsxt1时的图像空间规范空间t2时的图像空间重建损失与现有的差异类似可引用的渲染管道[29，62]。除了颜色损失rgb和轮廓损失sil外，我们还进一步计算了流重构损失通过比较Eq中定义的渲染图7具有观察到的2D光流场，一个现成的流动网络：Lrgb=c（xt）−c（xt）<$2，Lsil=o（xt）−s（xt）<$2，图3. Canonical Embeddings. 我们共同优化隐式函数，以从与2D DensePose CSE嵌入匹配的3D规范点产生规范嵌入[30]。一致的特征，并联合优化像素和规范嵌入。再-XtL=ΣXt-- xt，t→t′−F。xt，t→t′2，（16）称规范3D点的嵌入计算为等式中的MLP（X）=MLP（X）3 .第三章。直观地，MLPΦ被优化以确保输出3D描述符与跨多个视图的对应像素的2D描述符匹配。为了计算对应于2D点xt的3D表面点，我们应用软argmax描述符匹配[13，26]：其中，C和S是观察到的颜色和轮廓。另外，我们定义特征匹配损失以强制经由规范嵌入X_t（xt）（等式2）预测的3D点。第十五章）为了匹配来自后向弯曲的预测（等式10），5）、L=X（xt）−X（xt）2，（17）X∈V其中，V是紧密约束的规范3D网格中的采样点，并且V是3D网格上的特征匹配的归一化分布t（xt）为softmaxS我S以及几何循环一致性损失[18，60]，其迫使在对X_t（xt）进行边界填充之后的图像投影返回其原始2D坐标：L=t。Wt，→（X（xt））−xt <$2。（十八）σα。<$t（xt），<$（X）<$，其中α是一个可学习的二维循环缩放以控制softmax函数的峰值，以及.，. 是余弦相似度。自监督规范嵌入学习。正如后面在Eq中描述的那样。如图17-18所示，通过强制执行特征匹配和几何扭曲之间的一致性，规范嵌入是自监督的。通过经由一致性损失联合优化形状和关节连接参数规范嵌入提供强线索以将来自不同时间实例的像素配准到规范3D空间，并且与NSFF [22]类似，我们通过3D循环一致性损失来正则化变形函数t，→（）和t，←（），这鼓励相机坐标中的采样3D点向后变形到规范空间并向前变形到其原始位置：L=Wt，→.Wt，<$（Xt）<$−Xt<$2，（19）我根据消融研究中验证的多个视频的观察结果，实施相干重建（第4.3）。3.4. 优化给定多个视频，我们优化上述所有参数，包括MLP、{MLP_c，MLP_SDF，MLP_S，MLP_G，MLP_J，MLP_S}、可学习代码{ωt，ωt，ωt，ωt}和像素嵌入损失该模型是通过最小化三种类型的损失：重建损失，几何特征配准其中，τi是对采样点进行加权的不透明度，使得表面附近的点接收更重的正则化。我们的优化是高度非线性的局部极小值。为了提高优化的鲁棒性，我们考虑以下用于根身体姿势的初始化策略。根姿势初始化。我们提供了一个粗略的每帧初始化的根姿态（Gt在方程。8），类似于NeRS [64]。具体来说，我们训练了一个单独的网络PoseNet，该网络应用于每个测试视频帧。类似于 DenseRaC [57] ，PoseNet将DensePose CSE [30]特征图像作为微调的DensePose CNNxt2微调的DensePose CNNxt1xt，（t，t′）Xx t=n（xt）X，（15）Xt2870输入并预测根姿态Gt= PoseNet（t），其中0I2871我∈0--联系我们参考图像我们的（多视频）ViSER（多视频）Ours（单视频）Nerfies（单视频）图4.我们的方法与现有技术的定性比较[33，60]。从上到下：AMA的桑巴，猫，鹰。R112×112×16是密集姿态CSE [30]从RGB图像I t的嵌入输出。我们通过离线生成的合成数据集来训练PoseNet有关培训的详细信息，请参见补充资料给定预先计算的Gt，BANMo仅需要经由MLP计算增量根姿态4.1. 数据集和指标定性：休闲视频数据集。我们展示了BANMo从动物和人类的休闲视频重建3D模型的能力。物体轮廓和光流（用于计算重建损失Eq.（16）Gt=MLP（ωt）Gt.（二十）由现成的模型PointRend和VCN提取-4. 实验Gr0鲁棒性[14，58]。两个特殊的挑战来自视频捕获的随意性。首先，每个视频集合包含大约1k个图像，比先前工作中使用的图像大一个数量级[22，29，33，60]，这需要实作详细数据。我们的隐式形状和外观模型的实现遵循NeRF [29]，除了我们的形状模型输出SDF，SDF被转换为密度以进行体渲染。为了提取休息面，我们找到了零级集的SDF运行行军立方体上2563网格。为了获得每个时刻的关节形状，我们使用向前变形Wt，→。优化细节。我们初始化MLPSDF，它近似于一个单位球面[62]。我们使用B=25的休息骨骼，这是初始化的单位规模，身份取向，和中心均匀分布在初始休息表面。在优化过程中，我们在总迭代的20%和67%处重新初始化其余骨骼，并进一步鼓励它们保持靠近表面，并具有Sinkhorn发散损失[6]。在一个批次中，我们采样NI=512个图像对，并从所有图像对中采样Np=6144个像素用于渲染。图像对之间的间隔是随机选择的一，二，四，八，十六，三十二。为了稳定优化，我们观察到NI需要大致匹配输入帧的数量。重建质量随着迭代次数的增加而提高，我们发现36k迭代（在V100 GPU上15小时请在补充中找到超参数列表。方法来处理更大规模的重建。其次，数据集不控制相机移动或对象移动。具体地，对象在视频中自由移动，并且背景在视频之间变化，从而对标准SfM流水线构成挑战以估计对象根姿态。我们展示了一只英国短毛猫的11个视频（总共900张图像）的结果，下面表示为休闲猫。请在项目网页中找到其他结果。定量分析： AMA 人类数据集。铰接网格动画（AMA）数据集[50]包含由8个同步相机捕获的多视图视频。它提供了高保真地面实况网格与衣服。我们使用2组相同演员的视频（摇摆舞和桑巴舞），总共2600帧，作为优化的输入。我们使用地面实况物体轮廓。不使用时间同步和相机外部函数。定量分析：动画对象数据集。我们从TurboSquid下载免费的动画3D模型，包括鹰模型和人手模型。我们从不同的摄像机轨迹部分重叠的运动渲染他们。每个动画对象渲染为5个视频，每个视频150帧我们为BANMo和基线提供指标. 我们使用倒角显示器对结果进行量化，2872↓↑表1. AMA和动画对象的定量结果。所有帧的3D倒角距离（cm）和F评分（%）平均值。调整鹰和手的3D模型的大小，使得轴对齐对象边界框的最长边为2m。* 与地面真相根构成. S：单视频结果。所有方法都被分配有相同的初始根姿势。25%的总iter。50%的总iter。总ITER的75%。100%的总iter。方法AMA-摇摆鹰手图5. 在优化中符合拓扑变化。BANMo错误地重建了狗的一条后腿，但会使用渐变更新自动更正拓扑。分数和F分数。倒角距离通过寻找最近邻匹配来计算地面实况和估计表面点之间的平均距离，但它对离群值敏感因此，我们进一步报告了在轴对齐对象边界框的最长边缘的距离阈值d= 2%处的F分数[47]。考虑到未知的尺度和全局刚性运动，我们通过迭代最近点（ICP）将估计的形状与地面实况预对齐，直到3D相似性变换。4.2. 重建结果我们在图中显示了定性比较。表4中进行了定量比较。1.一、基线设置。 Nerfies [33]设计用于单个连续捕获的视频，假设对象根身体姿势可以通过背景SfM进行补偿。在我们的设置中，对象移动并且背景SfM不提供对象的根姿势。当聚焦于可变形对象时，SfM（诸如COLMAP）由于违反刚性而未能收敛，导致很少成功配准（在casual-cat上配准的900个图像中有18个）。为了进行公平的比较，我们为Nerfies提供了粗略的初始根姿势（从我们的 PoseNet ， Sec. 第 3.4段）。优化后的网格在256× 3网格上通过移动立方体进行提取.另一个基线ViSER [60]使用光流、剪影和颜色重建损失直接优化对象形状和姿势。它不假设类别级先验，如CSE特征，因此适用于通用对象类别。然而，ViSER的根姿态估计对大变形和大量输入帧（超过20）敏感。由于它产生比我们的PoseNet更差的结果，我们从初始化管道向ViSER提供相同的根姿势。与 Nerfies 比较。 Nerfies 优化了具有光度误差的 SE（3）场，这在大运动时失败，并且无法跨视频配准像素。相比之下，BANMo使用featuremetricconsiderationw.r.t.预训练的CSE特征嵌入。作为以提高重建质量，而BANMo的重建在给定更多视频的情况下得到改善。Tab中的结果1表明对于所有序列，BANMo产生比Nerfies更精确的几何体。与ViSER比较如图4、ViSER生产合理的铰接形状。然而，猫的耳朵、眼睛、鼻子和后肢等详细的几何形状都被模糊了。此外，详细的关节运动，如头部旋转和腿部切换没有恢复。相反，BANMo忠实地恢复了这些高保真的几何和运动。我们观察到，神经隐式体积表示在梯度更新期间符合拓扑变化（见图11）。5），因此能够从坏的局部最优值恢复。相比之下，优化过程中出现的次优拓扑（如倒置面）会阻止ViSER在更多迭代下进行改进。隐式形状表示与有限顶点的网格相似，保持了连续的几何形状，使我们能够在绘制高分辨率网格时恢复详细的形状而不增加额外的成本。4.3. 诊断我们通过使用视频的子集来消除每个组件的重要性为了也消融根部姿态初始化和配准，我们在AMA的桑巴舞和摇摆舞（总共325帧）上进行测试我们在补充中包括了详尽的消融，并在下文中仅强调了BANMo的关键方面根姿势初始化。我们在图6中展示了PoseNet对根姿态初始化的影响（第3.4节）：如果没有它，根姿态（或等效的相机姿态）在优化后会崩溃为登记在图7中，我们显示了使用规范嵌入（第3.3节）和测量的2D流（等式3.3）的好处。16）在视频之间和视频内记录观察结果。如果没有规范嵌入和相应的损失（方程。17-18 ），每个视频将被分别重构在没有流重建损失的情况下，由于配准失败而重建多个变形建模。我们展示了我们的优势-CDF@2%CDF@2%CDF@2%我们9.157.08.156.77.549.6示于图4，虽然单视频Nerfies重建ViSER15.752.223.020.616.821.3合理的三维形状的移动物体给定粗略的初始我们的S9.456.810.848.610.535.2根姿势，它无法重建大关节，如奈尔菲丝S 22.613.218.418.024.414.9猫头的快速运动此外如示于图9、Nerfies无法利用更多视频2873eRb初始相机最终相机初始相机最终相机参考无根姿势初始化（第第3.4节）1视频8视频1视频8视频BANMo（Ours）Nerfies输入视频图6. 根姿势初始化诊断（第第3.4段）。在随机初始化根姿势的情况下，估计的姿势（在右侧）塌陷到退化解决方案，导致重建失败。使用120帧使用400帧BANMo（我们的）使用800帧桑巴侦察回旋侦察侦察1个侦察机。2侦察。3图9. 重建完整性与输入视频和视频帧的数量。BANMo能够注册更多的输入视频，如果他们是可用的，改善重建。参考不带特征配准（第3.3）进一步消除流动损失（方程式14）驱动架重定向姿态渲染重新定位姿势源模型（cat）图7. 配准诊断（第3.3）。如果没有规范嵌入（中）或流损失（右），我们的方法无法将帧配准到规范模型，从而产生重影效果。图10. 从预先优化的猫模型到老虎的运动重新定位。按规范空间中的点位置进行颜色编码。4.4. 适用范围：运动重定向作为一个独特的应用，我们展示了BANMo的能力，通过优化特定于帧的根和身体姿势代码ω t，ω t，将驾驶视频的关节重新定位到我们的3D模型，如图所示。10个。做参考神经混合皮肤MLP-SE（3）MLP翻译rb图像（我们的）（Nerfies）（NSFF，D-NeRF）因此，我们首先在一组训练中优化所有参数，视频来自我们的猫数据集。给一个驾驶图8. 变形建模的诊断（第2节）3.2）。用MLP-SE（3）替换我们的神经混合皮肤会导致不可见区域中不太规则的变形。如NSFF和D-Nerf中那样，用MLP平移替换我们的神经元混合蒙皮会导致由于显著运动而重建重影的机翼在鹰序列上使用我们的神经混合蒙皮模型（第3.2节）如果我们将神经混合皮肤交换为MLP- SE（3）[33]，则重建不太规则。如果我们交换MLP平移[22，38]，我们观察到由于错误的几何配准（由大运动引起）而导致的重影翼。由于高斯分量的正则化，我们的方法可以对大的关节进行建模，并且还可以处理复杂的变形，例如手的紧密接触。能够利用更多视频。我们比较了BANMo和Nerfies利用更多可用视频观测的能力为了证明这一点，我们比较了优化1视频与从AMA桑巴序列8视频.如图9.对于更多的视频，我们的方法可以将它们配准到相同的标准空间，提高重建的完整性并减少形状模糊性。相比之下，Nerfies在给出更多视频观察的情况下不会产生更好的结果。对于老虎的视频，我们冻结猫模型的共享模型参数（包括形状、蒙皮和规范特征），并且仅优化视频特定和帧特定的代码，即，根和身体姿势代码ωt、ωt以及环境照明代码ωt。5. 讨论我们已经提出了BANMo，一种从一组案例视频中重建高保真动画3D模型的方法，而不需要预定义的形状模板或预先注册的相机。BANMo通过2D-3D对应匹配强制执行特征度量匹配，将数千个不同步的视频帧注册到同一规范空间。我们还展示了使用混合神经混合蒙皮模型重建大变形和精细几何形状的好处。局限性。BANMo使用预训练的DensePose-CSE（具有2D关键点注释[31]）来提供粗略的根身体姿势配准。为了构建可变形3D模型重建的通用管道，需要通用的相对根姿态估计器。与其他可区分绘制的工作类似，BANMo需要大量的计算，其随着输入图像的数量线性增加。我们离开加速优化作为未来的工作。重建重建2874引用[1] Sameer Agarwal、Yasutaka Furukawa、Noah Snavely、Ian Si-mon 、 Brian Curless 、 Steven M Seitz 和 RichardSzeliski。一天建成罗马。ACM通讯，2011年。1[2] Marc Badger ， Yufu Wang ， Adarsh Modh ， AmmonPerkes ， Nikos Kolotouros ， Bernd Pfrommer ， MarcSchmidt，and Kostas Daniildom. 3D鸟类重建：从单个视图恢复数据集、模型和形状。在ECCV，2020年。2[3] 本杰明·比格斯，奥利·博因，詹姆斯·查尔斯，安德鲁·菲茨吉，罗伯托·西波拉。是谁把狗放出来的：循环中期望最大化的3D动物重建。在ECCV，2020年。2[4] Christoph Bregler，Aaron Hertzmann，and Henning Bier-mann.从图像流中恢复非刚性三维形状。在CVPR，2000年。2[5] Xu Chen ， Yufeng Zheng ， Michael J Black ， OtmarHilliges，and Andreas Geiger. Snarf：可区分的向前蒙皮，用于为非刚性神经隐式形状设置动画。2021. 二、四[6] JeanF e yd y ， ThibaultSe'journ e' ， Fran c.c. ois-X a v ierVialard，Shun-ichiAmari，AlainTrou v e，andGabrielPe y re'. 最佳运输与最小平均密度间的汇角分歧插值第22届人工智能和统计国际会议，第2681-2690页，2019年。6[7] Shubham Goel，Angjoo Kanazawa，Jitendra Malik.没有关键点的形状和视点。在ECCV，2020年。 2[8] Paulo FU Gotardo和Aleix M Martinez.非刚性结构与互补秩3空间的运动。CVPR，2011。2[9] Alec Jacobson ， Zhigang Deng ， Ladislav Kavan 和 JPLewis。蒙皮：实时形状变形。ACM SIGGRAPH 2014课程，2014年。4[10] Yasamin Jafarian和Hyun Soo Park。通过观看社交媒体舞蹈视频学习穿着人类的高保真在CVPR中，第12753-12762页，2021年6月。2[11] Yoonwoo Jeong 、 Seokjun Ahn 、 Christopher Choy 、Anima Anandkumar、Minsu Cho和Jaesik Park。自校准神经辐射场。ICCV，2021。2[12] 放大图片作者：Angjoo Kanazawa，Shubham Tulsiani，Alexei A.埃弗罗斯和吉坦德拉·马利克从图像集合学习特定类别的网格重建在ECCV，2018。2[13] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习InICCV，2017. 5[14] 亚历山大·基里洛夫，吴宇新，何开明，罗斯·吉尔希克.点趋势：图像分割作为渲染。在CVPR，2020年。6[15] Muhammed Kocabas、Nikos Athanasiou和Michael J.黑色.Vibe ：用于人体姿势和形状估计的视频推理。在CVPR，2020年6月。2[16] 菲利波斯·科基诺斯和亚索纳斯·科基诺斯。直奔主题：对应驱动的单目3d类别检索。在NeurIPS，2021年。2[17] 陈空和西蒙·露西。运动产生的深层非刚性结构在ICCV，2019年。2[18] Nilesh Kulkarni，Abhinav Gupta，David F Fouhey，andShub-ham Tulsiani. 关节感知的规范表面映射。在CVPR，第452-461页，2020年。二、五[19] Suryansh Kumar运动产生的非刚性结构：再论无先验因子分解方法。在WACV，2020年。2[20] Xueting Li，Sifei Liu，Shalini De Mello，Kihwan Kim，Xi- aolong Wang，Ming-Hsuan Yang，and Jan Kautz.在线适应一致的网格重建在野外。在NeurIPS，2020年。2[21] Xueting Li，Sifei Liu，Kihwan Kim，Shalini De Mello，Varun Jampani，Ming-Hsuan Yang，and Jan Kautz.基于语义概念的自监督单视图三维重建。ECCV，2020年。2[22] Zhengqi Li，Simon Niklaus，Noah Snavely，and OliverWang.神经场景流场用于动态场景的时空视图合成在CVPR，2021年。二三五六八[23] 林振轩，马伟秋，安东尼奥·托拉尔巴，西蒙·露西。呕吐：束调节神经辐射场。ICCV，2021。2[24] Lingjie Liu ， Marc Habermann ， Viktor Rudnev ，Kripasindhu Sarkar，Jiatao Gu，and Christian Theobalt.神经参与者：具有姿势控制的人类演员的神经自由视图合成。SIGGRAPH Asia，2021. 2[25] Matthew Loper， Naureen Mahmood ，Javier Romero ，Gerard Pons-Moll，and Michael J.黑色. SMPL：一个有皮肤的多人线性模型. SIGGRAPH Asia，2015. 2[26] Diogo C Luvizon，Hedi Tabia，and David

下载后可阅读完整内容，剩余1页未读，立即下载