虚拟弹性对象：多视角捕捉和可微模拟的虚拟物体构建与渲染方法

164 浏览量更新于2023-10-26 收藏 2.82MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15827虚拟弹性对象Hsiao-yu Chen1，3 <$，Edith Tretschk2，3 <$，Tuur Stuyck3，Petr Kadlecek3，Ladislav Kavan3，Etienne Risga1，Christoph Lassner31德克萨斯大学奥斯汀分校2，马克斯普朗克信息学研究所3Meta现实实验室研究图1. 方法概述。我们使用多视角捕捉系统来记录物体在外力作用下的变形。我们的方法重建一个无网格的几何形状和变形场从这些序列。使用一个可微的模拟器，我们优化的对象的材料参数，以匹配的意见。这些参数使我们能够找到新的，合理的对象配置，以响应新的力场或碰撞约束，由于用户的交互。最后，我们重新渲染变形状态。摘要我们提出了虚拟弹性对象（VEO）：虚拟对象，不仅看起来像他们的现实世界的同行，但也像他们一样，即使受到新的交互。实现这一点提出了多个挑战：不仅必须捕获对象，包括作用在它们上的物理力，然后忠实地重建和渲染，而且还要找到和模拟合理的材料参数为了创建VEO，我们构建了一个多视图捕获系统，该系统在压缩气流的影响下捕获对象。基于无模型动态神经辐射场的最新进展，我们重建了物体和相应的变形场。我们建议使用可微分的，基于粒子的模拟器使用这些变形场，以找到代表性的材料参数，使我们能够运行新的模拟。为了渲染模拟对象，我们设计了一种将模拟结果与神经辐射场相结合的方法。结果方法适用于广泛的场景：它可以处理由非均匀材料组成的具有非常不同形状的对象，并且它可以模拟与其他虚拟对象的交互。我们使用以下方法呈现结果：新收集的12个物体在各种力场下的数据集，将在出版后提供[2]工作是在小雨（部分）和伊迪丝在现实实验室实习时完成的。1. 介绍三维重建是计算机视觉的基本问题之一最近在这方面的一个成就是发现了一个相当一般的表示辐射场的公式[5，29，33，35，39，49，50，53，57，66，68]。神经辐射场对于重建具有高保真几何形状和外观的真实世界物体具有非常广泛的用途。但静态外观只是第一步：它忽略了对象如何移动以及与环境的交互4D重建部分地解决了这个问题，通过在时间维度上进行扩展：通过更复杂的捕获设置和更多的数据，我们可以随着时间的推移重建对象，但只能重新播放捕获的序列。今天，在混合现实时代，如果照片逼真的重建对象不是“物理真实的”，则仍然可能破坏沉浸感，因为该对象无法与之交互。（例如，如果踩在软物体上时，软物体看起来像它旁边的岩石一样坚硬。）通过建立在计算机视觉和物理模拟的进步，我们开始解决物理现实重建的问题，并创建虚拟弹性对象：虚拟对象，不仅看起来像他们的现实世界的对手，但也像他们一样，即使在受到新的相互作用。这是第一次，允许变形弹性物体的全循环重建：从捕获，重建，模拟，交互，重新渲染。15828我们的核心观察是，随着使用神经辐射场的4D重建的最新进展，我们可以随着时间的推移捕获移动对象的辐射场和变形场，并重新渲染给定新变形场的对象剩下的挑战是通过观察物体与环境的相互作用来捕捉物体的物理特性。通过对物体的几何形状、变形和材料行为进行联合编码的正确表示但是，即使有了这样的见解，创建虚拟弹性对象仍然存在许多挑战我们将它们与我们的技术贡献一起列出：1) 捕获. 为了创建VEO，我们需要收集的数据不仅包含视觉信息，还包含物理力信息。我们提出了新的PLUSH数据集1，其中包含在已知受控力场下变形的弹性物体的无遮挡4D记录。为了创建这个数据集，我们构建了一个多相机捕获装备，该装备包括一个带有可移动跟踪喷嘴的空气压缩机。更多详情可在第二节中找到。第3.1条2) 重建VEO不需要关于要重建的对象的几何形状的任何先验知识;因此重建必须是无模板的并且提供完整的4D信息（即，3D重建和随时间的变形信息）。我们用新的损失扩展了非刚性神经辐射场[56]，并导出点云和点对应，以创建使用物理模拟监督学习材料行为所需的数据我们在SEC中提供了更多细节。3.2.3) 仿真对于创建逼真的交互式对象至关重要的是，需要物理模拟，以优化未知对象我们实现了一个可微的准静态模拟器，是基于粒子的，是兼容的变形场数据提供我们的4D重建算法。我们提出了可微模拟器，并解释我们如何使用它来获得物理参数。3.3，并描述模拟的新的相互作用。三点四分。4) 渲染。由于我们从捕获对象的几何形状的神经表示转换我们引入了一个映射函数，使我们能够使用变形点云而不是连续变形场来改变我们用于原始重建的神经辐射场有关重新渲染的更多详细信息，请参见三点五1https://hsiaoyu.github.io/VEO/2. 相关工作我们的工作整合了计算机视觉、计算机图形学和仿真的多个领域。恢复三维模板的弹性参数。许多现有技术通过从深度输入随时间跟踪对象来估计预扫描的3D模板的材料参数。Wang等人[59]是最早解决跟踪、静止姿态估计和来自多视图深度流的材料参数估计的人之一。它们采用无梯度的下坡单纯形法进行参数拟合，只能优化有限的材料参数。如果没有手动指导或零件分解的先验知识，无法忠实地捕获由多种类型的材料构建的对象。Hahn等人[17]从覆盖对象的运动标记最近，Weiss等人。[62]通过用单个深度照相机跟踪给定模板的变形来推断均质线性材料特性与这些方法相比，我们的联合重建不仅不需要深度输入或标记的对象变形和物理，而且不需要模板的几何形状和外观。我们的公式可以模拟非均匀，非线性材料，没有先验知识或注释。三维/四维重建。表示静态场景仍然是一个开放的问题，最近的基于网格的方法[16，60]和神经元方法[7，34，46]。从视频序列重建非刚性对象是一个同样长期存在的计算机视觉和图形问题[58，69]。模板塑形方法使用RGB [67]或RGB-D数据[71]使提供的模板变形。DynamicFusion [38]是一种用于从单个RGB-D视频重建一般场景的无模型实时方法。当从光流中获得可靠的2D对应关系时，可以使用非刚性运动恢复结构（NRSfM）来重建3D几何[1，24]，甚至可能使用基于物理的先验[2]。还有一些基于图像的方法不能产生真正的3D场景[4，65]。最近，使用神经表示的重建变得越来越普遍。尽管OccupancyFlow [40]需要3D监督，但Neural神经网络[30]仅从多视图输入重建动态场景，但不计算时间对应性。请参阅最近关于神经渲染的调查[55]了解更多信息。神经辐射场[35]，米尔登霍尔等人的开创性工作，为后续的几种重建方法奠定了基础，这些方法将其扩展到动态场景[3，9，11，26，27，31，42，43，45，63]。在这项工作中，我们假设多视图RGB视频输入具有已知的相机参数和前景分割掩模，因此扩展了非刚性神经辐射场（NR-NeRF）[56]。数据驱动的物理模拟。最近的许多研究都在探索机器学习增强甚至取代传统物理模拟的潜力学习15829Σ∈∈∈| |关于我们联系我们对于一些简单的物理系统[48]，已经证明了来自没有任何先验的数据的自然定律是可能的，但是计算成本随着系统的复杂性呈指数级增加，并且对于现实世界的问题仍然是难以处理的。为了模拟弹性物体，一个工作线取代了传统的网格运动学与学习变形表示，以提高性能：富尔顿等。[10]使用自动编码器学习弹性变形的非线性子空间，Holden等人。[18]使用神经子空间训练神经网络以预测布料的变形一些方法使用神经网络来增强粗糙的传统模拟与精细细节[14，25]。另一种工作线使用数据来将参数化材料模型拟合到观察到的变形。这一想法已成功应用于肌肉驱动的生物力学系统，如人脸[22，51]，学习零重力下物体的静止姿势[6]，软机器人的设计[19，20]以及摩擦接触的运动规划[8，13]。Yang等[64]通过分析视频中的褶皱图案来学习布料的物理参数。虽然所有这些方法都从数据中学习物理参数，但我们的方法是独一无二的，不需要模板或其他有关对象几何形状的先验知识来重建和重新计算。渲染对象的新变形。无网格模拟。基于无网格物理的模拟是作为传统基于网格的方法的一部分出现的[37]，并且是熔化或断裂等效果的理想选择[37，44]。这些方法后来被扩展到支持定向颗粒和结皮[15，32，36]。基于点的模拟的另一个扩展包括对背景欧拉网格进行建模，这使得能够更有效地模拟类似流体的现象[21，52]。3. 方法3.1. 捕获为了创建物体的物理精确表示，我们首先需要记录在已知物理力下物体变形的视觉数据。为了进行记录，我们使用由19个OpenCV AI-Kit Depth（OAK-D）相机2组成的静态多视图相机设置，每个相机包含一个RGB和两个灰度相机（请注意，VEO不使用立体相机数据来推断经典的成对立体深度）。他们代表了一个负担得起的，但令人惊讶的强大的解决方案体积捕获。特别是，它们的板载H265编码能力有助于处理记录期间产生的数据量有关相机时间同步的详细信息，请参阅补充材料。由于相机缺乏具有变焦功能的镜头系统，我们让它们靠近物体以优化像素覆盖范围，并根据物体大小重新配置系统。最大的-2https://store.opencv.ai/products/oak-dμ m的捕获体积具有大约30cm3的尺寸。我们在它周围放了一张黑色的床单来创造一个黑暗的背景，除了五个舞台灯来创造一个统一的照明环境。相机布局和捕获系统的可视化可以在补充材料中找到。除了图像，我们还需要记录物体表面的力场。这就产生了一个问题：如果使用道具对捕获的对象施加力，则道具变成干扰光度重建的遮挡物。我们在捕获PLUSH数据集时解决了这个问题，方法是使用透明鱼线和压缩空气流驱动对象;参见第二节。4.1更多详情3.2. 4D重建给定在外力作用下物体变形的捕获视频，我们需要4D重建来提供可用于学习物体材料属性的时间相干点云。为此，我们使用NR- NeRF [56]，其将静态重建方法NeRF [35]扩展到时域。NeRF学习了一种体积场景表示：基于坐标的多层感知器（MLP）v（x）=（o，c），它可以回归几何（不透明度o（x）R）和外观（RGB颜色c（x）R3）在3D空间中的每个点x处。在训练时，通过具有已知相机参数的RGB图像的2D监督来优化v的权重：对于输入图像的给定像素，相机参数允许我们通过3D空间跟踪相应的光线r（s）。然后我们在S点r（s）处对NeRF进行采样R3s∈S，并使用体积渲染方程通过加权平均前后累积样本：sSαsc（r（s））（即，α混合与α值αsRs（源自不透明度0ss）。一个重建的损失，鼓励产生的RGB值的颜色是类似的输入像素的RGB值。在静态几何和外观表示v（规范模型）之上，NR-NeRF通过联合学习的射线弯曲MLP明确地对b（x，l，t）=d，其针对时间t处的空间中的每个点回归3D偏移d。（Lt是自动解码的潜在代码，其以时间t处的变形为条件。）当使用NR-NeRF在时间t渲染像素时，针对射线上的每个样本r（s）查询b，以便将其变形为正则模型：（o，c）=v[r（s）+b（r（s），lt）]。与NR-NeRF单目设置，我们有一个多视图捕捉设置。我们从而禁用NR-NeRF的正则化损失并且仅使用其重构损失。Extensions. 我们以多种方式改进NR-NeRF，使其适应我们的设置。输入的视频包含背景，我们不想重建。我们通过图像抠图[28]以及硬亮度阈值获得在训练期间15830∈∈∈--NN我们使用背景损失L背景来阻止沿着背景像素的射线的几何失真。当以后提取点云时，我们还需要对象内部的不透明样本。然而，我们发现L背景导致正则模型更喜欢空的空间，即使在物体内部。我们用密度损失L密度来抵消这种效果，该密度损失L密度在训练过程中，我们首先通过在几帧上预训练规范模型来构建规范表示，然后使用它来重建所有图像。我们的捕获设置不仅提供RGB流，还提供灰度图像。我们也用它来监督。在实践中，我们对每个序列使用这些技术的自定义加权组合，以获得最佳重建。点云提取为了从该重建中提取时间上一致的点云，我们需要前向变形模型，其在时间t从标准模型扭曲到变形状态.然而，NR-NeRF因此，我们联合训练一个基于坐标的MLPw来近似b的倒数。训练后，我们需要将重建从其连续MLP格式转换为显式点云。为了实现这一点，我们从所有输入相机投射光线，并从canoni- cal模型中提取位于表面或表面后面且不透明度超过阈值的点。然后，这些点可以从正则模型变形到时间的变形状态t通过w.更多详情请参见补充材料。因此，我们以3D点云的演变点位置P t t的形式获得4D重建为了保持后续重建步骤的计算成本可行，如果需要，我们将点云降采样到9-15k个点。3.3. 学习材料参数在我们能够模拟与被捕获物体的新的相互作用之前，我们需要推断它的物理行为。鉴于我们对物体没有先验知识，我们对其力学进行了几个简化假设，着眼于最小化物理模型的复杂性，同时保持足够的灵活性，以捕获由多种材料构建的异质物体。首先，我们假设一个空间变化的，各向同性的非线性Neo-Hookean材料模型的对象。新胡克弹性很好地近似了许多真实世界材料的行为，包括橡胶和许多类型的塑料，并且在计算机图形应用中很受欢迎，因为其非线性应力-应变关系保证了对象的任何部分都不会反转为具有负体积，即使对象受到任意大的非线性应力和应变，也是如此。线性变形最后，新胡克弹性允许一个简单的参数化：在点云P的每个点i处的一对拉梅参数（μ i，λ i）R2。其次，我们假设物体变形准静态-随着时间的推移，内部弹性力在每个时间点上准静态假设极大地简化了学习材料参数，并且只要所捕获的视频序列中的惯性力可以忽略不计（或者等效地，只要外力随时间变化足够慢，使得不存在二次运动，这对于我们的PLUSH数据集中的气流和弦致动是正确的），准静态假设就是有效的概况. 我们首先制定了一个可微的，无网格的前向物理模拟器，是专门为直接与（潜在的噪声）重建点云。该前向模拟器从处于其参考姿态的对象的点云P0（其中，对象不受除重力之外的外力的影响）、对每个点的拉梅参数的分配以及对对象表面上的每个点的外力fiR3的分配映射到对象相对于所施加的力平衡之后的点云中的每个点的变形位置yiR3接下来，我们通过最小化损失函数L来学习与对象的观察行为相匹配的Lame '参数，损失准静态模拟对于给定的外载荷和材料参数，为了计算P中各点的平衡位置yi，我们求解变分问题arg minE（y），（1）y其中E是物理系统的总能量，既包含变形的弹性能，也包含外力对系统所做的功在下文中，我们推导出E的表达式，并讨论如何求解方程。1.一、Foll o wingMüller等[37]，我们采用无网格，基于点的弹性离散化进行正向模拟。对于参考点云P0中的每个点xi，我们定义一个邻域i，其中包含P0中xi的6个最近邻居。对于任何给定的一组变形位置yj的点在i，我们估计应变的邻域内的最小二乘意义。更具体地说，局部材料变形梯度Fi∈R3映射从参考到变形状态的邻域NiFi（xi−xj）<$yi−yj <$xj∈Ni.（二）对于大于3的邻域，等式2是超定的，因此我们在最小二乘法中求解Fi15831- -ΣI2我NH∈Σ.⊂ΣNH2C我2我们还需要包括yq−x<$q<$2，（7）k−1∂µnk−1∂µΣ−感，得到封闭形式的解：T T−1材料重建。给定4D点云P t和作用在物体{fi}i上的力，我们用我们的前向Fi=YiWiXi（XiWiXi）、（3）模拟器来学习最能解释观察到的变形的Lame参数更具体地说，在每一次t，其中，Xi和Yi的第j列分别为xixj和yiyj，Wi是取决于从xj到xi的距离的权重的对角矩阵[37]。物体的弹性能量可以从经典的新胡克能量密度计算[41]：定义损失：Lt=yt，i−xt，i2（8）i∈Ni=µi（I−3）−µlogJ+λ（J−1），（4）其中，x∈t，i是点i在Pt中的位置，yt，i是输出。提出了正演模拟。我们用102美元的损失来惩罚outliers强烈。其中Ic是右柯西-格林张量FTFi的迹，J是Fi的行列式。μ i和λ i是分配给点i的Lame ′参数。总弹性模量-我们选择20-50帧的训练子序列T从气流的冲击大致覆盖表面的输入，以便我们对物体的每个部分都有一些参考，并计算所需的 Lame'parame-能量是：ENH=第五节我、（五）通过使用基于梯度的Adam优化器最小化所有t T上的损失之和来计算[23]：其中Vi∈R近似于Ni的体积。外部力场为Eq.一曰：μm，λm=arg minLt.（九）μ，λt∈T通过牛顿方程反向传播并不是微不足道的EW=fi我·y1，（6）求解yt，i，即使我们忽略线搜索并假设固定的牛顿迭代次数K。y的梯度关于Lame ′参数（例如µ），其中，fi是施加在点i上的力（空气的力使用链式法则计算：在边界上）。如果我们测量钓鱼线的张力，我们也可以把它们施加在物体上的力包括在方程中。六、但由于鱼线有效地联系我们µ=克雷蒂克∂µ、（10）相对于我们正在重建的对象不可扩展，我们反而将钓鱼线作为软约束合并到对于任何1≤k≤K，连接到线上的点Q P的位置：我们假设在时间t，Q中的点应该匹配它们的ob。在Pt中的服务位置，并制定吸引力能量：克雷蒂克∂µn=k−1∂µA1k−1+∂µA1 k−1nk−1nk−1∂µEk−1- H-1∂∇Ek−1+ ∂∇Ek−1∂yk−1Σ.（十一）q∈Q其中x<$q是Pt中对应于yq的点的位置，α是一个大的惩罚常数。我们发现，这种软约束公式在实践中比其他方法（如强制yq=x<$q作为硬约束）更有效;有关更多讨论，请参见补充材料。为了避免指数大的表达式树，我们通过忽略Hessian的高阶导数和相对于先前位置更新的能量梯度来近似第k次牛顿迭代k的导数：EA=α15832−Eq中的总能量。因此，1是E=ENH+EW+EA，克雷蒂克nk−1A1Ek−1我们用牛顿法来最小化自新-−k−1ton’s method can fail when the Hessian∂µ ∂µ ∂µk−1µ正定，我们执行H的每邻域本征分解，并将小于阈值λ>0的所有本征值替换为λ;请注意，一种众所周知的提高物理模拟鲁棒性的技术[54]。我们还利用线搜索，以确保稳定性和处理的位置约束，在捕捉对象接触地面的点，见补充材料的进一步实施细节。虽然不能保证高阶项总是可以忽略不计，但这种近似为我们测试的所有示例提供了足够高质量的下降方向。为了提高性能并在E在某些时间t具有多个局部最小值的情况下捕获滞后，我们使用来自时间t 1的解在时间t热启动牛顿优化。详见补充资料。15833→ΣSS----ΣΣSSSS−S--3.4. 新的相互作用给定重建的VEO，我们可以使用用于材料推断的相同物理模拟器来重新模拟经受新相互作用的捕获对象。新的力场可以很容易地通过修改能量EW中的fi来引入。其他可能的交互包括改变重力的方向，添加接触力以允许多个对象相互交互，或者允许使用混合现实工具操纵对象等。我们证明了通过实施简单的惩罚能量来处理VEO和次级对象之间的接触来重新模拟新交互的可行性，隐含地表示为有符号距离场d：R3R。惩罚能量由下式给出：.αcd（y）2如果d（y）0否则，对象平均值（mm）95%（mm）最大值（mm）异形宝宝3.814.429.3鱼1.16.618.5叶0.41.19.8先生密封0.41.9171.9枕头1.57.818.35狗1.77.528.8海绵0.21.815.8恐龙彩虹4.014.6171.4迪诺蓝5.556.0105.8迪诺·格林6.268.4132.0小马21.1164.3204.9蛇形7.543.194.7平均值 *平均2.54.418.032.370.283.5表1. 模拟点云与测试集上重建点云的距离为1.02。我们记录每帧每个点的平均距离、所有帧的平均点距离的第95百分位数以及所有点的最大距离平均值 * 不包括来自Pony和Serpine的数据Ec=Vic（yi），（13）我其中αc选择得足够大，以防止次要物体对VEO的视觉上明显的穿透。3.5. 渲染我们能够以物理上合理的方式与VEO自由交互。因此，我们可以关闭整个循环并使用神经辐射场逼真地呈现模拟的新颖交互的结果。虽然我们在重建过程中使用b表示变形，但现在我们给出了由离散点云引起的新的变形状态：规范参考点云P0=x0s及其变形版本Sd=yds。我们需要从该点云中获得一个连续的后向弯曲场，以取代b，它将直线弯曲到正则模型中。为此，我们使用反距离加权（IDW）在变形空间中的3D采样点pd处内插变形偏移db=x0yd4. 结果4.1. 数据集PLUSH数据集由日常生活中遇到的12种柔软物品组成（见图2）：枕头、海绵和各种毛绒玩具。我们选择了由柔软（在某些情况下，异质）材料，复杂几何形状，丰富的纹理和颜色组成的项目，以实现成功的背景减除，4D重建和跟踪。我们提供了实验材料中所有对象的购买链接我们施加外力的策略是基于这样一种观察，即我们所选择的物体由大块体积（如毛绒玩具的主体）和灵活的四肢（玩具的耳朵和手指）组成。我们通过使用透明的鱼线移动物体的末端，我们使用压缩空气流对体积施加力。必须在视频采集期间跟踪喷嘴位置和流方向，以提供在每个时间点作用在物体上的力的方向和大小。在我们的捕获装置中的19个摄像头中，我们用三个来pc=pd+s∈Nwss′∈Nws′ db，（14）使用附带的ArUco标记[12，47]跟踪喷嘴。利用该系统，我们生成了多段视频序列其中 N 是 Sd 中 pd 的 K=5 个最近邻，且 ws=ws′mins′∈Nws′′，其中ws′ 为pdyd−1。然后我们可以像以前一样在pc处对典范模型进行采样：（o，c）= v（pc）。为了去除o可能显示的虚假几何形状，我们设置o（x）=0，x比S d更远。因此，我们现在可以将直线弯曲成规范模型，并以逼真的方式呈现对象的交互变形状态。当需要时，我们可以从模拟中对点云进行上采样，使其更密集。与渲染不同，我们需要考虑这种情况下的向前扭曲。详情请参阅柔软的材料对于每个捕获对象，其中我们顺序地致动钓鱼线（当适用时），然后将气流扫过对象。有关我们施加和记录外力的方法的详细信息，请参阅补充材料。我们为每个对象记录32秒到67秒的视频，帧率为40 FPS。4.2. 虚拟弹性对象对于12个示例中的每一个，我们使用来自重建的20-50帧创建VEO，并对剩余的500-1500帧进行评估。我们从NR-NeRF采样100k点，并向下采样到10k-（y）=（十二）15834∥Baby Alien（179克，41秒）Dino Rainbow（672g，37s）Dino Blue（148g，55s）Dino Green（76 g，42 s）鱼（282 g，65 s）荷叶（58 g，32 s）蛇（54 g，40 s）Mr. Seal（444g，53s）小枕头（406g，42s）小马（197g，51s）小狗（213g，67s）海绵（21g，46s）婴儿外星人跛脚'µ小马跛脚'µ图2.PLUSH数据集由日常生活中的12件物品组成：一个枕头，一块海绵和几个毛绒玩具。表示我们记录了对象的末端运动，*表示记录具有显著的二阶运动。我们还提供了每个对象的质量和记录持续时间右下角：婴儿外星人和小马的Lame '参数可视化。倾向于紫色的颜色表示较软的区域，倾向于绿色和黄色的颜色表示较硬的区域。我们的方法清楚地识别了对象上的不同材料属性，例如婴儿外星人的手臂和耳朵，以及小马的鬃毛和尾巴。图3. 与Weiss等人的比较[62]两个例子的比较。蓝色网格是地面实况，模拟结果显示为黄色。[62]未能重建马（橙色）;我们的异质模型产生了更可靠的结果。这取决于对象。我们使用VEO的表面点到从捕获数据重建的点云之间的距离来评估重建参数的质量对于所有的例子，除了婴儿外星人，我们使用的外部力场数据获得使用气流。对于Baby Alien，我们专门使用手臂和耳朵运动来证明我们的方法在这种情况下的多功能性我们将结果显示在Tab中。1.一、对于所有物体，误差相对较小，这表明该方法适用于不同几何尺寸的物体，即使对于异构物体，也可以学习相应的材料参数。对于具有薄和高组件的对象，观察到更大的误差（参见表的最后4行）。该误差主要由喷嘴的跟踪不准确性引起：例如，当恐龙的颈部移动而记录的气流方向没有或几乎没有接触物体时，即使轻微的不准确性也会导致大的误差。不均匀材料。我们的方法的一个重要特点是它可以识别不同的材料参数对于对象的不同部分（c.t.图2，右下）。这对于在没有物体先验知识的情况下构建详细的物理模型至关重要。更重要的是，我们的方法可以可靠地学习在BabyAlien的情况下，我们的方法学习到耳朵和手臂比其他身体部位更柔软;小马的鬃毛和尾巴更柔软，尽管这些区域很难跟踪。这两种重构都与其真实对应物的性质相我们将我们的方法与Weiss等人的基于网格的工作进行比较。[62]（需要网格模板）。我们使用他们论文中的泰迪网，并在重力下用非均质材料模拟它。我们提供了200个深度图像和模板[62]，并使用重力下的平衡点云作为我们方法的输入。然后，我们在一种新的重力作用下对两者进行比较，见图3。我们的方法能够更好地估计材料参数，这是由于使用了非均质材料模型，而不是[62]中的均质模型。我们还在同一个设置中使用了马模型。Weiss等人未能重建具有更详细几何结构的部件（[62]的作者已确认行为正确），并且由于严重伪影而无法模拟对象。对新姿势的概括。潜在物理模拟器的优势在于能够推广到训练集中没有遇到的我们在图4中展示了BabyAlien的不同模拟姿势，例如将耳朵拉向相反的方向，以及仅移动一只手臂。这种变形对于纯数据驱动的方法来说特别困难，因为耳朵和手臂在训练数据中仅同步移动。与虚拟对象的交互。对象的物理模型使得能够与各种不同的虚拟物品进行交互。图5示出了学习的弹性对象与其他虚拟物品的单向耦合交互。15835−图4. 在数据集中看不见的姿势中模拟婴儿外星人。使用材料模型和模拟器，我们的方法很好地推广到耳朵和手臂的这些不对称姿势;我们在训练期间只观察到对称的向前和向后运动。图5. 渲染恐龙蓝和狗VEO在交互与次要对象。恐龙的脖子弯得很直，狗的背上也形成了凹痕渲染。我们的流水线以在训练过程中看不到的新交互下重新渲染对象结束。图5包含Dino Blue和Dog对象的渲染，包括与两个虚拟对象的交互。有关其他定性结果，请参阅补充视频。选项卡. 2包含定量结果，其中我们比较了从重建的点云（在学习材料参数时用于监督）和模拟点云获得的渲染。5. 限制表2. 渲染评估。我们报告了经典的错误度量PSNR和SSIM[61]（1到+1），其中两者都越高越好，以及学习的感知度量LPIPS [70]（0是最好的）。我们使用变形的点云来渲染正则模型的变形状态，参见第二节。三点五我们使用这两个，点云Pt，重建（第二节。3.2）直接提供（“重建”）或模拟器在学习材料参数后提供的点云（第3.2节）。3.3， “模拟”）。我们报告两个版本：我们或者将输入图像的分割掩模应用于渲染图像以去除溢出到背景上的所有伪像（“掩模”），或者不应用（“未掩模”）。请注意，重建点云上的值是模拟器可以实现的（软）上限模拟结果与重建结果接近，表明学习的材料参数产生的变形场允许重新渲染对象以及重建。提取的点云以及最终的渲染（图5中可见的伪影）。该物理模拟器对噪声具有非常强的鲁棒性，可以与任何具有时间对应性的点云一起运行已知的力量模拟器要求捕获过程中影响物体的力是已知的。这限制了可以施加的力的种类，因此限制了与所提出的方法兼容的物体的种类。我们期待一个扩展处理未知的力量，一个令人兴奋的方向，为未来的工作。找到良好的部队先验可能是这方面的一个可行方法。6. 结论藏物与简单的静态设置不同，我们需要在视觉重建的基础上建立可靠的长期对应关系，这只有NeRF提供[42，45，56]。它们的区别主要在于它们如何处理各自的单眼问题设置。我们的重建方法可以被看作是一个多视图扩展的任何一个我们的问题集。几个剩余的伪像是从设置中产生的。由于稀疏的相机设置（16个相机用于360度覆盖），我们发现NeRF无法重建视点相关效应，导致镜面反射区域（如眼睛）周围出现伪影此外，空气压缩机导致快速振荡的表面（例如，鱼的鳍），这对重建和材料参数估计提出了挑战，并影响校准。这些问题影响了我们引入了一种新颖的整体问题设置：从RGB输入和已知的物理力估计一般可变形物体的物理参数，并逼真地呈现其对新颖相互作用的物理上合理的响应。我们进一步提出了虚拟弹性物体作为解决方案，并证明了它们能够合成与观察到的变形有很大不同的变形状态。我们的方法利用物理模拟器，该物理模拟器能够从捕获的对象的4D重建来估计合理的物理参数。最后，我们表明，这些变形的状态可以重新呈现高品质。我们希望所呈现的结果和所附的数据集将启发并使未来的工作重建和重新渲染交互式对象。对象Simul未掩蔽PSNRSSIM LPIPSated掩蔽PSNRSSIM LPIPS重新建立未掩蔽PSNRSSIM LPIPS有皱纹的掩蔽PSNRSSIM LPIPS异形宝宝鱼18.4019.75 0.7340.692 0.2550.239 21.1722.55 0.8400.808 0.1740.173 18.7520.03 0.7470.701 0.2490.235 21.9222.96 0.8530.818 0.1670.169叶先生密封25.1420.61 0.9010.697 0.0910.240 27.3224.03 0.9350.801 0.0650.180 25.1920.65 0.9010.698 0.0910.239 27.3724.11 0.9350.802 0.0650.180枕头狗21.4518.98 0.7430.751 0.2230.206 23.1824.68 0.8060.904 0.1740.104 21.9219.05 0.7600.757 0.2180.203 23.8425.24 0.8230.912 0.1690.100海绵恐龙彩虹21.9418.64 0.8460.754 0.1300.302 26.9923.87 0.9250.839 0.0700.232 21.9220.22 0.8460.778 0.1300.281 27.0126.21 0.9250.859 0.0700.213迪诺蓝迪诺·格林18.4818.94 0.7020.779 0.2440.190 20.7021.49 0.8480.863 0.1600.135 19.5620.46 0.7260.794 0.2270.180 22.0623.59 0.8710.879 0.1430.121小马蛇形16.5418.22 0.7580.798 0.2450.181 19.2021.39 0.8590.903 0.1630.111 19.3119.95 0.7980.813 0.2000.162 24.6523.14 0.9060.916 0.1080.091平均值 *平均20.2319.760.7600.7630.2120.21223.6023.050.8570.8610.1450.14720.7820.580.7710.7770.2050.20124.4324.340.8680.8750.1400.13315836引用[1] Antonio Agudo，J. M. M. Montiel，Lourdes de Agapito，and B e go numberaCal v o. 在线密集非刚性三维形状和相机运动恢复。InBMVC，2014. 2[2] 安东尼奥 · 阿古多、弗朗切斯科 · 莫雷诺 · 诺格、贝戈·恩·卡尔和何塞·马尔·马蒂·蒙蒂尔。使用物理先验的运动的顺序非刚性结构。IEEE trans-actions on patternanalysis and machine intelligence，38（5）：979-994，2015。2[3] 本杰明·阿塔尔，艾略特·莱德劳，亚伦·戈卡斯兰，昌吉尔·金，克里斯蒂安·理查德，詹姆斯·汤普金和马修·奥图尔。Tor？ rf：动态场景视图合成的飞行时间辐射场在神经信息处理系统（NeurIPS），2021年。2[4] Mojtaba Bemana ， Karol Myszkowski ， Hans-PeterSeidel，and Tobias Ritschel. X场：隐式神经视图，光和时间图像插值。ACM Transactions on Graph- ics（Proc.SIGGRAPH Asia 2020），39（6），2020。2[5] SaiBi ， ZexiangXu ， PratulSrinivasan ， BenMildenhall，Kalyan Sunkavalli，Milosˇ Hasˇan，YannickHold-Geoffroy，David Kriegman，and Ravi Ramamoorthi.用于外观采集的神经反射场。arXiv预印本arXiv：2008.03824，2020。1[6] 陈翔，郑昌喜，徐薇薇，周坤。弹性形状反设计的渐近数值方法。ACM Transactions on Graphics，33（4），2014. 3[7] 陈志勤和张浩。学习生成式形状建模的隐式字段。在计算机视觉和模式识别，第5939-5948页，2019年。2[8] Tao Du ， Kui Wu ， Pingchuan Ma ， Wahtien Wah ，AndrewSpielberg ， DanielaRus ， andWojciechMatusik.Diffpd：具有接触的可区分投射动力学。arXiv预印本arXiv：2101.05917，2021。3[9] 杜一伦，张一男，于红星，Joshua B. Tenen-baum和Jiajun Wu。用于4d视图合成和视频处理的神经辐射流。IEEE/CVF计算机视觉国际会议论文集，2021。2[10] 放大图片创作者：Lawson Fulton，Vismay Modi，DavidDuvenaud，David I.W. Levin和Alec Jacobson。简化变形模拟的潜空间动力学。计算机图形论坛，2019年。3[11] Chen Gao ，Ayush Saraf ，Johannes Kopf，and Jia-BinHuang.从动态单目视频合成动态视图。arXiv预印本arXiv：2105.06468，2021。2[12] S. 加里多 - 茹拉多河 Mun Nederoz-Salinas ， F.J.Madrid-Cuev as，和R.梅迪纳-卡尼斯特使用混合线性规划生成基准标记字典。模式识别，51：481-491，2016年3月。6[13] Moritz Geilinger，David Hahn，Jonas Zehnder，MoritzB？ che r，BernhardBesasz e wski，andStelianCoros. 增加：摩擦接触多体系统的解析可微动力学 ACMTransactions on Graphics（TOG），39（6），2020。3[14] Zhenglin Geng，Daniel Johnson，and Ronald Fedkiw.强迫机器学习输出物理上准确的结果。Journal of Computational Physics，406：109099，Apr2020. 3[15] Benjamin Gilles，Guillaume Bousquet，Francois Faure，and Dinesh K Pai. 基于框架的弹性模型。 ACMtransactions on graphics（TOG），30（2）：1-12，2011年。3[16] Thibault Groueix，Matthew Fisher，Vladimir G Kim，BryanCRussell，andMathieuAubry. 一个学习3D表面生成的

下载后可阅读完整内容，剩余1页未读，立即下载