模拟中的风中布料的物理测量方法.

34 浏览量更新于2023-10-24 收藏 14.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

104980风中的布料：0通过模拟进行物理测量的案例研究0Tom F. H. Runia Kirill Gavrilyuk Cees G. M. Snoek Arnold W. M. SmeuldersQUVA深度视觉实验室，阿姆斯特丹大学0{runia,kgavrilyuk,cgmsnoek,a.w.m.smeulders}@uva.nl0摘要0对于我们周围的许多物理现象，我们已经开发了解释其行为的复杂模型。然而，通过视觉观察测量物理属性是具有挑战性的，因为存在大量的因果基础物理参数，包括材料属性和外部力。在本文中，我们提出了一种在没有看到真实示例之前测量风中布料的潜在物理属性的方法。我们的解决方案是一个以模拟为核心的迭代细化过程。该算法通过运行观察到的现象的模拟并将当前模拟与真实世界观察进行比较逐渐更新物理模型参数。对应关系使用嵌入函数进行测量，该函数将物理上相似的示例映射到附近的点。我们以风中的布料为案例研究，以卷曲的旗帜作为我们的主要示例，这是一个看似简单但在物理上非常复杂的现象。基于布料的物理特性和其视觉表现，我们提出了嵌入函数的实例化。对于这个映射，我们引入了一个谱层，将视频体积分解为其时间谱功率和相应的频率。我们的实验表明，所提出的方法在从真实世界视频中测量布料材料属性和外部风力的任务上与先前的工作相比具有优势。01. 引言0有大量的证据[17,10]表明人类运行心理模型来预测物理现象。我们预测物体在空中的轨迹，估计液体的粘度，并估计物体沿斜坡滑下的速度。类似地，模拟模型通常通过进行试验运行并选择最佳参数来优化其参数。多年来，通过模拟和渲染[46, 28, 7,36]，世界的物理模型变得如此视觉上吸引人，以至于值得考虑它们用于物理场景理解。这减轻了对姿态、照明、纹理和场景动态的细致注释的需求，因为模型可以免费提供它们。0真实世界观测0模拟0模拟-模拟物理相似性0D ij0D ij0模拟-真实物理相似性0s ϕ0x 模拟 x 模拟 x 模拟 x 真实0s ϕ s ϕ s ϕ0测量0模拟0图1.我们提出了一种在没有看到现象的情况下测量真实世界物理布料参数的方法。通过仅使用布料模拟，我们学习了一种编码内在和外在物理属性的距离度量。在学习之后，我们使用嵌入函数通过与其模拟对应物进行比较来测量真实世界视频的物理参数。0在本文中，我们将风中的旗帜和布料作为案例研究。测量和视觉模型对于虚拟试衣[55]、能量收集和生物系统[37,19]非常重要。布料的内在材料属性以及外部风力共同决定了其动力学。由于空气和布料之间相互作用的复杂性，解开织物的动力学是具有挑战性的：旗帜对周围空气施加惯性和弹性力，而空气通过压力和粘度作用于织物[19]。由于我们旨在测量布料的内在材料属性和外部风力，我们的物理模型将非线性布料模型[46]与外部风力[48]耦合起来。这个任务是具有挑战性的，因为布料的物理模型往往具有大量未知参数，并且具有内在和外部力的复杂耦合。我们的解决方案是比较真实和模拟观察对，并测量它们的物理相似性。在使用模拟和渲染进行学习时存在一个根本性的问题：“视觉上吸引人”并不一定意味着结果是真实的，主要问题是如何评估因果基础物理参数的相似性而不是视觉对应关系。可能情况是图像看起来很真实，但在现实中从未出现过。104990悬挂的布料旗帜0图2。我们考虑风中的两种布料情况。上排：我们录制的真实旗帜视频的随机静止图像。下排：Bouman等人的悬挂布料数据集[6]的示例。0我们测量的核心是一个具有待确定参数θ的布料模拟引擎。模拟的结果（例如3D网格、点云、流向量）使用渲染引擎转换到图像空间。然后，我们将模拟的视觉数据与特定现象的真实观察结果进行比较（图1）。因此，我们提出从仅模拟中学习物理相似度度量，而无需观察真实世界的示例。在学习的嵌入空间中，具有相似物理参数的观察结果会靠近，而不相似的示例对会更远。在物理相似度的指导下，每一步都会对模拟的参数进行改进。结果，我们获得了对物理参数进行改进测量的完整计算解决方案。我们的贡献如下：（1）我们提出从仅模拟中训练一个基于感知的物理布料测量设备，而无需观察真实世界中的现象。我们的测量设备被构建为两个视觉观察结果之间的比较，采用对比损失进行训练的孪生网络。（2）在布料的案例研究中，我们提出了一个特定的物理嵌入函数实例化。它的核心是一个新的频谱分解层，用于测量布料表面上的频谱功率。我们的解决方案在从视觉观察中恢复固有和外部物理特性的现有工作方面表现出色。（3）为了评估我们的方法，我们记录了使用风速计测量的真实世界飘带的实际视频。（4）最后，我们通过从单个真实世界观察中迭代地改进物理模拟，以最大程度地增加真实世界与其模拟之间的物理相似度。02. 相关工作0以前的工作通过感知现实世界的物体或现象来测量物理特性，包括材料特性[11]、布料的刚度和弯曲参数[6,54]、机械特性[51, 26, 27, 23]、流体特性[50, 40,35]和表面特性[25]。现有文献的主要关注点是从视觉输入中估计固有材料特性。然而，物理现象通常是通过物体之间的相互作用来描述的。0固有和外部特性。因此，我们考虑从单个真实世界视频中通过迭代改进物理模拟来共同估计固有材料特性和外部力的更复杂的情况。我们的案例研究集中在布料和旗帜的物理学上，它们都属于更广泛的受风激励物体的类别。风的视觉表现在计算机视觉中受到了适度的关注，例如树枝的振荡[53,41]、水面[40]和悬挂的布料[6, 54, 47,9]。我们的主要示例是在风中卷曲的旗帜，一开始可能看起来很简单，但它的运动非常复杂。它的动力学是流体-物体相互作用领域的一个重要且广泛研究的主题。受到这项工作和现有的视觉布料表示（如皱纹、褶皱和轮廓）[4, 14, 49,55]的启发，我们提出了一种新的频谱分解层，用于编码布料表面上的频率分布。以前的工作已经考虑了从图像或视频中测量固有布料参数[4, 6,54]或外部力[9]的任务。值得注意的是，Bouman等人[6]使用复杂的可操纵金字塔来描述视频中的悬挂布料，而Yang等人[54]和Cardona等人[9]则提出了一种结合卷积网络和循环网络的基于学习的方法。在我们的实验中，我们将在旗帜上将我们的布料基于频率的表示与Cardona等人[9]进行比较，而Yang等人[54]则是Bouman等人[6]的悬挂布料数据集的参考。我们通过迭代改进模拟的方法来测量物理参数与MonteCarlo参数优化[51]和从静态图像中粒子群改进服装参数[55]的方法相似。特别是[55]的工作与我们的工作相似，因为他们从图像中推断出服装属性，用于虚拟试穿的目的。然而，我们的工作在一个重要的方面与他们的工作不同：我们从视频中估计固有和外部物理参数，而他们的工作侧重于从静态平衡图像中估计固有布料特性。最近，Liang等人[24]提出了一种可微分的布料模拟器，可能可以作为我们方法的替代方案用于布料参数估计。03. 方法0我们考虑这样一种情况：我们观察到某种现象，并且我们有一个解释其表现的物理模型。基于对现实的感知，我们的目标是通过对实现手头的计算机仿真进行迭代改进，测量物理模型θ∈RDp的未知连续参数，其中包括内在参数θi和外在参数θe。具体而言，我们以短视频剪辑xtarget∈RC×Nt×H×W的形式进行观察，其中C表示图像通道数，Nt表示H×W帧数。在每次迭代中，模拟器根据真实和模拟实例之间的成对距离（1）进行引导，改进物理模型以最大化物理相似性。该过程在测量到足够准确的物理模型参数或评估预算用完时结束。输出包括测量的物理参数θ�和相应的模拟x�sim。所提出方法的概述如图3所示。105000ζ03D网格视频剪辑xsim0视频剪辑xtarget0仿真引擎0仿真参数0(θi, θe)0(θi, θe)0Dij0sϕ0渲染引擎0参数优化器0sϕ0物理相似性0图3.我们提出了基于感知的物理场景属性测量方法。给定一个真实世界物理现象的观察，这里表示为视频剪辑xtarget，我们的算法测量物理场景的基本参数。核心是一个实现物理模型的仿真引擎，由内在材料属性θi和外部力的表征θe参数化。一个渲染引擎，具有渲染参数ζ，将模拟器的输出映射到图像空间，生成视频剪辑xsim。使用嵌入函数sφ(x)，将真实和模拟示例都映射到一个流形上，物理上相似的示例被分配到附近的点上。为了测量两个剪辑之间的相似性，我们在嵌入空间中评估距离度量Dij(∙,∙)。其结果作为优化模块的目标，该模块将物理参数θ向实际观察进行改进。0在每次迭代中，模拟器使用当前模型参数θ运行，产生一些中间表示（例如3D网格、点云或流向量），然后使用参数ζ的渲染引擎生成一个模拟的视频剪辑xsim∈RC×Nt×H×W。我们的观点是，可以使用成对距离在某个嵌入空间中测量真实世界观测和模拟之间的物理相似性：0Di,j = D � sφ(xi), sφ(xj) �: RDe × RDe → R(1)0其中sφ(x): RC×Nt×H×W →RDe是由φ参数化的嵌入函数，将数据流形RC×Nt×H×W映射到RDe0到某个嵌入流形RDe上，物理上相似的示例应该接近。在每次迭代中，通过真实和模拟实例之间的成对距离(1)的引导，物理模型被改进以最大化物理相似性。当物理模型参数被足够准确地测量出来或评估预算用完时，该过程结束。输出包括测量的物理参数θ�和相应的模拟x�sim。所提出方法的概述如图3所示。03.1. 物理相似性0为了使测量成功，关键是要测量仿真xsim和真实世界观察xtarget之间的相似性。相似性函数必须反映出两个实例之间的物理动力学对应关系。前提是物理模型必须在与观测尺度相一致的尺度上描述现象的行为。例如，与量子力学对摆的理解相比，它将不那么有意义。0在经典力学中，当使用普通摄像机捕捉其外观时，我们对其进行了公式化。给定物理模型及其作为仿真引擎的实现，我们从某个预定义的搜索空间中随机抽样其参数θ，生成一组仿真数据集。对于这些物理现象的模拟表示中的每一个，我们使用3D渲染引擎生成多个视频剪辑xisim，具有不同的渲染参数ζi。因此，我们获得了一个数据集，其中每个仿真实例都有多个渲染。给定这个数据集，我们提出以下训练策略来学习量化观测之间的物理相似性的距离度量。我们采用对比损失[15]，将正样本对定义为来自同一仿真的渲染视频剪辑（即共享物理参数），而负样本对具有不同的物理参数。通过Siamese方式将示例对的两个渲染视频剪辑映射到嵌入空间中的sφ(x)。在嵌入空间中，将使用平方欧氏距离来评估物理相似性：Di,j = D � sφ(xi), sφ(xj) � =∥sφ(xi)−sφ(xj)∥22。如果在一组渲染视频剪辑上进行优化，对比损失将确保将物理上相似的示例拉在一起，而物理上不相似的点将被推开。因此，通过仅在仿真上进行训练，我们可以学习如何衡量仿真与真实世界对之间的相似性。03.2. 模拟参数优化0通过逐步改进模拟，我们将得到一个测量结果(图3)。为了优化物理参数，我们将其与超参数优化问题进行类比[39,3]。根据这种对应关系，我们的模型参数集合类似于训练深度神经网络时涉及的超参数(例如学习率、权重衰减、dropout)。形式上，我们寻找物理参数的全局最优解：where the target example is ﬁxed and the simulated exampledepends on the current set of physical parameters θ. Adjust-ing the parameters θ at each iteration is challenging as it ishard to make parametric assumptions on (2) as function of θand accessing the gradient is costly due to the simulations’computational complexity. Our goal is, therefore, to estimatethe global minimum with as few evaluations as possible.Considering this, we adopt Bayesian optimization [39] forupdating parameters θ. Its philosophy is to leverage all avail-able information from previous observations of (2) and notonly use local gradient information. We treat the optimiza-tion as-is and use a modiﬁed implementation of Spearmint[39] with the Matérn52 kernel and improved initializationof the acquisition function [29]. Note that the embeddingfunction sφ(x) is ﬁxed throughout this optimization.AAAB83icbVDLSsNAFL2pr1pfVZduBovgqiRafOyKgrisYB/QhDKZTtqhk0mYmQgl9DfcuFDErT/jzr9xkgZR64GBwzn3cs8cP+ZMadv+tEpLyyura+X1ysbm1vZOdXevo6JEEtomEY9kz8eKciZoWzPNaS+WFIc+p11/cp353QcqFYvEvZ7G1AvxSLCAEayN5Loh1mM/SG9mg9GgWrPrdg60SJyC1KBAa1D9cIcRSUIqNOFYqb5jx9pLsdSMcDqruImiMSYTPKJ9QwUOqfLSPPMMHRlliIJImic0ytWfGykOlZqGvpnMMqq/Xib+5/UTHVx4KRNxoqkg80NBwpGOUFYAGjJJieZTQzCRzGRFZIwlJtrUVMlLuMxw9v3lRdI5qTun9cZdo9a8KuoowwEcwjE4cA5NuIUWtIFADI/wDC9WYj1Zr9bbfLRkFTv78AvW+xdI9JH8FwAAAB83icbVDLSsNAFL2pr1pfVZduBovgqiRafOyKgrisYB/QhDKZTtqhk0mYmSgl9DfcuFDErT/jzr9xkgbxdWDgcM693DPHjzlT2rY/rNLC4tLySnm1sra+sblV3d7pqCiRhLZJxCPZ87GinAna1kxz2oslxaHPadefXGZ+945KxSJxq6cx9UI8EixgBGsjuW6I9dgP0qvZ4H5Qrdl1Owf6S5yC1KBAa1B9d4cRSUIqNOFYqb5jx9pLsdSMcDqruImiMSYTPKJ9QwUOqfLSPPMMHRhliIJImic0ytXvGykOlZqGvpnMMqrfXib+5/UTHZx5KRNxoqkg80NBwpGOUFYAGjJJieZTQzCRzGRFZIwlJtrUVMlLOM9w8vXlv6RzVHeO642bRq15UdRRhj3Yh0Nw4BSacA0taAOBGB7gCZ6txHq0XqzX+WjJKnZ24Qest09hNJIMAAAB83icbVDLSsNAFL2pr1pfVZduBovgqiRafOyKgrisYB/QhDKZTtqhk0mYmQgl9DfcuFDErT/jzr9xkgZR64GBwzn3cs8cP+ZMadv+tEpLyyura+X1ysbm1vZOdXevo6JEEtomEY9kz8eKciZoWzPNaS+WFIc+p11/cp353QcqFYvEvZ7G1AvxSLCAEayN5Loh1mM/SG9mg9GgWrPrdg60SJyC1KBAa1D9cIcRSUIqNOFYqb5jx9pLsdSMcDqruImiMSYTPKJ9QwUOqfLSPPMMHRlliIJImic0ytWfGykOlZqGvpnMMqq/Xib+5/UTHVx4KRNxoqkg80NBwpGOUFYAGjJJieZTQzCRzGRFZIwlJtrUVMlLuMxw9v3lRdI5qTun9cZdo9a8KuoowwEcwjE4cA5NuIUWtIFADI/wDC9WYj1Zr9bbfLRkFTv78AvW+xdI9JH8AAAB83icbVDLSsNAFL2pr1pfVZduBovgqiRafOyKgrisYB/QhDKZTtqhk0mYmSgl9DfcuFDErT/jzr9xkgbxdWDgcM693DPHjzlT2rY/rNLC4tLySnm1sra+sblV3d7pqCiRhLZJxCPZ87GinAna1kxz2oslxaHPadefXGZ+945KxSJxq6cx9UI8EixgBGsjuW6I9dgP0qvZ4H5Qrdl1Owf6S5yC1KBAa1B9d4cRSUIqNOFYqb5jx9pLsdSMcDqruImiMSYTPKJ9QwUOqfLSPPMMHRhliIJImic0ytXvGykOlZqGvpnMMqrfXib+5/UTHZx5KRNxoqkg80NBwpGOUFYAGjJJieZTQzCRzGRFZIwlJtrUVMlLOM9w8vXlv6RzVHeO642bRq15UdRRhj3Yh0Nw4BSacA0taAOBGB7gCZ6txHq0XqzX+WjJKnZ24Qest09hNJIM105010其中目标示例是固定的，模拟示例取决于当前的物理参数θ。在每次迭代中调整参数θ是具有挑战性的，因为很难对(2)关于θ的函数进行参数假设，并且由于模拟的计算复杂性，访问梯度的成本很高。因此，我们的目标是尽可能少地进行评估来估计全局最小值。考虑到这一点，我们采用贝叶斯优化[39]来更新参数θ。其理念是利用对(2)的先前观测到的所有可用信息，而不仅仅使用局部梯度信息。我们将优化视为现状，并使用改进的Spearmint[39]实现，采用Matérn52核和改进的采集函数初始化方法[29]。注意，嵌入函数s φ(x)在整个优化过程中是固定的。0θ � = arg min θ D � s φ (x target)，s φ (x sim(θ))�，(2)04. 布料的物理、模拟和外观0到目前为止，我们已经以一般的术语讨论了所提出的方法，并没有对物理现象做出任何假设。在本文中，我们将考虑两种暴露在风中的布料情况：卷曲的旗帜和悬挂的布料(图4)。为了继续进行，我们需要限制参数θ并设计一个适当的嵌入函数s φ (x)。04.1. 物理模型0计算机图形学界已经吸收了对布料及其与外部力的相互作用的物理理解。最成功的方法将布料视为质点弹簧模型：一个由点质量组成的密集网格，以平面结构组织，通过不同类型的弹簧相互连接，其属性决定了布料的行为[1, 33, 46, 2,28]。我们采用Wang等人[46]的非线性和各向异性质点弹簧模型。该模型使用分段线性的弯曲和拉伸公式。拉伸模型是连续介质的胡克定律的推广[38]。由于我们的实验重点是风中的旗帜，对于这种情况下的拉伸特性影响较小，我们的实验将侧重于风中的旗帜，通常由耐候性较强的材料如涤纶和尼龙制成。因此，材料的拉伸特性影响较小，我们将重点放在布料的弯曲模型[46]和外部力[48]上。0弯曲模型(θi)。弯曲模型基于线性弯曲力方程，最早在[7]中提出。该模型0结0抵抗拉伸0弯0抵抗弯曲0布料0质点弹簧模型0x z0y0F g0F g0F w0(b)悬挂的布料0(a)旗帜0图4.左图：我们考虑了两种在风中暴露的布料情况：(a)风中卷曲的旗帜；(b)从杆子上悬挂的布料。在这两种情况下，布料被视为一个质点弹簧模型，其中密集的质点网格通过多个弹簧相互连接。右图：弯曲和拉伸弹簧决定了材料的行为。弯曲弹簧作用于共享的边缘，而结构弹簧连接到直接相邻的质点。0公式化了共享边缘的三角网格上的弹性弯曲力Fe（图4）。对于由二面角ϕ分隔的两个三角形，弯曲力为：0F e = k e sin(ϕ/2)(N1 + N2)-1|E|u, (3)0其中k e是与材料相关的弯曲刚度，N1，N2是两个三角形的加权表面法线，E表示边缘向量，u是弯曲模式（参见[7]中的图1）。弯曲刚度k e 与二面角ϕ非线性相关。这是通过将k e视为重新参数化α = sin(ϕ/2)(N1 +N2)-1的分段线性函数来实现的。在这个重新参数化之后，对于某种织物，对参数空间进行采样，得到N b个角度，总共有3N b个参数跨越三个方向。Wang等人[46]经验性地发现，对于大多数织物，5个测量就足够了，产生15个弯曲参数。0外部力(θe)。对于布料的动力学，我们考虑两个作用在其平面表面上的外部力。首先，地球的重力加速度(F g = m ag)自然地将织物向下推。总质量由布料的面积重量ρA乘以表面积定义。更有趣的是，我们考虑将织物暴露在一个恒定的风场中。同样，将布料建模为一组质点的网格，每个质点上的阻力力由Stokes方程F d = 6πRηvw来规定，其中R是表面积，η是空气的动力粘度，vw是风速[48,28]。这显然是对现实的简化。我们的模型忽略了与雷诺数相关的项（如布料的阻力系数），这些项也会影响真实布料的动力学。然而，这个模型似乎足够准确地涵盖了布料动力学的范围。105020表1. θ = (θ i, θ e)优化的预定义参数范围，给出了风中卷曲的旗帜的物理模型。弯曲参数k e 对应于[46]中的“Camel Ponte Roma”基础材料。0参数 Params 搜索空间0θ i 弯曲刚度15 k e ∈ [10-1k e, 10k e] θ i 织物面积重量1 ρ A ∈ [0.10, 0.17]kg/m20θ e 风速 1 v w ∈ [0, 10] m/s04.2. 仿真引擎0我们使用了非可微的ArcSim仿真引擎[28]，该引擎高效地实现了第4.1节中描述的复杂物理模型。在物理模型的基础上，模拟器还采用各向异性网格重构来提高密集皱褶区域的细节，同时粗化平坦区域。作为输入，模拟器需要布料的初始网格、其材料属性和外部力的配置。在每个时间步骤中，引擎使用稀疏的基于Cholesky的求解器来求解隐式时间积分的系统。这样就可以根据场景的物理属性产生一系列基于物理属性的3D布料网格。由于我们的目标是在图像空间中学习模拟和真实观察之间的物理距离度量，因此我们将一系列网格通过3D渲染引擎[5]进行渲染。给定渲染参数ζ，包括相机位置、场景几何、光照条件和布料的视觉纹理，渲染器会产生一个模拟的视频剪辑(x sim)，我们可以直接将其与真实观察(xtarget)进行比较。我们强调，我们的重点既不是从观察中推断渲染参数ζ，也不是为我们的渲染获得视觉逼真度。0参数搜索空间(θ i, θe)。ArcSim仿真器[28]以公制单位操作，便于与真实世界的动力学进行方便比较。作为我们旗帜实验的基础材料，我们使用了[46]中的“Camel PonteRoma”。这种材料由60%的聚酯纤维和40%的尼龙制成，与广泛使用的旗帜织物非常相似[46]。该材料的弯曲系数、拉伸系数和面积重量由作者在机械装置中进行了准确测量。我们采用并固定了他们的拉伸参数，并使用弯曲刚度和面积重量作为我们布料材料的初始化。具体而言，使用它们的参数，我们限制了一个用于参数细化的搜索空间。我们确定ρA�Uniform(0.10, 0.17)kg/m2，经过查阅各种在线零售商的旗帜材料。并且，我们通过将基础材料的k e在(3)中乘以10-1和10来限制弯曲刚度系数的范围，以获得最柔软和最硬的材料。由于弯曲系数对布料的外观有复杂的影响，我们独立优化15个弯曲系数，而不仅仅调整一维乘数。完整的参数搜索空间列在表1中。04.3.谱分解网络0变化的主要来源是布料波浪的几何形状，而不是其纹理。因此，我们寻求一种能够编码布料动态特征的感知模型，例如高频流向波，织物中的节点数，尾部的剧烈摆动，角落的滚动运动和轮廓[37，42，13]。由于我们的目标是测量相似性，关键是我们的嵌入函数能够解开并提取域适应的相关信号，因此，我们提出建模布料表面上的时空谱功率分布。结合方向感知，这有效地描述了从视觉观察中的行波和摆动行为。0谱分解层。提出的解决方案是一种新颖的谱分解层，从视频中提取时间频率。具体而言，类似于[34]，我们将输入视频体积视为每个空间位置的信号集合（即H×W信号），并使用离散傅里叶变换（DFT）将信号映射到频域中，以估计视频的时空谱功率的空间分布。DFT将信号f[n]（n∈[0，Nt-1]）映射到频域[30]，如下所示：0F（jω）=0n = 0 f[n] e-jωnT. (4)0我们通过将DFT的复数输出映射为实值表示来进行处理。信号的周期图是其谱功率的表示，定义为I（ω）= 1 / Nt |F（jω）|2，其中F（jω）如（4）所定义。这提供了每个采样频率的谱功率幅度。为了有效地降低维度并强调视频的区分性频率，我们选择前k个最强的频率和相应的谱功率从周期图中选择。对于任意长度的信号，这产生包含I（ωmax i）和ωmaxi的k对，其中i∈[0，k]，总共有2k个标量值。考虑到一个输入视频体积，被视为H×W长度为Nt的信号集合，该过程提取每个空间位置的区分频率及其相应的功率。换句话说，谱分解层执行映射RC×Nt×H×W→R2kC×H×W。视频的时间维度被压缩，结果可以被视为一个多通道特征图，进一步由任何2D卷积层进行处理。我们在应用DFT之前使用汉宁窗口来减少谱泄漏。该提出的层的批处理版本在补充材料中被形式化为算法。105030输入视频0滤波视频功率频率图0ResNet块0（2D卷积）0时空滤波0谱分解0图5.我们SDN架构sφ（x）的概述，用于学习动态旗帜模拟和真实观察之间的物理对应关系。给定一个3D视频体积作为输入，我们首先应用0阶时间高斯滤波器，然后是两个方向1阶高斯导数滤波器，并通过因子2对两个滤波视频体积进行空间下采样。然后，提出的谱分解层应用傅里叶变换，并密集地选择所有空间位置的最大功率和相应的频率。这产生2D多通道特征图，我们使用2D ResNet块处理以学习嵌入。0嵌入函数。sφ（x）的规范，以其核心的谱分解层为例，如图5所示。首先，我们的模型将输入视频x与一个时间高斯滤波器卷积，然后再用两个空间定向的一阶导数滤波器进行卷积。两个结果视频体积通过最大池化进行两倍的空间下采样。接下来，将滤波的视频表示通过谱分解层传递，以产生谱功率和频率图。输出被堆叠成一个多通道特征图，进一步通过一些具有可训练权重φ的2D卷积滤波器进行处理。我们使用3个标准的ResNet块[16]和一个最终的线性层，将其映射到RDe嵌入空间。我们将我们的网络称为谱分解网络（SDN）。0网络细节。我们的网络使用PyTorch[31]实现，并且公开可用[1]。除非另有说明，所有网络输入都以25fps进行时间采样。然后，我们使用时间高斯函数σt =1和一阶高斯导数滤波器σx, y =2。为了用对比损失训练嵌入函数，我们采用了1的边界，并使用BatchAll采样策略[18,12]。谱分解层选择了最具有区分性的单一频率（即k =1）。将次要频率峰值添加到特征图中并没有带来实质性的性能提升。我们的嵌入的大小在本文中是固定的（De =512）。大小为224×224的输入视频剪辑被转换为灰度图像。我们使用Adam[22]优化可训练的ResNet块的权重，使用大小为32的小批量，学习率为10^-2，权重衰减为2×10^-3。05.真实和模拟数据集0真实世界国旗视频。为了评估我们的方法从真实观测中推断物理参数的能力，我们开始收集真实世界国旗的视频录像。01 https://tomrunia.github.io/projects/cloth/0并使用1分钟平均风速作为地面真实值。训练和测试视频剪辑在不同的天气条件下的不同日期录制。示例显示在图6中，数据集可通过我们的网站获得。0FlagSim数据集。为了训练嵌入函数sφ(x)，如第3.1节所讨论的，我们引入了FlagSim数据集，其中包含国旗模拟和它们的渲染动画。我们通过从表1中随机采样一组物理参数θ来模拟国旗，并将它们输入ArcSim。对于每个国旗模拟，表示为一系列3D网格，我们使用Blender[5]以不同的渲染设置ζi来渲染多个国旗动画xisim。我们将摄像机放置在距离旗杆不同的位置，并确保布料表面可见，使风向与摄像机轴之间的最小角度保持为15度。从0图6.左：用于测量风速的两个风速计。右上：由旗杆上升的风速计测得的真实国旗录像及其相应的风速。右下：来自我们的FlagSim数据集的模拟示例。6. Results and DiscussionReal-world Extrinsic Wind Speed Measurement (θe). Weﬁrst assess the eﬀectiveness of the proposed spectral decom-position network by measuring the wind speed on the recentlyproposed real-world ﬂag dataset by Cardona et al. [9]. Theirmethod, consisting of an ImageNet-pretrained ResNet-18[16] with LSTM, will be the main comparison. We alsotrain ResNet-18 with multiple input frames, followed bytemporal average pooling of the ﬁnal activations [21]. Aftertraining all methods, we report the root mean squared error(RMSE) and accuracy within 0.5 m s−1 (Acc@0.5) in Table 2.While our method has signiﬁcantly fewer parameters (2.6Mversus 11.2M and 42.1M), the SDN outperforms the existingwork on the task of real-world wind speed regression. Thisindicates the SDN’s eﬀectiveness in modeling the spatialdistribution of spectral power over the cloth’s surface andits descriptiveness for the task at hand. The supplementarymaterial contains the results on our FlagSim dataset.SDN’s Physical Similarity Quality (θi,θe). We evaluate thephysical similarity embeddings after training with contrastiveloss. To quantify the ability to separate examples with similarand dissimilar physical parameters, we report the tripletaccuracy [45]. We construct 3.5K FlagSim triplets from theTable 3. Evaluation of our physical similarity sφ(x) for FlagSimtest examples. We report average triplet accuracies [45].Input Frames1020304050FlagSim Accuracy89.392.196.390.192.4Figure 7. Barnes-Hut t-SNE [44] visualization of the learnedﬂag embedding space. For visualization purpose we only displayexamples with wind from the left. Top-right examples exhibit ﬂagsat low wind speeds while bottom-left corresponds to strong winds.Real-world Intrinsic Cloth Parameter Recovery (θi). Inthis experiment, we assess the eﬀectiveness of our SDN forestimating intrinsic cloth material properties from a real-world video. We compare against Yang et al. [54] on thehanging cloth dataset of Bouman et al. [6] (Figure 2). Eachof the 90 videos shows one of 30 cloth types hanging downwhile being excited by a fan at 3 wind speeds (W1-3). Thegoal is to infer the cloth’s stiﬀness and area weight. From ourSDN trained on FlagSim with contrastive loss, we extract theembedding vectors for the 90 videos and project them intoa 50-dimensional space using PCA. Then we train a linearregression model using leave-one-out following [6]. Theresults are displayed in Figure 9. While not outperformingthe specialized method of [54], we ﬁnd that our ﬂag-basedfeatures generalize to intrinsic cloth material recovery. Thisis noteworthy, as our SDN was trained on ﬂags of lightweightmaterials exhibiting predominantly horizontal motion.105040表2.Cardona等人的真实世界国旗观测数据集中的外部风速预测。我们对风速（vw

下载后可阅读完整内容，剩余1页未读，立即下载