时变3D几何形状的OccupationalFlow建模与重建

18 浏览量更新于2023-10-11 收藏 2.39MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1入住流程：学习粒子动力学的4D重建Michael Niemeyer1Lars Mescheder1Michael Oechsle1，2AndreasGeiger11AutonomousVVisionGroup，MPIforIntelligentSystemsandUniVersityofTubingen2 ETAS GmbH，Bosch Group，Stuttgart{firstname.lastname}@ tue.mpg.de摘要基于深度学习的3D重建技术最近取得了令人印象深刻的成果。然而，虽然现有技术的方法能够输出复杂的3D几何形状，但不清楚如何将这些结果扩展到时变拓扑。单独处理每个时间步的方法缺乏连续性并且表现出缓慢的推理，而传统的4D重建方法通常使用模板模型或以固定分辨率离散4D空间。在这项工作中，我们提出了Occupational Flow，一种新的时变3D几何形状的时空表示与隐式对应。为了实现这个目标，我们学习一个时间和空间连续的向量场，它为空间和时间中的每个点分配一个运动向量为了从图像或稀疏点云进行密集的4D重建，我们将我们的方法与连续的3D表示相结合。隐含地，我们的模型随着时间的推移产生对应关系，从而实现快速推理，同时提供了一个健全的物理描述的时间动态。我们表明，我们的方法可用于插值和重建任务，并证明了学习的对应关系的准确性。我们相信，Occupational Flow是一个很有前途的新的4D表示，这将是有用的各种时空重建任务。1. 介绍我们生活在一个4D世界，充满了运动中的3D物体。因此，一个准确和有效的表示随时间变化的三维几何是必不可少的，我们以及机器人导航的非常相同的环境。然而，当前的4D重建方法通常需要复杂的多视图设置[33，41，42，44，45，58]，利用TEM，固定拓扑的平板模型[2，5，15，27，30，63，75]，或者需要时空平滑输入[48，70]，将可能的应用范围限制在非常具体的任务上。最近，用于从各种形式的输入中恢复3D几何形状的基于学习的方法已经显示出有希望的结果[13，14，20，25，34，38，46，54，71]。相比之下图1：Occupational Flow。我们表示随时间变化的3D几何形状的时间和空间连续的矢量场分配一个运动矢量的空间和时间的每一个点，从而隐含地捕捉对应。我们证明了我们的表示可以用于从点云和图像序列以及插值，形状匹配和生成任务的4D重建。与传统方法相比，它们利用在训练过程中获得的先验知识来解决歧义。特别是，最近的连续表示[13，22，28，38，39，46，56，72]实现了令人印象深刻的结果在有限的内存成本。然而，仍然不清楚如何将这些方法扩展到4D重建的任务，即，随着时间的推移重建3D形状单纯地将时间域离散化将导致高的记忆成本和慢的推理。此外，它既不能提供隐含的对应，也不能提供时间演化的物理描述虽然这些问题不仅从科学的观点来看是不令人满意的，而且还限制了现有4D重建技术在期望快速推断和可靠对应的应用出资额：在本文中，我们提出了一种新的连续4D表示（图1）。1）隐式地对对应进行建模。更具体地说，我们参数化一个向量53795380一个具有神经网络的场，该神经网络将3D运动矢量分配给空间和时间中的每个4D点。我们将此模型与Occupational Networks （ ONet ） [ 38 ] 相结合，Occupational Networks（ONet）[38]将形状连续表示为3D空间中二元分类器的决策边界。由于空间中的每个点都被分配了占用值以及随时间的连续轨迹，因此我们将新表示称为占用流（OFlow）。我们的表示不仅在空间和时间上是连续的，而且还隐含地提供了空间中每个点的对应性，因此OFlow可以被视为场景流的连续概括[67，68]。因此，OFlow不仅适用于重建任务，而且适用于更广泛的应用，如学习形状插值，查找形状之间的对应关系，或学习概率潜变量模型。此外，通过使用连续介质力学对3D形状的时间演化进行建模，我们的表示具有原则性的物理解释。2. 相关工作我们现在讨论最相关的3D表示，4D重建技术以及形状配准和插值方法。3D表示：最近，基于学习的方法在各种3D任务中显示出了很好的效果。它们可以大致分为基于体素的[10，14，21，53，54，59，74]，基于点云[1，20]，基于网格[25，29，34，71]和连续表示[13，22，28，38，39，46、56、72]。虽然体素表示可以很容易地合并到深度学习管道中，但即使是在稀疏数据结构上操作的变体也限于相对较小的分辨率，高达2563或5123体素[23，54，61]。点云构成了一种更节省内存的替代方案[51，52]，但不提供任何连接信息，因此需要密集的后处理。基于网格的方法[25，34，71]不需要任何后处理，但生成由边和顶点组成的最终图形并不简单，特别是使用深度学习方法。因此，通常通过变形初始网格[73]或拼接多个3D补丁[24]来简化任务。最近，已经引入了描述3D几何实施例的连续表示[13，22，28，38，39，46，56，72]。与上述方法相反，这些方法不受离散化的限制，并允许对任意拓扑结构进行因此，它们构成了我们提出的占用流量表示的理想基础。4D重建：4D重建领域的大多数工作都通过使用模板模型[2，5，15，27，30，63，75]限制在固定的域中，需要多视图设置[33，41，42，44，45，58，64]，或制作关于运动的强假设，例如刚性或线性[4，37，48，65，70]。Mustafa等人[41，42]通过利用多个视图执行动态场景的4D重建。然而，该方法需要足够数量的宽基线视图来覆盖场景，并且受到这些视图中的模糊性的限制。Wand等人[70]提出了一种精心设计的技术，从点云重建变形的3D几何形状。虽然产生了令人信服的结果，但他们的方法仅限于时空平滑和小的运动，假设点云的时间密集采样，并且计算成本很高。另一个成功的工作线利用模板模型来指导重建过程[2，17，27，30，63，75]。虽然为经典模型和基于学习的模型提供了一个有价值的框架，但根据定义，这些结果受到模板模型的质量和可用性的限制，并且非常特定于领域。此外，获得足够的模板是非常昂贵的，因此大多数现有的努力集中在特定的形状类别，如人体，手，或脸[7，35，47，49，55]。与所有这些4D重建方法相比，我们基于深度学习的方法既不需要精心设计的多视图设置，也不需要特定于域的模板模型，并且可以处理刚性和非刚性运动。形状配准和插值：在图形领域，大量的研究都是针对3D形状插值、配准和匹配等任务。由于范围有限，我们将讨论限制在最相关的作品上，请读者参考[6，60，66]进行充分的讨论。我们对时变几何建模的方法与基于变形场的方法[36，43]有关，该方法在计算机图形学[40，69]中具有悠久的历史。然而，与我们的方法相比，这些方法通常只考虑一小组输入点上的向量场。Eisenberger等人[19]计算整个嵌入空间的变形场，但与我们的方法不同的是，它不能处理几何体的体积变化。Slavcheva等人[57]提出了一种相关的方法，该方法通过预测符号距离场的演化来实现获得对应性。然而，由于它们要求拉普拉斯算子是不变的，因此它仅在小运动下成功。Groueix等人[24]介绍了形状变形网络，其中通过预测模板参数化以及从任意形状到该模板的变换来学习网格对应。虽然这种方法在形状配准方面取得了令人鼓舞的结果，但它对某些对象类别高度专业化，并且需要对每次配准进行昂贵的微调。与本节中讨论的所有方法相比，我们的方法并不局限于形状配准，而是一种处理各种不同图像的通用4D重建方法5381θ不同的输入类型和3D拓扑。此外，与需要针对不同领域精心设计的推理管道的经典基于向量场的方法相比，我们基于学习的方法可以自动从观察中获得丰富的先验知识以解决歧义。3. 方法在本节中，我们将介绍我们新的3D几何形状的时变表示，我们称之为Occupational Flow（OFlow）。我们首先正式介绍我们的模型。接下来，我们将解释如何从各种类型的输入（如点云或图像序列）中学习这种表示。最后，推理过程以及实现细节。图2包含我们的方法的概述。3.1. 占用率流动我们考虑了在空间和时间上联合估计非刚性3D几何形状的挑战性问题更具体地说，我们感兴趣的是推断连续的3D形状表示的演变，其隐含地和密集地捕获跨时间的对应关系。我们将使用粗体字表示向量和向量值函数，使用常规字体表示标量和标量函数。设s：[0，T]→R3定义了一个点在时间区间[0，T]上的连续三维轨迹，使得s（0）∈R3和s（T）∈R3表示轨迹的开始和结束位置。进一步设v：R3×[0，T]→R3表示描述空间和时间中每一点三维速度的连续速度场。s（·）和v（·，·）之间的关系由以下微分方程表示S（t）=v（s（t），t）（1）普雷特其中t∈[0，T]。当求解这个常微分方程（ODE）[62]时，对于每个初始条件s（0）=p，p∈R3，我们得到前向流Φ：R3×[0，T]→R3（图2a）满足：∂Φ（p，t）=v（Φ（p，t），t）S.T. Φ（p，0）=p（2）普雷特直观地说，流Φ（p，t）描述了初始点p在时间t处跟随向量场v（·， ·）时的位置。为了传播空间信息（例如，体积占用或网格顶点），我们可以重新计算（2）如下∫τ还可以将Φ（·，τ）视为将时间t= 0处的坐标系变换为时间t=τ处的坐标系的坐标变换。在控制领域，这些坐标系通常分别被称为我们定义了反向流R3：R3×[0，T] →R3(Fig. 2b）作为Φ的逆变换。这在-逆变换可以通过求解逆常微分方程r（t）=−v（r（t），t）S.T. r（τ）=p（4）普雷特对任意（p，τ）∈R3×[0，T]，设τ（p，τ）=r（0）.由于隐含地捕获了跨时间的对应关系，因此足以在时间t= 0处表示坐标系中的3D形状。然后，在其他时间点的3D形状可以通过使用（3）的传播来获得。为了表示时间t= 0处的3D形状，我们选择最近提出的占用函数f：R3→ {0，1}表示[38]，其为每个3D点分配占用值与基于网格或基于点的表示相比，占用函数允许表示平滑任意分辨率和任意拓扑的形状。我们用神经网络的工作来参数化速度函数f（·）和速度场v（·，·）fθ：R3→[0，1]（5）v∈R3×[0，T]→R3（6）其中，θ和θ表示网络参数。在下文中，我们称fθ（·）为占有网络[3 8]，vθθ（·，·）为速度网络。我们现在将描述如何从数据中学习（5）和（63.2. 培训我们的目标是使用来自4D混沌时空体积的样本来学习fθ（·）和vθθ（·，·）的参数θ和θ，即，每个样本代表了在空间和时间上的特定点上的状态。由于我们选择t=0作为表示形状的参考坐标系，因此必须将t>0的每个样本映射回t= 0时的位置，以便训练占用和速度网络。为了达到这个目标，我们使用上面描述的反向流R3：R3×[0，T] →R3（图第2b段）。3D点p的预测曲率yθ，θ（p，t）在时间t，由下式给出：Φ（p，τ）=p+v（Φ（p，t），t）dt（3）of（p，t）：=f.Σ（p，t）0θ，θθθˆ5382其中τ∈[0，T]表示任意时间点，p表示R3中的空间位置.这个方程可以用标准的数值求解器求解，如Runge-Kutta [62]。其中我们用符号表示逆变换依赖于速度网络的参数vθ（·，·）。5383θˆθˆˆθˆθˆθˆ(a) 前向流量Φx(b) 反向流图2：模型概述。（a）在推断期间，为了计算（10）中定义的对应损失Lcorr，我们通过对依赖于输入的向量场vx进行积分来在时间上向前传播t= 0处的地面真实网格上的点。得到了θ对应性损失L通过在t=τ处取网格上的传播点与地面实况点之间的距离来校正。(b)为了计算重建损失Lrecon，我们在时间上向后走，以将随机点p变换到t = 0处的坐标系中。这一切都要求我们通过使用（8）评估t= 0时的占用网络fx来计算预测的占用概率oθ，θ（p，τ，x）重建损失现在通过取二进制交叉熵wrt来给出。在t=τ处的地面真实占有率。3D点p在时间τ的观测占用率o：L侦察. Σθ，θ1=|B|Σ（p，τ，x，o）∈BBCE（oθ，θ（p，τ，x），o）（9）图3：Velocity网络架构。绿色表示输入，青色表示全连接层，灰色表示其他操作。除了输入点维度为3（无时间）这里，B表示包括来自多个序列和在多个时间实例τ处的样本的小批量。重要的是要注意，训练我们的模型并不需要任何时间上的对应关系。然而，如果可用，可以并入额外的对应信息（图10）。2a）通过从时间传播3D点pt=0到时间t=τ，使用前向流Φ（p，τ），（三）、对应损失函数最小化预测位置Φx（s（0），τ）与θ在时间τ观察到的位置s（τ）如下轴），输出是维度1，并且使用条件批归一化[16，18]代替加法运算来调节输入x。1.Σ1L校正联系我们|B|Σ<$Φx（s（0），τ）−s（τ）<$2（s，τ，x）∈B（十）为了执行4D重建，网络还可以以一些附加输入x为条件，例如，图像序列或点云序列。设fx（·）和vx（·，·）θ表示有条件的占有率和速度网络，尊重我。以输入x为条件的3D点p在时间t处的预测的平均值y_o_θ，θ_（p，t，x）由下式给出：其中s表示3D点的地面实况轨迹。（9）和（10）的梯度可以使用伴随灵敏度方法[12，50]通过在时间上向后求解第二个增广常微分方程来有效地获得。这样，内存占用可以保持恒定，但要权衡更长的计算时间。对于自适应ODE求解器，可以选择相对和绝对误差容限来平衡时间ox（p，t，x）：=fx.Σx（p，t）（八）和准确性。关于细节，请读者参考[12]。θ，θθθˆ3.3. 推理该模型可以通过最小化所预测的预测方差与预测方差之间的二进制交叉项误差（BCE）1占用网络架构见补充说明。对于新的观测x，我们通过首先在t= 0时在参考坐标系中重建形状，然后将重建传播到未来的t∈（0，T]来预测时变3D形状。虽然各种形状++5384θˆθˆθθˆˆ表示可以采用我们的方法，我们使用多分辨率等值面提取（MISE）[38]从预测中提取网格M0=（V0，F0）t= 0时的占有网络fθ。这里，V0和F0分别注意网格M0的顶点和面。对于后面的时间步长t，我们使用训练好的速度网络vθ以获得forward变换Φθ（pi，t）对于V0中的所有顶点pi，通过求解（3）。时间t时的网格给出为：分别在两个网格或点云之间。最后，我们通过训练可变自动编码器[32]并调查潜在表示的质量来检查其生成能力2基线：从图像序列或点云进行4D重建的自然基线是通过在4D空间中采样点将占用网络（ONet）[38]扩展到时域。与我们的方法类似，这个ONet 4D在时间和空间上是连续的，因此可以表示com。Mt=.Σ{Φθ}（pi，t）|pi∈V0}，F0（十一）具有任意拓扑的3D对象的复杂运动。然而，与我们的表示相反，请注意，在干涉过程中，网格仅需提取一次。因此，与在每个时间步独立提取网格的朴素解决方案相比，大量时间步的推理速度要快得多。此外，我们隐式地获得时间对应关系（即，网格顶点在时间上对应），即使在训练期间仅使用重建损失（θ）时也是如此。3.4. 实现细节对于占用网络和速度网络，我们使用了图1所示的基于ResNet的全连接架构[26]。3.第三章。为了将占有网络fx和速度网络vx调节在一个ob序列上，θ服务x=（xi）i=1，.，长度为L，我们使用两个分离器，arate编码器网络gs（x1）和gt（x），其中空间从该ONet 4D是耗时的（因为网格提取在每帧处完成）并且不产生跨时间的对应性。作为额外的基线，我们通过预测一组轨迹而不是单个点来实现点集生成网络（PSGN）的4D扩展[20]为了进行公平的比较，我们在有和没有时间对应的情况下训练这个PSGN 4D。对于前一种情况，我们独立地评估每个时间步长的倒角损失。对于后一种情况，我们引入了一个泛化的倒角损失，它认为整个点的轨迹，而不是独立的3D位置在每个时间点。3在形状匹配和插值实验中，我们比较了最近邻匹配，相干点漂移（CPD）[43]和3D编码[24]，这是一种用于寻找人类形状之间对应关系的最先进方法。θθˆ编码器gs（x1）仅应用于第一个观测值x1并且时间编码器Gt（x）被应用于整个SE。θL观测序列x.例如，输入x可以可以是图像序列，其中xi表示该序列的第i个图像。虽然我们使用空间编码器的输出来调节x上的占用网络f x，但我们使用时间编码器的输出来调节x上的速度网络vx。这取决于我们是否使用序列θ点云或图像序列作为输入，我们使用PointNet [51]或Resnet-18 [26]用于空间编码器gs。对于时间编码器gt，我们使用调整后的PointNetθ输入尺寸为3×L和3D卷积的架构-分别用于点云和图像输入对于训练，我们使用Adam优化器[31]，学习率为10-4，批量大小为16。更多详情请参见补充材料。4. 实验我们进行了四种不同类型的实验来研究我们的方法的有效性首先，我们通过训练它来再现复杂的3D运动来评估我们的基于矢量场的表示的表示能力我们通过将网络调节到一系列图像或噪声点云上，进一步研究了我们的表示的重建能力然后，我们调查学习插值和对应的质量数据集：我们使用动态FAUST（D-FAUST）[9]数据集，其中包含10个真实人类执行各种运动的129个序列的扫描和网格，D-FAUST是非常具有挑战性的，不仅由于人体的精细由于每个序列相对较长（高达1，251个时间步长），并且为了增加数据集的大小，我们将每个序列子采样为17至50个时间步长的较小片段，具体取决于实验。我们将所有序列随机分为训练序列（105）、验证序列（6）和测试序列（9），以便根据训练期间未看到的此外，我们保留了一个人（12个序列）来测试个人的泛化能力由于缺乏公开可用的时变非刚性3D几何数据集，我们进一步引入Warp- ing Cars，一个汽车大规模变形的合成数据集。它允许检查我们的方法在人类以外的其他类型的变形对象上的表现。为此，我们利用ShapeNet [11]有关数据生成过程的详细信息，2有关生成模型的实验，请参见附录。3正式定义见补编。5385GTGTGTGT(a) 占用率流动(b) 4D占领网络IOU倒角时间（s）时间（不含MC）ONet 4D百分之九十四点六0.02815.5095.802OFlow93.4%0.0310.7160.520(c) 重建精度和重建速度图4：代表权。对应关系用相同的颜色表示。虽然ONet 4D和OFlow都成功地学习表示复杂的3D运动，但只有OFlow随着时间的推移产生对应关系，这也导致更快的推理。我们展示了所有50个时间步长的推理时间在补充材料中。我们使用体积IoU和倒角距离来评估每个时间步的重建。我们参考[38]对这些指标的深入描述为了评估估计的对应关系的质量，我们引入对应关系距离如下：K个点p（k）（0），k∈{1，. . . ，K}被分配给地面实况网格上的最近邻居p（k）（0）。然后我们找到对应的点p（k）（τ）在t = τ时，在地面实况网格上将p（k）（0）转换为p（k）（0）。类似地，我们在方法的输出中找到对应于p（k）（0）的点p（i）（τ）。时间t = τ处的对应关系Δ2-距离然后被定义为点p（k）（τ）和p（k）（τ）之间的平均Δ 2 -距离。请注意，这个距离只能计算像我们这样的方法，产生相应的-但不是ONet 4D。类似于[20，38]，我们使用对象边界框的最大边长的1/10倍4.1. 表示能力在这个实验中，我们调查如何以及我们的Occu-Flow模型可以表示运动中的3D形状。特别地，我们想要从表示中解开空间和时间编码器gs和gt的影响图5：4D点云完成。我们为OFlow（w/correspond.）的输入和输出显示了0和1之间的三个等距时间步长ONet4D和PSGN 4D（w/ correspond.）。第一种方法的颜色编码说明了时间上的对应关系。对于训练，我们从D-FAUST数据集的训练分割中选择3个长度为50的序列，我们（单独）仅使用（9）中的L重建我们与ONet 4D进行比较。该实验的结果如图所示。4.第一章我们看到，我们的方法学习变形3D几何形状的准确表示然而，与ONet4D相比，我们只需要提取一次t= 0的网格，然后通过求解时间相关的ODE将其顶点在时间上向前传播，从而导致更快的推理。此外，虽然ONet 4D和我们的方法都成功地学习表示复杂的3D运动，但只有我们的方法随着时间的推移产生对应关系。4.2. 4D点云完成在第一次重建实验中，网络的输入是300个离散点轨迹，每个轨迹由L= 17个时间步长组成。我们用标准差为0.05的高斯噪声扰动点云。用于此的真实世界场景将例如是来自一组标记的（噪声）运动捕获数据。我们使用重建损失L重建来训练我们的方法。θθˆ视觉流模型的定位能力为实现这一目标，我们训练我们的网络在没有任何外部输入x的情况下重建复杂的3D运动。在（9）中，它不使用任何对应关系。更多-此外，我们还研究了我们的方法在使用重建损失L重建和5386IOU倒角对应。IOU倒角对应。PSGN 4D-0.1083.234PSGN 4D-0.1273.041PSGN 4D（带校正器）-0.1010.102PSGN 4D（带校正器）-0.1190.131ONet 4D百分之七十七点九0.084-ONet 4D 66.6%0.140-OFlow百分之七十九点九0.0730.122低69.6%0.0950.149OF低（带校正）81.5%0.0650.094OF低（带校正）72.3%0.0840.117(a) （b）看不见的个人表1：4D点云完成（D-FAUST）。这些表格显示了D-FAUST数据集上我们报告了在训练期间看到的个体和未看到的个体的体积IoU（越高越好）、倒角距离（越低越好）和对应的IOU倒角对应。PSGN 4D-0.1573.886ONet 4D69.7%0.190-OFlow百分之七十点七0.1690.283表2：4D点云完成（翘曲汽车）。此表显示了在Warping Cars数据集上进行的4D点云完成实验的定量结果。基于对应的损失L在（10）中我们比较了ONet 4D和PSGN 4D。争取公平相比之下，我们使用第3.4节中相同的基于ResNet的[26]PointNet [51]时间编码器训练所有方法。我们没有为ONet 4D和PSGN 4D使用额外的空间编码器，因为这两种方法都不表示形状和运动解缠。表1和图5总结了D-FAUST数据集的定量和定性结果。我们观察到，OFlow在IOU方面优于ONet 4D，并且与PSGN变体和ONet 4D相比，实现了最低的倒角距离。这是令人惊讶的，因为PSGN明确地接受了Chamfer距离的训练，而OFlow则没有。用两种损失训练的OFlow实现了最低的对应性Δ2-距离。有趣的是，仅用重建损失训练的OFlow实现了仅稍微更差的对应损失，即使它在训练期间没有使用任何对应。相比之下，在训练期间不使用任何对应关系的PSGN变体不会学习有意义的对应关系。这表明我们的向量场表示有助于随着时间的推移学习对应关系质量（Fig.5），我们观察到OFlow学习真实的3D运动，而ONet 4D没有。PSGN也能够重建3D运动，但缺乏空间连接。Warping Cars数据集的定量结果如表2所示。我们看到，OFlow在一个非常不同的领域也能很好地工作，并实现了最佳的IoU和correspondencex2-distance。4.3. 图像序列的重建在这个实验中，我们考虑从一系列单视图图像的4D重建作为观察x。为所有图6：单个图像4D重建。我们显示了0和1之间的三个时间步长，用于输入以及OFlow、ONet 4D和PSGN 4D的输出。与图5类似，颜色编码示出了对应关系。方法，我们使用第3.4节中描述的时间编码器架构。在表3和图6我们提供了定量和定性结果的总结与[38]和其他人类似，我们观察到从单视图图像序列重建比4D点云完成更难。我们怀疑全局图像编码以及遮挡是主要的挑战，因为视点是随机采样的，有时会导致运动在图像中不可见。定量性能差异类似于点云实验。图中的定性结果。6表明，虽然OFlow可以从提供的序列中合理地重建复杂的3D运动，但其他方法很难做到这一点。这表明，OFlow的解纠缠形状和运动表示导致更好的重建，并使网络偏向物理上合理的运动。4.4. 插值与网格对应接下来的两个实验的目标是研究我们的方法在多大程度上可以用于形状匹配和插值。在这两个实验中，任务是找到两个随机采样点云的底层表面之间的连续变换。我们只使用对应损失（10）训练我们的模型，因为在这种设置中不需要恢复3D形状。5387IOU倒角对应。PSGN 4D-0.2582.576PSGN 4D（带校正器）-0.2652.580ONet 4D44.0%0.348-OFlow百分之五十六点六0.1930.292IOU倒角对应。PSGN 4D-0.2513.949ONet 4D百分之五十五点六0.319-OFlow百分之五十八点二0.2770.491(a) D-FAUST(b) 翘曲车表3：图像的4D重建这两个表总结了图像序列的4D重建的定量结果。对应时间（s）基线NN0.3740.004[43]第四十三话0.189343.621OFlow0.1670.6083D编码[24]0.096199.368表4：形状匹配。此表显示了D-FAUST数据集上点云的形状匹配我们首先评估通过我们的方法学习的对应关系的质量。我们在D-FAUST数据集上使用与之前相同的分割。我们比较了最近邻匹配，非刚性相干点漂移[43]（CPD）和专门的最先进的基于学习的方法3D编码[24]。前两个算法在第二个点云中找到最近的邻居或GMM质心的最佳拟合，而后者学习到人类模板模型的映射对于最近邻匹配，OFlow和3D-Coded [24]，我们使用两个大小为10，000的随机采样点云作为输入。由于相干点漂移[43]直接匹配点集，因此我们没有通过使用随机点云获得该方法的竞争结果，因此我们在这种情况下使用了完整的顶点集。为了遵守社区标准[8]，我们将不位于表面上的预测点投影到最终网格上进行评估。我们的结果如表4所示。尽管我们的方法主要涉及4D重建，但我们发现它也可以估计高质量的对应关系，优于最近邻和CPD基线。虽然它的性能比3D编码差，但OFlow只需要其推理时间的一小部分。此外，我们注意到3D编码是一种高度专业化的匹配方法，包括对每个配准进行昂贵的微调，而我们的方法是一种通用的4D重建。估计对应关系隐式的方法。为了评估OFlow的插值能力，我们将序列长度L从17增加到 30 ，并与线性插值基线进行比较。对于OFlow，我们预测向前和向后运动，并对结果进行平均。4对于这两种方法，我们评估了所有30个时间步长的对应关系。定量和定性结果如图所示。7.第一次会议。4详见补充资料。(a) 定量结果。(b) 定性结果。图7：插值。该图显示了占用流量和线性插值基线的定量和定性比较Occupational Flow能够更好地捕捉非刚性3D形状的非线性运动。我们观察到OFlow在线性插值基线上有所改进，因为它能够捕获非线性运动。5. 结论在这项工作中，我们介绍了Occupational Flow，一种新的时变3D几何形状的4D表示。与现有的4D表示相反，它不使用模板模型，在空间和时间上是连续的，并且产生隐式的时间对应。我们的实验验证，它可以有效地用于形状匹配和插值，4D重建，和生成任务。因此，我们相信，Occupational Flow是一个有用的表示，可用于各种各样的时空任务。确认这项工作得到了英特尔智能系统网络和微软研究院通过其博士奖学金计划的支持。5388引用[1] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas J.Guibas 学习3D点云的表示和在国际会议上。机器学习（ICML），2018年。2[2] 放大图片作者： Marcus A. Magnor ， Weipeng Xu ，Chris-tian Theobalt，and Gerard Pons-Moll.基于视频的三维人物模型重建。在proc IEEE会议计算机视觉和模式识别（CVPR），2018年。一、二[3] Romesh C Batra。连续介质力学的基本原理。阿拉伯联合酋长国，2006年。3[4] Aseem Behl ， Omid Hosseini Jafari ， Siva KarthikMustikovela，Hassan Abu Alhaija，Carsten Rother，andAndreas Geiger.边界框、分割和对象坐标：自动驾驶场景中识别对3D场景流估计有多重要在IEEE国际会议上。计算机视觉（ICCV），2017年。2[5] Amit Bermano ， Thabo Beeler ， Yeara Kozlov ， DerekBradley，Bernd Bickel，and Markus H.恶心眼睑的详细时空重建。ACM Trans. Gr. ，34（4）：44：1-44：11，2015. 一、二[6] 放大图片作者：Andrea Cerri，Alexander M. Bronstein，and Michael M.布朗斯坦三维形状相似性评估的最新趋势、应用与展望。 Computer Graphics Forum ， 35（6）：87-119，2016. 2[7] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型ACM Trans. on Graphics，1999年。2[8] Federica Bogo ， Javier Romero ， Matthew Loper ， andMichael J.黑色. FAUST：三维网格配准的数据集和评估。正在进行 IEEE 会议计算机视觉和模式识别（CVPR），2014年。8[9] Federica Bogo，Javier Romero，Gerard Pons-Moll，andMichael J.黑色. 动态FAUST：记录运动中的人体。正在进行IEEE会议计算机视觉和模式识别（CVPR），2017年。5[10] 放大图片作者：James M.里奇和尼克·韦斯顿使用卷积神经网络的生成和判别体素建模 arXiv.org ，1608.04236，2016.2[11] 天使X作者：Thomas A.作者：Leonidas J. Guibas、PatHanrahan、Qi-Xing Huang、Zimo Li、Silvio Savarese、Manolis Savva 、 Shuran Song 、 Hao Su 、 JianxiongXiao、Li Yi和Fisher Yu。Shapenet：一个信息丰富的3D模型存储库。arXiv.org，1512.03012，2015. 5[12] Tian Qi Chen，Yulia Rubanova，Jesse Bettencourt，andDavid K.杜弗诺神经常微分方程。神经信息处理系统进展（NIPS），2018年。4[13] 陈志勤和张浩。学习生成式形状建模的隐式字段。正在进行IEEE会议计算机视觉和模式识别（CVPR），2019年。一、二[14] Christopher Bongsoo Choy ， Danfei Xu ， JunYoungGwak，Kevin Chen，and Silvio Savarese. 3d-r2 n2：一个统一的方法，用于单视图和多视图三维物体重建。在proc 欧洲会议。计算机视觉（ECCV），2016年。一、二[15] 放大图片作者：Robert S.迪皮埃特罗，纳-纳巴爵士，还有费德里科·汤巴里.长短期记忆卡尔曼滤波器：用于姿态正则化的递归神经估计器。在IEEE国际会议上。关于计算机视觉（ICCV），2017年。一、二[16] HarmdeVries ， FlorianStrub ， Je´re´mieMary ，HugoLarochelle，Olivier Pietquin，and Aaron C.考维尔通过语言调节早期视觉处理。神经信息处理系统进展（NIPS），2017年。4[17] 放大图片作者：Jing Dong，John Gary Burnham，ByronBoots，Glen C.雷恩斯和弗兰克·德拉尔特4d作物监测：农业的时空重建。在Proc. IEEE国际会议。机器人与自动化（ICRA），2017年。2[18] Vincent Dumoulin 、 Ishmael Belghazi 、 Ben Poole 、Olivier Mastropietro 、 Alex Lamb 、 Martin Arjovsky 和Aaron Courville。逆向学习推理。在国际会议关于学习表征（ICLR），2017年。4[19] Marv i nEisenbe r ge r，ZorahLaéhner，andDanielCremers.无发散形状插值与对应。计算机图形论坛，2019年7月。2[20] Haoqiang Fan，Hao Su，and Leonidas J. Guibas从单幅图像重建三维物体的点集生成网络。Proc. IEEE Conf.计算机视觉和模式识别（CVPR），2017年。一、二、五、六[21] Matheus Gadelha，Subhransu Maji和Rui Wang。从多个对象的2D视图的3D形状归纳。在国际会议上。关于3DVision（3DV），2017年。2[22] Kyle Genova 、 Forrester Cole 、 Daniel Vlasic 、 AaronSarna、William T Freeman和Thomas Funkhouser。使用结构化隐函数学习形状模板。在IEEE国际会议上。计算机视觉（ICCV），2019年。一、二[23] 本·格雷厄姆稀疏3d卷积神经网络。在英国机器视觉会议（ British Machine Vision Conf.（BMVC），2015. 2[24] 放大图片作者：David G. Kim，Bryan C.罗素和马修·奥布里。3D-CODED：通过深度变形的3D对应在proc 欧洲会议。计算机视觉（ECCV），2018年。二、五、八[25] 放大图片作者：David G. Kim，Bryan C.罗素和马修·奥布里。学习3D表面生成的一种纸上方法。在Proc. IEEE计算机视觉与模式识别会议（CVPR），2018年。一、二[26] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE会议计算机视觉和模式识别（CVPR），2016年。五、七[27] 黄英豪随着时间的推移，朝向准确的无标记人体在国际会议上。关于3D Vision（3DV），2017年。一、二[28] Zeng Huang，Tianye Li，Weikai Chen，Yajie Zhao，JunXing，Chloe LeGendre，Linjie Luo，Chongyang Ma，and Hao Li.从非常稀疏的多视图性能捕获的深度体积视频。在proc 欧洲会议。计算机视觉（ECCV），2018年。一、二5389[29] 放大图片作者：Angjoo Kanazawa，Shubham Tulsiani，Alexei A.埃弗罗斯和吉坦德拉·马利克从图像集合学习特定类别的网格在欧洲会议上。计算机视觉（ECCV），2018年。2[30] 金泽昂珠，张杰，潘纳·费尔森，和吉田·德拉·马利克.从视

下载后可阅读完整内容，剩余1页未读，立即下载