连续规范化流生成高分辨率、高保真度点云的模型PointFlow

83 浏览量更新于2023-10-12 收藏 2.62MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1PointFlow：使用连续规范化流杨冠道1，2岁，黄勋1，2岁，郝泽坤1，2岁，刘明宇3，Serge Belongie1，2岁，Bharath Hariharan11康奈尔大学2康奈尔科技3NVIDIA图1：我们的模型通过连续的归一化流程将从简单的点云采样的点转换为现实的点云转换视频可以在我们的项目网站上查看：https://www.guandaoyang.com/PointFlow/。摘要随着3D点云成为多种视觉和图形应用的首选表示，合成或重建高分辨率、高保真度点云的能力变得至关重要。尽管深度学习模型最近在点云的判别任务中取得了成功，但生成点云仍然具有挑战性。本文提出了一个原则性的概率框架，通过将点云建模为分布来生成3D点云的分布。具体来说，我们学习了一个两级分布结构，其中第一级是形状的分布，第二级是给定形状的点的分布。这个公式允许我们对形状进行采样，并从形状中采样任意数量的点。我们的生成模型名为PointFlow，它通过连续的归一化流来学习分布的每个级别。归一化流的可逆性使得能够在训练期间计算可能性，*同等缴款。允许我们在变分推理框架中训练模型。从经验上讲，我们证明了PointFlow在点云生成方面具有最先进的性能。我们还表明，我们的模型可以忠实地重建点云，并以无监督的方式学习有用的表示该代码可从https：//github.com/stevenygd/PointFlow网站。1. 介绍点云作为3D表示越来越受欢迎，因为它们可以捕获比体素网格高得多的分辨率，并且是更复杂的表示（如网格）的垫脚石。学习点云的生成模型可以通过提供点云的更好先验然而，生成点云的主要障碍是点云空间的复杂性。对应于椅子的点云最好被认为是sam-45414542从对应于椅子表面的分布中提取，并且椅子本身最好被认为是来自椅子形状分布的样本。因此，为了根据该公式生成椅子，我们需要表征分布的分布，这是现有生成模型未充分探索的。在本文中，我们提出了PointFlow，这是一种用于3D点云的原则性生成模型，可以学习分布的分布：前者是形状的分布，而后者是给定形状的点的分布。我们的关键见解是，代替直接参数化形状中的点的分布，我们将该分布建模为来自先验分布的3D点的可逆参数化变换3D高斯）。直观地，在该模型下，生成给定形状的点涉及从通用高斯先验中采样点，然后根据该参数化变换将它们移动到它们在目标形状中的新位置，如图1所示。在这个公式中，一个给定的形状只是参数化这种转换的变量，而一个类别只是这个变量的分布。有趣的是，我们发现，表示这种分布也作为一个先验分布的转换，导致一个更具表现力的模型的形状。特别是，我们使用最近提出的连续规范化流框架来建模这两种变换[38，5，16]。该参数化赋予若干优点。这些变换的可逆性使我们不仅可以采样，还可以估计概率密度。估计概率密度的能力反过来又允许我们使用变分推理框架[26]以原则性的方式训练这些模型，其中我们最大化点云训练集的对数似然的变这种训练的概率框架进一步让我们避免了训练GAN或手工制作用于测量两组点之间差异的良好距离度量的复杂性。实验表明，点流优于以前的国家的最先进的点云生成模型，并取得了令人信服的结果，在点云重建和无监督的特征学习。2. 相关工作点云的深度学习已经引入了深度学习来提高各种点云判别任务的性能，包括分类[36，37，49，53]，分割[36，41]和临界点采样[10]。最近，在点云合成任务中已经取得了实质性的进展，例如自动编码[1，49，17]，单点云合成[1，49，17 ]视图3D重建[12，21，28，30，13]，立体重建，[43]和点云完成[52，51]。许多点云合成工作通过从分布中采样N（N是预定义的）个点来将点分布转换为N×3矩阵，使得现有的生成模型是容易适用。例如，Gadelhaet al. [13]应用变分自动编码器（VAE）[26]和Zamorski等人。[54]应用对抗自动编码器（AAE）[32]来生成点云。Achlioptas等[1]探索生成对抗网络（GAN）[15，2，19]在原始数据空间和预训练自动编码器的潜在空间中的点云。在上述方法中，自动编码器是用试探性损失函数训练的，该试探性损失函数测量两个点集之间的距离，诸如查姆弗距离（CD）或推土机距离（EMD）。Sun等人[42]应用具有离散点分布的自回归模型[45]，每次生成一个点，每个形状也然而，将点云视为固定维矩阵具有若干缺点。首先，模型被限制为生成固定数量的点。获取特定形状的更多点需要单独的上采样模型，例如[52，51，50]。其次，它忽略了点集的置换不变性，这可能导致次优参数效率。从生成建模的角度来看，启发式集合距离此外，精确EMD计算缓慢，而近似可能导致有偏或有噪声的梯度。CD已被证明不正确地支持在边缘点分布模式中过度集中的点云[1]。最近的一些工作引入了由级联[49]或混合[17]的较小解码器组成的复杂解码器，以将一个（或混合）2-D均匀分布映射到目标点分布，克服了使用固定数量的点的然而，它们仍然依赖于缺乏概率保证的启发式集合距离。此外，他们的方法只学习每个形状的点的分布，而不是形状的分布。Li等[29]提出了一种他们还在潜在空间中训练另一个GAN来学习形状分布，类似于Achlioptas等人。[1]的文件。相反，我们的方法通过最大化对数似然的变分下限来简单地进行端到端训练，不需要多阶段训练，并且没有任何基于GAN的方法常见的不稳定性问题。生成模型。有几种流行的深度生成模型框架，包括生成对抗网络[15，2，22]，变分自动编码器[26]，39]，自回归模型[33，45]，以及基于流量的模型，els [8，38，9，24].特别地，基于流的模型和自回归模型都可以执行精确的似然估计，而基于流的模型更有效地进行采样。基于流的模型已被广泛应用于各种生成任务，例如4543i=1J.-1。普雷特图像生成[24，9，8]、视频生成[27]和语音合成[35]。此外，最近的工作将流与其他生成模型相结合，例如GAN [18，7]，自回归模型[20，34，25]，以及VAE [25，44，6，38，44，5，16]。大多数现有的深度生成模型旨在学习固定维度变量的分布。学习分布的分布，其中数据由一组集合组成，仍然是探索不足。Edwards和Storkey [11]提出了一种名为Neural Statistician的分层VAE，它消耗一组集合。他们最感兴趣的是少数拍摄的情况下，每组只有几个样本。此外，它们还专注于对集合进行分类或从给定集合中生成新虽然我们的方法也适用于这些任务，但我们的重点是学习集合的分布并生成新的集合（在我们的情况下是点云）。此外，我们的模型采用了更严格的下限的对数似然，由于使用归一化流建模重建似然和先验。3. 概述两级连续规范化流，一级通过对潜变量的分布建模来对形状分布建模，另一级通过对给定形状的点分布建模。为了优化生成模型，我们通过引入一个推理网络来构造对数似然的变分下界在这里，我们受益于这样一个事实，即连续归一化流的可逆性使似然计算成为可能。这使我们能够以稳定的方式端到端地训练我们的模型，不像以前的工作基于GAN，需要两阶段训练[1，29]。作为一个附带的好处，我们发现推理网络以无监督的方式学习点云的有用表示。在第4节中，我们介绍了连续规范化流和变分自动编码器的一些背景。然后，我们将在第5节中详细描述我们的模型和训练。4. 背景4.1. 连续常化流程一个标准化流[38]是一系列可逆映射-考虑一组形状X={Xi}N从特定ping将初始的已知分布转换为更多对象类，其中每个形状表示为一组3D点Xi={xi}Mi。如第1节所述，每个复杂的一形式上，设f1，. . . ，f n表示一系列我们想应用于潜在变量的可逆变换j j=1点xi∈R3最好被认为是从点分布Q i（x）中采样的，通常是物体Xi表面上的均匀分布。每个形状X i本身是一个有一个分布P（y）。 x = f n<$f n−1<$··<$f1（y）是输出变量。那么，输出变量由变量变化公式给出从形状Q（X）上的分布中提取样本，该样本捕获该类别中的形状。ΣnlogP（x）=logP（y）-..洛格。det克拉夫k... 、（1）我们的目标是学习形状的分布，每个形状.k=1k−1。它本身就是一个点的分布。换句话说，我们的生成模型应该能够对形状进行采样，其中y可以使用逆流程从x计算y=f−1<$··<$f−1（x）。在实践中，f1，. . . ，f n通常是 1N从形状中抽取任意数量的点。我们建议使用连续的归一化流来模拟给定形状的点的分布连续的归一化流可以被认为是3-D欧几里德空间中的向量场，其通过变换一般的先验分布（例如，标准高斯）。为了从诱导的离散中采样点，我们简单地从先验中采样点，并根据向量场移动它们。此外，连续归一化流是可逆的，这意味着我们可以将其实例化为神经网络。建筑师这是雅可比行列式的一个定理。detfk . 容易K计算。通过使用连续时间动态函数y（t）=f（y（t），t）定义变换f，将归一化流程从离散序列推广到连续变换[16，5]，其中f是一个神经网络，有一个不受限制的架构。连续的正常-具有先验分布的P（x）的CNF模型在开始时间的P（y）可以写为：∫t将数据点移回先验分布以计算精确的似然。这个模型非常直观，而且...x=y（t0）+1f（y（t），t）dt，y（t0）<$P（y）的t0解释，允许生成过程的密切检查，如图1所示。我们参数化每个连续的归一化流，logP（x）= logP（y（t0））−∫t1的t0.ΣfTr总重量（t）dt（2）代表形状的潜在变量因此，对形状的分布进行建模可以简化为对潜变量的分布进行建模。有趣的是，我们发现连续的归一化流也有效地建模的潜在分布。因此，我们的完整生成模型包括4544和y（t0）可以使用逆流y（t0）=最大值0x+t1f（y（t），t）dt.一个黑箱常微分方程（二）可用于估计出放和连续归一化流的输入梯度[16，5]。4545∫φθφψφ04.2. 可变自动编码器假设我们有一个随机变量X，我们正在构建-其中gθ定义了流动Gθ以z为条件。注意，给出了GθG−1（x;z）=x+t0g（y（t），t，z）dt其中y（t）=x.生成模型。变分自动编码器θt1θ1(VAE)是一个框架，它允许我们学习P（X）的重建似然性遵循等式（2）：X的观测数据集[26，39]。VAE模型通过潜在变量z的数据分布具有先验分布，logP θ（x|z）= log P（G−1（x; z））−∫t1.TrgθΣDT.以及解码器P θ（X|z），它捕获给定z的X的分布（希望更简单）。在火车上-θty（t）（五）ing，它另外学习推理模型（或编码器）Q φ（z|X）。编码器和解码器联合训练，以最大限度地提高观测值的对数似然的下限log P θ（X）≥ log P θ（X）−D KL（Q φ（z|十）、||P θ（z|（X））=E Q（z|x）[log P θ（X|z）] − D KL（Q φ（z|十）、||P（z）），L（X;φ，θ），（3）也称为证据下限（ELBO）。可以将ELBO解释为负重构误差（第一项）和潜在空间正则化子(the第二届）。在实践中，Q φ（z|X）通常被建模为对角高斯N（z|μ φ（X），σ φ（X）），其平均值和标准差由神经网络预测-使用参数φ。为了有效地优化ELBO，从Q φ（z）采样|X）通过将z重新参数化为注意logP（G−1（x;z））可以用高斯先验以封闭形式计算5.2. 基于流的先验形状尽管可以使用简单的高斯先验来表示形状，但已经表明，受限制的先验往往会限制VAE的性能[6]。为了缓解这个问题，我们使用另一个CNF来参数化一个可学习的先验。形式上，我们将等式3中的KL散度项重写为：D KL（Q φ（z|x）||P（z））= −EQ（z|x）[log P φ（z）] −H[Q φ（z）|X）]，（六）其中H是熵，P（z）是具有可学习参数的先验分布，通过用CNF变换简单高斯P（w）=N（0，I）∫z= μ φ（X）+ σ φ（X）·σ，其中σ φ=N（0，I）.t1z=F（w（t）），w（t）+5. 模型ψ0 0f∈（w（t），t）dt，w（t0）<$P（w），的t0我们现在有了定义点云生成模型所需的工具使用的术语，其中f定义了流动的连续时间动力学F. 与上面描述的类似，给出了F的逆最大值0通过F−1（z）=z+ f（w（t），t）dt，其中w（t）=z。的第1章ψ1VAE，我们需要三个模块：编码器Q Φ（z|（X）这先验分布的对数概率可以通过下式计算将点云编码为形状表示z，先验P θ（X）的一个解码器|z），其对给定形状表示的点的分布进行建模。我们使用一个简单的置换不变编码器预测Q φ（z|X），遵循Achliop中的架构-logP（z）=logP.ΣF−1（z）−∫t1t0.Σ陈水（t） DT.（七）tas等人[1]的文件。我们对先验P ψ（z）和生成元P θ（X）都使用连续的正规化流|z），其在下面描述。5.1. 基于流的形状表示点生成5.3. 最终培训目标将方程4、5、6、7代入方程3，点集X的ELBO最终可以写为：L（X; φ，θ）= E Q（z|x）[log P θ（z）+log P θ（X|z）]+ H[Qφ（z|X）]句子=E[logP. F−1（z） ∫t1∫，特罗夫·施泰特我们首先将点集的重建对数似然分解为每个点Qφ（z|（X）Σ−1的t0100万美元水（t）、角θlogP θ（X|z）=ΣlogP θ（x|z）。（四）+x∈X（logP（Gθ（x;z））−Tr的t0总重量（t）dt）]4546x∈X我们提出了P θ（x|z）使用CNF的条件扩展。具体地，点集合X中的点X是结果将先验分布中的某个点y（t0）+H[Q φ（z|X）]。（八）我们的模型通过最大化数据集中ΣP（y）=N（0，I），使用以z为条件的CNF：∫t1φ，θ，θ=arg maxφ，θ，θ X∈XL（X;φ，θ）.（九）x=Gθ（y（t0）;z），y（t0）+的t0gθ（y（t），t，z）dt，y（t0）<$P（y），我们可以将这一目标解释为三个部分的总和4547jj=1关于我们ψθφφφMX={x}MM~jj=1N（0，I）(a) 培训（自动编码）（a）测试（抽样）图2：模型架构。（a）在训练时，编码器Qφ在给定输入点云X的情况下推断形状表示的后验，并从中采样形状表示z。然后，我们通过逆CNFF-1计算z在先验分布（L先验）中的概率，并通过另一个CNF-1计算X的重建似然（L重建）。逆CNFG−1以z为条件。端到端地训练模型以最大化证据下限（ELBO），该证据下限是L先验、L重建和Lent（后验Qφ（z）的熵）之和|X））。（b）在测试时，我们通过从高斯先验中采样w并用F对其进行变换来采样形状表示 z。为了从z表示的形状中采样点，我们首先从3-D高斯先验中采样点，然后根据z参数化的CNF对它们进行移动。1. 先验：Lprio r（X;λ，φ），EQ（z|x）[logP（z）]使编码的形状表示具有高的先验下的概率，由CNF建模，如第5.2节所述。我们使用重新参数化技巧[26]来实现期望的可微蒙特卡罗估计1ΣL5.4. 采样为了对形状表示进行采样，我们首先绘制一个wwN（0，I），然后将其通过F得到z=F（w）。为了生成一个点gi到一个形状表示z，我们首先从N（0，I）中采样一个点y∈R3，然后使y 通过以z为条件的G θ，生成一个形状上的点：x=Gθ（w;z）. 为了对大小为M的点云进行采样，我们简单地重复它，EQ（z|x）[logP（z）]Ll=1logP（µ+lσ），很多次了。结合这两个步骤，我们可以从我们的模型中采样M个点的点云其中μ和σ是各向同性高斯后验Q φ（z）的平均值和标准差|x），并且L被简单地设置为1。从标准高斯分布N（0，I）中采样。X={Gθ（yj;F（w））}6. 实验1≤j≤M<$，w<$$> N（0，I），<$j，y<$j<$N（0，I）.2. 重建可能性：Lrecon（X;θ，φ），EQ（z|x）[logPθ（X|z）]是输入点集的重建对数似然，计算为在第5.1节中描述。期望值也使用Monte Carlo抽样进行估计。3. 后验熵：Lent（X;φ），H[Q φ（z|X）]是近似后验的熵：在本节中，我们首先介绍用于评估点云生成的现有指标，讨论它们的局限性，并介绍一种克服这些局限性的新指标。然后，我们比较了所提出的方法与复杂的国家的最先进的点云生成模型，使用以前的指标和建议。此外，我们还评估了我们模型的自动编码器部分的重建和表示学习能力。H [Q（z |X）] =d（1 + ln（2 π））+dln σ.φ2i=1i所有的训练细节（例如，超参数、模型体系结构）包括在补充材料中。6.1. 评估指标在前人工作的基础上，本文采用倒角距离（CD）和推土机贷款L先验X={ xj}Mj=1µz <$Q φ（z|十）、⊕F−1Qφψ⊗中文（简体）{yj}Mj=1G−1θX={ xj}Mj=1L侦察z轴Fn（0，I）GθM~……………45482R点云之间。其中D（·，·）可以是CD或EMD。然而，CD（X，Y）=Σ 最小值x−y<$2+Σ 最小值为x-y<$2，MMD实际上对低质量点x∈X y∈YΣ2y∈Yx∈X2云在Sg，因为他们不太可能匹配到真实点云在极端情况下，EMD（X，Y）= minφ：X→Yx∈X<$x−φ（x）<$2，假设Sg主要由非常低质量的点云，每个点云中有一个额外的点云其中X和Y是具有相同点数的两个点云，并且φ是它们之间的双射请注意，大多数以前的方法在其训练目标中使用CD或EMD，如果在相同的度量下进行评估，则倾向于使用然而，我们的方法在训练期间不使用CD或EMD。设S g是生成的点云的集合，S r是参考点云的集合，|S R| 为 |S G|. 为了评估生成模型，我们首先考虑Achlioptas等人介绍的三个指标。[1]：• 在边缘点分布之间计算Jensen-Shannon散度（JSD）Sr模式，但具有相当好的MMD评分。如上所述，所有现有指标都有其局限性。如稍后将展示的，我们还根据经验发现，所有这些指标有时会给生成的点云提供比真实点云更好的分数，进一步怀疑它们是否可以确保公平的模型比较。因此，我们引入了另一个我们认为更适合评估点云生成模型的指标：• Lopez-Paz和Oquab [31]针对双样本检验提出了1-最近邻精度（1-NNA）判断两个分布是否相同。它也被探索作为评估JSD（P，P）=1D（P||1名（P||M），GANs [48].设S−X=S r<$S g−{X}且N Xg r2 KLrM）+2DKL g是X在S-X中的最近邻。1-NNA是其中M = 1（Pr+ Pg）。 P r和P g是参考集和生成集中点的边缘分布，1-NN分类器的留一法精度1-NNA（Sg，Sr）通过将空间离散化为28个3vox-els并将每个点分配给其中一个来近似。然而，在这方面，Σ=X∈Sg I[NX∈Sg]+Y∈S I[NY∈Sr] 、它只考虑边缘点的分布，而不考虑单个形状的分布。一个总是输出“平均形状”的模型可以在不学习任何有意义的形状分布的情况下获得一个完美的JSD分数。• 覆盖率（COV）测量参考集中与生成集中的至少一个点云匹配的点云的分数。每个点云，其在参考集中的最近邻居被标记为匹配：COV（S，S）=|{arg minY∈SrD（X，Y）|X ∈S g}|、Gr|S R|其中D（·，·）可以是CD或EMD。虽然covere-r-age能够检测模式崩溃，但它不能评估生成的点云的质量。实际上即使生成的点云和参考点云之间的距离任意大，也可以实现完美的覆盖分数。• 最小匹配距离（MMD）被提出来补充覆盖作为度量质量的度量。对于参考集中的每个点云，计算与所生成的集合中其最近邻的距离并求平均值：|+的|SR|Sr|其中I[·]是指示器函数。对于每个样本，1-NN分类器根据其最近样本的标签将其分类为来自Sr或Sg如果Sg和Sr是从相同的分布中采样的，给定足够数量的样本，这样的分类器的准确度应该收敛到50%。准确度越接近50%，Sg和Sr越相似，因此模型在学习目标分布方面越好。在我们的设置中，可以使用CD或EMD计算最近邻。与JSD不同，1-NNA考虑形状分布之间的相似性，而不是边缘点分布之间的相似性与COV和MMD不同，1-NNA直接测量分布相似性，并考虑多样性和质量。6.2. 一代我们将我们的方法与三种现有的点云生成模型进行比较：raw-GAN [1]，latent-GAN [1]和PC-GAN [29]，使用它们的官方实现，这些实现可以公开获得或通过联系作者获得。我们使用ShapeNet [3]数据集中三个类别之一的点云训练每个模型：飞机，1MMD（Sg，Sr）=Σ minD（X，Y），椅子和汽车。点云是由sam-从网格表面均匀地加载点所有点|S R|Y∈SrX∈Sg在每个类别中被归一化为每个轴Σ4549表1：生成结果。↑：越高越好↓：越低越好。最好的分数以粗体突出显示。比某些生成的形状差的真实形状的分数以灰色标记。MMD-CD分数乘以103; MMD-EMD分数乘以102; JSD乘以102。#参数（M）JSD（↓）MMD（↓）COV（%，↑）1-NNA（%，↓）和全局单位方差。遵循先前的约定[1]，我们在训练和测试期间为每个形状使用2048个我们还报告了从训练集采样的点云的性能，这被认为是一个上限，因为它们来自目标分布。在表1中，我们报告了不同模型的性能，以及它们的参数总数（完整）或生成途径（gen）。我们首先注意到，所有以前的指标（JSD、MMD和COV）有时会给模型生成的点云分配比训练集（用灰色标记）更好的分数。1-NNA指标似乎没有这个问题，并且总是对训练集中的形状给出更好的分数。根据1-NNA，我们的模型在所有三个类别中均优于所有基线，并且在大多数情况下也获得了其他指标评估的最佳得分此外，我们的模型具有最少的参数之间的比较模型。在补充材料中，我们进行了额外的消融研究，以显示我们模型的不同组件的有效性图3显示了我们的模型生成的新点云的一些例子图4示出了从给定输入重建的点云的示例。图3：我们的模型生成的点云示例从上到下：飞机、椅子和汽车。6.3. 自动编码我们进一步定量地比较了我们的基于流的自动编码器与l-GAN [1]和WavelasNet [17]的重建能力。在设置了本任务中最先进的MapasNet之后，我们在ShapeNet数据集中的所有形状上训练我们的自动编码器。训练自动编码器其中仅重建似然目标L重建。在类别模型充分GenCDEMDCDEMDCDEMDr-GAN7.226.917.440.2615.4742.7218.0293.5899.51左旋甘氨酰（CD）1.971.714.620.2394.2743.2121.2386.3097.28飞机左旋甘氨酰（EMD）1.971.713.610.2693.2947.9050.6287.6585.68PC-GAN9.141.524.630.2873.5736.4640.9494.3592.32PointFlow（我们的）1.611.064.920.2173.2446.9148.4075.6875.06训练集--6.610.2263.0842.7249.1470.6267.53r-GAN7.226.9111.52.5712.833.999.9771.7599.47左旋甘氨酰（CD）1.971.714.592.468.9141.3925.6864.4385.27椅子左旋甘氨酰（EMD）1.971.712.272.617.8540.7941.6964.7365.56PC-GAN9.141.523.902.758.2036.5038.9876.0378.37PointFlow（我们的）1.611.061.742.427.8746.8346.9860.8859.89训练集--1.501.927.3857.2555.4459.6758.46r-GAN7.226.9112.81.278.7415.069.3897.8799.86左旋甘氨酰（CD）1.971.714.431.556.2538.6418.4763.0788.074550模型#参数（M）CDEMDL-GAN（CD）[1]1.777.127.95L-GAN（EMD）[1]1.778.855.26[17]第十七话44.95.135.97PointFlow（我们的）1.307.545.18表3：通过CD和EMD评估的自动编码性能。AtlasNet使用CD进行训练，而l-GAN使用CD或EMD进行训练我们的方法不是在CD或EMD上训练CD和EMD得分分别乘以104和102。图4：从输入重建的点云示例.从上到下：飞机、椅子和汽车。在图的每一侧，我们在左侧示出了输入点云，在右侧示出了重建的点云。表2：无监督特征学习。模型首先在ShapeNet上训练以学习形状表示，然后通过比较使用学习的表示训练的现成 SVM 的准确性，在 ModelNet 40 （ MN 40）和Model-Net 10（MN 10）上进行评估。方法MN40（%）MN10（%）SPH [23]68.279.8LFD [4]75.579.9[14]第十四话74.4-VConv-DAE [40]75.580.53D-GAN [46]83.391.0L-GAN（EMD）[1]84.095.4L-GAN（CD）[1]84.595.4[42]第四十二话85.7-[13]第十三话86.4-[49]第四十九话88.494.4L-GAN（CD）[1]†87.092.8L-GAN（EMD）[1]†86.792.2PointFlow（我们的）86.893.7我们使用与我们的模型相同的编码器架构在预处理的数据集上运行I-GAN的官方代码测试时，我们对每个形状采样4096个点，并将它们分成输入集和参考集，每个集由2048个点组成然后，我们计算重构的输入集和参考集 1之间的距离（CD或EMD）。1我们使用单独的参考集，因为我们希望自动编码器学习点分布。精确地再现输入点是可接受的行为，但不应给予比从基础点分布中随机采样点更高的分数。4551虽然我们的模型不是直接用EMD训练的，但它获得了最好的EMD分数，甚至高于用EMD和具有超过40倍参数的MSNasNet6.4. 无监督表示学习最后，我们评估了我们的自动编码器的表示学习能力具体来说，我们提取了在完整ShapeNet数据集中训练的自动编码器的潜在代表，并在Mod-elNet 10或ModelNet 40上训练线性SVM分类器[47]。只有对于这项任务，我们规范化每个单独的点云，使其具有每个轴的零均值和全局单位方差，遵循先前的工作[53，1]。当训练自动编码器时，我们还沿着重力轴应用随机旋转该任务的问题在于，不同的作者一直使用具有不同数量的参数的不同编码器架构，使得难以执行苹果对苹果的比较。此外，不同的作者可以使用不同的预处理协议（如Yang等人所指出的）。[49]这也可能影响数字。在表2中，我们仍然显示了大量论文报告的数字，但也包括与使用相同编码器架构和与我们的模型完全相同的数据训练的 I-GAN [1 在ModelNet10上，我们的模型精度为1。5%和0。比l-GAN（EMD）高9%和I-GAN（CD）。在ModelNet40上，这三种模式的差距很大。7. 结论和未来工作在本文中，我们提出了PointFlow，生成模型的点云组成的两个层次的连续normalizing流训练变分推理。未来的工作包括应用到其他任务，如从单个图像的点8. 确认这项工作部分得到了Magic Leap的研究礼物的支持。 Xun Huang 获得了 NVIDIA GraduateFellowship的支持。4552引用[1] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas Guibas.三维点云的学习表示与生成模型。在ICML，2018。二三四六七八[2] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络ICML，2017。2[3] 天使XChang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimo Li ， SilvioSavarese ， Mano-lis Savva ， Shuran Song ， Hao Su ，Jianxiong Xiao，Li Yi，and Fisher Yu.ShapeNet：一个信息丰富的 3D 模型库。技术报告 arXiv ： 1512.03012[cs.GR]，斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所，2015年。6[4] Ding-Yun Chen，Xiao-Pei Tian，Edward Yu-Te Shen，and Ming Ouhyang.基于视觉相似性的三维模型检索研究。Comput. Graph. Forum，22：223-232，2003. 8[5] Tian Qi Chen，Yulia Rubanova，Jesse Bettencourt，andDavid K Duvenaud.神经元常微分方程NeurIPS，2018。二、三[6] Xi Chen ， Diederik P Kingma ， Tim Salimans ， YanDuan ， Pra- fulla Dhariwal ， John Schulman ， IlyaSutskever，and Pieter Abbeel.变分有损自动编码器。ICLR，2016年。三、四[7] Ivo Danielka、Balaji Lakshminarayanan、Benigno Uria、Daan Wierstra和Peter Dayan。最大似然法与人工神经网络训练真实神经网络的比较。arXiv预印本arXiv：1705.05263，2017。3[8] Laurent Dinh ， David Krueger ， and Yoshua Bengio.Nice：非线性独立分量估计。CoRR，abs/1410.8516，2014年。二、三[9] Laurent Dinh，Jascha Sohl-Dickstein，and Samy Bengio.使用实nvp的密度估计。在ICLR，2017。二、三[10] Oren Dovrat，Itai Lang和Shai Avidan。学习采样。arXiv预印本arXiv：1812.01659，2018。2[11] Harrison A Edwards和Amos J.史托基成为神经统计学家。在ICLR，2017。3[12] Haoqiang Fan，Hao Su，and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在CVPR，2017年。2[13] Matheus Gadelha，Rui Wang，and Subhransu Maji.用于三维点云处理的多分辨率树网络。在ECCV，2018。二、八[14] 放大图片作者：David F.福伊，米克尔·罗德里格斯，阿布·希纳夫·古普塔.学习对象的可预测和生成矢量表示。在ECCV，2016年。8[15] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS，2014。2[16] Will Grathwohl，Ricky T. Q. Chen，Jesse Bettencourt，Ilya Sutskever，and David Duvenaud. Ffjord：Free-formcontinuous dynamics for scalable reversible generativemodels. 2019年，在ICLR。二、三[17] 放大图片作者： David G. Kim ， Bryan Russell ，andMathieuAubry. AtlasNet：一个学习3D表面生成的方法。在CVPR，2018年。二七八4553[18] Aditya Grover，Manik Dhar，and Stefano Ermon.Flow-gan：在生成模型中结合最大似然和对抗学习。在AAAI，2018。3[19] IshaanGulrajani 、 FarukAhmed 、 MartinArjovsky、 VincentDumoulin 和 AaronCCourville。改进的瓦瑟斯坦甘斯训练。NeurIPS，2017。2[20] 黄钦伟，大卫·克鲁格，亚历山大·拉科斯特，和亚伦·C。考维尔神经自回归流。在ICML，2018。3[21] Li Jiang，Shaoshuai Shi，Xiaojuan Qi，and JiayaJia. Gal：单视图3D对象重建的几何对抗损失。在ECCV，2018。2[22] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR，2019年。2[23] Michael M.托马斯·卡日丹Funkhouser和SzymonRusinkiewicz。三维形状描述子的旋转不变球谐表示。于2003年在中国地质科学院地质研究所召开的地质加工学术研讨会上. 8[24] Diederik P. Kingma和Prafulla Dhariwal。Glow：具有可逆1x1卷积的生成流NeurIPS，2018。二、三[25] Diederik P. Kingma ， Tim Salimans ， and MaxWelling. 用逆自回归流改进变分推理。InNeurIPS，2016. 3[26] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。见ICLR，2014年。二、四、五[27] Manoj Kumar、Mohammad Babaeizadeh、DumitruErhan 、 Chelsea Finn 、 Sergey Levine 、 LaurentDinh和Durk Kingma。Videoflow：一个基于流的视频生成模型。arXiv预印本arXiv：1903.01434，2019。3[28] Andrey Kurenkov， Jingwei Ji， Animesh Garg ，Viraj Mehta，JunYoung Gwak，Christopher B.蔡和西尔维奥·萨瓦雷塞Deformnet：自由变形网络，用于从单个图像重建3D形状。在WACV，2018。2[29] Chun-Liang Li ， Manzil Zaheer ， Yang Zhang ，Barnabas Poc- zos，and Ruslan Salakhutdinov.点云根arXiv预印本arXiv：1810.05795，2018。二、三、六[30] Kejie Li，Trung Pham，Huangying Zhan，and IanD.里德基于变形矢量场的稠密点云物体重建.在ECCV，2018。2[31] David Lopez-Paz和Maxime Oquab重新审视分类器双样本检验。在ICLR，2017。6[32] Alireza Makhzani 、 Jonathon Shlens 、 NavdeepJaitly、Ian Goodfellow和Brendan Frey。对抗性自动编码器。 arXiv 预印本 arXiv ： 1511.05644 ，2015。2[33] Aaron

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

连续规范化流生成高分辨率、高保真度点云的模型 PointFlow

最新资源

连续规范化流生成高分辨率、高保真度点云的模型 PointFlow

点云数据模型

三维点云模型质量评价

讨论压缩率和保真度的关系。

图像压缩中压缩率和保真度的关系

惩罚最小二乘法的粗糙度和保真度

他分为低中高三个等级，分别解释一下这三个等级。

图像压缩率和保真度的关系

python 图像保真度和质量

如何用卷积神经网络改进

将贝叶斯优化与多保真度(如bandit-based方法)相结合

生成隐函数时间序列模型

ifc信息保真度准则

displayport 协议规范 csdn

使用GAN生成时间序列

matlab计算视觉信息保真度vif

扩散模型在图像生成和语音生成中的应用

衡量点云压缩质量的指标有哪些

视觉信息保真度VIF

PIFuHD输入1024

visual information fidelity

最新资源