基于能量的无序点集生成深度学习：3D点云生成、重建和分类

57 浏览量更新于2024-01-22 收藏 1.85MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

114976Generative PointNet：无序点集上基于能量的深度学习，用于3D生成、重建和分类谢建文1*，徐逸飞2*，郑子龙2，朱松春2，3，4，吴颖念21百度研究院认知计算实验室，美国华盛顿州2美国加州大学洛杉矶分校（UCLA）3清华大学，北京，中国4北京大学，北京，中国{jianwen，fei960922，z.zheng}@ ucla.edu，{sczhu，ywu}@stat.ucla.edu摘要我们提出了一个生成模型的无序点集，如点云，在一个基于能量的模型的形式能量函数学习每个点的坐标编码，然后将所有单独的点特征聚合成整个点云的能量。我们称我们的模型为生成PointNet，因为它可以从区分PointNet中派生出来我们的模型可以通过基于MCMC的最大似然学习（及其变体）进行训练，而无需GAN和VAE中的任何辅助网络的帮助。与大多数依赖于手工制作的距离度量的点云生成器不同，我们的模型不需要任何手工制作的距离度量来生成点云，因为它通过根据能量函数定义的统计特性匹配观察到的示例来合成点云此外，我们可以学习一个短期的MCMC对基于能量的模型作为一个流的发生器点云重建和插值。学习的点云表示可以用于点云分类。实验证明了该点云生成模型的优越性。1. 介绍1.1. 背景和动机点云作为自动驾驶汽车上的激光雷达、Xbox上的Kinect和手机上的人脸识别传感器等设备使用的标准3D采集格式，在计算机视觉中的3D表示越来越受欢迎。此外，与其他3D格式相比，*平等捐款。体素网格和3D网格，点云可以提供3D对象的紧凑和详细的表示。学习3D点云的生成模型是3D计算机视觉的一个基本问题，因为它通过提供点云的显式概率分布而有利于3D点云合成和分析任务。尽管用于3D点云分类和分割任务的判别模型取得了巨大的进步，PointNet [31]、PointNet++ [32] 、 DeepSet [52] 、 ShapeContextNet[49]、PointGrid [24]、Dy- namicGCN [37]和SampleNet[23]，3D点云的生成模型的解压缩进展一直滞后。点云生成建模的一个主要挑战是，与图像，视频和体积形状不同，点云不是规则的结构，而是无序的点集，这使得扩展现有的结构化数据的范例并不简单。这就是为什么关于3D生成模型的大多数现有工作是基于体积数据的原因，例如，3D ShapeNet [39]，3D GAN[38]，Generative VoxelNet [44，45]，3D-INN [16]等。随着最近诸如图像生成和视频生成的各种生成任务的成功，研究人员对点云生成越来越感兴趣，例如，[8、53、35、1、25、50]。其中大多数是基于GAN的成熟框架[11]（例如，[53，35，1，25]），VAE [22]（例如，[8，50]），或具有手工制作的距离度量的编码器-解码器，例如用于测量两个点云的不相似性的倒角距离或推土机[8，53]）。在本文中，我们提出了一个原则性的生成模型的概率建模的三维点云。具体而言，该模型是直接定义在无序点集上的概率密度函数，并且它是基于深度能量的模型（EBM）[42]的形式，其中能量函数由输入置换不变的自底向上深度网络参数化，该网络适合于定义无序点上的能量114977集我们将所提出的模型称为生成PointNet，因为根据[42]中提出的理论，这样的模型可以从判别PointNet[31]中导出。我们的模型的最大似然估计（MLE）遵循Grenander [13]在模式论[ 12 ]中称为具体而言，在每次学习迭代中，不是隐式地将点的分布建模为自上而下的生成器[11，22]（隐式是因为生成器模型的边际概率密度需要整合出潜在噪声向量，这在分析上是难以处理的），或者通过对抗学习方案间接学习模型，其中在最小最大两人游戏中招募并同时训练生成器，或者使用编码器作为推理模型来近似难以处理的后验分布的变分推理方案，我们显式地将此分布建模为EBM，并通过基于MCMC的MLE（及其变体）直接学习模型，而无需任何额外的网络。一般来说，MLE不会遭受模式崩溃和不稳定问题，这些问题存在于GAN中，因为两个模型的不平衡联合训练。使用编码器-解码器生成点云的模型通常依赖于手工制作的距离度量来测量两个点集之间的相异性。然而，我们模型的MLE学习对应于观察到的点云和生成的点云之间的统计匹配，其中统计特性由能量函数相对于学习参数的导数定义。因此，我们的模型不依赖于手工制作的距离度量。关于学习算法，如上所述，MLE学习算法遵循“综合分析”方案，其迭代以下两个合成步骤：从当前模型生成分析步骤：基于“真实”观察到的示例和“假”合成示例之间的差异来更新模型参数。有关学习循证医学的各种实施方案的深入调查，请参见最近的论文[29]。以下是合成步骤的不同实施方式。(i)持久链[42]，它运行有限步MCMC，如Langevin动力学[27]，来自先前学习迭代生成的合成示例。(ii)对比发散链[15]，其运行有限步MCMC 从观察到的例子。 (iii) 非持续短期 MCMC[30]，它从高斯白噪声中运行有限步MCMC。使用方案（i）学习无偏模型是可能的，但是学习可能是耗时的。方案（ii）学习一个有偏见的模型，通常不能生成现实的合成示例。(iii)这是最近提出的[30]。即使学习的模型可能仍然是有偏差的，类似于对比发散，学习是非常有效的，并且从噪声初始化的短期MCMC可以生成逼真的合成示例。此外，噪声初始化的短期朗之万动力学可以被视为流动模型[5，6，21]或一个类似生成器的模型[11，22]，将初始噪声转换为合成的示例。有趣的是，学习的短期动态能够重建观察到的示例并插值不同的示例，类似于流量模型和发电机模型[30]。在我们的工作中，我们采用的学习计划（三）。我们表明，学习的短期MCMC可以生成真实的点云模式，它可以重建观察到的点云和点云之间的插值。此外，即使它学习一个有偏见的模型，学习的能量函数和特征仍然是有用的分类。1.2. 相关工作基于能量的建模和学习。基于能量的生成ConvNets[42]旨在以EBM的形式学习数据的显式概率分布，其中能量函数由现代卷积神经网络参数化，MCMC采样基于Langevin动力学。使用基于能量的生成ConvNets[42]学习复杂数据分布的令人信服的结果已在图像[42]，视频[47，48，14]和3D体素[44，45]上显示。为了提高模型的训练效率，本文还研究了几种不同的抽样策略.例如，[9]提出了一种用于学习基于能量的生成ConvNet模型的多重网格方法合作学习或CoopNets[41，40，43]通过MCMC教学训练生成ConvNet，生成器 [30] 提出学习非收敛、非混合和非持久的短期MCMC，并将此短期MCMC视为学习的生成器模型。最近的进展表明，生成ConvNet可以用VAE训练，例如，[14，46]或基于流的模型，例如，[10、28]。然而，上述工作中的模型只适用于具有规则结构的数据学习EBM的三维点云，这是无序的点集，还没有研究之前，我们的论文。点云的深度学习深度学习方法已成功应用于点云，用于识别任务，包括分类和分割，例如[31，32，52]。[31]这是一个开创性的发现。314978N犯罪深层网直接处理点云进行分类，通过设计置换不变网络架构处理无序点集。至于点云的生成模型，[8]使用VAE，[53]使用对抗性自动编码器，其具有测量两个点集之间的相异性的启发式损失函数，例如，倒角距离（CD）或推土机距离（EMD），用于点云生成。点云的GAN在[25，1，35]中进行了探索。例如，[25]和[1]学习GAN在原始点云数据上，而[25]在自动编码器的潜在空间上学习GAN，该自动编码器在原始数据上预先训练CD或EMD损失。[35]提出通过具有从点云提取局部信息的图卷积的GAN生成点云。[50]研究了使用变分推理训练的连续归一化流生成点云本文通过基于MCMC的MLE学习点云的EBM所提出的模型，我们称之为生成PointNet（或GPointNet），可以从判别PointNet中导出我们的模型使我们能够绕过训练GAN或VAE的复杂性，或者为测量两个点集之间的相似性而制定距离度量的麻烦。1.3. 贡献我们工作的主要贡献如下。建模：我们提出了一种新的EBM来显式表示无序点集的概率分布一个3D点云，通过设计一个输入置换不变的自底向上网络作为能量函数。这是第一个为点云数据提供显式密度函数的生成模型。它不仅将为3D深度学习领域，而且还将为无序集建模的研究学习：在所提出的EBM下，我们建议采用非常规的短期MCMC来学习我们的模型，并将MCMC视为基于流的生成器模型，以便它可以同时用于点云的再现和生成。EBM通常无法重建数据。这是第一个EBM，可以执行点云重建和插值。统一性：与现有的点云生成模型相比，我们的模型具有以下独特的性质：（1）它不依赖于额外的辅助网络进行训练;（2）它可以从判别点网络中导出;（3）它将合成和重建统一在一个框架中;（4）它统一了一个显式密度（即，EBM）和隐式密度（即，作为潜在变量模型的短期MCMC）。性能：我们的基于能量的框架以更少的参数获得了有竞争力的性能，2. 生成PointNet2.1. 无序点集的能量模型假设我们观察到一组3D形状{Xi，i= 1，...，N}的对象的特定类别。每个形状由一组3D点X={xk，k=1，...，M}，其中每个点x是其3D坐标加上可选的额外信息（例如RGB颜色等）的向量。为了简单起见，本文中我们讨论的点仅包含3D坐标信息。我们通过以下基于能量的模型1pθ（X）=Z（θ）exp [fθ（X）]p0（X），（1）其中fθ（X）是一个评分函数，它映射输入X并由自下而上的神经网络参数化， p0 （ X ） =exp （ -||X||2/2s2）是高斯白噪声参考分布（s2是一个超参数，并设置为在本文中为0.3），Z（θ）=exp[fθ（X）]p0（X）dX是分析上难以处理的归一化常数，它确保分布中所有概率的总和等于1。能量函数Eθ（X）= −fθ（X）+||X||包含参数θ的2/2s2定义了点云X的能量，能量低的点云X被认为概率高。由于每个点云输入X是一组无序点，因此定义在点集上的能量函数Eθ（X）需要对M不变！按点馈送顺序排列点集。因为||X||2/2s2对于点置换已经是自然不变的，我们只需要通过输入置换不变的自底向上深度网络来参数化fθ（X），以获得可以处理无序点的适当Eθ（X）。具体来说，我们通过在集合中的非线性变换点上应用对称函数来设计fθ（X），即，fθ（{x1，.，xM}）=g（{h（x1），.，h（xM）}），其中h由多层感知器网络参数化，并且g是对称函数，其是跟随有多层感知器网络的平均池化函数。评分函数fθ的网络架构如图1所示。请阅读网络的详细说明。2.2. 最大似然假设我们观察一组3D点云X={Xi，i= 1，...，N}从特定类别的对象。让q数据是生成观察到的示例的分布。学习pθ的目的是从观测值X中估计参数θ。对于较大的N，θ的最大似然估计，借助最先进的点云生成模型，例如基于GAN和基于VAE的方法，Σ 1000NMaxΣlogp（X）黄曲霉毒素E[logp（X）]综合、重建和分类的过程。θ iθi=1q数据θθ414979θ图1：生成PointNet的评分功能架构。评分函数fθ（X）是一个输入置换不变的自底向上深度网络，它以n个无序点为输入，通过多层感知器（MLP）将每个点编码为特征，每层通道数分别为64、128、256、512和1,024，然后通过平均池化将所有点特征聚合为全局特征，最终通过多层感知器输出标量能量，每层通道数分别为512、256、64和1Layer Normalization [2]在平均池化之前与ReLU一起用于层，而在平均池化之后仅用于层。等价地使Kullback-Leibler（KL）-散度KL（q数据θ）在θ上最小化，其中KL散度定义为KL（q|p）= Eq [log（q（x）/p（x））]。我们可以用梯度上升法来更新θ对数似然的梯度或等效地负KL散度通过以下公式计算：-KKL（qdata（X）KKL（X））可以通过反向传播有效地计算。至于MCMC初始化，以下是三个选项。（1）从噪声点云初始化长期非持久MCMC。(2)从噪声点云初始化持久MCMC，并在每个后续学习迭代中，从上一次学习迭代中生成的合成点云开始运行有限步MCMC(3)以下∂θΣ= Eq数据Σ∂ fθ（X）−E∂θΣΣ∂pθθfθ（X）（二）对比发散[15]，可以初始化MCMC从每个学习迭代内的训练数据集采样的训练示例。1年≈ni=1ΣΣ∂θfθ（Xi）1年− ni=1ΣΣf（X）θθi、（3）3. 短期MCMC作为发电机模型其中{X∈i，i=1，.， n}是通过MCMC方法（例如朗之万动力学）从电流分布p θ生成的n个点云。当量（3）是指MCMC近似的解析难处理的梯度由于难以处理的期望项Epθ[·]在Eq.（2）提出了小批量在迭代t，我们从训练数据集{Xi，i= 1，.，n}个数据，并从当前分布{X∈i，i=1，.， n}pθ的MCMC抽样。然后，我们根据方程计算梯度θ t（θt）（3）用学习率γt通过θt+1=θt+γt（θt）更新模型参数θ。2.3. MCMC采样与Langevin动力学为了通过朗之万动力学从分布pθ（X）采样点云，我们执行以下步骤：δ2∂Xτ+1=Xτ− 2<$XEθ（Xτ）+δUτ，（4）学习pθ需要MCMC采样来生成syn-点云大小。由于点云模式的复杂性和数据集的大规模性，p数据通常是多模态的，所以学习到的p多模态的特性很可能导致不同的MCMC链被局域模捕获。因此，不管初始分布和马尔可夫链的长度如何，pθ在最近关于学习EBM的工作[30]之后，不是运行长期收敛的MCMC来从pθ采样，而是从固定的初始分布（例如高斯白噪声分布p0）开始，仅针对固定的步骤数K向pθ运行非收敛的、非持久的短期MCMC。我们用Mθ表示MCMC的K步向pθ（X）的转移核。对于给定的初始概率分布 p0，从p0开始运行K步MCMC后所得的样本X的边际分布表示为：∫qθ（X）=Mθp0（X）=p0（Z）Mθ（X|Z）dZ（五）其中τ表示时间步长，δ是步长，UτN（0，I）是高斯白噪声。由于fθ是一个可逼近的函数，Eθ（Xτ）关于由于qθ（X）是不收敛的，所以X与Z是高度相关的.qθ（X）可以被认为是发电机模型，414980∂θ图2：生成对象的3D点云每行显示一个实验，其中前三个点云是从训练集中随机选择的三个示例其余的是从短期朗之万动力学采样的合成点云每个示例中的点数为2，048。从上到下：椅子，马桶，桌子和浴缸。基于流的模型，或潜变量模型，其中Z是以下形式X=Mθ（Z，θ），Z∈p0（Z），（6）其中Z和X具有相同的维数，并且Z遵循已知的先验（高斯）分布p0。 Mθ 是一个短期朗之万动力学，包括K朗之万步骤方程。（4），它可以被认为是一个K层残差网络，每层都注入了噪声，每层都有权值共享.设Mθ是由于逐层注入噪声而导致的Mθ该模型由Eq.（6）可以通过“综合分析”方案来训练，其中我们根据Eq.（3）并根据Eq. （六）、用短期MCMC训练θ不再是最大似然估计，而是求解以下估计方程的矩匹配学习短期MCMC作为点云生成和构造的pθ生成器模型将是MCMC效率和MLE精度之间的权衡。基于噪声初始化短期MCMC的学习方法类似于对比发散[15]，其在每次学习迭代中从每个观察到的示例初始化有限步MCMC。对比发散也学习一个偏差模型，但学习的模型通常无法合成，更不用说重建和插值了。对于噪声初始化的短期Langevin，可以通过优化步长δ等参数来减小短期MCMC引起的偏差。此外，我们的模型的学习算法寻求在观测数据和合成数据上匹配Φθ（X）=Δfθ（X）的期望。在最近关于深度神经网络理论理解的文献中，<$Φθ（X），Φθ（X ′）<$，其中期望相对于θ的随机初始化称为神经切线Eq数据ΣΣ∂θfθ（X） =EpθΣΣ∂θfθ（X） .（七）内核[17]，它在理解深度和广度网络的优化和泛化可以基于这样的内核定义度量。我们即使基于短期MCMC的学习pθ是与pθMLE相比，qθMLE仍然是一种有效的生成器，可用于三维点云的生成和重建。对于重建，给定测试3D点云X，我们可以通过找到Z来重建X，以最小化重建误差L（Z）=<$X−Mθ（Z）<$2，其中Mθ（Z）是Mθ（Z，θ）的噪声禁用版本（学习后，与梯度项相比，噪声项可以忽略不计）。这可以很容易地通过在L（Z）上运行梯度下降来实现，Z从Z0p0初始化。即使我们在方程中放弃pθ（1）保持qθ在方程中。（5）最终，pθ是至关重要的，因为q是从p导出的，我们在p下学习q。在其他工作中，p充当q θ的孵化器。当从大规模数据集学习模型pθ时，只有有限的MCMC预算可以负担得起，我们将在今后的工作中研究这些问题。4. 实验我们进行实验，以测试所提出的GPointNet模型的点云建模的各种任务代码和更多结果可以在：http：//www.stat.ucla.edu/~jxie/GPointNet。4.1. 合成我们在ModelNet 10上评估了我们的3D点云合成模型，ModelNet 10是ModelNet的10类子集[39]，通常用作3D对象分析的基准我们首先通过从Mod中每个对象的网格表面均匀采样点来创建点云数据集浴缸表厕所椅子414981模型JSD（↓）MMD（↓）覆盖范围（↑）CDEMDCDEMD夜情r-GAN2.6791.1632.39450.0038.37左旋甘氨酰1.0000.7461.56344.1939.53PointFlow0.2400.8881.45155.8139.53我们0.5900.6921.14859.3061.63训练集0.2630.7931.09660.4052.32厕所r-GAN3.1802.9952.89117.0016.00左旋甘氨酰1.2531.2581.48121.0028.00PointFlow0.3620.9651.51339.0033.00我们0.3860.8161.26544.0037.00训练集0.2490.8231.11648.0051.00监测r-GAN2.9361.5242.02121.0024.00左旋甘氨酰1.6530.9151.34928.0027.00PointFlow0.3260.8311.28837.0032.00我们0.7800.8031.21340.0038.00训练集0.2830.5540.93848.0053.00椅子r-GAN2.7721.7092.16423.0028.00左旋甘氨酰1.3581.4191.48023.0026.00PointFlow0.2780.9651.32242.0051.00我们0.5630.8891.28056.0057.00训练集0.3650.8581.19054.0059.00浴缸r-GAN3.0142.4782.53626.0030.00左旋甘氨酰0.9280.8651.32432.0038.00PointFlow0.3500.5931.32050.0044.00我们0.4600.6601.10858.0050.00训练集0.3440.6520.98056.0052.00模型JSD（↓）MMD（↓）覆盖范围（↑）CDEMDCDEMD沙发r-GAN1.8662.0372.24713.0023.00左旋甘氨酰0.6810.6311.02843.0044.00PointFlow0.2440.5851.31334.0033.00我们0.6470.5471.08939.0045.00训练集0.1850.4670.90456.0056.00床r-GAN1.9731.2502.44127.0021.00左旋甘氨酰0.6460.5390.99248.0044.00PointFlow0.2190.5441.23050.0035.00我们0.4610.5521.00450.0050.00训练集0.1690.5160.92757.0055.00表r-GAN3.8013.7142.6258.0014.00左旋甘氨酰4.2541.2322.16614.009.00PointFlow1.0441.6301.53516.0029.00我们0.8690.6401.00044.0037.00训练集0.7031.2181.18231.0038.00书桌r-GAN3.5752.7123.67822.0922.09左旋甘氨酰2.2331.1392.34538.3725.58PointFlow0.3271.2541.54838.3746.51我们0.4541.2231.56756.9852.33训练集0.3291.0551.33253.4850.00梳妆台r-GAN1.7261.2991.67536.0530.23左旋甘氨酰0.6480.6421.01045.3543.02PointFlow0.2700.7151.34946.5137.21我们0.4570.4850.98853.4952.33训练集0.2150.5510.88256.9854.65表1：在ModelNet10上点云合成的质量比较。↓：越低越好，↑：越高越好。MMD-CD评分乘以100; MMD-EMD评分和JSD乘以10。elNet 10数据集，然后将它们缩放到[-1，1]的范围内。我们为每个类别的点云训练一个模型每个类别中的训练示例的数量范围从100到900。每个点云包含2，048个点。评分函数fθ（X）的网络结构如图1所示。它首先将欧几里得空间中的每个3维点坐标编码为1，024维模型类别CD EMD类别CD EMD我们PointFlow夜情 0.378 0.6850.464 0.990沙发0.4270.7030.3890.888我们PointFlow厕所0.396 0.7080.456 0.992床0.361 0.6700.372 0.914我们PointFlow监测0.371 0.7050.441 0.957表0.318 0.6210.581 1.008我们PointFlow椅子0.337 0.7190.510 1.028书桌0.391 0.6970.500 1.063我们PointFlow浴缸0.3210.6120.2890.825梳妆台0.329 0.6450.415 0.942表2：ModelNet10上重建性能的比较。CD分数乘以100，EMD分数乘以10。越低越好。点特征，然后使用平均池化层将来自所有点的信息聚合到单个1，024维全局点云特征，并将其映射到另一个MLP的得分评分函数是输入置换不变的，因为用于点编码的MLP由所有无序点共享，并且对称函数的输出（其是MLP之后的平均池化层）不受点馈送顺序的影响我们使用 Adam [20] 进行优化，初始学习率为0.005，β1= 0。9，β2= 0。九九九我们每50次迭代将学习率衰减0.985。最小批量大小为128。MCMCMC链的数量为128。我们运行K = 64个朗之万步骤，步长δ= 0。005. 为了避免MCMC中的梯度爆炸，我们在每个Langevin步骤将梯度值裁剪到范围[-1，1]。我们运行2,000次迭代进行训练。为了进一步改进训练，我们在每次迭代时将标准偏差为0.01的加性高斯噪声注入到观察到的示例中。为了定量评估点云生成模型的性能，我们采用了[1，50]中也使用的三个度量，即，Jensen-Shannon散度（ JSD ）、覆盖（ COV ）和最小匹配距离（MMD）。在评估COV和MMD时，414982方法充分一代r-GAN7.226.91左旋甘氨酰1.971.71PointFlow1.611.06我们1.39图3：点云重建。分别从椅子、桌子、马桶和浴缸中学习短期MCMC作为生成器学习的生成器通过推断潜在Z来应用于重建，以最小化重建误差。图4：两端生成的示例之间的点云插值。每行中的转换显示了Mθ（Zρ）的序列，其中线性插值潜变量Zρ=ρZ1+（1−ρ）Z2，其中ρ∈[0，1]。左右点云分别为Mθ（Z1）和Mθ（Z2）表3：模型尺寸的比较我们的方法只有一个网络用于学习和生成。（百万）方法精度SPH [18]百分之七十九点八LFD [4]百分之七十九点九[33]第三十三话百分之九十一点一VConv-DAE [34]百分之八十点五3D GAN [38]91.0%3D-WINN [16]百分之九十一点九[44]第四十四话百分之九十二点四原始GAN [19]百分之九十二点二FoldingNet [51]百分之九十四点四L-GAN [1]百分之九十五点四PointFlow [50]百分之九十三点七我们百分之九十三点七表4：10类ModelNet10数据集上3D对象分类的准确性比较。云是通过倒角距离（CD）或推土机距离（EMD）来测量的我们将我们的模型与点云的一些基线生成模型进行了比较，包括PointFlow [50]，l-GAN和r-GAN，见表1。我们使用其官方代码报告基线的性能。图2显示了我们的模型为椅子、马桶、桌子和浴缸类别生成的4.2. 重建我们证明了GPoint-Net模型对三维点云的重建能力我们用短期MCMC作为生成器来学习我们的模型。给定一个测试点云对象，我们使用学习的生成器通过最小化重建误差来重建它，正如我们在第3节中讨论的那样。图3显示了重建未观察到的示例的一些示例。第一行显示要重建的原始点云，第二行显示通过学习模型获得的相应重建点云，第三行显示通过基线PointFlow[50]获得的结果，PointFlow [ 50 ]是基于VAE的框架。对于VAE，可以通过首先推断输入示例的潜变量，然后通过生成器将推断的潜变量映射回点云空间来容易地实现重构。表2显示了我们的方法与PointFlow用于点云重建的定量比较采用CD和EMD度量，输入椅子厕所PointFlow我们414983衡量重建的质量。总的来说，我们的方法优于基线。至于模型的复杂性，我们还比较了表3中不同模型的参数数量。由于在学习中使用了额外的网络，基于GAN和VAE的模型在训练和生成阶段具有不同的参数大小。该模型不使用辅助网络，因而参数较少.4.3. 插值我们证明了我们的模型的插值能力我们用短期MCMC学习模型我们首先从高斯分布中采样两个噪声点云Z1和Z2作为潜在空间中的两个样本然后我们在潜空间Zρ=（1−ρ）·Z1+ρ·Z2中进行线性插值，其中ρ离散为[0，1]内的8个值。我们通过Xρ=Mθ（Zρ）生成点云。图4通过显示生成的点云{Xρ}的序列，显示了Z1和Z2之间的两个插值结果。平滑过渡和物理上合理的中间生成的例子表明，生成器学习一个光滑的潜在空间的点云嵌入。4.4. 分类的表示学习评分函数中的学习点编码器h（x）fθ（X）可用于点云特征提取，并且414984测试准确度（%）这些特征可以应用于监督学习。我们通过在ModelNet10数据集上进行分类实验来评估h我们首先以非监督的方式在所有类别的训练示例上训练单个GPointNet。网络fθ（X）与前几节中使用的网络相同，只是我们在平均池化之前添加了一层2，048个通道，在平均池化之后添加了一层1，024个通道。我们在学习的评分函数中用最大池化层替换平均池化层这样的点云特征提取器也是置换不变的。我们训练SVM[36]基于所提取的用于分类的特征从标记的数据中提取分类器我们使用one-versus-all规则在测试数据上评估SVM的分类精度表4报告了通过其他基线获得的该数据集的11个已发表结果我们的方法是在这个数据集上的分类精度方面与其他方法相当我们进行实验来测试分类器的鲁棒性。我们考虑以下三种类型的数据损坏：（1）类型1：缺失点，其中我们从每个点云中随机删除点。(2)类型2：添加点，我们将均匀分布在立方体[-1，1]3中的额外点添加到每个点云中。（3）类型3：点扰动，其中我们通过添加高斯噪声来扰动每个点云的每个点。我们报告的分类器上的损坏版本的ModelNet10测试集的分类精度图5显示了结果。分类性能随着损坏级别（例如，缺失点比率、添加点比率和点扰动的标准偏差）增加。在缺失点的情况下，即使在每个测试示例中删除了94%的点，分类器仍然可以以90的准确度执行。百分之二十在极端情况下，我们只保留20个点，（1%）在每个点云中，精度变为53。百分之十九9592.59090.0 808587.5806085.07582.5704080.03维点到我们用于分类的模型中的2，048维向量。为了更好地理解每个编码函数学习了什么，我们通过显示点云域中给出正滤波器响应的点来可视化MLP不同层的每个滤波器。在图6中，我们在每一层随机显示4个过滤器。结果表明，不同层的不同滤波器学习检测不同形状区域中的点。较高层的过滤器通常检测到比较低层更复杂形状的区域中的点。层1层2层3层4层5层6图6：点编码函数的可视化。点编码功能由MLP实现。通过显示具有正滤波器响应的点来可视化MLP的不同层处的每个滤波器在每一层随机选择的四个过滤器是可视化的。5. 结论本文研究了基于能量的无序三维点云深度建模与学习。我们提出了一个三维点云的概率密度，这是无序的点集，在基于能量的模型的形式，其中能量函数是由一个输入置换参数化6560550.00.20.40.60.81.0缺失点比率77.575.00.00.20.40.60.81.0添加点比率2010 −310 −210 −110 0添加噪声不变深度神经网络该模型可以通过基于MCMC的最大似然学习进行训练，而无需图5：耐用性试验。模型在Model-Net 10测试集上进行了三种类型的点损坏测试。分类的准确性报告了不同程度的腐败。左：缺失点。中：加分。右：点扰动。4.5. 点编码函数评分函数学习每个点的坐标编码，然后将所有单独的点代码聚合为点集的分数坐标编码功能由MLP实现，学习对每个需要招募其他的援助网络。学习过程遵循实验表明，该模型可用于三维生成，重建，解释和分类。确认这项工作得到了NSF DMS-2015577、DARPA XAI项目 N66001-17-2-4029 、 ARO 项目 W 911 NF1810296、ONR MURI项目N 00014 -16-1的支持。2007，和XSEDE资助ASC180018。我们感谢Erik Ni-jkamp对EBM和神经切线内核的短期MCMC进行了有见地的讨论测试准确度（%）测试准确度（%）414985引用[1] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas Guibas.学习3D点云的表示和生成模型。在国际机器学习会议（ICML），第40-49页，2018年。一、三、六、七[2] 吉米·雷·巴，杰米·瑞恩·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016年。4[3] Adrian Barbu和Song-Chun Zhu。蒙特卡罗方法施普林格，2020年。2[4] Ding-Yun Chen，Xiao-Pei Tian，Yu-Te Shen，and MingOuhyang.基于视觉相似性的三维模型检索研究。在计算机图形论坛，第22卷，第223Wiley Online Library，2003. 7[5] Laurent Dinh ， David Krueger ， and Yooney Bengio.NICE：非线性独立分量估计。在Yoonge Bengio和YannLeCun，编辑，国际学习代表会议（ICLR）研讨会，2015年。2[6] Laurent Dinh，Jascha Sohl-Dickstein，and Samy Bengio.使用实 NVP 的密度估计。国际学习表征会议（ICLR），2017年。2[7] Haoqiang Fan，Hao Su，and Leonidas J Guibas.一种用于从单幅图像重建三维物体的点集生成网络。在IEEE计算机视觉和模式识别会议中，第605-613页1[8] Matheus Gadelha，Rui Wang，and Subhransu Maji.用于三维点云处理的多分辨率树网络。在欧洲计算机视觉会议（ECCV）中，第103第1、3条[9] Ruiqi Gao，Yang Lu，Junpei Zhou，Song-Chun Zhu，and Ying Nian Wu.通过多网格建模和采样学习生成ConvNets 在 IEEE 计算机视觉和模式识别会议（CVPR），第91552[10] 高瑞琪，埃里克·奈坎普，迪德里克·P·金马，徐震，戴安德鲁，吴英念。基于能量模型的流量对比在IEEE计算机视觉和模式识别会议（CVPR）上，第7518-7528页2[11] Ian Goodfellow ， Jean Pouget-Abadie ， Mehdi Mirza ，Bing Xu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville，and Yoonne Bengio.生成性对抗网。神经信息处理系统进展（NIPS），第2672- 2680页，2014年一、二[12] 乌尔夫·格雷南德模式分析的统一方法InAdvances inComputers，volume 10，pages 175爱思唯尔，1970年。2[13] Ulf Grenander和Michael I Miller。模式理论：从表征到推理牛津大学出版社，2007年。2[14] 田汉，埃里克·奈坎普，方小林，米奇·希尔，朱松春，吴应念.用于发电机模型、基于能量的模型和推断模型的联合训练的发散三角形。在IEEE计算机视觉和模式识别会议（CVPR），第8670-8679页，2019年。2[15] 杰弗里·辛顿通过最小化对比差异来训练专家的产品。Neural Computation，14（8）：1771-1800，2002. 二、四、五[16] Wenlong Huang，Brian Lai，Weijian Xu，and ZhuowenTu.使用内省神经网络的3D体积建模在第三十三届AAAI人工智能会议（AAAI），第8481-8488页，2019年。第1、7条[17] 亚瑟·杰科特弗兰克·加布里埃尔和克莱门特·洪格勒Neur- ral tangent kernel：Convergence and generalizationin neural networks. 神经信息处理系统进展（NeurIPS），第8571-8580页，2018年。5[18] Michael Kazhdan ， Thomas Funkhouser ， and SzymonRusinkiewicz.三维形状描述子的旋转不变球谐表示。在2003年的《几何加工研讨会》第6卷第156-164页中。7[19] Salman H Khan，Yulan Guo，Munawar Hayat，and NickBarnes.用于改进3d生成建模的无监督基元发现。在IEEE计算机视觉和模式识别会议（CVPR）中，第9739-9748页7[20] 迪德里克·P·金马和吉米·巴。 Adam：随机最佳化的方法。2015年国际学术会议（ICLR）。6[21] Durk P Kingma和Prafulla Dhariwal。Glow：具有可逆1x1卷积的生成流。神经信息处理系统（NIPS）进展，第10215- 10224页，2018年2[22] 迪德里克山口金玛和麦克斯·威林自动编码变分贝叶斯。2014年国际学习报告会议（ICLR）。一、二[23] 伊泰·朗，阿萨夫·马诺，和沙伊·阿维丹。Samplenet：可区分点云采样。在

下载后可阅读完整内容，剩余1页未读，立即下载