CompoNet：基于部件的形状生成模型

142 浏览量更新于2023-10-13 收藏 1.17MB PDF 举报

数据驱动

生成模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8759CompoNet：学习通过部分合成和合成生成不可见Nadav Schor1 Oren Katzir1 Hao Zhang2 Daniel Cohen-Or1特拉维夫大学1西蒙弗雷泽大学2nadav. cs.tau.ac.ilorenkatzir@mail.tau.ac.ilhaoz@cs.sfu.cadcor@tau.ac.il“对于物体识别，视觉系统将形状分解为部分。. .零件及其描述和空间关系为形状记忆提供了第一个索引- 霍夫曼·理查兹[18]摘要数据驱动的生成建模通过利用深度神经网络的力量取得了显着进展。一个反复出现的挑战是如何使模型能够从整个目标分布中生成丰富的样本，而不仅仅是从局限于训练数据的分布中生成。换句话说，我们希望生成模型能够超越观察到的样本，并学会生成“看不见的”，但仍然可信的数据。在我们的工作中，我们提出了CompoNet，这是一种基于零件先验的2D或3D形状生成神经网络，其关键思想是网络通过改变形状零件及其组成来合成形状。不将形状视为非结构化整体，而是将其视为可变形部分的（可重新）组合集合，为生成过程增加了组合维度，以丰富输出的多样性，鼓励生成器更多地冒险进入“看不见的我们表明，与基线生成模型相比，我们的基于部件的模型生成了更丰富的合理形状。为此，我们引入了两个定量指标来评估生成模型的多样性，并评估生成的数据如何覆盖来自同一目标分布的训练数据和未见过的数据。1. 介绍形状和图像生成模型的学习一直是视觉计算领域的一个长期研究课题。尽管取得了显著进展，但仍然存在一个固有和反复出现的局限性：生成模型通常仅与给定的训练数据一样好，因为它总是被观测数据的经验分布所限制或限制。通常情况下，可以观察到的并不能充分表达真实的目标分布。(a) 基准（b）基于部件的生成图1：CompoNet，我们的基于部件的生成模型（b）覆盖通过两种方法生成的数据（粉红色的点）显示在来自相同目标分布的训练数据（紫色的十字）和未见过的数据（绿色的十字）上。数据通过PCA在分类器特征空间上显示，其中三个分布由椭圆概括，仅用于说明。显示了一些训练、未见过和生成的数据样本，以揭示它们的相似性/相异性。因此，学习模型的生成能力不仅应该通过由训练集限制的生成数据的可扩展性来判断，而且还应该通过模型生成离训练集足够远的合理数据的能力来判断其多样性。由于包含观察到的数据和看不见的数据的目标分布是未知的，因此主要的挑战是如何有效地训练网络以学习生成出于同样的原因，甚至评估这样一个网络的生成能力也是一项重要的任务。我们认为，产生多样性的关键是能够实现更剧烈的变化，即，非局部和/或结构变换。同时，这种更改必须在目标数据分布的范围内。在我们的工作中，我们专注于2D或3D形状的生成建模，其中典型的建模约束是产生与前8760图2：CompoNet的两个训练单元，我们的基于零件的生成模型：第一个单元，零件合成单元，由并行生成AE组成;形状的每个语义部分的独立AE。第二个单元，即部件组成单元，学习组成编码的部件。我们使用来自零件合成单元的预训练零件编码器。然后，将噪声向量z连接到部件的潜在表示并馈送到合成网络，合成网络输出每个部件的然后将这些部分扭曲并组合以生成整个输入样本。雇员，例如，椅子或花瓶。我们开发了一个基于部分先验的生成式也就是说，我们假设目标分布中的形状由部分组成，例如，椅子靠背或飞机机翼。该网络被称为CompoNet，旨在独立地合成新的部件，并将它们组合成一个完整的形状。众所周知，对象识别与关于部件和部件关系的推理紧密相关[18，43]。因此，基于不同的部件及其组成构建生成模型更重要的是，将形状视为（可重新）组合的部分集合，而不是整个实体，为生成模型增加了组合维度，并提高了其多样性。通过独立地合成零件，然后组合它们，我们的网络实现了零件的变化和零件的新颖组合，这引起了非局部和更剧烈的形状变换。我们的生成模型不是仅对单个分布进行采样以生成整个形状，而是对各个部分的几何分布虽然基于部分的方法是通用的，并不严格限于特定的生成网络架构，我们开发了一个生成自动编码器，以证明其潜力。我们的生成AE由两部分组成。首先，我们学习了一个独特的部分级生成模型。在第二阶段，我们将这些学习的潜在表示与随机向量连接起来，为整个形状生成一个新的潜在表示。这些潜在的表示被馈送到一个条件部分组成网络中，该网络基于空间变换器网络（spatial transformer network，缩写为STNN）[22]。我们不是第一个开发深度神经网络的人。基于零件的建模一些网络通过组合从训练集采样或作为输入提供给网络的现有部分来学习组成图像[29，3]或3D形状[23，6，53]相比之下，我们的网络是完全生成的，因为它学习了新的部分合成和合成。Wang等人[44]训练生成对抗网络（GAN）以生成语义分割的3D形状，然后使用自动编码器网络优化零件几何形状。Li等[28]训练VAE-GAN以生成由对象部件的边界框形成的结构这两个作品都采用了从粗到精的方法，并从噪声矢量中整体生成粗略的3D形状。相比之下，我们的网络经过训练，可以执行部分合成和部分合成（带有噪声增强）;参见图2。我们的方法还允许生成更多样化的零件，因为我们对每个零件的约束较少，而整体模型被约束为一次生成所有零件。我们表明，与基线方法相比，基于部件的CompoNet产生的合理输出更好地覆盖了目标分布的未观察区域[1]的文件。这在将属于相同类别的一组形状随机分割成用于训练的此外，为了评估我们的网络相对于基线方法的生成能力，我们引入了两个定量指标来评估生成的数据如何覆盖来自同一目标分布的训练数据和未见过的数据。2. 背景及相关工作生成神经网络。近年来，生成建模在深度学习框架中受到了广泛关注。两种最常用的深度生成模型是变分自动编码器（VAE）[25]和8761图3：推理时的新形状生成。我们随机抽样的潜在空间的形状部分和组成部分。使用预先训练的部分解码器和合成网络，我们生成新的部分，然后将它们扭曲以产生连贯的整体形状。生成对抗网络（GAN）[15]。这两种方法在图像和形状生成问题上都取得了显著的进展[47，21，37，54，45，49，44]。许多工作致力于改进基本模型及其训练。在[16，31，4]中，提出了新的成本函数来实现平滑和非零梯度。Sohn等人[41]和Odenaet al. [35]分别基于VAE和GAN提出了条件生成模型。Hoang等人[17]训练多个生成器以探索数据分布的不同模式。类似地，MIX+GAN [2]使用生成器的混合来改善di-生成的分布的多样性，而组合多个鉴别器和一个生成器的目的是构造一个更强的鉴别器来指导生成器。GMAN [10]探索了一系列判别器来促进生成器学习。一些方法[20，30，51]使用全局鉴别器和多个局部鉴别器。继PointNet [36]之后，提出了一种直接在点云上工作的生成模型。Achlioptas等[1]提出了一种点云的AE+GMM生成模型，被认为是最先进的。我们的工作与这些方法正交我们解决了生成器无法生成其他有效样本的情况，因为它们在训练数据中没有很好地表示。我们表明，我们的部分为基础的先验可以协助生成过程和扩展发电机基于学习的形状合成。Li等 [28]提出了一种自顶向下和面向结构的方法来生成3D形状。他们使用自动编码器学习形状的对称层次结构[46]层次结构的节点独立地用部件实例化。然而，这些部分不一定是连接的，并且它们的聚合不形成连贯的连接形状。在我们的工作中，形状作为一个整体连贯地生成，并特别注意部件之间的关系及其连接。与我们的工作最相关的是Nash和Williams的形状变分自动编码器[34]，其中开发了基于点云的自动编码器来学习低维潜在空间。然后，可以通过在学习空间中采样向量来生成新的形状。像我们的方法一样，生成的形状被分割成语义部分。然而，相反，它们需要训练形状之间的一对一的密集对应，因为它们将形状表示为顺序向量。他们的自动编码器学习整体（全局）3D形状，而不关注局部细节。我们的方法特别关注生成的部件及其组成。逆过程建模的目的是从给定的一组样本中学习生成过程。最近的一些作品，例如，[38，52，39]集中于开发神经模型，例如自动编码器，以产生形状合成过程或程序。然而，目前的逆过程建模方法并没有被设计成生成远离样本的看不见的数据。基于汇编的合成。Funkhouser等人的早期和开创性的工作。[14]通过从存储库中检索相关形状、提取形状部分并将它们粘合在一起来组成新形状。许多后续工作[5，42，7，23，48，24，12，19]通过考虑零件关系或形状结构的更复杂的技术来改进建模过程，例如，使用贝叶斯网络或模块化模板。我们参考最近的调查[32，33]，以了解这些和相关工作的概述。在图像领域，最近的作品[29，3]开发了神经网络来从现有组件组装图像或场景。这些作品使用了一个滤镜[22]来将组件组成一个连贯的图像/场景。在我们的工作中，一个集成的先验信息，regarding数据生成过程中的一个例子。与以前的作品相比，我们首先合成部分使用多个生成AE，然后采用一个合成器组成的部分。最近的并行工作[9，27]还提出了使用基于部分的先验但基于体素化表示的深度神经网络进行形状建模。Dubrocket等人[9]将形状编码到分解的嵌入空间中，其中形状组合和分解成为嵌入坐标上的简单线性虽然这项工作并没有追求生成多样性，但Li等人的网络。[27]还将零件生成与装配结合起来。他们的结果强化了我们的前提，即使用部分合成和合成的形状生成确实提高了多样性，这是用他们工作中的初始分数来衡量的。3. 方法在本节中，我们介绍了CompoNet，我们的生成模型，它学习合成可以表示的形状。8762由不同部分组成的。在训练时，每个形状都被预先分割为其语义部分，并且我们假设这些部分彼此独立。因此，每个部分的组合都是有效的，即使训练集可能不包括它。如图2所示，CompoNet由两个单元组成：零件的生成模型和将生成的零件组合成全局形状的单元。3.1. 零件综合单元我们首先训练一个生成模型，分别估计每个部分的边际分布。在2D的情况下，我们使用标准的VAE作为部分生成模型，并为每个语义部分训练一个单独的VAE。因此，每个部分都被馈送到不同的VAE中，并被映射到一个单独的潜在分布。编码器由几个卷积层组成，后面是Leaky-ReLU激活函数。编码器的最后一层是产生潜在分布参数的完全连接层。使用重新参数化技巧，对潜在分布进行采样和解码，以重建每个单独的输入部分。解码器镜像编码器网络，应用一个完全连接的层，然后是具有ReLU非线性函数的转置在3D的情况下，我们借用Achlioptas等人的想法。文[1]中，用AE+GMM代替 VAE，用GMM近似AE的潜空间编码器基于PointNet [36]架构，解码器由全连接层组成。零件合成过程在图2零件合成单元中可见。一旦训练了部件合成单元，部件编码器就被固定，并且用于训练部件合成单元。3.2. 零件组成单元这个单元把不同的部分组合成一个连贯的形状。给定形状及其部分，其中缺失部分由空形状表示（即，零），预训练的编码器编码相应的部分（在图2中以蓝色标记）。在训练时，这些生成的代码被馈送到组合网络中，该组合网络学习产生每个部分（尺度和平移）的变换参数，使得所有部分的组合形成连贯的完整形状。损失度量输入形状和合成形状之间的相似性。我们在2D域中使用Intersection-over-Union（IoU）作为我们的度量，在3D域中使用Chamfer距离，其中Chamfer距离由下式给出：Σ2Σ 2d（Q，P）=min（q-p）+min（p-q），（1）合成网络不仅基于部分代码来学习合成，而且还依赖于输入噪声向量。这个网络本身是另一个生成模型，根据语义部分的代码从噪声中生成尺度和翻译这种附加的生成模型丰富了生成形状的变化，超出了零件的生成。3.3. 新型形状生成在推理时，我们从正态分布中对组成向量进行采样。在2D情况下，由于我们使用VAE，因此我们也从正态分布中采样部件代码。对于3D，我们对每个部分的代码进行采样，它的GMM分布，随机抽样的高斯之一。当生成一个新的形状与丢失的部分，我们使用的部分的零向量的嵌入，并合成的形状从该复合特征向量;请参见图3。我们将表示部件的潜在向量的每个部分从部件合成单元馈送到其相关联的预先训练的解码器并行地，整个形状表示向量被馈送到组合网络，以生成每个部分的缩放和平移参数然后，根据生成的变换对合成的部分进行扭曲，并将其组合以形成新颖的形状。4. 体系结构和实施细节我们的基于部分的合成的骨干架构是AE：VAE用于2D和AE+GMM用于3D。4.1. 零件生成2D投影假设输入部件具有一个大小64×64×1。我们将C（k）（TC（k））表示为2D卷积（转置卷积）层，其中k个滤波器的大小为5×5，步长为2，然后进行批量归一化，Leaky-ReLU（ReLU）激活。具有k个输出的全连接层由L（k）表示。编码器采用2D部分作为输入，具有C（8）−C（16）−C（32）−C（64）−L（10）结构。解码器将编码器镜像为L（1024）-TC（32）-TC（16）-TC（8）-TCS（1），哪里在最后一层，TCS，我们省略了批量归一化和重新通过Sigmoid激活放置ReLU解码器的输出大小等于2D部分输入（64×64×1）。我们使用亚当优化器，学习率= 2e−4，β1= 0。5和β2=0。999批量大小设置为64。三维点云。我们的输入部分被假设为每个部分具有固定数量的点不同的部分可以Cq∈Q p∈Pp∈P q∈Q不同的点，但这成为不可变的，一旦训练已经开始。我们用了400点每部分。我们-其中P和Q是表示3D的点云形状.请注意，合成网络产生一组仿射（相似性）变换，这些变换应用于输入部分，并且不直接合成输出。注意MP作为特征方面的最大池化层，1DC（k）作为具有大小为1和步幅为1的k个滤波器的1D卷积层，随后是批量归一化层和ReLU激活函数。编码器采用400×3的器件8763作为输入。编码器结构为1DC（64）−1DC（64）−1DC（64）−1DC（128）−1DC（64）−MP。解码器由完全连接的层组成。我们将L（k）表示为具有k个输出节点的全连接层，批归一化层和ReLU激活函数。解码器将大小为64的潜在向量作为输入。解码器结构为L（256）-L（256）-LC（400×3），其中在最后一层LC中，我们省略了批量归一化层和ReLU激活功能。解码器的输出大小等于输入（400×3）。对于每个AE，我们使用具有20个高斯的GMM来模拟它们的潜在空间分布。我们使用Adam优化器，学习率=0。001，β1=0。9和β2=0。999批量大小设置为64。4.2. 部分组合物2D. 合成网络通过相关的预训练VAE编码器对每个语义部分进行编码，为每个部分生成一个10合成噪声矢量设置为8维。部分代码与噪声连接在一起，产生48维矢量。合成网络结构为 L （ 128 ） −L （ 128 ） −L（16）。每个全连接层后面是一个批量归一化层，ReLU激活函数，以及保持率为0的Dropout层。8、除了最后一层。最后一层输出一个16维矢量，每个部分四个值。这四个值表示x和y轴上的缩放和平移。我们使用[22]建议的网格生成器和采样器来执行微分变换。比例初始化为1，平移初始化为0。我们使用每部分IoU损失和Adam优化器，学习率=0。001，β1=0。9和β2=0。999批量大小设置为64。3D. 合成网络通过相关的预训练AE编码器对每个语义部分进行编码，为每个部分生成64维向量。合成噪声向量被设置为大小16。部分码与噪声向量连接在一起，产生272-dim向量。组成网络结构为L（256）-L（128）-L（24）。每个全连接层后面都是一个批量正常-化层和ReLU激活功能，除了最后一层。最后一层输出一个24维矢量，每个部分六个这六个值表示x、y和z轴上的缩放和比例初始化为1，平移初始化为0。然后，我们重塑输出向量以匹配仿射变换矩阵：sx0 0tx点我们使用倒角距离损失和Adam opti- mizer，学习率= 0。001，β1= 0。9和β2= 0。999批量大小设置为64。5. 结果和评价在本节中，我们分析了将生成方法应用于2D和3D形状集合的结果。5.1. 数据集预计COSEG。我们使用COSEG数据集[40]，该数据集由300个花瓶组成，分割为四个不同的语义标签：顶部、把手、瓶身和底座（每个花瓶可能包含或不包含任何这些部件）。与[13]中的投影程序类似，每个花瓶从主视图投影，构成300个大小为64×64，其中每个语义部分存储在不同的通道中。此外，我们还创建了四个集合，每个集合部分通过找到它们的轴对齐边界框并将其拉伸到64×64分辨率来规范化零件。形状网对于3D数据，我们选择在ShapeNet部件数据集的点云上演示我们的方法[50]。我们选择关注两个类别：椅子和飞机。与3D体素相比，点云可以实现更高的分辨率，同时保持模型的复杂性相对较低。与2D情况类似，每个形状都被划分为语义部分（主席：腿，背部，座椅和扶手，飞机：机尾、机身、发动机和机翼）。我们首先将每个形状归一化为单位正方形。我们要求每个点云中的点数量相等N，因此，我们对每个部分随机采样N=400个点。如果一个零件由M N组成，点，我们随机复制它的N-M个点（因为我们的非局部操作只执行最大全局池化，点的复制对形状的嵌入没有影响）。这种随机抽样过程发生在每一个时期。为了保持形状及其部分之间的一致性，我们首先将原始部分归一化为单位正方形，然后才对选择的相同点进行采样（或复制）以生成完整的采样形状。可见和不可见的分裂。为了正确评估生成模型的多样性，我们将生成的集合分为两个子集：（i）训练（可见）集和（ii）不可见集。术语“看不见的”强调的是，与名义上划分为训练集和测试集不同，看不见的集合在训练集中不能很好地表示。因此，通过整体方法，在看不见的集合和训练集合之间存在着不可弥合的差距为了避免评估过程中的偏差M=0好的0 0sztz中国（2）我们为每一个可见和不可见的分裂，百分比（例如，3D情况下，15% - 85%可见-不可见;参见表1）。在2D的情况下，由于数据集要小得多，在点云上执行仿射变换的任务很简单，我们只需将1连接到每个点（x，y，z，1），然后将变换矩阵乘以每个点。我们在训练集和未见过集之间使用50%-50%的分割。在这两种情况下，看不见的集合用于评估模型生成不同形状的能力。8764图4：由我们基于零件的生成网络CompoNet生成的3D形状的代表性样本图5：CompoNet生成的10个随机采样花瓶的图库（顶行）和下面，它们来自训练集的3个最近邻，基于像素级欧氏距离。可以观察到生成的花瓶与其最近的邻居不同。5.2. 基线对于2D形状，我们使用朴素模型-单通道VAE。它的结构与VAE部分相同，潜在空间为48-dim.我们将数据的二进制表示（轮廓）作为输入。我们使用亚当优化器，学习率= 2e−4，β1= 0。5和β2= 0。999 的批量大小设置为64。在3D的情况下，我们使用两个基线;(i)点云的WGAN-GP [16]和（ii）AE+GMM模型[1]，该模型产生了显著的三维点云结果。我们使用每个零件400个点的数据集（每个形状1600×3）训练基线模型我们使用[1]官方实现和参数，其中还包括WGAN，GP执行。5.3. 定性评价我们在 2D 数据和 3D 点云上评估我们的网络CompoNet图4显示了一些生成的3D结果。与其他朴素的方法不同，我们能够生成超出经验分布的多功能样本。为了可视化的通用性，我们在训练集中生成的样本的最近邻居。如图5所示，对于2D情况，我们的生成方法生成的样本与最接近的训练样本不同。在图6中，我们还比较了这种定性多样性度量与基线[1]，表明我们生成的样本与训练集中最近的邻居相比，与基线生成的样本相比，更明显。在下面的部分中，我们将量化此属性。更多生成的结果可以在补充材料中找到。5.4. 定量评价我们量化我们的模型的能力，以产生现实的看不见的样本使用两个新的指标。为了评估我们的模型，我们使用了来自训练模型和基线的5，000个随机采样的形状。k-集合覆盖。我们定义集合B对集合A的k-集合覆盖率为来自A的形状是B中某个形状的k-最近邻居之一的百分比P。因此，如果集合B仅与集合A的一小部分相似，则k-集合-覆盖将很小，反之亦然。在我们的例子中，我们使用倒角距离计算最近的邻居。在图7中，我们通过生成的数据和基线[1]生成的数据比较了看不见的集合和训练集合的k-集合覆盖率。很明显，基线更好地覆盖了训练，因为它的大多数样本都靠近它。然而，看不见的集合被基线覆盖得很差，对于所有k，而我们的方法在生成可见样本和不可见样本之间进行平衡。多样性我们开发了第二种方法来量化生成的未见过的数据，该方法依赖于经过训练的分类器来区分训练集和未见过的数据集。然后，我们测量生成的形状被分类为属于看不见的集合的百分比。分类器架构是编码器从训练过程的部分合成单元的直接适配，随后是在看不见的集合和训练集合之间进行分类的完全连接的层（参见补充文件以获得详细信息）。表1显示了通过我们的方法和两条基线生成的花瓶、椅子和飞机的一些分类结果。我们可以观察到，当看到的集合相对较小时，例如，5%或15%的总数，我们的模型显然表现得比基线更好，在生成性差异方面而在这一点上，则是以更高的层次来展现。然而，随着所见集合的大小增加，8765基线[1]图6：多样性的定性比较两种方法生成的数据（第一行）都是真实的。然而，在训练集中搜索生成数据的最近邻居（第二到第四行）表明，与基线[1]（左侧）相比，我们的方法（右侧）表现出更大的多样性请注意，基线类别花瓶椅子飞机VAE0.3±0.08--wgan-GP-0.67±0.020.66±0.03AE+GMM [1]-0.61±0.030.67±0.12我们0.46±0.080.76±0.060.8±0.02(a) 2D花瓶：50%-50%（可见-不可见）; 3D：15%-85%（可见-不可见）图7：椅子（左）和飞机（右）点云集合的k-集合-超额比较我们在我们的方法和基线[1]中生成相同数量的样本，并通过它们计算训练集和未见过集的k-集覆盖率虽然基线几乎完美地覆盖了训练集，但它对看不见的集合的覆盖率较低。我们的方法CompoNet在生成类似于训练集和看不见的集的样本之间进行平衡。例如，在一个实施例中，到30%，我们的方法和基线之间的差异变得更小。我们认为，这种趋势并不反映我们的方法开始生成较少多样性的样本，而是看不见的集合变得与可见的集合更加相似，因此其本身的多样性降低。为了可视化生成的样本对可见/不可见区域的覆盖，我们使用分类器训练和看不见的布景已经超过了-(b) 5%-95%（可见-不可见）类别wgan-GPAE+GMM [1]我们椅子0.54±0.070.63±0.070.55±0.01飞机0.61±0.070.52±0.120.65±0.1(c) 30%-70%（看不见）表1：比较基线和CompoNet之间的生成多样性。我们报告了生成的样本的百分比，被归类为属于看不见的集，平均超过五个随机分裂，三个分裂百分比。重叠，反映了两组之间相似的数据虽然这两种方法都能够在重叠区域中生成看不见的样本，但基线样本偏向于训练集。相反，我们生成的样本更接近于看不见的样本。类别wgan-GPAE+GMM [1]我们椅子0.75±0.050.57±0.060.87±0.05飞机0.76±0.070.43±0.10.86±0.0487662基线[1]图8：3D数据的分类器特征空间的可视化。训练分类器以区分训练集（紫色十字）和看不见的集（绿色十字）。这两个集合在生成的空间中清晰可见。基线方法 [1] （粉色点）生成的样本与可见集相似，而CompoNet（粉色点）生成的样本位于不可见区域。类别wgan-GPAE+GMM [1]我们椅子0.3±0.020.19±0.0060.02±0.003飞机0.32±0.0160.14±0.0070.07±0.013表2：未看到的集合与CompoNet生成的样本和基线之间的JSD距离，平均超过五个随机可见-未看到的分割。JSD 詹森-香农散度是两个概率分布之间的距离度量，由下式给出：6. 结论、局限性和未来工作我们认为，有效的生成模型应该努力更多地探索既涵盖可见的，又涵盖不可见的，这意味着生成的数据既合适又多样[48]。适应性约束所生成的数据以接近来自目标域的数据，包括可见的和不可见的。多样性确保生成的数据不仅限于可见数据。我们已经提出了一种通用的方法，这是通过CompoNet实现的，CompoNet是一种由部件合成单元和部件合成单元组成的新型深度生成网络。通过从形状部件和部件组成的潜在空间中提取的随机样本进行推理，生成新的形状。我们的工作还提供了两个新的度量来评估生成模型：k集覆盖率和多样性度量，该度量量化了分类为“看不见”与“看不见”的生成数据的百分比。训练集的数据。与基线方法相比，我们的生成网络表现出优越性，但仍然有点有限的多样性，因为基于部件的方法的生成能力远未完全实现。最重要的是，我们的合成机制的一个内在限制是它仍然“在原地”：它不允许改变零件结构或在不同零件类别之间进行特征转移。例如，当所有训练图像都是左手的时，在部分合成中启用简单的对称切换将允许生成右手图像。CompoNet可以直接应用于有机形状的生成建模。但在可扩展性方面，这种形状对连贯和平滑的部件连接提出了更严格的要求，这是我们目前的方法没有考虑到的问题。完善零件连接可以是后处理。学习任务的深度模型是值得的JSD（S||T）= 12D（S）||M）+1名D（T||（3）2追求未来的工作。我们目前的方法也是有限的，由空间变换所允许的dupdur-其中S，T是概率分布，M=1（S+T），D是KL-散度[26]。在[1]之后，我们通过计算位于每个点云内的点的数量来定义一组点云的占用概率分布。在一个规则的体素网格体素。假设点云是标准化和轴对齐的，两个这样的概率之间的JSD因此，我们计算未知集合的概率矩阵，并将其与我们的方法和基线生成的样本的概率矩阵进行比较。结果总结在表2中，清楚地表明我们生成的样本更接近于看不见的集合结构。使用的体素的数量是283，如[1]中所示，并且所有点云集的大小都是相等的。组成部分。因此，我们只能处理人造形状，而没有部分接合。作为更直接的未来工作，我们希望将我们的方法应用于更复杂的数据集，其中部分可以在学习过程中定义。总体而言，我们认为，除了基于零件的先验信息之外，更多的研究应该集中在其他世代相关的先验信息上。在这条线上，我们设想fit-n-diverse方法，具有生成多样性，将形成创造性建模的基线[8]，可能允许不同对象类别之间的部分交换这可能涉及某些知觉研究或分数，以判断创造力。令人信服的挑战是如何定义一个具有足够多样性的生成神经网络，以跨越创造性的界限[11]。椅子飞机8767引用[1] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas J Guibas.学习三维点云的表示和生成模型。arXiv预印本arXiv：1707.02392，2017。二三四六七八[2] Sanjeev Arora，Rong Ge，Yingyu Liang，Tengyu Ma，and Yi Zhang.生成对抗网（GAN）中的泛化和均衡。在proc Int. Conf. 机器学习，第70卷，第224-232页，2017年。3[3] Samaneh Azadi，Deepak Pathak，Sayna Ebrahimi，andTrevor Darrell.构图原则：学习有条件的图像构图.arXiv预印本arXiv：1807.07560，2018。二、三[4] David Berthelot Thomas Schumm和Luke Metz。开始：边界平衡生成对抗网络。 arXiv 预印本 arXiv ：1703.10717，2017. 3[5] Martin Bokeloh，Michael Wand，and Hans-Peter Seidel.部分对称和逆过程建模之间的联系。ACM Transactionson Graphics（TOG），29（4）：104：1-104：10，2010。3[6] Siddhartha Chaudhuri，Evangelos Kalogerakis，LeonidasGuibas，and Vladlen Koltun.基于装配体的三维建模的概率推理。ACM Trans. on Graphics，30（4）：35：1-35：10，2011. 2[7] Siddhartha Chaudhuri 和 Vladlen Koltun 数据驱动的Suggestion，用于3D建模中的创造性支持。ACM Trans.on Graphics，29（6）：183：1-183：10，2010. 3[8] Daniel Cohen-Or和Hao Zhang。从灵感造型到创意造型。The Visual Computer，32（1）：18[9] 阿纳斯塔西娅·杜布罗茨，飞侠，帕诺斯·阿克里奥普塔斯，米拉·沙拉，列奥尼达·吉巴斯.基于潜在空间分解的复合形状建模。 arXiv 预印本 arXiv ： 1901.02968 ，2019。3[10] Ishan Durugkar，Ian Gemp，and Sridhar Mahadevan.生成多对抗网络。arXiv预印本arXiv：1611.01673，2016。3[11] AhmedM. Elgammal ， BingchenLiu ， MohamedElhoseiny，and Marian Mazzone. CAN：创造性对抗网络，通过学习风格和偏离风格规范来创造CoRR，abs/1706.07068，2017。8[12] Noa Fish，Melinos Averkiou，Oliver van Kaick，OlgaSorkine-Hornung，Daniel Cohen-Or和Niloy J.米特拉形状族的元表示。ACM Trans. on Graphics，33（4）：34：1-34：11，2014. 3[13] Noa Fish，Oliver van Kaick，Amit Bermano，and DanielCohen-Or.面向结构的形状集合网络。ACM Transactions on Graphics （ TOG ）， 35 （ 6 ）：171，2016。5[14] Thomas Funkhouser、Michael Kazhdan、Philip Shilane、Patrick Min 、 William Kiefer 、 Ayellet Tal 、 SzymonRusinkiewicz和David Dobkin。通过实例建模。ACM Trans. on Graphics，23（3）：652-663，2004。3[15] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第26723[16] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统（NIPS）进展，第5769-5779页，2017年。三、六[17] Quan Hoang 、 Tu Dinh Nguyen 、 Trung Le 和 DinhPhung。多生成器生成对抗网。arXiv预印本arXiv：1708.02556，2017。3[18] 唐纳德D霍夫曼和惠特曼A理查兹。部分认知。认知，第65-96页，1984年。一、二[19] 黄海滨，Evangelos Kalogerakis，和Benjamin Mar-lin.通过深度学习的表面生成模型分析和合成3D形状族。计算机图形学论坛，第34卷，第25-38页。Wiley OnlineLibrary，2015. 3[20] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。 ACM Trans. onGraphics，36（4）：107：1-107：14，2017. 3[21] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页，2017年。3[22] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。神经信息处理系统的进展，第2017-2025页，2015年。二三五[23] Evangelos Kalogerakis，Siddhartha Chaudhuri，DaphneKoller，and Vladlen Koltun.基于构件的形状合成的概率模型。ACM Trans. on Graph-ics，31（4）：55：1-55：11，2012. 二、三[24] 弗拉基米尔·G放大图片作者：Kim，Wilmot Li，Niloy J.Mitra ， Siddhartha Chaudhuri ， Stephen DiVerdi ， andThomas Funkhouser.从大量3D形状中学习基于零件的模板。ACM Trans. on Graphics，32（4）：70：1-70：12，2013. 3[25] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。在Proc. Int. Conf.关于学习代表，2014年。2[26] 所罗门·库尔贝克和理查德·A·莱布勒。关于信息和充足性。 Ann. 数学中央集权主义者，22（1）：798[27] 李俊，牛成杰，徐凯。结构感知形状合成的学习零件生成和装配arXiv预印本arXiv：1906.06693，2019。3[28] Jun Li，Kai Xu，Siddhartha Chaudhuri，Ersin Yumer，Hao Zhang，and Leonidas Guibas. Grass：用于形状结构的生成递归自动编码器。ACM Transactions on Graphics（TOG），36（4）：52，2017。二、三[29] Chen-Hsuan Lin ， Ersin Yumer ， Oliver Wang ， EliShechtman，and Simon Lucey.St-gan：用于图像合成的空间Transformer生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第9455-9464页，2018年。二、三[30] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.使用部分卷积的不规则孔图像修复。 arXiv 预印本 arXiv ：1804.07723，2018。38768[31] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗网络。计算机视觉（ICCV），2017年IEEE国际会议，第2813IEEE，2017年。3[32] Niloy Mitra，Michael Wand，Hao Zhang

下载后可阅读完整内容，剩余1页未读，立即下载