使用多投影生成对抗网络合成3D图像

31 浏览量更新于2023-10-19 收藏 1.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1使用多投影生成对抗网络从剪影图像集合合成3D图像小李1、2、岳东2、彼得·皮尔斯3、辛彤2、1中国科学技术大学2微软亚洲研究院3威廉玛丽摘要我们提出了一种新的基于弱监督学习的方法，用于从未遮挡的图像集合中生成新的类别特定的3D形状。我们的方法是弱监督的，只需要从未遮挡的，特定类别的对象的轮廓注释。我们的方法不需要访问对象的3D形状，从不同的视图，图像内像素对应，或任何视图注释的每个对象的多个我们方法的关键是一种新型的多投影生成对抗网络（MP-GAN），它训练3D形状生成器与3D形状的多个2D投影保持一致，而无需直接访问这些3D形状。这是通过多个鉴别器来实现的，所述鉴别器对从不同视图看到的3D形状的2D投影的分布进行编码。此外，为了确定每个轮廓图像的视图信息，我们还训练了一个视图预测网络，该网络基于生成器合成的3D形状的可视化。我们迭代地交替训练生成器和训练视图预测网络。我们在合成和真实图像数据集上验证了我们的多投影GAN。此外，我们还表明，多投影GAN可以帮助从低维训练数据集学习其他高维分布，例如图像中特定于材料类别的空间变化反射特性。1. 介绍学习从一类物体合成新的3D形状是一个具有挑战性的问题，在计算机视觉中有许多应用，从单个图像3D重建[6，9，25，32，37]，到形状完成[36]，再到3D形状分析[34]。通常，这样的方法在参考3D形状上训练，或者在来自具有标记的像素对应和/或具有视点信息的不同视点的图像上训练。为新的对象类别创建这样的训练集是劳动密集型的和繁琐的。本文我们提出了一种新的弱监督方法，用于学习从未被遮挡的轮廓图像集合生成3D形状，而不依赖于参考3D形状、对应关系或视图注释。学习从不受控制的来源收集的图像集合合成3D形状的一个关键挑战是，我们不能指望从不同的视角对同一对象进行多次观察;我们只有来自不同视图的对象的图像分布的样本。我们使用一种新的生成对抗网络（GAN）架构来克服这个实际问题，该架构从对象的轮廓图像的多个独立采样的低维分布中学习3D形状的高维分布。轮廓图像的每个低维分布与高维3D形状之间的关系由“投影”表征，并且所得到的多投影GAN架构针对每个投影采用不同的区分器，该区分器对相应投影的轮廓图像分布的特性进行直观地说，所提出的多投影GAN学习3D形状的分布，其中每个视点的可视化与同一视图的训练轮廓图像的相应（独立）分布相匹配。第二个关键挑战是视点信息通常不可用于“在野外”收集的训练图像为了解决这一挑战，我们利用视图预测网络来推断每个训练图像的视图信息。理想情况下，视图预测网络应该由我们的生成器合成的3D形状类型进行训练。然而，这会产生循环依赖性，因为3D形状生成器需要视图预测网络从剪影图像进行训练。我们通过以迭代交替的方式联合训练两个网络来重新解决这个困境，从而产生对训练数据上的非均匀视点分布（即，我们不对视点分布做我们的方法有利于从弱监督的真实世界图像集合55355536与剪影注释，从而大大降低了成本，学习新的对象类别的3D形状生成器。我们展示了我们的多投影GAN的优势，在合成数据集和真实世界的剪影图像集合上联合训练的视图预测网络。此外，我们证明了多投影GAN可以推广到帮助从低维图像观察中学习其他类型的高维（非图像）分布，例如学习空间变化的材料反射率参数的2. 相关工作在过去的几年中，已经提出了各种基于深度学习的方法用于3D形状生成。这些方法可以大致分为三类。第一类方法依赖于用于训练的大量参考3D用于使用VAE-GAN生成3D体素形状[34]，用于形状完成[36]，或用于从2D图像进行3D重建[6，9，11，16，25，32，37]）。特别值得注意的是朱等人的方法。[37]其联合重建单个3D体素形状和相机姿态。第二类方法放弃了对参考3D形状的需求，并使用具有对应性的注释图像[18]或利用对象的不同视图的一致性[28，29，35]。特别值得注意的是Tulsiani等人的方法。[28]他们预测形状和观点。与所提出的方法最密切相关的是第三类方法，其从未注释的图像学习3D形状分布Gadelha等人[10]使用具有来自预定义的离散视图分布的2D轮廓图像的单个训练器来训练体素GAN。Henderson等人[14]利用变分自动编码器（VAE）从具有均匀分布视点的未注释图像生成3D网格。与Gadelha等人相反我们使用多个多维训练数据，并专注于提高训练过程的效率或稳定性相反，我们无法访问高维分布（即，3D形状），并直接从低维投影（即，图像）。3. 轮廓图像的形状分布我们的目标是学习一个3D形状分布X，在一个发电机的形式，从一个集合的uncorresponded剪影图像，遵循分布Y的一类对象。我们的解决方案（图1）由两个关键组件组成：新颖的多投影GAN（小节3.1），其使用多个鉴别器来学习3D分布X，所述鉴别器确保来自3D分布的对应2D两个网络的训练取决于另一个网络的可用性。因此，我们将首先介绍多投影GAN，假设视点的估计可用。接下来，我们介绍我们的视图预测网络和用于迭代地训练两个网络的联合训练策略3.1. 多投影GANGAN概述生成对抗网络（GAN）[2，12，24]由生成器网络G和生成器网络D组成。生成器G将从均匀分布的噪声Z采样的潜在变量z的向量作为输入，并从学习的分布X生成样本。该算法判断样本是否属于分布X。训练两个网络是在竞争中进行的，直到训练器无法从数据分布中区分出生成的样本。10.1.2.对可持续发展的损失的定义为：每个不同视图的鉴别器，导致更好的一代质量。与亨德森等人不同，我们建立在GAN上，而不是VAE。更重要的是，我们不需要在列车上均匀分布视点-LD（X，Z）=ΣxXlog（D（x））+ΣzZlog（1 −D（G（z），（一）这在互联网挖掘的数据集中很难实施。如我们将在第5节中所示，对于相似的形状表示，与两种先前方法相比，所提出的方法产生更高的最近，Boraet al. [4]推广了Gadelha等人的方法，并且表明可以从不同类型的有损投影训练生成模型（用于图像）。然而，Boraet al.使用单一的矩阵，导致不同分布的投影的次优合成。为了处理多个投影分布，我们的方法依赖于多个鉴别器，即，每个投影一个。我们不是第一个考虑组合多个判别器来训练GAN的人[8，23，17]。然而，所有这些现有的方法都需要访问高分辨率的图像。发电机的损耗定义为：ΣLG（Z）=log（D（G（z）。（二）zZ在3D形状生成的情况下，我们通过二进制3D体素网格来表示X中的每个为了训练3D形状GAN，需要从3D形状分布X中收集大量样本。然而，这样的集合只存在于少数对象类中。在我们的例子中，我们只有遵循分布Y的对象类的轮廓图像。Y（2D图像）的维数低于X（3D体素网格）的维数。我们假设，5537低维分布Y和高维分布X之间的关系可以通过可重构（潜在的非线性）投影来建模：Y=P（X，Φ），（3）其中Φ是投影的潜在参数（例如，内部和外部相机参数），其对与目标分布X无关的任何外部因素进行建模。为了学习3D形状分布，投影P从3D体素形状生成轮廓图像。实际上，我们遵循Tulsiani等人的方法。[29]确切地说：给定一个3D体素形状和视点，我们首先使用光线投射计算每个体素的光线相交概率接下来，将轮廓计算为沿z轴的相交概率的期望值多投影GAN通常，除非高维分布X占据低维嵌入，否则单个低维投影将导致信息损失，因此不能明确地确定目标分布X。例如，在没有先验知识的情况下，我们不能从来自单个视图的轮廓重建3D形状的分布。即使在考虑多个视图（通过投影Φ的潜在参数建模）时，单个插值器也不太可能能够以足够的精度对所有视图上的联合分布进行建模。因此，我们考虑具有对应的投影样本分布Yi和相关联的鉴别器Di的多个投影P i。我们将每个节点的组合损失函数定义为：Σ图1. （a）多投影GAN包括生成器 G，其将从均匀分布Z采样的潜在变量z的向量作为输入，并从目标分布X生成样本。生成器G在与多个鉴别器Di，其评估样本的投影Pi是否属于投影的目标分布Yi。投影Pi涉及来自X的高维样本（例如，体素形状）到较低维样本Yi（例如，轮廓图像），并且其可以将其自身的潜在参数（pixeli）表征为独立于X的模型参数（例如，视点变化）。（ b ）视图预测网络 V 估计来自silhouette图像Y的视点，其随后被聚类和合并，（c）并且被分配给对应的视点的训练集。我们迭代地交替训练两个网络。不同鉴别器的样本不需要对应于相同的对象或潜在投影参数。选择抽取哪些样本进行训练，LDi（ Yi，Z）=yYiΣlog（Di（y））+（4）log（1−D（P（G（z），n）。（五）每个SNR也不影响发生器的损失函数。从实际的角度来看，这使我们能够用以下图像集合来训练3D形状生成器：我我zZ，Φi从不同的视角观察不同的对象，而不需要任何明确的对应关系。同样，我们将发电机的损耗定义为：LG（ Z）Σ ΣizZ，Φilog（Di（Pi（G（z），G（z），（6）区别判别器要求我们还观察到，用于训练多投影GAN的投影的良好选择是那些投影数据分布如下的投影：其中我们从Z中随机抽取潜变量z，来自分布Φi的潜在投影参数情况有很大不同。事实上，如果两个预测P（X，Φ）和P（X，Φ）彼此相似，则a a b b在从轮廓图像生成3D形状的情况下，分布Φi包含投影到相似轮廓的视点集合（即，以考虑视图校准中的误差）。图1（a）概述了我们的3D形状生成多投影GAN，称为MP-GAN。我们的多投影方法的优点在于，第i个样本的损失函数（等式5）仅取决于从Yi提取的样本。因此，可以从独立地从每个Yi抽取样本来训练每个训练器。因此相应的鉴别器将学习相同的分布。因此，根据等式5，两个判别器将类似地影响生成器的训练。因此，两个相似的投影应作为一个投影：P（X，Φ）= P a（X，Φ a）<$P b（X，Φ b），Φ= Φ a <$Φ b.（七）具体地，对于3D形状建模，视点的大差异可以产生显著不同的轮廓图像分布。因此，需要不同的鉴别器5538对于大的视点差异。相比之下，小的视点变化产生非常相似的轮廓分布，因此我们可以将相似视图的鉴别器组合在一起，并通过潜在投影参数Φ对视点变化进行建模。因此，3D形状的多投影GAN不需要完美的视点估计;我们将在训练生成器和视点预测器时利用这一属性（3.2小节）。3.2. 视图预测和聚类MP-GAN中的多鉴别器Di和投影Pi需要关于哪些轮廓图像属于哪个分布Yi以及由潜在投影参数建模的对应视点的知识I.深度视点估计中的先前工作依赖于标记的训练数据或来自已知的3D形状集合[20，26，33]或多视图对应关系[28]。这些方法都不直接适用于我们的输入训练数据集。为了估计视点，我们利用在通过投影由生成器G合成的3D形状获得的大量参考轮廓图像（具有视点）上训练的视图预测网络。为了鲁棒性，我们将可能的视点空间离散为16个预定义的“view-bins”输出视图概率向量的问题。理想情况下，每个视图箱对应于一个投影和一个相关的投影（公式5）。分配给视图箱的轮廓图像用作相应的训练集。然而，取决于训练数据上的视点分布，并非所有的视图仓都将包含足够数量的训练图像来训练器。因此，代替使用所有视图仓，我们利用等式7中表达的观测值，并且将附近视图合并到预定固定数量的视图集群。实际上，我们对训练剪影图像的预测离散化视图概率向量执行K均值聚类我们使用视图概率向量而不是估计的视点来更好地处理不确定的情况（例如，前视图和后视图产生相同的细孔）。结果将是一组视点分布（作为聚类中心）和每个训练图像的唯一聚类ID我们直接使用分配给第i个聚类的轮廓图像的估计视点作为潜在投影视点分布Φi，以确保（合成的）投影分布遵循训练轮廓数据的固有分布。联合训练多投影GAN和视点预测分类器都需要另一个进行训练（即，多投影GAN需要视点估计，图2. VP-MP-GAN培训概述。从单个轮廓GAN开始，我们在训练视点分类器（基于由生成器G产生的训练图像）和训练MP-GAN（基于使用视点分类器V针对轮廓图像预测的视点）之间迭代地交替。并且视图预测分类器需要用于训练的GAN生成的3D形状）。我们通过以迭代的方式联合训练两者来解决这个难题，在这种方式中，我们在训练一个网络的同时保持另一个网络不变。我们引导这种迭代联合方法，通过训练初始生成器，使用单块3D形状GAN，假设均匀分布的视点用于训练块。我们将使用联合视点预测训练的多投影GAN称为VP-MP- GAN。图2总结了我们的完整管道。4. 实施和培训网络结构我们遵循Wu等人的3D体素生成器网络结构。[34]其采用从N（0，1）采样的输入向量，并通过3D卷积和上采样层的序列输出64×64×64体素网格呃。我们在每个卷积和上采样层之后使用批量归一化，并使用ReLU激活函数。鉴别器以64×64的二值轮廓图像作为输入，并输出单个标量概率值。每个卷积码包含4个卷积块，步长的值为2，然后是一个完全连接的层。我们分享第一卷积层之间的不同的区分，nators，并使用LeakyReLU激活函数对每个层进行频谱归一化[22]。视图预测网络与鉴别器共享相同的卷积结构，但是使用批量归一化而不是频谱归一化，并且输出16个离散化视图仓的概率。详细的网络结构可参考补充资料.训练数据我们在四个不同的数据集上展示了我们的方法：一个用于验证和消融研究的合成数据集，以及三个不同的真实世界数据集。该syn-5539thetic数据集由来自ShapeNet数据集的6000个3D形状的椅子的40000个渲染轮廓图像组成[5]。所有的轮廓都是从没有仰角和均匀分布的方位角的在[0，2π]中。三个真实世界的数据集是：从互联网图像存储库和Pix 3D中挖掘出的122，000张椅子图像[27]，从互联网图像存储库中挖掘出的136，000张汽车图像的数据集加上斯坦福汽车数据集[19]，以及122 ， 000 张鸟类图像的数据集（ CUB-Birds-200-2011）[30]。对于Pix 3D和CUB-Birds-200-2011，我们直接使用数据库中提供的轮廓蒙版（但我们不使用额外的标签）。此外，对于CUB-Birds-200-2011，我们还删除了特写视图和遮挡图像，因为它们的轮廓不提供完整的形状信息，以及具有张开翅膀的鸟类的图像，因为这些图像的稀缺性。对于来自其他来源的图像，我们使用现成的分割网络[13]提取轮廓，并手动重新移动具有损坏掩模的实例。实现细节我们在TensorFlow中实现了我们的多投影形状GAN框架[1]。对于所有实验，生成的网络都使用ADAM优化器进行训练，学习率为10−4，β1= 0。五、β2=0。9，生成器和鉴别器，批量大小为32。对于每次训练迭代，我们生成一批体素形状，对于每个生成的形状和投影，用随机采样的视点（θΦi）绘制轮廓图像。此外，我们还从每个投影对应的训练集中抽取一批样本。在反向传播期间，来自每个鉴别器的梯度被平均以驱动生成器训练（等式6）。我们将VP-MP-GAN中的视点预测限制到方位角，因为大多数收集的图像由方位角的视点变化主导。我们将方位角范围[0，2π]分成16个均匀分布的视图仓。对于视图分类器训练，我们随机地合成大小为10，000的3D形状，并为每个视图箱内的随机视图生成轮廓图像，在每个时期产生总计160，000个我们将所有实验的视图分布聚类为8个聚类，并将每个聚类的视图分布Φi存储在直方图中。为了避免离群值，我们删除所有概率小于10%的bin并重新归一化分布。由于轮廓图像的内在模糊性，许多视点（例如，前后轮廓看起来相同），则生成的形状可能不对齐。虽然多投影GAN仍然可以在没有对准的情况下学习3D形状分布，但是这种模糊性使得来自不同视图的silhouette图像不太明显，从而降低了多个鉴别器的有效性。对于具有已知对称性的数据集，我们可以利用此先验表1. MP-GAN的FID得分[15]在椅子的合成训练数据上训练，具有不同数量投影的参考视点估计。Num. 的鉴别器124681624FID评分79.6149.9336.2234.2233.2732.4529.45通过明确地建模对称性的知识。在实践中，我们通过仅生成体素形状的一半并在对称轴上镜像剩余的一半来在我们的实验中，我们对椅子和汽车数据集强制对称;但对于呈现非对称姿态的鸟数据集则不是。训练VP-MP-GAN在643的分辨率需要平均40小时4英伟达GTX 1080Ti卡。5. 实验为了验证我们的3D形状生成器，我们进行了一项消融研究，以证明投影和视图集群数量的影响（第5.1节）。此外，我们还对三种相关方法进行了比较（5.2小节）.最后，我们证明了我们的解决方案在非合成图像集合上工作得很好（5.3小节）。5.1. 消融研究我们在合成椅子数据集（第4节）上进行消融研究，我们也有参考3D形状（不用于训练）。在这项研究中，我们使用FID评分[15]定量评估生成结果的质量，其中现有的体素分类网络[21]在ShapeNet数据集[5]上训练作为特征提取器。预测数量的影响分析其质量我们在预定义数量的视图分布上训练MP-GAN，并将训练图像预先分配给通过合并附近的视图箱而表1总结了MP-GAN针对不同数量的投影（以及因此的判别器）的FID分数。注意，MP-GAN针对单投影情况恢复到常规单投影GAN。我们观察到，随着投影数量的增加，FID分数降低，因此发生器质量提高。然而，我们也观察到收益递减（例如，在16和24个投影处），当随着投影分布之间的差异减小而增加固定数量的训练数据我们重复上述实验，但这次是在VP-MP-GAN上（即，具有视图预测）在未注释的训练轮廓图像上。表2列出了不同数量的视图集群的FID分数，这也改变了投影和判别器的数量（即，将每个投影指定给一个视图5540表2.针对不同数量的视图集群，在椅子（具有未知视点）的合成训练数据上训练的VP-MP-GAN的FID分数Num. 的集群124681624FID评分79.6153.8339.2335.2234.3234.1033.95表3.在VP-MP-GAN的训练期间，针对8个视图集群的视图分类准确性的演变。每个（交替）迭代包括40，000次GAN训练迭代和40，000次视图预测器训练迭代。“参考”列是指在具有精确视点估计的轮廓图像上训练的视图预测器准确度Num. 的迭代参考文献12345精度83.2%百分之四十二点七百分之六十六点五百分之六十九点九百分之七十三点三百分之七十五点六表4. VP-MP-GAN在5次（交替）迭代后针对不同数量的视图集群的视图分类精度。“参考”列是指在具有精确视点估计的轮廓图像上训练的视图预测器准确度Num. 的集群参考文献12468精度83.2%百分之四十二点七52.1%百分之五十四点五百分之六十六点一百分之七十五点六集群）。FID分数的上限由MP-GAN设置（表1），因为这些分数是用确切的视点训练的与上限相比，我们可以看到VP-MP-GAN的分数相似或略大。随着视图集群数量的增加，视图预测引入的不可避免的不准确性对准确性的影响更大，导致FID分数略大。如3.2小节所述，我们迭代地改进视点分类器（在16个预定义的bin上）。表3示出了具有8个视图聚类的VP-MP-GAN的每个联合训练迭代的视图预测准确度的改进。视图预测精度的提高不仅表明视图预测提高，而且表明学习的形状分布更接近目标分布。表4通过列出不同数量的视图集群的准确度（对于5次迭代）进一步证明了这一点;更多的视图聚类导致更准确的生成器，这又产生更准确的视图预测。最后，图3说明了合成椅子数据集上的视图预测分布精度。请注意，VP-MP-GAN能够学习正确的分布，其中非均匀分布的视图集中在16个bin中的8个峰值处。对于从互联网存储库收集的图像，我们的视图预测也产生了合理的结果;图4示出了针对所选视图和图像的真实世界椅子和鸟数据集的视点分类结果。5.2. 比较图 5 比较了我们的 VP-MP-GAN 与 3D-GAN[34] 和PrGAN[10]在合成椅子数据集上的结果图3.估计的视图分布（蓝色）与合成椅子数据集的视点（或范围）的参考非均匀分布的一致性的准确性。图4.为未标注的真实世界椅子和鸟类图像数据集选择视图分类训练图像为了进行公平的比较，我们将对称约束应用于两种方法，并使用我们的训练数据训练两种网络。我们还列出了作者原始实现的FID分数（括号中）以供参考。3D-GAN直接在参考3D数据上训练，因此得分略高尽管如此，我们生成的形状表现出类似的视觉质量。与我们的方法类似，PrGAN也在没有参考3D数据的轮廓图像上进行训练然而，PrGAN假设已知视点并且仅依赖于单个视点，从而导致不太准确的形状生成器。最近，Hendersonet al. [14]介绍了一种使用VAE方法从阴影图像学习3D形状分布的方法。他们的方法使用3D网格表示，而不是体素网格，使得直接比较困难。因此，我们调整和重新训练他们的方法与体素生成器，而不是一个网格生成器上的剪影图像具有均匀的视图分布，并增加了对称性约束。图5显示VP-MP-GAN产生更高质量的体素形状，并在合成椅子数据集上显示出较低的FID分数。5541图5.四种发生器的定量和定性比较：基于VAE的生成器[14]（顶部）、3D-GAN [34]（第2行）、PrGAN [10]（第3行）和VP-MP-GAN（底部）。左侧显示了相应的FID评分我们还在括号中报告了作者原始实现的FID分数图6.VP-MP-GAN在鸟上训练生成的结果数据集。5.3. 真实世界数据集上的结果我们证明了我们的方法的能力，学习的三维形状分布从现实世界的图像数据集上的三个现实世界的图像集合。图6显示了生成的鸟形状的示例。请注意，目前不存在3D鸟类形状的数据库，因此学习鸟类形状生成器的唯一方法是直接从图像中学习。图7和图8分别示出了根据从在线照片集合中挖掘的照片训练的生成的椅子和汽车的结果（不使用从ShapeNet生成的任何合成图像）。可以看出，在所有情况下，VP-MP-GAN能够从未注释的轮廓图像产生高质量的体素形状我们还参考了这些数据集上的更多结果的补充材料。图7. VP-MP-GAN生成的结果在互联网挖掘的椅子数据集上进行了训练。图8.在汽车上训练的VP-MP-GAN生成的结果数据集。局限性：VP-MP-GAN从未遮挡的轮廓图像推断3D形状的分布。与从轮廓图像推断单个形状的经典计算机视觉方法类似，我们的方法也不能对凹面进行建模，并且它需要图像中物体的完整无遮挡视图。使用深度图像而不是剪影图像可以解决这个问题。然而，我们故意没有走这条路，因为深度图像并不容易获得，需要专门捕获。6. SVBRDF建模我们的多投影GAN框架不仅限于3D形状建模，而且它可以潜在地应用于对高维数据进行建模的其他应用，对于这些应用，可以轻松访问低维投影。我们通过学习空间变化材料外观的分布，以空间变化双向反射分布函数（SVBRDF）的属性图的形式展示了多投影框架的通用性，这些属性图用于某些种类的天然材料，例如5542漫反射粗糙度法线渲染图9.与从训练中提取的样本相比，我们的多投影GAN（底部）生成的SVBRDF选择数据集（顶部）。如木材金属和塑料。SVBRDF是一个6D函数，描述了外观如何随位置、视角和入射照明方向而变化我们通过一组四个2D参数图对SVBRDF进行建模，这些2D参数图描述了每个表面点的Cook-Torrance BRDF模型漫反射反射、镜面反射、镜面反射粗糙度和表面法线）。与可以用单个照相机获取的纹理不同，材料的完整SVBRDF和表面法线细节的准确表征是一个复杂且耗时的过程[31]。然而，收集某些参数的不对应的示例图用于法线贴图的光度立体，经由交叉偏振照片的漫射立体等）。此外，从互联网照片集中很容易获得未知照明下材料的照片。这两种类型的图像都表示6DSVBRDF的投影属性贴图（漫反射或镜面反射贴图、镜面反射粗糙度贴图或法线贴图）的图像对应于“选择”单个属性贴图的平凡投影未知光照下的照片对应于“渲染”投影，其中未知的自然光照分布由潜在投影参数Φ建模。图9显示了使用我们的多投影GAN获得的（对应的）生成的外观属性映射，该映射在包含部分外观属性映射以及OpenSurfaces数据集[3]的真实照片的数据集上进行训练。图9中的最后一列显示了在新的照明条件下生成的材质的渲染。可以看出，生成的材料产生了看似合理的木材材料外观。我们参考附加SVBRDF结果的补充材料，这是一个教学性考试-使用MNIST数据集，以及技术细节，包括训练过程，网络结构，以及训练数据的收集和准备。7. 结论我们提出了一种新的弱监督的方法来学习的3D形状分布的一类对象从无遮挡的剪影图像。我们方法的关键是一种新的GAN多投影公式，它学习高维分布（即，体素网格）从多个更容易获取的低维训练数据中提取，所述低维训练数据由来自多个视点的不同对象的轮廓图像组成。我们的方法不要求多个视图的轮廓是对应的，也不要求视点是已知的。生成器网络是用来自多个鉴别器的线索并行训练的。每个训练器对与特定视点对应的训练数据的子集进行操作。我们的第二个贡献是一种新的联合训练策略，用于使用多投影GAN以迭代方式训练视图预测网络。我们证明了我们的三维体素生成器的有效性在合成和真实世界的数据集。此外，我们表明，我们的多投影框架比仅适用于3D形状建模更普遍，并通过从2D图像训练SVBRDF生成器来证明这一点。致谢感谢您发送编修。感谢他们的建设性反馈。我们也感谢郭柏宁的讨论和建议。Pieter Peers部分得到了 NSF 资助 IIS-1350323 以及 Google 、 Activision 和Nvidia的捐赠。5543引用[1] M. 阿巴迪山口Barham，J.Chen，Z.Chen，中国山核桃A.Davis，J.迪恩M. Devin，S.盖马瓦特湾Irving，M. Isard，M. 库德鲁，J. 莱文贝格河Monga、S.穆尔，D.G. 默里湾斯坦纳P. Tucker，V.Vasudevan，P.Warden，M.Wicke，Y.Yu和X.郑Tensorflow：一个大规模机器学习系统。在OSDI，第265-283页，2016中。5[2] M. Arjovsky，S.Chintala和L.博图Wasserstein生成对抗网络。在ICML，第214-223页，2017年。2[3] S. 贝尔山口Upchurch，N.Snavely和K.巴拉OpenSurfaces：表面外观的丰富注释目录。ACM Trans. on Graph. ，32（4），2013. 8[4] A. Bora、E. Price和A. G.迪马基斯Ambientgan：来自有损测量的生成模型。在ICLR，2018年。2[5] A. X. 张氏T.A. 芬克豪泽湖J. 吉巴斯山口汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. 苏肖湖，加-地Yi和F. Yu. Shapenet：一个信息丰富的3D模型存储库。arXiv，2015. 5[6] C. B. Choy，D. Xu，J. Gwak，K. Chen和S. Savarese 3d-r2 n2：一种用于单视图和多视图3d对象重建的统一方法在ECCV，2016年。一、二[7] R. L.库克和K. E.托兰斯计算机图形学的反射模型。ACM事务处理图表，1（1）：7-24，1982. 8[8] I. P.杜鲁卡岛Gemp和S. Mahadevan生成多对抗网络。arXiv，2016. 2[9] H.范，H. Su和L.吉巴斯一种从单幅图像重建三维物体的点集生成网络。在CVPR，第2卷，第6页，2017年。一、二[10] M. Gadelha，S.Maji和R.王. 从多个对象的2D视图的3D形状诱导在3D视觉国际会议上，2017年12月。二六七[11] R. Girdhar，D. F. Fouhey，M. Rodriguez和A.古普塔。学习对象的可预测和生成矢量表示。在ECCV，第484-499页，2016年。2[12] I. J·古德费洛 J. Pouget-Abadie， M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，2014。2[13] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。在ICCV，第2980-2988页，2017年。5[14] P. 亨德森和V。法拉利学习生成和重建三维网格只有二维监督。在BMVC，2018年。二六七[15] M. Heusel，H. Ramsauer，T.翁特希纳湾Nessler和S. Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。参见NIPS，第6626- 6637页，2017年。5[16] L. Jiang，S. Shi，X. Qi和J. Jia. Gal：单视图3D对象重建的几何对抗损失。参见ECCV，第820-834页，2018年。2[17] A. Kanazawa，M.J. Black，D.W. Jacobs和J.马利克端到端恢复人体形状和姿势。在CVPR中，第7122-7131页，2018年。2[18] A. Kanazawa，S. Tulsiani，A. A. Efros和J.马利克从图像集合中学习特定类别的网格重建。在ECCV，2018。25544[19] J. Krause，M.Stark，J.Deng和L.飞飞用于细粒度分类的3D对象表示在2013年3月13日5[20] F.马萨河Marlet和M.奥布莉制作用于视点估计的多任务CNN。在BMVC，2016年。4[21] D. Maturana和S.谢勒Voxnet：用于实时对象识别的3D卷积神经网络。在IROS中，第922-928页，2015年。5[22] T. 宫城，T.卡塔奥卡，M。Koyama和Y.吉田生成对抗网络的谱归一化。在ICLR，2018年。4[23] B. Neyshabur，S.Bhojanapalli和A.查克拉巴蒂用多个随机投影稳定GAN训练。arXiv，2017. 2[24] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv，2015. 2[25] A.辛哈A. Unmesh，Q. Huang和K. Ramani Surfnet：使用深度残差网络生成3D形状表面。在CVPR，第1卷，2017年。一、二[26] H.苏C. R. Qi，Y. Li和L.吉巴斯为cnn渲染：使用经渲染3d模型视图训练的cnn进行图像中的视点估计。InICCV，December 2015. 4[27] X. Sun，J. Wu，X. Zhang，Z. Zhang C.，中国古猿科Zhang ， T. Xue ， J.B. Tenenbaum 和 W.T. 弗里曼。Pix3d：单图像3D形状建模的数据集和在CVPR，2018年。5[28] S. Tulsiani，A. A. Efros和J.马利克多视图一致性作为学习形状和姿态预测的监督信号。在CVPR，2018年。二、四[29] S. Tulsiani，T. Zhou，中国古柏A. A. Efros和J.马利克通过可微射线一致性进行单视图重建的多视图监督。在CVPR，2017年。二、三[30] C. Wah，S.布兰森山口韦林德山口Perona和S.贝隆吉Caltech-UCSD鸟类-200 -2011数据集。技术报告CNS-TR-2011-001，加利福尼亚理工学院，2011年。5[31] M. Weinmann和R.克莱恩几何学和反射率获取的进展。ACM SIGGRAPH Asia，Course Notes，2015. 8[32] J.Wu，Y. Wang，T. Xue，X.孙湾Freeman和J. 特伦鲍姆。Marrnet：通过2.5d草图重建3d形状。在NIPS。一、二[33] J.Wu，T.作者：J. J. Lim，Y. Tian，J. B. Tenenbaum，A. Torralba和W. T.弗里曼。单幅图像三维解释器网络。在ECCV，2016年。4[34] J.Wu，C. Zhang，T.薛，W. T. Freeman和J. B.特伦鲍姆。通过3d生成对抗建模学习物体形状的概率潜在空间。在NIPS，第82- 90页，2016年。一二四六七[35] X. 杨， J.Yang ， E.Yumer ， Y.Guo 和 H. 李你透视Transformer网络：学习单视图3D对象再现，无需3D监督。In D.D. 李，M。杉山联合卢克斯堡岛Guyon和R. Garnett，编辑，NIPS，第1696-1704页。2016. 2[36] B. Yang，S. Rosa，A. Markham，N. Trigoni和H.文从单个深度视图重建密集3d对象。在TPAMI，2018年。一、二5545[37] R. Zhu，H.K. 加卢加希角Wang和S.露西重新思考重新投影：关闭从单个图像进行姿势感知形状重建的循环。在ICCV，第57-65页，2017年。一、二

下载后可阅读完整内容，剩余1页未读，立即下载