单视图三维重建的视图先验学习

72 浏览量更新于2023-10-19 收藏 970KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9778单视图三维重建的视图先验学习Hiroharu Kato1和Tatsuya Harada1，21东京大学、2理研{kato，harada}@ mi.t.u-tokyo.ac.jp摘要当观察到的视图的数量较少时，对象的3D形状中存在一些模糊性。由于这种模糊性，尽管可以使用单个视图或每个对象的几个视图来训练3D对象重建器，但是重建的形状仅适合观察到的视图，并且从未观察到的视点看起来不正确。为了重建从任何角度看都合理的形状，我们建议训练一个学习关于可能视图的先验知识的机器人训练该算法以区分观察到的视点的重构视图与未观察到的视点的重构视图。重建者被训练通过欺骗识别者来纠正未观察到的视图。我们的方法优于当前最先进的方法在合成和自然图像数据集;这验证了我们的方法的有效性。1. 介绍人类可以在一个单一的一瞥中估计物体的3D结构。我们利用这种能力来抓取物体，避开障碍物，使用CAD创建3D模型等。这是可能的，因为我们已经获得了关于3D物体形状的先验知识。机器也能获得这种能力吗？这个问题在计算机视觉中被称为单视图三维物体重建。一种直接的方法是使用2D图像及其相应的地面真实3D模型来训练反射器[3，5，9，13，16，27，30]。然而，创建3D注释需要专业3D设计师付出非凡的努力。另一种方法是使用对象的单个视图或多个视图来训练重建器，而无需明确的3D监督[15，17，18，31，36]。我们称这种方法为基于视图的培训。这种方法通常需要相对容易获得的对象和视点的轮廓的注释。因为在基于视图的训练中没有给出地面实况3D形状，所以在可能的形状中存在一些模糊性。换句话说，几个不同的3D形状可以投影到同一个2D视图中，如上图所示2D图像重建3D模型从原始视角未观察到的观点+查看以前的学习图1.当3D重建器仅使用每个对象的单个视图进行训练时，由于对象的3D形状的模糊性，它重建的形状仅适合观察到的视图，并且从未观察到的视点看起来不正确（上图）。通过引入学习正确视图的先验知识的学习器，重建器能够生成从任何视点（下图）被视为合理的形状图1的上半部分和下半部分。为了减少这种模糊性，通常在训练中使用每个对象二十个或更多个视图[18，36]。然而，这在许多情况下在可行性和可扩展性方面是不实际的。当通过拍摄照片创建数据集时，如果对象正在移动或变形，则难以从多个视点拍摄照片。此外，当使用来自互联网的大量照片创建数据集时，并不总是可以收集对象的多个视图。因此，期望可以使用对象的几个视图或甚至单个视图来训练重建器。在这项工作中，我们专注于训练一个重建器使用一个单一的视图或几个视图的单视图三维物体重建。在这种情况下，训练中形状的模糊性不可忽略。图1的上半部分显示了使用传统方法进行单视图3D重建的结果[18]。虽然该方法最初使用每个对象的多个视图进行训练，但在该实验中使用单个视图。因此，重建的形状看起来9779工作A类B(a)[13，37]预测的3D形状它们对应的地面真实3D形状(b)[9，34]预测的3D形状3D形状集合(c)我们从观察视点预测的3D形状视图从随机视点预测的(d)- 预测3D形状的视图训练数据集中的表1.基于学习的3D重建中的鉴别器概述鉴别器（d）见第3.2节。当从与输入图像相同的视点观看时，它是正确的，然而，从其他视点看它是不正确的。这是因为重建器不知道未观察到的视图，并生成仅适合观察到的视图的形状重建器如何克服形状模糊性并正确估计形状？提示如图1所示。人类可以识别出图1右上角的三个椅子视图是不正确的，因为我们已经对椅子的外观有了先验知识，过去见过很多椅子。如果机器也有关于正确视图的知识，它们将使用它来更准确地估计形状。我们通过使用判别器和对抗训练在机器上实现这个想法[7]。从图1的上半部分可以看出，利用传统方法，来自观察视点的估计形状的视图与正确视图一致，而未观察的视图并不总是变得正确。因此，我们训练判别器来区分估计形状的观察视图和未观察视图。这导致用户获得关于正确视图的知识。通过训练重建器来欺骗机器人，从所有视点重建的形状变得不可区分，并且从任何视点都被视为合理图1的下半部分显示了所提出的方法的结果。使用3D模型学习3D形状的先验知识在其他出版物中得到解决[9，34]。相比之下，我们专注于2D视图的先验知识，而不是3D形状。因为我们的方法不需要任何3D模型进行训练，所以我们的方法可以扩展到3D模型难以获得的各种类别。主要贡献概述如下。• 在基于视图的单视图3D反射训练中，我们提出了一种预测形状的方法，从任何观点来看都是合理的，这是通过使用一个学习器学习对象视图的先验知识来我们的方法不需要任何3D模型进行训练。• 我们在合成和自然图像数据集上进行了实验，我们观察到这两个数据集的性能都有显著提高。先进--通过大量的实验也检查了该方法的阶段和局限性。2. 相关工作基于学习的3D重建的一种简单而流行的方法最近的研究集中在集成多个视图[3，16]，体素的内存效率问题[30]，点云生成[5]，网格生成[8，32]，高级损失函数[13]和神经网络[14]。网络架构[27]。为了降低三维标注的成本，基于视图的训练成为一个活跃的研究领域。训练的关键是定义一个可微的损失函数用于视图重建。我们的损失函数- 提出了倒角距离[17]、体素的可微投影[31，33，36，38]、点云[11，23]和网格[18]代替使用视图重建，可以通过视图合成重建3D形状[29]。如前所述，使用少量视图训练重构器对于这个问题，一些方法使用人类对形状的知识作为正则化器或约束。例如，网格的图形拉普拉斯算子被正则化[15，32]，并且形状被假设为对称[15]。其他人试图从数据中获取形状的先验知识，而不是使用手动设计的约束。学习特定类别的平均形状[15，17]就是一个例子。对抗训练是另一种学习形状先验的方法。Yang等[37] Jianget al. [13]在估计的形状及其对应的地面真实形状上使用鉴别器，以使估计的形状更逼真。Gwak等人[9]和Wuet al. [34]在生成的形状和形状集合上使用鉴别器。相比之下，我们的方法不需要3D模型来学习先验知识。表1列出了这些鉴别器的摘要。3. 基于视点的单视点三维物体重建器训练在本节中，我们将介绍一种简单的基于视图的方法来训练基于[18]的3D重建器然后，我们描述了我们的主要技术，称为视图先验学习（VPL）。我们还解释了一种技术，以进一步提高重建精度，通过施加内部压力的形状。图2显示了我们方法的架构。对于训练，我们的方法需要包含对象的单个或多个视图及其剪影和视点注释的数据集，类似于以前的研究[15，18，31，36]。此外，我们还可以使用类9780查看比较重建损失Lr形状解码器Decs3D模型视图Imagexij编码器Enc渲染器P梯度反转纹理解码器Dect对应视点vij鉴别器直径查看辨别力损失Ld视图随机视点vkl渲染器P梯度反转内部压力内部压力损失Lp可训练函数其他功能损失输入图2.所提出方法的架构。我们的方法的要点是使用歧视损失来学习先验的观点。虽然卷积层的目标是最小化区分损失，但编码器和解码器试图使用梯度反转层来最大化它ΣNoi=1 Lv（P（R（xi1），vi1），xi1）的情况。我们称之为2≤图3.多视图训练中的重建损失图像A和B是同一对象的视图虽然在该图中仅示出了关于从图像A重构的视图的损失，但是也计算了关于图像B的损失。视图的标签（如果可用）。训练后，重建没有侧影，视点和类标签注释。3.1. 基于视图的3D重建训练在本节中，我们将描述我们的3D重建基线方法。我们扩展了一种在训练[18]中使用轮廓的方法，以使用纹理解码器和感知损失[14]来处理纹理。概况. 3D重建器的基于视图的训练的常见方法是最小化重建形状的视图与地面真实形状的视图之间的差异。令xij是从视点vij的对象oi的视图，No是训练数据集中的对象的数量，Nv是每个对象的视点的数量，R（·）是重建。构造器，用于获取图像并输出3D模型P（·，·）是一个渲染器，它采用3D模型和视点，从给定的视点放置给定模型的视图，并且Lv（·，·）是度量两个视图之间的差异的函数然后，重建损失被定义为NoLr（x，v）=Lv（P（R（x ij），vik），x ik）.（一）i=1j =1k =1我们称Nv=1的情况为单视图训练。在这种情况下，重建损失被简化为Lr（x，v）=多视图训练。3D表示和渲染器。一些作品使用vox-els作为基于视图的训练中的3D表示[31，36]。然而，体素不太适合基于视图的训练，因为使用体素的高分辨率视图是困难的，因为体素是存储效率低的。最近，Kato等人克服了这个问题。[18]通过使用网格作为3D表示和可微分网格渲染器。在这项工作之后，我们还使用了一个网格和它们的渲染器1。重建者在这项工作中，一个3D模型表示的一对形状和纹理。我们的重建器R（·）使用编码器r-解码器架构。编码器Enc（·）对输入图像进行编码，并且形状解码器Decs（·）和纹理解码器Dect（·）分别生成3D网格和纹理根据最近的基于学习的网格重建方法[15，18，32]中，我们通过移动预定义网格的顶点来生成形状因此，形状解码器的输出是估计顶点的坐标。编码器和解码器的细节在补充材料中描述。查看比较功能。彩色图像（RGB 通道）和轮廓（alpha通道）在Lv（·，·）中分别处理。设x和x∈=P（R（x），v）是地面真值vi w，估计的viw，xc，x∈c是x，x ∈的RGB通道，xs，x∈s是x，x∈的alpha通道。第i个像素xsi处的轮廓设置为1（如果像素处存在对象）和0（如果像素是背面的一部分地上由于渲染器的抗锯齿，xs比较彩色图像xc，x∈c，我们使用感知损失 Lp[14]和奇异特征归一化。令Fm（·）是用于图像分类的预训练CNN中的Nf个图的第m个特征图在此外，设Cm、Hm、Wm分别为Fm（·）的沟道尺寸、高度和宽度。具体地说，我们用FVE1我们修改了渲染器的近似微分。详情见补充材料。查看比较查看比较图像A图像B渲染器渲染器观点A视角B编码解码重构损失9781..SAlexNet [20]的卷积层后的特征映射，用于Fm（·）。然后，使用Dm=CmHmWm，感知损失被定义为：该视图是正确的，并且V是训练数据集中所有视点的集合。使用交叉熵，我们将视图区分损失定义为Lc（xc，xc）=ΣNf.1 .一、Fm（xc）−. 2F m（xc）..（二）Ld（xij，vij）= −log（Dis（P（R（xij），vij），vij））m=1 DM。 |Fm（xc）||- 是的|.log （1−（Dis（P（R（xij−|V− 1|），vu），vu）））.（五）对于轮廓xs，xs，我们使用它们的多尺度余弦分布-钱。设xi是通过下采样xs2i−1次获得的图像，Ns是尺度数我们将损失函数定义为vu∈V，vu/=vij在小批量训练中，我们为每个重建对象采样一个随机视图以计算Ld。Ls（xs，xs）=美国xi·xi1−s s|Xi||xi|.（三）训练的稳定性。虽然对抗训练通常不稳定，但我们提出的方法的训练是稳定的。i=1s s我们还使用sil-houettes的union上的负交集（IoU），如[18]中所使用的。设k是元素的乘积。这种损失被定义为|xsxs|1布莱。众所周知，GAN的训练失败时，罪犯太强大了，不会被发电机愚弄。这个问题是从真假样品的支撑的区别来解释的[1]。然而，在我们的情况下，在早期训练阶段很难正确区分视图，因为视图重建不准确，Ls（xs，xs）=1−|X+xx-xs⊙xˆs|1 .（四）从任何角度看都是不正确的。即使到了后期，总重构损失为Lv=Ls+λcLc。 λc是a超参数下雨了。我们使用小批量梯度下降来优化R（·）。图2显示了单视图训练的架构。在多视图训练中，我们随机选取两个在一个minibatch中查看对象。在这种情况下，计算Lr的架构如图3所示。3.2. 查看以前的学习如第1节所述，在基于视图的训练中，重建器可以生成从未观察到的视点看起来不真实的形状为了重建从任何视点看都是真实的形状，必须(1)了解正确视图和不正确视图之间的差异，以及（2）告诉重建器如何修改不正确视图。在基于视图的训练中，通过最小化重建损失，来自观察到的视点的重建视图收敛到训练数据集中的真实视图，并且来自未观察到的视点的视图并不总是正确的因此，前者可以说是正确的、实事求是的观点，后者则是不正确的、不切实际的观点。基于这一假设，我们建议训练一个神经网络，它区分观察到的视点处的估计视图和未观察到的视点处的估计视图，识别器可以通过经由估计的视图和形状将识别损失的梯度反向传播到重建器中，将此知识传递给重建器，如图像生成[7]和域自适应[6]中的对抗训练。具体地说，设Dis（·，·）是一个可训练的神经网络，它采用一个视图及其观点，并输出概率稍微打破了正确的观点。因此，在我们的方法中，判别器不能占主导地位。重建器的优化。对抗训练的原始过程需要迭代地优化判别器和生成器[7]。随后，Ganin等人[6]提出使用歧视损失的反向梯度来训练生成器。所提出的梯度恢复层在向前传递中不做任何事情，尽管它在向后传递中反转梯度的符号并将它们缩放λd倍。此层设置在右侧，然后放置一个滤镜。由于这种优化过程不是迭代的，因此训练时间比迭代优化短。此外，我们通过实验发现，在我们的问题中，梯度反转和迭代因此，我们使用梯度反转层来训练重建器。图像的类型。相机可以拍摄RGBA图像和剪影图像。我们给它的RGBA图像时，纹理预测进行，其他明智的，我们给它的轮廓.阶级制约。此外，可以使用条件GAN [24]框架对类标签进行条件化。当类标签已知时，视图区分变得更容易，并且该图变得更可靠。我们使用投影[26]来进行类条件反射。注意，即使在这种情况下，测试阶段也不需要另一个可能的陷阱。我们建议在观察到的和未观察到的观点，训练一个重建的形状的canderon视图。另一种可能的方法是S9782布吕普以将重建视图与训练数据集中的真实视图区分开事实上，这种方法并不奏效，因为生成一个难以与真实视图区分开的视图是非常困难的。这是由重建器和渲染器的表示能力的限制引起的。表1显示了到目前为止我们所解释的判别器的总结。3.3. 内部压力多视图3D重建中最流行的方法之一是视觉外壳[21]。在可视外壳中，所有轮廓内的点换句话说，在形状歧义方面，视觉外壳产生具有最大体积的形状。按照这个策略，我们通过给它们内部压力来膨胀估计形状的体积，以最大化它们的体积。具体地说，我们添加了一个梯度沿法线的面为每个顶点的三角形面。设pi是三角形面的顶点之一，n是面的法线。我们添加损失项Lp满足<$Lp（pi）= −n。我基线提出基线提出基线提出（a）（b）（c）（d）（e）3.4. 总结除了使用重建损失LR=LS+λcLC外，我们还提出使用视图鉴别损失LD重建真实视图，使用内压损失Lp膨胀重建形状。总损失为L=Ls+λcLc+Ld+λpLp。损失加权的超参数是λc、λp和λd。因为λd用于梯度反转层，所以它不出现在L中。整个架构如图2所示。4. 实验我们在合成和自然图像数据集上测试了我们提出的视图先验学习（VPL）。我们使用合成数据集对我们提出的方法进行了广泛的评估，因为它由大量具有准确轮廓和视点注释的对象组成作为重建精度的度量，我们使用预测形状的交集（IoU），在许多以前的文献中使用的地面实况[3，5，15，16，18，27，30，31，36]。为了公平地比较我们的结果与文献中的那些，我们计算IoU后，转换成一个网格的体积为32- 3体素2。4.1. 合成数据集作为一个合成数据集，我们使用ShapeNet [2]，一个3D CAD模型的大规模数据集我们使用ShapeNet中13个类别的43784个对象通过使用ShapeNet和2另一个流行的度量是点云的倒角距离。然而，这个度量不适合用于基于视图的学习。因为它通常假设点分布在表面上，所以它受到形状内部不可见结构的影响，这些结构是不可能学习的图4. ShapeNet上的单视图训练示例数据集。(a)输入图像。(b)从原始视点查看的重建形状。（可以合成地创建渲染器、视图、轮廓、视点和地面实况3D形状的数据集。我们使用地面真实3D形状仅用于验证和测试。我们使用Kar等人提供的渲染视图和train/val/test拆分。[16 ]第10段。在这个数据集中，每个3D模型都是从20个随机视点渲染的。每个图像都有一个分辨率，224×224。我们通过随机颜色通道翻转和水平翻转来增强训练图像，在[16，27]3中使用。我们使用所有视图或视图的子集进行训练，所有视图都用于测试。我们使用批量归一化[12]和光谱归一化[25]在光谱中。使用Adam优化器优化参数[19]。编码器和解码器的架构，超参数和优化器在补充材料中描述。使用验证集调整超参数。我们使用等式3作为轮廓的视图比较函数4.1.1单视图训练首先，我们在第3.1节中描述的单视图训练中训练重建器。也就是说，我们在训练中对每个对象只使用二十个视图中的一个随机选择的视图。图4示出了具有和不具有VPL的重构形状的示例。当从原始视点（b）观察时，估计的形状在所有情况下都有效。但是，如果没有VPL，基于视图的训练。使用IoU时不会出现此问题-因为它通常假设形状的内部是填充的。3当翻转图像时，我们也翻转相应的视点。9783从另一个角度看（例如，椅子的靠背太厚，汽车完全坏了，飞机在中心有一个奇怪的突起。当使用VPL时，形状从任何角度看都是合理的。这些结果清楚地表明，判别器告知重建器关于可行视图的知识。表2显示了单视图培训的定量评估。VPL提供了显着改善的反射性能。这种改善进一步加强时，类条件。我们可以说，进行纹理预测也有助于训练准确的重建器。VPL对电话、显示器、长椅和沙发类别特别有效。相比之下，VPL对灯类别无效。补充材料中列出了这些类别的典型例子在电话和显示器类别的情况下，因为轮廓非常简单，形状是模糊的，各种形状可以适合一个视图。虽然结合纹理预测，基线提出基线提出基线提出（a）（b）（c）（d）（e）由于VPL减少了模糊性，因此VPL更加有效。在长凳和沙发类别的情况下，如果不考虑几个视图，很难了解它们的长形。由于灯类别中的形状是多样的，并且训练数据集相对较小，因此机器人无法学习有意义的先验知识。4.1.2多视角训练其次，我们使用多视图训练来训练重建器，如第3.1节所述。也就是说，我们在训练中为每个对象使用20个视图中的两个或更多个视图。表3示出了反射精度与用于训练的每个对象的视图数量Nv之间的关系。在这个实验中没有进行纹理预测，并且所提出的方法与基线之间的差异是使用具有类别条件的VPL。我们提出的方法在所有情况下都优于基线，这表明VPL在多视图训练中也是有效的。VPL的影响随着Nv的减小而增大，正如预期的那样.图5示出了当Nv=2时具有纹理预测的重构形状。当使用VPL时，形状细节变得更加精确。4.1.3鉴别器和优化我们在第3.2节的最后一段讨论了两种类型的判别器，并强调了区分估计视图而不是估计视图和真实视图的重要性我们用一个实验证实了这一说法。我们使用表1（d）的训练器在单视图训练中进行了实验我们还测试了GAN [7]中使用的迭代优化，而不是使用梯度反转层[6]。然而，在这两种情况下，我们图5. ShapeNet上的多视图训练示例（Nv= 2）。图（a-e）与图4中相同。无法通过调整λd观察到基线的任何有意义的改善。这一事实表明，图1（d）中的判别器在实践中不能很好地工作，而判别估计视图是有效培训的关键4.1.4与手动设计的先验比较我们提出的内部压力（IP）损失和[15，32]中使用的一些正则化器和约束是使用人类关于形状的知识设计的表4显示了与VPL的比较。本实验在没有纹理预测的单视图训练中进行。该结果表明IP丢失提高了性能。对称性约束也提高了性能，但ShapeNet中的某些对象实际上并不对称。通过正则化图形拉普拉斯算子和网格的边长，虽然生成的网格的视觉质量变得更好，但没有观察到IoU的改善。VPL不能与Gwak等人详细描述的基于学习的3D形状先验进行比较。[9]和Wuet al. [34]因为这些方法需要额外的3D模型进行训练，并且它们的方法适用于体素而不是网格。4.1.5与最新技术水平的我们的工作也表明了基于视图的训练的有效性。表5显示了使用我们的方法在ShapeNet数据集上的重建精度（IoU），以及重新计算的结果9784. 479. 266. 466. 550. 367. 265.454. 524. 382. 367. 342. 337. 439. 403C. 500. 347. 583. 673. 413. 399. 443. 578. 481. 464. 423. 583. 486. 490CC. 513. 376. 591. 701. 444.425. 422.596. 479. 500. 436. 595. 485. 505C. 483. 284. 544. 535. 356. 372. 443. 534. 386. 370. 361. 529. 448. 434CC. 524. 378. 581.705. 442. 422. 441. 561. 510. 475. 443. 625. 490. 508CCC. 531. 385. 591. 701.454. 423. 441. 570.521. 508. 444. 601. 498. 513表2. ShapeNet数据集上的单视图训练的IoU。VPL：提出了事先学习的观点。CC：区分器中的类条件作用。TP：纹理预测。Nv2351020训练方法[18，36]。的主要区别基线. 575. 596. 620. 641. 652我们的基线和[18]是内部压力和火车-提出.583.600.624.644.655ing数据集。因为我们训练图像的分辨率表3.每个对象的视图数Nv以及多视图训练中的重建精度（IoU）。之前的IoU一个也没有。387内部压力（IP，我们的）。403IP&对称性[15]。420IP&正则化图Laplacian [15，32]. 403∗IP&正则化边长度[32]。403∗IP&查看先前的学习（我们的）。505表4.我们基于学习的先验与手动设计的形状正则化器和约束的比较。未观察到有意义的改善。NvIoU（224×224）比他们的（64×64）大，由于视点范围（[-20，30]）比他们的视点范围（仅30）更宽，因此在我们的实验中可以学习到更准确和详细的3D形状令人惊讶的是，我们的基于视图的方法优于使用3D模型训练的重建器。虽然基于视图的训练目前不如基于3D的训练流行，但可以说基于视图的训练有很大的进一步研究空间。4.2. 自然图像数据集如果3D模型可用，我们可以综合创建具有准确轮廓和视点注释的多个视图然而，在实际应用中，并不总是能够获得许多3D模型，并且必须使用自然图像来创建数据集。在这种情况下，通常，多视图训练是不可能的，并且轮廓和视点注释是有噪声的。因此，要衡量一个给定的方法的实用性，重要的是要评估这样的情况。因此，我们使用的PASCAL数据集预处理的Tul-siani等人。[31 ]第30段。此数据集由以下图像组成：3D监控3D-R2N2摄像头 [16]20. 551PASCAL VOC [4]，PASCAL 3D+中的3D模型，轮廓和视点的注释[35]，以及附加的IM-3D-R2 N2双金属 [3]24. 560[28]在ImageNet中使用轮廓和视点，OGN [30]24. 596自动创建的符号[22]。我们进行[16]第十六话20. 615单视图培训，因为每个OB只有一个视图，[27]第二十七话24. 635反对。由于此数据集不大，[5]第五届全国政协委员24. 640培训效果不容忽视。因此，我们报告[27]第二十七话24.641使用不同随机种子的五次运行的平均准确度。表5.我们的方法和最先进的方法的比较我们使用预训练的ResNet-18模型[10]作为en。与[15，31]一样的编码器参数优化，在ShapeNet（3D-R2 N2）数据集上使用IoU。尽管监管较弱，我们提出的方法优于其他使用3D模型训练的模型。使用相同符号表示的模型使用相同的渲染图像。45. cent papers我们的方法优于现有的基于视图的4用于3D重建的ShapeNet最常用的数据集由Choy等人提供。[3]的文件。然而，我们发现这个数据集不是适用于基于视图的训练，因为由于视点中的仰角范围窄，在视图中存在大的遮挡区域。因此，我们使用了Kar等人的数据集。[16]，其中图像是从各种视角渲染的。对两个数据集的结果进行比较并不是那么不公平，因为3D-R2 N2 [3]的性能在两个数据集中都很接近。5本表仅比较了报告3D-R2 N2数据集IoU的论文。在其他指标和数据集上，一些作品[8，32]优于PSGN [5]。VPLCCTP飞机板凳梳妆台车椅子显示灯扬声器步枪沙发表电话容器所有单视图培训我们最好的模型1.513多视角训练PTN [36]24. 574核磁共振[18]24. 602我们最好的模特20.6559785基线提出基线提出表6. PASCAL数据集上单视图3D重建的IoU。所提出的方法和基线之间的区别是使用视图先验学习。(s)表示没有纹理预测的仅轮廓训练（λc= 0）。亚当优化器[19]。解码器、判别器和其他超参数的结构在补充材料中描述我们将估计的形状约束为对称的，就像以前的研究[15]中的情况一样。我们使用等式4作为轮廓的视图比较函数。表6显示了PAS-CAL数据集的重建精度。我们所提出的方法始终优于基线，并提供了最先进的性能为这个数据集，这验证了我们所提出的方法的有效性。类别特定模型优于类别不可知模型，因为这三个类别中的对象形状不是非常相似，多任务学习不是有益的。使用纹理预测时的性能差异主要由内部压力损失的相对权重引起图6显示了使用我们的方法可以获得的典型改进飞机的机翼、汽车的轮胎和椅子的前腿的改进是突出的，当从未观察到的观点来看时。在本实验中，由于观测的角度不一致，内压损失起着重要的作用。图7示出了没有内部压力的重建形状汽车的后备箱是中空的，并且这个中空不能由VPL填充，因为在数据集中很少有从诸如（c-e）的视点拍摄的图像5. 结论在这项工作中，我们提出了一种方法来学习先验知识的视图边缘的视图为基础的训练的三维物体重建。我们在合成和自然图像数据集上的单视图训练中验证了我们的方法。我们还发现，即使有多个视图可用于训练，我们的方法也是有效的。我们成功的关键在于-基线提出(a)（b）（c）（d）（e）图6. PASCAL数据集上的示例。图（拟定不含IP(a)（b）（c）（d）（e）图7.无内压（IP）重建的一个例子。图（使用来自观察和未观察视点的两个估计视图来绘制图像我们的数据驱动方法比现有的手动设计的形状正则化器更好。我们还展示了基于视图的训练以及使用3D模型进行训练的方法。实验结果清楚地证实了这些说法。我们的方法显着提高了重建精度，特别是在单视图训练。这是一个重要的进步，因为创建单视图数据集比创建多视图数据集更容易。这一事实可以实现现有合成数据集之外的不同对象的3D重建。我们的方法的最重要的限制是，它需要剪影和观点annotations。训练端到端的三维重建、视点预测和轮廓分割将是一个很有前途的发展方向。确认这项工作部分由日本内阁府科学、技术和创新的ImPACT计划资助我们要感谢 Antonio Tejero de Pablos 、 AtsuhiroNoguchi、Kosuke Arase和Takuhiro Kaneko进行了有益的讨论。飞机车椅子是说范畴不可知模型刚果民主共和国[31]. 415. 666. 247. 443基线. 448. 652. 272. 458拟议数. 450. 672. 292. 471基线. 440. 640. 280. 454提出. 460. 662.296. 473范畴特定模型CSDM [17]. 398. 600. 291. 429CMR [15]. 46. 64n/an/a基线. 449. 679. 289. 472拟议数. 472. 689. 303. 488基线. 450. 669. 293. 470提出. 475. 679.304. 4869786引用[1] 马丁·阿乔对k y和Le'onBottou。这是训练生成对抗网络的原则性方法。在ICLR，2017。4[2] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese，Mano-lis Savva，Shuran Song，Hao Su，et al.Shapenet：一个信息丰富的3D模型存储库。arXiv，2015. 5[3] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在ECCV，2016年。一、二、五、七[4] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。IJCV，88（2）：303-338，2010. 8[5] Haoqiang Fan，Hao Su，and Leonidas Guibas.从单幅图像重建三维物体的点集生成网络在CVPR，2017年。一、二、五、七[6] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗JMLR，17（1）：2096-2030，2016. 四、七[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014。二四七[8] Thibault Groueix、Matthew Fisher、Vladimir G Kim、Bryan C Russell和Mathieu Aubry。学习3D表面生成的一种纸上在CVPR，2018年。二、七[9] JunYoung Gwak，Christopher B Choy，Manmohan Chan-draker，Animesh Garg，and Silvio Savarese.具有对抗约束的弱监督三维重建。在3DV，2017年。一、二、七[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。八、十六[11] Eldar Insafutdinov和Alexey Dosovitsky使用可微分点云进行形状和姿态的无监督学习。在NIPS，2018年。2[12] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML ，2015。五岁十七岁[13] Li Jiang ， Shaoshuai Shi ， Xiaojuan Qi ， and Jiaya Jia.Gal：单视图3D对象重建的几何对抗损失。在ECCV，2018。一、二[14] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。3[15] Angjoo Kanazawa、Shubham Tulsiani、Alexei A Efros和Jitendra Malik。从图像集合学习特定类别的网格在ECCV，2018。一二三五七八[16] Abhi s hekKa r，ChristianHaíne，andJitendraMalik. 学习多视角立体机。在NIPS，2017年。一、二、五、七[17] Abhishek Kar ，Shubham Tulsiani，Joao Carreira ，andJiten- dra Malik.从单个图像重建特定于类别的对象。CVPR，2015。一、二、八[18] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在CVPR，2018年。一、二、三、四、五、七、十三[19] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。2015年，国际会议。五八十六[20] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS，2012年。4[21] 奥尔多·劳伦蒂尼基于轮廓的图像理解的视觉外壳概念PAMI，16（2）：150-162，1994. 5[22] Ke Li，Bharath Hariharan，and Jitendra Malik.迭代实例分割。在CVPR，2016年。8[23] Chen-Hsuan Lin，Chen Kong，and Simon Lucey.密集三维物体重建的高效点云生成。在AAAI，2018。2[24] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv，2014. 4[25] Takeru Miyato，Toshiki Kataoka，Masanori Koyama，and Yuichi Yoshida.生成式对抗网络的谱归一化。在ICLR，2018年。五岁十七岁[26] 宫人武和小山正则。具有投影鉴别器的CGNS在ICLR，2018年。4[27] 斯蒂芬·里希特和斯特凡·罗斯。Matryoshka网络：通过嵌套形状层预测三维几何图形。在CVPR，2018年。一、二、五、七[28] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，et al.图像网大规模视觉识别挑战。IJCV，115（3）：211-252，2015. 8[29] Maxim Tatarchenko 、 Alexey Dosovitskiy 和 ThomasBrox。用卷积网络从单幅图像建立多视图3d模型。在ECCV，2016年。2[30] Maxim Tatarchenko 、 Alexey Dosovitskiy 和 ThomasBrox。八叉树生成网络：用于高分辨率3d输出的高效卷积架构。InICCV，2017. 一、二、五、七[31] Shubham Tulsiani，Tinghui Zhou，Alexei A Efros，andJi-tendra Malik.通过可微分光线一致性进行单视图重建的多视图监督在CVPR，2017年。一二三五八[32] Nanyang Wang ， Yinda Zhang ， Zhuwen Li ， YanweiFu，Wei Liu，and Yu-Gang Jiang. Pixel2mesh：从单个rgb图像生成3d网格模型。在ECCV，2018。二、三、七[33] Jiajun Wu，Yifan Wang，Tianfan Xue，Xingyuan Sun，Bill Freeman，and Josh Tenenbaum. Marrnet：通过2.5D草图进行3D形状重建。在NIPS，2017年。2[34] Jiajun Wu，Chengkai Zhang，Xiuming Zhang，ZhoutongZhang，William T Freeman，and Jo

下载后可阅读完整内容，剩余1页未读，立即下载