基于有限姿势监督的单视图3D重建模型训练方法及其性能提升

134 浏览量更新于2023-10-13 收藏 1.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

学习具有有限姿势监督的单视图3D重建Guandao Yang1，Yin Cui1， 2，Serge Belongie1， 2，BharathHariharan11康奈尔大学2康奈尔理工抽象。用3D结构或精确的相机姿势标记图像是昂贵的然而，这正是训练单视图3D重建模型所需的注释类型。相比之下，未标记的图像或仅具有类别标签的图像很容易获得，但目前很少有模型可以使用这种弱监督。我们提出了一个统一的框架，可以结合这两种类型的监督：使用少量的摄像机姿态注释来加强姿态不变性和视点一致性，并且使用与对抗性损失相结合的未标记图像来加强所渲染的、所生成的模型的真实性。我们使用这个统一的框架来衡量三种范式中每种监督形式的影响：半监督，多任务和迁移学习。我们表明，结合这些想法，我们可以训练单视图重建模型，提高了7点的性能（AP）时，只使用1%的姿势注释的训练数据。关键词：单幅图像三维重建，少样本学习，GANs1介绍从单个图像理解3D结构的能力是人类视觉系统的标志，也是视觉推理和交互的关键步骤。当然，单个图像本身没有足够的信息来进行3D重建，机器视觉系统必须依赖于一些先验的形状：例如，所有的汽车都有轮子关键的问题是机器视觉系统如何获得这样的先验知识。一种可能性是利用3D形状的数据集[4]，但是获得用于各种类别的这样的数据集需要3D建模经验或3D扫描工具，并且因此是昂贵的。另一种选择，最近被广泛探索[27，21]，是显示机器的许多不同的观点，多个对象从校准相机。然后，机器可以使用假设形状的渲染视图与真实对象的对应视图之间的光度一致性作为学习信号。虽然比收集3D模型更容易处理，但这种方法在实践中仍然非常昂贵：需要物理获取数千个对象并将它们放置在转盘上，或者要求人类注释员使用相机参数和图像描绘的精确实例的假设2Guandao Yang，Yin Cui，Serge Belongie，BharathHariharan模型p11p12p13p11p12p13p21第22页第二十三页p21第22页第二十三页具有带注释的类别的同一类别的具有带注释的类别的图像的集合相机姿势相机姿势没有姿势注释图1.一、我们提出了一个统一的框架，单视图三维重建。我们的模型可以使用不同类型的数据进行训练，包括来自同一对象类别或跨多个类别的姿势注释图像，以及未标记的图像。数千个对象的多个校准视图是可用的，这在生物学上也是不可信的：人类婴儿必须在身体上与物体相互作用，以获得这样的训练数据，但是大多数人可以非常容易地理解飞机的形状，尽管他们玩过很少的飞机。在本文中，我们的目标是学习有效的单视图三维重建模型时，校准的多视图图像可用于非常少的对象。为此，我们看两个额外的信息来源。首先，如果我们有一个类别的大量图像集合，但没有任何精确实例或姿势的注释，该怎么办这样的数据集很容易通过简单地从网络上下载该类别的图像来获得（图11）。1，右下角）。虽然可能很难从这些图像中提取3D信息，但它们可以捕获来自该类别的对象的视觉外观的分布第二，我们看看其他语义类的注释（图2）。1，中下部）。这些其他类可能不会告诉我们特定类的细微差别，但它们仍然可以帮助描述形状的一般外观。例如，大多数形状是紧凑的、平滑的、倾向于凸的等。本文提出了一个框架，可以有效地利用所有这些信息来源。首先，我们设计了一个统一的模型架构和损失函数，结合了姿势监督与未标记图像的较弱监督。然后，我们使用我们的模型和训练框架来评估和比较许多训练范式和监督形式，以提出有效使用少量姿势注释特别是，我们表明：1. 没有实例或姿势注释的图像确实是有用的，并且可以在性能上提供显著的增益（在AP中高达5个点）。同时，与完全不使用姿势信息相比，一点点姿势监督（50个对象）给出了大的增益（><学习具有有限姿势监督的单视图3D重建32. 通过跨类汇集训练数据获得的类别不可知先验与在每个类上单独训练的类别特定先验一样好，但并不优于它们。3. 使用少量（即，只有1%）的姿势监督显着提高性能（在AP高达7分）。4. 当面对只有一小组姿势注释图像的新颖类别时，在汇集的数据上训练并在感兴趣的类别上微调的类别不可知模型比仅在新颖类别上训练的基线表现出巨大的优势（在AP中高达20分）。总之，我们的研究结果令人信服地表明，通过将多个数据源（未标记或来自不同类别的标记）与单个统一模型相结合，可以获得很大的准确性增益。2相关工作尽管在从多个图像重建3D场景方面取得了许多成功[22，1]，但在单个图像上进行重建仍然具有挑战性。单幅图像的经典作品3D重建依赖于访问标有3D结构的图像[19]。这对于许多最近的深度学习方法也是如此[8，5，24，18，6]。为了摆脱对精确3D模型的这种需求，一些工作利用关键点和轮廓注释[23，12]。最近的方法假设具有校准相机的多个视图用于训练[27，10，21，17]，并且设计利用光度一致性和/或强制不变性的训练损失函数摆姿势其中，我们的编码器-解码器架构类似于PTN[27]中提出的架构，但我们的模型是端到端训练的，并且还能够利用未标记的图像来处理有限的监督。方面所需的监督，Tulsiani等人。[20]删除了对姿势注释的要求，但仍然需要用它们对应的实例对图像进行注释。PrGAN [7]通过仅使用未标记的图像进一步降低了监督要求。正如我们在本文中所示，这使得问题不需要挑战，而添加少量的姿势监督会导致大的准确性增益。从单个图像恢复3D结构需要关于形状的强先验，并且另一条工作线集中于更好地捕获流形的形状。经典工作使用低维参数模型[12，3]。最近，卷积网络的重新发现导致了对深度生成模型的兴趣的复苏。Wu等人。[26]使用深度信念网来建模3D形状，而Rezende等人。[17]考虑变分自动编码器的变体。生成对抗网络或GAN [9]也可以用于构建形状的生成模型[25]。挑战是在没有3D数据的情况下训练它们：Gadelha et al.[7]这表明这确实是可能的。虽然我们像他们建议的那样使用对抗性损失，但我们的生成器是与编码器端到端地在姿势监督和未标记图像的组合上进行联合训练的。4Guandao Yang，Yin Cui，Serge Belongie，BharathHariharanLu椅子表R -旋转T -翻译汽车图像类别实例ID相机姿态3D形状飞机图二. 用于单视图3D重建的不同形式的训练注释。请注意，一些注释（例如，类别）比其他类别（例如，3D形状）;并且相反地，一些提供比其它更好的训练信号。3培训范式对于单视图3D重建，我们考虑如图2所示的图像的四种类型的注释。我们的目标是最大限度地减少对更昂贵的注释（实例ID，相机姿势和3D形状）的需求。为此，我们来看看三种不同的培训模式。3.1半监督单类在此设置中，我们假设所有图像都来自单个类别。注意到相机姿态和模型实例注释很难收集的事实在野外，我们限制到半监督设置，其中只有一些图像被标记有相机姿势，而大多数图像是未标记的。形式上，我们给出了一个带有相机姿势和实例ID的图像数据集：Xl={（xij，p ij，i）}i，j，其中x ij表示当用相机姿态p ij投影时第i个实例的第j个图像。我们还有一个没有任何注释的数据集：Xu={x i}i. 目标是使用Xl和Xu来学习用于单个图像3D重建的类别特定模型。3.2半监督多类为每个类别构建单独模型的替代方案是构建类别不可知模型。这允许人们跨多个类别组合训练数据，甚至使用没有任何类别标签的训练图像因此，代替针对每个类别c的单独的标记训练集Xc，这里我们仅假设组合数据集Xmulti=Xc1∪Xc2∪ · · · ∪Xcn。同样地，l l l l我们假设访问未标记的图像集合Xmulti（现在没有类别标签）。请注意，这种多类别设置比单类别更难，因为它引入了跨类别混淆，但它也允许模型跨不同类别学习与类别无关的形状信息。3.3少次迁移学习收集一个可以覆盖我们遇到的所有类别的大型数据集是不可行的。因此，我们还需要一种方法来使预训练的模型适应新的学习具有有限姿势监督的单视图3D重建5L类别. 这种策略也可以用于使类别不可知模型适应特定类别。我们假设对于该适配，包含具有姿态和实例注释（100）的非常少量的图像<的数据集X（新）可用于感兴趣的类别。我们还假设上述半监督多类别数据集可用作预训练。数据集：Xpre=Xmulti和Xpre=Xmulti。l lu u4一个统一的框架我们需要一个模型和一个训练框架，可以利用带有姿势和实例注释的图像，以及没有任何标签的图像。前一组图像可以用于加强预测的3D形状跨视图的一致性，以及渲染的3D形状与真实对象的对应视图之间的相似性。后一组图像只能提供对所生成的形状的真实性的约束。为了捕捉所有这些约束，我们提出了一个统一的模型架构，其中包含三个主要组件：1. 一个编码器E，它将图像（轮廓）作为输入，并产生形状的潜在表示。2. 生成器G，其将形状的潜在表示作为输入并产生体素网格。3. 鉴别器D，其试图区分由生成器输出的体素的渲染视图和真实对象的视图。在另一个示例中，我们使用“预渲染”模块来渲染体素，该“预渲染”模块将体素和视点作为输入，并且它从输入的视点渲染体素。我们使用与PrGAN [7]中的投影仪类似的可微分投影仪。我们把它推广到透视投影。P没有可训练的参数。训练过程在标记有姿态和实例的图像上的迭代与未标记图像上的迭代之间交替。两组迭代使用不同的损失函数，但更新相同的模型。4.1在姿态标注的图像上在注释图像上的每次传递中，编码器被提供有从不同相机姿态pi和p2拍摄的相同3D对象i的图像对x11、x12。编码器E将每个图像嵌入到潜在向量z1、z2中。生成器（解码器）G的任务是根据z1和z2预测3D体素网格。由生成器产生的3D体素网格应该：1）对象的良好重构，以及2）对输入图像的姿态不变[27]。这要求潜在形状表示对于输入图像的相机姿态也是不变的。为了确保所学习的潜在表示Z1的姿态不变性，来自Z1的预测的3D体素应当能够在投影到第二视点P2时重建第二输入图像，反之亦然。带着这些直觉，我们探讨以下三种损失。6Guandao Yang，Yin Cui，Serge Belongie，BharathHariharanzG高斯Dp是/否是否生成图像ProjEz1Gp1p2Ez2GProjProj图三. 建议的模型架构概述。编码器E和具有姿势一致性的生成器G（在顶部）从具有姿势监督的图像中学习，并且CNOID（在底部）帮助G从未标记的图像中学习。请注意，图中的两个编码器E和三个生成器G都分别共享参数重建损失：当用某个相机姿态投影时，预测的3D模型应该与从该相机姿态投影的地面实况图像一致更具体地，假设（x1，p1）和（x2，p2）是从3D模型采样的两对图像-姿态对，则如果从相机姿态p2投影，则从E（x1）重建的体素应该产生与x2相同的图像。另一个视图也是如此令P（v， p）表示通过使用相机姿态p投影体素v而生成的图像我们将重建损失定义为解决此一致性要求：Lrecon=P（G（E（x2）），p1）−x11+2+P（G（E（x1）），p2）−x21+2（1）其中r·1+ 2=·1+·2是1和2两种结构的总和。这种重建损失已经在先前的工作中使用[27]。我们添加1损失，因为1损失可以更好地处理稀疏向量，如剪影图像。表示的姿势不变性损失：给定对象的两个随机采样视图，编码器E应当能够将它们的潜在表示嵌入在附近，而不管姿态如何。因此，我们在潜在表示上定义姿势不变性Lpinv=E（x1）−E（x2）2（2）体素上的姿态不变性损失：类似地，由生成器G从相同对象的两个不同视图重构的3D体素输出应当相同。因此，我们引入基于体素的姿态不变性损失：Lvinv=G（E（x1））−G（E（x2））1（3）学习具有有限姿势监督的单视图3D重建7损耗在图中用虚线表示3 .第三章。在具有姿势注释的图像上的每个训练步骤都试图最小化组合的监督损失：L监督=L重建+αLpinv+βLvinv（4）其中α和β分别是Lpinv和Lvinv的权重我们使用α = β = 0。1在所有的实验中4.2在未标记图像为了从未标记的图像中学习，我们使用了对抗性损失，如图1底部所示。3.第三章。直觉是让生成器G学习生成3D体素网格。当从随机视点投影时，3D体素网格应该能够产生与真实图像不可区分的图像。对抗性损失的另一个优点是正则化，如McRecon方法[10]。具体来说，我们首先对向量zN（0，I）和从训练集中观察到的相机姿态范围均匀采样的视点p进行采样然后，生成器G将采用本征向量z并重建3D形状。该3D形状将使用随机姿态p被投影到图像。无论我们投影哪个相机姿势，投影的图像都应该看起来像从数据集中采样的图像。我们通过使用类似于PrGAN [7]使用的对抗损失来更新生成器和鉴别器：LD=Ez，p[log（1−D（P（G（z），p）]+ExX[logD（x）]（5）LG=−Ez，p[logD（P（G（z），p））]（6）注意，代替正态分布的z向量，还可以使用采样的训练图像上的编码器输出然而，鼓励G产生有意义的形状，即使在噪声输入可能会迫使G捕捉形状先验。4.3实现细节编码器、发生器和鉴别器的详细结构如图所示4.第一章在投影仪（图中未示出）中4），我们首先将体素化的3D模型以其中心旋转，然后根据相机姿态使用透视投影来产生图像。整个模型通过在姿势注释和未标记图像上的迭代之间交替进行端到端训练我们使用Adam优化器[13]，编码器，生成器和鉴别器的学习率分别为10- 3，10- 4和10- 4。在使用对抗性损失进行训练时，我们使用DRAGAN [14]引入的梯度惩罚来提高训练稳定性。代码可在https://github.com/stevenygd/3d-recon获取。5实验5.1数据集我们使用来自ShapeNetCore [4]数据集的体素化32× 32× 32 3D形状我们看10个类别：飞机，汽车，椅子，显示器，电话，扬声器，8Guandao Yang，Yin Cui，Serge Belongie，BharathHariharan见图4。编码器、发生器和鉴别器的模型结构。Conv：卷积，BN：批量归一化[11]，LN：层归一化[2]，L-ReLU：斜率为0的泄漏ReLU。2 [15]，ConvT：常用于生成任务的转置卷积[16，25]。FC，k：具有k个输出的全连接层。鉴别器输出生成图像的概率。表1.在以前的工作和我们的合成数据集之间的比较关键区别在于训练期间可用的姿势注释数量我们尝试了多种设置。数据集属性MVC [20][10]第10话PTN [27]我们输入图像64x64/RGB 127x127/RGB 64x64/RGB32 x32/灰度监理形象64 x64/面罩127 x127/面罩 32 x32/面罩32 x32/面罩监管层2D二维+三维2D2D姿势注释百分百百分百百分百0-100%每个图像的视图数5不可用8-245姿态选择随机随机固定离散随机桌子、长凳、器皿和橱柜。对于客户端，我们使用ShapeNet的默认拆分进行训练、验证和测试。在生成训练图像时，我们首先使用旋转向量r =[r x，r y，r z]围绕其中心旋转体素化的3D模型，其中r x∈[−20◦，40 ◦]和r y∈ [0 ◦，360 ◦]是高度和方位的均匀采样旋转角度;我们总是设置r z= 0。然后，我们将旋转的3D体素投影到二进制掩码中作为用于训练、验证和测试的图像对于每个3D形状，我们从不同的相机姿势生成5个遮罩在实验过程中，我们还希望限制姿势监督的数量如果r%的模型实例用姿态注释，则用r%的姿态监督训练模型我们将在不同的设置中探索100%、50%、10%和1%的姿势注释所有训练图像，无论它们是否具有姿势注释，都在所有设置中用作未标记的图像。学习具有有限姿势监督的单视图3D重建9请注意，我们的数据设置与以前的工作不同，实际上以前的工作中的设置彼此不同与Tulsiani等人的合成数据集相比，我们使用具有最低分辨率（ 32× 32 ）和无颜色线索（灰度）的输入图像。[20][27 ][28][29]我们使用比PTN [27]更少的视点，并且我们的视点是随机抽样的，这使得它成为一项更困难的任务。我们的数据设置仅提供具有相机姿势的2D监督，这与也使用未标记的3D超视（U3D）的McRecon [10精确的数据设置与我们的重点正交，即组合姿势监督和未标记图像。因此，我们选择的设置，丁与以前的作品相比，提供较少的信息。详细比较见表1。5.2评估指标为了评估我们的模型的性能，我们使用地面实况体素网格和预测网格之间的交集（IoU），对所有对象进行平均。计算IoU需要对来自生成器的体素的概率输出进行阈值化。如Tulsiani等人所建议的。[20]，我们扫描阈值并报告最大平均IoU。我们还报告IoU 0。4和IoU 0。5与以前的工作比较，和平均精度（AP）。5.3半监督单类我们使用6个类别：飞机、长椅、汽车、椅子、沙发和桌子，用于半监督设置下的单类别实验。在这个设置中，我们为每个类别训练一个单独的模型我们实验了从0%到100%的不同与以前的工作比较：我们首先比较与以前的工作，使用完整的姿势/实例监督。我们用50%的带有实例和姿势的图像来训练我们的模型模型被训练20，000次迭代，并提前停止（即，将具有最佳性能的模型保持在验证集中）。性能比较如表2所示。我们的模型的性能与以前的工作在多个指标。结果表明，虽然仅使用50%的姿势监督，但我们的模型优于McRecon [10]和MVC [20]，但在IoU 0方面表现不如PTN[27]。五、但是，请注意，由于不同方法的设置存在差异，这些数字并不完全相称。未标记的图像有用吗？接下来，我们询问使用未标记图像和对抗性损失来提供额外的监督和正则化是否有用。我们比较三种模型：2）仅在姿势注释的图像上训练的模型;以及3）仅在未标记图像上训练的模型。在第三种情况下，由于模型不具有训练编码器的能力，因此我们通过首先将生成器G和鉴别器D-起训练为GAN，并且然后一旦GAN被训练，则使用生成器来训练编码器E，来采用PrGAN [ 7 ]的训练方案。10Guandao Yang，Yin Cui，Serge Belongie，BharathHariharan姿势注释+仅表2. 比较我们的模型和以前的工作单视图三维重建-STTION。所有现代化的电子产品都与来自信息技术领域的信息一起使用。我们的模型的性能与先前的模型相当，同时仅使用50%的姿势监督。类别MVC [20]IOU[10]第10话APIoU 0.4PTN [27]IoU 0. 5Ours（50% poseannotations）IoUAPIoU 0. 4lou 0.5飞机0.550.590.37-0.570.750.560.57长椅-0.390.30-0.360.480.350.35汽车0.750.820.56-0.780.920.770.77椅子0.420.480.350.490.440.600.430.42沙发-0.560.38-0.540.690.530.52表-0.460.35-0.440.630.430.420.450.600.550.400.500.350.450.300.250.200（0%）46（1%）461人（10%）2306（50%）4612（100%）姿势监督0.400.350.300.250.200（0%）46（1%）461人（10%）2306（50%）4612（100%）姿势监督图五、我们的模型的三种变体之间的比较：1）组合的姿势注释和未标记的图像，2）仅姿势注释的图像，以及3）仅未标记的图像。我们的模型能够利用姿态标注数据和未标记数据。在监督有限的情况下，未标记的数据特别有用训练结束了。我们比较这些模型的椅子类别与不同数量的构成监督。结果见图。五、首先，与纯无监督方法（0姿势监督）相比，当只有1%的数据具有姿势注释（45个模型，225个图像）时，性能显著提高。这表明姿势监督是必要的，并且我们的模型可以成功地利用这种监督来做出更好的预测。其次，将姿势注释与未标记图像相结合的模型优于仅使用姿势注释图像的模型。小姿态标注越可用，增益越大，表明未标记图像上的对抗性损失是有用的，特别是在姿态监督和视点受限（≤10%）的情况下。第三，给定足够的姿势监督（50%甚至100%），仅姿势监督模型和组合模型之间的性能差距大大减小。这表明，当有足够的图像与姿势注释，利用未标记的数据是不必要的。姿势注释+仅IOUAP学习具有有限姿势监督的单视图3D重建11表3. 不同数量的姿势监督下的类别不可知模型的性能。在相同的监督量（50%）下，类别无关模型的性能与特定类别模型的性能相当，这表明我们不需要进行监督测试类别姿势监督和问题设置百分之五十单个百分百多百分之五十多百分之十多1%多IOUAPIOUAPIOUAPIOUAPIOU AP飞机0.570.750.580.760.570.730.540.750.49 0.63汽车0.780.920.790.930.780.930.780.930.71 0.81椅子0.440.600.450.570.440.570.410.540.31 0.39显示0.440.610.430.590.430.580.360.490.26 0.32手机0.550.690.550.720.560.730.500.640.42 0.52发言者0.580.730.590.740.590.730.550.690.45 0.58表0.440.630.460.630.450.610.400.540.29 0.39是说0.540.700.550.710.550.700.510.650.42 0.525.4半监督多类接下来，我们在来自7个类别的组合训练数据上使用类别不可知模型进行实验：飞机、汽车、椅子、显示器、电话、扬声器和桌子。该实验还利用不同量的姿势注释进行。结果报告于表3中。一般来说，使用更多的姿势监督会产生更好的类别不可知模型的性能对于每个类别具有相同量的姿势监督（50%），与类别特定模型相比，类别不可知模型实现了类似的性能这表明该模型能够通过学习类别不可知表示来补救类别信息的移除5.5少次迁移学习当一个新的类出现时，系统以前没有见过它，会发生什么？在这种情况下，模型应该能够转移它所获得的知识，并使其适应具有非常有限的注释训练数据的新类。为了评估这是否可能，我们使用类别不可知模型，在5.4节中描述的数据集上进行预训练，并将其适应三个看不见的类别：长凳，船只和卡宾。而小说类的每一项，只有1%提供了姿势注释数据的“位置”。因此，每个新类别通常具有大约13个3D形状或大约65个姿势注释图像。我们在这个实验中比较了三种模型。从头开始：在不使用任何预训练的情况下，在给定的新颖类别上从头开始训练的模型;类别外[27]：预先训练的类别不可知模型直接应用于新类别，而无需任何额外的训练;微调：在给定的新颖类别上微调的预训练的类别不可知模型。微调是通过固定编码器和训练生成器只使用姿势注释的图像进行几次迭代。我们用了同样的训练策略12Guandao Yang，Yin Cui，Serge Belongie，BharathHariharan0.340.320.300.280.260.24本昂什0.500.450.400.35柜0.460.440.420.40船只0.220.200.300.381% 10% 50% 100% 1% 10% 50% 100% 1% 10% 50% 100%0.450.400.350.300.25本昂什0.650.600.550.500.450.40柜0.6750.6500.6250.6000.5750.5500.5250.5000.475船只1% 10% 50% 100% 1% 10% 50% 100% 1% 10% 50% 100%预训练姿势监督预训练Pose S视觉预训练构成监督见图6。新类别上的少量迁移学习。每一列代表一个新类别的性能（顶行是IoU，底行是AP注意，水平轴示出预训练中的姿势注释监督的量。表4.在具有1%姿势注释的椅子上比较不同的训练策略在目标类别上微调类别不可知模型效果最好。S、PS、U S、P+UMFTIOUAP0.29130.38000.20650.21800.31750.41620.31040.38590.32500.4247如第4.3节所述，所有三种型号均适用。在这个实验中，我们改变了用于预训练的姿势注释的结果示于图六、首先，我们观察到，为一个新类别微调一个预训练模型的性能要比在没有预训练的情况下从头开始训练好得多。这表明，转移从预先训练的模型中学习到的知识对于新类别的少量学习至关重要。其次，与类别外基线相比，微调在直接使用预训练模型时大大提高了性能，特别是在有限姿势监督的情况下。这表明我们的模型能够通过微调快速适应一个新的类别，只需很少的训练样本。5.6如何最好地使用有限注释？我们现在有了回答这个问题所需的所有要素：给定非常少量的姿势注释，训练单视图3D重建模型的最佳方法是什么？表4比较了关于椅子的多种训练策略：仅使用椅子的姿势注释图像（S，P）、仅使用椅子的未标记图像（S，P）。Fromscratch类别外微调Fromscratch类别外微调Fromscratch类别外微调Fromscratch类别外微调Fromscratch类别外微调Fromscratch类别外微调IOUAPIOUAPIOUAP学习具有有限姿势监督的单视图3D重建13见图7。验证集上的3D形状生成。顶行显示输入图像（32× 32灰度）。对应的地面实况体素和生成的体素分别呈现在中间行和底部行中。模型使用半监督单类别设置进行训练，其中50%姿势监督。图8. 类别内插值（顶部3行）和跨类别插值（底部3行）。给定最左边形状z1和最右边形状z2的特征向量，中间形状对应于G（z1 + α（z2− z1）），其中α ∈ [0，1]。U），使用椅子的姿势注释的和未标记的图像（S，P+U），组合多个类别以训练类别不可知模型（M），以及微调椅子的类别不可知模型（FT）。微调后的模型效果最好，这表明最好将姿势注释和未标记的图像结合起来，以利用多个类别并保留类别特异性。14Guandao Yang，Yin Cui，Serge Belongie，BharathHariharan图9.第九条。潜在空间算术。见图10。来自具有不同量的姿势监督的模型的形状预测。从左至右：输入图像、地面实况体素，然后是来自图1中呈现的模型的形状。五、P：使用姿势标注进行训练;S：使用未标记数据进行训练。百分比指示姿势注释的数量。5.7定性结果图7示出了来自我们的用50%姿势注释训练的类别特定模型的一些定性结果。除了单图像3D重建之外，我们的模型还学习了一种有意义的形状表示，如在潜在空间中进行插值和算术的能力所示（图1）。8、9）。减少注释的定性影响如图所示10个。当监督量减少时，人们在3D重建中看到大量的噪声，当包括未标记的图像时，这似乎减少了6结论总之，我们提出了一个统一的和端到端的模型，使用标记有相机姿态和未标记的图像作为监督单视图3D重建的图像我们的实验表明，利用未标记的数据时，可以训练一个单视图重建模型与几个姿势注释。未来的工作将包括确认和扩展这些结果更实际的设置与高分辨率RGB图像和任意相机位置。学习具有有限姿势监督的单视图3D重建15引用1. Agarwal ， S.， Furukawa ， Y.， Snavely ， N. 西蒙岛 Curless ， B.， Seitz ，S.M.，Szeliski，R.：一天建成罗马。ACM通信（2011年）32. BA J.L. Kiros ， J.R. Hinton ， G.E. ：层归一化。 arXiv 预印本 arXiv ：1607.06450（2016）83. Blanz，V.，Vetter，T.：三维人脸合成的可变形模型。第26届计算机图形学与交互技术年会论文集。出版社： ACM Press/Addison-WesleyPublishing Co.（1999年）34. Chang，A.X.，Funkhouser，T.，吉巴斯湖Hanrahan，P.黄，Q，Li，Z.，Savarese，S.，Savva，M.，Song，S.，Su，H.，肖，J.，Yi，L.，Yu，F.：ShapeNet：信息丰富的3D模型库。Tech. arXiv：1512.03012 [cs.GR]，斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所（2015）1，75. Choy，C.B.，徐，D.，Gwak，J.，Chen，K.，Savarese，S.：3d-r2 n2：用于单视图和多视图3D对象重建的统一方法In：ECCV（2016）36. Fan，H.，Su，H.，Guibas，L.J.：从单幅图像重建三维物体的点集生成网络在：CVPR中。第2卷，第6页（2017年）37. Gadelha，M.，Maji，S.，Wang，R.：从多个对象的2D视图的3D形状归纳。In：3DV（2017）3，5，7，98. Girdhar河Fouhey，D.F.，Rodriguez，M. Gupta，A.：学习对象的可预测和生成矢量表示。In：ECCV（2016）39. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair ， S. ， Courville ， A. Bengio ， Y. ：生成性对抗网。在： NIPS（2014）310. Gwak，J.，Choy，C.B.，Garg，A.，Chandraker，M.，Savarese，S.：用于三维重建的弱In：3DV（2017）3，7，8，9，1011. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。In：ICML（2015）812. Kar，A.，Tulsiani，S.，卡雷拉，J.，Malik，J.：从单个图像重建特定于类别的对象。在：CVPR（2015）313. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法。In：ICLR（2015）714. Kodali，N.，Hays，J.，Abernetthy，J.，Kira，Z.：关于GAN（2018）7的收敛性和稳定性15. Maas，A.L.，Hannun，A.Y.，Ng，A.Y.：整流器的非线性改善了神经网络声学模型。In：ICML（2013）816. Radford，A.梅斯湖Chintala，S.：使用深度卷积生成对抗网络进行无监督表示学习。In：ICLR（2016）817. Rezende，D.J.，Eslami，S.A. Mohamed，S.，Battaglia，P. Jaderberg，M.，Heess，N.：图像三维结构的无监督学习。在：NIPS（2016）318. Rock，J. Gupta，T.，Thorsen，J.，Gwak，J.，Shin，D.，Hoiem，D.：从一个深度图像完成3d物体形状。在：CVPR（2015）319. Saxena，A.，孙，M.，Ng，A.Y.：Make3d：从单个静态图像学习3D场景结构。PAMI（2009）320. Tulsiani，S.，埃夫罗斯，匿名戒酒会Malik，J.：多视图一致性作为学习形状和姿态预测的监督信号。在：CVPR（2018）3，8，9，1021. Tulsiani，S.，周，T.，埃夫罗斯，匿名戒酒会Malik，J.：通过可微射线一致性进行单视图重建的多视图监督In：CVPR（2017）1，316Guandao Yang，Yin Cui，Serge Belongie，BharathHariharan22. Ullman，S.：从运动解释结构In：Proc.R. Soc. Lond.B.皇家学会The Royal Society（1979）23. Vicente，S.，卡雷拉，J.，阿加皮托湖巴蒂斯塔，J.：重构pascal voc。在：CVPR（2014）324. 吴，J.，Xue，T.，Lim，J.J.，田，Y.，Tenenbaum，J.B.，Torralba，A.，弗里曼，W.T.：单图像三维解释器网络。In：ECCV（2016）325. 吴，J.，张，C.，Xue，T.，弗里曼，W. T.，Tenenbaum，J.B.：通过3d生成对抗建模学习对象形状的概率潜在空间。In：NIPS（2016）3，826. 吴志，Song，S.，Khosla，A.余，F.，张，L.，唐，X.，Xiao，J.：3dshapenet：体积形状的深度表示。在：CVPR（2015）327. Yan，X.，杨杰，Yumer，E.，Guo，Y.，中国科学院，Lee，H.：透视Transformer网络：学习无3d 监督的单视图3d物体重建。在：NIPS（2016）1，3，5，6，8，9，10，11

下载后可阅读完整内容，剩余1页未读，立即下载