单视图3D形状完成和重建：形状先验的学习与先验作为正则化器

144 浏览量更新于2023-10-13 收藏 2.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

学习形状先验单视图三维完成和重建吴嘉俊*1，张承凯*1，张秀明1，张周通1，William T.弗里曼1， 2，和约书亚B。Tenenbaum11MIT CSAIL，Cambridge MA 02139，USA2Google Research，Cambridge MA 02139，USA抽象。单视图3D形状完成或重构的问题是具有挑战性的，因为在解释观察的许多可能的形状中，大多数是不可信的并且不对应于自然对象。该领域最近的研究通过利用深度卷积网络的表达能力来解决这个问题。事实上，还有另一个层次的模糊性常常被忽视：在看似合理的形状中，仍然存在同样适合2D图像的多个形状;即，在给定单视图输入的情况下，地面实况形状是不确定的。现有的完全监督方法无法解决这个问题，并且通常产生具有平滑表面但没有精细细节的模糊平均形状。在本文中，我们提出了ShapeHD，通过将深度生成模型与逆向学习的形状先验知识相结合，推动了单视图形状完成和重建的极限学习的先验作为一个正则化器，只有当模型的输出不切实际时才惩罚模型，而不是如果它偏离了基本事实。因此，我们的设计克服了上述两个层次的模糊性。实验表明，ShapeHD在多个真实数据集上的形状完成和形状重建方面都大大优于现有技术。关键词：形状先验·形状完备·3D重建1介绍这是一个游戏：图1中的两个图形中的一个显示了一个彩色图像和两个不同的3D形状解释。哪一个看起来更好？我们在Amazon MechanicalTurk上向100人提出了这个问题。59%的人喜欢飞机的解释A，35%的人喜欢汽车的解释A。这些数字表明，在这两个病例中，peple的手术差异很大感知差异相对较小。实际上，对于每个实例，其中一个重建是本文介绍的模型的输出，另一个是地面真实形状。答案可在脚注中找到。在本文中，我们的目标是推动从一个单一的深度图像的3D形状完成的限制，从一个单一的彩色图像的3D形状重建最近，* J.Wu和C.张对这项工作作出了同样的2J. Wu等人观察解释A解释B观察解释A解释B了图1.一、我们的现代化的复杂度或重建是从单个深度或RGB图像中提取具有精细数据的完整3D图像。在此图中，我们显示了两个示例，每个示例都包含一个输入图像、其地面真值形状的两个视图以及我们的结果的两个视图。我们的重建具有高质量和精细的细节，并且在行为研究中分别有41%和35%的时间受到人类的青睐我们的模型需要一个单一的前馈通过在测试过程中没有任何后处理，因此是高效的（100毫秒）和实际有用的。<答案可在脚注中找到。研究人员在这些任务上取得了令人印象深刻的进展[7，52，8]，利用巨大的3D数据集[5，60，59]。这些方法中的许多方法通过使用深度卷积网络来回归可能的3D形状来解决问题的利用深度生成模型的力量，他们的系统学会避免产生难以置信的形状（图2b）。然而，从图2c中，我们意识到仍然存在模糊性，即监督训练的网络无法建模。从一个单一的角度来看，存在多种自然形状，同样可以很好地解释观察结果。换句话说，每个观察都没有确定性的基础事实通过纯监督学习，网络倾向于生成平均形状，从而精确地减少由于这种模糊性而造成的惩罚。为了解决这个问题，我们提出了ShapeHD，它通过将深度体积卷积网络与逆向学习的形状先验相结合来完成或重建3D形状。学习的形状先验仅在生成的形状不切实际时惩罚模型，而不是在其偏离地面实况时。这克服了上面讨论的困难我们的模型通过对抗性学习来描述这种自然性损失，这是一个近年来受到极大关注的研究课题，并且仍在快速增长[14，37，57]。在多个合成和真实数据集上的实验表明，ShapeHD在单视图3D形状完成和重建方面表现良好，比最先进的系统取得了更好的结果。进一步的分析表明，网络学会关注有意义的对象部分，自然度模块确实有助于随着时间的推移表征形状细节。2相关工作3D形状完成。形状补全是几何处理中的一项重要任务，有着广泛的应用。传统的方法试图用局部表面基元来完成形状，或者将其公式化为优化问题[35，44]，例如，泊松表面重建通过泊松方程[29，28]求解体素网格上的指示最近，也有⋆⋆基于形状先验知识的单视图三维完成与重建3(a) 观察(b) 不自然的形状(c) 自然形状图二.单视图3D形状感知中的两个模糊水平。对于每个2D观察（a），存在许多可能的3D形状，可以同样很好地解释这个观察（b，c），但只有一小部分对应于真实的日常形状（c）。利用深度网络进行识别的方法在一定程度上减少了这一层面的歧义。通过使用逆向学习的自然度模型，我们的ShapeHD旨在在下一个层面上对模糊性进行建模：即使在现实的形状中，仍然有多个形状很好地解释了观察结果（c）。越来越多的论文利用形状结构和规律[34，51]，以及利用强大的数据库先验的论文[46，32，4]。然而，这些方法通常要求数据库包含形状的精确部分，因此具有有限的泛化能力。随着ShapeNet [5]等大规模形状存储库的进步，研究人员开始开发完全数据驱动的方法，其中一些基于深度卷积网络。举几个例子，Voxlets [12]采用随机森林来预测未知的体素邻域。3D ShapeNets [58]使用深度信念网络来获得给定形状数据库的生成模型，Nguyen等人。[50]扩展了网格修复的方法。可能与我们最相关的论文是Dai等人的3D-EPN。[8]的一项建议。3D-EPN通过利用3D卷积网络和基于非参数块的形状合成方法，在部分深度扫描的3D形状完成方面取得了令人印象深刻的结果与3D-EPN相比，该模型在两个方面具有优势首先，在自然度损失的情况下，ShapeHD可以在解释观察结果的多个假设中进行选择，从而重建具有精细细节的高质量3D形状;相比之下，来自没有非参数形状合成的3D-EPN的输出通常是模糊的。其次，我们的完成需要一个单一的前馈通道，没有任何后处理，因此比3D-EPN快得多（100 ms）。单幅图像三维重建。从单个图像恢复对象形状的问题是具有挑战性的，因为它需要强大的识别系统和先验形状知识。作为早期的尝试，Huanget al. [21]建议从现有CAD模型中借用形状部件随着ShapeNet [5]等大规模形状存储库和深度卷积网络等方法的发展，研究人员近年来建立了更具可扩展性和效率的模型[7，13，18，27，36，38，48，52，56，57，62]。虽然这些方法中的大多数编码4J. Wu等人除了从视觉重建体素中的对象之外，还尝试在点云[11，15]或八度树[40，49，39]中重建对象，或者使用触觉信号[53]。相关方向是估计2. 5 D草图（例如，深度和表面法线图）。在过去，研究人员已经探索了从阴影，纹理或彩色图像恢复2.5D草图[2，3，20，47，55，63]。与随着深度传感器[23]和更大规模的RGB-D数据集[33，42，43]的发展，也有关于使用深度网络估计深度[6，10]，表面法线[1，54]和其他内在图像[25，41]的论文受MarrNet [56]的启发，我们通过建模2.5D草图来重建3D形状，但为了更高的质量，我们引入了自然度损失。感知损失和对抗性学习。研究人员最近提出使用感知损失来评估2D图像的质量[26，9]。这个想法已被应用于许多图像任务，如风格转移和超分辨率[26，31]。此外，这个想法已经扩展到使用生成对抗网络（GAN）学习感知损失函数[14]。GANs将对抗性鉴别器纳入生成建模过程中，并在图像合成等任务上取得了令人印象深刻的性能[37]。Isola等人[22]和Zhuet al.[65]分别在有监督和无监督的情况下使用GAN进行图像翻译。在3D视觉中，Wuet al.[57]扩展了用于3D形状合成的GANs然而，他们的形状重建模型（3D-VAE-GAN）通常会产生一个嘈杂的，不完整的形状给定的RGB图像。这是因为与识别网络联合训练GAN可能非常不稳定。许多研究人员也注意到了这个问题：尽管3D形状空间的对抗建模可以解决前面讨论的模糊性，但其训练可能具有挑战性[8]。解决这个问题，当Gwaket al.[17]探索了用于单图像3D重建的对抗网络，并选择使用GANs来建模2D投影而不是3D形状。然而，这种弱监督的设置，阻碍了他们的重建。在本文中，我们通过3D形状空间的对抗建模来开发我们的自然度损失，显著优于最先进的技术。3方法我们的模型由三个部分组成：2.5D草图估计器和3D形状估计器，通过2.5D草图从RGB图像预测3D形状（图3-I，II，受MarrNet [56]启发），以及深度自然度模型，如果预测的形状不自然，则惩罚形状估计器（图3-III）。单独使用监督重建损失训练的模型通常会生成模糊的平均形状。我们的学习自然度模型有助于避免这个问题。2.5 三维草图估算网络。我们的2.5D草图估计器具有编码器-解码器结构，其在特定时间处从RGB图像中提取出图像的外观、表面规格和外观（图3-I）。我们使用ResNet-18 [19]将256×256的图像编码为512个8× 8的特征图解码器由四个转置卷积层组成，内核大小为5× 5，步幅和填充为2。然后，预测的深度和表面法线图像被预测的轮廓掩盖，并用作我们的形状完成网络的输入。3D形状完成网络。我们的3D估计器（图3-II）是编码器-解码器网络，其从2.5D草图预测规范视图中的3D形状基于形状先验知识的单视图三维完成与重建52D2.5D3DW(a) 体素（b）自然度图像(I) 2.5D草图估算(II) 3D形状完成(III) 形状自然度图3.第三章。对于单视图形状重建，ShapeHD包含三个组件：（I）从单个图像预测深度、表面法线和轮廓图像的2.5D草图估计器;（II）从轮廓掩蔽的深度和表面法线图像回归3D形状的3D形状完成模块;（III）用作自然度损失函数的对抗性预训练卷积网络。在微调3D形状完成网络时，我们使用两个损失：输出形状的监督损失和预训练鉴别器提供的自然度损失。该编码器改编自ResNet-18 [19]，用于将四通道256×256图像（一个用于深度，三个用于表面法线）编码为200-D潜在向量。然后，该向量通过五个转置卷积和ReLU层的解码器，以生成128 ×128×128的体素化形状。预测体素和目标体素之间的二进制交叉熵损失被用作监督损失L体素。3.1形状自然度网络由于单视图3D形状重建的固有不确定性，仅具有监督损失的形状补全网络通常预测不切实际的平均形状。通过这样做，当存在多个可能的地面实况形状时，它们最小化损失。相反，我们引入了一个经过逆向训练的深度自然度正则化器，它会对这种不切实际的形状进行惩罚我们预先训练了一个3D生成对抗网络[14]来确定一个形状是否真实。它的生成器从随机采样的向量合成3D形状因此，鉴别器具有模拟真实形状分布的能力，并且可以用作形状完成网络的自然度损失。生成器不参与我们以后的培训过程。在3D-GAN[57]之后，我们使用5个转置卷积层，用于生成器的批量归一化和ReLU，以及5个卷积层，用于生成器的泄漏ReLU。由于3D形状的高维性（128×128×128），训练GAN变得非常不稳定。为了处理这个问题，我们遵循Gulrajaniet al。[16]并使用带有梯度惩罚的Wasserstein GAN损失来训练我们的对抗性生成网络具体地说，LWGAN=Ex~Pg[D（x~）]−ExPr[D（x）]+λExPx【（<$$>x<$D（x<$）<$2−1）2】，（1）其中D是鉴别器，Pg和Pr分别是生成的形状和真实形状的分布最后一项是Gulrajani等人的梯度惩罚。[16]第10段。在训练过程中，训练员试图将整体损失降至最深度形状6J. Wu等人当发电机试图通过第一项使损失最大化时，在Equation1中，如果Lnatural=−E，则可以在实际损失时找到x~Pc其中Pc是来自我们的完备网络的重构形状。3.2培训模式[D（x~）]，我们分两个阶段训练我们的网络。我们首先分别对模型的三个组件进行预训练。然后利用体素损失和自然度损失两者来微调形状完成网络我们的2.5D草图估计网络和3D完成网络使用ShapeNet [5]对象渲染的图像进行训练（详细信息请参见第4.1节和第5节）。我们使用L2损失和SGD训练2.5D草图估计器，学习率为0.001，持续120个epochs。在这个阶段，我们只使用监督损失L体素来训练3D估计器，再次使用SGD，学习率为0.1，动量为0.9，持续80个epoch。自然度网络以对抗的方式进行训练，我们使用Adam [30]，学习率为0.001，批量大小为4，共80个epochs。如Gulrajani等人所建议，我们设置λ = 10。[16]第10段。然后，我们用体素损失和自然度loses两者来微调我们的完成网络，如L=Lvoxel+αLnatural。我们比较损失的总体规模，并使用α = 2训练我们的完成网络。75× 10−11，使用SGD，80个历元。我们的模型对这些参数是鲁棒的;它们只是为了确保各种损耗的梯度具有相同的量级。一种替代方案是使用两种损失从头开始联合训练自然度模块与完成网络。这看起来很诱人，但在实践中，我们发现Wasserstein GAN有很大的损失和梯度，导致输出不稳定。因此，我们选择使用我们的预训练和微调设置。4单视图形状完成对于单个深度图像的3D形状完成，我们只使用模型的最后两个模块：三维形状估计器和深度自然度网络。4.1设置数据我们在20个随机的、完全无约束的视图中渲染来自飞机、汽车和椅子类别的对于每个视图，我们随机设置相机的方位角和仰角，但相机向上矢量固定为世界+y轴，相机始终注视对象中心。使用35mm胶片时，焦距固定在50mm。我们使用Mitsuba [24]，一个基于物理的图形引擎，用于我们所有的渲染。我们使用90%的数据进行训练，10%用于测试。我们在所有20个视图中渲染每个对象的地面实况深度图像深度值是从照相机中心（即，射线深度），而不是从图像平面。为了近似深度扫描仪数据，我们还从原始深度数据生成伴随的地面实况表面法线图像，因为表面法线图是深度扫描的常见副产品。我们所有渲染的表面法向量都是在相机空间中定义的。基线。我们与现有技术进行比较：3D-EPN [8]。确保一个公平的比较，我们将深度图转换为部分表面注册在一个基于形状先验知识的单视图三维完成与重建7输入ShapeHD（2视图）地面实况输入ShapeHD（2视图）地面实况见图4。从单视图深度完成3D形状的结果。从左至右：输入深度图、由规范视图和新颖视图中的ShapeHD重构的形状、以及规范视图中的地面实况形状。在逆向学习的自然度损失的帮助下，ShapeHD可以恢复具有精细细节的高度准确的3D形状有时重建的形状偏离了基本事实，但可以被看作是输入的另一种似乎合理的解释（例如，飞机在左边，第三排）。由ShapeNet Core 55 [5]定义的规范全局坐标，这是3D-EPN所需的虽然原始的3D-EPN论文通过渲染和融合多视图深度图来生成部分观察结果，但我们的方法将单视图深度图作为输入，并解决了一个更具挑战性的问题。指标 . 我们使用两个标准度量进行定量比较：交集大于并集（IoU）和倒角距离（CD）。特别地，倒角距离可以应用于各种形状表示，包括体素（通过对等值面上的点进行采样）和点云。4.2ShapeNet上的结果定性结果。在图4中，我们显示了ShapeHD从单视图深度图像预测的3D形状。虽然常见的编码器-解码器结构通常生成具有很少细节的平均形状，但我们的ShapeHD预测具有大方差和精细细节的形状此外，即使深度图像中存在强烈的遮挡，我们的模型也可以预测出高质量的、看似合理的3D形状，这些形状在感知上看起来很好，并推断出输入图像中不存在的部分。消融术当使用自然度损失时，网络因生成不合理但最小化监督损失的平均形状而在图5中，我们示出了具有和不具有自然度l〇ss（i. e. 通过使用Lnatural进行精细计算），记录由3D-EPN [8]预测的图形和形状与3D-EPN相比，我们的结果包含更精细的细节此外，ShapeHD的性能大大提高了自然度损失，预测更合理和完整的形状。8J. Wu等人输入3D-EPNShapeHD，不含n#$u #l（2视图）ShapeHD（2视图）地面真相（2视图）图五.我们在3D形状完成上的结果，与现有技术、3D-EPN [8]和我们的模型相比，但没有自然度损失。我们的结果比3D-EPN包含更多的我们观察到对抗训练的自然度损失有助于修复错误、添加细节（例如，第3排的机翼、第6排的汽车座椅和第8排的椅子扶手），以及光滑的平面（例如，第7排的沙发）。方法IoU CD表1.在ShapeNet上完成3D形状的平均IoU评分（323）和CD [5]。我们的模型远远优于现有技术习得的自然度损失一致地改善了我们的结果与地面实况之间的CD。定量结果。我们在表1中给出了定量结果我们的ShapeHD在所有指标上都优于最先进的水平我们的方法输出的形状在128- 3的分辨率，而3D-EPN产生的形状的分辨率为32- 3。因此，为了进行公平的比较，我们将预测的形状降采样到32 -3，并在该分辨率下报告两种方法的结果最初的3D-EPN论文提出了一个后处理步骤，用于检索相似的补丁椅子车平面avg椅车平面avg3D-EPN [8].147.274.155.1810.227.200.125.192不含L天然色的ShapeHD.466.698.488.529.112.083.071.093ShapeHD.488.698.452.529096 078.068.084基于形状先验知识的单视图三维完成与重建9扫描深度（单视图）ShapeHD（2视图）对象的照片扫描深度（单视图）ShapeHD（2视图）照片对象见图6。对来自物理扫描仪的深度数据的3D形状完成的结果。我们的模型能够很好地从单个视图重建形状从左到右：输入深度、结果的两个视图和对象的彩色图像。从形状数据库中获取更高分辨率的结果。实际上，我们发现这个步骤需要18个小时才能完成一个图像。因此，我们报告的结果，没有后处理的两种方法。表1还表明自然度损失改善了完成结果，实现了可比较的IoU分数和更好（更低）的CD。据报道，CD更好地捕捉人类对形状质量的感知[45]。4.3实际深度扫描我们现在显示ShapeHD在真实深度扫描上的结果。我们使用Structure传感器（structure.io）和使用捕获的深度图来评估我们的模型。用作输入的所有对应的图6显示了ShapeHD在给定单视图深度图的情况下很好地完成了3D形状。我们的ShapeHD比3D-EPN更灵活，因为我们不需要任何相机内部或外部来注册深度图。在我们的情况下，这些参数都是未知的，因此不能应用3D-EPN。5三维形状重建我们现在评估ShapeHD从单色图像的3D形状重建RGB图像准备。对于单图像3D重建的任务，我们需要渲染与深度图像对应的RGB图像以进行训练。我们遵循前面指定的相同相机设置此外，为了提高真实性在渲染的RGB图像中，我们在渲染过程中在对象后面放置了三种不同类型的背景三分之一的图像呈现在干净的白色背景中;三分之一在具有产生逼真照明的照明通道的高动态范围背景中呈现。我们使用从SUN数据库中随机采样的背景渲染剩余的三分之一图像[61]。10J. Wu等人输入估计值深度ShapeHD（2次浏览）GT输入估计值深度ShapeHD（2次浏览）GT输入DRC（3D）AtlasNetShapeHDGT输入DRC（3D）AtlasNetShapeHD GT方法长凳船小屋汽车椅子显示灯电话飞机步枪沙发说话桌子平均∗图7.第一次会议。ShapeNet上3D形状重建的定性结果和CD [5]。我们的ShapeNet渲染比Choy等人的渲染更具挑战性。[7]因此，其他方法的编号可能与原始论文中的编号不同。所有方法都在我们对最大的13个ShapeNet渲染的完全3D监督下进行训练∗类别DRC和ShapeHD采用单个图像作为输入，而AltasNet需要地面实况对象轮廓作为附加输入。(a) 训练类别(b) 对新类别的输入DRC（3D）AtlasNetShapeHD GT输入DRC（3D）AtlasNetShapeHD GT方法长凳船舱disp灯电话步枪沙发说话表平均[52]第52话.175 161.189 .278.225.268 .153 .149.203.221.202AtlasNet [15]*.155 2019 - 04 - 26.263 .121 .126.2060.262.195ShapeHD（我们的）.166 电话：021 -88888888传真：021- 88888888.229 .232 .133.1930.1990.195见图8。来自ShapeNet的新类别的3D形状重建的定性结果和CD [5]。所有方法都是在我们的渲染上进行完全3D监督的训练。∗ShapeNet汽车、椅子和飞机，并在接下来的10个最大类别上进行了测试 DRC和ShapeHD采用单个图像作为输入，而AltasNet需要地面真实物体轮廓作为额外的输入。基线。我们将我们的ShapeHD与3D形状重建中的最新技术进行了比较，包括3D-R2 N2 [7]，点集生成网络（PSGN）[11]，可微射线一致性（DRC）[52]，八叉树生成网络（OGN）[49]和AtlasNet [15]。3D-R2N2、DRC、OGN和我们的ShapeHD采用单个图像作为输入，而PSGN和AltasNet需要对象轮廓作为额外输入。合成数据的结果。我们首先评估ShapeNet对象的渲染[5]。我们在图7中呈现了重建的3D形状和定量结果所有这些模型都是在我们渲染最大的13个ShapeNet类别（至少有1,000个模型）的基础上进行训练的，其中包含地面真实3D形状，[52]第52话.122.131.127077.128 .128.168.102.1660.1070.1060.1380.1380.126AtlasNet [15].123.130.1690.107.141 .162.171.138.105096.131 .1720.161.139ShapeHD（我们的）0.121.103 .126 .066 .125 .124.157.0840.073.053 .102.141.124.108基于形状先验知识的单视图三维完成与重建11(a)投入（b）AtlasNet(c)DRC（3D）（d）ShapeHD(e)GT输入ShapeHD最佳替代方案输入ShapeHD最佳替代方案图9.第九条。PASCAL 3D+上的单视图3D形状重建[60]。从左到右：输入，来自ShapeHD的重建的两个视图，以及表2中的最佳替代方案的重建。在学习的自然度损失的帮助下，ShapeHD可以恢复具有精细细节的精确3D形状。图10个。Pix3D上的单视图3D重建[45]。对于每个输入图像，我们显示了AtlasNet，DRC，我们的ShapeHD和地面实况的重建。我们的ShapeHD可重建完整的3D形状，具有类似地面实况的精细细节。12J. Wu等人方法CD椅车平面平均3D-R2N2 [7] 0.2380.3050.305 0.284刚果民主共和国（3D）[52] 0.1580.0990.112 0.122OGN [49]-0.087--ShapeHD（我们的）0.137 0.129 0.0940.119(a) PASCAL 3D+上的CD [60]50403020100012345678 910#用户（10个）更喜欢我们的(b) 人体研究结果表2.PASCAL 3D+上的3D形状重建结果[60]。（a）我们将我们的ShapeHD与3D-R2 N2，DRC和OGN进行比较。PSGN和AtlasNet不计算，因为它们需要对象遮罩作为额外输入，但PASCAL 3D+只有不准确的遮罩。(b)在行为研究中，大多数用户更喜欢我们的结构在mostimages。总体而言，我们所代表的转型代表了64。5%的时间给两个GN监管一般来说，我们的ShapeHD能够预测与地面真实形状非常相似的3D形状，提供精细的细节，使重建的它在数量上也表现得更好。小说范畴的泛化。评估形状重建方法的一个重要方面是它们的泛化程度在这里，我们在最大的三个ShapeNet类（汽车、椅子和飞机）上训练我们的模型和基线，再次使用地面真实形状作为监督，并在下一个最大的十个上测试它们。图8 示出了我们的ShapeHD比DRC（3D）执行得更好，并且与AtlasNet相当;然而，请注意，AtlasNet需要地面实况轮廓作为额外输入，而ShapeHD则适用于原始图像。真实数据的结果。然后，我们在两个真实数据集上进行评估，PASCAL 3D+ [60]和Pix3D [45]。在这里，我们在合成ShapeNet渲染上训练我们的模型，并使用作者发布的预训练模型作为基线。所有方法都采用地面真实3D形状作为训练期间的监督。如图9和图10所示，ShapeHD工作良好，即使在存在强自遮挡的情况下也能推断出合理的形状。特别是，在图9中，我们将我们的重建与性能最好的替代方案（椅子和飞机上的DRC，以及汽车上的AtlasNet）进行了比较。除了保留细节外，我们的模型还捕捉了对象的形状变化，而竞争对手在实例中产生类似的重建。定量地，表2和表3表明，ShapeHD在几乎所有指标上都明显优于其他方法唯一的例外是PASCAL 3D+汽车上的CD，其中OGN表现最好。然而，由于PASCAL 3D+对于每个对象类别只有大约10个CAD模型作为地面实况3D形状，因此地面实况标签和分数可能不准确，无法反映人类感知[52]。因此，我们进行了额外的用户研究，在Amazon Mechanical Turk上向用户展示输入图像及其两个重建（来自ShapeHD和来自OGN，每个都有两个视图），并要求他们选择看起来对于每个图像，我们从“M as te r s”（具有宽范围的HI T的v e d e m on s t r at e x cell acr os的w or k e rs）收集10个响应。#测试示例基于形状先验知识的单视图三维完成与重建133D-R2N2 [7][52]第52话∗PSGN [11]∗AtlasNet [15]ShapeHD中文（简体）0.1360.265--0.284中文（简体）0.0890.185--0.205CD0.2390.1600.1990.1260.123表3.Pix3D上的3D形状重建结果[45]。所有方法都经过训练∗对ShapeNet对象的渲染图像进行全3D监控。 3D-R2 N2、DRC和ShapeHD采用单个图像作为输入，而PSGN和AtlasNet需要地面真实掩码作为输入。此外，PSGN和AtlasNet生成的曲面点云无法保证密接网格，因此无法在IoU中进行评估。图11个国家。有关ShapeHD如何处理深度图中的细节的可视化第1行：车轮检测器。第2排：椅背和腿检测器。左边的人特别对跨步的模式有反应第3行：椅子手臂和腿检测器。第4排：飞机发动机和曲面探测器。权利对跨类的特定模式做出响应。表2b表明，在大多数图像上，大多数用户更喜欢我们的重建而不是OGN。一般来说，我们的重建是首选64.5%的时间。6分析我们想了解网络学到了什么在本节中，我们将提供一些分析来可视化网络正在学习的内容，分析自然度损失函数随时间的影响，并讨论常见的故障模式。网络可视化。当网络成功地重建物体形状和部件时为此，我们使用Zhou等人提出的方法，在我们的3D完成网络中的编码器的最后一个卷积层中的单元的所有验证图像中可视化顶部激活区域。[64]第一章。如图11所示有探测器，参加汽车车轮，椅背，椅子扶手，椅子腿，和飞机发动机。还要注意，许多检测器响应于某些模式（例如，特别是，这可能有助于重建中的精细细节此外，还有一些单元可以响应跨类别的通用形状模式，如右下角的曲线检测器随着时间的推移，训练自然度的损失。我们研究了随着时间的推移自然度损失在图12中，我们绘制了完成的损失14J. Wu等人0.0710.0700.0690.0680.0670 20 40 6080时代(a)（b）第（1）款(c)（d）其他事项图12个。关于ShapeHD如何随着时间的推移而自然度损失的可视化：随着细节的添加，预测的形状变得越来越逼真。输入ShapeHD（3视图）GT输入ShapeHD（3视图）GT图13.我们系统的常见故障模式。左上：模型有时会被可变形的物体部分弄糊涂（例如，车轮）。右上角：模型可能会遗漏不常见的对象部分（轮子上方的环底行：模型难以恢复非常薄的结构，并且可能生成其他结构模式。关于微调时期的网络我们意识到体素损失缓慢但一致地下降。如果我们在不同的时间戳可视化重建的示例，我们可以清楚地看到细节被添加到形状中。这些精细细节占据体素网格中的一个小区域，因此单独使用监督损失进行训练相比之下，通过对抗性训练感知损失，我们的模型成功地恢复了细节。故障案例。我们在图13中展示了失败案例我们观察到我们的模型有这些常见的失败模式：它有时会被可变形的物体部分（例如，左上角的轮子）;它可能会错过不常见的对象部分（右上角，轮子上方的环）;它很难恢复非常薄的结构（右下角），并且可能会生成其他图案（左下角）。虽然体素表示可以包含自然度损失，但直观地说，它也鼓励网络关注较厚的形状部分，因为它们在损失函数中具有更多的权重。7结论我们已经提出使用学习的形状先验来克服2D-3D的模糊性，并从解释单视图观察的多个假设中学习我们的ShapeHD在3D形状完成和重建方面取得了最先进的结果。我们希望我们的研究结果将激发进一步的研究，在三维形状建模，特别是解释部分观测背后的模糊性鸣谢：这项工作得到了 NSF #1231216 、 ONR MURI N 00014 -16-1-2007、丰田研究所、壳牌研究公司和Facebook的支持。）（d（c）第（1）款（b）第（1）款（一）训练损失基于形状先验知识的单视图三维完成与重建15引用1. Bansal，A.，Russell，B.：Marr再访：通过表面法线预测进行2d-3d对齐见：CVPR（2016）2. 巴伦 J.T. Malik ， J. ：形状、照明和着色的反射率。 IEEETPAMI37（8），16703. Bell，S.，Bala，K.，Snavely，N.：在野外的内在图像。ACM TOG 33（4），159（2014）4. Brock，A.，Lim，T.，Ritchie，J.M.，Weston，N.：使用卷积神经网络的生成和判别体素建模。在：NIPS研讨会（2016）5. Chang，A.X.，Funkhouser，T.，吉巴斯湖Hanrahan，P.黄，Q，Li，Z.，Savarese，S.，Savva，M.，Song，S.，Su，H.，等：Shapenet：一个信息丰富的3D模型存储库。arXiv：1512.03012（2015）6. 陈伟，傅志杨，D.，Deng，J.：在野外的单一图像深度感知。在：NIPS（2016）7. Choy，C.B.，徐，D.，Gwak，J.，Chen，K.，Savarese，S.：3d-r2 n2：用于单视图和多视图3D对象重建的统一In：ECCV（2016）8. Dai，A.，Qi，C.R.，Nießner，M.：使用3d编码器预测器cnns和形状合成的形状完成。在：CVPR（2017）9. Dosovitskiy，A.，Brox，T.：基于深度网络生成具有感知相似性度量的图像。在：NIPS（2016）10. Eigen，D. Fergus，R.：预测深度、曲面法线和语义标签一种常见的多尺度卷积架构。In：ICCV（2015）11. Fan，H.，Su，H.，Guibas，L.：从单幅图像重建三维物体的点集生成网络。在：CVPR（2017）12. Firman，M.，Aodha，O.M.，Julier，S.，Brostow，G.J.：来自单个深度图像的未观察体素的结构化完成。见：CVPR（2016）13. Girdhar河Fouhey，D.F.，Rodriguez，M. Gupta，A.：学习对象的可预测和生成矢量表示。In：ECCV（2016）14. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A. Bengio，Y.：生成性对抗网。在：NIPS（2014）15. Goueix，T.，Fisher，M.，Kim，V.G.，拉塞尔，不列颠哥伦比亚省，奥布里，M.：Atlasnet：学习3d表面生成的纸质方法。来源：CVPR（2018）16. 古拉贾尼岛Ahmed，F.，Arjovsky，M.，Dumoulin，V.，Courville，A.：改进的瓦瑟斯坦甘斯训练。In：NIPS（2017）17. Gwak，J.，Choy，C.B.，Chandraker，M.，Garg，A.，Savarese，S.：具有对抗约束的弱电影3DV（2017）18. Hüane，C.， Tulsiani，S.， Malik，J. ：Hierar chicalsured icter重建的效率。电影3DV（2017）19. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习参见：CVPR（2015）20. Horn，B.K.，Brooks，M.J.：从阴影中形成形状麻省理工学院出版社（1989）21. 黄，Q，王，H.，Koltun，V.：通过图像和形状集合的联合分析的单视图重建ACM TOG 34（4），87（2015）22. Isola，P.，Zoran，D.，Krishnan，D.，Adelson，E.H.：从空间和时间的共同出现中学习视觉组。In：ICLR Workshop（2016）23. Izadi，S.，Kim，D.，Hilliges，O.，Molyneaux，D.，Newcombe，R.A.，Kohli，P.，Shotton，J.，Hodges，S.，Freeman，D.，Davison，A.J.，Fitzgills，A.W.：KinectFusion：使用移动深度相机的实时三维重建和交互。在：UIST（2011）24. 雅各布，W.：Mitsuba renderer（2010），http://www.mitsuba-renderer.org16J. Wu等人25. Janner，M.，吴，J.，Kulkarni，T.，耶尔德勒姆岛Tenenbaum，J.B.：自监督本征图像分解。In：NIPS（2017）26. Johnson，J.，Alahi，A.，李菲菲：实时风格转换和超分辨率的感知损失。In：ECCV（2016）27. Kar，A.，Tulsiani，S.，卡雷拉，J.，Malik，J.：从单个图像重建特定于类别的对象。参见：CVPR（2015）28. Kazhdan，M.，Bolitho，M.，Hoppe，H.：泊松曲面重建In：SGP. 05TheDog29. Kazhdan，M.，Hoppe，H.：屏蔽泊松曲面重建。ACM TOG32（3）、第二十九届会议（2013年）30. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法。载于：ICLR（2015）31. L edig ， C. ，这是 LHusza'r ， F. ， Caballero ， J. ， Cunningham ， A.Acosta，A. Aitken，A. Tejani，A.，托茨，J.，王志，等：使用生成对抗网络的照片逼真的单图像1609.04802（2016）32. 李，Y.，Dai，A.，吉巴斯湖Nießner，M.：数据库辅助的三维物体检索。CGF34（2），43533. McCormac，J.，Handa，A.，Leutenegger，S.，Davison，A.J.：Scenenetrgb-d：500万张合成图像在室内分割方面能否In：ICCV（2017）34. 美国新泽西州米特拉市Guibas，L.J.，Pauly，M.：三维几何中的

下载后可阅读完整内容，剩余1页未读，立即下载