从单个2D图像到前后预测的三维形状重建

137 浏览量更新于2023-10-23 收藏 2.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

531Front2Back：通过前到后预测的袁瑶1尼科·舍特勒1恩里克·罗萨莱斯1，2海尔格·罗丁1莱昂尼德·西加尔1，3阿拉·谢弗11英属哥伦比亚大学2泛美大学3加拿大CIFAR人工智能主席，矢量研究所{rozentil，nschertl，albertr，rhodin，lsigal，sheffa}@ cs.ubc.ca摘要从单个2D图像重建3D形状是经典的计算机视觉问题，其困难源于恢复被遮挡或仅部分观察到的表面的固有模糊性最近的方法通过使用大部分非结构化神经网络来解决这一挑战，这些神经网络有效地提取了3D形状的条件映射和先验。在这项工作中，我们利用三个核心观察来归纳结构和几何约束：（1）大多数日常物体的表面通常几乎完全暴露在典型的相反视图对中;(2) 日常物体经常表现出全局反射对称性，这可以从单个视图准确地预测;(3) 3D形状的相对正交视图共享一致的轮廓。在这些观察之后，我们首先从透视2D图像预测正射2.5D可见表面图（深度、法线和轮廓），并检测该数据中的全局反射对称性;其次，我们使用正面图作为输入来预测背面深度和法线图，并且在可用时，使用这些图的对称反射;最后，我们使用一种曲面重建方法，我们的实验表明，我们的框架在输入保真度和细节保留方面优于从2D和2.5D数据进行3D形状再现的最先进方法具体来说，我们在ShapeNet数据集中平均提高了12%的性能[3]，对于某些类别的对象（例如椅子和船）。1. 介绍人类惊人地擅长从单个2D图像预测3D物体的形状，这是一项特别具有挑战性的任务，早期的计算机视觉研究人员假设，人类通过采用一系列复杂度逐渐增加的中间表示来实现这一目标，并将2.5D可见表面几何形状设想为图1：Front 2Back从单个2D图像（a）通过首先计算对应的面向前的2.5D法线、深度和轮廓（未示出）可见表面图（b）以及它们的对称反射（当存在时）（c）来重建3D表面（左）;然后预测后（相对）视图图（d）;最后通过表面重建融合所有这些中间图以产生防水的3D表面（e）。与最先进的方法相比，我们的方法能够恢复更详细和更其中一个代表[26]。这一论点激发了使用2.5D可见表面作为中间表示的多步3D重建管道[52]。我们的新颖的Front2Back算法目标是从这样的中间表示进行完整的3D表面重建，通过捕获全局反射对称性的多个深度和法线映射进行编码（图 1b ， 1c ）。我们通过将Front2Back与数据驱动的预测器相结合来创建一个完整的图像到3D重建框架，该预测器从原始2D图像中计算精确的2.5D可见表面几何形状，从而消除透视效果（图1a）。最近的方法直接从原始2D图像中学习3D形状表示[6，7，16，27，43，49]或中间绘制2.5D可见表面图[39，48，50，52]并使用体素化或隐式函数（在R3上定义）表示3D形状这样的模型通常通过一个大的2D模型集将形状先验信息隐式地提取到网络中从ShapeNet [3]或类似的大规模3D模型库获得的3D配对样本。这些方法在单视图3D形状重建方面产生了越来越令人印象深刻的结果，但局限于(a)输入（b）正面地图（c）反射地图（二）预测回前输出（e）后输出532保真度方面的限制，这在很大程度上可以归因于所得到的体素网格的分辨率，以及学习volumetric（R3）的信息直接从图像（R2）的固有复杂性。虽然可以通过使用描述输出点云的2D（纹理）at- lases [16]或使用可变形模板[44，47]来回避维度挑战，但这些方法面临其他挑战。值得注意的是，这些方法中没有一种利用了将可见和被遮挡的表面部分相关联的几何线索的明确优势;也不利用输入图像中的强感知线索，例如对称性，这已被证明是人类3D感知的组成部分[32]。与[16]类似，我们利用以图像为中心的2.5D中间数据表示，这使我们能够精确地描述输出点云。然而，与上述所有方法相反，我们明确地利用可见和遮挡表面几何之间的几何和我们框架背后的核心观察是，大多数日常物体几乎可以完全由成对的相反方向的高度场描述;此外，该特性适用于大多数取向选择1。因此，我们认为，一对从相对视图拍摄的2.5D可见表面图像经常描述（几乎）完整的3D模型（图1b、1d）。值得注意的是，对于正投影，这种相反图像的轮廓总是对齐的。因此，从单一的，非偶然的，2.5正交可见表面图像重建3D模型的问题，可以有效地减少到许多类的对象的前2Back问题：正确地恢复面向后的2.5D可见表面的正面。这种方法的核心优势在于，不是直接从2D或2.5D输入中获得3D数据，这是一个仍然没有很好理解的过程，我们现在可以将我们的核心问题重新定义为从另一个（正面）合成一种类型的轮廓对齐的图像（背面），这是一项由最近的图像到图像转换网络成功引导的任务最后，也是关键的一点，许多日常形状都表现出全局反射对称性，这可以仅从正面可见表面图中准确地检测到。这些对称性使观众能够预测背面的几何形状，以及完成在前视图或后视图中不可用的细节。在这些观察之后，Front2Back采用图像到图像转换网络来从输入的前2.5D表示预测后视图2.5D可见表面图（深度+法线）。然后，使用能够通过结合位置和法线信息产生防水表面的重建框架，重建融合前后几何信息的3D表面网格[21]。在中间2.5D后视图图的预测和重建本身中，它利用了全局反射对称性，在算法上，如果存在，则在前可见表面上进行保护：反射的前表面图（图1c）被提供作为用于后向预测的辅助输入，并且被用作用于随后重建的附加数据源。为了从原始图像实现直接3D重建，我们将我们的方法与基于学习的框架相结合，对于每个输入图像，计算相应的正交2.5D可见表面，纠正这些图像中存在的透视失真。与竞争对手的最先进方法相比，我们的方法在最终的3D形状重建方面取得了显着改进，与最接近的竞争对手相比，使用网格到网格距离[8]测量的平均改进率为12%出资额：我们的核心贡献是一个新的2.5D可见表面映射到3D重建的框架，它将最近的基于学习的方法与更透明的几何处理相结合，并产生优于最先进的结果。这一贡献得益于两项核心技术创新：（1）使用从2.5D前图预测的2.5D后图作为朝向全3D重建的垫脚石，以及（2）使用在前视图中检测到的对称性来显著提高后预测和3D重建两者的性能。2. 相关工作单视图三维曲面重建从单视图2D图像或2.5D深度（和法线）图重建3D模型是一个困难且不适定的问题。最近基于学习的方法在解决这一挑战方面显示出有希望的结果[40]。虽然许多方法直接从2D图像预测3D形状表示，[6、7、11、13、16、27、43、44、49、51]，其他，例如，[39，48，50]首先重建2.5D可见表面（通常通过深度和法线映射表示），然后使用此中间表示作为完成3D重建的垫脚这两类中的许多方法都使用体素来表示重建的形状，例如，[13，48，50，51]或有限深度八叉树[45]。通过这些方法产生的重建的准确性受到体素或八叉树单元的有限分辨率的限制，从而限制了方法当输入模板的拓扑结构与所描绘的形状的拓扑结构匹配时，基于模板的方法[37，44，47]表现良好，但不太适合目标拓扑结构先验未知的情况。最近的隐式基于曲面的方法[6，27，34]致力于分辨率独立性，但需要水密网格进行训练。由于大部分的网格在野外是远离水密2，而不是直接训练这些数据，他们使用水密近似，这必然偏离原来的。这个德-1随机测试的520个ShapeNet核心形状样本平均年龄80%的表面从95%的随机相对视图对可见2 ShapeNet核心测试分割中97%的模型不防水。533这可能会使表面预测产生偏差。基于图谱[16]重建避免了这些缺陷，但表现出类似的准确度水平。基于点或仅深度图的方法[11，36，24]产生接近目标物体表面的点的集合;然而，从无定向点重建表面本身就是一个具有挑战性的问题[2]，因此，当试图从云恢复表面时，输出质量急剧下降[36]。我们的方法使用深度加法线映射作为中间表示，对具有不同拓扑结构的形状都有很好的效果，在输入图像分辨率之外的精度上没有限制;并且可以直接在具有任意连通性和非流形伪影的模型上训练。有些方法使用相反的视图进行重建。MatryoshkaNetworks [33]预测轴对齐的相对视图中的三对深度图。两种最近的方法从照片重建人类皮下组织的前深度图图像和后深度图图像[12，29]。我们的方法不同于那些在利用法线地图旁边的深度，对称的线索，和归一化，通过透视校正获得的正交坐标，以预测在广泛的类/视图的深度图在早期的工作中使用对称先验[22，30，38，41，42]来完成部分扫描或估计对称点的深度。最近，[47]在训练时使用对称性来相比之下，我们在训练和测试中将对称性作为一种线索进行重建。视图合成和形状完成。我们预测后视图2.5D表面的核心任务可以被视为替代视图合成的特殊情况[9，10，15，25，53]。大多数这样的方法旨在预测具有与原始视图相似的视点的视图。最近的方法，[5]从与原始视点相差高达40mm曲面重建仅深度图[24，36]就存在类似的缺陷，一个来自无方向的云[2]。与这些设置相反通过结合这些策略性选择的视图并利用对称性，我们成功地计算了定向点云，允许使用更强大的重建方法[21];产生更好的重建。基于学习的形状完成方法，[17，31]，试图将部分表面扩展到捕获不佳的区域，以产生完整的形状表示。这些方法被设计为对3D形状输入进行操作，通常限于填充相对较小的孔，并且使用形状先验用于模糊度解决。相比之下，我们的Front2Back步骤仅从正面深度+法线贴图预测完整的表面，并使用中间的2.5D背面贴图来实现这一目标。图像到图像转换。图像到图像转换[19，20，23，46，54]是一种强大的工具，用于从现有图像合成新图像，用于草图合成[35]和化妆应用[4]等应用。虽然典型的翻译方法旨在保留原始图像的视图和内容，并且只改变它们的一些视觉属性，但从前视图生成后视图需要在深度和正常内容上进行显着更改，这是一项更具挑战性的任务。3. 方法我们的方法将单个透视2D图像作为输入，并使用四个关键步骤生成相应对象的3D网格（图2）。我们通过预测输入图像中可见的目标对象表面部分的正投影轮廓、深度和法线映射来开始该过程我们继续从这个可见表面定位一个全局3D反射对称平面，如果存在的话（第3.2节）。我们使用所定位的平面（如果检测到的话）来推断形状的被遮挡部分，其对称对应物是可见的，这是通过在对称平面上反射输入图以获得第二组深度和法线图（在此称为反射图）来实现的。我们使用silhuette来屏蔽所有深度和正常映射，将外部的所有像素表示为背景，并使用这些映射作为我们的核心后向预测阶段的输入。预测阶段接受此输入并为后视图生成新的深度和法线映射，与输入前视图完全相反（第3.3节）。我们使用条件生成对抗网络的变体来执行这种预测，用于图像到图像的翻译。最后，我们结合前视图图、反射图和预测后视图图来提取相应的定向点云，并从该点云重建表面（详见第3.4节）。3.1. 正交前视图预测对于2D到2.5D的步骤，我们采用并训练[50]的2.5D估计网络，使用透视图像的示例输入-输出对和对应的相同视图方向正交深度、法线和轮廓图。透视校正简化了随后的对称性估计，并允许我们在所有计算地图上执行相同的轮廓约束。我们将损失函数定义为输出的三个独立L1原始网络是为嘈杂的真实图像设计的，并有目的地向输入数据中添加噪声以模仿真实的伪影;由于类似于最新的单视图重建方法，我们的训练图像集是合成的，为了公平比较，我们在我们的实现中禁用了该特征。534输出泊松重建前法线反射法线预测后向法线对称检测剪影输入估计对称平面预测反射预测返回前沿深度反射图2：算法阶段：（从左至右）：输入透视图像; 2.5D正射图（深度+法线+轮廓）预测;反射对称性的检测（平面左侧和右侧的区域分别被着色为蓝色和红色）;后向图预测;最后的表面重建。3.2. 对称性检测反射对称是有机和人造形状的常见特征它在人类感知中起着至关重要的作用-相反，在缺乏信息的情况下，人类观察者期望在表面的可见部分中观察到的对称性延伸到遮挡部分，从而促进这些遮挡表面的心理反射[18]。我们的方法模仿这种行为，明确制定一个表面hypothesis-sis来自反射对称性检测的正视图。从部分表面有效、鲁棒和准确地检测反射对称平面是一个复杂的几何处理问题[1，28]。虽然现有的方法是专为密集的点云，我们试图检测对称性的像素化，因此大量量化的数据，这往往有非常低的局部分辨率（例如。小于5像素宽的椅子腿）。最关键的是，我们寻求避免误报，因为不准确的反射图会严重影响我们随后的反向预测和重建步骤。我们设计了一种有针对性的两步反射对称平面检测方法，通过组合所有三个前图的信息来解决这些挑战。我们首先估计一个近似的对称平面使用聚类为基础的方法，加速使用RANSAC的变体。我们把这个平面称为初始平面。然后，我们使用迭代最近点方法优化此初始平面，以更好地将原始定向点与其反射对应点对齐（图3）。我们通过使用两个关键约束来避免这两个步骤中的误报。我们注意到silhouette映射定义了目标物体的视觉外壳，因此我们期望任何与可见表面部分对称的表面部分位于其内部;因此，我们过滤掉产生违反该约束的映射的反射平面。由于我们的前地图预计至少与反射地图一样准确，因此我们类似地仅考虑产生不遮挡前表面（即）的反射地图的平面。在相同的x-y位置处没有更靠近观察者的点图3：对称平面检测。给定前视图图（插图，左），我们使用平面空间聚类来获得初始反射平面（中心，虚线），并通过使用ICP迭代来获得最终平面（实线，右）。(For许多输入的改进是更微妙的。初始飞机。我们使用基于聚类的对称检测算法，灵感来自[28]，用于估计初始对称平面。我们首先将正面法线和深度图转换为定向点集P。对于每对定向点（pi，pj）∈P×P，我们计算最好地反映pi到pj的平面。然后我们反复采样这种潜在对称平面和簇的子集各自使用均值漂移聚类的子集。我们计算所有平面相对于结果聚类中心的Voronoi图，并将每个中心的得分定义为其各自单元中的平面数。为了在所有迭代中获得的聚类中心中选择初始平面，我们首先丢弃产生显著违反视觉外壳或可见性约束的反射图的所有中心。然后我们选择得分最高的中心作为初始平面优化. 我们的初始平面基于采样方法，并且只考虑由点对直接定义的平面，因此虽然接近最优，但通常可以进一步改进。我们使用经典ICP的变体来优化平面。在每次迭代中，对于每个点p∈P，我们首先计算最接近其反射的点rp∈P围绕当前对称平面S的方向。我们修剪所有其距离超过用户可定义的阈值或其法线在容差内未被反射的对应，并使用剩余的对应来优化映射更靠近其反射的点的对称平面，即，Σ我们将这种约束称为可见性。我们使用检测到的平面以生成反射的深度和法线贴图。s′= argminSp∈Pcρ s（p）−rp<$2。（一）法线法线深处初始猜测优化深处初始猜测优化535我们使用梯度下降和反向跟踪线搜索来解决这个最小化问题，以确定步长并更新对称平面的估计。我们重复这个过程，直到收敛（图3，右）。确定模型对称性。如果得到的反射图违反了具有严格阈值的视觉外壳或可见性约束，或者生成覆盖不到40%的轮廓内的图，则我们将输入分类为不对称。虚假的对称会极大地影响记忆力-相似性损失。与许多现有的图像到图像的翻译任务类似，我们使用输出和地面实况图像之间的L1损失作为深度图的相似性度量。由于方向或法线之间的差异更准确地表示为角度，我们使用余弦相似性的法线映射。鉴于预测的背部由生成器和地面实况法线图像和深度图像Nb和Db：¨ ¨Σ Σ¨ˆ ¨ˆ质量，远远超过没有对称信息的重建，促使我们使用相当严格的阈值，Ld=<$Db−Db<$Ln=1哪里Nb，Nb、（四）cos旧的我们将大约20%的数据归类为不对称数据。3.3. 后视图地图预测[A，B]cos=Σ。i、jΣA（i，j）·B（i，j）1−<$A（i，j）<$·<$B（i，j）<$.（五）最近基于深度学习的图像到图像翻译方法侧重于不同领域之间的翻译。在我们的方法中，我们证明了这种深度神经网络也可以用于学习相对视图中的2.5D表示之间的映射我们的学习模型类似于[20]，它基于条件生成对抗网络（cGAN）。该体系结构由两个网络组成：生成器和判别器。该算法在训练数据集上进行训练，将输入图像分类为真实或虚假w.r.t.训练数据集。生成器经过训练，生成图像，图像处理器将其评估为真实的。我们的目标是从前视图图预测后视图法线和深度图。为了整合对称性信息，当检测到对称性时，我们还将反射的深度和法线映射馈送到网络中（见3.2节的结尾）。因此，生成器的输入是深度4或深度8的图像，这取决于对称环境，并且输出是深度4图像编码预测的后深度和法线图。培养在网络中，我们使用损失函数L，该损失函数L包括我们预测问题的每个单独方面的L= w GANL GAN+ w d L d+ w n L n。（二）GAN损失LGAN是用于生成对抗网络的传统损失，它控制生成器和节点之间的相互作用深度Ld和法线Ln的两个相似性损失函数旨在测量预测地图和地面实况地图之间的逐像素差异在我们的实验中，我们设置wGAN=1，wn=100，wd=1000。接下来，我们更详细地介绍损失函数对抗性损失。我们使用[ 14 ]中提出的传统对抗性损失。给定前视图法线和深度图Nf和Df，反射后视图图N′b和D′b，我们将对抗损失定义为：LGAN（G，D）=E[log（D（N，D））]+3.4. 曲面重构我们融合每个像素的位置和法线，形成前、反射和预测后图，以生成定向点云，并使用筛选泊松[21]进行表面重建。为了生成闭合网格，我们使用Dirichlet边界条件，并使用插值权重4来促进输入点的插值。我们的融合过程自动纠正量化文物和inaccuracies在计算的地图，可能会导致灾难性的重建失败，并占点密度假设的典型重建方法。融合。与许多其他方法类似，筛选泊松重建[21]期望来自同一表面的输入点比来自相反方向表面的点更接近彼此。为了满足该性质，给定任何一对具有相反取向的法线（一个正面和一个背面）的映射点，其在彼此小于两个像素的图像空间距离在可见性先验之后，我们期望前映射点比来自其他源的点更可靠并且更靠近观察者，因此如果反射和后映射点比相同（x，y）位置处的前映射点更靠近观察者，则我们丢弃反射和后映射点。根据同样的论点，我们期望后地图点离观察者最远;然而，在深度冲突的情况下，我们相信反射图更能支持预测。因此，我们丢弃比在相同（x，y）位置处的反射映射点更接近观察者的回映射点。最后，我们去除离群点，我们将其分类为沿着深度轴远离同一地图中所有四个直接图像空间邻居的固定阈值以上的这个标准背后的逻辑是，虽然我们期望深度图表现出不连续性，（Nf，Df）b b我们确实期望局部特征大于一个像素。′ ′E（Nf，Df，N′b，D′b）[lo g（1−D（G（Nf，Df，Nb，Db）].（三）补充材料中提供了更多的细粒度实现细节。536法线深度反射回贴图不对称的预测后向映射预测回映射使用对称性GroundTruth图4：Back Map预测。给定正面和反射深度+法线映射，我们的图像到图像转换网络预测相应的后视图映射;我们正确识别不对称模型，并使用单独训练的预测器预测相应的后视图映射，该预测器仅使用正面映射作为输入。4. 实验我们在不同类别的大量模型上测试了我们的方法，并进行了定性和定量比较，以及消融研究，以证明不同算法选择的影响。其他结果，包括从256×256补充材料中提供了图像。数据集。我们使用ShapeNet Core数据集[3]及其训练/测试分割，其中包括13个对象类别。比较使用这种分割的方法和使用Choi等人的训练/测试分割的方法。[7]，我们报告了两个测试集的交集上的所有量，这些量在训练中没有模型看到。为了具有可比性，我们使用与Choi等人提供的训练模型相对应的图像的训练分割来训练我们的正交正视图预测。[7]决议137×137像素。我们遵循[27]和其他人，并使用第一个，随机视图，由Choi等人提供。测试集。为了生成用于训练的前视图和后视图地图，我们从这些视图及其对立面渲染了正交深度和法线地图我们使用围绕其对称的训练形状的规范对称平面（yz）来生成用于训练的反射图。指标. 为了进行评估，我们使用地面真实值和重建网格之间的网格到网格对称L1距离（MD）[8]和倒角L1距离（CD）我们使用Metro [8]测量MD，Metro [ 8 ]是几何处理社区中一种成熟的测量工具，使用默认的Metro参数。我们使用[27]提供的实现在两个网格上的100K均匀采样点上这些指标之间的核心差异在于Metro查找从一个网格上的采样点到另一个网格上的任何三角形的最近距离，而CD仅考虑样本到样本的距离，因此本质上更依赖于采样密度/质量。我们使用真实边界框的对角线作为单元1报告MD，并遵循[27]报告CD。实施详情。我们使用立体前视图预测器。我们使用[50]中的损耗和相应的架构和参数设置。对于对称性检测，当计算ICP的初始平面高达400次迭代时，我们使用20次迭代，每次具有8 K平面样本;对于对应修剪，我们使用thresh，在位置和法线上的4个像素和60个像素我们拒绝反射平面因为它违反了可视外壳阈值，如果超过5%的反射像素在轮廓之外至少有5个像素，并且如果超过15%的像素在前视图的前面，则拒绝它们作为违反可见性。我们使用对于最后的重建步骤离群值去除，我们使用阈值4。这些参数在所有实验中保持恒定。图5：重建消融。每个合并的中间图提高了最终重建质量。4.1. 评估Back Map预测图4显示了我们的核心后视图从前视图预测步骤的结果，用于几个不同类别的例子。深度图和法线图清楚地表明，我们的网络可以成功地预测原始输入图像的背面，在适当的时候复制正面特征，并始终如一地完成完全不可见的特征，例如沙发的背面或被遮挡的椅子腿。背部预测消融。为了验证对称信息改善了反向映射预测，我们测试了我们的预测方法，有和没有反射映射。我们从测试集中测量模型的地面实况前向图的影响，以将后向预测的性能表2显示了使用反射图对后向预测精度537图6：真实图像的3D形状。我们的结果（右）来自真实图像（左）虽然不完美，但它们提供了所示形状的合理近似。对于飞机来说。我们报告的性能方面的平均L1距离的深度和平均一减去余弦距离的正常地图;这实际上导致Eq.（二）、由于这些数字一致地表明，在预测过程中使用反射图4说明了真实图像数据上的这种差异。对称性的影响在法线贴图中最为明显，其中椅子腿很容易识别。MD我们的（不对称）0.0132我们的（对称）0.0129表1：飞机模型的表面烧蚀研究，在没有（顶部）和有（底部）反射图的情况下生成的我们的输出更接近地面实况，视觉上更对称（图5）。深度（avgL1）法线（avg[1−cos（a′，a）]）我们的（无对称）0.000593 0.00310我们的（与）0.000578 0.00268表2：前标测图预测消融：在飞机上地面实况前向图与（底行）和不与（顶行）反射图一起使用。性能以每个像素的平均值以及模型L1和1减去深度和正常反向预测的余弦距离来报告。显然，反射的地图是有益的。3D重建消融。最终的表面reprensic- tion使用作为输入的联合点，从前面，反射前，和预测后视图。为了评估使用这些图进行重建的重要性，我们对椅子和飞机进行了消融研究，其中我们仅将一些可用图输入泊松重建（图5）。有些不言自明的是，准确的重建基本上是不可能的，没有后视图信息。更有趣的是，我们的测量结果（表1）表明，在用于最终重建的点云中包含反射图会对（参见图5）-人类观察者期望许多人造物体是对称的，并且从用户的角度来看，不考虑对称性的重建看起来远不令人满意因此，结合对称性的结果在定量上更好，在视觉上更逼真/可信。4.2. 单视图三维形状重建如上所述，我们在ShapeNet数据集的137和256分辨率图像上测试了我们的方法[3]。代表性结果见图1、2、7和6。我们的方法在大量的类和对象几何图形中生成高质量的结果。比较。我们将我们的方法与一系列最先进的技术进行了比较，包括 Pixel 2 Mesh [44] ， OccNet[16] ，OccNet[27]和IM-NET [6]（表3）。我们使用已发布的代码和来自相应论文的预训练权重我们无法提供与3DN [47]的直接比较，因为他们发布的代码3存在问题。图7显示了一些代表性的比较。正如在多个输入中所证明的那样，我们的方法始终比其他方法更准确地捕捉精细的模型细节。我们注意到，虽然我们使用[27]中的CD度量来报告性能，但我们正在重新计算所有数字。[27]和Chenet al.[6]依赖于水密训练模型，仅近似地面实况，并向这些代理报告Chanfer距离wrt，而我们寻求测量与真实地面实况的距离wrt表3定量地验证了前面的定性结果所显示的内容：我们的重建比其他基于学习的形状重建方法更接近地面真实形状，分别将MD和CD减少了19%（汽车）和18%（灯具）。在13个类别中，我们平均比接近竞争方法好12.5%，结果是[44]。总的来说，我们的方法在13个类别中的9个类别上更准确;在汽车，橱柜，电话和沙发上的表现较差，仅比最好的方法略差检查输入。我们对挑战我们关于可见性和对称性的核心假设的输入测量了前后性能。我们的测试集中大约25%的视图[7]与它们的相反视图一起显示了不到80%的地面真实模型表面。表4显示，我们的方法在这些输入上继续优于先前的方法，实现了0.0165的平均重建误差（MD）值得注意的是，我们在其余输入上的表现要好得多，其中组合可见性更高（MD=0）。014）。这种对可见性下降的鲁棒性是由于在重建期间使用对称线索（表1）：使用反射的前点云（图5），使我们能够恢复在前视图和后视图中被遮挡的几何形状，其反射存在于前视图中。超过10%结果的质量Incor的质量影响对反射的地图点进行穿孔也是相当重要的3https://github.com/laughtervv/3DN/issues/4538输入Pixel2MeshAtlasNetOCCNetIM-Net我们GT没有结果图7：与最新技术水平的定性比较。我们的结果与Pixel 2 Mesh [44]，OccNet [16]，OccNet [27]和IM-NET [6]产生的结果的视觉比较。在所有示例中，我们的结果与输入图像更加一致。对于某些方法，例如[27，6]强形状先验导致网格接近网络认为合理的对象，但远离输入图像。C类方法椅子平面车板凳内阁显示灯扬声器步枪沙发表电话容器MEAN地面，地铁[8]我们0.0130.0130.0130.0140.0140.014 0.0190.019 0.0120.0150.0120.0120.0160.0144ONet（Meschederet al. [27]）0.0190.0160.0170.017 0.0170.022 0.0330.036 0.0160.019 0.0200.021 0.0210.0213GrosasNet（Groueixet al.[16]）0.0180.0140.0160.016 0.0180.016 0.0280.025 0.0130.019 0.0210.012 0.0180.0181Pixel2Mesh（Wanget al. [44]）0.0160.0200.0110.0160.0120.016 0.0210.020 0.0140.0140.0140.0110.0210.0160IM-NET（Chenet al. [6]）0.0230.0170.018/打开/关闭/打开/关闭/0.015/0.029/打开/关闭0.0206[27]第二十七话我们0.0210.0170.0190.0210.0230.020 0.0230.027 0.0150.0230.0190.0170.0220.0206ONet（Meschederet al. [27]）0.0280.0230.0210.022 0.0280.031 0.0410.047 0.0200.025 0.0280.028 0.0270.0283GrosasNet（Groueixet al.[16]）0.0270.0210.0200.022 0.0270.023 0.0380.035 0.0170.025 0.0320.017 0.0270.0254Pixel2Mesh（Wanget al. [44]）0.0220.0250.0160.0210.0190.022 0.0280.029 0.0180.0190.0220.0150.0280.0221IM-NET（Chenet al. [6]）0.0350.0240.021/打开/关闭/打开/关闭0.017-0.017/0.043/打开/关闭0.0280表3：与现有技术的比较。我们将我们的结果与Pixel 2 Mesh [44]，Oc-cNet [16]，Oc-cNet [27]和IM-NET [6]进行比较，测量网格到网格距离（MD）和L1倒角距离（CD）。我们的方法为这两个指标提供了最好的整体结果，在13个类别中的9个类别上超过了最接近的竞争对手AtlasNetPixel2MeshOccNetIM-NET我们不那么暴露非对称0.0190.0230.01660.0190.0220.0250.0210.0230.01650.0164表4：挑战性输入（较少显示视图或非对称模型）的网格间距离（MD）。在我们的测试中的输入（例如，图4中的sofa）在运行时被分类为非对称的，并且在不使用对称信息的情况下执行其余的计算（后向预测+重构）。我们的平均重构误差（MD）在这些输入是0.0164 COM-0.0137的输入对称性检测和利用。即使在这个非对称子集上，我们的误差也低于表4所示的其他方法。这些测量结果证实，我们的方法不限于对称的输入或输入的前视图和（预测）后视图共同揭示了绝大多数观察对象概括。我们在长凳和沙发类上测试了我们的front2back椅子模型（从前面的生成后面的2.5D地图），并在沙发类上测试了长凳模型。在所有三种设置中，与使用专用模型相比，平均误差增加了0.001。我们还训练了一个前后结合的模型，集. 使用该模型的平均重建误差为0.0152，而我们的个体模型为0.0144在所有的测试中，我们保留了每个类专用的image 2front模型;这说明了我们的核心front2back方法的一般化。应用于真实图像。图6显示，尽管在合成渲染上进行了训练，但当提供分割掩模或简单背景时，我们的方法在真实图像上产生逼真的重建。5. 结论我们提出了一种新的单视图三维重建方法锚定在从前视图信息预测后视图地图我们的方法成功的关键，它显示了SoTA的改进，是先进的学习方法与几何先验的结合，激励我们的算法选择。值得注意的是，我们对来自图像的2.5D前图的预测可以潜在地被深度和法线图的其他来源（例如深度扫描仪或草图处理系统）取代，从而能够从这样的数据直接重建完整的3D对象。致谢作者希望感谢审稿人提出的富有洞察力的建议和NSERC的资金支持。539引用[1] Dror Aiger，Niloy J Mitra，and Daniel Cohen-Or. 4-点全等集合，用于稳健的表面配准。ACM Transactions onGraphics（TOG），27（3），2008. 4[2] 放大图片作者：David M.放大图片创作者：JoshuaA. 我是葡萄树，我是沙夫，我是克拉乌迪奥。席尔瓦基于点云数据的曲面重构技术研究现状。在Eurographics，2014年。3[3] 天使XChang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimo Li ， SilvioSavarese ， Mano-lis Savva ， Shuran Song ， Hao Su ，Jianxiong Xiao，Li Yi，and Fisher Yu.ShapeNet：一个信息丰富的 3D 模型库。技术报告 arXiv ： 1512.03012[cs.GR]，2015。一、六、七[4] 张惠文，卢静万，余菲，亚当 · 芬克尔 - 斯坦 .Pairedcyclegan：不对称的风格转移适用于应用和卸妆。在IEEE计算机视觉和模式识别会议，2018年。3[5] Xu Chen，Jie Song，and Otmar Hilliges.具有连续视图控制的基于单目神经图像的渲染。在IEEE国际计算机视觉会议（ICCV），2019年。3[6] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE计算机视觉和模式识别会议（CVPR），2019年。一、二、七、八[7] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在2016年欧洲计算机视觉会议（ECCV）一、二、六、七[8] 保罗·卡西诺尼，克劳迪奥·罗奇尼，罗伯托·斯科皮尼奥。Metro：在简化曲面上测量误差。计算机图形论坛（CGF），1998年第17卷。二、六、八[9] Alexey Dosovitskiy ， Jost Tobias Springenberg ， andThomas Brox.学习用卷积神经网络生成椅子。在IEEE计算机视觉和模式识别会议（CVPR），2015年。3[10] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统进展（NeurIPS），2014年。3[11] Haoqiang Fan，Hao Su，and Leonidas J. Guibas从单幅图像重建三维物体的点集生成网络。在IEEE计算机视觉和模式识别会议（CVPR），2017年。二、三[12] ValentinGabeur 、 Jean-SebastienFranco 、 XavierMartin、Cordelia Schmid和Gregory Rogez。塑造人类：基于单幅图像的非参数三维人体形状估计。在IEEE国际计算机视觉会议（ICCV），2019年。3[13] Rohit Girdhar，David F Fouhey，Mikel Rodriguez，andAb-hinav Gupta.学习对象的可预测和生成矢量表示。2016年欧洲计算机视觉会议（ECCV）。2[14] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio生成性对抗网。神经信息处理系统进展（NeurIPS），2014年。5[15] 内德·格林环境测绘和世界预测的其他应用。IEEE计算机图形学与应用（CG A），6（11）：21-29，1986. 3[16] 放大图片作者： David G. Kim ， BryanC. Russell 和MathieuAubry.学习3D表面生成的papier-mche´在IEEE计算机视觉和模式识别会议（CVPR），2018。一、二、三、七、八[17] Xiaoguang Han ， Zhen Li ， Haibin Huang ， EvangelosKalogerakis，and Yizhou Yu.使用深度神经网络进行全局结构和局部几何推断的高分辨率形状完成。在IEEE国际计算机视觉会议（ICCV），2017年。3[18] 唐纳德·霍夫曼视觉智能：如何创造我们所看到的。诺顿，纽约州纽约市，2000年。4[19] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz

下载后可阅读完整内容，剩余1页未读，立即下载