单视图3D重建方法的分类和改进

65 浏览量更新于2023-10-19 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3405单视图3D重建网络能学到什么？放大图片作者：Maxim TatarchenkoRichter2，Rene 'Ranftl2，ZhuwenLi2，Vladlen Koltun2和Thomas Brox11弗赖堡大学2英特尔实验室图1.我们提供的证据表明，最先进的单视图3D重建方法（EscasNet（浅绿色，0。38 IoU）[12]，OGN（green，0. 46IoU）[46]，Matryoshka Networks（深绿色，0. 47IoU）[37]）实际上并不执行重建，而是执行图像分类。我们明确设计了纯识别基线（聚类（浅蓝色，0。46 IoU）和检索（深蓝色，0. 57IoU）），并表明它们在定性和定量方面都产生了类似或更好的结果。作为参考，我们显示了地面实况（白色）和来自训练集的最近邻（红色，0。76IoU）。插图显示了输入图像。摘要用于单视图对象重构的卷积网络已经显示出令人印象深刻的性能，并且已经成为研究的热门课题。所有现有的技术都是通过具有编码器-解码器网络的思想来统一的，该网络执行关于输出空间的3D结构的在这项工作中，我们建立了两个替代的方法，分别进行图像分类这些简单的基线在定性和定量方面都比最先进的方法产生更好的我们表明，编码器-解码器方法在统计上与这些基线无法区分，从而表明，目前单视图对象重建的最新技术实际上并不执行重建，而是执行图像分类。我们确定了引起这种行为的流行实验程序的各个方面，并讨论了改善当前研究状况的方法。1. 介绍基于对象的单视图3D重建要求在给定单个图像的情况下生成对象的3D模型。考虑图中的摩托车1.一、推断其3D结构*同等缴款。需要一个复杂的过程，结合低层次的图像线索，知识的结构安排的部分，和高层次的语义信息。我们把这个光谱的两个极端称为重建和识别。重构意味着使用纹理、阴影和透视效果等线索对输入图像的3D结构进行推理。识别相当于对输入图像进行分类并从数据库中检索最合适的3D模型，在我们的示例中，基于输入图像找到预先存在的摩托车3D模型。虽然在文献中已经提出了各种架构和3D表示，但是用于单视图3D理解的现有方法都使用编码器-解码器结构，其中编码器将输入图像映射到潜在表示，并且解码器应该执行关于输出空间的3D结构的非平凡推理为了解决这一问题，整个网络需要包含低级和高级信息。在这项工作中，我们分析了最先进的编码器-解码器方法[12，37，46]的结果，发现它们主要依赖于识别来解决单视图3D重建任务，同时仅显示有限的重建能力。为了支持这一说法，我们设计了两个纯识别基线：一个是结合三维形状聚类和图像分类，另一个是执行基于图像的三维形状检索。在此基础上，我们证明了3406现代卷积网络用于单视图3D重建的性能在许多情况下，识别基线的预测不仅在数量上更好，而且在视觉上看起来更好，如图所示。1.一、我们认为，单视图3D重建的卷积网络中的识别优势是流行的实验过程的某些方面的结果，包括数据集组成和评估原型。这些让网络找到了一个捷径解决方案，这恰好是图像识别。2. 相关工作历史上，单图像3D重建已经通过阴影恢复形状[6，16，57]来实现。用于重建的更多外来线索是纹理[28]和散焦[9]。这些技术仅使用单个深度线索来推理表面的可见部分。用于从单个单目图像进行深度估计的更一般的方法使用多个线索以及结构知识来推断对可见表面的深度的Saxena等人[40]通过在局部和全局图像特征上训练MRF来从单个图像估计深度Oswald等人[34]通过交互式用户输入解决了同样的问题。Hoiem等人[15]使用识别和简单的几何假设来从单个图像构建3D模型Karsch等人[19]提出了一种非参数框架，该框架使用部件级和对象级识别来从图像和相应深度图的数据库中组装估计。最近，通过采用卷积网络，在单眼深度估计方面取得了重大进展[3，7，11，26，54]。本文重点介绍的方法，不仅对输入图像中可见的对象部分的3D结构的原因，但也幻觉不可见的部分使用先验知识从数据。Tulsiani等人[47]用特定对象类别的可变形模型来处理这一任务最近的大多数方法训练卷积网络，使用直接3D监督将一组方法使用3D形状的基于体素的表示，并从潜在表示[4，10，53]中使用3D上卷积生成它们几项工作[13，38，46]执行了输出空间的分层分区，以实现计算和内存效率，这允许预测更高分辨率的3D形状。Johnston等人[17]用逆离散余弦变换解码器重建高分辨率3D形状Wang等人[50]通过将球体变形为所需形状来生成网格，假设相机和物体之间的距离固定。Groueix等人[12]从小块曲面组装曲面。多种方法[27，30，43，45]产生多视图深度图，这些深度图融合在一起成为输出点cloud. Richter等人[37]将其扩展为嵌套形状融合到单个体素网格中。Fan等人[8]直接回归点云。Wu等[52]以完全监督的方式学习从输入图像到2.5D草图的映射，然后训练一个网络将这些中间表示映射Kong等人[22]使用2D地标位置和轮廓来重新提取和变形CAD模型。Pontes等人[35]通过使用自由形式的变形参数化来模拟形状变化，改进了这项工作。Tulsiani等人[48]和Niuet al. [33]旨在结构3D理解，用预定义的基元集近似3D形状。最近，有一种趋势是使用较弱形式的监督来使用卷积网络进行单视图3D形状预测。多种方法[20，36，49，55，59]通过比较地面实况和预测形状的投影来训练形状回归器。Kanazawa等人[18]从多个学习信号训练的平均形状预测变形。只有很少的数据集可用于单图像3D重建任务-这是数据收集成本的结果。大多数现有方法使用ShapeNet的子集[1]进行训练和测试。最近，Wiles和Zisserman[51]介绍了两个新的合成数据集：Blobby对象和雕塑。Pix3D数据集[44]提供了成对的完美对齐的自然图像和CAD模型。然而，该数据集包含少量的3D样本，这对于训练深度网络是有问题的。3. 重建与识别单视图3D理解是一项复杂的任务，需要从几何和语义两方面解释视觉数据。事实上，这两种模式并不是不相交的，而是跨越了从纯几何重构到纯语义识别的一个光谱重建意味着对输入图像中显示的对象的3D结构进行逐像素推理，这可以通过使用低级图像线索（例如颜色、纹理、阴影、透视、阴影和散焦）来实现。此模式不需要对图像内容进行语义理解识别是使用语义先验的一个极端情况：它在整个对象的级别上操作，并且相当于对输入图像中的对象进行分类，并且从数据库中检索相应的3D形状。虽然它为推理对象的不可见部分提供了一个鲁棒的先验，但这种纯语义解决方案只有在新对象可以由数据库中的对象解释时才有效由于重建和承认是一个光谱的两端，只诉诸其中任何一个都是不可能的。3407可能产生最准确的3D形状，因为两者都忽略了输入图像中存在的有价值的信息因此，通常假设单视图3D重建的成功方法需要结合低级图像线索、结构知识和高级对象理解[41]。在下面的部分中，我们认为目前的方法主要使用识别来解决这个问题。4. 常规设置在本节中，我们分析了当前的单视图三维重建方法及其与重建和识别的关系。我们采用了一个标准的设置单视图三维形状估计。我们使用ShapeNet数据集[1]。与最近的几种方法不同，它们只评估了13个最大的类，我们故意使用所有55个类，就像[56]中所做的那样。这使我们能够研究如何在一个类内的样本数量的影响形状估计性能。在每个类中，形状被随机分为训练集、验证集和测试集，分别包含70%、10%和20%的样本。每个形状都是使用ShapeNet-Viewer从五个均匀采样的视点（ θazimuth∈[0 <$ ， 360<$ ）， θele vation∈[0<$ ，50<$））。到相机的距离与画框大致吻合我们渲染了大小为224×224的RGB图像，这些图像被下采样到每种方法所需的输入分辨率。所有3D形状具有一致的规范方向，并表示为128个3体素网格。使用高分辨率的地面实况（与传统使用的32× 3体素网格相比）对于评估方法重建精细细节的能力至关重要在比1283更高的分辨率上进行评估不会提供额外的好处，因为最先进的方法的性能在这个水平上饱和[37，46]，而训练和评估变得更加重要。这种输出表示，OGN允许通过使用八叉树来有效地表示occu-空间来预测更高分辨率的形状。我们评估了作为基于表面的方法的代表方法的 MSPasNet[12]PakasNet预测了参数曲面的集合，并构成了对这种输出表示进行操作的方法中的最先进的方法它被证明优于直接产生点云作为输出的唯一方法[8]，以及另一种基于八叉树的方法[13]。最后，我们评估了该领域的最新技术， Matryoshka 网络 [37] 。 MatryoshkaNetworks使用由多个嵌套深度贴图组成的形状表示，这些深度贴图按体积融合到单个输出对象中。对于基于IoU的评估，我们将其投影到深度图上，并进一步融合到体积表示中。在我们的实验中，这种方法可靠地关闭了重建表面中的孔对于基于表面的评估指标，我们使用marching cubes算法[29]从体积表示中提取网格。4.2.确认基线我们实现了两个简单的基线，纯粹从识别的角度来处理这个问题第一种是基于训练形状的聚类结合图像分类器;第二个执行数据库检索。集群。在这个基线中，我们使用K-means算法将训练形状聚类为K个子类别[31]。由于使用1283体素化作为聚类的特征向量太昂贵，我们运行的算法上323体素化扁平成一个向量。一旦确定了聚类分配，我们就切换回使用高分辨率模型.在每个K个聚类中，我们计算平均形状为更昂贵。我们遵循标准程序，并使用平均交集对并集（mIoU）度量来测量形状相似性，mk=1NkΣNkn=0vn，（1）类[4，8，13，37，42，46，55]。4.1.现有方法我们的实验基于现代卷积网络，它可以从正弦曲线预测高分辨率的3D模型其中，vn是属于第k个聚类的Nk个形状中的一个之三.我们在τk处对平均形状进行阈值化，其中最佳τk值是通过最大化属于第k个聚类的模型的平均IoU来确定的N角图像方法的分类是按类别产生的-τk= arg max1 Σk IoU（mk>τ，vn），（2）基于它们的输出表示来对它们进行排序：体素网格，网格、点云和深度图。为此，我们选择了最先进的方法，这些方法覆盖了主要的输出表示，或者已经清楚地表明优于其他相关表示。我们使用八叉树生成网络（OGN）[46]作为直接在体素网格上预测输出的代表性方法。与早期的作品[4]相比，n=0其中对每个体素应用阈值化操作。我们在区间[0. 05，0。[5]步长为0的情况。05找到最佳阈值我们设定K=500。由于图像和3D形状之间的对应关系对于训练集是已知的，图像可以容易地与相应的聚类k匹配。后续我们340810.80.60.40.20OGN矩阵聚类检索Oracle NN4.3. 分析我们首先对所有方法的平均IoU得分进行标准比较。结果总结见图。二、我们发现，最先进的方法，尽管有不同的架构支持，执行在一个非常相似的水平。有趣的是，检索基线，一个纯粹的识别方法，优于所有其他的方法，无论是在平均值和中位数的IoU。简单图2.通过数据集上的平均IoU进行比较盒子对应于第二和第三四分位数。方框中的实线表示中位数;虚线表示平均值。晶须分别标记最小值和最大值。训练1-of-K分类器，将图像分配给聚类标签。在测试时，我们将预测的聚类的平均形状设置为推断的解决方案。对于分类，我们使用ResNet-50架构[14]，在ImageNet数据集[5]上进行预训练，并对我们的数据进行30次微调。检索。我们的检索基线是受Liet al. [25]，它学习在联合空间中嵌入图像和形状。通过使用Sammon映射[39]通过多维缩放[24为了计算两个任意形状的相似性，Liet al.使用光场描述符[2]。为了将图像嵌入到形状描述符所跨越的空间中，训练卷积网络[23在训练过程中，网络优化预测描述符和地面实况描述符之间的欧氏距离。我们适应李等人的工作。在几个方面。与我们的聚类基线一样，我们通过其32-3体素网格表示的IoU来确定两个形状之间的相似性然后，我们通过主成分分析计算低维描述符。我们进一步使用更大的描述器（512vs. 128）和一个容量更大的网络（ResNet-50 [14]，在ImageNet [ 5 ]上预先训练，在微调过程中没有固定任何层）。最后，我们在训练过程中最大化描述符之间的余弦相似性，而不是最小化欧氏距离。Oracle最近邻为了更深入地了解数据集的特征，我们评估了Oracle Nearest Neighbor（Oracle NN）基线。对于每个测试3D形状，我们从训练集中找到最接近的形状。这种方法不能在实践中应用，但给出了一个上限的检索方法可以解决的任务。聚类基线是有竞争力的，优于At-lasNet和OGN。我们进一步观察到，一个完美的检索方法（Oracle NN）的性能显着优于所有其他方法。引人注目的是，所有方法的结果方差都非常高（在35%和50%之间）这意味着，仅依赖于平均IoU的定量比较无法提供此绩效水平的全貌。为了更清楚地了解这些方法的行为，我们继续进行更详细的分析。按类分析。平均精度的相似性不能归因于专门用于不同类子集的方法在图3中，我们观察到不同类的方法之间一致的相对性能。在55个班级中，重新评估基线对30个班级取得了最好的结果。根据检索基线的性能从左到右按升序对类进行排序所有类和所有方法的方差都很高。人们可能会假设每个类的性能取决于可用于类的训练样本的数量。然而，我们发现一个类中的样本数量与其平均IoU得分之间没有相关性;参见图4。两个量之间的相关系数对于所有方法都接近于零。这意味着没有理由只使用55个类中的13个，就像许多以前的作品中所做的那样[4，8，12，37，46，55]。定量结果得到了定性结果的支持，如图所示。五、对于大多数类，基于解码器的方法的预测和我们的聚类基线之间没有显著的视觉差异。当样本远离聚类的平均形状时，或者当聚类本身不能被平均形状很好地描述时，聚类失败（这通常是椅子或桌子的情况，因为在平均形状中得到平均的薄结构）。在大多数情况下，检索基线的预测看起来更有吸引力，因为存在精细的细节，即使这些细节不一定是正确的。我们在补充材料中提供了其他定性结果。统计学评价。为了进一步研究卷积网络通过图像识别绕过真实重建的假设，我们在图中可视化了各个对象类六、对于所有55类的直方图，我们参考补充材料。尽管各阶层之间的分布不同，但内部-Miou3409图3.按mIoU进行比较。总体而言，这些方法在不同类别中表现出一致的相对性能。检索基线为大多数类生成最佳重建。所有类和方法的方差都很高。0.80.4OGN（c= 0.02）0.80.45. 问题在前一节中，我们提供了证据，证明当前的单视图3D对象重建方法是可行的。0100 100010k0100 1000 10k主要依赖于认可。在这里，我们讨论流行的实验程序，可能需要重新调整的方面-0.80.4矩阵（c=-0.03）聚类（c=-0.03）0.80.4从模型中引出更详细的重建行为00.80.40100 100010k回收（c=-0.06）100 100010k样本数量00.80.40100 1000 10kOracle NN（c=-0.02）100 1000 10k样本数量5.1. 坐标系绝大多数现有的方法在以对象为中心的坐标系中预测输出形状，该坐标系将相同语义类别的对象对齐到共同的方向。以这种方式对齐对象可以特别容易地找到空间对象。它鼓励基于学习的方法首先识别对象类别，然后再细化形状。图4. mIoU与每个类的训练样本数。我们发现一个类中的样本数量与该类的mIoU分数之间没有相关性。所有方法的相关系数c基于解码器的方法和识别基线的类分布惊人地相似。作为参考，我们还绘制了Oracle NN基线的结果，对于许多类，这些结果有很大的不同。为了严格验证这一观察结果，我们对所有类和所有方法对的直方图的50个分组版本执行Kolmogorov-Smirnov检验[32零假设假定两个分布没有统计学显著差异。我们在图的最右边看到了测试的结果.六、热图的每个单元格都显示了统计检验不允许拒绝零假设的类的数量，即，其中p值大于0。05. 我们发现，对于基于解码器的方法和识别基线，绝大多数类的零假设不能被拒绝。Shin等人[42]研究了坐标框架的选择如何影响基于学习的方法的重建性能和泛化能力，比较了以对象为中心和以观察者为中心的坐标框架。他们发现，以观察者为中心的框架可以更好地泛化到训练过程中看不到的对象类，这一结果只有在几何重建机制下才能实现。为了验证这些结论，我们重复了实验评估（第二节）。4）在以观察者为中心的坐标系中。我们试图用视点预测网络来扩展聚类基线，该视点预测网络将回归相机的方位角和仰角。canoni-calf框架。这种幼稚的方法失败了，因为标准框架对于每个对象类具有不同的含义，这意味着视点网络需要使用类信息来解决任务。对于检索基线，我们重新训练了该方法，将每个训练视图视为单独的样本。为了避免旋转体素化形状产生的伪影，我们通过旋转然后体素化原始网格来合成地面实况形状，3410输入Ground truth数据库网络OGN矩阵聚类检索Oracle NN图5.定性结果。我们的聚类基线产生的形状质量可与最先进的方法相媲美。我们的检索基线通过设计返回高保真形状，尽管细节可能不正确。每个样本右下角的数字表示IoU。1400120010008006004002000轿厢显示2502001501005008006004002000ATL55OGN垫40CLSRETORA2600.20.40.60.8100.20.40.60.8100.20.40.60.8 1IoU IoU IoU图6.左图：所选类别的IoU分布。基于解码器的方法和显式识别基线的类内分布是相似的。对于大多数类，Oracle NN的分布不同。右图：成对Kolmogorov-Smirnov检验未能拒绝两个分布相同的零假设10.80.60.40.20OGN Matryoshka检索Oracle NN容量可用于每个单独的对象。5.2. 评估指标工会的交集。平均IoU通常用作单视图重建方法基准的主要定量测量如果将其用作论证方法优点的唯一度量标准，则这可能是有问题的，因为它仅指示图7.以观众为中心模式下的平均IoU。检索基地-在这种模式下，线路的性能并不好。每个对象的每个视图的不同目标形状。结果如图所示7，我们观察到OGN和Matryoshka网络的性能略有对于检索设置，以观察者为中心的设置在计算上更有要求，因为同一对象的不同视图现在涉及要检索的不同形状因此，学习较少预测形状，如果它达到足够高的值。低到中等范围的分数表明两种形状之间存在显著差异一个例子如图所示。8，它将汽车模型与数据集中的不同形状进行比较，并以IoU得分来说明它们的相似性。如图所示，即使IoU为0.59，也允许与地面实况形状有相当大的偏差。作为参考，请注意，75%的预测，最好的表现方法，我们的重新评估基线，有一个IoU低于0.66; 50%以下0.43（c.f.图2）的情况。0.690.780.770.730.750.930.150.590.710.580.680.720.620.770.670.810.920.980.260.420.690.440.390.47步枪OGN网络矩阵聚类检索OracleNNORARETCLSMATOGNATL样本数量Miou3411来源图8.源形状和各种目标形状之间的IoU低到中等范围的IoU值是形状相似性的不良指标源CD = 0.21 CD = 0.15图9.倒角距离对离群值敏感。与源图形相比，两个目标图形都显示出同样错误的不匹配部分。而F@1%为0。56对于两种形状，倒角距离有很大不同。关于物体形状的所有信息然而，对于具有实心内部的基于体素的表示，IoU由对象的内部部分主导。因此，即使看起来很高的IoU值也可能很难反映实际的表面相似性。此外，虽然IoU可以很容易地评估体积表示，但没有直接的方法来评估点云。一个好的测量应该允许在同一个统一的框架内比较不同的3D表示基于点的测量最适合于此，因为点云可以通过（a）网格的表面点采样，（b）深度图的每像素重投影，或(c)运行行进立方体算法，然后对体素网格进行点采样。倒角距离。最近的一些方法使用Cham- fer距离（CD）进行评估[8，12，44]。虽然它是在点云上定义的，并且通过设计满足了适用于（转换后）不同3D表示的要求，但由于其对离群值的敏感性，它是一个有问题的测量。考虑图中的示例。9.第九条。两个目标椅子在下半部分与源椅子完全匹配，而在上半部分完全错误。然而，根据CD评分，第二个目标比第一个目标好得多。如本例所示，CD度量可能会受到离群值几何布局的显著干扰。它受异常值与参考形状的距离影响。我们认为，为了可靠地反映真实的重建性能，一个好的定量测量应该是鲁棒的细节几何离群值。F分受IoU和CD可能会产生误导，我们建议使用F分数[21]，这是一种在多视图3D重建社区中积极使用的已建立且易于解释的度量标准。F分数明确评估对象表面之间的距离“精度”通过计算位于距地面真实值一定距离内的重建点的百分比来衡量重建的准确性。Recall通过计算位于重建的特定距离内可以通过改变距离阈值d来控制F分数的严格性。该指标有一个直观的解释：正确重建的点（或表面积）的百分比。我们在图10（左）中绘制了不同距离阈值d的以观察者为中心的重建的F分数。在d=重建体积边长的2%，绝对F评分值与当前mIoU评分在相同范围内，如我们之前所述，这并不表明的预测质量。因此，我们建议在1%及以下的距离阈值下评估F分数。图10（右），我们显示了模型的百分比，在阈值d=1%时，F分数为0.5或更高。只有少量的形状被准确地重建，这表明该任务仍然远未解决。我们的检索基线不再是一个明确的赢家，进一步表明，一个合理的解决方案，以观众为中心的模式是很难得到使用一个纯粹的识别方法。我们观察到，EscherasNet经常产生质量良好的表面。它甚至在更自由的阈值（高于2%）上优于OracleNN基线，如图所示.10（左）。从感知上讲，人类倾向于判断质量通过全局和半全局特征，并且如果零件在位置或形状上稍微错误，则可以容忍。我们观察到，经过训练以优化表面对应的Atlas- Net很少完全错过模型的部分，但往往会产生局部化较差的部分。这反映在高性能范围分析中，如图所示图10（右），其中，PakasNet落后于所有其他方法。分别分析查准率和查全率可以为每种方法的行为提供更多的见解在图11中，我们看到OGN和Matryoshka网络在精度方面优于然而，Oracle NN和3412图10.以观众为中心模式下的F分数统计。左：不同距离阈值的F分数。右：F分数高于水平轴上指定值的重建百分比，距离阈值d= 1%。图11.精确度（左）和召回率（右）为0.5或更高的样本百分比。现有的基于CNN的方法表现出良好的精度，但错过了部分对象，这导致较低的召回率。检索精度地面实况回忆0% 1% 2%图12.可视化的精确度和召回率提供了关于哪些对象部分被正确重建的详细信息。颜色对形状之间的标准化距离进行编码（用于距离阈值）。检索基线显示较高的召回率。这一点得到了定性观察的支持，即OGN和Matryoshka网络往往会产生不完整的模型。查全率和查准率都可以很容易地可视化，以获得进一步的见解，如图所示。12个。5.3. 数据集网络寻找语义捷径的问题与训练数据的选择密切相关。ShapeNet数据集因其规模而被广泛使用。然而，其特殊的组成代表性类型，与规范参考框架- 使识别模型能够伪装成反射。图2，我们证明了检索解决方案（Or-acleNN）优于此数据集上的所有其他方法，即，可以通过简单地从训练集中检索模型来解释测试数据。这表明使用ShapeNet评估3D重建存在一个关键问题：对于测试集中的典型形状，在训练集中存在非常相似的形状。实际上，训练/测试分割被污染了，因为一个类中的许多形状都是相似的。在ShapeNet上评估的重建模型不需要实际执行重建：它只需要从训练集中检索类似的形状。6. 结论在本文中，我们推导了单视图三维重建的方法谱，由重建和识别跨越。我们引入了两个基线，分类和检索，它们只利用识别。我们发现，简单的检索基线优于最近的最先进的方法。我们的分析表明，单视图3D重建的最先进方法主要执行识别而不是重建。我们确定了常见的实验程序，引起这种行为的方面，并提出了一些建议，包括使用一个以观众为中心的坐标框架和一个强大的和翔实的评估措施（F分数）。另一个关键问题，数据集的组成，被确定，但没有解决。我们正在努力在随后的工作中纠正这一点。确认我们感谢Jaesik Park对F分数评估的帮助。我们还要感谢MaxAr gus和EstibalizGo'mez的宝贵讨论和建议。该项目使用Open3D库[58]。3413引用[1] A. X.张氏T.芬克豪泽湖Guibas，P. Hanrahan，Q.Huang，Z.Li，S.Savarese，M.Savva，S.宋，H.Su，J.小阿，L. Yi和F. Yu. ShapeNet：信息丰富的3D模型存储库。CoRR，abs/1512.03012，2015。二、三[2] Ding-Yun Chen，Xiao-Pei Tian，Yu-Te Shen，and MingOuhyoung.基于视觉相似性的三维模型检索。Comput. Graph. Forum，22（3）：223-232，2003. 4[3] 陈伟峰，赵甫，杨大伟，邓佳。在野外的单一图像深度感知。在NIPS，2016年。2[4] Christopher Bongsoo Choy ， Danfei Xu ， JunYoungGwak，Kevin Chen，and Silvio Savarese. 3D-R2 N2：用于单视图和多视图3D对象重建的统一方法。在ECCV，2016年。二、三、四[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Fei-Fei Li. ImageNet：一个大规模的分层图像数据库。CVPR，2009。4[6] Jean-Denis Durou Maurizio Falcone和Manuela Sagona。从阴影恢复形状的数值方法：新的调查与基准。CVIU，109（1）：22-43，2008. 2[7] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度在NIPS，2014。2[8] Haoqiang Fan，Hao Su，and Leonidas J. Guibas一个点集生成网络从一个单一的图像三维物体重建。在CVPR，2017年。二、三、四、七[9] P. Favaro 和 S. 索阿托从散焦恢复形状的几何方法TPAMI，27（3）：406-417，2005. 2[10] 放大图片作者：David F.福伊，米克尔·罗德里格斯，阿布·希纳夫·古普塔.学习对象的可预测和生成矢量表示。在ECCV，2016年。2[11] C le'mentGodard ， OisinMacAodha ， andGabrielJ. 兄弟 -拖。具有左右一致性的无监督单目深度估计。在CVPR，2017年。2[12] 放大图片作者： David G. Kim ， Bryan Russell ，andMathieuAubry. 一个学习3D表面生成的简单方法在CVPR，2018年。一二三四七[13] ChristianH¨ ne，ShubhamTulsiani，andJitendraMalik. 三维物体重建中的高分辨率表面预测在3DV，2017年。二、三[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。4[15] 放大图片创作者：Alexei A.埃夫罗斯和马夏尔·赫伯特自动照片弹出。ACM事务处理图表，24（3）：577-584，2005. 2[16] Berthold K.P.号角. Shading的形状：一种从一个视图获取光滑不透明物体形状的方法。麻省理工学院博士论文，美国马萨诸塞州剑桥，1970年。2[17] Adrian Johnston，Ravi Garg，Gustavo Quiniro，and IanD.里德缩放CNN以从单个图像进行高分辨率体积重建。在ICCV研讨会，2017年。2[18] 放大图片作者：Angjoo Kanazawa，Shubham Tulsiani，Alexei A.埃弗罗斯和吉坦德拉·马利克从图像集合学习特定类别的网格在ECCV，2018。2[19] Kevin Karsch，Ce Liu，and Sing Bing Kang.深度转移：使用非参数采样从视频中提取深度。TPAMI，36（11）：2144-2158，2014。2[20] Hiroharu Kato 、 Yoshitaka Ushiku 和 Tatsuya Harada 。Neu- ral 3D网格渲染器。在CVPR，2018年。2[21] Arno Knapitsch ， Jaesik Park ， Qian-Yi Zhou ， andVladlen Koltun.坦克和寺庙：大规模场景重建的基准。ACM事务处理图表，36（4）：78：1- 78：13，2017. 7[22] 陈空，林振轩，西蒙·露西。使用局部对应的CAD模型从单个图像进行密集的3D重建。在CVPR，2017年。2[23] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的ImageNet分类。NIPS，2012年。4[24] J. B.克鲁斯卡尔通过优化非度量假设的拟合优度的多维标度。Psychometrika，29（1）：1-27，1964. 4[25] 杨燕李，苏浩，查尔斯·瑞忠泰齐，诺亚·菲什，丹尼尔·科恩-奥尔，和列奥尼达斯·J。Guibas 通过CNN图像净化联合ACM事务处理图表，34（6）：234：1-234：12，2015. 4[26] 李正奇和诺亚·斯内弗利。MegaDepth：从互联网照片中学习在CVPR，2018年。2[27] Chen-Hsuan Lin，Chen Kong，and Simon Lucey.学习高效的点云生成，用于密集的3D对象重建。在AAAI，2018。2[28] 安洁琳·M卢利用视觉纹理模式恢复三维结构。博士论文，西澳大利亚大学，2006年2[29] William E. Lorensen和Harvey E.克莱恩移动立方体：一种高分辨率三维曲面构造算法。在SIG中-GRAPH，1987. 3[30] ZhaoliangLun，MatheusGadelha，EvangelosKalogerakis，Subhransu Maji，and Rui Wang.通过多视图卷积网络从草图重建3D形状。在3DV，2017年。2[31] 詹姆斯·麦奎因多元观测值分类与分析的若干方法在伯克利数学统计和概率研讨会，1967年。3[32] F. J· 梅西拟合优度的 Kolmogorov-Smirnov 检验。Journal of the American Statistical Association ， 46（253）：68-78，1951. 5[33] 牛成杰，李俊，徐凯。Im2Struct：从单个RGB图像恢复3D形状结构。在CVPR，2018年。2[34] 马特河。奥斯 ·瓦尔德，伊诺·托普，丹尼尔·克雷默。曲面物体的快速全局最优单视图重建。CVPR，2012。2[35] JhonyKaesemodelPontes ， ChenKong ， AndersEriksson ， Clinton Fookes ， Sridha Sridharan 和 SimonLucey。用于3D重建的紧凑模型表示。在3DV，2017年。23414[36] Danilo Jimenez Rezende，S. M.阿里·埃斯拉米，沙基尔·莫·哈米德，彼得·巴塔利亚，马克斯·贾德伯格，尼古拉斯·希斯.从图像中无监督学习3D结构在NIPS，2016年。2[37] 斯蒂芬河里希特和斯特凡·罗斯。Matryoshka网络：通过嵌套形状层预测3D几何形状。在CVPR，2018年。一、二、三、四[38] Gernot Riegler，Ali Osman Ulusoy，Horst Bischof，andAn- dreas Geiger. OctNetFusion：从数据中学习深度融合。在3DV，2017年。2[39] J. W. 萨蒙一种用于数据结构分析的非线性映射IEEETrans. Comp. ，18（5）：401-409，1969. 4[40] 阿舒托什·萨克塞纳Chung，and Andrew Y. Ng.从单个单目图像学习深度。NIPS，2005年。2[41] Ashutosh Saxena，Min Sun和Andrew Y.Ng. 从单个静止图像学习载于ICCV，2007年。3[42] Daeyun Shin Charless Fowlkes和Derek Hoiem。像素、体素和视图：单视图三维物体形状预测的形状表示研究。在CVPR，2018年。 3、 5[43] Amir Arsalan Soltani，Haibin Huang，Jiajun Wu，TejasD Kulkarni，and Joshua B Tenenbaum.通过使用深度生成网络建模多视图深度图和轮廓来合成3D在CVPR，2017年。2[44] Xingyuan Sun，Jiajun Wu，Xiuming Zhang，ZhoutongZhang ， Chengkai Zhang ， Tianfan Xue ， Joshua BTenenbaum，and William T Freeman.Pix3D：单图像3D形状建模的数据集和方法。在CVPR，2018年。二、七[45] Maxim Tatarchenko 、 Alexey Dosovitskiy 和 ThomasBrox。使用卷积网络从单个图像生成多视图3D模型。在ECCV，2016年。2[46] Maxim Tatarchenko 、 Alexey Dosovitskiy 和 ThomasBrox。八叉树生成网络：用于高分辨率3D输出的高效卷积架构。InICCV，2017.一、二、三、四[47] ShubhamTulsiani ， AbhishekKar ， Joa BazoCarreira ，andJiten-dra Malik.学习用于对象重建的类别特定的可变形3D模型。TPAMI，39（4）：719-731，2016年。2[48] 放大图片作者：Shubham Tulsiani，Hao Su，Leonidas J.阿列克谢？吉巴斯埃弗罗斯和吉坦德拉·马利克通过组装体积基元学习形状抽象。在CVPR，2017年。2[49] 放大图片作者： Shubham Tulsiani ， Tinghui Zhou ，Alexei A.埃弗罗斯和吉坦德拉·马利克。通过可微分光线一致性进行单视图重建的多视图监督在CVPR，2017年。2[50] Nanyang Wang ， Yinda Zhang ， Zhuwen Li ， YanweiFu，Wei Liu，and Yu-Gang Jiang. Pixel2Mesh：从单个RGB图像生成3D网格模型。在ECCV，2018。2[51] O. Wiles和A.齐瑟曼。SilNet：通过从轮廓学习进行在BMVC，2017

下载后可阅读完整内容，剩余1页未读，立即下载