单幅图像中的三维重建

189 浏览量更新于2023-10-16 收藏 1.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1点集生成网络从单幅图像范浩强清华大学跨学科信息科学研究所fanhqme@gmail.com苏浩LeonidasGuibas计算机科学系斯坦福大学{haosu，guibas}@cs.stanford.edu摘要通过深度神经网络生成三维数据在研究界引起了越来越多的关注。大多数现存的作品诉诸于常规的表示，如体积网格或图像的集合;然而，这些表示模糊了几何变换下的3D形状的自然不变性，也遭受了一些其他问题。在本文中，我们解决的问题，从一个单一的图像三维重建，产生一个直接的形式输出伴随着这个问题出现了一个独特且有趣的问题，即输入图像的地面实况形状可能是模糊的。在这种非正统的输出形式和groundtruth中固有的模糊性的驱动下，我们设计了新颖而有效的架构，损失函数和学习范式。我们的最终解决方案是一个有条件的形状采样器，能够从输入图像预测多个看似合理的3D点云。在实验中，我们的系统不仅可以优于国家的最先进的方法对单一的图像为基础的三维重建基准;但它也显示出强大的3D形状完成性能和进行多个合理预测的有希望的能力。1. 介绍当我们试图复制当前深度卷积架构在3D领域的成功时，我们面临着一个基本的代表性问题。用于信号域中的判别式学习和生成式学习的现有深度网络架构非常适合于定期采样的数据，例如图像、音频或视频。然而，诸如2D网格或点云的大多数常见3D几何表示不是规则结构，并且不容易适合利用这种规则性的架构平等贡献输入重建的3D点云图1. 可以从单个图像重建完整对象的3D点云。每个点被可视化为一个小球体。在两个视点（沿方位角0°和90°分割掩模用于指示图像中对象的范围。用于重量分担等。这就是为什么现有的大多数使用深网进行3D数据的工作都求助于体积网格或图像集合（几何图形的2D视图）。然而，这样的表示，导致采样分辨率和净效率之间难以权衡。此外，它们包含量化伪影，模糊了在刚性运动下的数据的自然不变性等。在本文中，我们解决的问题，生成的3D几何形状的对象的基础上，该对象的一个单一的图像。我们探索基于点云表示的3D几何生成网络。与使用几何图元甚至简单网格的CAD模型相比，点云表示在表示底层连续3D几何形状点云是一种简单、统一的结构，更容易学习，它不必编码多个原语或组合连接模式。此外，点云在几何变换和变形时允许简单的操作，因为连接性不允许605606i=1必须更新。我们的流水线推断由输入图像和推断的视点位置确定的3D帧中的点位置鉴于这种非正统的网络输出，我们的挑战之一是如何在训练期间测量损失，因为相同的几何结构可能在相同的近似度下允许不同的点云表示。不像通常的L2类型的损失，我们使用的解决方案的基础上的地球移动器的距离（EMD）的运输问题我们利用EMD的近似来提供速度，并确保端到端训练的可区分性。我们的方法有效地试图解决病态的问题，从一个单一的投影使用一定的学习先验的三维结构恢复。该网络必须估计图像的可见部分的深度，并对对象几何结构的其余部分进行幻觉处理，从而评估几种不同完成方式的可行性从统计学的角度来看，如果我们能够完全描述地面真值空间的景观，或者能够相应地对合理的候选者进行采样，那将是理想的。如果我们把它看作是一个回归问题，那么它有一个相当独特和有趣的特征，这是由某些视图中固有的对象二义性引起的。在这些情况下，2D图像有多个同样好的3D重建，这使得我们的问题与经典的回归/分类设置非常不同，在经典的回归/分类设置中，每个训练样本都有一个唯一的地面实况注释。在这种情况下，正确的损失定义对于获得最有意义的结果至关重要。我们的最终算法是一个条件采样器，它从给定输入图像的估计地面真值空间中采样合理的3D点云。在模拟数据和真实数据上的实验验证了该方法的有效性。我们的贡献可归纳如下：• 我们使用深度学习技术来研究点集生成问题;• 在从单个图像进行3D重建的任务上，我们应用了我们的点集生成网络，并且显著优于现有技术;• 系统地探讨了点生成网络的结构和损失函数设计问题;• 我们讨论并解决了从单个图像任务进行3D重建演示我们系统的源代码可以从https://github.com/fanhqme/PointSetGeneration获得。2. 相关工作从单幅图像进行三维重建，而大多数研究都集中在多视图几何上，如SFM和SLAM [10，9]，理想情况下，人们期望可以从丰富的单视图图像中重建3D。然而，在这种情况下，问题是病态的，先验必须被纳入。早期的工作，如ShapeFromX [12，1]，对形状或环境照明条件进行了强有力的假设。[11，18]率先使用基于学习的方法来处理简单的几何结构。图像集合中的粗略对应也可以用于粗略的3D形状估计[14，3]。随着商品3D传感器变得流行，RGBD数据库已经建立并用于训练基于学习的系统[6，8]。虽然已经取得了很大的进展缺少更强的形状先验最近，已经引入了3D CAD模型的大规模存储库，例如ShapeNet [4]。它们在3D重建任务中具有很大的潜力。例如，[19，13]提出将现有形状变形并重新组装这些系统依赖于高质量的图像形状对应关系，这本身就是一个具有挑战性和不适定的问题与我们的工作更相关的是[5]。给定一张图像，他们使用神经网络将底层3D对象预测为3D体积。我们的工作和[5]之间有两个关键区别：第一，[5]是3D体积;而我们的是点云正如5.2节中所展示和分析的那样，点集为神经网络形成了一个更好的形状空间，因此预测的形状往往更完整和自然。第二，我们允许多个重建候选一个输入图像。该设计反映了单个图像不能完全确定3D形状的重建的事实。一般来说，如何以端到端的方式预测几何形状的领域特别是，我们的输出，3D点集，仍然不是深度学习社区中的典型对象。一个点集包含来自度量空间的无序样本。因此，等价类被定义为置换;此外，必须考虑地面据我们所知，我们不知道先前的深度学习系统具有预测此类对象的能力。3. 问题和注释我们的目标是从单个2D图像（RGB或RGB-D）重建物体的完整3D形状我们以无序点集S={（xi，yi，zi）}N的形式表示3D形状，其中N是预定义的常数。我们观察到，对于大多数物体，使用N =1024足以保留主要结构。607反卷积完全连接集合并级联输入r.v.点集in1in2编码器出来预测器普通版本输入r.v.点集in1in2出来编码器预测器双预测分支版本图2. PointOutNet结构点集的一个优点是它的无序性.与基于2D的表示（如深度图）不同，在所表示的对象上不施加拓扑约束。与三维网格相比，点集通过仅编码表面上的点而享有此外，当对象被旋转或缩放时，坐标值（xi，yi，zi）经过简单的线性变换，这与体积表示中的情况相反为了对问题的不确定性进行建模，我们将地面实况定义为概率分布P（·|I）在以输入I为条件的形状上。在训练中，我们可以访问来自P（·|I）对于每个图像I.我们训练一个神经网络G作为条件采样器从P（|I）：S=G（I，r; Θ）（1）其中Θ表示网络参数，r<$N（0，I）是扰动输入1的随机变量。在测试期间，可以使用r的多个样本来生成不同的预测。4. 方法4.1. 概述我们的任务，建立一个条件生成网络的点集是具有挑战性的，由于无序的形式的表示和固有的模糊性的地面真相。这些挑战促使我们发明新的架构、损失函数和学习范式。具体来说，我们必须解决三个子问题：点集生成器架构：网络预测点集在文献中几乎没有研究，为我们探索设计选择留下了巨大的开放空间。理想情况下，网络应该充分利用其数据统计并具有足够的代表性。我们提出了一个具有两个预测分支的网络，一个在捕获复杂结构时具有很高的灵活性，另一个参见第4.2节。点集比较的损失函数：对于我们的新型预测，点集，还不清楚如何测量1类似于条件生成对抗网络[15]。预测和地面实况之间的距离。我们提出了两个点集的距离度量-倒角距离和地球移动器的距离。我们发现，这两个度量是可微的几乎无处不在，可以用作损失函数，但在捕获形状空间有不同的属性。参见第4.3节。对地面实况的不确定性建模：我们的从单个图像中恢复三维结构的问题是不适定的，因此在训练和测试时间期间会出现地面实况的模糊性。对于给定的输入，表征地面实况的模糊性令人惊讶的是，这个目标可以通过简单地使用min函数作为上述提出的损失的包装器或通过条件变分自动编码器来巧妙地实现参见第4.4节。4.2. 点集预测网络建立点集预测网络的任务是新的。我们设计了一个网络，目标是对复杂结构具有强大的表示能力，并充分利用几何数据的统计特性。为了逐步介绍我们的网络，我们从一个简单的版本开始，逐步添加组件。如图2（顶部）所示，我们的网络有一个编码器阶段和一个预测器阶段。编码器将图像I和随机向量r的输入对映射到嵌入空间中。预测器输出一个N×3矩阵M的形状，每行包含一个点的坐标。编码器是卷积层和ReLU层的组合;此外，包含随机向量r，使得它扰动来自图像I的预测。我们把如何使用r的解释推迟到4.4节。预测器通过以下方式生成N个点的坐标：完全连接的网络。虽然简单，但这个版本在实践中运行得相当好。我们进一步改进了预测分支的设计，以更好地适应自然物体中常见的大而光滑的表面。由于每个点都是独立预测的，因此上述完全连接的预测器不能充分利用这种自然的几何统计。的608我我我我图2（中间）中的改进预测器利用了这种几何平滑特性。该版本具有两个并行预测器分支-全连接（fc）分支和去卷积（deconv）分支。fc分支像以前一样预测N1个deconv分支预测大小为H×W的3通道图像，其中每个像素处的三个值是一个点的坐标，给出另一个H×W点。他们的预测后来合并在一起，形成了一整套点，M.添加多个跳过链接以增强编码器和预测器之间的信息流。通过引入fc分支，我们的模型具有很高的灵活性，在描述复杂结构方面表现出良好的性能。对于反卷积分支，我们的模型变为定义在点集对上。对于每个点，CD算法在另一个集合中找到最近的邻居，并将平方距离相加。CD作为S1和S2每个点的范围搜索都是独立的，因此可以并行化。此外，像KD树这样的空间数据结构可以用来加速最近邻搜索。虽然简单，但CD在实践中产生了合理的高质量结果。地球移动器的距离考虑S 1，S 2 <$R 3的相等大小s =|S1|为|S2|. A和B之间的EMD定义为：Σ不仅通过权值分担使参数更加节约;而且由于deconv和conv引起的空间连续性，对大的光滑表面更友好。参阅dEMD（S1，S2）=minφ：S1→ S2其中φ：S1→S2是一个双射。x∈S1x−φ（x）实验证据见第5.5上面在等式1中介绍了我们的网络G的设计。然而，为了训练这个网络，我们仍然需要为点集预测设计一个合适的损失函数，并为多个候选预测启用角色r我们将在接下来的两节中进行解释。4.3. 点集一个关键的挑战是设计一个良好的损失函数来比较预测的点云和地面实况。要插入神经网络，合适的距离必须满足至少三个条件：1）关于点位置可微; 2）计算效率高，因为数据将被多次转发和反向传播; 3）对集合中的少量离群点（例如， Hausdorff 距离会失败）。我们在R3中寻找子集之间的距离d，因此，损失函数L（{Spred}，{Sgt}）采用以下形式：EMD距离解决了一个优化问题，即分配问题。对于除了零测度子集以外的所有点集对，最优双射φ是唯一的，并且在点的无限小移动下不变因此，EMD几乎在任何地方都是可微的。实际上，EMD的精确计算对于深度学习来说太昂贵了，即使是在图形硬件上。因此，我们实现了由[2]给出的（1+1）近似方案。我们为每个实例分配固定的时间并且递增地调整允许的差错率以确保终止。对于典型的输入，该算法给出了高度准确的结果（近似误差为1%）。该算法易于在GPU上并行化。形状空间尽管神经网络在深层具有非凡的表达能力，但在预测精确的几何形状时，神经网络不可避免地会遇到不确定性我L（{Spred}，{Sgt}）=我Σd（Spred，Sgt），（2）我一个物体。这种不确定性可能来自有限的网络容量、输入分辨率的使用不足、或由于3D-2D投影中的信息丢失而导致的地面实况的模糊性。面对固有的无法解决的形状其中，i为训练样本编制索引，Spred和Sgt是准确地说，神经网络倾向于预测我我每个样本的预测和地面实况。我们提出了两个候选：倒角距离（CD）和地球移动器倒角距离我们将S、S∈R3之间的倒角距离定义为：平均不确定性的空间平均形状带有距离本身的特征。在图3中，我们通过随机梯度下降最小化EsS[L（x，s）]，说明了EMD和CD在合成形状分布上的不同平均形状分布，其中S是给定的形状分布，L是12距离函数ΣΣdCD（S1，S2）=最小值x−y<$2+最小值x−y2在第一种和第二种情况下，x∈S1y∈S22y∈S2x∈S12（三）连续变化的隐藏变量，即（a）中的圆的半径和（b）中的弧的位置。EMD粗略地捕捉对应于平均值的形状在严格意义上，dCD不是距离函数，因为三角不等式不成立。然而，我们使用术语隐藏的变量。相比之下，CD诱导了一个引人注目的形状，模糊了形状在后两种情况下，存在分类隐变量：609我K输入EMD是说输入图像我们的（后处理）地面实况3D-R2N2CD是说（a）（b）（c）（d）图3. EMD和CD的平均形状行为。形状分布为（a）半径变化的圆;（b）沿对角线移动的尖弧形;（c）一个长方形杆，在四个角中的一个角上随机分配一个正方形附件;(d)一个条形，旁边出现圆盘的概率为0.5。红点绘制了相应地根据EMD和CD计算的平均形状图5. 与3D-R2 N2进行目视比较。我们的方法更好地保留了对象的薄结构。图4. 系统结构。通过插入分布式建模模块，我们的系统能够生成多个预测。正方形的角位于（c），以及在条形旁边是否有一个圆（d）。为了解决变化部分的不确定性，CD的最小化器在主体外部的正确位置上分布一些点;而EMD的最小化器被显著地扭曲。4.4. 多重似然检验的生成为了更好地模拟不确定性或固有的模糊性（例如，单一视图中看不见的部分），我们需要使系统能够生成分布式输出。我们期望传递给G的随机变量r（参见等式（1））将有助于它探索地面实况分布。然而，单纯地将G从等式（1）插入Loss（2）来预测Spred我们实际上找到了一种简单有效的不确定性建模方法：MoN（N的最小值）损失：图6. 与3D-R2 N2的定量比较。（a）基于点集的度量CD和EMD。（b）基于体积表示的度量1- 你好较低的条表示较小的误差。我们的方法在所有三个指标上都给出了更好的结果。这些方法是互补网络（GAN中的判别器或VAE中的编码器），其消耗目标模态（在我们的情况下为3D点集）中的输入以生成预测或分布参数。然而，如何将3D点集馈送到深度神经网络仍然是本文生产中的一个开放问题。我们的点集表示将大大受益于未来在这个方向上的进展。尽量减少ΘΣminrjN（0，I）k1≤j≤n{d（G（Ik，rj; Θ），Sgt）}（五）5. 实验5.1. 训练数据合成通过给n次机会来最小化距离，网络学会在接收到不同的随机向量时传播其预测。在实践中，我们发现设置n=2已经使我们的方法能够探索地面真值空间。原则上，为了对不确定性进行建模，我们应该使用生成框架，如条件GAN（CGAN）[15]或变分自动编码器（VAE）。中的一个关键因素首先，我们介绍我们的训练数据准备。我们采取的方法渲染的2D视图从CAD对象模型。我们的模型来自ShapeNet数据集[4]，其中包含大量手动清理的3D物体模型和纹理。具体来说，我们使用了220 K模型的子集，覆盖了2,000个对象类别。合成数据的使用已经在一些现有的作品中被采用[5，16]。点云生成分布建模Mo2/VAE点集预测网络点云损失CD /EMD标签输入R.V.我们610类别我们3D-R2N21视图1视图3个视图5查看次数平面0.6010.5130.5490.561板凳0.5500.4210.5020.527内阁0.7710.7160.7630.772车0.8310.7980.8290.836椅子0.5440.4660.5330.550监测0.5520.4680.5450.565灯0.4620.3810.4150.421扬声器0.7370.6620.7080.717火器0.6040.5440.5930.600沙发0.7080.6280.6900.706表0.6060.5130.5640.580手机0.7490.6610.7320.754船只0.6110.5130.5960.610是说0.6400.5600.6170.631表1. 3D重建比较（按类别）。请注意，在单视图重建设置中，我们在所有类别中实现了更高的IoU。平均值按类别取。对于13个类别中的8个类别，我们的结果甚至比3D-R2 N2更好。对于每个模型，我们将其绑定半球的半径归一化为单位1，并对齐它们的地平面。然后根据Blinn-Phong着色公式将每个模型渲染成2D图像，并随机选择环境贴图。在我们的实验中，为了节省计算时间，我们使用了一个简单的局部光照模型。然而，它是直截了当地扩展我们的方法，将全球照明算法和更复杂的背景。5.2. 基于RGB图像的三维形状重建与最新技术水平的比较我们将我们的工作与3D-R2N2 [5]进行比较，这是基于深度学习的3D对象生成的最新技术。3D-R2 N2将单视图或多视图图像的3D重建为体积表示。为了进行比较，我们在3D-R2 N2作者使用的数据集上重新训练了我们的网络。在三种不同的度量CD，EMD和IoU（交集大于并集）的结果进行了比较。在3D-R2 N2中，仅报告IoU值，因此我们使用作者提供的训练网络来计算他们的预测。为了计算CD和EMD，通过迭代最远点采样[7]将其预测和地面真实体积采样当计算IoU时，我们将我们的点集后处理为具有与3D-R2 N2相同分辨率的体积集详见补充资料。在图6中，我们报告了我们的网络与单视图3D-R2N2相比的结果。为了确定CD和EMD的绝对比例，我们将单元1定义为用于编码3D-R2 N2数据集中的地面真实形状的3D网格长度的1/10虽然没有直接由IoU训练，但我们的网络在所有三个指标下都有更好的表现我们报告每个类别的IoU值，如[5]所示从表1中，我们可以看到，对于单视图重建，所提出的方法在所有类别中始终实现更高的IoU。3R-R2 N2还能够从多个视图预测3D形状在许多类别上，我们的方法甚至优于3D-R2 N2请注意，这两个方法都不仅仅是预测对象例如，在3D-R2 N2的数据集中，从形状到其分类均值的平均CD值为1。1，远远大于任何方法的结果。我们在图5中直观地比较了重建示例。如[ 5 ]所述，他们的方法经常错过对象的薄特征（例如，家具的腿）。我们推测，这是由于它们的体积表示和体素损失函数不适当地惩罚错位的薄结构。相比之下，我们基于点云的目标函数鼓励保留精细结构，并使我们的预测在结构上更合理。在我们当前的实现中，处理一个输入图像在笔记本电脑CPU上消耗0.13秒。5.3. 注射附加信息图7. 从单个RGBD图像完成形状。我们的方法的一个有趣的特点是，我们可以很容易地注入额外的输入信息到系统中。当神经网络被给予RGBD输入时，我们的系统可以被视为3D形状完成方法。图7显示了预测的示例。神经网络成功地猜测出模型中缺失的部分。通过使用嵌入在对象存储库中的形状先验，系统可以利用对称性（例如，飞机应该有对称的侧面）和功能性（拖拉机应该有轮子）。点集的灵活表示有利于解析物体的总体形状和拓扑结构。直接利用局部几何线索的更细粒度的方法可能是611图8. 单个输入图像的多个预测。从每个对象的不同视点可视化点集，以更好地揭示差异。在我们的预测之后级联以丰富更高频率的细节。5.4. 预测多个似然错误我们网络中的随机性使得在给定相同输入图像的情况下可以预测不同的形状。为了说明这一点，我们将RGB图像作为输入。在训练过程中，我们使用Mo2或VAE方法来处理随机性。在测试时，当地面真值未知时，随机数从预定义的分布中采样。图8绘制了我们的方法的预测集的示例。该网络能够揭示其形状的不确定性或输入中的模糊性。点神经网络对自己的位置的确定性在不同的预测之间几乎没有变化。沿着模糊的方向（例如，企鹅身体的厚度）的变化明显更大。在此图中，我们使用Mo2和Chamfer Distance训练了网络。其他设置和方法的组合给出了定性的类似结果。解卷积支路输入图像X通道Y通道Z通道全连通支路X通道Y通道Z通道图9. 渠道的可视化。5.5. 网络设计分析组合deconv和fc分支用于重构的效果我们比较了神经网络架构的不同设计。性能值是基于我们自己的渲染训练集报告的。如图12所示，图10. 反卷积分支（蓝色）与完全连接分支（红色）预测的点的可视化。反卷积的引入显著地提高了性能。我们进一步分别可视化deconv分支和全连接分支的输出，以更好地理解它们的功能。在图9中，x、y和z通道中的值被绘制为其中一个模型的2D图像。在deconv分支中，网络学习使用卷积结构来构建围绕对象扭曲的2D表面。在完全连接的分支中，由于通道未排序，因此输出组织性较差。在图10中，我们在3D空间中呈现了两组预测。deconv分支通常擅长捕捉对象的“主体”，而完全连接的分支则用更详细的组件（例如，枪的尖端，飞机的尾部，沙发的扶手）。这表明了这两个部门的互补性。预先定义的权值共享和节点连通性赋予deconv分支更高的效率，当它们与期望的输出的结构一致时全连接的分支更灵活，但每个点的独立控制消耗更多的网络容量。距离度量的分析损失函数的不同选择对网络的预测模式有不同的影响。图13说明了分别由CD和EMD训练的两个网络之间的差异。由CD训练的网络倾向于在其不确定区域中分散几个点（例如，门后），但能够更好地保持抓地力的细节形状。相比之下，EMD训练的网络产生更紧凑的结果，但有时会过度收缩局部结构。这与合成数据的实验一致。5.6. 更多结果和应用于真实世界数据图11列出了对合成数据和真实世界照片的更多示例预测。这些真实世界的照片是从类似于我们用于合成数据的设置的视点和距离获得的。还需要分割掩码来指示对象的范围。612合成数据真实世界数据图11. 对合成和真实世界数据的预测可视化。图12. 通过倒角距离（CD）和地球移动器距离（EMD）比较不同的网络。网络越复杂，效果越好。图13. 比较CD（蓝色，左侧）和EMD（绿色，右侧）训练的网络的预测。6. 讨论我们在生成3D点云时所面临的主要困难，即如何表示无序数据和如何处理歧义，在机器学习中具有普遍性。我们希望我们的演示基于单幅图像的3D重建有助于推动这两个领域的进一步发展。确认该项目获得了NSF资助IIS- 1528025，斯坦福人工智能实验室-丰田人工智能研究中心，三星GRO资助和谷歌重点研究奖的支持。引用[1] J. Aloimonos从纹理塑造形状。Biological cybernetics，58（5）：345[2] D. P. Bertsekas.分配问题的分布式异步松弛算法。1985年第24届IEEE会议上，第1703-1704页。IEEE，1985年。[3] J. Carreira，S.维森特湖Agapito和J.巴蒂斯塔将物体检测数据集提升到3d。IEEE Transactions on Pattern Analysisand Machine Intelligence，38（7）：1342[4]A. X. 张， T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. 苏肖湖，加-地Yi和F. Yu. ShapeNet：一个信息丰富的6133D 模型库。技术报告 arXiv ： 1512.03012 [cs.GR] ，2015。[5] C. B. Choy，D. Xu，J. Gwak，K. Chen和S. Savarese 3d-r2 n2：一种用于单视图和多视图3d对象重建的统一方法arXiv预印本arXiv：1604.00449，2016年。[6] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。神经信息处理系统的进展，第2366-2374页，2014年[7] Y.埃尔达湾Lindenbaum，M. Porat和Y. Y.泽维渐进式图像采样的最远点策略 IEEE Transactions on ImageProcessing，6（9）：1305[8] D. F. Fouhey，A. Gupta，和M。赫伯特用于单个图像理解的数据驱动3D图元。InICCV，2013.[9] J. Fuentes-Pacheco，J. Ruiz-Ascencio和J. M. 去吧，曼查。视觉同步定位和标测：调查。Artificial IntelligenceReview，43（1）：55[10] K.Ha？ ming 和G. 彼得斯从运动恢复结构重建Kybernetika，46（5）：926[11] D. Hoiem，A. A. Efros，和M。赫伯特自动照片弹出。ACM图形交易（TOG），24（3）：577[12] B. K.号角. 从阴影信息获取形状。在从阴影中形成形状，第123-171页。麻省理工学院出版社，1989年。[13] Q. Huang，H.Wang和V.科尔顿。通过图像和形状集合的联合分析实现单视图ACM Transactions on Graphics（TOG），34（4）：87，2015.[14] A. Kar，S. Tulsiani，J. Carreira和J.马利克从单个图像重建特定类别的对象CVPR，2015。[15] M. Mirza和S.奥辛德罗条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。[16] D. J. Rezegli， S. 埃斯拉米 S. 穆罕默德 P. Battaglia，M. Jaderberg和N.海斯图像三维结构的无监督学习。arXiv预印本arXiv：1607.00662，2016年。[17] Y.鲁布纳角Tomasi和L.吉巴斯土方机国际计算机视觉杂志，40（2）：99[18] A.萨克塞纳山Sun，和A. Y. Ng. Make3d：从单个静态图像学习 3D 场景结构。 IEEE Transactions on PatternAnalysis and Machine Intelligence，31（5）：824[19] H.苏角，澳-地Huang，N. J. Mitra，Y. Li和L. Guibas使用形状集合估计图像深度。 ACM Transactions onGraphics（TOG），33（4）：37，2014。

下载后可阅读完整内容，剩余1页未读，立即下载