基于变形矢量场的稠密点云物体重建

32 浏览量更新于2023-10-13 收藏 1.81MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

基于变形矢量场的稠密点云物体重建Kejie Li1，2[0000−0001−8821−7762]，Trung Pham3 [0000−0002−8039−282X]，Huangying Zhan 1，2[0000−0002−2899−8314]，Ian Reid 1，2[0000−0001−7790−6423]1阿德莱德大学2澳大利亚机器人视觉3NVIDIA{kejie.li，huangying.zhan，ian.reid}@ adelaide.edu.au{trungp}@ nvidia.com抽象。用于单视图3D对象重建的一些现有的基于CNN的方法将3D对象表示为3D体素占用网格或多个深度掩模图像对。然而，这些表示是低效的，因为空体素或背景像素是浪费的。我们提出了一种新颖的方法，其通过用“dedeform_fields”替换masks来解决该限制。考虑到在随机视点中的单个图像，CNN预测多个表面，每个表面相对于对象处于规范位置。每个表面包括深度图和对应的变形场，其确保深度图中的每个像素深度对位于对象表面上。然后将这些表面熔合以形成完整的3D形状。在训练期间，我们使用每视图损失和多视图损失的组合。新颖的多视图损失促使从特定视图反向投影的3D点在视图之间是一致的。大量的实验表明，我们的方法对单视图三维物体重建的效率和功效。关键词：3D物体重建，密集点云，深度学习1介绍虽然人类可以毫不费力地从单个图像中推断出物体的3D结构，但这是计算机视觉中的一个不适定问题为了使其姿势良好，研究人员一直在使用手工制作的3D线索，例如“来自X的形状”（例如，阴影，纹理）[4，1，26]和平面性[28，23]。最近，人们对使用深度网络从图像回归到其深度[22，8，10，38]以进行场景几何重建，特别是从对象的图像回归到其3D形状以进行对象几何重建产生了相当大的兴趣没有固定的或最好的方式来表示3D对象，方法包括网格[29，17]，点云[7，21，33]或体素占用网格[5，9，32]，每种方法在表示的效率和方便性方面都有优点和缺点，并且-对于我们的目的来说很重要-用于学习。这项工作是在加入NVIDIA之前完成的2K. Li，T. Pham，H.詹岛里德密集点云Fig. 1.我们方法的整体流程。给定来自任意视点的对象的单个RGB图像，CNN在预定义的规范视点处输出一组2D变形前深度图和对应的变形场。这些每个都被传递到网格变形单元（GDU），该网格变形单元（GDU）将所述边缘的规则网格变换为“已形成的边缘”。最后，我们将所形成的深度图形成到公共坐标系中，以将所有3D点融合到单个密集点云中。点的颜色表示不同的深度值，箭头方向表示图像网格变形（为了可视化效果，箭头的大小不是实际比例，图像大小也被缩小）对于体积表示方法，大多数现有的基于CNN的方法简单地将2D去卷积扩展到3D规则网格上的3D去卷积，如在[5，9]中所做的。对于每个体素，网络预测被对象占用对体积分数图进行阈值化导致3D占用对象表示。然而，当使用深度网络时，3D体积表示在计算和存储器方面都非常昂贵-所需的存储器随着网格分辨率的增加而三次增加。重要的是，只有一小部分体素（小于10%）被物体占用，剩下的都是浪费。因此，大多数现有方法仅能够重建具有低分辨率的对象（即，32x32x32），从而失去表面粒度。此外，找到合适的阈值以生成用于不同对象类或甚至同一类中的不同对象的精确对象表面通常是不平凡的。直观地，直接预测对象的表面而不是整个3D空间更有效。Fan等人[7]提出了点集生成网络（PSGN），其中的表面是由一个无序的点云。由于点云是非结构化的，计算训练损失是非常昂贵的- 例如，对于N个预测点以及N个地面实况点，在[7]中使用的倒角距离的复杂度是O（N2）。为了解决这个问题，来自Linet al.[21]和Tatarchenkoetal.[33]使用了一组深度图变形前深度图变形深度贴图D1F1变形流动输入图像CNNGDUGDUFnDnF2D2反投影&视点融合GDU网格变形......用于物体重建的变形矢量场3从相对于对象的不同视点，其容易融合成点云。在该表示中，深度用于监督，而不是无序预测点云和地面实况点云之间的逐点距离。然而，来自深度神经网络的预测深度图固有地不仅覆盖对象点，而且覆盖不必要的背景。为了对前景和背景点进行分类，[21，33]还预测了一个二进制（即，前景/背景）分割掩模，其中每个像素是前景的分数。类似于3D体积表示，这种深度掩模表示也是低效的，因为背景点未被使用，并且还受到非平凡前景/背景阈值化的影响。此外，学习从图像回归深度通常会在表面周围生成噪声点[33]。多个部分视点云的融合使噪声升级。在[21]中，他们提出通过基于二进制掩码和深度图的多视图一致性监督来提高融合点云的质量该想法是将预测的3D点云投影到新的视点以在这些视点处生成新的深度图和掩模，然后由对应的地面实况深度图和二进制掩模来监督。然而，这种监督与基于深度学习的方法[37，34]中的轮廓技术[24]和基于体素的多视图一致性监督类似，鼓励掩盖投影到背景的点这进一步降低了预测点云的密度并损害了表面覆盖。在本文中，我们提出了一种新的和高效的框架（如图1所示），以产生密集的点云表示物体的三维形状给定从任意视点拍摄的感兴趣对象的单个图像，我们的网络生成对象的多个部分表面，每个表面都在预定义的规范视点处。虽然它看起来类似于作为多视图表示的深度掩模表示，但是每个表面由深度图和对应的变形场（而不是二进制掩模）定义在网格变形单元（GDU）中，通过首先将深度图图像网格上的像素移位由变形场给出的量并且然后反向投影（到对应的深度）来获得表面上的点。然后，所得到的点集可以被认为是（密集）点云，尽管它不是无序的。通过将点云表面融合成单个点云来获得最终的3D对象表示深度图和变形场两者都是使用经训练以预测规范视图集合的深度网络从原始图像回归的。在训练时，我们使用每视图和多视图损失的组合。我们独特的表示确保了每视图损失可以在O（n）时间内进行评估（其中n是点数），因为不需要在预测深度和地面真实深度之间建立对应关系。例如，这与无序点集通常需要的倒角距离形成对比，导致O（n2）复杂度。新颖的多视图损失促使从特定视图反向投影的3D点在新颖的视图之间是一致的。更具体地，当预测的3D点被重新投影到新视点中但落在新视点之外时，4K. Li，T. Pham，H.詹岛里德对于对象轮廓，我们的网络基于点到边界的距离产生损失，而不是像[21，37，34]中那样惩罚二进制交叉熵损失。我们广泛的实验表明，使用这些组合的每视图和多视图损失产生更准确和密集的点云表示比任何以前的方法。我们在本文中的贡献总结如下：– 我们提出了一种新的变形深度图表示的三维物体重建的基础上，多个规范的意见，这是有效的，绕过前景/背景阈值，导致结构错误;– 我们展示了如何使用深度网络从单个视图有效地回归这种表示;– 我们为我们的网络引入了一种新的损失，它结合了每视图损失-– 我们广泛评估我们的方法，显示更准确，更密集的点云比目前最先进的方法。我们包括分别证明上述贡献值的消融实验2相关工作单幅图像的三维重建一直是计算机视觉领域的一个长期问题虽然单个图像可以提供关于场景或对象外观的丰富因此，必须求助于其他信息源作为3D重建的附加输入。附加图像的使用是一个典型的例子。这个分支的工作尝试找到视图之间的几何对应关系以恢复几何，例如[13][14][15][16][17][18][19]然而，这些方法需要密集的视点，因为必须保留局部外观用于特征匹配。为了放松密集视点的约束，轮廓雕刻[24，19]和空间雕刻[20]已提出这些方法的特点是在凹结构上失败的缺点和需要多个视图。另一种类型的附加信息是先验知识。使用先前的知识提高了对不正确的特征匹配和凹度（例如，椅子应该在两个扶手之间凹进去）。一些先前的工作使用简单的几何实体作为形状先验[27，2]。最近，Karet al. [16]利用了物体的规则性。对于特定的对象类别，它们从具有呈现的感兴趣对象和对应的分割掩模的大量图像集合中学习可变形模板。Dame等人[6]提出了一个框架，结合了SLAM与可变形对象模板。而不是学习一个单一的或几个可变形的模板，像黄等的方法。[12]和Kurenkov等人。[18]使用图像特征来检索相似的3D形状，从这些形状变形为目标形状。尽管我们的方法也使用变形，但我们的变形与他们的方法之间的差异是双重的：首先，我们执行2D用于物体重建的变形矢量场5在图像网格上的变形，使得变形的图像网格匹配对象轮廓，而它们直接使3D形状变形。更重要的是，它们在具有小变量的3D基础模型上执行变形，而我们将规则网格变形为任何2D形状。由于CAD模型的大型存储库变得可用（例如，ShapeNet [？]），很容易从CAD模型中绘制大量2D图像[30]。大量的2D-3D地面实况对使其能够无缝地使用强大但数据饥渴的框架-深度神经网络。提出了从单个图像生成3D对象形状的不同的基于深度学习的方法开创性的工作来自Choyet al。[5]和Girdharet al.[9]他们使用3D CNN来执行限于低分辨率体素网格的体素重建八叉树数据结构[32，11]和离散余弦变换技术[15] 已经被用于按比例放大体素网格。最近，Fanet al. [7]提出了一种替代方法，预测一个无序的点云形状的物体表面直接。然而，该方法限于稀疏点云，因为1）可学习参数的数量随着预测点的数量线性增加，以及2）直接3D距离度量（例如，倒角距离）对于密集的点云也是难以处理的因此，该方法在存储器和训练时间方面不可扩展。与我们最相关的作品是[21，33]。我们都主张，为了生成密集的点云，应该诉诸于每个由结构化点云表示的部分表面。然而，我们的方法与[21，33]的方法之间的根本区别在于如何塑造这些表面。在他们的方法中，他们通过预测二进制掩码以及深度图来过滤掉未反向投影到3D空间中的表面的点，从而对对象表面进行整形。虽然Linet al. [21]为了更灵活，他们放宽了网络来预测x和y坐标以及深度图，但他们仍然依赖于二进制掩码来塑造3D表面。这些基于深度掩模的方法的副作用是，首先，由于丢弃了大量的点，这是巨大的计算浪费，特别是对于具有薄结构的物体，例如灯、飞机和椅子;其次，前景/背景阈值化继承了三维体素网格表示的阈值化问题。相反，我们通过变形规则深度图来直接预测表面，以规避上述问题。此外，虽然Linet al. [21]已经认识到多个部分表面的融合产生噪声点，并且因此开发了基于二进制掩模和深度的多视图一致性监督以解决该问题。然而，二进制交叉熵惩罚导致更多的点被丢弃，从而牺牲了表面覆盖相比之下，我们开发了一种新的多视图监督框架的基础上，不遭受表面覆盖权衡的连续距离场，这两个监督框架的比较表明，使用我们的多视图监督框架优于他们的框架显着。6K. Li，T. Pham，H.詹岛里德pp p反投影遮罩规则网格(a)（b）第（1）款图二.深度掩模反投影和变形深度反投影的1D示例。蓝色点是1D规则网格上的像素深度对。暗红色箭头是变形流。深红色点是由变形流移位的像素深度对。橙色线是目标二维曲面。绿点是反向投影以重建2D表面的2D点。(a)在深度掩模表示中，因为像素被掩模过滤掉，所以重建表面的点较少。(b)在我们变形的深度表示中，变形的网格与表面对齐，使得所有像素都用于重建表面。3方法我们的目标是学习一个CNN，它能够从单个RGB图像重建一个密集的3D点云来表示3D对象形状。我们首先介绍我们如何表示一个对象的部分表面使用变形的深度图和变形的深度图的每视图监督，其次是基于距离场的多视图一致性监督最后，我们简要介绍了网络的结构，并提出了网络训练算法相结合的每视图损失和多视图损失。3.1变形深度贴图表示视图相关对象表面的一种方式是使用深度图D。对于具有深度值zp的位置（xp，yp）处的每个像素p，我们可以通过逆透视变换将p反向投影到3D点p，即，p = R−1（K−1Σx y zΣT−t），（1）其中，K、R和t分别是摄像机固有矩阵、旋转矩阵和平移向量。学习一个网络来重建3D对象形状变成了学习预测一组深度图，如[21，33]中所做的那样注意，深度图像的大小不需要等于输入RGB图像的大小。该表示的主要问题在于，并非所有像素都被反向投影到对象的真实面，因此，对于每个深度图，都需要增加二元分割掩模以抑制背景点。废弃的点变得浪费。注意，在Eq. (1)像素位置（Xp，Yp）被固定在规则的图像梯度中，其中该图像梯度对于对象的表面而言不是最佳的。我们在这里变形流动反投影变形变形网格规则网格000111000用于物体重建的变形矢量场7pppGTGT二进制掩码D原件图3.第三章。左图是一个二进制掩码;中间的图像是对应的水平集，其中轮廓边界以红线显示为了定义点p的变形位置，定位边界p 0上的最近点，然后沿着p和p 0的线找到最大水平pmax处的点和最小水平p min处的点。然后，p应该被归一化到p0和pmin之间的范围。右图显示了一对均匀网格及其对应的变形网格。颜色表示变形前后的点对应关系不管深度值如何，每个像素的投影射线都应当击中对象的表面。此可通过针对每一像素p预形成ionflow（vector）[U，V]来实现（图1B中呈现1D说明）。2）的情况。具体地，对于像素位置（xp，yp）处的每个像素p，我们的网络预测变形向量[up，vp]（除了其深度值zp之外）。该像素的位置被变形流移位。那么这个像素变形是x′=xp+up，y′=yp+vp。同样的逆透视变换可以应用于变形的深度图以反向投影到3D空间，p = R−1（K−1Σx′′ΣTpzp−t）。（二）在训练期间，变形流由伪地面实况（pseudo ground-truth）监督（参见下面的部分）。x和y方向的像素级L1变形流动损失如下所示LU=U−Ugt1LV=V−Vgt1。（三）其中Ugt和V g t分别在x方向和y方向上形成梯度场。然而，直接逐像素损失不能在常规地面实况深度图与变形深度图之间使用，因为逐像素对应性已由于变形而改变为了监督变形的深度图，我们使用伪地面实况变形流来使地面实况深度图变形以获得变形的地面实况深度图，使得可以使用逐像素损失，这在下面给出。Ld= D′−D′ ，（4）其中，D’和D’是变形的地面实况和预测的深度rec。分别为。PmaxPD归一化均p0P最小值水平集均匀网格变形网格y8K. Li，T. Pham，H.詹岛里德00我们定义了一个函数，该函数将规则网格上的对象二进制掩码（剪影作为前景，其余部分作为背景）作为输入，并输出用于变形的向量场。该矢量场被视为变形流的伪地面实况该函数的标准是1）每个像素都应该被移位到轮廓中（即，规则的网格应该变形以适合轮廓），2）变形的网格应该均匀密集。更具体地，我们首先将二进制掩模转换成水平集，其中内侧轮廓是负水平，背景是正水平，并且轮廓边界处于零水平集（由图1中的红线示出）。（3）第三章。对于每个像素p在规则网格上的坐标（xp，yp）处，它在零水平集（轮廓边界）处找到其最近的像素，称为p0。像素的变形方向sideofthesilhoueteis−p−p→，并且side insideof aponttte of thesilhoueteside is-p-→p。方向确定后，我们计算变形的大小.如示于图3、沿着p和p0的直线，找到水平集中的局部极大点pmax和局部极小点pmin。像素p的变形流定义如下，x′=x xmin−x0ymin−y0（五）pp<$xmax−x min<$pp<$y max−y min<$pU[xp，yp]=x′− xp， V[xp，yp]= y′− yp。（六）p pEq。(5)确保沿着pmax和pmin之间的线的点移动到p0和pmin之间的线上的点，使得像素在轮廓中（满足第一标准）。此外，没有像素被碰撞（满足第二标准）。3.2距离场多视点一致性如前所述，从预测深度图反向投影的3D点从其他视点观看通常是有噪声的图图4（a）可视化了这个问题，其中从椅子的前视图反向投影的点云包含椅子的前腿和后腿之间的许多噪声点。为了缓解这个问题，我们引入了一种新颖的多视图一致性监督，其鼓励3D点投影到对象轮廓中（即，前景）而不是背景。为此，我们将地面实况二进制掩码（在新的视点）转换为距离场[3]，其中前景像素的值在距离场中为零（意味着没有惩罚），而背景像素的值图4（b）展示了一个示例距离场。这样的距离场被用作监督信号以拉出异常值（即，投影到轮廓外部的点）返回到对象轮廓（在2D中）。用于物体重建的变形矢量场9DFDFL=投影距离场地面实况二进制掩码距离变换前视图中椅子的变形深度图（一）噪声3D点从前视图反向投影的噪声3D点(b)距离场的1D幻灯片图4.第一章（a）仅使用深度作为监督的噪声重建的示例(b)我们的距离场多视图一致性。给定一个新视点的地面真实二进制掩码，使用距离变换将其变换为距离场[3]。3D点被投影到距离场上。投影点由多视图一致性损失Ldf监督以朝向对象轮廓移动请注意，在上面的示例中，投影点在1D曲面上移动仅用于可视化目的。实际上，它在2D距离场曲面上移动。从技术上讲，在新视点n处使用变换和相机矩阵将3D点p（Xp，Yp，Zp）投影到距离场，即，[xp，yp，1]T其中[xp，yp]是距离场中的投影点坐标。多视图一致性训练损失Ldf变为：ΣN ΣPLdf=npL（n，p），（8）其中N是视点的数量，P是3D点的数量。L（n，p）定义为：（n，p）DFΣHΣWHWF n [h，w] max（0，1 − |xp− h|）max（0，1 − |yp− w|），（9）其中H和W分别是距离场的高度和宽度，Fn是视点n处的距离场，并且Fn[h，w]是像素位置[h，w]给定在[xp，yp]处的点，4个相邻像素的值（距离）被内插以近似对应的距离场F[xp，yp]。通过最小化Eq.9，该点被监督朝向对象轮廓移动这种技术称为可微双线性插值，在[14]中用于差分图像扭曲。3.3网络架构与培训我们使用一个类似自动编码器的网络，编码器提取图像特征并将其投影到潜在空间中。解码器是由几个2DK-1，R-1，-t反投影10K. Li，T. Pham，H.詹岛里德在一个实施例中，图像处理器100可以使用去卷积层来从6个固定视点生成成对的变形前深度图和变形流图，所述6个固定视点是以感兴趣对象为中心的立方体的面。有关网络架构和培训配置的更多详细信息，请参阅补充资料。我们用变形的深度图损失、变形流损失和距离场损失联合训练网络。最后的损失函数为ΣMΣNL=（Lm+Lm+Lm）+λ（10）dUVdfM n其中M是6个固定视点，N是距新视点的距离场的数量。4实验我们评估我们提出的方法开始烧蚀研究的关键组成部分，我们的框架：变形的深度图和基于距离场的多视图一致性损失，然后比较国家的最先进的方法对单视图三维物体重建。此外，我们测试我们的方法在最近公布的真实数据集，以确定它是否可以推广到真实图像和比较与其他方法报道。4.1数据准备按照以前的方法，我们使用ShapeNet的一个子集，其中包含13个类别的对象，来训练和评估我们的网络。我们从立方体的6个面的固定视点渲染6个深度图以及二进制掩码，其中3D对象是居中的。二值掩模用于构造伪地面真实变形场。此外，我们还分别从[0，360），[-20，30]中的任意采样方位角和仰角渲染24个RGB图像及其RGB图像是网络的输入图像，并且二进制掩码被预处理为用于多视图一致性损失的距离场4.2定量测量为了定量评估结果，我们使用预测点云和地面实况点云之间的平均逐点3DD（S1，S2）=Σp∈Sminpi−pj2+pj∈S2Σp∈Sminpi−pj2（11）pi∈S1i1j2ΣDS1→S 2=pi∈S1minpi−pj2（12）pj∈S2用于物体重建的变形矢量场11图五、深度遮罩表示的不同前景/背景阈值的倒角距离比较我们的方法的较低的gt→pred损失表明我们的方法提供比基线更好的覆盖。即使当将阈值设置得更高时基线可以实现更低的pred- gt损失（例如，阈值≥0.6），覆盖的惩罚抵消了准确度的增益，并导致更高的整体损失。DS2→S 1= Σp∈Sminpi−pj2（13）pi∈S1J2其中S1是预测点云，S2是地面实况点云。如[21]所示，虽然倒角距离可以评估整体性能，但也必须将预测报告给地面真实距离方程。（12）和地面实况到预测距离Eq.在它们评估预测点云的不同方面时，可以单独地使用（13）前者示出了每个预测点到最近的地面实况点（即，预测有多精确），并且后者报告从每个地面实况点到指示表面覆盖的最近预测点注意，为了可读性，实验部分中报告的所有数字按比例放大1004.3消融研究在本节中，我们将评估我们的框架的两个关键组件：变形的深度图和基于距离场的多视图一致性损失。变形的深度图我们分别用我们提出的变形的深度表示和深度掩码表示（作为基线）在相同的训练设置中训练两个网络。该网络在三个类别（飞机，汽车和椅子）上进行训练和评估。每个类别的结果报告在图1B中五、它表明，12K. Li，T. Pham，H.詹岛里德输入图像Lin等Lin等我们的GT输入图像Lin等Lin等我们的GT（阈值=0.3）（阈值=0.5）（阈值=0.3）（阈值=0.5）见图6。与Lin等人的目视比较[21日]方法总体CD预测点二进制掩码多视图丢失[21]3 .第三章。240/3。53131972 /25401距离场多视图丢失（我们的）3 .第三章。102/2。98798304 /98304表1.不同多视图一致性损失的比较总体CD中报告的数字和预测点的数量为：无多视图一致性/具有多视图一致性深度表示在深度掩模基线的不同阈值设置下一致地实现较低的损失（以两条红线示出）。在基线中的预测点精度和表面覆盖之间存在困难的权衡。当Dpred-gt随着阈值上升而逐渐减小时（即，仅保留好的预测点），则表面覆盖损失显著增加。更重要的是，从实验中揭示的深度掩模表示的另一个缺点是，为不同的实例选择最佳阈值并不是微不足道的。为了更好地可视化这个问题，一些定性的例子，从林等。[21]使用深度掩模表示图中给出。六、距离场多视图一致性为了评估我们的基于距离场的多视图一致性损失，我们将损失被禁用的基线与使用二进制掩码多视图一致性损失的现有技术[21]进行比较。表1中报告的结果表明，在应用我们的距离场多视图一致性之后，网络的性能优于基线。由于我们的一致性并不是简单地屏蔽更多的点以减少离群值，因此我们的方法也优于二进制屏蔽的多视图一致性[21]。4.4与现有技术相比在本节中，我们将我们的方法与以前的（最先进的）方法进行比较，这些方法使用合成数据集和真实数据集中的点云或体素网格表示由于作者提供的PSGN的预训练模型生成了与输入图像对齐的点云，而我们的点云在用于物体重建的变形矢量场13类别PSGN我们的平面2.582 2.66车3.253 2.897椅子4.110 3.731表3.916 3.271板凳三六零三五七内阁4.835 4.037显示5.010 4.343灯5.105 4.933扬声器5.707 5.532枪2.949 3.259沙发4.644 4.267电话3.999 3.588车板凳显示枪输入图像PSGN我们的GT平面灯沙发表输入图像PSGN我们的GT图7.第一次会议。与PSGN的目视比较图8. 致密PSGN比较表2.使用倒角距离在13个类上与PSGN进行比较。典型的姿势为了进行公平的比较，我们使用他们发布的代码重新训练他们的网络，以输出规范姿势的点云PSGN和我们的网络都使用相同的训练-测试分割对我们的渲染输入图像进行训练我们的方法在大多数类别（13个中的11个）中的整体性能优于PSGN，如表2所示。为了解决预测点密度的测量偏差，我们还报告了加密PSGN的结果，其中我们使用相邻点之间的线性插值作为后处理步骤，将点云大小从1024加密到98304（与我们的预测大小相同该致密化PSGN在五个类别（椅子、汽车、飞机、长凳和桌子）上进行评估，并且在图1中报告了平均倒角距离8.该图表明，加密/插值重建无法捕获我们的方法所能捕获的更精细的3D细节。为了直观地对比这两种方法，我们在图中给出了一些定性的例子。7.第一次会议。与分层表面预测（HSP）比较[11]由于PSGN已经显示出点云表示优于低分辨率体素网格表示的性能（例如，3D-R2 N2），我们提供了定量比较14K. Li，T. Pham，H.詹岛里德方法椅子平面车工作台HSP4.716 3.878 3.487我们3.731 2.660 2.897 3.271 3.357表3.我们和HSP之间的倒角距离方法3D-R2N2[五]《中国日报》PSGN 3D-VAE-GAN[36个]DRC[34个]MarrNet[35]第三十五届AtlasNet[？]Pix3D[三十一]我们Pix3D（w/姿势）EMD0.2110.2160.1760.1440.1360.1280.124 0.1240.118CD0.2390.2000.1820.1600.1440.1250.124 0.1250.119表4.使用地球移动器距离和倒角距离我们的方法和表3中的HSP之间的差异。HSP利用八叉树数据结构将体素网格向上扩展到5123。ShapeNet的五个类别使用输入图像和HSP作者提供的预训练模型进行评估。为了计算HSP结果的倒角距离，我们使用行进立方体算法从体素生成网格，并从网格中均匀地采样与我们相同虽然八叉树方法有效地提高了分辨率，但是它仍然遭受非平凡占用阈值化和总体上非平凡占用率的限制（即，八叉树方法不能有效地提高分辨率）。例如，缺少这种结构），导致比我们的性能更差。4.5真实图像的推广Pix 3D [31]（具有高质量图像-形状对的大规模真实数据集）已经可用，我们将我们的结果与表4中的基准进行了我们在从SUN数据集中随机选择背景的合成图像上训练我们的方法，然后直接在Pix3D图像上进行评估表4显示了我们的方法很好地推广到真实图像，并实现了与最先进方法相当的性能请注意，Pix3D中报告的最佳性能使用对象姿势和3D形状的联合训练来提高网络性能，因此被排除在比较之外。5结论在这项工作中，我们提出了一种新的变形深度表示。通过使用变形，我们绕过了前景/背景阈值的需要，导致更密集的点云和重建高保真度。此外，细化融合点云，我们提出了一个基于距离场的多视图一致性优于现有的多视图一致性损失。我们完成的框架在单视图对象重建中优于现有技术方法然而，我们在本文中采用的权宜方法可以被能量优化所取代，这可能会导致更均匀分布的变形网格。致谢这项工作得到了UoA奖学金KL和HZ，ARC Laureate FellowshipFL130100102 IR和澳大利亚机器人视觉卓越中心CE140100016的支持。用于物体重建的变形矢量场15引用1. 我爱你J ：从你身上掉下来。BiologicaLcybernetics58（5），3452. Biederman ， I.：按组件识别：一种人类形象理解理论。 PsychologicalReview 94（2），115（1987）3. Borgefors，G.：数字图像中的距离变换。计算机视觉、图形和图像处理34（3），3444. Braunstein，M. L.，升，J.C.，Tittle，J.S.：从透视平移和正交旋转恢复三维形状。实验心理学杂志：Human Perception and Performance 19（3），598（1993）5. Choy，C.B.，徐，D.，Gwak，J.，Chen，K.，Savarese，S.：3d-r2 n2：用于单视图和多视图 3D 对象重建的统一在：欧洲会议上CommputerrVision.pp. 62802TheDog（2016）6. Dame，A.，Prisacariu，V.A. Ren，C.Y.，Reid，I.：使用三维物体形状先验的密集重建。In：Proceedings of the IEEE Conference on ComputerVision andPattern Recognitio n.pp. 1288IEEE（2013）7. Fan，H.，Su，H.，Guibas，L.：从单幅图像重建三维物体的点集生成网络IEEE计算机视觉和模式识别会议论文集。第2卷，第6页（2017年）8. 加格河BG、V.K.、Carneiro，G. Reid，I.：用于单视图深度估计的无监督CNN：几何学拯救了我们。欧洲计算机视觉会议。pp. 740-756 Springger（2016）9. Girdhar河Fouhey，D.F.，Rodriguez，M. Gupta，A.：学习对象的可预测和生成矢量表示在：欧洲计算机会议Vision.pp. 48402TheDog（2016）10. 戈达尔角Mac Aodha，O.，Brostow，G.J.：具有左右一致性的无监督单眼深度估计。IEEE计算机视觉和模式识别会议论文集。卷2，p.2017年711. Hüane，C.， Tulsiani，S.， Malik，J. ：高度精确的三维重建算法。 In：3DVision （ 3D V ）， 2017I nternationalConferenceon. pp.412-420 IEEE（2017）12. 黄，Q，王，H.，Koltun，V.：通过图像和形状集合的联合分析的单视图重建ACM Transactions on Graphics（TOG）34（4），87（2015）13. Hming，Klaus，P.G.：运动恢复结构重构流水线包括在高速图像方程中的四个部分。Kybernetika46（5），926http://eudml.org/doc/19716514. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，等：空间Transformer网络。在：Avancesi ne uralin ner mato n pocessssysssin。pp. 201715. Johnston，A.，加格河Carneiro，G.里德岛van den Hengel，A.：用于从单个图像进行高分辨率体积重建的缩放cnnIn ：Proceedings oftheIEEEConFEREEo nCon Con P uterVis iso n andPater n Reg g nitio n.pp. 93916. Kar，A.，Tulsiani，S.，卡雷拉，J.，Malik，J.：从单个图像重建特定于类别的对象。 In ： Proceedings of the IEEE Conference on Computer VisionandPatternRecognition. pp. 196617. Kong，C.，Lin，C.H.，Lucey，S.：使用局部对应的cad模型从单个图像进行IEEE计算机视觉和模式识别会议论文集。第二卷（2017）16K. Li，T. Pham，H.詹岛里德18. Kurenkov，A.，Ji，J.，Garg，A.，梅塔，V.，Gwak，J.，Choy，C.，Savarese，S.：De-formnet：用于从单个图像重建3D形状的自由形式变形网络arXiv预印本arXiv：1708.04672（2017）19. Kutulakos，K.N.：光场边界的形状。计算机视觉与模式识别，1997年。诉讼程序1997年IEEE计算机协会会议。pp. 53比59 02The Dog（1997）20. Kutulakos ， K.N. ， Seitz ， S.M. ：空间雕刻造型理论。InternationalJOURNALOFCOMPUTERVISION38（3），19921. Lin，C.H.，Kong，C.，Lucey，S.：密集三维物体重建的学习高效点云生成。在：AAAI人工智能会议（AAAI）（2018）22. 刘芳，Shen，C.，Lin，G.：用于从单个图像进行深度估计的深度卷积神经场。 In ： Proceedings of the IEEE Conference on Computer VisionandPatternRecognition. pp. 516223. 刘，M.，Salzmann，M.，He，X.：从单个图像进行离散-连续深度估计。在： IEEE 计算机视觉和模式识别会议论文集中。 pp.716-723 IEEE（2014）24. Martin ， W.N. ， Aggarwal ， J.K. ：从多个视图对对象进行体描述。IEEETransactionsa ctionpatenalysisan25. Newcombe，R.A.，Lovegrove，S.J.，Davison，A.J.：Dtam：实时密集跟踪和映射In：Computer Vision（ICCV），2011 IEEE InternationalConfer-en-cec〇n.pp. 2320IEEE（2011）26. Prados ， E. ，福格拉斯， O. ：从阴影中形成形状。 In ： Handbook ofmathematical modelsincomputervision，pp. 375-388 02TheDog（2006）27. 罗伯茨，L.G.：三维立体的机器感知。博士麻省理工学院硕士论文（1963）28. Saxena，A.，孙，M.，Ng，A.Y.：Make3d：从单个静止图像获得深度感知In：AAAI.pp. 157129. 辛哈，A.，Unmesh，A.，黄，Q，Ramani，K.：Surfnet：使用深度残差网络生成 3D 形状表面。在： IEEE 计算机视觉和模式识别会议论文集（2017）30. Su，H.，Qi，C.R.，李，Y.，Guibas，L.J.：为cnn渲染：使用用渲染的3d模型视图训练的 cnn 的图像中的视点估计。在： Proceedings oftheIEEEInternatalConferenceonComputterVision. pp. 268631. Pix3d：Dataset and methods for single-image 3d shape modeling.来源：CVPR（2018）32. Tatarchenko，M.，Dosovitskiy，A.，Brox，T.：八叉树生成网络：高分辨率 3d 输出的高效卷积架构。 In ： IEEE International Conference onComputerVision （ ICCV ）（ 2017 ）， http://lmb.informatik.uni-freiburg.de/Publications/2017/TDB17b33. Tatarchenko，M.，Dosovitskiy，A.，Brox，T.：用卷积网络从单幅图像中建立多视图3d模型。欧洲计算机视觉会议。pp. 322- 337. 第二章（20 16）34. Tulsiani，S.，周，T.，埃夫罗斯，匿名戒酒会Malik，J.：通过可微射线一致性进行单视图重建的多视图监督。IEEE计算机视觉和模式识别会议论文集。卷1，p.3（2017）35. 吴，J.，王玉，Xue，T.，太阳，X.，Freeman，B.Tenenbaum，J.：通过2.5维草图重建三维神经信息处理系统进展。pp. 540用于物体重建的变形矢量场1736. 吴，J.，张，C.，Xue，T.，Freeman，B.Tenenbaum，J.：通过3d生成对抗建模学习物体形状的概率潜在空间In：AdvancesinNeuralI in NeuralFormation inProces si ngSyss.pp.

下载后可阅读完整内容，剩余1页未读，立即下载