学习从单个图像重建3D曼哈顿线框方法

124 浏览量更新于2023-10-12 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1学习从单个图像重建3D曼哈顿线框周毅超1、 2、齐浩志1、翟跃祥1、 3、孙琦2、陈志立2、3、魏丽毅2、马毅1、3、1、加州大学伯克利分校2、Adobe研究院3、字节跳动公司。摘要在本文中，我们提出了一种方法，以获得一个紧凑和准确的三维线框表示从一个单一的图像，有效地利用全球结构规划。我们的方法训练一个卷积神经网络来同时检测突出的结点和直线，以及预测它们的3D深度和消失点。与最先进的基于学习的线框检测方法相比，我们的网络更简单，更统一，导致更好的2D线框检测。在全局结构先验（如Manhattan假设）的支持下，该方法进一步重构了一个完整的3D线框模型，该模型是一种紧凑的矢量表示，适用于AR和CAD等各种高级视觉任务我们还对城市场景的大型合成数据集进行了广泛的评估(a)输入图像（b）3D线框(c)小说观as real真实images图片.1. 介绍从RGB图像中恢复场景的3D几何形状是计算机视觉中最基本也是最具挑战性的问题之一大多数现有的用于获得3D几何形状的现成商业解决方案仍然需要有源深度传感器，诸如结构光（例如， Apple ARKit 和Microsoft Mixed Realty Toolkit）或LIDAR（在自动驾驶中很流行）。虽然这些系统可以满足特定目的的需求，但它们受到传感器的成本，范围和工作条件（室内或室外）的限制。最终输出的表示通常是密集的点云，其不仅是存储和计算密集的，而且还可能包含由于透明度、遮挡、反射等引起的噪声和错误。另一方面，传统的基于图像的3D重建方法，如运动恢复结构（SfM）和视觉SLAM，通常依赖于局部特征。尽管效率和可靠性一直在提高（例如，微软Hololens，Magic Leap），它们通常需要多个带有深度传感器的摄像头[13]以获得更好的准确性。最终场景表示仍然是准密集点云，这项工作是在Y.周是Adobe Research的实习生图1.我们的方法在单个合成图像上测试的结果(top行）和真实图像（底行）。列（a）示出了与地面实况线框重叠的输入图像，其中红色和蓝色点表示C型和T型连接，re-bounded。列（b）显示了我们系统的预测3D线框，具有灰度可视化深度。（c）栏显示（b）的备选视图。注意，我们的系统恢复几何上突出的线框，而不被纹理线所干扰，例如，大本钟正面的垂直纹理图案通常不完整、有噪声并且存储和共享起来很麻烦。因此，需要复杂的后处理技术，如平面拟合[11]和网格细化[14，19]。这种传统的表示方式很难满足手持相机、手机甚至无人机对高级3D建模、内容编辑和模型共享日益增长的需求。与传统的3D几何捕获系统不同，人类视觉系统不会将世界感知为均匀分布的点。相反，人类在利用几何突出的全局结构（如线、轮廓、平面和光滑表面）感知3D场景方面具有显著的效率、高效性和鲁棒性[1]。然而，视觉算法从局部图像特征中检测和利用这种全局结构仍然具有挑战性，直到深度学习的最新进展使得从标记数据中学习高级特征成为可能。所述实例包括76987699检测平面[29，18]，表面[9]，2D线框[12]，房间布局[34]，网格拟合的关键点[30，28]，以及来自多个图像的稀疏场景表示[5]。在这项工作中，我们从学习的线和连接特征推断全局3D场景布局，而不是传统SfM或视觉SLAM系统中使用的局部角状特征，如SIFT [7]，ORB [21]或线段[10，4，23] 我们的算法学习检测一种特殊类型的线框，它由代表建筑物角落和边缘的连接点和线条组成。我们称我们的表示为几何线框，并证明与某些全局先验（如全局或局部曼哈顿[2，7，23]）一起，线框表示允许有效和准确地恢复场景的3D几何形状，即使是我们的方法训练神经网络来估计全局线和两种类型的深度的交界处，并使用估计的深度和几何约束构建完整的3D线框。以前，已经有专家试图在3D合成数据集（如SUCG）的帮助下了解室内场景[24，31]。我们的工作旨在自然的城市环境与各种几何形状和纹理。为此，我们建立了两个新的数据集，包含合成和自然的城市场景。图1显示了重建的采样结果，图2显示了我们系统的完整流水线。本文的贡献与现有的线框检测算法（如[12]）相比，• 利用单个神经网络联合检测连接点、线、深度和消失点，利用这些几何结构之间的紧密关系• 学习区分两种类型的连接：线和平面的物理交叉点• 从单个RGB图像中检测到的线和连接点2. 方法如图2所示，我们的系统从一个神经网络开始，该神经网络将单个图像作为输入，并联合预测多个2D热图，从中我们对线条和交叉点进行矢量化，并估计它们的初始深度值和消失点。我们将此中间结果称为2.5D线框。使用从与先前相同的网络估计的深度值和消失点，然后我们将线框从2.5D图像空间提升到完整的3D世界空间。2.1. 几何表示在场景的几何线框W=（V，E）中，V和E<$V×V是连接点和线。具体地说，E表示两个平面而V表示E之间的线的（物理的或投影的）交点。与[10，12]不同，我们的E完全排除了平面纹理线，例如图1中大本钟的垂直纹理。所谓的W旨在捕捉全局场景几何形状，而不是局部纹理细节。[1]通过排除平面纹理线，我们可以将连接点分为两类。设Jv∈ {C，T}是v的连接类型，在每个结可以是C结（Jv=C）或T形接头（Jv=T）。角C形连接是物理平面或边的实际相交，而T形连接是由遮挡生成的。T-结（蓝色）和C-结（红色）的示例可以在图1中找到。我们将它们表示为两个不相交的集合V=VC<$VT，其中VC={v∈V|Jv=C}和VT={v∈V|Jv= T}。我们注意到在E中入射到T形接头的线的数量总是1而不是3，因为T形连接点不连接到3D中的两个前景顶点。连接类型对于推断3D线框几何体很重要，因为不同的3D 先验将应用于每种类型。 2 对于每个 C- 结点vc∈VC，定义zvc为顶点vc的深度，即，在相机空间中的z坐标。对于每个遮挡T形交叉点vt∈ VT，我们将zvt定义为背景中被遮挡线的深度，因为前景线深度总是可以从其他交叉点恢复。使用深度信息，由C形连接、T形连接和线给出场景几何的紧凑表示。我们的目标是从单个图像重建这样的3D线框图。2.2. 从单一图像到2.5D表示我们的第一步是训练一个神经网络，从我们的标记数据集中学习所需的连接点，线，深度和消失点。我们首先简要描述了网络的期望输出和网络的架构。用于训练网络的相关损失函数将在下一节中详细说明。给定一个场景的图像I，我们的神经网络的像素级输出由五个输出组成：结点概率J、结点集合O、边缘概率E、结点深度D和消失点V：Y（J，O，E，D，V），Y（J，O，E，D，V），（1）其中具有和不具有帽子的符号分别表示基础事实和来自神经网络的预测。每个符号的含义详见第2.2.2节。1在城市场景中，来自规则纹理（例如立面上的窗户）的线条确实编码了精确的场景几何形状[32]。神经网络仍然可以使用它们来推断线框，但不能将它们保留在最终输出中，最终输出旨在仅给出几何结构的紧凑表示。2.还有另一种类型的连接点是由与图像边界相交的线引起的。为了简单起见，我们将它们视为C结7700我.ΣCONVs输入图像深度图CONVs结热图CONVs特征提取&沙漏x 4线框矢量化边缘地图CONVs神经网络2.5D推理消失点3D提升图2. 建议方法的总体流程。2.2.1网络设计我们的网络结构基于堆叠沙漏网络[22]。输入图像在进入网络之前被裁剪并重新缩放为512 × 512。特征提取模块，网络的第一部分，包括跨越卷积层和一个最大池化层，将特征图下采样到128 × 128。以下部分由S沙漏模块组成。每个模块将逐渐下采样，然后上采样特征图。的堆叠的沙漏网络将逐步完善输出损失在实验中，我们设置λ，使得λkLk具有相似的尺度。2.2.2输出映射和损失函数JunctionMap J和Loss LJ。地面实况接合点图是输入图像的下采样热图，其值表示该像素中是否存在接合点。对于每个结类型t∈ {C，T}，我们估计其结热图.1v∈Vt：p=映射以匹配来自训练数据的监督令给定第i幅图像的第j个沙漏模块的输出为Jt（p）=0否则4 ，t∈ {C，T}.Fj（Ii）. 在训练阶段，要最小化的总损失其中p是热图上的整数坐标，v是在图像空间中具有类型t的接合点的坐标.N.SL总.N.SL（Y（j），Y<$i）=L（Fj（Ii），Yi），在[22]之后，结热图的分辨率为4比输入图像的分辨率小10倍我i=1j= 1i=1j= 1因为一些像素可以包含两种类型的结，其中i表示训练数据集中图像的索引j表示沙漏模块的索引;N表示一批训练图像的数量;S表示神经网络中使用的线程数;L（·，·）表示我们将结点预测视为两个每像素二进制类，分离问题。我们使用经典的softmax交叉熵损失来预测连接图：L（J，J）1 .一、.ˆ表示单个图像的丢失;Y（j）表示JNt∈{C，T}CrossEntropyJt（p），Jt（p），从图像Ii第j个hourglass模块，并且Y_i表示图像Ii的第g个中间表示。单个图像的损失是下一节中指定的损失函数Lk的叠加.LλkLk，k∈ {J，O，E，D，V}.K超参数λk表示每个子节点的权重其中n是热图的像素数得到的Jt（x，y）∈（0，1）表示输入图像中在[4 x，4 x +4）× [4 y，4 y +4）处是否存在具有类型t的结点的概率。偏移映射O和损失LO。与输入图像相比，J的分辨率较低可能会影响结点位置的精度。受文献[27]的启发，我们使用一个O-集合映射来存储从J-到其原始位置的差向量p77012|uw|4我2 2子像素精度：.v−p<$v∈VOt（p）=4t：p=10v4 ，t∈ {C，T}.方向在透视几何中，i方向上的平行线将相交于像空间中的相同消失点（Vi，x，Vi，y），可能相交于无穷远。为了防止Vi，x或Vi，y0否则为了避免变得太大，我们将向量归一化，我们使用O2-loss作为节点集图，并使用热图作为掩码来计算仅在实际连接点附近的损失在数学上，损失函数被写为V=Vi，x+Vi，y+1..不Vi，x，Vi，y，1.（二）..... 2因为两个水平消失点V1和V2是.pJt（p）. . Ot（p）−Ot（p）..从一个单一的RGB图像顺序不可知，我们使用倒角LO（O，O）t∈{C，T}二、pJt（p）V1和V的损失2，以及V3的102-损失（垂直）消失点）：其中Ot（p）是通过将sigmoid和常数平移函数应用于中的O t集分支的最后一层来计算的。LV（V，V）min（V1 – V1分，2分– V1个月）最后，利用神经网络对Ot（p）∈ [0，1）2.我们正常化LO按每种类型的连接数边图E和损失LE。为了估计线位置，我们将它们表示在边缘热图中。对于地面实况线，我们使用抗锯齿技术[33]在边缘图上绘制它们以获得更好的准确性。设dist（p，e）为像素p与最近线之间的最短距离e段。我们将边缘图定义为+min（V1−V2，V2−V2）+V3−V32。2.3. 热图矢量化如图2所示，神经网络的输出基本上是所需线框。矢量化是需要获得一个紧凑的线框表示。结矢量化。恢复连接点V，.Max 1− dist（p，e）<$e∈E：dist（p，e） 1，<结热图J是直接的。设C和TE（p）=e0否则。是JC的阈值可以被估计为关于JT.连接候选集直觉上，E（p）∈ [0，1]表示直线接近点p的概率。因为边缘图的范围总是在0和1之间，我们可以将其视为概率分布，并在E和E上使用sigmoid交叉熵损失：Vt ← {p + Ot（p）|Jt（p）≥ <$t}，t ∈ {C，T}.（三）线矢量化。线矢量化有两个阶段。在第一阶段，我们检测和构造线Candi-（ E ， E ） 1.npCrossEntropy.ΣE（p），E（p）.都是从街角的C形路口这是可以做到通过枚举所有的连接点对u，w∈VC，连接它们，并测试它们的线置信度得分是否为连接深度图D和损失LD。估计深度zv对于每个结点v，我们定义结点方向大于阈值c（u，w）≥ΔE。信心具有两个端点u和w的线的得分给出为深度图c（u，w）=1.p∈P（u，w）其中P（u，w）表示Dt（p）=.zv<$v∈Vt：p=<$v<$0否则，t∈ {C，T}.在量化线u→w中的像素的集合，以及|u→w|表示该行中的像素数。在第二阶段，我们构建所有的线之间，在许多具有未知深度单位和相机内部矩阵K的数据集中，zv保持相对尺度而不是绝对深度。为了消除全局缩放的模糊性，我们使用尺度不变损失（SILog），该损失已在单图像深度估计文献[3]中引入。它通过对每个像素对之间的对数差求和来消除全局尺度的影响。“T-T”和“T-C”结对。如果T形连接被测试为靠近检测到的线，我们将重复向线框中添加T形连接。与拐角C形结不同，T形结的阶数始终为1。对于每一个T型连接，我们都能找到与之相关的最佳边缘重复此过程，直到无法添加更多行最后，我们运行一个后处理过程来删除太近或太长的行。1.LE7702tt2LD（D，D）. 1.一、.不ntp ∈VtlogD（p）−logD（p）2互相交叉。通过处理C形接头和T形接头另外，我们的线矢量化算法是有效的和强大的数百行的场景更详细的. 1.一、.−n2ΣlogDt（p）−logDt（p）。补充材料中讨论了说明2.4. 图像空间2.5D到世界空间3Dtt p∈Vt消失点映射V和损失L。在人造的室外场景中，线条往往围绕着三个相互正交的方向聚集.设i∈ {1， 2， 3}表示这三个到目前为止，我们已经获得了矢量化的交界处和线在2.5D图像空间与深度在一个相对的规模。然而，在AR和3D设计等场景中，绝对深度值77032对于3D线框的6DoF操作是必要的。在本节中，我们将介绍使用我们的网络预测消失点来估计它们的步骤。2.4.1从消失点校准在MegaDepth [16]等数据集中，每个图像的相机校准矩阵K ∈ R3×3是未知的，尽管它对于完整的3D线框重建至关重要。幸运的是，校准矩阵可以从三个相互或-如果场景主要是Manhat-tan，则为正交消失点根据[20]，如果我们将正交消失点V i变换为校准坐标V<$iK−1Vi，则V′i应该是互正交的，即，ViK−TK−1Vj= 0，<$i，j ∈ {1，2，3}，i<$j.这些方程对K−TK−1施加了三个线性独立的约束，并且可以求解校准矩阵中的三个未知参数，例如光学中心和焦距。2.4.2使用消失点的深度细化由于估计误差，预测的深度图可能与检测到的消失点Vi不一致。在实践中，我们发现神经网络在估计消失点方面比预测2.5D深度图表现得更好。这可能是因为对于消失点有更多的几何线索，而估计深度需要来自数据的先验。此外，深度图的单位可能由于数据集（例如，MegaDepth）和SILog损失的使用因此，我们使用消失点，以细化结深并确定其绝对值。设zvDJv（v）是我们的神经网络预测的结点v的深度。我们设计以下凸目标函数：.3 .第三章。 ¨ ¨3. 数据集和注释有监督学习的瓶颈之一是训练和测试的数据集不相等。以前，[12]开发了一个用于2D线框检测的数据集。但是，他们的数据集不包含3D深度或交叉点类型。据我们所知，没有一个公共图像数据集同时具有线框和3D信息。为了验证我们的方法，我们创建了一个混合数据集，其中包含大量的城市场景合成图像和少量的真实图像。前者具有精确的3D几何形状，并自动注释来自网格边缘的地面实况3D线框，而后者则手动标记不太精确的3D信息。SceneCity Urban 3D数据集（SU3）。为了获得大量具有精确几何线框的图像，我们使用逐步生成的3D网格库SceneCity3。该数据集由简单的多边形组成，具有艺术家调整的材质和纹理。我们从网格的顶点提取C-连接，并使用计算几何算法和OpenGL计算T-连接。我们的数据集包括230个城市，每个城市都包含8× 8城市街区。通过改变天空地图，城市有不同的建筑布局和照明条件我们基于诸如捕获的建筑物的数量的标准为每个城市随机生成100个视点以模拟手持和无人机相机。合成的室外图像然后通过Blender的全局照明渲染，共提供23，000张图像。我们使用前227个城市的图像进行训练，其余3个城市进行验证。真实地标数据集。 MegaDepth v1数据集[17]包含世界上196个地标的真实图像它还包含通过结构minz，αi=1（u，v）∈Ai<$（zuu<$−zvv<$）×V<$i<$2.从运动。我们选择了大约200张符合我们方法假设的图像，手动标记+λRv∈Vzv−αz（四）他们的线框图，并将其与粗略的3D深度进行配准。在我们的实验中，我们在SU3上预训练我们的网络。若zv≥1，则（5）λzu+（1−λ）zv≤zw，（6）<$w∈VT，（u，v）∈E：w=λu+（1−λ）v，其中，Ai表示与消失点i对应的一组直线;α解决了深度维度中的比例模糊性 ;u<$K−1[uxuy1]T 是校准坐标中的vertex位置第一次的目的，是为了追求平等。问题（4）是通过在平行四边形区域上进行惩罚来确保平行于消失点V′i的线（zu′，zw′）由这两个向量构成第二项正则化zv，使其在一定尺度上接近网络的估计z v。方程（5）防止退化解数据集，然后使用2/3的真实图像来微调模型。剩下的三分之一用于测试。4. 实验我们进行了广泛的实验，以评估我们的方法，并验证我们的管道与烧蚀研究的设计。此外，我们比较我们的方法与最先进的2D线框提取方法。然后，我们评估消失点估计和深度细化步骤的性能最后，我们展示了我们的三维线框重建的例子。z= 0。方程（6）是λ+1-λ≥1的凸松弛，T型接头的深度限制zuzwzv3https：//www.cgchan.com/77044.1. 实现细节我们的骨干是一个两层沙漏网络[22]。每个堆栈由6个跨距-2残差块和6个最近邻上采样器组成在堆叠的沙漏特征提取器之后，我们为每个地图插入不同的每个头包含一个3× 3卷积层以减少通道数量，然后是一个1× 1卷积层以计算相应的映射。为了消失点回归，我们使用具有两个连续步幅-2卷积层的不同头部，随后是全局平均池化层和全连接层，以回归消失点的位置。在训练过程中，使用ADAM [15]优化器学习率和权重衰减被设置为8× 10−4和1× 10−5。所有的实验都是在四个NVIDIA GTX 1080Ti GPU上进行的，每个GPU包含12个小批量。对于SceneCity Urban 3D数据集，我们对网络进行了25个epoch的训练。损失权重设定为λJ= 2。0，λ0= 0。25 λE= 3。0，且λD= 0。1，使所有损失项大致相等。对于真实世界的数据集，我们使用在SU3数据集上训练的网络初始化网络，并使用10 −4的学习率训练5个epoch。我们对输入图像进行水平分层，作为数据增强。除非换句话说，输入图像被裁剪为512× 512。最后的输出是步幅4，即，尺寸128× 128 在热图矢量化过程中，我们使用超参数C= 0。2，ΔT= 0。3，且E= 0。65.4.2. 评估指标我们使用来自对象检测的标准AP（平均精度）[6]来评估我们的结预测结果。我们的算法产生一组连接点及其相关分数。如果预测与最近的地面实况的距离在阈值内，则预测被认为是正确的根据这个标准，我们可以绘制精确率-召回率曲线，并计算平均AP（mAP），即在几个不同的连接距离阈值上平均该曲线下的面积。在我们的实现中，mAP在阈值0.5、1.0和2.0上取平均在实际应用中，结点之间的长边通常优于短边。因此，我们通过连接到该结点的线路我们分别使用AP C和AP T来表示C接头和T接头的这种加权mAP度量。我们使用交联（IoU）度量来评估线热图的质量。对于结深度图，我们使用比例不变对数误差（SILog）[3，8]对地面真实结的位置进行评估4.3.关节训练和损失函数的消融我们进行了一系列的实验来研究不同的特征设计和多任务学习策略是如何影响线框检测准确率的。表1显示了我们的ABLA-导师度量JCEOℓ1 ℓ2ECEDSILog命令JAPC APTEIoUEDSILog（一）（b）第（1）款（c）第（1）款GGGGG65.469.372.857.155.860.1//////（d）其他事项G//73.3/（e）GGG74.361.074.2/（f）第（1）款（g）GGG//////3.594.14（h）GGGG74.461.274.33.04表1.多任务学习对3D线框分析的消融研究。“监督”下的列表示培训期间使用的损失和监督;“标准”下的列表示评估期间在这种监督下的表现。第二行显示特征映射的符号;第三行显示相应映射的损失函数名称。 “/”表示未生成映射，因此不可评估。任务的不同组合的研究，以研究联合训练的效果我们还评估了选择的num1- 和num2-损失的o-集回归和普通损失[16]深度估计。我们的结论是：1. 通过比较行（a-c），回归o集对于定位连接（APC为7.4分，APT为3分）此外，可能由于其平滑性，102损耗比101损耗更好77052. 联合训练路口和线路改善这两项任务。AP（c-e）显示APC改善约1.5分，AP T和线IoU改善约0.9分。这表明了连接点和线之间的紧密关系3. 对于深度估计，我们测试[16]中的顺序损失令我们惊讶的是，它并没有提高我们的数据集（rows（f-g））的性能我们假设这是因为稀疏注释连接的相对顺序比[16]中的前景/背景关系更难预测。4. 根据行（f）和（h），利用连接和线的联合训练将深度估计的性能略微提高了0.55个SINUS点。4.4.与2D线框提取的比较最近与我们的系统相关的一项工作是[12]，它从单个RGB图像中提取2D线框。然而，它有几个基本的区别从我们的：1）它不区分角C-路口和闭塞的T-路口。2）它的输出只有2D线框图，而我们的是3D。3）训练两个分离的网络，用于检测路口和线路。4）它检测纹理线，而我们只检测几何线框。7706AP和f测量0.90.80.70.60.50.4(a) 地面实况(b) 精炼前(c) 精炼后0.30.20.4 0.5 0.6 0.7 0.8 0.9召回图3.与[12]关于2D线框检测的比较我们将基线法改进了4个点。平均值[EV]中[EV]平均值[Ef]中[Ef]失败我们[4、26]二、69◦4.第一章65◦1 .一、55◦0的情况。14◦4.第一章02%12个。百分之四十百分之一点三八0的情况。百分之二十一二、百分之三20块0%的百分比表2.我们的方法和LSD/J的性能比较图4.用消失点进行深度细化（b）显示a从稍微不同的角度呈现zv的线框，而（c）显示了通过第2.4.2节中的优化改进的线框。SU3数据集上的LSD线检测器[4]我们发现，我们的方法是更强大的失败的百分比和平均错误，而传统的线聚类算法是更准确的，当它没有失败。这是因为LSD/J-linkage应用了更强的几何先验，而神经网络则从数据中学习概念。我们选择我们的方法是因为它的简单性和鲁棒性，因为这个项目的重点更多的是3D线框表示。链接 [4 ， 26] 用于消失点检测。 EV 表示 Vi 的角度误差（度），Ef表示恢复的相机焦距的相对误差在这个实验中，我们将性能与[12]进行比较本实验的目的是验证联合训练的重要性。因此，我们遵循与[12]中完全相同的训练过程和向量化算法，除了统一的目标函数和网络结构。图3显示了使用与[12]中相同的评估指标对测试图像评估的精确度和召回率曲线的比较请注意，由于不同的网络设计，他们的模型有大约30M的参数，而我们的只有19M。使用较少的参数，我们的系统在2D线框检测任务上实现了4点AP改进[12]。作为健全性检查，我们还分别针对线路和交叉点训练网络，如图3中的绿色曲线所示。结果仅略好于[12]。这个实验表明，我们的性能增益来自联合训练的目标，而不是神经网络工程。4.5. 消失点与深度细化在第2.4节中，消失点估计和深度细化用于3D线框表示的最后阶段。它们的鲁棒性和精度对系统输出的最终质量至关重要。在本节中，我们进行实验来评估这些方法的性能。对于消失点检测，表2显示了我们的基于神经网络的方法与J-Linkage聚类算法[26，25]之间的性能比较，但我们相信业绩还可以更进一步通过设计混合算法或设计更好的网络结构来改进。我们还根据SILog对深度修正前后的结深误差进行了我们发现，在65%的测试案例中，修正后的误差较小这表明来自消失点的几何约束总体上确实有助于提高结深的精度如图4所示，深度细化也提高了3D线框的视觉质量。另一方面，当消失点不够精确，或者场景太复杂以至于线框中有许多错误的线时，深度细化可能不那么有效。在补充材料中可以找到一些失败案例4.6.3D线框重建结果我们测试我们的3D线框重建方法的合成数据集和真实图像。图5和图6显示了最终重建的视觉质量示例。视频演示可以在www.example.com上找到http://y2u.be/l3sUtddPJPY。由于深度图不完整，我们没有显示真实地标数据集的地面实况3D线框。确认这项工作得到了索尼美国研究中心， AdobeResearch，Berkeley BAIR和字节跳动Research Lab的部分支持f=0.8f=0.7f=0.6（AP=67.5，f=72.1）[12](AP=67.8，f=72.6）(AP=71.0，f=74.3）我们的联合f=0.5f=0.5f=0.4精度7707地面实况2D我们的推断2D[12]第12话地面实况3D推理3D地面实况3D推断3D图5.合成SceneCity图像数据集上的测试结果左组：地面实况（第1列），我们的预测（第2列）和线框解析器[12]的结果之间的2D结果比较中间组（第3-4列）和右组（第5-6列）：地面实况的新线框的颜色使深度可视化。Ground truth Inferred Novel视图Ground truth InferredNovel视图图6.MegaDepth真实图像的测试结果7708引用[1] 马可·贝塔米尼麦·赫米和丹尼尔·贝茨视觉系统优先考虑靠近表面拐角的位置（而不仅仅是靠近拐角的位置注意，感知，精神物理学，75（8）：1748-1760，2013年11月。1[2] James M Coughlan和Alan L Yuille。曼哈顿世界：通过贝叶斯推理从单个图像中确定罗盘方向。ICCV，第2卷，第941-947页，1999年2[3] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度图预测。在NIPS，2014。四、六[4] Jakob Engel ， Thomas Schöps ， and Daniel Cremers.LSD-SLAM：大规模直接单眼猛击。在ECCV。2014年二、七[5] S. M. Ali Eslami ， Danilo Jimenez Rezende ， FredericBesse，Fabio Viola，Ari S.放大图片创作者：MarcoC.Rusu ， Ivo Danihelka ， Karol Gregor ， David P.Reichert ， Lars Buesing ， Theophane Weber ， OriolVinyals ， Dan Rosenbaum ， Neil Rabinowitz ， HelenKing，Chloe Hillier，Matt Botvinick，Daan Wierstra，Koray Kavukcuoglu，and Demis Hassabis. 神经场景表示和渲染。科学，2018。2[6] MarkEveringham ， Luc Van Gool ， Christopher KIWilliams ， John Winn ， and Andrew Zisserman. PascalVisualObject Classes（VOC）挑战。International Journalof Computer Vision，88（2）：303-338，2010。6[7] Yasutaka Furukawa，Brian Curless，Steven M Seitz，and Richard Szeliski. 曼哈顿世界立体声。 CVPR ，2009。2[8] Andreas Geiger，Philip Lenz，Christoph Stiller，andRaquel Urtasun.视觉与机器人技术的结合：KITTI数据集。国际机器人研究杂志，2013年。6[9] 放大图片作者：David G.金布莱恩·罗素马修·奥布里PakasNet：学习3D表面生成的纸加工方法。在CVPR，2018年。2[10] Manuel Hofer，Michael Maurer，Horst Bischof.使用线段的高效3D场景抽象计算机视觉与图像理解，2017年4月。2[11] JingweiHuang ， Angela Dai ， Leonidas Guibas ， andMatthias Niessner. 3Dlite：面向内容创建的商品3D扫描。ACM事务处理图表，2017年。1[12] 黄昆、王亦凡、周梓涵、丁天娇、高生华和易马。学习解析人造环境图像中的在CVPR，2018年。二五六七八[13] Shahram Izadi ， David Kim ， Otmar Hilliges ， DavidMolyneaux ， Richard Newcombe ， Pushmeet Kohli ，Jamie Shotton ， Steve Hodges ， Dustin Freeman ，Andrew Davison，et al.KinectFusion：使用移动深度相机的实时3D重建和交互第24届ACM用户界面软件和技术研讨会论文集，第559-568页。ACM，2011年。1[14] Michael Kazhdan ， Matthew Bolitho ， and HuguesHoppe. 泊松曲面重建在 Proceedings of the fourthEurographics symposium on Geometry processing ，第 7卷，2006中。17709[15] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[16] 李正奇和诺亚·斯内弗利。MegaDepth：从互联网照片中学习在计算机视觉和模式识别（CVPR），2018年。五、六[17] 李正奇和诺亚·斯内弗利。MegaDepth：从互联网照片中学习单视图深度预测。在CVPR，2018年。5[18] 刘晨，杨继梅，杜伊古·锡兰，尔辛·尤默，古川泰.PlaneNet ：从单个 RGB 图像进行逐段平面重建。在CVPR，2018年。2[19] 威廉·E·洛伦森和哈维·E·克莱恩。Marching Cubes：一种高分辨率3D表面构建算法。在ACM siggraph计算机图形，第21卷，第163- 169页。ACM，1987年。1[20] Yi Ma，Stefano Soatto，Jana Kosecka，and S. ShankarSas-试试。3D视觉的邀请：从图像到几何模型。SpringerVerlag，2003. 5[21] Raúl Mur-Artal ， JMM Montiel ， and Juan D Tardós.ORB-SLAM：一个多功能和精确的单目SLAM系统.IEEE Transactions on Robotics，2015。2[22] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络。在ECCV，2016年。三、六[23] Srikumar Ramalingam和Matthew Brand。从一张图片中提取出3D曼哈顿线条。IEEE International Conferenceon Computer Vision，第497- 504页，2013年2[24] 宋舒然，余菲雪，曾志祥，天使X张，马诺利斯·萨瓦，托马斯·芬克豪泽.语义场景完成从一个单一的深度图像。在CVPR，2017年。2[25] 让-菲利普·塔迪夫快速准确地检测消失点的非迭代方法。在2009年IEEE第12届计算机视觉国际会议上，第1250-1257页。IEEE，2009年。7[26] 罗伯托·托尔多和安德里亚·富谢洛。具有J-连接的抗差多结构估计。欧洲计算机视觉会议，第 537-547 页Springer，2008. 7[27] Xinggang Wang，Kaibing Chen，Zilong Huang，CongYao，and Wenyu Liu. 用于目标检测的点连接网络arXiv，2017. 3[28] 吴嘉俊，薛天凡，约瑟夫J林，田远东，约书亚BTenenbaum，安东尼奥Torralba，威廉T自由人。单图像三维解释器网络。欧洲计算机视觉会议，第365-382页。施普林格，2016年。2[29] 杨凤亭和周子涵通过卷积神经网络从单个图像恢复3D平面。在ECCV，2018。2[30] Kaipeng Zhang，Zhanpeng Zhang，Zhifeng Li，and YuQiao.使用多任务级联卷积网络的联合人脸检测和对齐。IEEE Signal Processing Letters ， 23 （ 10 ）： 1499-1503，2016。2[31] Yinda Zhang，Shuran Song，Ersin Yumer，ManolisSavva ， Joon-Young Lee ， Hailin Jin ， and ThomasFunkhouser.使用卷积神经网络进行室内场景理解的基于物理的渲染在CVPR，2017年。27710[32] Zhengdong Zhang，Arvind Ganesh，Xiao Liang，and YiMa.变换：变换不变的低秩纹理。国际计算机视觉杂志，99（1）：1-24，2012。2[33] 阿洛伊斯·辛格绘制曲线的光栅化算法，2012年。4[34] Chuhang Zou ， Alex Colburn ， Qi Shan ， and DerekHoiem. LayoutNet：从单个RGB图像重建3D房间布局。在CVPR，2018年。2

下载后可阅读完整内容，剩余1页未读，立即下载