基于卷积神经网络的三维平面恢复方法的研究

82 浏览量更新于2023-10-13 收藏 2.09MB PDF 举报

三维重建

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于卷积神经网络杨凤亭，周宾夕法尼亚州立大学{fuy34，zzhou}@ ist.psu.edu抽象。本文研究了从人造环境的单幅图像中恢复三维平面的问题。我们证明了直接训练深度神经网络来实现这一目标是可能的。提出了一种新的平面结构引起的损失来训练网络，以同时预测平面分割图和3D平面的参数。此外，为了避免繁琐的手动标记过程，我们展示了如何利用现有的大规模RGB-D数据集来训练我们的网络，而无需显式的3D平面注释，以及如何利用数据集附带的语义标签进行准确的平面和非平面分类。实验结果表明，我们的方法显着优于现有的方法，定性和定量。恢复的飞机可能有利于许多重要的视觉任务，如基于视觉的导航和人机交互。关键词：三维重建;平面分割;深度学习1介绍从单幅图像自动三维重建一直是计算机视觉领域的一个具有挑战性的问题。以前的工作已经证明，解决这个问题的有效方法是探索人造环境中的结构规律，例如平面表面，重复图案，对称性，矩形和长方体[12]，[21]，[14]，[15]，[33]，[28]，[5]。此外，通过利用这种结构规律性获得的3D模型在实践中通常是有吸引力的，因为它们提供场景几何形状的高级紧凑表示，这对于许多应用（诸如大规模地图压缩、语义场景理解和人机交互）是期望的。在本文中，我们研究如何恢复3D平面-可以说是最常见的结构在人造环境中-从一个单一的在文献中，已经提出了几种方法来拟合场景的分段平面模型。这些方法通常采用自下而上的方法：首先，在图像中检测几何然后，平面区域被发现通过分组检测到的基元的基础上，它们的空间关系。例如，[6]，[27]，[3]，[34]首先检测图像中的线段，然后将它们聚类为几个类，每个类与2F. Yang和Z. 周j=1CNNn3n2n4n1n5（一）（b）第（1）款Fig. 1. 我们提出了一种新的端到端可训练的深度神经网络，用于从单个图像中恢复3D平面。（a）给定输入图像，网络同时预测（i）将图像分割成平面表面的平面分割图加上非平面对象，以及（ii）平面参数{nj}m在3D空间。（b）与我们的网络的输出，场景的分段平面3D模型可以很容易创造一个突出的消失点。[21]进一步检测由多个相交平面形成的接合点以生成模型假设。同时，[16]，[9]，[11]采用基于学习的方法来预测局部图像块的方向，然后将具有相似方向的块分组以形成平面区域。然而，尽管它很受欢迎，但自底向上方法存在一些固有的困难。首先，在人造环境中可能无法可靠地检测几何图元（例如，由于存在不良的纹理或规格-曲面）。因此，很难推断这种表面的几何性质。其次，在检测到的图元中通常存在大量不相关的特征或离群值（例如，由于存在非平面物体），使得分组任务具有高度挑战性。这是大多数现有方法诉诸于相当限制性的假设的主要原因，例如，需要“人工操作”的空间，并具有多个或多个分区或“块”模块，以便在可用资源上填充和执行资源。但这些假设极大地限制了这些方法在实际中的适用性。鉴于这些根本性的困难，我们采取了非常不同的路线，在本文中的3D平面恢复。我们的方法不依赖于分组低级别的基本元素，如线段和图像补丁。相反，受卷积神经网络（CNN）最近在对象检测和语义分割方面取得的成功的启发，我们设计了一种新型的端到端可训练网络来直接识别场景中的所有平面表面，并进一步估计它们在3D空间中的参数。如示于图1中，网络将单个图像作为输入，并且输出（i）识别图像中的平面表面的分割图和（ii）3D空间中的每个平面的参数，从而有效地创建场景的分段平面模型。我们基于学习的方法的一个直接困难是缺乏带有注释的3D平面的训练数据。为了避免繁琐的手动标记过程，我们提出了一种新的平面结构引起的损失，基本上把我们的问题作为一个单一的图像深度预测。我们在这里的关键见解是，如果我们能够正确地识别图像中的平面区域并预测平面参数，那么我们也可以准确地推断这些区域中的深度从单幅图像3通过这种方式，我们能够利用现有的大规模RGB-D数据集来训练我们的网络。此外，由于像素级语义标签通常在这些数据集中可用，我们展示了如何将标签无缝地整合到我们的网络中，以更好地区分平面和非平面对象。总之，这项工作的贡献是：（i）我们设计了一个有效的，端到端的可训练深度神经网络，可以直接从单个图像中恢复3D平面（ii）我们开发了一种新的学习方案，该方案利用现有的RGB-D数据集和其中的语义标签来训练我们的网络，而无需额外的手动标记工作。实验结果表明，我们的方法显着优于，定性和定量，现有的平面检测方法。此外，我们的方法在测试时实现了实时性能，因此适用于广泛的应用，如视觉定位和地图，人机交互。2相关工作从单个图像恢复3D平面。解决该问题的现有方法可以大致分为两类：基于几何的方法和基于外观的方法。基于几何的方法明确地分析2D图像中的例如，在针孔相机模型下，3D空间中的平行线被投影到图像平面中的会聚线。公共交点，也许在无穷远处，被称为消失点[13]。通过检测与平面上的平行线的两个像素相关联的消失点，可以唯一地确定平面的3D或平面[6]、[27]、[3]。另一个重要的几何基元是由两条或多条不同方向的线形成的结点一些工作利用连接来生成合理的3D平面假设或删除不可能的假设[21]，[34]。一种不同的方法是检测图像中的矩形结构，其通常由同一平面上的两组正交线形成[26]。然而，所有这些方法都依赖于强正则结构的存在，诸如曼哈顿世界场景中的平行或正交线，因此在实践中具有有限的适用性。为了克服这个限制，基于外观的方法集中于从图像的外观推断图像的几何属性例如，[16]提出了一组不同的特征（例如，颜色、纹理、位置和形状），并使用它们来训练模型以将图像中的每个超像素分类为离散类，例如“像素”和“视觉（像素/图像/图像）”。[11]使用简单的基于聚类的方法来预测给定图像像素处的连续3D取向此外，[9]自动学习有意义的3D基元，用于单个图像理解。我们的方法也属于这一类。但与现有的方法，采取自下而上的方法，通过分组局部几何图元，我们的方法训练网络直接预测全球3D平面结构。最近，[22]还提出了一种用于从单个图像进行分段平面重建的深度神经网络。但是它的训练需要地面真实3D平面，并且没有利用数据集中的语义标签。4F. Yang和Z. 周机器学习与几何学存在大量关于开发机器学习技术以推断场景的像素级几何属性的工作，主要是在深度预测[30]、[7]和表面法线预测[8]、[18]的背景下。但是，对于利用有监督数据检测中高层三维结构的研究还很少。与我们的问题相关的一个值得注意的例外是室内房间布局估计的研究路线[14]，[15]，[28]，[5]，[20]。然而，在这些工作中，场景几何形状通常是由以下简单的“块”模型组成的，其中具有多个正交平面（例如，地面、天花板和墙壁）。相比之下，我们的工作旨在检测任意配置下的3D平面。3方法3.1获得地面实况平面注释的困难与大多数计算机视觉问题一样，需要一个具有地面真值标注的大规模数据集来有效地训练神经网络以完成我们的任务。不幸的是，由于平面区域在图像中通常具有复杂的边界，因此对这样的区域进行手动标记可能非常耗时。此外，不清楚如何从图像提取精确的3D平面参数。为了避免繁琐的手动标记过程，一种策略是将现有RGB-D数据集中的每像素深度图自动转换为平面表面。为此，可以采用现有的多模型拟合算法来对从深度图导出的3D点进行然而，这也不是一件容易的在此，基本困难在于在实践中选择适当的阈值来区分模型实例的内点（例如，特定平面上的3D点）与异常值的比较，而不管选择哪种算法。为了说明这一困难，我们使用SYNTHIA数据集[29]，该数据集提供了大量城市场景的照片级逼真合成图像和相应的深度图（更多详细信息请参见第4.1该数据集是通过渲染使用Unity游戏开发平台创建的虚拟城市而生成的。因此，深度图无噪声。为了从3D点云中检测平面，我们应用了一种流行的多模型拟合方法，称为J-Linkage [31]。与RANSAC技术类似我们建议感兴趣的读者参考[31]以获得该方法的详细描述。J-连锁的关键参数是控制模型假设（即，平面）和属于该假设的数据点图2，我们展示了J-联动与不同的选择的结果。可以在图中看到2（c），当小阈值（= 0. 5）时，该方法将右侧的建筑物立面分成两个平面。这是因为立面由于小的凹陷（例如，窗户）。当使用大阈值（= 2）时（图2（d）），左侧建筑物上的楼梯与另一建筑物错误地分组。此外，一些对象（例如，汽车、行人）与地面合并。如果我们使用这些结果作为基础事实来训练深度神经网络，网络将从单幅图像5不(a)（b）（c）（d）图二. 难以获得地面实况平面注释。（a-b）：原始图像和深度图。（c-d）：由J-连杆机构生成的平面拟合结果，其中=0。5和=2。也可能学习估计平面中的系统误差。如果我们想在真实的数据集上训练我们的网络，问题会变得更糟由于现有3D采集系统的限制（例如，由于这些数据集（例如，RGB-D相机和LIDAR设备）和计算工具，这些数据集中的深度图通常是有噪声的，并且具有有限的分辨率和有限的可靠范围。基于这种深度图的聚类容易出错。3.2一种新的平面结构诱导损耗获得可靠标签的挑战促使我们开发用于3D平面恢复的替代训练方案具体来说，我们提出了以下问题：我们能否利用大规模RGB-D和/或3D数据集的广泛可用性来训练网络识别几何结构，如平面，而无需获得有关结构的地面实况注释？为了解决这个问题，我们的关键见解是，如果我们可以从图像中恢复3D具体来说，让{Ii，Di}n表示一组η个训练RGB图像和深度图对，其中i=1已知相机固有矩阵K。1.然后，对于任何像素q= [x，y，l]（在homo-在图像I i上的3D点（即，均匀坐标），很容易计算出相应的3D点为Q=Di（q）·K−1q。进一步地，令n∈R3表示场景中的3D平面。如果Q位于平面上，则我们有nTQ= 1。2通过上述观察，假设图像Ii中有m个平面，我们现在可以训练网络以同时输出⑴每像素概率图Si，其中Si（q）是具有其第j个元素Si（q）的（m+1）维向量。表示像素q属于第j平面的概率，3我及（ii）1不失一般性，我们假设数据集中所有图像的K为常数2表示3D平面的一种方法是（n~，d），其中n~是一个非线性矢量d是到相机中心的距离在本文中，我们选择了一个比较简洁的. ˜参数化：n = n/d。注意，n可以唯一地标识3D平面，假设该平面不通过照相机中心（这对于真实世界图像是有效3在本文中，我们使用j= 0来表示6F. Yang和Z. 周我我我我我我我平面参数Πi={nj}m，通过最小化以下目标函数：i j=1.ΣΣn ΣmL=Σ Sj（q）·|（nj）TQ−1|Σn+αLreg（Si），（1）我我i=1j =1qi=1其中，Lreg（Si）是防止网络在S0（·）∈1，i上生成三次迭代的正则化项。例如， Cl是将所有像素作为非平面的加权，并且Cl是平衡两项的权重。在继续之前，我们对Eq上的公式-ti做两个重要的观察。（一）. 第一，这个|（nj）TQ−1|可以表示为从Ii 中的第j个平面的3D扫描点Q 的定义，由nj参数化。一般来说，对于图像中的像素q，我们从透视几何学中知道，对应的3D点必须位于λK−1q的射线上，其中λ是q处的深度。如果这个3D点也在第j个平面上，我们必须有（nj）T·λK−1q = 1 =⇒λ=1.（二）i（nj）T·K−1q因此，在这种情况下，λ可以被认为是受ηj约束的q处的深度。现在我想，我们可以将该术语改写为：|为|（n j）T D（q）· K − 1 q −1|为|D（q）/λ −1|.|.（三）我我我这是，这是|（nj）TQ−1|基本上将由第j个预测平面得出的差λ与地面实况Di（q）进行比较，并且惩罚它们之间的差。换句话说，我们的公式将3D平面恢复问题转换为深度预测问题。第二，Eq. (1)耦合平面分割和平面参数估计的损失，鼓励通过恢复的平面结构的视觉世界的一致的解释。它模仿生物制剂的行为（例如，人类），其也采用结构先验用于世界的3D视觉感知[32]。这与依赖于地面实况平面分割图和平面参数作为直接监督信号来分别解决这两个问题的替代方法形成对比。3.3结合平面/非平面分类的语义现在，我们将注意力转向等式中的正则化项Lreg（Si）。（一）.直观地，我们希望使用预测的平面来解释尽可能多的场景几何形状。因此，Lreg（Si）的自然选择是鼓励平面预测，通过在一个关键点上最小化具有关键字的字符串Σs-en t ro p yloss来实现。具体地，令p平面（q）=Mj=1Sj（q）是像素q的概率之和被分配到每个平面，我们写ΣLreg（Si）=−1·log（pplane（q））− 0·log（1 − pplane（q））。（四）Q从单幅图像7请注意，虽然上述术语有效地鼓励网络使用预测的平面模型来然而，在实践中，一些对象比其他对象更可能形成有意义的平面。例如，建筑物立面通常被认为是平面表面，而行人或汽车通常被视为非平面的。换句话说，如果我们能够将这种高级语义信息纳入我们的训练方案中，则网络有望在区分平面与平面时实现更好的性能。非平面表面。出于这一观察，我们建议进一步利用现有数据集中的语义标签。以SYNTHIA数据集为例。该数据集为城市场景中的13个类别提供了精确的像素级语义注释。出于我们的目的，我们将这些选择划分为“平面”= {建筑、交通、道路、人行道、道路标记}和“非平面”= {道路、交通、警察、汽车、交通标志、行人、骑自行车的人、其他人}。然后，假设z（q）= 1，如果像素q位于“平面”的一个像素上，则z（q）=1 ，并且 z（q） = 0 或者z（q）= 1，则我们可以将正则化项表示为：ΣLreg（Si）=−z（q）·log（pplane（q））−（1 − z（q））·log（1 − pplane（q））。（五）Q注意，平面/非平面类的选择是数据集和问题相关的。对于示例，在某些情况下，“空间”最终可以被视为平面，因此必须将其包含在“平面”中。Regardlestheparticular选择，我们强调，在这里，我们提供了一种灵活的方式，将高层次的语义信息（由人类注释器生成）的平面检测问题。这与传统的几何方法形成对比，传统的几何方法仅依赖于单个阈值来区分平面与平面。非平面表面。3.4网络架构在本文中，我们选择了一个全卷积网络（FCN），遵循其最近在各种像素级预测任务中的成功，例如语义分割[23]，[2]和场景流估计[25]。图3示出了我们提出的网络的整体架构。同时估计平面分割地图和平面参数，我们的网络由两个预测分支组成，如下所述。平面分割图。为了预测平面分割图，我们使用具有跳过连接和多尺度侧预测的编码器-解码器设计，类似于[25]中提出的DispNet架构。具体来说，编码器将整个图像作为输入，并通过卷积网络产生高级特征图。然后，解码器通过解卷积层逐渐对特征图进行上采样，以进行最终预测，同时考虑来自不同编码器层的特征。多尺度侧预测进一步允许网络在深度监督下进行训练。我们对所有层使用ReLU，除了预测层，其中应用了softmax函数。8F. Yang和Z. 周输入连接转换z预测去卷积上采样+Concat平面参数。图3.第三章。网络架构。每个块的宽度和高度分别指示特征图的通道和空间维度。尺寸的每次减小（或增大）指示2倍的变化。第一卷积层具有32个通道。除了前四个卷积层（7，7，5，5）之外，滤波器大小为3平面参数。平面参数预测分支与分割分支共享相同的高级特征图。该分支由两个步幅为2的卷积层（3 × 3 × 512）组成，后面是1 × 1 ×3 m卷积层，用于输出m个平面的参数。然后使用全局平均池化来聚合跨所有空间位置的预测我们对所有层使用ReLU，除了最后一层，其中没有应用激活实作详细数据。我们的网络使用公开可用的Tensorflow框架从头开始训练。默认情况下，我们在等式中设置权重。（1）当α = 0时。1，并且平面的数量为m= 5。在训练过程中，我们采用Adam[17]方法，β1= 0。99，β2= 0。9999. 批量大小设置为4，学习率设置为0。0001. 我们还通过在[1，1.15]中使用随机因子缩放图像来增强数据，然后进行随机裁剪。在大约500K次迭代时达到收敛4实验在本节中，我们进行实验来研究我们的方法的性能所有实验都在一个Nvidia GTX 1080 Ti GPU设备上进行。在测试时，我们的方法运行在每秒约60帧，因此适合于潜在的实时应用。44.1数据集和地面实况注释SYNTHIA：最近的SYNTHIA数据集[29]包括从虚拟城市环境中渲染的超过200，000张照片级逼真的图像，具有精确的像素深度图和语义注释。由于数据集旨在4关于（i）平面数的选择和（ii）语义标签的影响的其他实验结果请参见补充材料。从单幅图像9为了便于自动驾驶研究，当虚拟汽车在虚拟城市中导航时，从虚拟汽车获取所有帧原始数据集包含七个不同的场景。对于我们的实验，我们选择了三个场景（SEQS-02，04和05），代表城市街景。对于每个场景，我们使用所有四季（春、夏、秋、冬）的序列。请注意，为了模拟真实的交通状况，虚拟汽车在导航期间会频繁停车。因此，数据集具有许多几乎相同的帧。我们过滤这些冗余帧使用一个简单的启发式的基础上的车辆速度。最后，从剩余的帧中，我们随机抽取8，000帧作为训练集，另外100帧作为测试集。为了定量评估，我们需要标记测试图像中的所有平面区域。正如我们在第3.1节中所讨论的，自动生成地面实况平面注释是困难且容易出错的。因此，我们采用半自动的方法来交互式地确定与用户输入的地面真值标签。为了标记图像中的一个平面，我们要求用户在该表面内绘制一个四边形区域。然后，我们将平面拟合到落入该区域的3D点（从地面实况深度图导出），以获得平面参数和3D点与拟合平面之间的距离分布的方差的实例特定估计。注意，利用实例特定的方差估计，我们能够处理具有与完美平面的不同程度的偏差的表面，但是通常被认为是“平面”。最终，我们使用平面像素和方差估计来找到属于平面的所有像素。我们重复这个过程，直到图像中的所有平面都被标记。Cityscapes：Cityscapes [4]包含了大量在不同城市录制的真实街景视频序列。从具有公开可用的精细语义注释的3，475个图像中，我们随机选择100个图像进行测试，并使用其余的图像进行训练。为了生成用于训练的平面/非平面掩模，我们在下面的列表中将像素设置为“平面”= {地面、道路、人行道、停车与SYNTHIA相比，Cityscapes中的深度图噪声很大，因为它们是根据立体对应计算的。即使使用用户输入，在这样的数据上拟合平面因此，为了识别图像中的平面表面，我们使用多边形手动标记每个平面的边界，并且进一步利用语义注释通过确保平面边界与对象边界对齐（如果它们重叠的话）来细化它。4.2比较方法如第2节中所讨论的，平面检测的常见方法是使用几何线索，例如消失点和接合特征。然而，这些方法都对场景几何形状做出强假设，例如，“盒”状模式用于存储器或存储器或“虚拟化”控制图用于存储器或存储器。当这些假设被违反时，它们就会失败，就像SYNTHIA和Cityscapes数据集的情况因此，我们不比较这些方法。相反，我们将我们的方法与以下基于外观的方法进行比较：10F. Yang和Z. 周深度+多模型拟合：对于这种方法，我们首先训练一个深度神经网络来预测单个图像的像素级深度。我们直接采用DispNet架构[25]，并用地面真实深度数据从头开始训练它。根据最近的深度预测工作[19]，我们在训练过程中最小化berHu损失为了找到3D平面，我们然后在从预测的深度图导出的3D点上应用了两种不同的多模型拟合算法，即J-Linkage [31]和RansaCov [24]我们分别将相应的方法称为Depth+ J-Linkage和Depth+ RansaCov。为了公平比较，我们只保留每种方法检测到的前5个平面如前所述，这些方法中的一个关键参数是距离阈值。我们通过使用不同的值多次运行J-Linkage或RansaCov来支持它们，并保留最佳结果。几何上下文（GC）[16]：该方法使用许多手工制作的局部图像特征来预测离散的表面布局标签。具体来说，它训练决策树分类器将图像标记为三个主要的几何类{up port，vertical，sky}，并且进一步将“verti c al“Cl定义为五个子类{ left，center，right，porous，solid }。在这些标签中，我们认为“ u p p o r t ” 标签是 s ， “ l e f t ” 、 “ c e n t e r ” 、 “ ri g h t ” 标签是 s ，作为 f o r d i f f e r n t 标签，其余的是非平面的。为了使用我们的训练数据重新训练他们的分类器，我们将SYNTHIA数据集中的标签翻译成他们的标签5，并使用作者提供的源代码6。我们发现这在我们的测试集上产生了比作者提供的预训练分类器更好的性能。我们在Cityscapes数据集上的实验中没有包括这种方法，因为很难从嘈杂的深度图中确定垂直结构的方向。最后，我们注意到还有另一个密切相关的工作[11]，它也从单个图像中检测3D平面。不幸的是，在我们的数据集上训练这种方法所需的源代码目前不可用。文献[11]报道其平面检测性能与气相色谱相当。因此，我们决定将我们的方法与GC进行比较。4.3实验结果平面分割图4示出了SYNTHIA数据集上的示例平面分割结果。我们在下面提出几点重要意见。首先，深度+J-链接和深度+ RansaCov在测试图像上都表现不佳。在许多情况下，它们无法恢复单个平面表面（除了地面）。为了理解原因，我们示出了从图1中的预测深度图导出的3D点云。5.如可以看到的，点云往往非常嘈杂，使得选择适当阈值的任务在计算中变得困难。5天空→天空，{道路，人行道，车道标记}→支撑，其余→垂直。对于左/中/右）。6http://dhoiem.cs.illinois.edu/从单幅图像11见图4。SYNTHIA的平面分割结果。从左至右：输入图像;地面实况;深度+J-链接;深度+RansaCov;几何背景;我们的。多模型拟合算法非常困难，如果可能的话-如果很小，它将无法容忍点云中的大噪声;如果很大，它将错误地将多个平面/对象合并到一个簇中。此外，这些方法是无法区分平面和非平面对象，由于缺乏能力的原因场景语义。第二，GC在识别主要场景类别（例如，将地面、天空与建筑物分开）。然而，在确定垂直结构（例如，图4，第一和第五行）。这主要是由于该方法使用的粗略分类（左/中/右）在复杂场景中，这种离散分类通常是无效和模糊的。此外，回想GC不能区分具有相同取向但处于不同距离的平面（例如，图4，第四行），更不用说找到精确的3D平面参数。12F. Yang和Z. 周图五. 3D模型的比较第一列：输入图像。第二列和第三列：由深度预测生成的模型。第四列和第五列：由我们的方法生成的模型。表1.平面分割结果。左：SYNTHIA。右图：城市景观。方法RIVOISC方法RIVOISC深度+J-连杆0.825 1.948 0.589深度+J-连杆0.713 2.668 0.450深度+RansaCov0.810 2.274 0.550深度+RansaCov0.705 2.912 0.431Geo. 背景[16]0.846 1.626 0.636我们的（无微调）0.759 1.834 0.597我们的0.925 1.129 0.797我们的（包括微调） 0.884 1.239 0.769第三，我们的方法成功地检测场景中最突出的平面，同时排除非平面对象（例如，树木、汽车、灯杆）。这并不奇怪，因为我们的监督框架隐式地编码了高级语义信息，因为它从人类提供的标记数据中学习有趣的是，可以观察到，在图1B的最后一行4、我们的方法将道路旁边的这是因为在原始SYNTHIA标签中，这些曲面不被视为道路的一部分图5进一步示出了通过我们的方法获得的一些分段平面3D模型。对于定量评估，我们使用三个流行的度量[1]来比较通过算法获得的平面分割图与地面实况：兰德指数（RI），信息变化（VOI）和分割覆盖（SC）。表1（左）比较了所有方法在SYNTHIA数据集上的性能。可以看出，我们的方法明显优于现有的方法w.r.t所有评估指标。表1（右）进一步报告了Cityscapes数据集的分割准确度。我们在两个设置下测试我们的方法：（i）直接应用我们在SYNTHIA数据集上训练的模型，以及（ii）在Cityscapes数据集上微调我们的网络。同样，我们的方法在所有方法中实现了最佳性能。此外，对Cityscapes数据集的微调显著提高了我们网络的性能，尽管提供的深度图非常嘈杂。最后，我们在图中展示了Cityscapes上的示例分割结果。六、从单幅图像3见图6。Cityscapes上的平面分割结果。从左到右：输入图像;地面实况;深度+J-链接;深度+RansaCov;我们的（无微调）;我们的（有微调）。深度预测为了进一步评估通过我们的方法估计的3D平面的质量，我们将从3D平面导出的深度图与经由标准深度预测流水线获得的深度图进行比较（详情参见第4.2节）。回想一下，我们的方法输出每像素概率图S（q）。对于测试图像中的每个像素q，我们选取具有最大概率的3D平面来计算我们的深度图。我们排除了被您的方法认为是“非平面”的像素，因为如表2所示，我们的方法在两个数据集上都取得了有竞争力的结果准确度的降低可能部分归因于我们的方法被设计为恢复场景中的大平面结构，因此忽略了场景几何中的小变化和细节。故障案例。图7显示了我们的方法的典型失败案例，其中包括偶尔将一个平面分成两个（第一列）或将多个平面合并为一个（第二列）。有趣的是，对于正式的情况下，人们仍然可以获得一个体面的3D模型（图1）。5、最后一行），建议进一步的机会14F. Yang和Z. 周表2. 深度预测结果。方法Abs Rel Sq Rel RMSE RMSE logδ<1。25δ<1。252δ<1。253合成体列车组平均值0.3959 3.7348 10.64870.51380.34200.66990.8221DispNet+berHu损失0.04510.2226 1.64910.07550.9912 0.99600.9976我们的0.09540.98600.99480.9966城市景观列车组平均值0.2325 4.6558 15.43710.50930.61270.73520.8346DispNet+berHu损失0.0855 0.7488 5.13070.14290.9222 0.97760.9907我们的0.1042 1.4938 6.87550.18690.89090.96720.9862图7.第一次会议。失败示例。通过后处理来完善我们的结果我们的方法也有问题的曲面（第三列）。其他故障通常与我们的假设相关联，即场景中最多有m= 5个平面例如图7、第四列，右边的建筑有大量的立面。而且当多架飞机相距很远时，这变得更加我们离开自适应选择平面数在我们的框架为未来的工作。5结论本文提出了一种新的方法来恢复3D平面从一个单一的图像，使用卷积神经网络。我们已经演示了如何训练网络，没有3D平面注释，通过一个新的平面结构引起的损失。事实上，探索结构引起的损失来训练神经网络的想法绝不限于飞机。我们计划推广的想法，以检测其他几何结构，如矩形和长方体。未来工作的另一个有希望的方向是通过无监督学习来提高网络的泛化能力，如[10]所建议的那样例如，探索在没有深度信息的情况下训练网络的可能性是很有趣的，这在许多现实世界的应用中是很难获得的。谢谢。这项工作部分得到了宾夕法尼亚州立大学的启动基金和Nvidia的硬件捐赠的支持。从单幅图像15引用1. Arbelaez，P.，Maire，M.，福克斯角Malik，J.：轮廓检测和分层图像分割。IEEE传输模式分析马赫内特尔33（5），898-916（2011）2. Badrinarayanan，V. Kendall，A.，Cipolla，R.：Segnet：用于图像分割的深度卷积编码器-解码器架构。IEEE传输模式分析马赫内特尔39（12），24813. 巴里诺娃岛Konushin，V.，Yakubenko，A.，Lee，K.，Lim，H.，Konushin，A.：快速城市场景的自动单视图三维重建。In：ECCV（2）. pp. 1004. Cordts ， M. ， Omran ， M. ， Ramos ， S. ， Rehfeld ， T. ， Enzweiler ， M. ，Benenson河弗兰克，美国，Roth，S.，Schiele，B.：用于语义城市场景理解的cityscapes数据集。在：CVPR中。pp. 32135. Dasgupta，S.，方，K.，Chen，K.，Savarese，S.：延迟：强大的空间布局估计杂乱的室内场景。在：CVPR中。pp. 6166. Delage，E.，李，H.，Ng，A.Y.：曼哈顿世界室内场景的自动单图像3d重建。在：ISRR。pp. 3057. Eigen，D. Puhrsch，C. Fergus，R.：使用多尺度深度网络从单个图像进行深度图预测。在：NIPS。pp. 23668. Fouhey，D.F.，Gupta，A.，Hebert，M.：用于单个图像理解的数据驱动3d图元。In：ICCV.pp. 33929. Fouhey，D.F.，Gupta，A.，Hebert，M.：展开一个室内折纸世界。In：ECCV. pp.68710. 加格河Kumar，B.G.V.，Carneiro，G. Reid，ID：用于单视图深度估计的无监督CNN：几何拯救。In：ECCV.pp. 74011. Haines，O. Calway，A.：在单个图像中识别飞机。IEEE传输模式分析马赫内特尔37（9），184912. Han，F.，Zhu，S.C.：基于属性图的自下而上/自上而下图像解析3月，载于：ICCV。pp. 177813. 哈特利河齐瑟曼，A.：计算机视觉中的多视图几何。剑桥大学出版社（2000）14. Hedau，V. Hoiem，D.，福赛斯，D.A.：恢复杂乱房间的空间布局。In：ICCV.pp.184915. Hedau，V. Hoiem，D.，福赛斯，D.A.：在盒子里思考：使用基于房间几何图形的外观模型和上下文。In：ECCV.pp. 22416. Hoiem，D.，埃夫罗斯，匿名戒酒会Hebert，M.：从图像中恢复曲面布局。International Journal of Computer Vision75（1），15117. 金玛 D.P. 巴 J.：亚当：一方法为随机优化. Corrabs/1412.6980（2014）18. 拉迪基湖Zeisl，B.，Pollefeys，M.：区分训练的稠密表面法线估计。In：ECCV.pp.46819. 莱娜岛鲁普雷希特角Belagiannis，V.，Tombari，F.，Navab，N.：使用全卷积残差网络进行更深的深度预测In：3DV.pp. 23920. Lee，C. Badrinarayanan，V. Malisiewicz，T.，Rabinovich，A.：Roomnet：端到端的房间布局估计。In：ICCV.pp. 487521. 李特区Hebert，M.，Kanade，T.：单幅图像结构恢复的几何推理。在：CVPR中。pp. 213622. 刘，C.，杨杰，Ceylan，D.，Yumer，E.，Furukawa，Y.：Planenet：从单个rgb图像进行分段平面重建。来源：CVPR（2018）16F. Yang和Z. 周23. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。在：CVPR中。pp.343124. 马格里湖Fusiello，A.：作为集合覆盖问题的多模型拟合。在：CVPR中。pp. 331825. M ye r ， N. ， I Ig ， E. ， Hsse r ， P. ， Fische r ， P. ， Cremers ， D. ， Dosovitskiy，A.，Brox，T.：用于训练卷积网络的大型数据集，用于视差，光流和场景流估计。在：CVPR中。pp. 404026. Micus 'ık，B.，Wildenauer，H.，Kosecka，J.：直线结构的检测和匹配。载于：CVPR（2008年）27. Micus 'ık，B.，Wildenauer，H.，Vincze，M.：室内环境的单目图像中的正交平面的检测In：ICRA.pp. 99928. Ramalingam，S.，Pillai，J.K.，Jain，A.，田口，Y.：用于室内场景空间推理的在：CVPR中。pp. 306529. 罗斯，G.，等一下L Mater rz ynska，J.， Va'zquez，D. 、Lo′pez、A. M. ：THESYNTHIA数据集：用于城市场景的语义分割的合成图像的大集合。在：CVPR中。pp. 323430. Saxena，A.，孙，M.，Ng，A.Y.：Make3d：从单个静态图像学习3D场景结构。IEEE Trans.模式分析马赫内特尔31（5），82431. 托尔多河Fusiello，A.：具有j-连接的抗差多结构估计于：ECCV。pp.第53732. Witkin，A.P.，Tenenbaum，J.M.：论结构在视觉中的作用。在：Beck，J.，霍普B Rosenfeld，A.（编辑）人类和机器视觉，pp。481-543.北京大学出版社（1983）33. 肖，J.，拉塞尔，不列颠哥伦比亚省，Torralba，A.：在单视图图像中定位3d长方体。在：NIPS。pp. 75534. 杨，H.，Zhang，H.：从单个全景图高效地恢复3D房间形状。见：CVPR（2016）

下载后可阅读完整内容，剩余1页未读，立即下载