基于切片的神经网络实现室内全景深度估计

114 浏览量更新于2024-01-22 收藏 1.27MB PDF 举报

深度估计

视觉计算

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11536SliceNet：使用基于切片的表示从单个室内全景进行深度密集深度估计乔瓦尼·平托雷视觉计算，CRS4，意大利giovanni. crs4.it马尔科·阿古斯CSE，HBKU，多哈，卡塔尔magus@hbku.edu.qa伊娃·阿尔曼萨视觉计算，CRS4，意大利evaalmansa@crs4.itJens SchneiderCSE，HBKU，多哈，卡塔尔jeschneider@hbku.edu.qa恩里科·戈贝蒂视觉计算，CRS4，意大利enrico. crs4.it摘要我们引入了一种新的深度神经网络来估计来自单个单目室内全景的深度图。该网络直接在等矩形投影上工作，利用室内360度全景图像的属性。从重力在宇宙中起着重要作用这一事实出发，设计和建设的人造室内场景，我们提出了一个紧凑的场景表示成垂直切片的领域，我们利用长期和短期的切片之间的关系，以恢复等距矩形深度图。我们的设计使得即使使用深度网络也可以在提取的特征中保持高分辨率信息。实验结果表明，我们的方法在预测精度方面优于当前最先进的解决方案，特别是对于真实世界的数据。1. 介绍从图像中了解室内场景的3D布局在许多领域都是一项至关重要的任务[45，23，24]。从单个图像进行快速深度估计是一个基本的子问题，因为将度量信息与视觉数据相关联对于各种应用（包括移动增强现实平台、室内地图绘制、自主导航、3D重建和场景理解）是至关重要的。由于从单个图像中估计深度本质上是在这种情况下，我们最近看到了数据驱动方法的非凡发展，这些方法从示例数据中学习这些先验知识。早期的方法被设计用于具有常规有限视场（FoV）的相机FCRN[14]）。然而，近年来，360抓取已经成为一个非常这是一个很有吸引力的解决方案，因为它提供了最快和最完整的单图像覆盖，并得到各种专业和消费者捕获设备的支持，使采集速度快，成本效益高[37]。自适应单目深度估计模型设计的传统，常规图像到360°视差深度估计已经显示出产生次优结果[44]，最近已经引入了特定的360°视差在这种情况下，最近文献[31，44，17]通过提出各种类型的失真感知卷积滤波器，使透视深度估计方法适应于全向图像然而，他们中很少有人探索大FoV性质提供的通过360幅全景图像，可以在一个镜头中提供室内场景的完整几何背景[41]。在这项工作中，我们介绍了一种新的深度神经网络解决方案，称为SliceNet，它利用室内场景的重力对齐等矩形投影的特性来预测室内360度全景图像的深度图以来重力在室内环境的设计和建造中起着重要的作用我们的网络设计从假设通过等直角图像捕获场景与重力矢量对准（即，相机放置在水平地平面上），因此，假设图像的重力对齐处理可以直接利用重力对齐的世界空间特征是合理的[3]。在我们的网络中，通过执行压缩编码以仅沿垂直方向减少输入张量，将输入等矩形图像划分为垂直切片，从而产生由一组特征组成的紧凑且平坦的切片序列为了保留全局信息，我们在四个不同的分辨率级别上执行切片，并在最后将结果连接起来（第二节）。3）。这种顺序表示使得能够使用卷积长短期记忆（LSTM）网络[26]来恢复，11537开销、切片之间的长期和短期空间关系。解码相对于编码对称地进行，从而仅增加特征图的垂直分辨率，直到达到目标分辨率（图11）。1（a））。我们的贡献概述如下：• 我们介绍了一种基于切片的全方位图像表示，它直接利用了室内图像的场景，而不需要失真感知卷积和变换[44，33]，多分支架构[33，11]或附加信息和先验[11]。我们基于垂直切片的表示是非常鲁棒的，正如在现实世界的情况下实现的性能方面的重要优势所证明的那样（例如， Stan-ford 2D 3D [27] 和 Matterport 3D[19]），其中全景图极点周围的大面积区域不是由仪器采集5.2详情）。• 我们专门和完善的功能扁平化，这已被证明是有效的回归一维十-sors [30]，用于二维深度编码。特别地，我们基于不同分辨率下的垂直切片引入输入张量的不对称收缩，使得所得特征图沿着单个方向（在我们的情况下，球面视界）变平，并且我们合并不同分辨率下的切片，以便利用具有更大感受野的更深层次来捕获全局信息，同时利用更高分辨率层来保留高频细节（Sec.3）。我们的消融研究（Sec.5.3）展示了我们方法的优势。• 对于从单个图像进行深度估计，我们引入了一个LSTM多层模块来有效地恢复长时间的以及由于多尺度表示的级联而在每个切片存在大量特征的情况下切片之间的短期空间关系通过这种架构选择，解码器很简单，并且遵循编码器的相同多层方案，其中垂直上采样而不是垂直缩减。特别是，我们不需要上投影块的链接[10]，使得更容易将该方法扩展到不同的输入分辨率。消融研究（Sec. 5.3）通过比较具有或不具有LSTM的不同解码器配置以及链接上投影块来确认该方法的益处我们在合成和真实数据集上测试了我们的网络[27，19，44，43，42]。我们的实验结果（Sec. 5）证明我们的方法在预测准确性方面优于当前最先进的方法[14，44，33]，特别是在现实世界场景中工作时。利用重力对齐导致一个有效的网络结构，没有显着的限制的方法的适用性。如上所述，重力对齐捕获是一种非常常见的设置，并且，根据我们的测试，Sec.5.3、所有的公共3D在-通常用于训练和测试重建解决方案的门数据集，包括合成[43，42]和真实[27，19]，似乎具有非常小的方向偏差。即使在该假设在捕获时未被验证的情况下，也存在若干正交解以在预处理步骤中对图像进行重力校正（例如，[34，12，3]），简化了重力导向方法的实际应用此外，正如我们的消融研究所证明的那样（Sec.5.3），我们的方法对倾角的小变化是鲁棒的。2. 相关工作单目输入的深度估计和室内环境的3D重建是基本的计算机视觉问题，最近随着深度学习技术的出现而引起了新的全面审查超出了本文的范围在这里，我们专注于与我们的工作最密切相关的解决方案。从透视图像的深度。基于学习的单眼深度估计在十多年前被引入（例如，Make3D [25]）。深度学习的出现，以及大规模3D数据集的可用性，有助于显着的性能改进。Eigen等人。[6]是第一个使用CNN从双尺度架构中的单个图像回归密集深度图的人，其中第一阶段基于AlexNet特征编码器产生粗略的输出，第二阶段细化预测。他们的工作后来扩展到基于VGG特征编码器和三尺度架构的更深更有区别的模型来额外预测正常和标签，以进一步细化 [5] 。相反， Laina 等人 [14] 将ResNet[10]与上投影模块结合起来进行上采样。他们还提出了反向Huber [15]损失来改善深度估计。这个基线，称为FCRN，已成为共同使用，即使在全景图像的情况下。Lee等人[16]，相反，从傅立叶域中组合的几个裁剪图像预测深度条件随机场（CRF）也经常被用来改进预测[18，21，1，35]。Fu等人[7]使用扩张卷积来增加感受野，并应用有序回归损失来保持相邻类之间的空间关系深度估计的无监督训练使用光度损失来代替[8，40]。直接采用单目深度估计解决方案，360°全景深度估计产生次优结果[44]，因为全景图像的几个特征不是被利用，例如，事实上，他们捕捉全局信息，可以提高推理。从单个全向图像的深度。事实上，单图像方法的主要限制之一在于传统透视图像的受限视场（FOV），这不可避免地导致有限的几何背景[41]。随着消费级360°全景摄像机的出现，现在可以使用11538(a)（b）第（1）款图1. 网络架构。我们的架构是可扩展的输入分辨率。在图1（a）中，为了简化与其他方法的比较，我们显示了一个输入图像大小为3×256×512的示例。ResNet50编码器[10]以不同的分辨率提取四个层从每个分辨率层中，我们获得256×512的切片特征图（图1（a）中的紫色块，图1（ a）中的细节）1（b））。通过连接产生的四个层，我们获得了一个具有512个切片和1024个特征的瓶颈，使用RNN进行了优化方案（青色块）。解码器对称地进行，以相同的输入图像分辨率产生深度图一个或至少几个镜头。因此，许多关于从稀疏图像重建室内的研究现在都集中在这个方向上，即使是在特定条件下直接恢复房间布局[46，36，30，22]。在深度估计的特定情况下，第一种方法是将全向图像转换成立方体图[2]，既处理等矩形投影的失真，又利用上述的合并的单目估计技术。为了使网络意识到失真，还提出了球面卷积方法[29，31，20，28]。遵循这一趋势，Zioulis等人。[44]采用Su等人的球形层。[29]用于室内环境中的深度估计，并提出了一个由来自四个现有数据集的22，096个重新渲染图像组成的大规模合成数据集[43]。Wang等人[33]在撰写本文时提供了准确性方面的最佳结果，基于失真感知编码器[44]和FCRN解码器[14]，分别针对等距矩形和立方体映射投影提出了两最近，一些正交作品[4，38，11，39]利用深度，房间布局和语义之间的相关性来改善预测。这种有希望的解决方案需要很多额外的训练输入（例如，带注释的房间布局、法线图和语义分割），并利用基于上述方法之一的深度估计基线所有上述方法将球面投影带回到标准投影以应用为常规图像设计的编码-解码方案FCRN [14]），而我们介绍了一个计划，设计用于室内场景的等矩形投影。3. 网络架构几乎所有用于此任务的CNN都遵循编码器-解码器架构[14]。这种结构包含逐渐减小输入图像通过一系列卷积和池化操作来提高分辨率，给予更高级别的神经元更大的感受野，从而捕获更多的全局信息。由于目标深度图是高分辨率图像，因此解码器通过放大该表示来回归到我们的工作介绍了几个重要的新颖性，在这种结构。图1（a）展示了我们的网络在256×512输入下的结构。请注意，我们的架构是可扩展的输入分辨率。节中5我们提供了与最近最先进的方法[14，44，33]采用的相同输入大小的结果，包括512×1024分辨率。我们网络的第一部分致力于从输入张量中提取相关的低/中/高级特征。为了做到这一点，我们利用了ResNet-50，这是一种深度神经网络，通过残差学习框架支持非常深度的网络训练，而不会出现退化问题[10]。与其他方法[14，44，33]不同，我们不仅利用ResNet的最深层，而且还利用最后四层，并行处理它们，以构建多分辨率空间表示，下面将详细讨论。根据我们的引力排列模型，从这四层（图）。图1（a），红色），4个代表性切片层（图1（a），绿色），具有256×512的相同尺寸（即，512个切片的256个特征）。图1（b）说明了我们如何从ResNet层.首先，我们通过一个非对称卷积模块将垂直维度减少了8倍，其中步长为（2，1）（A-Conv），应用了3次，包含一个2D卷积，一个批归一化模块和一个参数化校正线性单元[9] PReLU（x）：= max（0，x）+a_max（0，x），其中a是在训练过程中学习的泄漏系数。我们选择 PReLU 而不是通常采用的 ReLU 和Leaky-ReLU来最小化消失梯度问题这在深度估计中很常见。这种自适应激活甚至在具有非常不同特征的数据集上也导致收敛（例如，真实世界采集11539IJc2xxc2yy具有丢失的部分或具有高噪声水平的合成渲染）。然后通过水平内插每个特征图以具有相同数目的切片（即，512），以及通过将特征垂直地重新成形为目标尺寸（即，256）。最后，在单个序列中级联for层（即，1024×512），获得输入球体的512个垂直切片中的每一个的1024个通过这种方式，我们获得了利用更深层次的瓶颈表示具有更大的感受野以捕获全局信息，以及更高的分辨率层以保留高频细节。应该注意的是，室内场景和等矩形投影都具有我们在设计中利用的特定属性例如，垂直线在场景中非常常见，并且在投影中实际上不会变形，而水平线则更是如此。由于这些碳-其中e是误差项，参数c确定从L1切换到L2的位置。为了自适应地设置c值，我们遵循Laina等人的相同方法[14]，因此在每个梯度步骤中，将c设置为当前批次的最大误差的20%当应用于深度图时，在每个像素（i，j）处e=Dij-D，其中D和D分别是预测的深度图和真实深度图。由于在使用卷积网络预测深度时遇到的典型问题之一是小细节的丢失[14，44]，这在处理更高分辨率的图像时特别明显，因此我们通过将BerHu应用于通过将映射与宽度的Sobel滤波器卷积而3来近似水平导数xD和xD以及垂直导数yD和yD。因此，指导我们训练的全损失函数L是：特征，我们期望每个切片序列沿主导方向垂直方向通过短期和长期空间依赖性与其他方向相关[32，30，22]。因此，我们通过将这样的序列馈送到RNN多层块来启动我们的解码器[26]。在我们的例子中，我们使用双向LSTMLc1，c2（D，D）=Bc1（D-D）+B（D−D）+B（D−D）（二）（长短期记忆），其针对512个切片中的每一个输出大小为2×512的时间步长，使得最终输出是具有与RNN块输入相同大小的特征图1024×512。一旦被整形为1024×1×512，该扁平化表示就可以被上采样到期望的输出大小（即，1×256×512），其步骤与编码还原实际上，由于扁平化编码和RNN特征细化，我们的网络不需要跳过上投影块进行上采样的链接，例如FCRN [14]，这在其他最近的作品中也很常见[33]。相反，我们的解码器由n层组成，对于每一层，我们只执行高度的2倍的上采样，然后是与缩减阶段相同的卷积模块A-Conv（2D卷积和PReLU激活），但步幅为（1，1）。在图1的示例中，在图1（a）中，解码器由n=8层组成，以便实现目标垂直分辨率（即，2n=256），得到的映射是1×256×512的张量，表示-对每个输入像素执行深度预测我们还测试了适于我们的数据编码的不同上采样模块FCRN[14]），但考虑到我们特定的基于切片的模型，性能较低。数值细节在第12节的消融研究中披露。5.3.4. 损失函数与训练策略类似于其他最近的最先进的解决方案（例如，[33] ），我们在鲁棒的自适应反向 Huber 损失（BerHu）[15]之上构建目标函数：. |e||≤ c|≤ c稍微滥用一下符号，我们打算将该函数应用于地图，作为每个单独像素的结果之和。确定每个函数Bc的形状的参数c在每个批次处针对深度项（c1）和两个梯度项（即，C2独立于C1，并且对于x和y梯度项是共享的）。此外，为了优雅地处理具有在真实世界数据中常见的缺失样本的大区域（例如，半球的上部和下部不被仪器采样，如在Matterport [19]中），我们采用常用方法[44]，即用每像素二进制掩码忽略缺失区域上的错误。在所有的实验中，我们获得了最好的性能时，训练的损失在方程。2，即使与其他强大的解决方案[44]相比，在训练和与真实世界的数据集[27，19]进行比较时也会出现明显的差异，其中包含明显的噪声量。基于梯度的组件改善了图像锐化，如第2节中的比较所示.5.3和图五、5. 执行情况和结果我们的方法是使用PyTorch 1.5.1实现的，并且已经在各种室内场景中进行了测试。源代码和模型将向公众开放。在本文中，我们报告了四个公开数据集[27，19，43，42]的结果，以便于比较。这些基准也被最近与我们的方法相当的最先进的作品[14，44，33]所Mat-terport 3D[19]和Stanford 2D-3D-S[27]作为真实世界的例子。与Wang et al相似[33]我们使用他们的官方分辨率为512×1024。 [43]第四十三话Bc（e）：=e2+c22c（一）|e|> C而是一个合成基准。它包含35，977帕诺拉-11540表1. 真实和虚拟世界数据集的定量性能。我们展示了我们的性能评估标准的指标，并与最近的国家的最先进的方法。在所有情况下，我们的方法都优于竞争对手。数据集方法MREMaeRMSERMSE日志δ1δ2δ3斯坦福2D3DFCRN [14]0.18370.34280.57740.11000.72300.92070.9731[44]第四十四话0.19960.37430.61520.12120.68770.88910.9578[33]第三十三话0.12090.23430.41420.07870.86600.95800.9860我们0.07440.10480.12140.02070.90310.97230.9894Matterport3DFCRN [14]0.24090.40080.67040.12440.77030.91740.9617[44]第四十四话0.29010.48380.76430.14500.68300.87940.9429[33]第三十三话0.20480.34700.62590.11340.84520.93190.9632我们0.17640.32960.61330.10450.87160.94830.9716360DFCRN [14]0.06990.13810.28330.04730.95320.99050.9966[44]第四十四话0.09310.17060.31710.07250.90920.97020.9851[33]第三十三话0.06150.11430.24400.04280.96990.99270.9969我们0.04670.11340.13230.02120.97880.99520.9969通过两个合成数据集（SunCG和SceneNet）和两个真实数据集（Stanford2D3D和Matterport3D）的路径跟踪场景渲染的mas。在这种情况下，我们采用了Zioulis等人提供的分裂[44]一个决定，256×512，这是许多方法的共同基线[14，44，33]。在写这篇文章的时候，原-由于法律原因，最终SunCG数据不再可供下载此外，我们还介绍了我们在最近的Structured3D合成数据集[42]上的性能，以支持消融和重力对准鲁棒性研究（第12节）。5.3）。5.1. 实验设置和时序性能我们使用Adam优化器[ 13 ]训练网络，β1=0。9，β2=0。999，在四个NVIDIA RTX 2080Ti GPU（11GBVRAM）上，批量大小为8，学习率为0。0001为真实世界的数据和0。0003合成数据。我们采用Sun等人提出的特定全景数据增强。[30]。在给定的设置下，从默认权重初始化开始，最佳有效历元对于真实数据约为60，对于合成数据约为90对于256×512的图像，平均训练速度约为55ms/img对于512×1024图像，输入图像和117ms/img单身-对于 1024×512 图像， GPU 推理时间为 74ms （ 13fps），对于512×256输入图像，GPU推理时间为44ms它重要的是要注意，在计算复杂性方面，最好的竞争方法，Biodynamic [33]，具有253 M参数和多分支，而我们更简单的架构只有75 M参数，也导致减少推断时间（例如， 74ms与 616ms（1024×512）图像）。更多详细信息见第5.3.5.2. 定量和定性评价我们使用与先前深度估计工作[14，44，33]中使用的相同的误差度量来评估我们的方法：平均绝对误差（MAE），平均相对误差（MRE），线性测量的均方根误差（RMSE），对数测量的均方根误差（RMSE对数尺度不变），以及定义的三个相对准确度测量δ1，δ2和δ3，对于一个精度δn，作为相对误差在阈值1内的像素的分数。25N。选项卡. 1说明了我们的定量结果，与最新的最先进的作品相比，这些我们与OmniDepth [44]（即，FCRN [14] ，这是许多当前方法的基线（例如，[33]）。我们的方法在所有指标的准确性方面优于其他方法，在真实数据的情况下更显着（表中的Matterport3D和Stanford 2D-3D-S。①的人。在合成数据的情况下（表1中的360 D），1），我们的方法也比其他方法有所改进，尽管这里的差异最接近，因为虚拟渲染保证了均匀的2D采样和非常少的不连续性[44]（除了，例如，遮挡），以受益于基于对称2D缩减和扩展的方法图2、图3和图4说明了真实数据和合成数据的定性结果。图2显示了我们的预测（图2）。2（c））在现实世界的 RGB 图像（图。 2 （ a ））取自Matterport3D[19]，与地面真相（图）相比2（d））和Biopsy [33]，其中Matter-port 3D上的预训练模型可用。正如我们所看到的，我们的方法甚至在具有较小和重复结构细节的区域中找到更准确的深度（图2的第一行），在大环境的情况下（图2的第二行2），也适用于非曼哈顿世界但规则的环境，如拱形拱顶的情况（图2的第三行）。图3显示了与数据集创建者的方法[44]相比，360D合成数据[突出显示的细节说明了质的差异。特别是，我们的方法可以推断出典型人造物体的详细重建（图3，第一行），即使它们很远（图3，第二和第三行），5.3. 消融和重力校准研究我们在本节中介绍了模型消融和计算成本（表1）。2），和具体的实验表明使用重力对齐先验的有效性（表。3）。11541(a) RGB（b）双折射[33]（c）我们的（d）地面真实图2. 真实世界数据集的定性比较。深度图是从真实世界捕获的RGB数据推断出来的（Matter-port 3D [19]）。第一列是输入RGB图像（图1）。2（a）），第二个是由Bioblasts [33]估计的深度（图2）。第三个是我们的方法估计的深度（图2（c）），第四个是仪器获得的地面真实深度（图2（d））。黑色像素是地面实况深度中缺失的样本所有方法都使用相同的原始数据集和设置进行了比较，没有任何进一步的预处理或对齐步骤。(a) RGB（b）OmniDepth（c）我们的（d）地面实况图3. 合成数据集的定性比较。深度图是从合成数据（360D [43]）推断的。我们在第一列中显示渲染的RGB图像（图1）。2（a）），估计深度OmniDepth [44]（图.3（b）），通过我们的方法（图。3（c））和渲染的地面实况深度（图2（d））。黑色像素是光线跟踪器未渲染的无效像素。消融研究和复杂性。我们的消融实验在表1中给出。二、为了测试该方法的关键组件，我们使用了Structured3D [42]获得的结果，这是一个包含超过21，000个渲染房间的合成数据集，其中包括均匀采样的颜色和非常准确的深度贴图。这个最近的数据集尚未被可比的作品所采用（Sec.5.2），但为我们的方法提供了一个额外的有价值的基准。消融研究中讨论的设计变更包括那些在我们的特定架构中始终匹配解码器和编码器解决方案的解决方案，以及更好地表征我们的方法的解决方案。由于我们的网络具有简单的单分支结构，因此模型的计算成本与模型及其组件的参数数量直接相关。因此，我们通过将我们的网络划分为具有各自参数的宏块来说明我们方法的计算复杂性：ResNet- 50特征编码器块、切片块（具有切片功能11542(a)RGB（b）预测（c）地面实况（d）RGB（e）预测（f）地面实况图4. 质量性能。我们在Stanford2D3D [27]和Structured3D [42]上提供了额外的定性性能。表2. 消融研究。在Structured3D数据集上进行的消融研究[42]证明了我们提出的设计如何提高预测的准确性结果显示，只有比较稳定的情况下，实际上增加它。我们在最后一行显示了完整的架构设置。PReLU激活在收敛方面为每个配置提供相同的好处。ResNet-50切片LSTMAsymGradParamsMREMaeRMSERMSE日志δ1δ2δ323.5M24.8M（最后1）-6.3M没有54.6M0.47120.55200.15960.03410.68450.86840.882423.5M33个月（最后4个月）-6.3M没有62.8M0.29900.50140.07750.01540.70450.87840.912423.5M24.8M（最后1）12.5M6.3M没有67.1M0.29880.48140.07500.01490.77020.88920.922223.5M33个月（最后4个月）12.5M6.3M没有75.3M0.01470.12230.05580.01020.88540.93760.949223.5M33个月（最后4个月）12.5M6.3M是的75.3M0.01470.11800.05490.01090.90850.94510.9502和非对称降维）、LSTM块和Asym非对称上采样块。我们还显示了每个设置的参数总数（即，Params）。对于每个块，所需的参数数量与输入图像分辨率无关，除了LSTM块和最后一次上采样，其中指示的值(i.e.、12.5M）是相对于256×512分辨率，这将是16.8M的512×1024。结果在Tab。2显示使用最后4个ResNet时获得的改进与仅使用切片块中的最后一个层相比，相反，第3行和第4行的结果显示了采用LSTM校验特征细化的好处，这在仅使用一个ResNet输出级别时就已经很明显了，并且在整个管道上变得非常一致。此外，我们还对损失函数中是否使用梯度分量进行了比较，这主要影响恢复的深度细节的锐化。图5显示了我们的模型在没有或有梯度损失的情况下训练的定性比较。室内环境的许多典型细节（即，墙角、具有重复图案的对象由于使用梯度，对于PReLU激活（第3），为每个配置提供相同的好处，我们仅为最后一个配置暴露梯度贡献。特别是，PReLU不会直接影响在单个数据集上获得的最佳性能，而是影响在真实和合成数据集上有效收敛的能力。例如，在合成OmniDepth数据集[43]上使用ELU而不进行批量归一化可以获得类似的性能，但是同样的模型需要批量归一化才能与Matterport3D [19]一起工作，如所讨论的在以前的作品[44，33]。如Tab.所示。2，每个块都为模型增加了低而合理的成本，作为对应物，性能大幅提高。在计算成本方面，基于FCRN [14]的等矩形图像的标准解码器，如Biodog [33]所采用的解码器，需要大约38M的参数，而我们的LSTM模块（12.5M）和我们的实际解码器（6.3M）的总和总共达到18.8M的参数。表3. 重力校准研究。我们在Struc-tured 3D [42]和Matterport3D [19]上测试了我们的方法对水平地平面未对准的鲁棒性。MREMaeRMSERMSE日志δ1三维结构我们0◦0.01470.11800.05490.10120.9085±2◦0.02170.13930.06580.13680.8776±5◦0.02630.16010.07140.14300.8527Matterport3D我们0◦0.17640.32960.61330.10450.8716±2◦0.26450.42050.70260.13340.7256±5◦0.30320.48060.77200.14820.6879Matterport3D比约恩[33个]0◦0.20480.34700.62590.11340.8452±2◦0.38880.53780.98050.18520.6144±5◦0.49050.68991.02250.22500.5440基准数据集的重力评估。我们的方法假设相机三脚架放置在水平面上[3]，这是捕捉室内场景的常见做法。我们在上述四个常见的公开数据集上验证了这一特征。所有合成数据集[43，42]都通过设计完美对齐。对于真实世界的数据集[27，19]，我们利用Zou等人的对齐管道。[46]来评估与地平面的未对齐。我们发现Stanford2D3D [ 27 ]数据集相对于重力矢量的平均未对准约为0。36度，而Matterport3D [19]数据集的平均未对准度约为0。61度11543(full补充材料中的统计数据）。对重力失准的鲁棒性。即使我们的方法假设与重力对齐的场景一起工作，我们也不需要完美的对齐，正如我们与提到的真实世界数据集的一致结果所证明的那样（Tab. ①的人。此外，我们验证了在原始对齐数据上训练的模型对对齐误差具有鲁棒性，甚至比实际中出现的误差更大。为了测试我们的方法在存在更大倾斜误差的情况下的行为，我们利用Structured 3D合成[42]数据集（使得基线肯定与地平面对齐）和Matter-port 3D [19]作为真实世界数据集。从他们的初始基线开始，我们通过随机旋转相机的向上矢量来生成两个新的测试集，模拟一个更宽的与重力的不对准-即，最大倾斜误差为±2°和±5°，如表1所示。3 .第三章。±2可被视为无需任何校正的手动对中的可靠误差范围，而±5则是故意设定的较宽范围（辅助材料中提供了辅助测试）。结果在Tab。3表明，我们的方法产生可靠的预测，即使有显着的相机错位。对Structured3D数据集的分析在所有情况下都达到了良好的精度，并且低误差值仍然与最先进的结果具有竞争力例如，在一个示例中，对于对齐的情况，δ 1大于0.9，并且仅下降0。03对于中度未对准误差的±2μ m和0. 对于±5°的大失准误差，Matterport3D获得的降级更大，但是，通过与表中的结果进行比较。1，我们注意到，我们的方法在±2误差的数据集上的结果仍然与其他方法在完全对齐的数据集上获得的一些最先进的结果一致此外，委员会认为，我们还在这里展示了使用Bioscience [33]获得的结果，对于Bioscience [ 33 ]，预训练模型可用于相同的训练集，显示出非重力对齐数据的这种比较表明，重力对齐也是其他方法的基本假设应当注意，这些大的误差在实践中可以通过施加捕获约束或执行重力对准预处理来避免。(a)地面实况（b）无梯度。（c）同等级。图5. 损失函数定性比较。取决于梯度损失的定性影响示例（第4）.5.4. 特殊情况和限制在实验中，我们验证了我们的模型与所有人造环境的结果一致存在于测试数据集[27，19，43，42]，包括可以定义为几乎户外的场景（图1的第一行）。6）。然而，定量和详细的性能取决于所采用的地面实况数据，在深度的情况下，由于缺乏来自传感器的数据或未解决的模糊性，例如反射和致命的遮挡，这些数据通常具有被掩盖的部分。在图6的第二行中，我们展示了其中一个例子，这是我们测试中最糟糕的情况之一在这里，地面实况深度由于反射而具有许多不连续性和丢失的样本，这是我们的模型不结构的很大一部分被绝缘材料所隐藏。(a) 输入（b）地面实况（c）输出图6. 特殊情况。第一行：几乎在室外环境下的结果。第二行：我们测试中最糟糕的情况之一。6. 结论我们已经介绍了一种新型的深度神经网络，能够从单个单目室内全景快速估计深度图我们的设计利用重力对齐功能，通过将场景紧凑地表示为垂直的球形切片来表征人造内部环境。我们利用切片之间的长期和短期关系来恢复等矩形深度图，并在深度网络中保持提取特征的高分辨率信息。我们的实验结果表明，我们的方法在预测精度方面优于当前最先进的解决方案，特别是在真实世界数据中存在噪声和缺失数据的情况下。虽然目前的方法的目标单目recruitment- tion，我们计划将其扩展到多视图的结构化三维重建的室内环境的背景下。我们还在考虑将其与交互式解决方案集成，我们计划在AR设置中使用实时深度估计进行此外，虽然该方法是为室内场景设计的，但特征的重力对齐也发生在其他设置中，特别是人造设置。因此，我们设想将我们的方法扩展到户外环境，特别是城市场景。该项目获得了欧盟 H2020 研究和创新计划的资助 813170（EVOCATION），以及撒丁岛地区当局的11544引用[1] Y.曹，Z. Wu和C.沈使用深度全卷积残差网络从单色图像估计深度作为分类。 IEEE Trans. on Circuits andSystems for Video Technology，28（11）：3174[2] H.程角，澳-地Chao，J. Dong，H.温氏T. Liu和M.太阳立方体填充用于360视频中的弱监督显着性预测。在Proc.CVPR，第1420-1429页[3] Benjamin Davidson，Mohsan S.Alvi和Joao F.恩里克斯通过分割实现360摄像机对准。在Proc. ECCV，第579-595页[4] M. Eder，P. Moulon，and L.关。Pano弹出窗口：使用平面感知网络进行室内3D重建。在Proc. 3DV，第76-84页[5] D. Eigen和R.费格斯使用通用的多尺度卷积架构预测深度、表面法线和语义标签在Proc. ICCV，第2650-2658页[6] David Eigen，Christian Puhrsch，Rob Fergus。使用多尺度深度网络从单个图像进行深度图预测。在Z.加赫拉马尼，M.威林角，澳-地科尔特斯N。D.劳伦斯和K。Q.Weinberger，编辑，神经信息处理系统进展27，第2366[7] 傅欢，龚明明，王朝辉，Kayhan Bat- manghelich，陶大成.用于单目深度估计的深度有序回归网络。在Proc.CVPR，2018年6月。[8] Cle'mentGodard，OisinMacAodha和GabrielJ. 兄弟-拖。具有左右一致性的无监督单目深度估计在Proc. CVPR，2017年。[9] 何开明，张翔宇，任少卿，孙健。深入研究整流器：超越人类对图像网络分类的水平。在Proc. ICCV，第1026-1034页[10] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在proc CVPR，第770-778页，2016年。[11] Lei Jin ， Yanyu Xu ， Jia Zheng ， Junfei Zhang ， RuiTang，Shugong Xu，Jingyi Yu，and Shenghua Gao.基于几何结构和正则化的360室内图像深度估计。在Proc.CVPR，2020年6月。[12] R. 荣格， A. S. J. Lee ， A. Ashtari 和 J. Bazin 。Deep360Up：一种基于深度学习的方法，用于自动调整VR图像的垂直方向。在Proc. IEEE VR，第1-8页，2019年。[13] 迪德里克·P·金马和吉米·巴。亚当：一种方法用于随机优化。ArXiv电子版arXiv：1412.6980，2014年。[14] I.莱纳角Rupprecht，V. Belagiannis，F. Tombari和N.纳瓦布使用全卷积残差网络进行更深的深度预测。在Proc.3DV，第239-248页[15] 索菲·兰伯特·拉克鲁瓦和劳伦特·兹瓦尔德。鲁棒回归中的自适应BerHu惩罚Journal of Nonparametric Statistics，28：1[16] J.李，M. Heo，K. Kim和C. Kim.基于傅立叶域分析的单幅图像深度估计在proc CVPR，第330-339页，2018年。[17] Yeonkun Lee，Jaeseok Jeong，Jongseob Yun，WonjuneCho ， and Kuk-Jin Yoon.SpherePHD ：在球体上应用CNN-calpolyhedron表示的360个图像。在proc CVPR，第9181-9189页，2019年。[18] F. Liu，Chunhua Shen，and Guosheng Lin.深度卷积神经场用于从单个图像进行深度估计。在Proc. CVPR，第5162-5170页[19] 马特波特 Matterport3D 。 https://github.com/niessner/Matterport，2017. [访问时间：2019-09-25].[20] GregoirePayendeLaGaranderie

下载后可阅读完整内容，剩余1页未读，立即下载