DuLa-Net：一种从单个RGB全景图中推断3D房间布局的深度学习框架

189 浏览量更新于2023-10-17 收藏 2.52MB PDF 举报

深度学习框架

特征融合

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1DuLa-Net：一种用于从单个RGB全景图杨尚塔1，2sundadenny@gapp.nthu.edu.tw王福恩fulton84717@gapp.nthu.edu.tw彭志涵2pchihan@asu.edu彼得·旺卡2pwonka@gmail.com孙敏1sunmin@ee.nthu.edu.tw朱宏国hkchu@cs.nthu.edu.tw1国立清华大学摘要我们提出了一个名为DuLa-Net的深度学习框架为了实现更好的预测精度，我们的方法利用两个投影的全景，即等距矩形的天花板视图和透视天花板视图，每个包含不同的线索的房间布局。我们的网络架构const-sists的两个编码器-解码器的分支，用于分析两个视图中的每一个。此外，提出了一种新的特征融合结构来连接这两个分支，然后联合训练来预测2D平面图和布局高度。为了了解更复杂的房间布局，我们介绍了Realtor360数据集，该数据集包含具有不同数量角的曼哈顿世界房间布局。实验结果表明，我们的工作-执行最近的最先进的预测精度和性能，特别是在非长方体布局的房间。1. 介绍从室内全景图像推断高质量的3D房间布局在室内场景理解中起着至关重要的作用，并且可以有益于各种应用，包括虚拟/增强现实和机器人。为此，最近的方法通过使用深度学习来预测输入全景上的房间角落和边界来恢复3D房间布局例如，LayoutNet [33]在曼哈顿世界受限的房间中实现了令人印象深刻的重建精度。但是，房间里的杂物，例如。家具，对提取在输入全景中被遮挡的关键角和边缘提出了挑战。另外，从2D角和边缘图估计3D布局是不适定问题，并且因此在图中施加额外的约束图1.使用我们的系统从单个RGB全景图中估计具有不同复杂度的3D房间布局（从左到右）房间布局，平面图为6角、8角和10角。墙壁上的棋盘图案表示由于遮挡而丢失的纹理。优化.因此，处理复杂的房间布局仍然具有挑战性。在这项工作中，我们提出了一种新的端到端的框架来估计从一个单一的RGB全景的3D房间布局通过直觉，神经网络可以提取不同种类的特征，给定相同的全景，但在不同的投影，我们建议预测房间布局从两个不同的意见，即equirectangular的全景视图和透视天花板视图。该网络结构遵循编码器-解码器方案，由两个分支组成，即顶视图分支和天花板分支，分别用于分析顶视图和天花板视图的图像。天花板分支的输出包括楼层-天花板概率图和布局高度，而天花板分支输出楼层平面概率图。在两个人之间分享信息33633364分支，我们采用了一个功能融合方案，连接前几层的解码器通过E2P转换，将中间特征映射从等距投影透视天花板视图。我们发现，通过联合训练两个连接的分支，可以实现更好的预测性能。最终的2D平面图，然后通过拟合一个轴对齐的多边形融合平面图概率图（见图3的细节），然后由估计的布局高度挤出。为了从具有复杂布局的网络中学习，我们需要一个合适的数据集来进行网络训练和测试。然而，现有的公共数据集，如PanoContext [30]数据集，大多提供带有简单长方体形状的标记3D布局。为了学习更复杂的布局，我们引入了一个新的数据集，Realtor360，它包括SUN360 [24]数据集的子集（593个客厅和卧室）和从房地产数据库收集的1980个房间。我们用定制的交互式工具注释了整个数据集，以获得地面实况3D布局。我们的数据集的一个关键特征是，它包含的房间在角落的数量方面具有更复杂的形状。实验结果表明，我们的方法在预测精度方面优于当前最先进的方法（[33]），特别是对于具有四个以上角落的房间。我们的方法也需要更少的时间来计算最终的房间布局。图1显示了一些房间布局估计我们的方法。我们的贡献总结如下：• 我们提出了一种新的网络架构，它包含两个编码器-解码器分支来分析两个不同投影中的输入全景图。这两分支还通过特征融合方案连接。这种双投影架构可以改变具有长方体和L形之外的更复杂形状的房间布局。• 我们的神经网络是构建端到端架构的重要一步我们的网络直接输出2D平面图的概率图这与现有技术的输出相比，输出需要显著更少的后处理来获得最终的3D房间布局。• 我们引入了一个新的数据集，称为Realtor360，其中包含2573个房间描绘4至12个角落。据我们所知，这是最大的室内图像的数据集，带有当前可用的房间布局2. 相关工作有多篇论文提出了一种解决方案，从室内拍摄的单个图像来估计房间布局环境它们的区别主要表现在三个方面：1）房间布局的假设，2）输入图像的类型在房间布局布局方面，一个流行的选择是为了使问题更容易解决，一个更具限制性的假设是房间是长方体[8，5，13]，即，正好存在四个房间角。我们的方法采用曼哈顿世界假设，但允许任意数量的角落。就输入图像的类型而言，图像可以在FoV（视场）上不同-范围从单眼（即，从标准照相机拍摄）到360毫安，以及是否提供深度信息。然后，这些方法在很大程度上取决于输入图像类型。问题当仅给出单色RGB图像时，可能最难求解。通常，几何形状（例如，线和角）[14，8，22]和/或语义（例如，分割分为不同的区域[9，10]和体积推理[7]）最近，基于神经网络的方法在解决这个问题方面迈出了一大步。一个趋势是神经网络产生越来越高水平的信息- 从线段[17，31]、表面标签[5]开始，到房间类型[13]以及房间边界和拐角[33]，以使最终布局生成过程越来越容易求解。我们的方法通过使用神经网络来直接预测2D平面图概率图，从而进一步推动了这一趋势，该概率图仅需要2D多边形拟合过程来产生最终的2D房间布局。如果提供深度信息，则存在估计包括房间布局的场景注释的方法[28，15，29]。更深入的讨论超出了本文的范围。密切相关的问题包括从给定图像的深度估计[32，21]和从点云的场景重建[19，18，16]。注意，估计的深度和重建的3D场景都不一定等同于洁净室布局，因为这样的输入可能包含杂波。360°panorama：The seminal work by Zhang et al.[30]提倡使用360度全景摄像机进行室内场景理解，因为360度全景摄像机的FOV要大得多。这方面的工作蓬勃发展，包括基于几何[6，21，26]和/或语义线索[25，27]的优化方法以及后来基于神经网络[13，33]的方法。除了Lay-outNet [33]之外，大多数方法都依赖于利用现有技术来获取从输入全景中获取的样本上的单透视图像我们认为，这是LayoutNet3365图2.我们的网络架构遵循编码器-解码器方案，由两个分支组成。给定等矩形投影中的全景，我们还通过等矩形到透视（E2P）转换来创建透视天花板视图图像。然后，全景和天花板视图图像被馈送到全景视图（上）和天花板视图（下）分支。采用基于E2P的特征融合方案来连接两个分支，这两个分支由网络联合训练以预测：1）全景视图中的地板和天花板的概率图，2）天花板视图中的楼层平面图，以及3）布局高度。然后，我们的系统通过将曼哈顿世界对齐的多边形拟合到三个楼层平面图的加权平均值来估计2D楼层平面图，使用预测的布局高度进一步挤出以获得最终的3D房间布局。在[21]中可以找到在这个方向上的进一步步骤，其中输入全景被投影到2D“地板”视图，其中相机位置被映射到图像的中心，并且全景中的垂直线变成从图像中心发出的这种方法的优点是房间布局变成可以更容易地提取的2D闭环。我们在这里得到了3. 概述图2展示了我们的框架的概述。给定输入为等矩形全景图像，我们遵循PanoContext [30]中使用的相同预处理步骤来将全景图像与全局坐标系对齐，我们假设曼哈顿世界。然后，我们通过等矩形到透视（E2P）转换将全景图像变换为透视天花板视图图像（第12节）4）.然后将顶视图和顶视图图像馈送到由两个编码器-解码器分支组成的网络这两个分支通过基于E2 P的特征融合方案连接，并联合训练以预测楼层平面概率图、楼层-天花板概率图和布局高度（第二节）。（五）。两个中间概率图是从地板-天花板概率图中得出的城市地图最终的3D曼哈顿布局是通过使用预测的布局高度（Sec.（六）。4. E2P转换在本节中，我们解释了E2P转换的公式，该转换将等矩形全景图转换为透视图像。我们假设透视图像是尺寸为w×w的正方形。对于透视图像中位置（px，py）处的每个像素，我们导出等矩形全景图中相应像素的位置（p′x，p′y），−1≤p′x≤1，−1≤p′y≤1，如下所示。首先，我们定义了针孔相机的视场，透视图像为FoV。然后，焦距可以导出为：f= 0。5. 5μ FoV）。（px，py，f），透视图像中像素在相机空间中的3D位置，然后被旋转90°或如果摄像机为向上看（看天花板）或向下看（看），在地板上）。接下来，我们将旋转的3D位置投影到等角空间。要做到这一点，我们首先通过向量归一化将其投影到单位球面上，（sx，sy，sz），并应用以下公式：arctan2（sx）反正弦使用E2P转换并结合地板的能力图计划概率图，以获得融合平面图概率-（p′x，p′y）=（sz 、（y）、（1）π0。5π3366BCFPFCFP将单位球面上的3D位置（sx，sy，sz）投影回等矩形全景图中对应的2D位置（p′x，p′y）。最后，我们使用（p′x，p′y）来内插来自全景图的像素值我们注意到，这过程是可微的，因此它可以与反向传播结合使用。5. 网络架构我们的网络架构如图所示二、它包括两个编码器-解码器分支，用于全景视图和天花板视图输入图像。我们将顶视图分支记为BP，将顶视图分支记为BC。BP的编码器和解码器表示为EBP和DBP，并且对于BC，它们表示为EBC和DBC。一个关键的概念是，我们的网络预测平面图和布局高度。有了这两个预测，我们可以在后处理中重建3D房间布局（第二节）。（六）。5.3.特征融合我们发现，应用融合技术合并的特征，在BP和BC提高了预测精度。我们推测原因如下。在天花板视图图像中，图像边界附近的区域（其中存在一些有用的视觉线索，诸如阴影和家具布置）更加失真，这可能对天花板视图分支推断房间结构具有不利影响。通过融合来自全景视图分支（其中失真不太严重）的特征，可以提高天花板视图分支的性能。我们在前五层的每一层之前应用融合，DBP和DBC。对于每个融合连接，E2P转换（第4）在FoV设置为160°的情况下，将原来在等矩形视图中的DBP中的特征投影到透视天花板视图。每一次融合都有效如下所示∗α5.1. 编码器我们使用ResNet-18作为EBP和EBC的架构。EBP的输入维度为512×1024×3（输入全景图的维度），输出维度为16×32×512。对于EBC，输入和输出尺寸分别为512×512×3和16×16×512。注意，EBC的输入是通过将E2P转换应用于FoV设置为160μ m并且w设置为512的输入全景而生成的透视顶视图图像。我们还尝试了其他计算成本更高的网络架构，如ResNet-50对于编码器。然而，我们没有发现任何改善AC-fBC=fBC+βi×fBP，i∈{0，1，2，3，4}，（2）其中，f BC是来自B C的特征，并且f BP是在应用E2P转换之后来自B P的特征。α和β是衰减系数。i是层的索引在每次融合之后，合并的特征f被发送到D BC的下一层。这种技术的性能改进8.5.4.损失函数对于MFC和MFP，我们应用二进制交叉熵损失：∗Σ ∗ ∗所以我们选择使用ResNet-18来简化。5.2. 解码器Eb（x，x）=−xi log（x i）+（1 − xi）log（1− x i）。我（三）DBP和DBC都由六个卷积层组成。对于H（布局高度），我们使用L1-loss：前五层是带有ReLU激活的3×3调整大小卷积[1]。最后一层是常规的3×3卷积层，乙状结肠激活。频道数量六层中的每一层是256、128、64、32、16和1。为了推断布局高度，我们向∗EL1（x，x）=总损失函数为：Σ∗|.|.（四）我BP的最大特征三层的尺寸分别为256、64和1。为了使布局高度的回归更加稳健，我们在前两层之后添加dropout层。为了将最中间的特征作为输入，我们L=Eb（MFC其中M∗ ∗ ∗FC）+Eb（MFP，M ）+γEL1（H，H），（五）和H是MFC的基本事实，首先沿x和y维度应用全局平均池化sions，它产生一个具有512维的一维特征，并将其作为全连接层的输入。BP的输出是等矩形投影中的地板和天花板的概率图，表示为地板-天花板概率图（MFC）。对于BC，输出是天花板视图中的楼层平面图的概率图，表示为楼层平面图概率图（MFP）。注意，BP还输出预测的布局高度（H）。M FP和H.5.5. 培训详情我们用PyTorch实现我们的方法[20]。我们使用Adam[11]优化器，β1=0。9和β2=0。999学习率为0。0003，批量大小为4。我们的训练损失在大约120个epoch之后收敛。对于每个训练迭代，我们使用随机翻转和水平平移将输入全景增加0°、90°、180°和270°。为、M、M3367FPFPFCMFCFCFPFCFCFPFC图3. 2D平面图拟合。（a）我们的网络输出的概率图被融合到平面图概率图M fuse。（b）将图像阈值化应用于M融合，并将多边形形状拟合(c)多边形边被回归并聚集成两组水平线（红色）和垂直线（绿色）。(d)最终的楼层平面形状由（c）中的网格定义，其中楼层平面面积的比率大于0。五、融合时，我们在方程中设置α和β 2为0。6和3。我们在Eqn中设置γ5是0。五、因为我们估计天花板视图中的楼层平面概率图，所以我们假设摄像机和天花板之间的距离为1.6米，并使用此常数来规范化地面实况。6. 三维布局估计给定网络预测的概率图（MFC和MFP）和布局高度（H），我们通过以下两个步骤重建最终的3D布局：1. 使用概率图估计2D曼哈顿平面图形状。2. 根据布局高度沿其法线拉伸楼层平面形状对于步骤1，两个中间映射，表示为M C和F的天花板像素和地板像素导出。使用E2 P转换的下限-上限概率图我们进一步使用缩放因子1。6/（H-1. 6）、注册M F其中，C为常数1。6是距离在摄像头和天花板之间。最后，一个融合的地板计划概率图计算如下：表1. Realtor360数据集。4个角6个角8个角块10+个角落总1246950316612573将边界矩形划分为几个不相交的网格单元（见图2）。3（c））。我们将二维平面图的形状定义为平面图面积比大于0的网格单元的并集。5（见图3（d））。图4.在Realtor360中有几个例子。带注释的3D房间布局绘制为蓝色线框。7. Realtor360数据集一个包含足够数量的3D房间布局（具有不同数量的角）的数据集对于训练和测试我们的网络至关重要。不幸的是，现有的公共领域数据集，如 PanoCon-text[30]数据集和Zou等人标记的斯坦福2D-3D数据集。[33]，主要包含具有简单长方体形状的布局。为了证明我们的框架足够灵活，可以处理具有任意数量拐角的房间，我们引入了一个新的数据集，名为Realtor360，其中包含超过2500个室内空间和注释的3D房间布局。我们根据房间布局的复杂程度对每个房间进行分类，这些复杂程度是通过平面图中的拐角数量来衡量的。表1显示了数据集的统计数据，在图1中可以找到一些直观的例子。4.第一章Realtor360数据集中的源全景图像是从两个来源收集的。第一个是SUN360数据集的子集[24]，其中包含593个起居室和卧室。另M fuse= 0。5吨FP+0。25MC+0。25MF.（六）Source是一个房地产数据库，其中包含从一家房地产公司获得1980年室内全景图。我们注释了图图3（a）说明了上述过程。使用阈值0对概率图Mfuse进行二值化。五、计算最大连通分量的边界矩形以供以后使用。接下来，我们将二进制图像转换为密集采样的分段线性闭环，并使用Douglas-Peucker算法对其进行简化（见图11）。第3（b）段）。我们对边缘进行回归分析，并将它们聚类为轴对齐的水平线和垂直线。这些线使用定制的交互式工具对这些室内壁画进行3D布局，如下所述。注释工具。为了用高质量的3D房间布局来注释2D室内壁画，我们开发了一个交互式工具来促进标记过程。该工具首先利用现有的自动方法从输入全景中提取深度图[12]和线段[303368方法平均4个角6个角8个角块10+个角落二维IoU（%）3D IoU（%）二维IoU（%）3D IoU（%）二维IoU（%）3D IoU（%）二维IoU（%）3D IoU（%）二维IoU（%）3D IoU（%）[33]第三十三话65.8462.7780.4176.660.557.8741.1638.6122.3521.52我们的（仅限FC）75.272.0276.7573.2776.0473.0670.867.8956.4254.2我们的（仅限FP）75.7572.1879.6675.5475.4272.2370.5167.3951.0348.57我们的（无融合）78.5274.881.7777.5778.575.173.6170.3757.0154.12我们的（完整）80.5377.282.6378.9180.7277.7978.1274.8663.159.72表2. 在Realtor360数据集上进行定量评估。我们将我们的方法与LayoutNet [33]进行比较，并进行消融使用我们方法的不同配置进行研究粗体数字表示最佳性能。方法平均4个角6个角8个角块10+个角落二维IoU（%）3D IoU（%）二维IoU（%）3D IoU（%）二维IoU（%）3D IoU（%）二维IoU（%）3D IoU（%）二维IoU（%）3D IoU（%）[33]第三十三话71.3177.8767.9174.1680.6982.4276.8278.368.9577.1965.8373.7450.3170.8147.2367.5544.5354.0542.5150.96表3. 对Realtor360数据集子集的定量评价。我们使用仅包含长方体布局（4个角）的房间的训练集与LayoutNet [ 33 ]进行比较。粗体数字表示最佳性能。然后，通过沿着全景图中间的水平线对深度进行采样来创建初始的3D曼哈顿世界布局。该工具允许用户通过一组直观的操作来优化初始3D布局，包括(i)推/拉墙;（ii）合并多面墙;及(iii)劈开一堵墙它还提供了一个方便的功能，在交互式编辑过程中将布局边缘捕捉到估计的线段，以提高准确性。8. 实验我们将我们的方法与LayoutNet [33]进行了比较，LayoutNet [ 33 ]是一种最先进的房间布局估计方法，通过对我们的Re-altor 360数据集和PanoContext [30]数据集进行了一系列定量和定性实验。我们还进行了消融研究与我们的方法的几个替代配置。我们采用2D和3D Intersection over Union（IoU）来评估估计的2D平面图和3D布局的准确性，这是类似任务中的标准度量[3]。所有的实验都使用了在第二节中讨论过的超参数.五点五图5示出了使用我们的方法估计的具有不同数量的角的几个3D房间布局。以下实验的更多结果请参见补充材料。在Realtor360数据集上进行评估。为了在Realtor 360数据集上训练LayoutNet [33]和我们的DuLa-Net，我们随机选择了2169个样本进行训练，并将剩余的404个样本进行测试。我们进一步将测试样本按其角的个数进行分类。我们使用作者发布的代码和故障超参数运行LayoutNet。与LayoutNet的定量比较如表2所示。我们观察到LayoutNet在长方体形状的房间（4个角）上提供了良好的性能，与他们论文中然而，准确性下降显著-随着拐角数量的增加而增加。相比之下，我们的DuLa-Net不仅在长方体形状的房间上表现优于LayoutNet（约2%），而且在具有大量角落的房间上表现良好。与LayoutNet相比，这使得2D和3D指标的整体性能提高了14%由于LayoutNet的3D布局优化和超参数是在包含主要是长方体形状房间的数据集上调整的，因此我们进行了另一项实验，即在排除非长方体布局房间的修订训练集上训练两个网络，同时保持测试集不变。表3显示了定量结果。请注意，虽然LayoutNet的性能提高，我们的方法仍然优于所有类型的房间。从图中所示的定性比较。6，我们可以观察到LayoutNet预测房间为长方体形状的强烈趋势，这可能是由于其3D布局优化中施加的约束。相比之下，我们的方法简化了问题，直接预测曼哈顿世界的平面图，没有任何假设的角落的数量。我们推测，这是我们的方法优于LayoutNet的主要原因，特别是房间有四个以上的角。我们还进行了一项消融研究，评估了我们的方法在不同配置中的性能，如下所示：1）我们的（仅fc）：仅天花板视图分支，2）我们的（仅fp）：仅天花板视图分支，以及3）我们的（w/o fusion）：我们的完整模型，但没有特征融合。表2中的定量结果表明，联合训练两个分支比只训练其中一个分支导致更好的性能此外，在两个分支之间添加特征融合进一步提高了性能。PanoContext 和 Stanford 2D/3D 数据集的评估。LayoutNet提供了PanoContext [30]数据集的定量结果，其中有414个用于训练的样本3369图5. 目视检查结果。给定单个RGB全景，我们的方法自动估计相应的3D房间布局。我们的方法是灵活的，以处理更复杂的房间布局超出了简单的长方体房间。墙壁上的棋盘图案表示由于遮挡而丢失的纹理。和53个用于测试的样本。所有房间都标记为长方体形状。为了进行比较，我们在相同的数据集上训练了我们的网络。定量比较见表4。我们的模型比LayoutNet的性能好一点。我们还在斯坦福2D-3D [2]数据集上评估了我们的模型，并使用LayoutNet [33]标记了注释。该数据集包括404个用于训练的样本和113个用于测试的样本。表4中的最后一列显示了Stanford 2D-3D [2]数据集的定量结果。表4. 3D IoU中PanoContext [30]和Stanford 2D/3D [2]数据集（%）方法PanoContext斯坦福大学2D-3D[33]第三十三话74.4876.33我们的（满）77.4279.363370时机端到端计算需要三个主要步骤- 1）将输入全景与全局坐标系对齐的对齐过程，2）通过我们的神经网络进行的平面图概率图预测，以及3）2D平面图拟合。步骤 1 ）是最耗时的，在配备单个 NVIDIA1080ti GPU和Intel i7-7700 3.6GHZ CPU的机器上测量，大约需要13.37秒步骤2）仅需34.68ms，步骤3）仅需21.71ms。与LayoutNet相比，它们执行相同的对齐过程，并且它们的神经网络预测也非常快（39 ms）。然而，他们最终需要另一个非常耗时的3D布局优化步骤，需要30. 5秒。总之，LayoutNet的端到端计算大约需要43.9秒，而我们的方法大约需要13.4秒，速度提高了3.28倍。9. 结论我们提出了一个端到端的深度学习框架，称为DuLa-Net，用于从3371图6. 与LayoutNet的定性比较[33]。LayoutNet[33]生成的3D房间布局（绿线）和我们的方法（橙色线）。结果同时显示在等矩形的平面图视图（左）和楼层平面图视图（右）上，其中蓝色线条和黄色实心形状分别表示地面实况。单一RGB全景。我们提出了一种新的网络架构，它由两个编码器-解码器分支组成，用于分析来自输入panora- mas的两个不同视图（即等矩形天花板视图和透视天花板视图）的特征这两个分支通过一种新的特征融合方案连接起来，并进行联合训练，以实现2D平面图和布局高度预测的最佳精度。为了从复杂的布局中学习，我们引入了一个新的数据集Realtor360，其中包含2573个具有各种复杂性的曼哈顿世界房间布局的室内模型。定量和定性的结果都表明，我们的方法优于目前的方法。图7. 局限性。由于缺乏对象语义，我们的方法生成了两个失败案例（橙色线）。（上）我们的方法被镜子的反射所误导（下）平面图的边界被冰箱挡住了。地面实况布局以蓝色呈现。租金在预测精度方面处于最先进水平，特别是对于具有四个以上角落的房间，并且计算最终3D房间布局所需的时间要少得多局限性和今后的工作。我们的方法具有以下局限性：i）在不知道对象语义的情况下，我们的网络可能会与包含镜子或大型遮挡对象的房间混淆，如图所示。7;和ii）我们的3D布局估计方法涉及可能高估或低估底层平面图概率图并且还将结果限制为曼哈顿世界的算法和假设。我们建议在不久的将来探索以下方向。首先，介绍了对象语义，分割和标记到网络架构可以潜在地通过忽略来自平面布置图预测的那些分散注意力和遮挡的对象来提高准确性。第二，设计用于更鲁棒的3D布局估计的原则性算法，例如，没有曼哈顿世界的假设和支持房间的曲线形状。最后但并非最不重要的是，我们相信，甚至更好的结果可以通过实验与我们的网络架构的编码器的更大范围内实现。鸣谢。该项目的部分资金来自 KAUST的赞助研究办公室（OSR）根据Award No. URF/1/3426-01-01和台湾科技部（ 107-2218-E-007-047- 和 107-2221-E-007-088-MY 3）。3372引用[1] 安德鲁·P·艾特肯，克里斯蒂安·莱迪格，卢卡斯·泰斯，何塞·卡-巴莱罗，王泽涵，施文哲。无纸板伪影的子像素卷积：关于子像素卷积、调整卷积和调整卷积的说明。CoRR，abs/1707.02937，2017。4[2] I. Armeni，A. Sax，A. R. Zamir和S. Savarese用于室内场景理解的联合2D-3D语义数据。ArXiv电子印刷品，2017年2月。7[3] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。6[4] James M. Coughlan和A. L.尤尔。曼哈顿世界：基于贝叶斯推断的单幅图像罗盘方位。第941- 949页，1999年。2[5] S. Dasgupta 、 K. Fang ， K. 在中国的分布 Chen 和 S.Savarese延迟：用于杂乱室内场景的鲁棒空间布局估计。 2016 年 IEEE 计算机视觉和模式识别会议（CVPR），第616-624页，2016年6月。2[6] KosukeChanano ， YoshihikoMochizuki ， SatoshiIizuka ， Edgar Simo-Serra ， Akihiro Sugimoto ， andHiroshi Ishikawa.通过高阶能量最小化从单个球形图像重建房间。 2016 年第 23 届国际模式识别会议（ICPR），第1768- 1773页，2016年。2[7] Abhinav Gupta、Martial Hebert、Takeo Kanade和DavidM.布莱使用物体和表面的体积推理来估计房间的空间布局在J. D. Laf- ferty，C.K. I. 威廉斯，J.肖-泰勒河S.Zemel和A.Culotta，编辑，神经信息处理系统进展23，第1288-1296页。Curran Associates，Inc. 2010. 2[8] V. Hedau，D. Hoiem和D.福赛斯恢复杂乱房间的空间布局。在2009年IEEE第12届计算机视觉国际会议，第18492009年9月。2[9] D. Hoiem，A. A. Efros，和M。赫伯特从一个单一的图像几何背景。在第十届IEEE计算机视觉国际会议（ICCV'05）第1卷，第1卷，第654-661页，第1卷。1，Oct 2005. 2[10] 放大图片创作者：Alexei A.埃夫罗斯和马夏尔·赫伯特从图像中检索曲面布局International Journal of ComputerVision，75（1）：151-172，Oct 2007. 2[11] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。4[12] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。在3DV，第239-248页中。IEEE计算机学会，2016年。5[13] Chen-YuLee ， VijayBadrinarayanan ， TomaszMalisiewicz，and Andrew Rabinovich. Roomnet：端到端的房间布局估计。CoRR，abs/1703.06241，2017。2[14] D. C.李，M。Hebert和T.卡纳德单图像结构恢复的几何推理。2009年IEEE计算机视觉和模式识别会议，第2136-2143页2[15] C. Liu，P. Kohli，and Y.古川通过遮挡crf实现分层场景分解。2016 年 IEEE 计算机视觉和模式识别会议（CVPR），第165-173页2[16] ChenLiu ， JiayeWu ， andYasutakaFurukawa.Floornet：一个统一的框架，用于从3D扫描重建平面图。欧洲计算机视觉会议（ECCV），2018，2018。2[17] Arun Mallya和Svetlana Lazebnik。用于室内场景布局预测的学习信息边缘图。在2015年IEEE计算机视觉国际会议（ICCV）的论文集，ICCV'15，第936-944页，华盛顿特区，美国，2015年。IEEE计算机协会。2[18] 放大图片作者：Aron Monszpart ，Nicolas Mellado ，Gabriel J. Brostow和Niloy J.米特拉重建：用有规律的平面排列重建人造场景。ACM 事务处理图表，34（4）：103：1-103：12，July 2015. 2[19] R. A.纽科姆，S。伊扎迪河希利格斯，D。莫利诺，D。Kim，A. J.戴维森，P.作者简介：王建民Hodges，和A.菲茨吉本运动融合：实时密集表面映射和跟踪。2011年10月，第10届IEEE混合与增强现实，第1272[20] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。在NIPS-W，2017年。4[21] G. 平托雷河谷Garro，F.Ganovelli，E.Gobbetti和M.阿古斯全方位的图像捕捉移动设备上的快速自动生成的2.5D室内地图。2016年IEEE Winter计算机视觉应用会议（WACV），第1-9页，2016年3月。二、三[22] Srikumar Ramalingam和Matthew Brand。从一张图像中提取出3D2013年IEEE计算机视觉国际会议，第497-504页，2013年。2[23] S. Ramalingam，J.K. Pillai、A.Jain和Y.田口用于室内场景空间推理的Manhat- tan连接目录2013年IEEE计算机视觉和模式识别会议，第3065-3072页，2013年6月。2[24] J. 肖氏K.A. Ehinger，A.Oliva和A.托拉尔巴使用全景位置表示法对场景视点进行优化。2012年IEEE计算机视觉和模式识别会议，第2695-2702页，2012年6月。二、五[25] 徐杰，B. Stenger，T. Kerola和T.阿东Pano2cad：从一个单一的全景图像的房间布局。2017年IEEE Winter计算机视觉应用会议（WACV），第354-362页，2017年3月。2[26] H. Yang和H.张某从单个全景图中高效地恢复3d房间形状。 2016 年 IEEE 计算机视觉和模式识别会议（CVPR），第5422- 5430页，2016年6月。2[27] Yang Yang，Shi Jin，Ruiyang Liu，Sing Bing Kang，and Jingyi Yu.基于单全景图的室内三维场景自动建模。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。2[28] J. Zhang C.，中国古猿科Kan、黑冠草A.G. Schwing和R.乌塔松从深度传感器估计室内场景的三维布局及其杂波3373sors 2013年IEEE计算机视觉国际会议，第1273-1280页，2013年12月。2[29] Yinda Zhang，Mingru Bai，Pushmeet Kohli，ShahramIzadi，and Jianxiong Xiao.深度上下文：用于三维整体场景理解的上下文编码神经通路。国际计算机视觉会议（ICCV 2017），2017年。2[30] Yinda Zhang，Shuran Song，Ping Tan ，and JianxiongXiao. Panocontext：一个用于全景场景理解的全房间3D上下文模型在计算机视觉- ECCV 2014 -第13届欧洲会议，苏黎世，瑞士，2014年9月6日至12日，会议记录，第VI部分，第668-686页，2014年。二三五六七[31] Hao Zhao ， Ming Lu ， Anbang Yao ， Yiwen Guo ，Yurong Chen，and Li Zhang.物理学启发的优化的se-mantictransferfeatures：一种替代方法，房间布局估计.在IEEE计算机视觉和模式识别会议，2017年7月。2[32] NikolaosZioulis ， AntonisKarakottas ， DimitriosZarpalas，and Petros Daras. Omnidepth：室内球形投影仪的密集深度估计。在欧洲计算机视觉会议（ECCV），2018年9月。2[33] Chuhang Zou ， Alex Colburn ， Qi Shan ， and DerekHoiem. Layoutnet：从单个rgb图像重建3d房间布局。在IEEE计算机视觉和模式识别会议，2018年6月。一、二、五、六、七、八

下载后可阅读完整内容，剩余1页未读，立即下载