HorizonNet：全景图像房间布局预测和PanoStretch数据增强

145 浏览量更新于2023-10-18 收藏 1.95MB PDF 举报

清华大学

三维重建

身份认证购VIP最低享 7 折!

30元优惠券

1047HorizonNet：使用1D表示和Pano Stretch数据增强的学习室布局国立清华大学{chengsun，chiweixiao}@ gapp.nthu.edu.twsunmin@ee.nthu.edu.twhtchen@cs.nthu.edu.tw图1：HorizonNet的3D重建房间布局的一些示例。摘要我们提出了一种新的方法来估计从一个单一的全景图像的三维房间布局的问题我们将房间布局表示为三个 1D 矢量，在每个图像列处，对所提出的网络HorizonNet经过训练用于预测1D布局，其性能优于以前的最先进方法。设计的后处理过程中恢复三维房间布局从一维预测可以自动推断房间的形状与低计算成本-它需要不到20毫秒的全景图像，而以前的作品可能需要几十秒。我们还提出了 Pano Stretch DataAugmentation，它可以使全景数据多样化，并应用于其他与全景相关的学习任务。由于非长方体布局的可用数据有限，我们从当前数据集中重新标记了65个通用布局以进行微调。我们的方法表现出良好的性能一般布局的定性结果和交叉验证。1. 介绍这项工作的目标是从全景图像中预测房间布局。大多数最先进的方法通过采用更有效的深度网络架构来解决这个问题，让他们的模型从图像中的不同线索中学习。关于房间结构的假设经常被用来约束解空间，这样深层模型的预测就不会偏离常见的情况太多。可以进一步执行后处理步骤以细化预测。给定用于训练的具有注释布局的多个图像，最先进的方法能够在测试数据上实现良好的结果。然而，获取高质量的房间布局注释的全景图像是劳动力需求。不同的人所做的注释可能不一致，因为墙壁边界的位置不明确，特别是对于装饰精美的房间。此外，当前可用的数据集不包括复杂房间布局的更多图像。复杂布局的注释将近似为长方体或L形布局，从而为训练和测试引入更多的模糊性。两个重要且相关的问题可进一步解决以改进现有技术的方法。第一个问题是缺乏更多具有精确注释的训练和验证数据。第二个问题是，如果没有更多的注释数据用于训练，深度网络不能太大，否则测试精度可能会由于过度拟合而降低收集更多的数据来训练更复杂的1048这种模式确实是有益的，也是可行的，但一种更有效的方式来提高绩效也应该受到欢迎。我们认为，如果我们对问题有更好的理解，并充分利用领域知识，我们可以提高性能，而无需获取更多的注释数据或使用更大的深度网络。数据扩充是深度学习中的一个常见过程，用于生成更多的训练数据。标准的数据增强算法，如随机裁剪或亮度变化的图像分类或对象检测可能不会有效的布局预测。我们的想法是考虑到潜在的几何约束，并设计一个更好的数据增强机制，专门用于训练布局预测深度网络。另一方面，而不是增加模型的复杂性，我们的目标是通过设计一个紧凑的几何约束表示来增强模型。因此，我们可以去除多余的自由度，并迫使模型更多地专注于学习布局预测的关键属性。我们的贡献如下：• 我们介绍了一个一维O（W）表示，编码的全景场景的整个房间的布局。使用这种表示进行训练允许我们的方法优于先前的现有技术结果，但需要更少的参数和更少的计算时间。• 我们提出了一种称为 Pano Stretch DataAugmentation的数据增强机制，该机制在训练期间动态生成全景图像，并在我们的实验中提高了所有设置下的准确性。这种数据扩充机制也具有提升其他任务的潜力（例如，语义分割、对象检测），其直接作用于全景。• 我们表明，在布局预测任务中利用RNN有助于提高准确性。RNN能够捕捉房间布局的长期几何模式• 由于1D表示和我们高效的后处理过程，我们的模型的计算成本非常低，并且该模型可以很容易地扩展到处理复杂的场景，而不是长方体形状或L形的布局。代码和数据可在： https ： //sunset1995.github.io/HorizonNet/.2. 相关工作从单视图RGB图像中估计房间布局是过去十年中的一个活跃研究课题。在这一领域已经发展了许多方法他们中的大多数利用曼哈顿世界的假设，即房间布局，甚至家具，都与三个打印轴对齐曼哈顿世界假设对布局估计问题施加了约束，并且基于该假设，曼哈顿对齐消失点也可以用于校正图像并提取用于推断布局的特征。Delage等人[6]训练动态贝叶斯网络以识别透视图像的每列中的地板-墙壁边界。许多方法基于提取的几何线索搜索Manhat-tan对齐布局。Lee等[18]使用方向图（OM）测试假设，而Hedau等人。[12]使用几何上下文（GC）[14]。Hedau等人[10]进一步用3D对象联合推断房间布局，例如，床后来的方法也使用了类似的策略，例如引入改进的评分函数[26，27]，使用曼哈顿结生成布局假设[22]，以及对对象和布局之间的交互进行建模[5，10，34]。上述方法仅处理透视图像。Zhang等人[32]建议从360° H-FOV全景图像中估计布局。他们扩展了以前的消失点检测，假设生成和评分假设的基础上OM，GC和对象的相互作用的方法，并将所有这些应用到martamas。Xu等[28]还使用OM、GC、对象检测和对象方向来重建3D布局。Yang等[29]以超像素和曼哈顿直线段为特征，用约束图表示问题。[31]的方法遵循使用更多地理度量和语义特征的类似方法。其他方法尝试使用图像梯度线索[21]或从多个全景图像[2]从全景中恢复楼层平面图。最近的方法更多地依赖于深度网络来改进布局估计。它们大多利用稠密预测模型对每个像素进行几何或语义分类对于透视图像，常见的方法是预测边界概率图[19，23]，边界类别[33，23]，布局表面类别[4，15]和拐角关键点热图[17]。可以对预测的密集图进行后处理以生成布局。已经开发了一些深度学习方法用于基于ARIMA的布局估计。Zou等人[35]直接从全景图预测角点概率图和边界图。他们还扩展了斯坦福大学的2D-3D数据集[1]，其中包含用于训练和评估的注释布局。Fernando-Labrador等人[9]在透视图像上训练深度网络在测试过程中，他们将预测的透视边界图拼接两个并行工程DuLa-Net [30]和CFL [8]显示了改进的定量结果，能够产生一般的房间形状，而不限于长方体形状。DuLa-Net [30]结合了来自1049传统的等距矩形视图和投影的地板和天花板视图。CFL [8]提出了专门用于等矩形图像的卷积核与现有的所有使用神经网络进行密集预测的布局估计方法不同，我们利用对齐的全景图像的属性来预测地板-墙壁和天花板-墙壁边界的位置，以及等距矩形图像的每列的墙壁-墙壁边界的存在。我们的模型只为图像的每列生成三个值，因此输出大小算法的时间复杂度从O（HW）降到O（W）。所提出的输出表示类似于[6]，但它们仅使用动态贝叶斯网络预测透视图像的每列的相比之下，我们的工作可以使用深度神经网络处理裂缝并识别地板-墙壁，天花板-墙壁和墙壁-墙壁边界。网络现有的作品[35，9，30，8]在同一任务上学习在整个图像上进行密集O（HW）预测，而我们的模型仅为每个图像列预测三个值RoomNet [17]模仿RNN“时间步长”等于细化步长。我们使用RNN，其中每个1D布局表示：网络输出的大小为3×1×1024。如示于图3，三个输出通道中的两个代表天花板（yc）和地板-Wall（yf）表示每一图像列的边界位置，而另一个（yw）表示存在壁-壁边界（即，角落）。 yc和yf的值被归一化为[−π/2，π/2]。由于将yw定义为具有0/1标签的二进制值向量会使其过于稀疏而无法检测（仅4对于简单的长方体布局，在1024个非零值中），我们设置yw（i）= cdx，其中i表示第i列，dx是从第i列到存在壁-壁边界的最近列的距离，并且c是常数。为了检查我们的方法对c的选择的鲁棒性，我们尝试了0。6，0。八比零。九比零。96，0。99、得到相似的结果因此，我们坚持c=0。96、所有的实验使用1D表示的一个好处是它受零主导背景的影响较小。即使在平滑后，边界和角点的2D全图像表示也会导致95%的零值[35]。我们的1D边界表示没有引入零背景，因为对yc或yf的每个分量的预测仅仅是对地面真值的实值回归。1D墙-墙（角）表示还将地面实况的峰-背景比从2N其中N是512·1024 10243. 方法我们的方法的目标是估计曼哈顿房间布局从全景图像，涵盖360H- FOV。与使用深度学习进行布局估计的传统密集预测（目标输出大小=O（HW））不同[4，9，7，15，19，23，33]，我们将问题公式化为重新对图像的每一列的边界进行粗化并对角进行分类（目标输出大小=O（W））。在第二节中介绍了为预测O（W）目标而训练的拟议HorizonNet第3.1条节中3.2，我们介绍一个简单的然而，快速和有效的后处理程序，从HorizonNet的输出导出布局。最后在Sec。3.3中，我们引入了Pano StretchData Augmentation，它通过沿x或z轴拉伸图像和地面实况布局来有效地动态增强训练数据（图3.3）。（五）。所有训练和测试图像都通过[35]中提到的全景图像对齐算法进行预处理。我们的方法利用对齐panora- mas的属性，即壁-壁边界是等矩形投影下的垂直线。因此，我们可以仅使用一个值来指示墙-墙边界的列位置而不是两个（每个用于边界端点）。3.1. HorizonNet图2示出了我们的网络的概述，其包括特征提取器和递归神经网络。该网络以尺寸为3×512 ×1024（通道，高度，宽度）的单个全景图像墙-墙角的数量。因此，1D墙-墙表示也较少受到零支配背景的影响此外，与2D全图像输出相比，1D紧凑输出的计算更有效如图所示，在SEC。3.2，从我们的三个1D表示恢复布局是简单，快速和有效的。特征提取器：我们采用ResNet-50 [11]作为特征提取器。 ResNet-50的每个块的输出与前一个块相比具有一半的空间分辨率。为了捕获低级和高级特征，ResNet-50的每个块都包含一系列卷积层，其中通道数量和高度分别减少了8（= 2×2×2）和16（= 4×2×2）倍。更具体地，每个块包含具有4×1、2×1、2×1内核大小和步幅的三个卷积层，并且每个Conv之后的通道的数量被重新确定。以2的系数降低。从每一层提取的所有特征被上采样到相同的宽度256（输入图像宽度的四分之一）并且被重新整形到相同的高度。最终的连接特征图大小为1024×1×256。每个Conv之后的激活函数都是ReLU，除了最后一个层中，我们使用Sigmoid为yw和身份功能为yc，yf。我们尝试了特征提取器的各种设置，包括更深的ResNet-101，每个ResNet块之后的卷积层的不同设计，以及上采样到图像宽度1024，并发现结果是相似的。因此，我们坚持使用更简单且计算效率更高的设置。1050WFWC图2：HorizonNet架构的图示。图3：我们的1D地面实况的可视化表示-说明使用或不使用RNN的模型之间的差异。3.2. 后处理我们在以下假设下恢复不限于长方体的一般房间布局：i）相交的壁彼此垂直（曼哈顿世界广场）;ii）所有房间均采用一层一顶的布局，地板和天花板相互平行; iii）摄像机高度为1.6米，遵循[32];iv）预处理步骤正确地将地板与y轴正交地对准。如第3.1，深度模型′y，y′，y′∈R1024包含每个的布局信息站。 yw表示墙-墙本达尔河 yc、yf（以绿色和蓝色绘制）表示天花板-墙壁边界和地板-墙壁边界的相对位置。为了更好的可视化，我们用大于一个像素的线宽绘制yw，yc，yf用于捕获全局信息的FCw′′图像栏。yf和yc中的每个值都是地板-墙壁边界和天花板-墙壁边界。 y′表示每个图像列的壁-壁存在的概率。恢复地板和天花板平面：对于图像的每一列，我们可以使用y′，y′中的相应值来计算天花板到地板的距离。基于-FC信息：递归神经网络（RNN）能够的学习模式和长期依赖性，假设摄像机的高度，我们可以投射出地板和墙壁的边界-aryy′从图像到3DXYZ位置（所有y都共享f′序列数据从几何学上讲，房间的任何角落可以从其他角的位置粗略推断直觉，原因LSTM [13]是一种RNN架构，存储有关其对细胞状态中其他区域的预测的信息，它能够准确预测遮挡区域。相同的Y）。天花板-墙边界yc共享相同的3DX、Z位置与y′在同一图像列上，因此可以计算地板和天花板之间的距离。我们将所有图像列计算结果的平均值作为最终的地板-天花板距离。恢复墙平面：我们首先在估计的Wall-W all概率y′上找到显著的峰值，其中two基于整个房间的几何图案在标准中：i）信号应该大于任何其他信号。我们的模型RNN用于预测y′，y′，y′列按列-nal在5°H-FOV内，以及ii）信号应大于CFW嗯。也就是说，RNN的序列长度与图像宽度。在我们的实验中，RNN预测0.05.图4a显示了投影y′(red点）上四列而不是每个时间步一列，这需要较少的计算时间而不损失精度。由于列的yc，yf，yw与其左邻居和右邻居都相关，因此我们采用双向RNN [25]来捕获来自两侧的信息图7和表1恶魔-飞机绿线是检测到的显著峰，其将顶壁边界（红点）分成多个部分。为了处理预处理中可能出现的水平对齐失败，我们计算每个部分的第一主成分，然后用平均值旋转场景1051Xz所有第一主成分的年龄角（图中右上图）（见第4a段）。现在我们有两种墙：i）X轴正交壁和ii）Z轴正交壁。我们从第一主成分所建议的低到高的方差构建墙。相邻墙被迫彼此正交，因此只有两个相邻墙尚未建造的墙才有决定正交类型的自由。我们使用一个简单的投票策略：每个投影的红点投票给0.16米（图右下角）（见第4a段）。投票最多的在图4b中描绘了两种特殊情况，其发生在两个相邻壁已经构造并且它们彼此正交时。最后，根据三个相邻曼哈顿连接平面的交点确定所有角点的XY Z我们的后处理过程的时间复杂度是O（W），其中W是图像宽度。从而可以有效地进行后处理;平均而言，完成所需时间少于20 ms。kx= 1。0，kz= 1。0（原始）kx=2。0，kz= 1。0kx= 1。0，kz= 2。0kx= 2。0，kz= 2。0图5：拟议的Pano Stretch数据增强的可视化。图像和地面实况布局（绿线）沿x或z轴拉伸（缩放y的效果可以由x和z覆盖）。这可以通过改变房间的长度和宽度来增加数据。这种增强策略改善了我们在所有实验设置下的定量结果（表3）。3.3. Pano拉伸数据增强对于360° H-FOV全景图像，我们建议在3D空间中沿轴拉伸以增强训练数据。为了实现这个目标，我们首先将UV空间下的每个像素表示为（u，v），其中u∈[−π，π]，v∈[−π/2，π/2]。的坐标（u，v）可以很容易地计算为列，等矩形图像的行，受旋转角度的影响摄像机。这里我们引入一个额外的变量d，它表示像素的深度我们稍后会证明d可以被消去，所以我们的最终方程不依赖于它。我们将像素投影到3D空间，x，y，z乘以k，k，k. 拉伸x′，y′，z′的方程为x y z如Eq. 1.一、(a) 描述我们如何从模型中恢复壁面输出.ωx′=kx·x=kx·d·cos（v）·cos（u）;遮挡角假阴性y′=ky·y=ky·d·sin（v）;z′=kz·z=kz·d·cos（v）·sin（u）.（一）相机中心相机中心然后，我们可以通过等式将拉伸的点投影回球体。2，进一步的等矩形投影。方程中的atan2是2自变量反正切。深度d被消除，因为它存在于atan 2的两个项中。我们固定ky=1，因为将ky设置为非1的值相当于将kx，kz乘以相同的值。(b) 两种特殊情况：我们不投票支持一堵墙，而是添加一个u′=在2（k）处· sin（u），k· int n（n）;根据两个突出的山峰和两堵墙的位置。′vZ x=atan2（ky·sin（v），.2图4：墙平面恢复的可视化。图4a是预处理算法未能正确对准全景的水平旋转的示例k2cos2（u）+k2sin（u）·cos（v））。（二）在我们的实现中，我们通过Eq. 3.第三章。对于目标图像中的每个像素，我们计算突出峰投影边界第一PCA向量相机中心投票墙在3D地板和天花板1052z对应的坐标，并通过双线性插值从源图像中采样其值。图5示出了可视化样本。.′′u=atan2（kx·sin（u），kz·cos（u））;v=arctan（k·tan（v′）·csc（u′）·sin（u））.（三）请注意，我们的Pano拉伸数据增强程序也可以用于其他任务（例如，语义分割的地面实况图、用于对象检测的边界框）。增强程序有可能提高这些任务的准确性。4. 实验4.1. 数据集我们使用与LayoutNet相同的数据集训练和评估我们的模型[35]。该数据集由PanoContext数据集[32]和由[35]注释的扩展的斯坦福2D-3D数据集[1]组成。为了训练我们的模型，我们生成3×1×1024来自注释的地面实况。我们遵循相同的LayoutNet的训练/验证/测试分割4.2. 培训详细信息Adam优化器[16]用于训练300个epoch的网络，批量大小为24，学习率为0.0003。L1损失用于天花板-墙壁边界（yc）和地板-墙壁边界（yf）。二元交叉熵损失用于壁-壁拐角（yw）。该网络在PyTorch中实现[20]。在三个NVIDIA GTX 1080 Ti GPU上完成训练需要四个小时表1.在PaonContext [32]数据集上评估的长方体布局估计的定量结果我们的方法在所有设置下都优于现有的所有方法。表1和表2总结了不同培训和测试设置的定量结果。为了澄清差异，DuLa-Net [30]和CFL [8]的输入分辨率是256×512，而LayoutNet [35]和我们的是512×1024。除了传统的增强技术-nique，CFL [8]是用随机擦除训练的，而我们的都是用Pano Stretch训练的DuLa-Net [30]没有报告角点误差和像素误差。我们的方法实现了国家的最先进的性能，并优于前，在所有设置的方法。定性结果：定性结果见图。6.我们根据它们的角点误差从最好到最差呈现结果。请在补充材料中查看更多结果。我们采用的数据扩充技术包括标准左右翻转、全景水平旋转和亮度改变。此外，我们利用提出的Pano Stretch Data Augmentation（Sec. 3.3)在训练中。拉伸因子kx、kz从均匀分布U[1，2]中采样，然后以概率0取采样值的倒数。五、工艺时间的Pano Stretch数据增强大约为130 ms/512×1024RGB图像。因此，在训练期间在飞行中应用是可行的。4.3. 长方体室结果我们通过在后处理步骤中仅选择四个最突出的峰来生成长方体空间3.2）。定量结果：我们的方法基于三个标准指标进行评估：i）3D IoU：从我们的预测构建的3D布局与计算时间：1D布局表示非常简单计算。前向传递单个512 x 1024RGB图像对于我们的具有和不具有RNN的HorizonNet分别需要8ms和50ms提取后处理步骤从我们的1D表示的布局只需要12ms。我们在单个NVIDIA Titan X GPU和Intel i7- 5820 K 3.30GHz CPU上评估结果报告的执行时间是所有测试数据的平均值。4.4. 消融研究消融实验如表3所示我们报告所有测试实例的平均结果为了进行公平的比较，我们还在LayoutNet [35]之后使用密集O（HW）预测进行实验，但用与我们的架构相同的主干替换U-Net1结果此设置显示在前两行中。我们不尝试RNN的密集O（HW）输出，因为它会消耗ii）角点误差：平均欧几里得距离预测角点和地面实况角点之间的差异（由图像对角线长度归一化）;iii）像素误差：预测的表面类与地面实况表面类之间的逐像素误差.1为了输出密集（全图像）概率图，我们将每个ResNet块之后的Conv层从同时减少高度和通道改为仅减少通道，然后上采样到与输入图像相同的空间维度。最后，四个块的处理特征被连接并通过Conv层以生成最终结果。方法3D IoU（%）角落误差（%）像素误差（%）在PanoContext数据集PanoContext [32]67.231.604.55[35]第三十五话74.481.063.34[30]第三十话77.42--CFL [8]78.790.792.49我们82.170.762.20在PanoContext + Stnfd.2D3D数据集[35]第三十五话75.121.023.18我们84.230.691.901053图6：长方体布局估计的定性结果。结果分别从四个组中取样，这四个组包括具有最佳0- 25%、25- 50%、50-75%和75-100%角误差的结果（从第一列到第四列显示）。绿线是地面实况布局，而橙色线是估计的。第一行中的图像来自PanoContext数据集[32]，而第二行来自Stanford 2D-3D数据集[1]。表2.在Stanford-2D 3D [1]数据集上评估的长方体布局估计的定量结果。我们的方法优于所有现有的方法在所有设置。太多的计算资源。我们可以看到，在我们的 1DO（W）布局表示上学习比传统的密集O（HW）布局表示更好。我们观察到，使用拟议的 Pano Stretch DataAugmentation进行训练请注意，所提出的数据增强方法也可以在其他任务中采用，并有可能提高其精度。请参阅在语义分割任务上使用Pano Stretch Data Aug-mentation的实验的补充材料。对于RNN列未被选中的行，图2中所示的RNN组件被完全连接的层取代我们的实验表明，在网络结构中使用RNN也提高了性能。图图7显示了使用和不使用RNN的一些代表性结果使用RNN的模型的原始输出与曼哈顿世界高度一致，即使没有后处理，图7：使用和不使用RNN的模型输出的可视化。我们绘制了地面真实值（绿色），带有RNN的模型的输出（黄色），以及没有RNN的模型的输出（洋红色）。这两个预测都是未经后处理的原始网络输出。在包含天花板光束、由较小的摄像机V-FOV引起的黑色缺失极区和遮挡区域的图像中，使用RNN的模型比不使用RNN的模型表现得更好演示了RNN捕捉整个房间的几何图案的能力。4.5. 非立方体房间结果由于PanoContext和Stan-ford 2D-3D数据集中的非长方体房间被标记为长方体，因此我们的模型从未被训练以识别非长方体布局和凹角。这种偏差使得我们的模型倾向于将形状复杂的房间预测为长方体。为了估计一般的房间布局，我们从训练分割中重新标记了65个房间来微调我们的训练模型我们对模型进行了300个epoch的微调，学习率为5e-5，批量大小为2。为了定量评估一般形状的房间的微调结果，我们使用13重交叉验证65重新注释的非长方体数据。结果为sum-方法3D IoU（%）角落误差（%）像素误差（%）在PanoContext数据集CFL [8]65.131.444.75我们75.570.943.18在Stnfd.2D3D数据集[35]第三十五话76.331.042.70[30]第三十话79.36--我们79.790.712.39在PanoContext + Stnfd.2D3D数据集[35]第三十五话77.510.922.421054输出形状拉伸Aug.RNN3D IoU（%）转角误差（%）像素误差（%）#参数FPS稠密O（HW）77.871.022.7367M98稠密O（HW）V79.640.742.3967M98我们的O（W）80.650.802.4325M119我们的O（W）V81.220.712.2825M119我们的O（W）V81.230.722.2057M20我们的O（W）V V83.740.651.9557M20表3.消融研究证明了我们方法中每个组件的有效性我们表明，我们提出的所有设计都可以提高定量结果。此外，我们提出的1D布局表示显着减少了参数的数量FPS是针对NVIDIA TITAN X GPU上的3×512×1024图像的前向通过进行测量的图8：非长方体布局估计的定性结果。被遮挡的墙填充为黑色。等矩形图像中的蓝线是估计的房间布局边界。在表4中显示。我们描述了图1和图8中测试和验证分割的重构非长方体布局的一些示例。更多重建布局请参见补充材料。结果表明，我们的方法可以很好地工作在一般的房间布局，即使角落被其他墙壁遮挡。方法Finetuning3D IoU（%）LayoutNet74.1LayoutNetV75.1我们77.4我们V82.5表4.对65个重新注释的非长方体数据的定量结果。通过13重验证来评估微调的结果。5. 结论我们已经提出了一个新的1D表示的任务，估计房间布局的全景。所提出的HorizonNet用这种1D表示进行训练，超过了以前最先进的方法，并且需要更少的计算资源。我们的后处理方法从模型输出中恢复3D布局是快速有效的，即使有遮挡的角落，它也适用于复杂的房间布局。所提出的Pano Stretch数据增强方法进一步改进了我们的结果，并且也可以应用于其他全景任务的训练过程以进行潜在的改进。鸣谢：这项研究得到了iStaging和MOST赠款106-2221-E-007-080-MY 3 ， 107-2218-E-007-047 和 108-2634-F-001-007的部分支持。1055引用[1] I. Armeni，A. Sax，A. R. Zamir和S. Savarese用于室内场景理解的联合2D-3D语义数据。ArXiv电子印刷品，2月2017年。[2] Ricardo Cabral和Yasutaka Furukawa从图像的分段平面和紧凑布局重建。在 Computer Vision and PatternRecognition（CVPR），2014 IEEE Conference on，第628-635页中IEEE，2014。[3] James M Coughlan和Alan L Yuille。曼哈顿世界：基于贝叶斯推断的单幅图像罗盘方位。计算机视觉，1999年。 The Proceedings of the SeventhIEEE InternationalConference on，第2卷，第941-947页。IEEE，1999年。[4] Saumitro Dasgupta，Kuan Fang，Kevin Chen，and SilvioSavarese.延迟：用于杂乱室内场景的鲁棒空间布局估计。在IEEE计算机视觉和模式识别会议集，第616- 624页[5] Luca Del Pero ， Joshua Bowdish ， Bonnie Kermgard ，Emily Hartley，and Kobus Barnard.使用复合3d对象模型理解贝叶斯在 Proceedings of the IEEE Conference onComputer Vision and Pattern Appraisition，第153-160页[6] Erick Delage，Honglak Lee和Andrew Y Ng。室内单幅图像自主三维重建的动态贝叶斯网络模型计算机视觉和模式识别，2006年IEEE计算机协会会议，第2卷，第2418-2428页IEEE，2006年。[7] Clara Fernando-Labrador ， Jose M Facil ， AlejandroPerez-Yus ， Cedric Demonceaux ， and Jose J Guerrero.Panoroom ：从球体到3D布局。arXiv预印本arXiv：1808.09879，2018。[8] Clara Fernando-Labrador ， Jos M Festival ， AlejandroPerez-Yus，Cdric Demonceaux，Javier Civera，and Jos JGuerrero.布局的核心：从360图像端到端的布局恢复。arXiv：1903.08094，2019。[9] Clara Fernando-Labrador，Alejandro Perez-Yus，GonzaloLopez-Nicolas，and Jose J Guerrero.使用几何和深度学习的全景图像布局。arXiv预印本arXiv：1806.08294，2018。[10] Abhinav Gupta ， Martial Hebert ， Takeo Kanade ， andDavid M Blei.使用物体和表面的体积推理来估计房间的空间布局。神经信息处理系统的进展，第1288-1296页，2010年[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在2016年IEEE计算机视觉和模式识别会议，CVPR 2016，美国内华达州拉斯维加斯，2016年6月27-30日，第770-778页[12] Varsha Hedau，Derek Hoiem，and David Forsyth.恢复杂乱房间的空间布局计算机视觉，2009年IEEE第12届国际会议，第1849- 1856页IEEE，2009年。[13] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735[14] Derek Hoiem、Alexei A Efros和Martial Hebert。从图像中检索曲面布局 International Journal of ComputerVision，75（1）：151[15] Hamid Izadinia，Qi Shan，and Steven M Seitz.Im2cad。在CVPR，2017年。[16] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。[17] Chen-YuLee ， VijayBadrinarayanan ， TomaszMalisiewicz，and Andrew Rabinovich. Roomnet：端到端的房间布局估计。在计算机视觉（ICCV），2017 IEEE国际会议，第4875-4884页中IEEE，2017年。[18] David C Lee，Martial Hebert和Takeo Kanade。单幅图像结构恢复的几何推理。在计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议，第2136-2143页。IEEE，2009年。[19] Arun Mallya和Svetlana Lazebnik。用于室内场景布局预测的学习信息边缘图。在 Proceedings of the IEEEInternational Conference on ComputerVision，第936-944页[20] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017年。[21] Giovanni Pintore 、 Valeria Garro 、 Fabio Ganovelli 、Enrico Gobbetti和Marco Agus。全方位的图像捕捉移动设备上的快速自动生成2. 5 d的室内地图。计算机视觉应用（WACV），2016年IEEE冬季会议，第1-9页。IEEE，2016.[22] Srikumar Ramalingam、Jaishanker K Pillai、Arpit Jain和Yuichi Taguchi。用于室内场景空间推理的曼哈顿连接目录。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第3065-3072页[23] Yuzhuo Ren，Shangwen Li，Chen Chen，and C-C JayKuo.一种由粗到细的室内布局估计（cfile）方法。亚洲计算机视觉会议，第36-51页。施普林格，2016年。[24] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234-241页。施普林格，2015年。[25] Mike Schuster和Kuldip K Paliwal。双向递归神经网络。IEEE Transactions on Signal Processing ， 45 （ 11 ）：2673[26] 亚历山大G施温和拉奎尔Urtasun。三维室内场景理解的高效精确推理。欧洲计算机视觉会议，第299-313页。Springer，2012.[27] R Urtasun，M Pollefeys，T Hazan和AG Schwing。用于室内三维场景理解的有效结构化预测。在2012年IEEE计算机视觉和模式识别上，第2815-2822页。IEEE，2012。[28] JiuXu ， BjoürnStenge r， TommiKerola， and TonyTung.Pano2cad：从一个单一的全景图像的房间布局。计算机视觉应用（WACV），2017年IEEE冬季会议，第354-1056362页。IEEE，2017年。1057[29] 杨昊和张辉。从单个全景图中高效地恢复3d房间形状在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第5422-5430页[30] Shang-Ta Yang ， Fu-En Wang ， Chi-Han Peng ， PeterWonka，Min Sun，and Hung-Kuo Chu.Dula-net：一个双投影网络，用于从单个rgb全景图估计房间布局。arXiv预印本arXiv：1811.11977，2018。[31] Yang Yang，Shi Jin，Ruiyang Liu，Sing Bing Kang，and Jingyi Yu.从单张全景图自动建立室内三维场景。在IEEE计算机视觉和模式识别会议论文集，第3926-3934页，2018年。[32] Yinda Zhang，Shuran Song，Ping Tan ，and JianxiongXiao. Panocontext：一个用于全景场景理解的全房间3D上下文模型欧洲计算机视觉会议，第 668-686页。Springer，2014.[33] Hao Zhao ， Ming Lu ， Anbang Yao ， Yiwen Guo ，Yurong Chen，and Li Zhang.物理学启发的优化的se-mantictransferfeatures ：一种替代方法，房间布局估计.arXiv预印本arXiv：1707.00383，2017。[34] Yibiao Zhao和Song-Chun Zhu。通过集成功能、几何和外观模型进行场景解析在 Proceedings of the IEEEConference on Computer Vision and Pattern Recognition，第3119-3126页[35] Chuhang Zou ， Alex Colburn ， Qi Shan ， and DerekHoiem. Layoutnet：从一个单一的rgb图像重建三维房间布局。In Proceedings of the IEEE Con

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

HorizonNet：全景图像房间布局预测和Pano Stretch数据增强

最新资源

HorizonNet：全景图像房间布局预测和Pano Stretch数据增强

HorizonNet:Horizo​​nNet的Pytorch实施

全景图爬取程序Pano

有类似720的服务商吗

pano2vr皮肤素材

pano2vr皮肤模板

写一个可以全景预览的html

opencv stitch 参数表

android 从零打造vr播放器 pano360

我想要将视频合成全景图片请问代码怎么写

photo-sphere-viewer-4 panoData 怎么用的

Pano2VR官网是什么

android Cardboard SDK实现全景图片功能

opencv超广角图像融合

多视点全景图的制作方法

有啥和krpano一样的免费软件

使用python opencv 实现相机的全景拍照

利用三张不同角度拍摄的特定场景图像，实现图像拼接，要求用C++和OPENCV编程实现，使用stitcher函数进行图像拼接

pano2qtvr2.2.3

利用三张不同角度拍摄的特定场景图像，实现图像拼接，要求用C++和OPENCV编程实现，使用stitching函数进行图像拼接

PANo-SLAM的呢

最新资源

HorizonNet:HorizonNet的Pytorch实施