没有合适的资源?快使用搜索试试~ 我知道了~
Feature Extractor512x1024x31x1Global BlockShifted Window BlockGlobal BlockWindow Blockx 2SWG-TransformerNormal (𝒏)Gradient (𝒈)Room Height (𝒉)Post-Processing3D Visualizing256x1024256x1024256x1Horizon-Depth (𝒅)256x1Feature Sequence16540LGT-Net:具有几何感知Transformer网络的室内全景房间布局估计0Zhigang Jiang 1, 2 Zhongzheng Xiang 2 Jinhua Xu 1 * Ming Zhao 201华东师范大学2易我科技0zigjiang@gmail.com even and just@126.com jhxu@cs.ecnu.edu.cn zhaoming@123kanfang.com0摘要0使用深度神经网络通过单个全景图进行的3D房间布局估计取得了巨大进展。然而,先前的方法无法仅通过边界或水平深度获得房间布局的高效几何感知。我们提出使用水平深度和房间高度来获得房间布局在水平和垂直方向上的全方位几何感知。此外,我们提出了一种具有法线和法线梯度的平面几何感知损失函数,以监督墙壁的平面性和角落的转向。我们提出了一种名为LGT-Net的高效网络,用于房间布局估计,其中包含一种名为SWG-Transformer的新型Transformer架构,用于建模几何关系。SWG-Transformer由(Shifted)Window Blocks和GlobalBlocks组成,以结合局部和全局的几何关系。此外,我们设计了一种新颖的Transformer的相对位置嵌入,以增强全景图的空间识别能力。实验表明,所提出的LGT-Net在基准数据集上比当前最先进的方法(SOTA)表现更好。代码公开可用于https://github.com/zhigangjiang/LGT-Net。01. 引言0通过室内RGB图像估计3D房间布局的目标是定位角落或地板边界和天花板边界,如图3a所示,这在3D场景理解[24]中起着关键作用。全景图像比透视图像具有更宽(360°)的视野范围(FoV),并包含整个房间的上下文信息[30]。随着深度神经网络的发展和全景相机在近年来的普及,通过单个全景图进行的3D房间布局估计取得了巨大成就[23, 28,32]。大多数房间布局符合亚特兰大世界假设[20],具有水平的地板和天花板,以及0*通讯作者。0图1.所提出的LGT-Net的整体架构。网络使用水平深度和房间高度的全方位几何感知损失以及法线和法线梯度的平面几何感知损失来从单个全景图中估计房间布局。我们通过水平深度和房间高度可视化预测的边界(绿色),通过曼哈顿约束进行后处理的平面图(红色),最终输出3D房间布局。0垂直墙壁[18]。因此,房间布局可以通过地板边界和房间高度来表示,如图3a所示。然而,先前的方法[23, 24,26]通过天花板边界估计房间高度。网络使用相同的输出分支预测地板边界和天花板边界,它们相互影响,因为它们需要预测房间布局的水平形状和垂直高度。同时,大多数先前的方法[23, 28,32]在后处理中使用曼哈顿约束[3]或直接简化边界[18],而不考虑墙壁的平面属性来约束网络输出结果。此外,对于将房间布局估计任务形式化为1D序列预测的模型[23, 24,26],需要一个序列处理器来建模几何关系。双向长短时记忆(Bi-LSTM)[11, 21]在[23,26]中使用。Transformer[25]是一种用于序列处理的高效框架,在自然语言处理(NLP)任务中取得了巨大成功。最近,视觉Transformer(ViT)[5]在计算机视觉领域展示了强大的能力。然而,据我们所知,目前还没有专门为全景图设计的Transformer架构。由于上述问题,我们提出了一种名为LGT-Net的高效网络,用于全景房间布局估计。它包含一个特征提取器,将全景图转换为特征序列,以及一个Transformer架构作为序列处理器。我们的网络在输出层通过两个分支直接预测房间高度和地板边界,如图1所示。受到Wang等人的启发,我们用水平深度表示地板边界。因此,我们提出了一种全方位的几何感知损失函数,计算水平深度和房间高度的误差,从而在水平和垂直方向上提供更好的房间布局的几何感知。此外,我们观察到墙壁的平面属性和角落的转向属性。因此,我们提出使用法线一致性和法线误差的梯度的平面几何感知损失函数来监督这些属性。此外,我们设计了一种名为SWG-Transformer的新型Transformer架构作为我们网络的序列处理器,它由(Shifted)Window Blocks和GlobalBlocks组成,以结合局部和全局的几何关系,如图1所示。通过注意机制,我们的SWG-Transformer可以比双向LSTM更好地处理全景图的左右边界。此外,我们设计了一种新颖的Transformer架构的相对位置嵌入,以增强全景图的空间识别能力。为了证明我们提出的方法的有效性,我们在基准数据集上进行了大量实验,包括ZInD [4]数据集。同时,我们在MatterportLayout[33]数据集上进行了消融研究,包括损失函数、网络架构和Transformer的位置嵌入,以证明每个组件的有效性。实验证明,我们提出的方法比SOTA表现更好。我们的工作的主要贡献如下:16550LSTM)[11, 21]在[23,26]中使用。Transformer[25]是一种用于序列处理的高效框架,在自然语言处理(NLP)任务中取得了巨大成功。最近,视觉Transformer(ViT)[5]在计算机视觉领域展示了强大的能力。然而,据我们所知,目前还没有专门为全景图设计的Transformer架构。由于上述问题,我们提出了一种名为LGT-Net的高效网络,用于全景房间布局估计。它包含一个特征提取器,将全景图转换为特征序列,以及一个Transformer架构作为序列处理器。我们的网络在输出层通过两个分支直接预测房间高度和地板边界,如图1所示。受到Wang等人的启发,我们用水平深度表示地板边界。因此,我们提出了一种全方位的几何感知损失函数,计算水平深度和房间高度的误差,从而在水平和垂直方向上提供更好的房间布局的几何感知。此外,我们观察到墙壁的平面属性和角落的转向属性。因此,我们提出使用法线一致性和法线误差的梯度的平面几何感知损失函数来监督这些属性。此外,我们设计了一种名为SWG-Transformer的新型Transformer架构作为我们网络的序列处理器,它由(Shifted)WindowBlocks和GlobalBlocks组成,以结合局部和全局的几何关系,如图1所示。通过注意机制,我们的SWG-Transformer可以比双向LSTM更好地处理全景图的左右边界。此外,我们设计了一种新颖的Transformer架构的相对位置嵌入,以增强全景图的空间识别能力。为了证明我们提出的方法的有效性,我们在基准数据集上进行了大量实验,包括ZInD[4]数据集。同时,我们在MatterportLayout[33]数据集上进行了消融研究,包括损失函数、网络架构和Transformer的位置嵌入,以证明每个组件的有效性。实验证明,我们提出的方法比SOTA表现更好。我们的工作的主要贡献如下:0•我们通过水平深度和房间高度表示房间布局,并通过网络的两个分支输出它们。此外,我们计算水平深度和房间高度的误差,形成全方位几何感知损失函数,并计算法线和梯度误差形成平面几何感知损失函数。0•我们表明,将Transformer作为序列处理器对全景理解是有帮助的。我们提出的SWG-Transformer可以更好地建立0房间布局的局部和全局几何关系。0•我们特别设计了Transformer的相对位置嵌入,以增强全景的空间识别能力。02. 相关工作0全景房间布局估计先前的方法主要遵循曼哈顿世界假设[3]或较不严格的亚特兰大世界假设[20],从全景图像中估计房间布局并约束后处理。卷积神经网络(CNN)已被用于更好地估计房间布局。Zou等人[32]提出LayoutNet来预测边界和角点的概率图,并使用布局参数回归器预测最终布局。同时,他们扩展了斯坦福[1]数据集的长方体布局注释。Yang等人[28]提出Dula-Net来预测在等距视图和天花板透视视图下的地板和天花板概率图。Fernandez等人[8]提出使用等距卷积(EquiConvs)来估计房间布局。Sun等人[23]将布局估计任务从2D密集预测简化为1D序列预测。他们提出HorizonNet通过基于ResNet-50[10]的特征提取器提取序列,然后使用Bi-LSTM作为序列处理器建立全局关系。我们也使用由特征提取器和序列处理器组成的框架。Zou等人[33]提出改进版本LayoutNet v2和Dula-Netv2,在长方体数据集上的性能优于原始方法,并提出了通用的MatterportLay-out数据集。然而,他们的实验表明HorizonNet[23]在通用数据集上更高效。Pintore等人[18]提出AtlantaNet通过同一网络实例预测地板和天花板边界概率图,并直接简化[6]输出边界作为后处理。最近,Wang等人[26]提出LE D 2-Net[26]将房间布局估计形式化为预测水平平面上的深度(水平深度),并且他们可以在合成的Structured3D[31]数据集上进行深度信息的预训练。Sun等人[24]提出HoHoNet通过重新设计特征提取器,使用高效高度压缩(EHC)模块,并使用多头自注意力(MSA)[25]作为序列处理器,而不是Bi-LSTM,来改进HorizonNet。0几何感知Wang等人[26]提出了一种基于水平深度的房间布局估计的几何感知损失函数,仅在水平方向上有效。Hu等人[12]提出使用法线和深度梯度损失来改善透视图像的深度估计性能。Eder等人[7]提出平面-𝜃!𝜙#!"𝜙#!#𝑝$𝜋−𝜋0.5𝜋−0.5𝜋𝜃!𝑝*−ℎ+𝜙$𝜙*𝜙#!"ℎ#−ℎ,−ℎ#"𝑝̅!#𝑝+𝑝̅!" 𝑝+-𝑝,𝑝,-p = (x, y, z),D(p) =x2 + z2.(1)(2)̸16560�0�0�0�0�0(b) (a)0图2. 3D点与全景图之间的映射关系。 (a)3D空间中的坐标关系,其中h f ( ¯ h c)是从相机中心到地板(天花板)的真实距离。 (b)全景图上的经纬度(θ,φ)关系。0利用曲率、法线和点到平面距离来改进全景图像深度估计的性能的感知损失。这些工作启发我们提出了一种更有效的几何感知损失函数。0Transformer最近,ViT表明Transformer架构在视觉分类任务中可以与CNN竞争。此外,改进的ViT网络(例如T2T-ViT [29],PVT[27]和Swin-Transformer[15])证明了Transformer架构能够超越CNN。受Swin-Transformer的启发,我们利用窗口分区来减少计算量并增强局部建模能力。然而,仅使用窗口分区会导致较低的全局建模能力。因此,我们提出的SWG-Transformer由(Shifted)Window Blocks和GlobalBlocks组成,以结合局部和全局的几何关系。03. 方法0我们提出的方法旨在从单个全景图中估计3D房间布局。我们首先用水平深度和房间高度描述房间布局表示,并展示它们可以实现全方位的几何感知(第3.1节)。然后,我们介绍我们提出的损失函数,它由全方位几何感知损失和平面几何感知损失组成(第3.2节)。最后,我们描述了LGT-Net的网络架构,并使用SWG-Transformer建立房间布局的局部和全局几何关系(第3.3节)。03.1. 全景房间布局表示0我们通过地板边界和房间高度来表示房间布局,如图3a所示。我们采用采样逼近方案来计算地板边界。具体而言,使用等经度间隔采样N个点 { p i } N i =1 。0在我们的实现中,默认情况下,采样点的经度表示为 { θ i = 2 π ( i0N − 0 . 5) } N i =1 。然后,我们将点 { p i } N i =1转换为水平深度序列 { d i = D ( p i ) } N i =1 :0因此,我们可以通过预测水平深度序列和房间高度来估计房间布局。地面平面上的地板边界在水平方向上很敏感,如图3a所示。HorizonNet[23]预测天花板和地板边界的纬度并计算误差。然而,当两个采样点的纬度误差相等时(例如,| φ 1 − ¯ φ f i | = |φ 2 − ¯ φ f i |),相应的水平深度误差可能不同(例如,| D ( p 1 ) − D(¯ p f i ) | > | D ( p 2 ) − D (¯ p f i ) |),如图2所示。因此,我们预测水平深度并计算误差,以更好地感知房间布局在水平方向上的几何关系。此外,房间高度在垂直方向上很敏感,如图3a所示。LE D 2 -Net[26]也预测纬度,但通过投影到地面真实地板(天花板)平面来计算误差。在推理过程中,它通过天花板和地板边界的水平深度的一致性计算房间高度。然而,当两个采样点的天花板水平深度误差相等时(例如,| D ( p ′ 3 ) − D (¯ p c i )| = | D ( p ′ 4 ) − D (¯ p c i ) |),相应的房间高度误差可能不同(例如,p ′ 3 和 p ′ 4通过地面真实水平深度 D (¯ p c i ) 的一致性转换为 p 3 和p 4 ,且 | h 3 − ¯ h c | < | h 4 − ¯ h c |),如图2所示。因此,我们直接预测房间高度并计算误差,以更好地感知房间布局在垂直方向上的几何关系。因此,我们提出了一种全方位几何感知损失函数,用于计算水平深度和房间高度的误差。表4显示了我们方法的改进。03.2. 损失函数0水平深度和房间高度对于水平深度和房间高度,我们应用L1损失:0Ld = 10N0i∈N|di−¯di|,0Lh = |h − ¯h|,0其中¯di(¯h)是地面真实的水平深度(房间高度),di(h)是预测值。0法线如图3所示,每个墙面都是一个平面,但同一墙面上的位置可能具有不同的水平深度(例如,D(pi−1) ≠D(pi))。然而,法线在同一墙面上的位置应保持一致。因此,我们使用法线一致性来监督墙面的平面属性。具体而言,当网络预测水平深度序列{di}Ni=1时,我们将每个水平深度di转换为相应的3D点pi,并获得始终垂直于y轴的法线向量ni。然后,我们计算余弦相似度以获得法线损失:Ceiling-BoundaryFloor-BoundaryRoom HeightVertical DirectionHorizontal Direction𝑝!"#𝑝!𝑛!Wall𝑝!$#𝑛!$#𝑝%𝑝%"#𝑛&CornerWallCamera Center(3)Feature ExtractorIn our implementation, the featureextractor uses the architecture proposed in HorizonNet[23] based on ResNet-50 [10].The architecture takes apanorama with dimension of 512×1024×3 (height, width,channel) as input and gets 2D feature maps of 4 differentscales by ResNet-50. Then, it compresses the height andNSWG-TransformerIn our proposed SWG-Transformer,each loop contains four successive blocks, in the follow-ing order: Window Block, Global Block, Shifted WindowBlock, Global Block. The default loop is repeated twice(×2) for a total of 8 blocks, as shown in Fig. 1. Each blockfollows the basic Transformer [25] encoder architecture, asshown in Fig. 4a, and the difference lies in the operationsbefore and after MSA. Moreover, the dimension of the se-quence and corresponding positions of tokens are the samein the input sequence and output sequence of each block.In Window Block, we use window partition for the in-put feature sequence and getNNw window feature sequencesRNw×D before MSA, where Nw denotes the window lengthand is set to 16 by default in our implementation.Thewindow partition enhances local geometry relations andreduces the computation when calculating self-attention.Moreover, the window feature sequences are merged afterthe MSA, as shown in Fig. 4b.Shifted Window Block aims to connect adjacent win-dows to enhance information interaction, and it is based onthe Window Block. We roll the input feature sequence with16570(a) 全向几何感知。0�0�0�0�0(b) 平面几何感知。0图3.房间布局的几何感知示意图。(a)水平和垂直方向影响房间布局。我们通过水平深度和房间高度提出全向几何感知损失函数。(b)法线提供平面几何感知。0同一墙面上的不同位置应保持一致。因此,我们使用法线一致性来监督墙面的平面属性。具体而言,当网络预测水平深度序列{di}Ni=1时,我们将每个水平深度di转换为相应的3D点pi,并获得始终垂直于y轴的法线向量ni。然后,我们计算余弦相似度以获得法线损失:0pi = (di sin(θi), hf, di cos(θi)),0ni = Mr(pi+1 0∥pi+1 −)T,0Ln = 10N0i∈N (−ni ∙¯ni),02,¯ni是法线向量的真实值,ni是预测的法线向量。0法线的梯度法线在角落附近发生变化,如图3b所示。为了监督角落的转向,我们计算n i−1 和n i+1之间的夹角来表示法线角度的梯度gi,然后应用L1损失:gi= arccos(n i−1 ∙ n i+1),0Lg = 10N0i∈N |gi−¯gi|,(4)0其中¯gi和gi分别是真实梯度和预测梯度。0总损失与水平深度和房间高度相关的损失项增强了全向几何感知。与法线和梯度相对应的损失项增强了平面几何感知。因此,为了增强这两个方面,我们使用以下总损失函数:0L = λLd + µLh + ν(Ln + Lg),(5)0其中λ,µ,ν∈R是用于平衡每个组件损失贡献的超参数。03.3. 网络0我们提出的LGT-Net由特征提取器和序列处理器组成,如图1所示。特征提取器从全景图中提取特征序列。然后,我们提出的SWG-Transformer处理特征序列。最后,我们的网络通过输出层的两个分支分别预测水平深度序列和房间高度值。04并将它们连接起来,最后输出一个特征序列RN×D,其中D在我们的实现中为1024。此外,我们还可以使用Sun等人提出的EHC模块[24]或ViT[5]的PatchEmbedding[5](在第4.4节中描述)作为特征提取器来提取特征序列。0在窗口分区之前,将2作为其偏移量。为了在合并窗口特征序列后恢复特征序列的原始位置,我们执行一个反向滚动操作,如图4c所示。在全局窗口块中,像窗口分区和滚动这样的操作是不必要的。它遵循原始的Transformer[25]编码器架构,并旨在增强全局几何关系,如图4d所示。0位置嵌入由于纯注意力模块对于区分标记的位置不敏感,空间识别能力会被削弱。𝑏!𝑏"𝑏#𝑏$𝑏#𝑏"𝑏"𝑏!𝑏"𝑏#𝑏$𝑏#𝑏#𝑏"𝑏!𝑏"𝑏#𝑏$𝑏$𝑏#𝑏"𝑏!𝑏"𝑏#𝑏#𝑏$𝑏#𝑏"𝑏!𝑏"𝑏"𝑏#𝑏$𝑏#𝑏"𝑏!16580MSA0特征序列0G-RPE0(d)全局块0特征序列0窗口分区0MSA0W-RPE0窗口合并0(b)窗口块0MSA0特征序列0滚动0窗口分区0窗口合并0反向滚动0W-RPE0(c)移位窗口块0加和和归一化0前馈0加和和归一化0特征序列0(a)基本Transformer编码器0图4.SWG-Transformer块的示意图。W-RPE和G-RPE集成到每个块的MSA中。(a)所有块都基于原始Transformer[25]编码器。(b)WindowBlock在MSA之前和之后需要分区和合并窗口。(c)Shifted Window Block在WindowBlock操作之前和之后需要滚动和反向滚动序列特征。(d)Global Block不添加额外操作。0特征序列0图5.(a)全景特征序列是一个环形结构。(b)全局块的相对位置偏置矩阵示意图。0识别能力会被削弱。因此,在计算自注意力时,我们使用T5[19]的相对位置嵌入来增强空间识别能力。具体来说,我们将MSA的输入序列表示为X = { x i } M i=1,其中M是序列长度,x i ∈ R D。将偏置矩阵B ∈ R M× M添加到缩放的查询-键乘积[25]中:0α ij = 10D ( x i W Q )( x j W K ) T +0Attention(X) = Softmax(α)(XW V),(6)0其中 W Q,W K,W V ∈ R D×D 是可学习的投影矩阵,每个偏置 B ij来自可学习的标量表。在(Shifted)Window Block中,M = Nw。我们将可学习的标量表表示为 { b k } N w − 1 k = − N w +1,并且 B ij 对应于 b j −i。这个方案被称为 W-RPE,并且集成到 MSA 中,如图4 b和图4 c所示。在GlobalBlock中,M =N。如图5a所示,特征序列是一个环形结构。如果我们使用类似于WindowBlock的方案,并将可学习的标量表表示为 { b k } N − 1 k = − N+1,那么会导致相同的距离从不同方向表示两次。具体来说,B ij 对应于 b j −i,并且还对应于 b j − N −i。因此,我们提出了一种只表示距离的对称表示,并将可学习的标量表表示为 { b k } n k=0,其中 n = N0当|j - i| ≤ N/2时,B ij 对应于 b | j - i |,否则B ij 对应于 bN - | j - i|。偏置矩阵的可视化如图5b所示。我们将这个方案称为G-RPE,并将其集成到MSA中,如图4 d所示。04. 实验0我们使用PyTorch[17]实现了LGT-Net,并使用Adam优化器[14],其中 β 1 = 0.9,β 2 =0.999,学习率设置为0.0001。我们在单个NVIDIA GTX1080 TiGPU上对ZInD[4]数据集进行了200个epoch的训练,在其他数据集上进行了1000个epoch的训练,批量大小为6。我们采用了Horizon-Net[23]中提到的相同的数据增强方法,包括标准的左右翻转、全景水平旋转、亮度变化和全景拉伸。此外,我们在公式(5)中设置了超参数 λ = 0.9,µ =0.1,ν = 0.1。04.1. 数据集0PanoContext和Stanford 2D-3D PanoContext [ 30]数据集包含514个带注释的长方体房间布局。Stanford2D-3D [ 1 ]数据集包含由Zou等人[ 32]标记的552个长方体房间布局,并且垂直视场角小于其他数据集。我们按照LayoutNet [ 32]的相同训练/验证/测试划分来评估这两个数据集。0MatterportLayout MatterportLayout [ 33 ]数据集是Matterport3D [2 ]数据集的子集。它包含由Zou等人[ 33]标记的2295个一般房间布局。我们按照相同的训练/验证/测试划分进行评估。0ZInD据我们所知,ZInD [ 4]数据集目前是带有房间布局注释的最大数据集。它更好地模拟了真实世界的数据分布,因为它包括长方体、更一般的曼哈顿、非曼哈顿和非平坦天花板布局。ZInD [ 4]数据集包含来自1575个真实未装修住宅的67448个全景图1https://github.com/zillow/zind16590方法 3DIoU(%) CE(%) PE(%)0在PanoContext + Whole Stnfd.2D3D数据集上训练0LayoutNet v2 [ 33 ] 85.02 0.63 1.79 DuLa-Net v2 [ 33 ] 83.770.81 2.43 HorizonNet [ 23 ] 82.63 0.74 2.17 我们的模型 85.16- - 我们的模型 [带后处理] 84.94 0.69 2.070在Stnfd.2D3D + Whole PanoContext数据集上训练0LayoutNet v2 [ 33 ] 82.66 0.83 2.59 DuLa-Net v2 [ 33 ] 86.600.67 2.48 HorizonNet [ 23 ] 82.72 0.69 2.27 AtlantaNet [ 18 ]83.94 0.71 2.18 我们的模型 85.76 - - 我们的模型 [带后处理]86.03 0.63 2.110表1. 在PaonContext [ 30 ](上)和Stanford 2D–3D [ 1](下)数据集上评估的长方体布局估计的定量结果。0homes1将数据集分为“简单”子集和“原始”布局注释,其中每个房间布局都没有任何连续的遮挡角。我们在“简单”子集上进行实验,并使用“原始”布局注释,并按照每个房屋的官方训练/验证/测试划分。此外,我们过滤掉不包含摄像机中心的0.8%布局注释。总共,我们有包含24882、3080和3170个全景图的训练、验证和测试划分。04.2. 评估指标0我们使用Zou等人提出的标准评估指标:楼层形状的交并比(2DIoU)和3D房间布局的交并比(3DIoU),角点误差(CE)和像素误差(PE)。同时,我们使用摄像机高度为1.6米和像素百分比(δ1),其中预测深度与真实深度之间的比值在Zou等人提到的1.25阈值内,评估深度准确性。04.3. 长方体房间结果0由于单个数据集中的数据有限,可能会导致偏差。我们使用Zou等人提到的组合数据集方案进行训练。组合数据集包含当前评估数据集的训练集划分和另一个完整数据集。我们在表1中提供了长方体布局的定量结果。此外,一些基准结果包括后处理。我们还报告了使用DuLa-Net [ 28]进行后处理的结果(标记为“我们的模型[带后处理]”)。同时,报告了CE和PE值。0PanoContext LayoutNet v2 [ 33]的CE和PE性能略优于我们的模型。我们认为这是由于它的2D卷积用于角点定位和后处理。0方法 2DIoU(%) 3DIoU(%) RMSE δ 10LayoutNet v2 [ 33 ] 78.73 75.82 0.258 0.871 DuLa-Net v2 [ 33] 78.82 75.05 0.291 0.818 HorizonNet [ 23 ] 81.71 79.11 0.1970.929 AtlantaNet [ 18 ] 82.09 80.02 - - HoHoNet [ 24 ] 82.3279.88 - - LE D 2 -Net [ 26 ] 82.61 80.14 0.207 0.947 我们的模型83.52 81.11 0.204 0.951 我们的模型 [带后处理] 83.48 81.080.214 0.9400表2.在MatterportLayout[33]数据集上评估的一般布局估计的定量结果。0方法 2DIoU(%) 3DIoU(%) RMSE δ10HorizonNet [23] 90.44 88.59 0.123 0.957 LE D2-Net [26] 90.3688.49 0.124 0.955 Ours [w/ Pure ViT] 88.93 86.19 0.146 0.950Ours 91.77 89.95 0.111 0.9600表3.在ZInd [4]数据集上评估的一般布局估计的定量结果。0梯度上升法的方法对于长方体布局更有效。然而,与其他SOTA方法相比,我们的方法在3DIoU方面具有更好的性能。0Stanford 2D-3D Dula-Net v2[33]的3DIoU略优于我们的方法,我们认为这是因为它使用透视视图,对于垂直视场角较小的全景图更有效。然而,与在等距投影视图上进行预测的类似方法[23,26]相比,我们的方法具有更好的性能。04.4.一般房间结果0MatterportLayout [33]数据集的评估结果如表2所示。LED2-Net[26]的结果是使用其官方代码2进行重新训练和重新评估的,使用标准评估指标。此外,我们还报告了使用DuLa-Net[28]的后处理的结果(表示为“Ours [w/Post-proc]”)。与其他方法相比,我们的方法在2DIoU、3DIoU和δ1方面具有更好的性能。我们观察到,类似的方法[23, 24,26]在等距投影视图上提取1D特征序列的效果优于使用2D卷积[28, 32]的方法。在我们看来,Bi-LSTM [11,21]和我们的SWG-Transformer基于1D水平特征序列,更适合建立房间布局的关系。图6a显示了定性比较。第一列显示了HorizonNet [23]和LE D2-Net[26]在全景图的左右边界预测出不连续的布局,因为它们使用Bi-LSTM [11,21]来处理特征序列,并需要跨越整个序列。02 https://github.com/fuenwang/LED2-Net16600HorizonNetLED2-NetOurs0(a)在MatterportLayout [33]数据集上的定性比较。0HorizonNetLED2-NetOurs0(b)在ZInd [4]数据集上的定性比较。0图6.一般布局估计的定性比较。我们在MatterportLayout [33]数据集(顶部)和ZInd [4]数据集(底部)上展示了HorizonNet [23],LED2-Net[26]和我们的方法在没有后处理的情况下的房间布局。我们在全景图上显示了房间布局的边界(左侧)和平面图(右侧)。蓝线是地面真值,绿线是预测结果。此外,我们在每个全景图下方以及第一行中可视化了预测的水平深度、法线和梯度以及地面真值。虚线白线突出显示了基线生成的错误。0同时处理第一个和最后一个位置的标记。然而,我们提出的SWG-Transformer在所有位置上都平等对待标记。第二和第三列显示了我们的方法更好地估计了远离相机中心和复杂房间布局的边界。与此同时,平面图、法线和梯度的可视化结果显示,我们的方法通过平面几何感知获得了更好的结果。0在ZInd [4]数据集上的评估结果如表3所示。HorizonNet[23]和LE D2-Net[26]的结果是使用它们的官方代码23进行训练和评估的,使用标准评估指标。我们的方法03 https://github.com/sunset1995/HorizonNet0在所有设置下,比其他方法具有更高的准确性。此外,类似于ViT [5]的思想,我们通过Patch Embedding[5]将全景图分割成补丁,并将它们输入到我们提出的SWG-Transformer中(表示为“Ours [w/ PureViT]”)。结果表明,这种ViT架构在大型数据集上实现了可比较的性能。图6b显示了定性比较。第一列显示了我们的SWG-Transformer能够更好地处理全景图的左右边界。第二列显示了我们提出的全向几何感知在非平坦天花板布局上具有优势,因为我们的方法不受天花板边界的影响。第三列显示了我们的方法在具有家具的情况下表现更好。16610图7. 我们的方法在MatterportLayout [33]数据集(第一行)和ZInd[4]数据集(第二行)上的3D可视化结果。绿线是我们网络预测的边界,红线是经过预测的后处理的结果。0方法 2DIoU(%) 3DIoU(%) RMSE δ 10w/o Height 82.82 80.44 0.205 0.945 w/o Nomal+Gradient84.24 81.86 0.196 0.954 w/o Gradient 84.27 81.89 0.194 0.9540w/ Pure ViT 64.05 60.44 0.434 0.782 w/o Global Block 83.0280.40 0.212 0.947 w/ Bi-LSTM 83.98 81.32 0.201 0.950 w/oWindow Block 83.96 81.47 0.197 0.9580w/o PE 83.78 81.50 0.197 0.951 w/ APE 83.90 81.55 0.2010.9510Ours [Full] 84.38 82.01 0.194 0.9550表4. MatterportLayout [33]数据集上的消融研究。0与其他方法相比,我们的方法在MatterportLayout[33]数据集和ZInd [4]数据集上具有更好的遮挡性能[23,26]。图7显示了我们的方法在房间布局估计上的3D可视化结果。这些示例表明我们的方法在房间布局估计中是有效的。更多定性结果和不同角落数量以及跨数据集评估的定量结果,请参见补充材料。04.5. 消融研究0消融研究结果如表4所示。我们报告了MatterportLayout[33]数据集测试集中每个配置的最佳性能结果。需要注意的是,消融研究的所有实验都选择了测试集中的最佳时期。因此,“Ours [full]”的结果高于相应的定量结果。0损失函数我们用LE D 2 -Net[26]中的地板和天花板水平深度误差替换了我们方法中的损失函数(标记为“w/oHeight”),并展示了我们提出的全方位几何感知损失的水平深度和房间高度显著提高了性能。此外,我们没有使用法线和法线梯度误差的实验(标记为“w/oNormal+Gradient”和“w/oGradient”)表明,我们提出的法线和法线梯度的平面几何感知损失改进了性能。0性能。0网络架构我们使用ViT架构进行实验(标记为“w/ PureViT”),并展示了ViT架构在MatterportLayout[33]数据集上无法达到可比性能。我们认为ViT架构依赖于像ZInd[4]这样的大型数据集才能表现更好。此外
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功