没有合适的资源?快使用搜索试试~ 我知道了~
8616(一)(b)第(1)款CP2全景1SP2Panorama 2PSMNet关节2D布局输出(c)第(1)款PSMNet:用于房间布局估计的位置感知立体融合网络王海燕1,2 <$WillHutchcroft1李宇光1万志强1IvayloBoyadzhiev1田颖丽2 康星兵1Zillow Group2纽约市立学院网址:hwang005@citymail.cuny.edu,ytian@ccny.cuny.edu{willhu,yuguangl,zhiqiangw,ivaylob,singbingk} @ zillowgroup.com图1:从一对360毫米的放大镜估算复杂室内空间的完整布局。我们使用GT数据进行演示。由于遮挡,单个全景可能仅查看整个空间的一部分(a)示出了2D和3D房间布局组件,仅表示对每个全景可见的整个空间的一部分在实践中,输入相对姿态可能仅近似已知;这由两个部分可见的分量之间的噪声对准表示(b)中所示的我们提出的端到端PSMNet将两个图像作为输入,并联合估计2D中完整的可见房间布局,同时改进给定的噪声相对姿态。(c)以3D形式可视化所估计的布局(a)和(c)用于可视化。PSMNet的输入和输出如(b)所示。摘要在本文中,我们提出了一种新的基于深度学习的方法,用于在给定一对360张照片的情况下估计房间布局。我们的系统,称为位置感知立体融合网络或PSMNet,是一个端到端的联合布局姿态估计。PSMNet由立体全景姿 态 ( SP2 ) Transformer 和 新 颖 的 交 叉 透 视 投 影(CP2)层组成。立体视图SP2 Transformer用于隐式地推断视图之间的对应关系,并且可以处理噪声姿态。姿势感知CP2层被设计为将来自相邻视图的特征渲染到锚(参考)视图,以便执行视图融合并估计可见布局。我们的实验和分析验证了我们的方法,它显着优于最先进的布局估计,特别是对于大型和复杂的房间空间。1. 介绍基于图像的房间布局估计是构建家庭内部模型的重要步骤,用于各种应用,例如虚拟旅游,路径规划,平面布置等[2]王海燕在Zillow实习时完成的工作*作者贡献均等。代,以及对住宅面积和建筑风格的见解。在房间布局估计方面已经做了很多工作,目前的技术在简单的曼哈顿和曼哈顿世界布局上表现良好。然而,它们的性能对于大型和复杂的房间降低,例如,那些有超过10个角的。这是不寻常的(至少在北美),发现房间布局明显比长方体或L形复杂。例子包括合并厨房,餐厅和客厅的大型开放空间。ZInD的真实住宅统计数据证明了复杂房间的普遍性[4]。 图1说明了具有许多自遮挡的复杂室内空间的布局估计的困难。这里,由于遮挡,单个图像解决方案将是不够的。这是因为没有全景可以看到整个开放空间。原则上,使用这两个位图将能够更好地提取布局。此外,考虑到可靠性是距离相关的(由于在更远的距离处分辨率的降低),这种依赖性随着多个视图而降低。在本文中,我们恢复的房间布局从两个360度全景图。这有其挑战,因为全景对的相对相机姿态需要与布局联合估计虽然诸如从运动恢复结构8617我们的目标是生成复杂房间的布局,这些房间可能由于遮挡而缺乏功能。宽基线2-视图运动结构(SfM)仍然是一个悬而未决的问题。在这项工作中,我们假设提供了一个输入姿势,可能有噪声例如,这可以基于粗略的用户输入[4]或将相应的语义元素与噪声预测进行匹配[29]。我们的解决方案是一个联合姿势布局深度架构,以预测2D房间布局并以端到端的方式优化嘈杂的3DOF相对相机姿势。我们的系统,称为位置感知立体融合网络(PSMNet),由一个基于变换的立体姿态估计( SP2 ) 网 络 和 一 个 新 的 姿 态 感 知 交 叉 透 视 投 影(CP2)模块。CP2在基于注意力的合并模型(受SEBlock [12]的启发)的帮助下生成最终布局,该模型基于确定性对区域进行加权。姿势和布局模块共享相同的编码器以提高效率,并且是端到端训练的。在我们的工作中,我们做了与ZInD相同的假设[4]:在近似相同的高度处竖直地捕获输入的两个贴图,并且布局基于Atlanta World(水平的地板和天花板,以及垂直的墙壁)。天花板高度用于可视化。我们工作的贡献是:(i) 第一个端到端联合布局-姿势深度架构(据我们所知),用于从一对双胞胎中估计大型复杂的房间布局。(ii) 新的交叉透视投影(CP2)模块,具有基于注意力的合并功能,用于生成布局。(iii) 集成的基于变换器的相对立体全景姿态(SP2)网络,用于细化有噪声的输入姿态。(iv) 在一个具有挑战性的、立体声数据集上的最先进性能,从ZInD [4]中采样。2. 相关工作在本节中,我们回顾与我们的工作相关的方法它们基于以下属性进行组织,用于房间布局估计:(1)部分布局与完整布局,(2)单视图,和(3)多视图360度全景。更广泛的调查可以在[19]和[23]中找到。2.1. 部分vs完整的房间布局在从单个透视图像生成部分房间布局方面已经做了很多工作[2,5,11,15,16,28,41,42]。早期,基于几何的方法分析直线和消失点[8,11]。随着大规模数据集的引入[4,11,39,40],最近的大部分工作都是以学习为基础[5,15,41]。将[8]扩展到多个透视图,[9]提出了一种混合方法,其中低级线索(从运动中提取)被组合到可学习的贝叶斯框架中,以构建多视图一致的局部房间布局通过使用少量重叠的透视RGB-D图像,进一步扩展输入要求,[17]提出了一种基于几何的方法,将多个部分片段融合成完整的房间布局。2.2. 单视图360度全景布局估算PanoContext [38]是最早研究FoV对房间布局估计的影响的公司之一与其他早期工作类似[36],他们首先将单个全景转换为重叠的透视图像,以通过组合[16]和[11]来估计每个像素的法线,随后用于评估房间布局假设。LayoutNet [42]展示了直接在等距矩形全景图上操作的好处。他们使用类似于RoomNet [15]的编码器-解码器CNN来估计长方体布局估计的角点和边界概率。DuLa-Net [37]使用新颖的等矩形到透视(E2 P)特征融合步骤,在端到端可微分网络中联合利用等矩形全景及其透视天花板视图。HorizonNet [31]是一种开创性的方法,可以生成紧凑的1D表示,其中等矩形全景的每个图像列双向RNN用于学习全景图中的短期和长期依赖关系。许多后续方法[25,32,34,35]采用HorizonNet作为其骨干架构。At- lantaNet [20]提出了地板和天花板视图投影,以结合DuLa-Net和HorizonNet的优势。他们处理更复杂的世界案例[27]。尽管增加了360μ FoV,但单眼布局估计技术对于大的开放空间或具有自遮挡的复杂房间不太有效。2.3. 多视图360度全景布局估算关于多视图360RGB布局估计的大多数技术都集中在从重叠RGB位图[1,22]的稀疏集合或RGB-D扫描的密集序列[3,6,7,18]的完整平面图重建上纯RGB方法[1,22]通常从SfM [13]开始以确定相对全景姿态。然而,如[4,29]所示,对于具有宽基线的稀疏捕获的光谱,这一步骤往往失败假设所有图像都可以定位,常见的方法是首先将每个输入图像分割成地板,墙壁和天花板区域(类似于[36]),结合多视图提示和约束[1,22,24]。然后,多视图分割图被投影为2D布局,并融合在一起成为最终的平面图边界[1]或每个房间的布局边界[21,24]。最近,[30]提出了一种用于大型室内空间的多视图布局重建,从具有已知姿势的多个全景图像开始使用DuLa-Net和HorizonNet的想法,他们首先使用[31]获得单视图布局预测,然后将其转换为天花板视图8618Mn图2:我们提出的PSMNet架构。它的输入是一对具有噪声相对姿态的等矩形投影,由交叉透视投影层(CP2)从其生成透视投影,作为生成房间布局的附加输入。立体全景姿态(SP2)网络被训练以细化相对姿态。PSMNet的输出是mask,然后对其进行后处理以生成布局多边形M。分段掩码。他们的主要想法是训练DNN从每个视图生成多个天花板(框化)线提案。然后使用图切割优化来融合这些,以获得单个多视图一致的2D布局。他们的方法可以处理2个以上的视图。然而,它们高度依赖于预先计算的单视图布局的质量以及给定的相机姿势。相比之下,我们专注于2视图布局重建,与近似的姿态。我们提出了一个端到端的完全可区分的DNN,以联合估计多视图一致的布局,同时细化姿态。3. 框架在本节中,我们将介绍PSMNet(图2)和我们优化的损失函数。PSMNet包括交叉透视投影层(CP2)和立体全景姿态网络(SP2),这两个层都将在后续章节中描述.3.1. 建筑设计PSMNet采用了类似于DuLa-Net [37]或QuintaNet[20]的主干,PSMNet的输入是两个360毫安IE,IE带凸轮,在等矩形空间中处理图像IE(n= 1,2),并将其投影到锚视图。后一个操作,我们称之为交叉透视投影(CP2)层,使用由立体全景(SP2)网络估计的相对姿态,给定两个视差。给定一个潜在的噪声输入姿势,SP2 Net使用基于变换器的注意力机制来细化立体视图贴图之间的相对位置。我们还提取了两组分割特征,即equi-seg特征和persp-seg特征,每组都是连接两个视图的结果。等距分段特征以与针对等距分段所做的相同的方式被进一步渲染到透视空间中的锚视图,从而产生投影分段特征。注意,透视-分段特征和投影-分段特征是相机对准的,因此可以容易地合并。在分割特征合并之前,我们应用受[12]启发的注意力模型来提取隐含的置信度表示。由于连接的分割特征是从两个单独的相机视图生成的,因此每个视图因此,这些特征对最终合并特征的贡献预期是不均匀的(例如,1 2时代观点分别为V1、V2如果没有损失的话-假设第一个视图是锚视图,另一个视图(第二视图)是用于姿态估计和特征融合的目标每个由于深度和纹理变化)。一个SE注意力模型被用来估计这些贡献权重。精化的persp-seg特性和proj-seg特性被连接起来立体声Pano Pose Net(SP2)输出细化姿势吵闹的姿势CP2输入ResNet拉(a).平等部门IEIEResNetCP2SE关注等弧段特征proj_seg功能合并布局图CP2IP(b).Persp-branchResNetSE关注IP向上-转透视分段特征面罩K交叉注意图层自我注意图层8619MM11HE----pppf2可以如下所示:nvE= 1−x y2n,(8)πnn1n并馈送到一组上卷积层。最后一个Up-Conv层的输出是2D房间布局的二进制掩码。最终的多边形布局是由我们提出的Mostly Manhattan算法生成的,如下所示。 我们先提取一个密集的轮廓,然后使用Douglas-Peucker算法[26]与线段拟合。虽然大多数已发表的工作对后处理布局施加了很强的曼哈顿约束,但当候选墙距离其中一个坐标轴大于阈值γ时,我们允许某些墙是非曼哈顿由于我们不估计天花板高度,因此可以通过挤出具有地面实况天花板高度的布局来3.2. 损失函数设计PM2 Net在姿态和布局估计任务上进行端到端的联合训练。姿态估计被公式化为回归问题;我们计算地面实况和预测的姿态参数之间的损失我们表示旋转损失L(R)和平移损失L(T)。姿态一B锚视图投影合并CP2投影w/Refined Pose嘈杂的姿势CDeF图3:我们提出的CP 2的图示。我们在全景和透视投影图像上绘制可见楼层面积。(c)是(a)的锚视图投影。(d)显示来自两个视图的估计房间布局,并联合优化相机姿势。(e)和(f)分别将投影的相邻全景与具有和不具有姿态细化的锚视图进行比较。IP从IE投影到相同的参考坐标中。p p2 2损失由下式给出L=µL(R)+(1 −µ)L(T)。(一)布局估计被转换为一个分割过程,在这个过程中,我们计算预测的房间形状掩模和地面真实值之间的交叉熵损失,坐标系为IP。对于固定视场FoV1,锚视图、fP、FoV2(辅助视图中的视场PfP= 0。5λ cot(0. 5FoV1),(4)(E)(P)角空间和透视空间,分别用L1和L1布局损失是FoV2= 2 tan−1(1tan(0. 5mmFoV1)),(5)2(E)(P)fP= 0。5λ cot(0. 5FoV2),(6)L 1= L1+ L1 。(二)2其中,HE(n= 1,2)是相机高度,λ是端到端训练的总损失是nP宽度(像素)为In(n= 1,2)。在我们的工作中,我们假设HE=HE,这导致FoV1=FoV2和fP=fP。Ltot=(1−λ)Lp+ λL l。(3)1212注意在Eqs中。 (1)和(3),超参数μ,λ[0,1]。在我们的实验中,μ和λ都设置为0.5。4. 交叉透视投影(CP)层给定平移tn=xn,yn和旋转θn,n= 1,2,我们的CP2层将全景坐标投影如下:atan2(pn−xn,pn−yn)−θn2PSMNet垫块的等矩管IE(n= 1,2),自上而下对齐透视投影uE=x y2π atan2(<$pn−xn,pn−yn<$、(7)(fP)由CP2层确定,使用第一个(锚点)视点作为其中(pn,pn,n= 1,2)是联合地板坐标中的一个点。参考;设这些视图为IP(n= 1,2)。两个panora-x ynMAS被假定为垂直对齐的轴[38]。我们使用归一化纹理坐标(uE,vE,n= 1,2),其范围从0到1,以表示IE和IE中的位置。nate系统对于锚视图,x1=y1=θ1= 0。对于次视图,x2= x,y2= y,θ2=θ。CP2的效果如图3所示。1 2次级相对于锚点的3 DOF姿态为X、Y、θ,指示相对2D位置偏移和水平角度差。如第5节所述,这些由∈作为附加信号。这些自上而下的观点,n86201SP2Net进行了改进.设IP(n=1,2)的焦距为fP(n=1,2)。5. 立体全景姿态(SP2)网络我们假设两个输入的视差之间的相对姿态仅是近似已知的;在实践中,任何姿态估计都将受到噪声的影响SP2网络n n南极全景图可以在IP的原点找到。PSMNet的一个组件负责改进初始8621112-{}2−12∈121212姿态估计更具体地说,SP2Net的目标是预测姿态细化参数其中,(t c,θ c)是输入噪声姿态,(t gt,θ gt)是地面真实姿态。首先,通过CP2层将锚全景IE投影到透视图IP,其中姿态参数全部被设置为0. 第二输入全景IE由相同的CP2层使用输入噪声姿态(tc,θc)投影到透视图IP然后使用共享主干ResNet-18从IP和IP中提取多尺度特征。所提取的图4:空间重叠和共同可见性的数据分布特征表示为FP和1 2F P.成绩.FP和FP被添加了位置编码,然后每个特征图被展平为1-D向量。编码后的特征通过一个Transformer来提取位置和上下文相关的局部特征. trans-former(受[33]启发)由自我注意和交叉注意层组成来自Transformer的输出特征被表示为TP和TP。最后,TP和TP沿着信道维度被级联。级联特征CP被馈送到三个卷积层中以提取包含两个输入卷积层之间的相对姿态信息的特征提取的特征被平坦化,并且使用全连接层来预测Δt和Δθ。6. 实验在本节中,我们报告了我们在Zillow室内数据集(ZInD)上的方法结果[4]。考虑到房间布局的复杂性和空间重叠的相对位置的可变性,我们使用空间重叠和共同可见性(我们很快定义)来分层我们的结果。大 多 数 房 间 布 局 数 据 集 , 如 PanoContext [38] ,Stanford 2D-3D [42]和Realtor 360 [37],每个房间都只有一个全景,因此不适合我们的工作。我们选择Zillow室内数据集(ZInD)[4]进行评估,因为它是唯一一个具有用于布局估计的多视图全景配置的大型公共数据集,它基于许多城市的许多真实住宅,其房间具有显著的几何多样性(曼哈顿和非曼哈顿,以及房间大小和房间角落数量的显著分布)。我们从ZInD中获得了一个立体视图数据集用于我们的实验。在我们的train、test和val拆分中,总共有107,916、13,189和12,348个pano对实例,分别来自40,336、5,138和4,993个唯一的pano对。6.1. 基准和评估指标我们将我们的PSMNet与基于最近最先进的布局估计方法构建的基线进行比较:HorizonNet [31],DulaNet[37],LED2 Net [35]和HoHoNet [32]。由于这些方法只解决单视图布局估计,我们首先推导出每个视图的估计结果,然后在立体视图之间执行简单的形状联合,以获得合并结果. 请注意,房间布局恢复基于可见;遮挡边显示为在推导单视图结果时,我们发现使用完全曼哈顿后处理会降低基线性能。这是因为ZInD包含许多部分可见的布局,这引入了非曼哈顿遮挡为了提高基线性能,我们转而应用保留非曼哈顿结构的后处理。对于HorizonNet和HoHoNet,我们在拐角视线处对预测轮廓进行采样对于基于分割的方法,我们应用了AtomtaNet对于所有的方法,我们将我们的Mostly Manhattan后处理(第3.1节)应用于合并的形状并集,以获得最终的房间布局。使用2D IoU评估立体视图布局估计的质量。我们也使用δi[37],其测量全景像素空间中的精度。在我们的实验中,空间重叠和共视性被用作难度的测量和分层结果。对于全景对,空间重叠测量地面实况单视图可见布局多边形之间的IoU。分数越高,两个半球的共同点就越明显。如图4所示,我们将数据集分为Overlap-High(>0.9)、Overlap-Medium(0.5-0.9)和重叠-低(0.5)。<在测试集中,每个拆分分别有3,769、5,644和3,776个数据实例由于我们的方法结合了透视投影和等距矩形投影,因此我们还通过共视性[4]进行分层,共视性测量两个投影之间的视觉重叠([0,1])。示例分为Covis-高(>0.9)、Covis-中(0.5 - 0.9)和Covis-低(0.5)。<6.2. 实现细节PSMNet在PyTorch中实现,并在单个GPU上使用Adam [14]优化器进行200 epoch的训练我们将学习率设置为0.0001,批量大小设置为6。主干特征提取网络是ResNet18 [10]。第3.1节中的曼哈顿阈值γ被设置为10。联合布局-姿态网络使用两种配置进行训练(一种使用地面真实姿态,另一种使用噪声姿态增强)。对于姿态噪声,在训练阶段,我们用从8622±→→表1:在不同房间复杂性水平下,通过空间重叠分层的定量评估请注意,构成方法整体重叠-高重叠-中重叠-低二维IoU(%)δi二维IoU(%)δi二维IoU(%)δi二维IoU(%)δiDulaNet [37]64.030.804365.210.818562.140.803160.270.7980带GT[31]第三十一话HOHONet [32]LED2 Net [35]73.3574.2576.390.86630.86490.905682.0882.5583.680.88010.88160.924371.4772.4373.730.86780.86720.873669.2070.3572.080.85350.84860.8697PSMNet(我们的)81.010.923885.710.934980.130.925376.930.9074DulaNet [37]59.300.782862.060.769957.970.785551.210.7936不带GT[31]第三十一话HOHONet [32]LED2 Net [35]62.7963.3165.810.83540.83240.856670.9870.5971.060.84370.83900.849361.5162.0364.810.83550.83390.857458.2459.4763.140.82880.82530.8611PSMNet(我们的)75.770.921784.800.937174.730.921066.730.9040均匀分布我们通过随机切换选择哪个全景作为锚视图来执行进一步的数据对于所有单视图基线模型,我们在ZInD立体数据集的单视图示例上重新训练网络,其中有200个在得到单视图布局估计结果之后,我们应用相同的地面真实姿态和噪声姿态来执行合并过程。为了评估我们的模型在实践中,可以使用任何姿态估计器,诸如LayoutLoc [4]。2-视图宽基线SfM仍然是一个具有挑战性的开放问题。6.3. 定量评价在我们对ZInD立体视图数据集的PSMNet的评估中,我们将相同的地面实况(GT)和噪声姿态作为其他基线方法以及PSM-Net的输入,用于苹果对苹果的比较。表1中报告的定量结果表明,PSMNet始终优于基线方法,特别是对于复杂的房间有显着的改进。GT Pose的表演。在已知GT姿态的情况下,消除了姿态细化的影响。如表1的上半部分所示,以GT姿态作为输入,PSMNet显示出相对于LED2 Net基线的总体改进,2D IoU为4.62%,δi为0.02。Overlap High展示了最具竞争力的基准性能。在高视觉重叠的情况下,附加视图的益处减少。然而,我们在所有基线上进行改进。PSMNet的优势随着视觉重叠的减少而进一步增加(重叠-中等和重叠-低)。以嘈杂的姿势表演 为了评估噪声容限,我们从均匀分布U(0,40μ m)和U(0,1m)中分别对旋转和平移的姿态噪声进行采样。 如表1的下半部分所示,当输入姿态有噪声时,我们的联合布局-姿态估计流水线超过了图5:我们提出的PSM- Net在各种水平的姿态噪声下的鲁棒性的说明,重叠-高,重叠-中,和重叠-低组。基线性能大幅提升。对于Overlap-High,即使没有GT姿势,PSMNet的性能也优于大多数具有GT姿势基线。这是对SP2好处的有力说明.补充资料中显示了按共同可见性分层的所有方法的其他结果。它们对PSMNet也同样有利。姿势噪波的效果 我们的模拟粗糙姿势是通过添加θe∈rr旋转误差以及在随机方向上的固定大小的平移误差。 图5显示了我们的系统性能,姿态噪声范围从0(0m,0μ m)到10(1m,40μ m),增量为(0. 1m,4mm)。我们在分层ZInD 数据集上计算2D IoU 和δiPSMNet在一系列输入姿态噪声下表现出强大的性能,即使姿态噪声显著增加到(1m ,40kHz),Overlap-High上的IoU也高于80%,Overlap- Low上的IoU也超过60%。δi图显示了类似的趋势。6.4. 定性评价在图6中,我们展示了PSM- Net的估计布局示例,并与LED2Net基线进行了比较.在前两列中,我们的布局和姿势优化的准确性通过与真实边界的对齐来证明,86232重叠噪声-R误差16.046;噪声-T误差:0.445;细化-R误差:0.068;细化-T误差:0.004重叠噪声-R误差31.13;噪声-T误差:0.650;细化-R误差:0.421;细化-T误差:0.207重叠噪声-R误差25.976;噪声-T误差:0.734;细化-R误差:0.399;细化-T误差:0.334重叠噪声-R误差:1.430;噪声-T误差:0.199;细化-R误差:1.427;细化-T误差:0.076图6:ZInD数据集上具有噪声姿态的位置感知布局估计结果。前两列以绿色显示每个全景上的估计可见房间布局。在中间的自上而下图中,我们将绿色的预测房间形状叠加在青色的地面实况遮罩上,而LED2 Net基线结果显示为红色。第四列展示了我们的PSMNet的3D布局,最后一列是LED2 Net的结果。等矩形图像,对于锚点和相邻视图都是一样的。请注意,虽然它们是在分割中捕获的,但我们不会对大空间中出现的岛、柱或隔离墙进行额外的“内部”多边形后处理。这可以通过第2行中不存在部分边界看出。我们进一步比较了PSMNet,LED2 Net基线和GT,在列3.第4列和第5列显示了PSMNet和LED2 Net的3D布局,按GT天花板高度挤出以供显示。SP2的好处,以及与之相反的姿态噪声的后果,是惊人的.我们强调了显着的差异;当比较内聚的PSMNet布局与LED2 Net基线的合并不良区域时,姿势和布局的端到端学习的好处最为明显。6.5. 网络元件我们进行实验,以调查我们的PSMNet架构中的个别组件的影响具体地说,表2:PSMNet的不同变体的评估CP2SP2SE 关注二维IoU(%)δi✓× ×✓✓×✓×✓ ✓××✓×✓60.410.803166.390.870170.920.888369.140.872372.380.9003我们考虑以下变量:(i) 删除建议的CP2、SP2和SE注意层。代替交叉透视渲染,我们对输入全景IE的第二视图进行直接透视渲染。(ii) 移除SP2和SE Attention层,同时仅使用建议的CP2基于粗略姿态执行交叉透视投影没有进一步8624表3:不同后处理方法的比较。姿势优化。(iii) 用标准卷积层替换SE Attention层以处理提取的特征。(iv) 移除姿态细化模型SP2,而不是直接使用粗略姿态作为CP2层的输入。表2报告了变体性能,突出显示了最佳(粗体)和最差(下划线)布局估计。CP2是我们的模型中最关键的组成部分,它利用SP2的细化姿态,以便将相邻视图与锚视图相关联。随着CP2 的加入,我们看到SP2和SEAttention都为我们的模型带来了额外的实质性收益,SP2被证明比SE Attention更有效。我们进一步研究了我们提出的主要是曼哈顿后处理算法的效果。如第6.1节所述,由于ZInD相比之下,ApartaNet [20]引入的后处理方法更适合一般的可见布局。在这里,我们比较了我们提出的Mostly Manhattan后处理方法与ApartaNet后处理方法的性能结果报告于表3中。我们的Mostly Manhattan方法始终优于带/或不带GT姿势的AnktaNet后处理方法。还要注意的是,即使我们对网络的输出应用了AdjetaNet后处理,与基线模型相比,7. 讨论在图7中,我们分享了一个例子,它突出了我们任务的局限性和挑战。在这里,房间不仅复杂,而且两个房间之间的因此,这两种观点之间几乎没有共同点。GT和预测的PSMNet布局如图7(a)和(b)所示;在(b)中,可以在全景图2中看到边界未对准我们图7:一个具有挑战性的示例,重叠分数仅为0.27。突出显示连接厨房和起居室的狭窄路径(用箭头),这会导致共同可见度低。这个挑战在透视图(图7(c)和(f))中进一步复杂化,其中图像对之间具有有限的公共地板和墙壁纹理。图 7 ( e ) 显 示 了 全 景 图 2 的 精 确 位 置 的 误 差(WFP)这种姿势错误导致我们的网络内部的特征不对齐,这最终导致噪声预测分割,如图7(d)所示。图7(e)进一步可视化了最终预测布局和GT地板分段,其中我们观察到相对姿态误差和移位的布局边界之间的直接相关性。这个特殊的例子也包含了数据中的一个缺陷,GT在厨房和客厅之间的分隔线周围缺少了一部分地板边界(我们的模型可以识别)。这意味着实际上共同可见性和重叠分数甚至比计算的更低。8. 结论我们已经介绍了一种新的端到端的方法,用于从立体视图中联合估计复杂的房间布局,同时改进嘈杂的相对姿态。我们采用了双投影骨干架构,从等距矩形和透视图的图像中提取特征。对于姿态细化,我们提出了一个基于变换的立体全景姿态(SP2)网络来导出隐式对应关系,并通过全连接层预测细化参数关键是设计了一种新的交叉透视投影(CP2),将相邻的全景图投影到锚视图上,并在中心分割分支中对齐多尺度等矩形为了对来自两个视图的特征的贡献进行加权,我们应用受[12]启发的SE-注意力。为了评估我们的方法的性能,我们引入基线的基础上,目前可用的最先进的单视角布局估计。我们的模型展示了一个新的立体视图可见布局数据集,来自ZInD,这将被释放到社区的布局估计精度e∆���联系人:一BCDF构成方法大多数曼哈顿PP公司简介二维IoUδi二维IoUδiDulaNet [37]64.030.804362.060.7899带GT[31]第三十一话HOHONet [32]LED2 Net [35]73.3574.2576.390.86630.86490.905671.3673.2575.140.87850.87320.8849PSMNet(我们的)81.010.923877.690.9159DulaNet [37]59.300.782858.900.7634不带GT[31]第三十一话HOHONet [32]LED2 Net [35]62.7963.3165.810.83540.83240.856660.1761.8564.090.81450.82040.84238625引用[1] Ricardo Silveira Cabral和Yasutaka Furukawa从图像的分段平面和紧凑布局重建。2014年IEEE计算机视觉和模式识别会议,第628-635页,2014年。2[2] Yu-Wei Chao,Wongun Choi,Caroline Pantofaru,andSilvioSavarese 使用几何和语义线索对高度杂乱的室内场景进行布局估计载于ICIAP,2013年。2[3] Jiacheng Chen , Chen Liu , Jiaye Wu , and YasutakaFurukawa.Floor-sp:通过顺序房间最短路径进行平面布置图的逆向 cad 。 2019 IEEE/CVF 计 算 机 视 觉 国 际 会 议(ICCV),第2661-2670页2[4] Steve Cruz , Will Hutchcroft , Yuguang Li , NajiKhosravan伊瓦伊洛·博亚吉耶夫和星兵康Zillow室内数据集:带有360度全景和3D房间布局的注释平面图在IEEE/CVF计算机视觉和模式识别会议论文集,第2133一、二、五、六[5] Erick Delage、Honglak Lee和A.Ng. 动态贝叶斯用于从单个室内图像进行自主3D重建的网络模型2006年IEEE计算机协会计算机视觉和模式识别会议(CVPR2[6] Hao Fang,Florent Lafarge,Cihui Pan,and Hui Huang.楼层-从3D点云生成计划:空间划分方法。Isprs摄影测量和遥感杂志,175:44-55,2021。2[7] 方浩,潘慈慧,黄辉。结构感知室内通过两个抽象层次的场景重建。ISPRS Journal ofPhotogrammetry and Remote Sensing,2021。2[8] 亚历克斯·弗林特,克里斯托弗·梅,大卫·威廉·默里,Ian D.里德建筑物内部改造的动态规划方法。ECCV,2010年。2[9] Alex Flint,David William Murray和Ian D.里德天啊-使用单眼、立体和3D特征的曼哈顿场景理解。2011年国际计算机视觉会议,第2228-2235页,2011年。2[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习在IEEE计算机视觉和模式识别会议(CVPR)上,2016年6月。5[11] Varsha Hedau , Derek Hoiem , and David AlexanderForsyth.恢复杂乱房间的空间布局2009年IEEE第12届计算机视觉国际会议,第1849-1856页,2009年。2[12] 杰虎,李申,孙刚。挤压激振网络. 在IEEE计算机视觉和模式识别会议论文集,第7132二,三,8[13] 弗洛里安·康尼和罗伯特·拉格尼埃。从球形物体中恢复物体的方位和2007年IEEE第11届计算机视觉国际会议,第1-8页,2007年。2[14] Diederick P Kingma和Jimmy Ba。亚当:一种方法随机优化 在Int. Conf. 学习. 代表。,2015年。5[15] Chen-YuLee,VijayBadrinarayanan,TomaszMalisiewicz,和安德鲁·拉宾诺维奇Roomnet:端到端的房间布局估计。2017年IEEE国际通信计算机视觉(ICCV),第4875-4884页,2017年。2[16] David C.李、马夏尔·赫伯特和金田武夫单幅图像结构恢复的几何推理CVPR,2009。2[17] C. Lin,Changjian Li,and Wenping Wang.平面图-拼图:联合估计场景布局和对齐部分扫描。2019年IEEE/CVF计算机视觉国际会议(ICCV),第5673-5682页,2019年。2[18] Chen Liu,Jiaye Wu,and Yasutaka Furukawa. 地板网:A用于从3D扫描重建平面布置图的统一框架在ECCV,2018。2[19] 宾西·P·马修回顾从一个单一的图像房间布局估计。国际工程研究杂志2020年9月。2[20] 乔瓦尼·平托雷,马可·阿古斯,恩里科·戈贝蒂。 在─lantanet:从一张360度图像推断出3d室内布局,超出了曼哈顿世界的假设。欧洲计算机视觉会议,第432-448页Springer,2020年。二、三、八[21] GiovanniPintore , FabioGanovelli , AlbertoJaspeVillanueva,还有恩里科·戈贝蒂从全景图像自动建模杂乱的多房间平面图计算机图形论坛(2019年计算机图形会议记录),2019年。2[22] Giovanni Pintore , Fabio Ganovelli , Ruggero Pintus ,RobertoScopigno和E.哥贝蒂从重叠球面图像恢复3D平面图。计算视觉媒体,4:367-383,2018。2[23] Giovanni Pintore,Claudio Mura,Fabio Ganovelli,LizethFuentes-Perez,Renato Pajarola,and Enrico Gobbetti.结构化室内环境自动三维重建的最新技术计算机图形论坛,39(2):667-699,2020。2[24] Giovanni Pintore , Ruggero Pintus , Fabio Ganovelli ,RobertoScopigno和E.哥贝蒂从球面图像恢复室内建筑物的三维Comput. Graph. ,77:16-29,2018. 2[25] 放大图片作者:Michael,C.李·贾尔斯,和安库尔·马利Omnilayout:室内球形浮雕的房间布局重建 。 2021 IEEE/CVF 计 算 机 视 觉 和 模 式 识 别 研 讨 会(CVPRW),第3701-3710页,2021年。2[26] 艾伦·萨尔菲尔德 拓扑一致的线简化道格拉斯-普克算法。地图学与地理信息科学,26(1):7-18,1999. 4[27] 格兰特·辛德勒和弗兰克·德拉特。亚特兰大世界:一个经验-在复杂的人造环境中,同时进行低水平边缘分组和相机校准在CVPR 2004,2004。2[28] Alexander G. Schwing,Tamir Hazan,Marc Pollefeys,拉奎尔·乌塔森用于三维室内场景理解的高效结构化预测2012年IEEE计算机视觉和模式识别会议,第2815-2822页,2012年。2[29] Mohammad Amin Shabani , Weilian Song , MakotoOdamaki,藤木弘近和古川泰孝。极端的结构从运动的室内壁画没有视觉上的重叠。在IEEE/CVF计算机视觉国际会议(ICCV)的会议记录中,第57032[30] 施晓强,苏正伟,彭启汉,陈国伟,张飞力、姚致远、朱宏国。 侦察-8626从多个全景图像构建3D室内
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功