没有合适的资源?快使用搜索试试~ 我知道了~
基于几何结构的室内深度估计框架及其在360°图像中的应用
889基于几何结构的正则化360°室内图像雷进1张燕宇1张正佳1张俊飞2唐锐2徐树功3俞静怡1高盛华1†1上海科技大学{jinlei,xuyy2,zhengjia,yujingyi,gaoshh}@shanghaitech.edu.cn3上海大学shugong@shu.edu.cn2KooLab,Kujiale.com{ahui,ati}@qunhemail.com摘要受360mm室内图像的深度和几何结构之间的相关性的启发,我们提出了一种新的基于学习的深度估计框架,该框架利用场景的几何结构进行深度估计。具体地说,我们代表了地球-房间没有家具客房配有家具图像深度结构室内场景的三维结构,包括角、边界和平面。一方面,一旦估计了深度图,就可以从所估计的深度图推断出该几何结构;因此几何结构用作深度估计的正则化器。另一方面,该估计还受益于从图像估计的场景的几何结构,其中该结构用作先验。然而,室内场景中的家具使得从深度或图像数据推断几何结构具有挑战性。推断注意力图以便于从几何结构的特征进行深度估计以及从所估计的深度图进行几何推断。为了在受控条件下验证我们框架中每个组件的有效性,我们渲染 了 一 个 合 成 数 据 集 , Shanghaitech-Kujiale Indoor360Mixed数据集,其中包含3550个360Mixed室内图像。在流行数据集上的大量实验验证了我们的解决方案的有效性。我们还证明了我们的方法也可以应用于反事实深度。1. 介绍深度估计是视觉研究中的一项基本任务,广泛应用于机器人[32]中的地图检索和导航,以及3D世界中的一般场景理解随着最近出现的*同等贡献†通讯作者图1.全景图像及其相应的深度图和结构。这两个图像对应于同一个房间。数字表示平面的顺序。便携式和紧凑的球形照相机,从全向内容估计深度数据正获得更多的关注,因为这是许多室内应用的自然解决方案。一些研究[22,31,39]已经进行了深度估计从360毫米图像。这些研究使透视深度估计的解决方案适用于360°全景图像或提出各种类型的失真感知卷积滤波器。然而,很少有人探索由全向图像提供的大FOV性质-例如,典型的室内全景图像覆盖包含在整个房间内的全局结构信息。考虑到360度全景图像的这些特征,我们提出了一个深度学习框架,该框架利用几何结构进行室内深度估计。具体地说,如图1、室内场景的几何结构与深度密切相关,通常由角点、平面与平面的交线和平面来表征。相同几何图元内的深度显示出强模式;与相机的位置和高度相关;同时,深度提供了推断几何图元的强线索1全向、球面和360度角在本文中可互换使用。13 4 5 6213 4 5 62890室内场景的结构。因此,我们提出了估计的深度数据,促进几何结构与两阶段的解决方案。特别地,在第一阶段中,我们从360像素图像中提取几何结构,并使用对应于几何结构的特征进行深度估计。这里,几何结构用作先验;在第二阶段中,我们提出通过利用来自第一阶段的深度图来估计该结构,从而使用几何结构作为正则化器。然而,室内场景通常具有家具,这会影响从结构的深度估计和从深度数据的结构因此,我们建议利用注意力模块来避免这种情况,并且这样的模块应该理想地对应于像素是否被家具遮挡的置信度。为了便于对我们的解决方案进行性能评估,除了使用具有真实场景的公开数据集外,我们还构建了一个合成数据集。我们的数据集包含3550张图像,对应1775个房间,每个房间对应两张图像,唯一的区别是家具是否可见该合成数据集包含RGB全向图像、其对应的深度数据、角点、平面-平面相交线和平面。该合成数据集可以促进作为先验和正则化器的几何结构的评估。除了深度估计,另一个有趣的应用是反事实深度[15]:在给定对象掩模的情况下估计非家具深度。我们证明,我们提出的代表性也有利于这样的任务。本文的贡献总结如下:i)我们提出将室内全景表示为具有点、线和平面的几何结构的集合。这种表示有利于深度估计、三维重建和反事实深度; ii)我们提出在深度估计的新框架中利用几何结构作为先验和正则化器; iii)我们构建了一个用于性能评估的合成数据集。在流行数据集上的大量实验验证了该方法的有效性。我们的数据集:上海科技-酷家乐室内360度数据集可 在 www.example.com 360.html 上 获 得 https://svip-lab.github.io/dataset/indoor。22. 相关工作2.1. 学习全景CNN已经证明了它们在许多视觉任务中的有效性,不仅在平面图像上,而且在全景图像上。与平面图像不同,全景图像上使用的卷积运算必须处理由等矩形投影引起的失真问题。在[29]中2除了深度估计,我们的数据集还可以用于从家具房间合成空房间,以及布局估计。Su等人提出在等矩形投影下的不同位置使用不同大小然而,上述方法的计算开销很高。此外,在[8]中,Deng等人将可变形卷积[4]和主动卷积[16]应用于鱼眼镜头,这是另一个失真挑战。在[2]最近的工作最近,已经提出了更有效的基于重新投影的方法,包括失真感知卷积[3,9,31,37],具有冠核的球面卷积[36],以及在PHD [22]或非结构化网格[17]上操作的球面卷积。这些设计用于各种任务,包括深度估计[24,31,39],显着性预测[36],图像分类,fication和物体检测[3,24,37]。2.2. 全景图中的几何理解在这项工作中,几何结构的信息包括三个关键组成部分-点,线和平面,这是与现有作品的所谓“布局”。房间布局指定有关房间墙壁的详细信息。在文献[6]中,构造了一个动态贝叶斯网络来重建单目3D。在[14]中,消失点和其他结构特征被组合以产生候选布局。PanoContext [35]首先生成具有不同图像级证据的房间布 局 假 设 , 然 后 构 建 具 有 全 局 上 下 文 的 3D 场 景Im2Pano3d [28]生成一个360度的房间,并将部分透视观察作为输入。最近的工作,如[5,23],通过将其视为深度卷积神经网络中的分割问题在360域中,布局表示为一组角和边界线。最近,LayoutNet [40,41]已经从回归和后优化方法中制定了这个问题。HorizonNet [30]进一步整合了LSTM模型。这种方法可以应用于非长方体曼哈顿布局。在[12]中,提出了一种通过提取结构线和消失点并将其与附加几何线索相结合来从全景图像估计室内场景布局的方法。在这项工作中,主要目标是应用几何结构进行深度估计,而不是估计它们。2.3. 深度预测透视深度估计在过去十年中一直是一个活跃的最近,基于CNN的工作通常已经实现了最先进的性能,具有各种连续的上卷积层[20],多尺度网络[11]或条件随机场[19]。此外,其他研究人员也探索了深度和其他任务之间的关系,即,[18]和曲面范数[26]。891DEP∈୰ୠ୭୳୰୮୪ୟ(a)深度估计模块ଵୢୣ ୢୣ ୮ଶୢୣ ୢୣ ୮:Concate:点积M(b)关注模块Mୡ୭୰Mୠ୭୳M୮୪ୟM ୡ୭୰M ୠ୭୳M ୮୪ୟ(c)结构作为优先模块(d)结构作为正则化模块୮୪ୟ୮ୠ୭୳୮ୡ୭୰୰ୡ୭୰୮图2.我们的架构概览。(a)深度估计从给定全景图像预测深度。(c)结构作为先验,将全景作为输入,并估计房间的结构。(b)注意力模块旨在生成注意力图,以避免由家具引起的结构和深度图之间(d)作为正则化器的结构被设计为通过从估计的深度图预测结构来正则化估计的深度图为了简单起见,我们忽略了U-Net中的跳跃连接具有不同颜色的不同矩形表示卷积块。最近,全景图像中的深度估计已经变得流行。在[31]中,Keisuke等人提出用失真感知卷积代替卷积。在[24]中,Garanderie等人提出通过户外自动驾驶场景中的风格和投影传输网络将现有的透视数据集利用到全向域。在[39]中提出了用于室内深度估计的大规模数据集,由来自四个现有数据集的22,096个重新渲染的图像本文还提出了两种编码器-解码器网络:具有步幅卷积的UResNet和具有扩张卷积的WARNET。与上述方法不同的是,我们使用360像素图像中的几何结构信息来辅助和正则化深度估计。3. 方法我们表示一个球形的室内图像作为一个集合的几何结构,包括角,线和平面。由于缺乏注释,这里我们只采用了房间中几何结构的大部分,房间布局。3.1. 整体架构图图2示出了总体深度估计网络架构。给定一个室内360mm图像I RH×W×3,我们的网络通过利用几何结构作为先验和正则化器来估计其深度图Mgt 我们的整个网络包含两个阶段:基于几何结构的深度估计模块和几何正则化深度估计模块。此外,为了使网络对深度图和几何结构之间的由深度引起的不一致性具有鲁棒性,引入了注意力模块以帮助从几何结构进行深度估计和从深度数据推断几何结构。我们将在下面的章节中介绍这些模块。3.2. 基于几何结构的深度估计如图1、对于一个没有家具的空房间,深度与场景的几何结构有很强的相关性:角部位于局部最大深度处,并且在同一直线或同一平面内的深度分布呈现规则图案。因此,一旦场景的几何结构被给出,它就可以被用作深度预测中的先验。因此,我们建议在进行深度估计时利用房间的几何结构892Cor高×宽×1DEPBou高×宽×3高×宽×6⊕∗DEPDEPDEP解放军Bou×∈具体来说,我们将房间的几何结构角由热图MgtR,其中每个角对应于以点为中心的高斯,其他条目为零。同样,房间的边界也3.3. 关注模块在f1之后直接添加一个语义分割分支以预测家具/非家具图Mf。地图被用作注意力模块,以消除家具的负面影响。给定fp的特征图,由热图Mgt表示 ∈R,其中有界-f1,我们生成一个细化的特征图,解放军白羊座是模糊的高斯。平面掩模是一种DEP二元映射数组Mgt∈R,其中每个映射2 1p p解放军相当于一个平面。 为了便于可视化,我们目前显示它与索引地图,其顺序是在图中列出。1.一、这里值得注意的是,这些平面被公式化为语义分割问题而不是表面范数预测,因为回归问题通常比分类问题更困难。给定一个360度的图像,我们将其馈送到U-Net [27]以提取一个fdep=fdep(fplaMf)(2)其中表示串联运算,是点积。使用对应于平面而不是角或边界的特征的原因在这里,我们使用交叉熵损失进行家具地图预测。具有与输入IM相同的分辨率的深度特征F11Lf=nΣ−plog(p)(3)年龄 我们还将图像馈送到LayoutNet [40]以进行预处理。p∈Mgt,p∈Mpdict几何结构 与最初的Lay-f foutNet,我们添加了另一个分支来预测飞机。在三个分支之间也实现了从拐角到边界以及从边界到平面的快捷方式。通过这种方式,我们以从下到上的顺序融合了几何结构的表示。我们证明,这样的表示是更有益的一般室内全向学习在以后的实验。我们将预测的角点图、边界图和然后,我们将注意力图加权结构特征与深度特征连接起来,并将其馈送到另一个深度解码器进行深度估计。我们将注意力图之前和之后的预测深度图表示为M_dep,并通过将其与地面实况深度图进行比较,我们得到以下损失函数:Ldep=Mdep−Mgt<$1+Mdep−Mgt<$1(4)平面地图在这个阶段作为Mppcor Mp,分别-请注意,生成的注意力地图将深度数据我们在最后一个输出层之前表示特征用于预测角、边界和平面,如fp,fp,和真实场景的结构。 它可以用于两者CorpBou基于结构深度估计和结构正则化和fpla。 [40]我们将在以下几个方面展开讨论:降低角点、边界和平面的损失函数预测:深度估计3.4. 结构正则化深度估计p应力pcor1=n布ΣpPLA(c<$log(c)+(1−c<$)log(1−c))深度对应于相机与房间中可见区域之间的距离。对于一个没有毛皮的房间,我们可以根据c∈Mgt,c∈Mp估计的深度图,因为边界和角落的核心,Cor1ΣCorˆ ˆ响应深度数据中的局部极值灵感来自+ nb∈Mgt,nb∈Mp(blog(b)+(1−b)log(1−b))这一点,我们建议使用结构作为正则化,通过推断从估计的深度图的结构。也就是说,我们希望我们的Bou1Σ+nBou−plog(p)(1)估计的深度图也保存我们的几何信息。p∈Mgt,p∈Mp然而,实际上,房间总是包含 家具解放军解放军而被遮挡的区域则形成了基于深度的结构,其中c*和c*b是角点的单像素xel概率和边界预测,p是平面预测。c、b和p分别是基本事实。此外,n=W H是像素的总数我们就可以把深度fea-纹理和几何特征到另一个解码器子网络中用于深度细、ML=L+L+L893Cor解放军化。然而,在实际场景中,房间通常充满家具,导致深度数据和场景的几何结构之间的 为了解决这个问题,一个注意力模块是介绍-估计困难;因此,我们建议将深度图与我们推断的注意力图M f相乘。然后,我们将输出馈送到自动编码器,以推断结构数据。这里的自动编码器架构与基于结构的深度估计中的自动编码器几乎相同,除了它将单通道注意力掩蔽深度图作为输入。我们表示在结构正则化深度估计期间预测的角映射、边界映射和平面映射。duced。作为Mr的勒布 Mr分别我们到达、M894str角点、边界和平面预测的损失函数与第3.2节中的相似。3.5. 训练和推理我们组合对应于基于结构的深度估计阶段和结构正则化深度估计阶段的损失,达到以下目的:有家具和没有家具。对于每个图像,有一个全景RGB图像,相应的深度数据,以及角落,边界和平面(如图所示)。3(a))。通过计算两个对应深度图之间的深度差来生成有/无家具遮罩。这些图像是用基于Embree [33]构建的照片级真实感渲染器合成的,我们使用一种众所周知的路径跟踪方法[25]来实现逼真的渲染,L=Ldep+Lpr应力+Lf(5),后[38]。与[38]不同的是,我们的数据提供了有/没有家具对。图3(b)和(c)示出了一个组合,在训练阶段,我们首先训练深度和先验子网然后,我们使用预训练的参数作为权重,以端到端的学习方式用先验和正则化器重新训练整个网络。我们发现,这样的预训练是有用的,在获得性能改善。值得注意的是,几何结构正则化器有助于学习更鲁棒的深度估计网络。Once the network is trained, in theinference stage, the structure only works as a prior forattention map calcu- lations and depth estimation.我们选择ResNet50 [13]作为深度估计的骨干我们在PyTorch框架下实现我们的解决方案,并使用SGD优化器训练我们的网络,批量大小为8,初始学习率为1 e-2,权重衰减为0.0005,持续30个epoch。每当我们观察到平台之后,我们都会将学习率降低0.1 [21]。最后,我们对整个网络进行了另外30个时期的微调。在训练和测试期间,所有图像的大小都调整为256*512,其中最近邻为[31]。4. 实验在本节中,我们将在各种数据集上评估我们的方法。我们首先证明了我们提出的表示在我们的合成数据集上的有效性。 然后我们转向现实的斯坦福2D-3D-S [1]。我们使用[39]中的标准深度度量证明了高质量的3D重建结果和定量数字。最后,我们表明,我们的表示也可以应用于反事实的深度估计与一些简单的修改。4.1. 使用合成数据集进行评价数据集和实验装置。理想情况下,几何结构数据为空房间的深度估计提供了最好的帮助在真实场景数据集中收集的图像[1]总是包含家具。由于现有数据集的室内场景中总是存在家具,因此将结构评估为先验和正则化器以用于从360μ m室内图像进行深度估计仍然是一个挑战。为了方便几何pri- ors和几何正则化的重要性的评估,我们建立了一个合成的数据集,包含1775个室内房间。每个房间都有一个图像根据我们的合成数据集和现有数据集之间的深度距离计算分布[1]。我们可以看到,我们的合成数据集在深度分布方面具有挑战性。我们将这个合成数据集分为两个子集:具有家具的子集(1775个图像)和不具有毛皮的子集(1775个图像)。对应于1500个房间的图像用于训练,剩余的275个房间用于测试。这两个子集之间的唯一区别是房间里是否有家具。我们将这两个子集表示为w。(带家具)和w.o. (不带歧义)在下面的上下文中。结果. 为了评估结构作为先验和正则化器的效果,以及我们的注意力模块对深度估计的效果,我们设计了两组进行比较,如表1所示。第一组用于评价几何结构信息的应用效果.如表1中的前四行所示,我们在两个子集上训练了有家具和没有家具的方法在没有家具的子集上,我们删除了注意分支,因为它完全是一个分支。这里的精细化特征是深度特征和布局特征的统一.我们可以看到,用结构信息训练的网络比我们的基线表现得更好。此外,结合几何信息带来了更多的改进与家具子集。在没有家具的子集上,网络本身可以从输入图像中学习几何信息,而无需进一步正则化。此外,为了验证注意力模块的效果,我们训练了三个对于在有家具子集上训练并在没有家具子集上测试的模型,我们可以看到注意力模块显着提高了它还缩小了在有或没有家具的子集上训练的模型与在没有家具的子集上测试的模型之间的差距。这进一步说明我们的注意力模块忽略了家具对几何结构的部分负面影响4.2. Stanford 2D 3D S数据集的评价我们将我们的方法与斯坦福2D-3D-S [1]数据集上的其他最先进的方法进行了比较。此数据集+L895带家具的子集不带家具的子集Stanford 2D-3D-S数量的图像图片(不含家具)深度(不含家具)结构深度(含家具)图片(带家具)500500400 400300 300200 200100 10000 0.02 0.04 0.060.08平均深度00 0.1 0.2 0.3 0.4同一图像(a)(b)(c)第(1)款图3.我们的合成数据集:(a)来自我们的合成数据集的一些图像;(b)和(c)在我们的合成数据集和斯坦福2D-3D-S数据集之间的同一图像内的深度距离和深度差异方面的分布比较列车组测试集结构RMS↓Rel↓log10↓δ<1。25↑δ<1。252 ↑δ<1。253↑W.O. 毛皮W.O. 毛皮√0.6680.0790.0320.9480.9830.992W.O. 毛皮W.O. 毛皮0.6420.0710.0290.9580.9860.992W. 毛皮W. 毛皮√0.7210.1140.0450.8940.9730.989W. 毛皮W. 毛皮0.6660.1030.0410.9120.9780.990列车组测试集关注RMS↓Rel↓log10↓δ<1。25↑δ<1。252 ↑δ<1。253↑W.O. 毛皮W.O. 毛皮√0.6680.0790.0320.9480.9830.992W. 毛皮W.O. 毛皮0.7300.0790.0340.9430.9820.991W. 毛皮W.O. 毛皮0.7840.0890.0390.9270.9790.990表1.在我们的合成数据集上进行受控条件下的性能比较第一块(前四行)用于评估结构信息的效果,第二块(后三行)旨在验证注意力模块的效果 W.O. 皮草是不含家具的子集, 皮草是家具的子集。↑表示越高越好,↓表示越低越好。提供了大量的室内RGB图像与相应的深度数据和语义注释。在这项工作中,我们只使用来自[40]的具有布局注释的等矩形图像子集,其中包含404个用于训练的图像和113个用于测试的图像。请注意,在原始布局注释过程中,作者将图像转换为与地板对齐的相机姿势在这里,我们将所有注释旋转回原始视图以保持一致性。有/没有家具遮罩是从语义注释中生成的我们使用来自原始分割地面真值的天花板、地板和墙壁遮罩作为家具遮罩。基线。根据360nm室内图像深度估计的开创性工作[39],我们将以下最先进的方法进行比较。首先,我们与FCRN [20]进行比较,FCRN是关于透视深度估计的最先进的单模型方法之一。然后,为了进行公平的比较,我们选择了为处理失真问题而设计的方法,包括UResNet和RISNet [39]。在[10]之后,我们删除了平滑分支,因为它可能导致过度平滑的结果。否则,由于Stanford 2D-3D-S数据集的复杂性,这在[3]之后,我们还将FCRN中的平面卷积替换为球面卷积。卷积并将该基线表示为球形FCRN。3结果. 表2显示了我们的方法和其他方法在斯坦福2D-3D- S数据集上的结果比较。所有平面方法都在Ima-geNet上进行了预训练[7]。为了进行公平的比较,球形方法在我们自己提出的数据集上进行了预训练。在没有预训练的情况下,Rel Net仅达到0.269 Rel[m],这进一步验证了我们的合成数据集的有效性。使用UResNet和Spherical FCRN可以观察到类似的结果。有趣的是,在ImageNet上预训练的U-Net [27]在所有这些方法中取得了最好的结果,因此我们采用它作为我们的基线。总的来说,我们认为,从透视图像训练的一些高级过滤器也适用于全向图像,只需进行一些简单的微调。这就是为什么ImageNet预训练网络可以实现最佳性能的原因从表中,我们可以得出结论,失真感知卷积的结果优于标准卷积,这表明失真感知卷积在全景图像中的主导作用。此外,我们的方法优于其他国家的最先进的3我们遵循[40]并使用平面卷积而不是球面卷积,因为它在360°图像的布局估计方面表现良好。此外,球面卷积需要由双线性插值引起的大存储器,并导致存储器不足的问题。带家具的子集不带家具的子集Stanford 2D-3D-S896fdep方法RMS[m] ↓相对值[m]↓log10↓δ<1。25 ↑δ <1.一、252 ↑δ <1.一、253↑FCRN [20]0.5340.1640.0730.7490.9410.986UResNet [39]0.5900.1870.0840.7110.9210.973[第39话]0.5770.1810.0810.7170.9290.979[31]第三十一话0.5230.1450.0670.7830.9480.986我们的基线0.4720.1400.0620.8030.9590.991我们的-满0.4210.1180.0530.8510.9720.993表2.斯坦福大学2D-3D-S数据集上的性能比较方法,验证了该体系结构的有效性。IMG 3D深度图4.质量重建结果。从左至右:输入RGB、预测深度和重建结果。第一张图像来自斯坦福大学的2D-3D-S数据集,最后三张来自我们自己的家具子集。4.3. 消融研究几何结构的影响。为了显示几何结构中的角、边界和平面的重要性,我们在我们的方法中一次一个地移除每个组件,并在表3的第一块中显示结果。我们还删除了先验模块和正则化模块,同时还研究与讨论这对应于我们简单的U-Net基线。通过将这些结果与我们的模型进行比较,我们可以看到,我们的解决方案中使用的所有结构元素都有助于提高性能。总的来说,边界起着最重要的作用,因为它们是点和面之间的联系。没有边界,很难直接从点推断平面。结构作为先验和正则化子的作用。为了证明结构作为先验和正则化器的有效性,我们分别删除了每个模块结果示于表3的第二块中。通过将这些基线与基线进行比较,我们可以看到两者都有助于性能改进。我们还在图5中示出了对应于没有结构的直接深度回归(DR)、具有结构但没有正则化器模块的DR(DR+结构)和我们的完整方法(Ours)的预测深度图。一般来说,我们的模型可以提取更多房间的细节,同时仍然保留全局结构。我们进一步证明了这一点与图中的一些重建结果。4.第一章5. 反事实深度的应用反事实深度在[15]中首次提出。它是指在给定图像和对象掩码作为输入的情况下对非家具深度的估计我们证明,我们的represententation- tion也可以是有益的,这样的任务与一些简单的修改。具体来说,在我们的数据集中,目标是在给定完整房间和完整对象遮罩的情况下恢复空房间的深度。我们移除注意分支,并直接使用对象掩码作为输入。对象掩码为2与之相结合。我们将我们的方法与以下方法进行比较:(1)DirectReg.我们训练了一个U-Net,以完整的图像作为输入,非家具深度作为输出。(2)反深度。我们遵循[15]并将对象掩码与U-Net中的每个上采样块连接起来。我们还通过在网络输出后直接附加平面参数分支来实现LayoutNet [40,41]。 我们使用完整图像作为输入,并使用RANSAC从空深度数据拟合平面参数地面实况。参数分支并不像原文献中指出的那样收敛得很好。LayoutNet的目标只是恢复角落和线条。如果不考虑这些因素,很难推断出平面参数897之前Regularizer点边界平面RMS↓Rel↓log10↓δ1。25↑δ <1.一、252 ↑δ <1.一、253 ↑√×√√√√×√√√×√×√√√×√×√√×√√×0.4720.4250.4360.4290.4210.1400.1200.1220.1230.1180.0620.0550.0550.0550.0530.8030.8490.8380.8450.8510.9590.9720.9700.9700.9720.9910.9930.9930.9930.993√×√××√×√√×√√√×√√√×√√0.4720.4460.4480.4210.1400.1270.1290.1180.0620.0580.0570.0530.8030.8230.8290.8510.9590.9680.9640.9720.9910.9930.9910.993表3. Stanford 2D-3D-S数据集上的消融研究。第一个块(前五行)用于评估每个几何组件的效果,其中边界对性能提高的贡献最大。第二个块(最后四行)分别用于评估结构作为先验和正则化子的效果RGBDRDR+结构我们的GT图5. 斯坦福大学2D-3D-S数据集上的可视化。从左至右:全景图像,直接回归(DR),DR与结构(DR+结构),我们的和地面真相深度(GT)。任何飞机的信息相比之下,我们的表示还包括一个平面分支,这使得它成为一般室内全向学习的更好选择。我们在图中展示了高质量的重建结果。六、IMG MASK 3DGT我们图6.两个质量反事实深度估计结果。从左上角到右下角:输入的家具图像、对象掩模、地面实况非家具深度和我们的预测深度。右边是3D重建的结果。可以从输入图像恢复粗略的房间形状。表4.反事实深度估计。6. 结论我们提出了一个基于结构和正则化的框架来估计深度从360毫米图像。详细地,我们提出了几何结构的角,边界和平面。然后,我们使用此结构信息作为先验来帮助进行深度估计。我们建立了一个合成数据集,以评估在受控条件下结构和注意力模块的影响。将来,如果提供实例级对象注释,我们可以在[34]之后引入另一个实例分割分支,该分支可能会进一步提高性能。确认本 工 作 得 到 了 国 家 重 点 研 发 项 目(2018AAA0100704),国家自然科学基金资助项目编号61932020,上海科技大学-迈伽维联合实验室,部分由国家自然科学基金资助#61871262。方法RMS↓Rel↓log10↓DirectReg0.8930.1120.046CounterDepth[15]0.8450.1040.043我们0.8230.0990.040898引用[1] 艾罗·阿尔梅尼、萨沙·萨克斯、阿米尔·罗山·扎米尔和西尔维奥·萨瓦雷塞。结合2d-3d语意资料于室内场景理解。CoRR,abs/1702.01105,2017。[2] 塔科湾科恩、马里奥·盖格、乔纳斯·科勒和马克斯威林球形CNN。在2018年国际学习代表会议上[3] Benjamin Coors、Alexandru Paul Condurache和Andreas盖革Spherenet:学习球面表示,用于全向图像的检测和分 类 。 In Proceedings of the European Conference onComputer Vi- sion, pages 518–533, 2018.[4] 戴继峰、齐浩志、熊宇文、李毅、国栋Zhang,Han Hu,and Yichen Wei.可变形卷积网络。IEEE计算机视觉国际会议论文集,第764-773页[5] Saumitro Dasgupta、Kuan Fang、Kevin Chen和SilvioSavarese延迟:用于杂乱室内场景的鲁棒空间布局估计。在IEEE计算机视觉和模式识别会议上,第616-624页[6] Erick Delage,Honglak Lee和Andrew Y Ng。一个迪-用于从单个室内图像进行自主3D重建的动态贝叶斯网络模型。在The IEEE Conference on Computer Vision andPattern Recognition,第2418-2428页[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,还有李飞飞Imagenet:一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议上,第248-255页[8] Liuyuan Deng,Ming Yang,Hao Li,Tianyi Li,BingHu,and王春香。基于限制变形卷积的道路场景语义分割。IEEE Transactions on Intelligent Transportation Systems,2019。[9] 马克·埃德和扬·迈克尔·弗拉姆。球面上的卷积cal images.在IEEE计算机视觉和模式识别研讨会会议论文集,第1[10] Marc Eder,Pierre Moulon,and Li Guan. Pano弹出窗口:在-门3D重建与平面感知网络。在3D视觉国际会议上,第76-84页[11] D Eigen,C Puhrsch和R Fergus。一个罪恶的预言使用多尺度深度网络的角度图像。在Proc.Conf.NeuralInformation Processing Systems,第2卷,第4页,2014中。[12] Clara Fernando-Labrador,Alejandro Perez-Yus,GonzaloLopez-Nicolas和Jose J Guerrero。使用几何和深度学习的 全 景 图 像 布 局 。 IEEE Robotics and AutomationLetters,3(4):3153[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上,第770-778页[14] Varsha Hedau,Derek Hoiem,and David Forsyth. Recov-使杂乱的房间的空间布局变得更加合理。在IEEE计算机视觉国际会议论文集,第1849-1856页[15]Theerasit Issaranon, 邹楚航, 和大卫·福赛斯从一个单一的rgb图像反事实的深度。 进行中-IEEEInternationalConferenceonComputerVisionWorkshops,第0-0页,2019年。[16] 全允浩和金俊模。 活动卷积:学习-使用卷积的形状进行图像分类。在IEEE计算机视觉和模式识别会议上,第4201-4209页[17] Chiyu Max Jiang ,Jingwei Huang , Karthik Kashinath ,Prab-帽子,菲利普·马库斯和马蒂亚斯·尼斯纳。非结构化网格上的球形CNN在2019年的学习代表国际会议[18] Jianbo Jiao,Ying Cao,Yibing Song,and Rynson Lau. 看更深的深度:具有语义增强器和注意力驱动损失的单目深度估计。在欧洲计算机视觉会议论文集,第53-69页,2018年。[19] 金承龙 基洪公园, 孙光勋,斯蒂芬·林通过联合卷积神经场从单个图像进行统一的深度预测和固有图像分解。在欧洲计算机视觉会议论文集,第143-159页[20] Iro Laina,Christian Rupprecht,Vasileios Belagiannis,美联储埃里克·托姆巴里和纳西尔·纳瓦布。使用全卷积残差网络进行更深的深度预测。在3D视觉国际会议上,第239-248页[21] Iro Laina,Christian Rupprecht,Vasileios Belagiannis,美联储埃里克·托姆巴里和纳西尔·纳瓦布。使用全卷积残差网络进行更深的深度预测。在3D视觉国际会议上,第239-248页。IEEE,2016.[22] Yeonkun Lee,Jaeseok Jeong,Jongseob Yun,WonjuneCho,还有尹国珍Spherephd:将cnn应用于360度图像的球形多面体表示。在IEEE计算机视觉和模式识别会议上,第9181-9189页[23] Arun Mallya和Svetlana Lazebnik。 学习信息化用于室内场景布局预测的边缘图。在Proceedings of theIEEE International Conference on Computer Vision , 第936-944页[24] GreirePayendeLaGaranderie ,AmirAtapourAbarghouei,和托比·P·布雷克消除盲点:360度全景影像的3d目标侦测与单目深度估测。在欧洲计算机视觉会议论文集,第789-807页[25] Timothy J.放大图片作者:William R.马克和帕特·汉rahan。 可编程图形硬件上的光线跟踪。ACM Trans.Graph. ,21(3):703[26] Xiaojuan Qi , Renjie Liao , Zhengzhe Liu , RaquelUrtasun,and Jiaya Jia. Geonet:用于联合深度和表面法线估计的几何神经网络。在IEEE计算机视觉和模式识别会议上,第283-291页[27] Olaf Ronneberger,Philipp Fischer,and Thomas Brox. U-net:用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议,第234-241页,2015年。[28] 宋舒然、曾志杰、张安琪、马诺利斯·萨瓦、Silvio Savarese和Thomas Funkhouser Im2pano3d:在视野之外对360结构和语义进行外插。在IEEE计算机视觉会议和Pat899燕鸥识别,第3847-3856页[29] Yu-Chuan Su和Kristen Grauman。学习球面卷积快速功能从360图像。 神经信息处理系统的进展,第529-539页,2017年。[30] 孙成、萧志伟、孙敏、桓宗尘Horizonnet:具有1D表示和全景拉伸数据增强的学习室布局。在IEEE计算机视觉和模式识别会议上,第1047-1056页[31] 馆野圭介, 纳西尔·纳瓦布 和费德里科·汤巴里用于全景图像密集预测的失真感知卷积滤波器在欧洲计算机视觉会议论文集,第707-722页[32] Keisuke Tateno、Federico Tombari、Iro Laina和Nassir纳瓦布Cnn-slam:实时密集单眼slam,具有学习深度预测。在IEEE计算机视觉和模式识别会议上,第6243-6252页,2017年。[33] 放大图片作者:Ingo Wald,Sven Woop,Carsten Benthin,Gregory S. 约翰儿子和曼弗雷德·恩斯特Embree:一个用于高效CPU光线跟踪的内核框架。 ACM Trans. Graph. ,33(4):143:1[34] 于泽浩, 贾政: 连东泽: 周紫涵,高胜华。基于关联嵌入的单幅图像分段平面三维重建。在IEEE计算机视觉和模式识别会议上,第1029-1037页[35] Yinda Zhang,Shuran Song,Ping Tan,and Jianxi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功