没有合适的资源?快使用搜索试试~ 我知道了~
OmniDepth:室内球形全景的密集深度估计。Nikolaos Zioulis1[0000−0002−7898−9344]、AntonisKarakottas1[0000−0003−0328−8671]、Dimitrios Zarpalas1和PetrosDaras1希腊塞萨洛尼基研究与技术中心(CERTH)-信息技术研究所(ITI)-视觉计算实验室(VCL){nzioulis,ankarako,zarpalas,daras}@vcl.iti.gr iti.gr抽象。到目前为止,关于深度估计的最近工作仅集中在投影图像上,忽略了现在越来越容易产生的360 °内容。我们表明,单目深度估计模型-在传统图像上训练的ELS在全向图像上产生次优结果,这表明需要直接在360°数据集上训练,然而,这是难以获得的。在这项工作中,我们规避了与获取高质量的360o数据集与地面真相深度注释,通过重新使用最近发布的大规模3D数据集,并通过渲染将它们重新用于360o的挑战。这个数据集比类似的投影数据集大得多,是公开的。提供给社区,使未来的研究在这个方向。我们使用该数据集以端到端的方式学习从360o图像进行深度估计的任务。我们在我们的合成数据以及看不见的真实图像。关键词:全向媒体,360度,球面全景,场景理解,深度估计,合成数据集,虚拟数据学习1介绍计算机和3D视觉中的基本挑战之一是对场景的深度的估计。开发这种技术将引领世界的发展,这对许多应用非常重要这些方法从创建3D地图[1]并允许在真实世界环境中导航[2],到启用立体渲染[3],从预先捕获的内容中合成新颖的视图[4],甚至将3D对象合成到其中[5]。深度信息已被证明可以提高与场景理解相关的许多视觉任务的有效性,当与颜色信息联合使用时[6,7]。类似于婴儿如何开始从两个视点感知深度,然后通过移动和观察物体的多个视点,研究人员也遇到了通过基于多视点一致性的方法估计深度的问题。表示平均贡献。2Zioulis等人(一)(b)第(1)款(c)第(1)款(d)其他事项(e)图1:我们学习直接从全向室内场景图像预测深度的任务我们的Net模型的结果如下所示(从左到右):(a)来自我们的测试集的360个图像样本,(b)对应的地面实况深度,(c)测试图像样本的预测深度图,(d)来自Sun360数据集的360个未看见的图像样本,(e)Sun360图像样本的预测深度图。[8,9]和运动恢复结构(SfM)[10]。但人类也会受到过去经验和情境相似性的驱动,并在面对新场景时应用这种集体知识同样,随着更有效的机器学习技术的出现,最近的研究集中在学习预测深度上,即使使用完全无监督的学习方法也取得了令人印象深刻的结果然而,基于学习的方法仅关注由典型的基于针孔投影模型的相机捕获的传统2D内容。随着高效球形摄像机和设备的出现,全向(360°)内容现在更容易和一致地制作,并且在娱乐和营销制作、机器人和车辆应用以及事件报道甚至新闻报道中越来越多地采用。消费者现在可以在手机、台式机中体验360o内容,更重要的是新兴媒体已经通过全向立体[11,12,13,14]和SfM[4]分析解决方案,类似于传统的2D内容,对来自全向内容的深度和/或几何结构提取进行了处理然而,将基于学习的方法应用于360°内容存在固有的问题,这是由于其采集过程抑制了高质量数据集的创建。将它们与360° LIDAR耦合将产生低分辨率深度,并且还将深度传感器插入到内容本身中,这是在旨在获取立体数据集时也存在的缺点。一种替代方案将是手动重新定位相机,但这将是繁琐的并且容易出错,因为一致的基线将是不可能的。在该工作中,我们使用CNN来学习,以确定给定全向(等矩形)图像作为输入1。为了避免缺乏可用的训练数据,我们采取重新使用现有的3D数据集和重新1我们在本文档中可互换地使用术语全向图像、360°图像、球形全景和等矩形图像。OmniDepth3使它们在360°环境中使用这通过经由渲染生成不同的360°视图来实现我们使用该数据集进行学习,以从全向内容推断总之,我们的贡献如下:1. 我们首 先 向 所 有 人 介 绍 一 种 新 的 、 可 识 别 的 估 计 方 法 , 该方 法 使 用 等 矩 形 图 像 形 式 的 全 方 位 内 容 进 行 训 练 并 直 接 对全 方 位 内 容 进 行 操 作 。2. 我们提供了一个数据集,由360o彩色图像与等矩形格式的地面真实360o该数据集可在线获取2。3. 我们提出并验证了一种CNN自动编码器架构,该架构专门设计用于直接在等距矩形图像上估计深度。4. 我们展示了在传统2D图像上训练的单目深度估计方法在应用于等矩形输入时如何不足或产生低质量的结果,突出了直接在360o域上学习的必要性2相关工作由于这项工作的目的是学习全向密集深度估计的任务,并给出了在所有这些未知的几何场景中没有类似的关键字,我们首先回顾了然后,我们研究基于学习的球形内容的方法,最后,提出了最近的单目稠密深度估计方法。2.1360°图像与针孔投影模型相机类似,相同的多视图几何[8]原理适用于360°图像。通过从多个视点观察场景并建立它们之间的对应关系,可以估计潜在的几何结构。对于360°相机,通过考虑不同的投影模型并在将视差定义为角位移之后,将传统的双目或多视图立体[9]问题分别重新表述为双目或多视图球面立体[11通过估计视差(即,因此,如果场景是3D的,则完整的场景可以从多个[15,14]或甚至仅两个[12,13]球形视点3D重建。然而,所有这些方法都需要多个360°图像存储器来确定空间的几何形状。可以理解的是,利用移动摄像机获取的360 °视频可以用于在VR头中3D重建场景的几何形状[ 4 ]并且可以在VR头中进行6D视频观看。还存在仅需要单个图像来理解室内场景并估计其布局的方法。PanoContext [16],在给定等矩形格式的室内360°在估计是边界框的情况下,推断的几何形状仅是场景的粗略近似类似的精神,杨等人的工作[17]通过结合超像素信息、消失点估计和几何背景先验,从全景室内图像生成完整的房间布局,2http://vcl.iti.gr/360-dataset/4Zioulis等人曼哈顿世界的假设。然而,专注于房间布局估计,它是无法恢复更精细的细节和结构的场景。另一种类似的方法[18]从另一个角度解决了几何场景理解的问题在最大后验估计下,它统一了语义、姿势和位置线索,以生成所观察场景的CAD模型最后,在[19]中,使用球面立体对来估计房间布局,但同时也估计空间布局和空间布局。在通过深度匹配和随后计算法线来重建图像的布局之后,将等矩形图像投影到立方体的面,然后将立方体的面馈送到CNN,CNN的对象预测被融合到360 °图像中2.2学习360o图像在机器学习设置下纯粹从全向输入[20]估计距离的第一种方法之一利用高斯过程。代替估计每个像素的距离,预测每个图像列的范围值如今,随着CNN的建立,有两种直接的方法将当前的CNN处理管道应用于球形输入。要么直接在投影(通常是等矩形)图像上,要么通过将球形内容投影到立方体(立方体贴图)的面上并在其上运行CNN预测,然后通过将其反向投影到球形域来合并。最后一种方法是由一个artis-tic样式转换工作[21],其中每个面被单独重新设置样式,然后cubemap被重新映射回等矩形域。同样地,在SalNet360[22]中,使用球面坐标来找到立方体的面上的分割,然后合并回到360 °。前一种方法,将CNN直接应用于等矩形图像,在[23]中被选择以增加室外全景的动态范围。最近,用于将CNN应用于全向输入的新技术被提出。 为了有效地在特定的CNN中实现深度学习,以及作为针对每个视点的深度的一种灵活的变化,[ 24 ]所追求的替代方案是基于基于图的深度学习。具体而言,该改进的存储器直接针对该分组的结构和应用程序来完成分类任务。[25]中采用的一种新方法是通过从在传统2D图像上训练的现有网络中转移它们来学习等矩形投影球面图像的适当卷积权重从2D到360°域的这种转换是通过在2D投影视图的预测和360°图像中的预测之间强制执行一致性来实现的。此外,最近关于卷积的工作[26,27]除了学习它们的权重外,还学习它们的形状,非常适合学习球面图像的失真模型,即使它们到目前为止只应用于鱼眼镜头[28]。最后,最近,在[29,30]中提出了球面CNN,其基于球面互相关的旋转等变定义然而,这些只在分类和单变量回归问题中得到证明此外,他们也被应用在光谱域,而我们制定我们的网络设计的空间图像域。OmniDepth52.3单目深度估计从单目输入的深度估计最近吸引了很多兴趣。虽然有一些令人印象深刻的非基于学习的方法[31,32,33],但它们具有局限性,即依赖于光流和训练数据集的相关性尽管如此,最近的研究主要集中在机器学习上,以解决不适定的深度估计问题。最初,Eigen et al. [34]使用RGB-D图像的直接深度监督,以粗到细的方案训练CNN 在他们的工作[6]的后续延续中,他们训练了一个多任务网络,该网络在预测语义标签和法线之间,也可以确定数据的深度。结果表明,由于它们的互补性,联合学习实现了更高的性能。在最近的一项类似工作中[35],使用合成数据和基于对抗学习的域适应损失来训练多任务网络,该网络在其他模式中也估计深度,以提高其在真实场景中运行时的 鲁 棒 性 Laina等 人 [36] 设 计 了 一 种 直 接 监 督 的 全 卷 积 残 差 网 络(FCRN),具有新颖的上投影块,在室内场景中取得了令人印象深刻的结果,并且还用于SLAM管道[1]。另一部分工作集中于将条件随机场(CRF)应用于深度估计问题。最初,使用分层CRF [ 37 ]对深度网络的输出进行了细化,Liu等人。[38]进一步探索CNN和CRF之间的相互作用,以在其工作中进行深度估计。最近,多尺度CRF与CNN一起以端到端的方式使用和训练[39]。密集深度估计也已经作为分类问题被解决。由于完美回归通常是不可能的,因此在[40]中估计了密集概率,然后优化以估计最终的深度图。同样地,在[41]和[42]中,深度值在箱中离散化并密集分类,以然后经由分级融合方案或通过使用的CRF。更进一步,在[43]中提出了一种回归分类级联网络,其中对低空间分辨率深度图进行回归,然后通过分类分支进行细化。Garg et al.[44] Godard et al.[45]表明深度估计任务的无监督学习是可能的。这是由一个中间任务,视图合成,并允许训练,只使用立体声对输入与已知的基线。以类似的方式,使用视图合成作为主要的监督信号,学习估计深度也是通过以完全无监督的方式训练纯视频序列来实现的[46,47,48,49,50]。另一种新颖的无监督深度估计方法依赖于孔径监督[51],通过简单地获取各种聚焦水平的训练数据。最后,在[52]中表明,可以训练CNN来仅使用相对深度注释从单眼输入估计深度。3合成数据深度网络的端到端训练需要大量带注释的地面实况数据。而对于典型的针孔相机数据集,这部分是6Zioulis等人通过使用深度传感器[53]或激光扫描仪[54]来解决,由于360°照相机和激光扫描仪的分辨率的较大差异,并且因为每个360°传感器将从另一个可见,所以这种方法与[55]中采用的方法一样多的方法可以用于对传感器区域进行内绘制,这些仍然是算法过程的结果,而不是采集过程本身,可能会引入会降低数据质量的错误和伪影。这也适用于需要从两个视点同时捕获场景的无监督立体方法。尽管可以重新定位相同的传感器以获取干净的全景图,但是一致的基线将是不可能的。最近,不受支持的应用程序用于在具有视频序列的情况下进行的场景设计然而,它们假设移动的相机,因为它们依赖于视图合成作为监控信号,这不是用于室内360°捕获的典型设置,而是用于类似于记录的动作相机。360D数据集:相反,我们依靠通过渲染合成颜色和深度图像来生成具有地面真实深度的数据集。为了实现这一点,我们利用最新的努力,在创建公开可用的纹理三维数据集的室内场景。具体来说,我们使用两个计算机生成(CG)数据集SunCG [56]和SceneNet [57],以及通过扫描室内建筑物Stanford2D3D [58,59]和Matterport3D [60]获得的两个现实数据集我们使用路径跟踪渲染器3通过将球形相机和均匀点光放置在场景中的相同位置c ∈R3然后,我们获取渲染图像I(p)∈R,p =(u,v)∈N2,以及作为图形渲染过程的结果而生成的底层z缓冲区,其用作地面实况深度D(p)∈R。 应当注意,与针孔相机模型图像不同,在这种情况下,z缓冲区不包含3D p的z坐标值,但在相机的相位系统中,3D p的坐标值为r= v-c。对于两个CG室内数据集,我们将相机和灯光放置在每个房屋的中心,而对于两个扫描的室内数据集,我们使用可用的姿势信息(在扫描过程中估计),因此,对于每个建筑物,我们生成多个360°数据样本。考虑到后两个数据集被扫描,它们的几何形状包含孔或不准确/粗略的估计,并且还具有烘焙到模型中的照明信息。另一方面,CG数据集包含完美的每像素深度,但缺乏扫描数据集的真实性,从而创建互补的混合。然而,由于没有可用的扫描姿态,因此居中姿态有时可能被放置在对象内或对象顶部,并且我们还观察到在一些场景中丢失信息(例如,图像中的图像)。墙壁/装饰物),给定单个CG的大小,实现了实用的自动化控制。对于每个姿势,我们通过将相机旋转90°来增强数据集,从而导致每个姿势样本有4个不同的视点 考虑到SunCG的规模,我们只使用了它的一个子集,最终使用了11118个房屋,结果是24个。36%的利用率。其余三个数据集将完全呈现。这导致总计的94098渲染和23524独特的观点。我们生成的360D数据集3https://www.cycles-renderer.orgOmniDepth7图2:我们数据集的示例渲染,从左到右:3D建筑物具有表示渲染场景的绿色突出显示、颜色输出、对应的深度图以及以黑色描绘缺失区域的二进制遮罩。包含各种室内环境(房屋、办公室、教育空间、不同房间布局)中的 合 成 和 逼 真 360 ° 彩 色 I 和 深 度 D 图 像 数 据 的 混 合 , 并且可在www.example.com 公开获得http://vcl.iti.gr/360-dataset/。4全方位深度估计用于密集估计的大多数最近的CNN架构遵循自动编码器结构,其中编码器通过逐渐减小其空间维度将输入编码为小得多的大小的表示,并且通过放大该表示来回归到期望输出的解码器。我们使用两种结构不同的编码器-解码器网络架构。第一个类似于文献[45,36]中类似作品中的那些,而第二个是从头开始设计的,更适合使用360o图像进行学习。这两个网络都是完全卷积的[61],并且预测等角深度图,唯一的输入是等角格式的360o我们使用ELU [62]作为激活函数,其也去除了需要批量归一化[63]及其增加的计算复杂性。UResNet:在这个不平衡的ResNet中,编码和解码部分是不对称的,解码器更浅。编码器使用跳过连接[64]构建,这是一种通过防止梯度退化来帮助训练更深架构的技术,允许更大的感受野。更详细的架构信息如图所示。3,其中网络被分解成处理块。全向图像与传统图像的不同之处在于,它们捕获全局(全360°)视觉信息,并且当采用等角格式时,沿其y方向(即,垂直方向)遭受高失真纬度)轴。SunCG斯坦福2D3DMatterport3D8Zioulis等人图3:UResNet架构:编码器由两个输入预处理模块和四个缩减模块(深绿色)组成前者是单卷积(conv)层,而后者由一个跨步的conv和两个具有跳过/残差连接的更规则的conv组成解码器包含一个上缩放块(橙色)和三个上预测块(红色),然后是预测层(粉红色)。 用跨步去卷积跟随卷积来实现放大,并且类似地,放大预测另外分支以用与每个像素块的每个像素级联的扩展卷积来估计对应尺度下的深度预测。因此,该电子地图的设计目标是扩展和改进球形全景的性质,同时保持UR e s Net i k e s K i p c t i n的一些期望性质。通过利用扩张卷积增加每个神经元的有效感受野(RF )来实现捕获360个图像的全局坐标[ 65 ]。代替如在大多数深度估计网络和类似的UResNet中的逐步缩小,我们仅将空间 维 度 降 低 4 倍 。 然 后 , 受 [66] 的 启 发 , 我 们 使 用 逐 渐 增 加 的 DilationstoincreaseRF来分析输入的空间尺寸,并增加全局场景理解。此外,在每个膨胀块中,我们利用1× 1卷积来减少特征图的空间相关性相位图的分辨率因子与相位的极点相同,因此对于每个图像行都不同。这意味着信息是水平分散的,因为我们垂直地接近两极。为了解释这种变化的失真,我们改变我们的输入块,因为它们的特征更接近自然图像的特征(例如,边缘)。在[25]之后,其中2D CNN滤波器被转换为扭曲的(实际上是矩形的)逐行版本以提高应用于360o域时的性能,我们使用矩形滤波器以及传统的方形滤波器,并改变矩形滤波器的分辨率然而,在还保持滤波器的面积尽可能接近原始平方滤波器的同时进行这种变化。在保留总体输出特征计数的同时,保留了输出角的输出和所需的特征。详细的架构如图所示。4.第一章训练损失:考虑到我们合成完美的地面实况深度注释Dgt,如第3节中所呈现的,我们采取完全监督的方法。OmniDepth9GTpred图4:以太网架构:编码器由两个预处理块(黄色和蓝色)和一个缩小块(深绿色)组成,后面是两个增加的膨胀块(浅绿色和黑色)。 预处理块级联由具有不同滤波器大小的卷积(convs)产生的特征,这是由于每个预处理块的不同的离散因子。 该缩小块包括一个跨步的和两个规则的卷积。尽管大多数使用合成数据的方法无法推广到现实输入,但我们的数据集包含了合成(CAD)渲染和现实渲染的有趣组合扫描的数据是从真实环境中获取的,因此,它们的渲染非常逼真。根据以前的工作,我们预测深度Ds对照地面实况数据D的在多-对这些预测进行缩放(其中S是缩小因子),并使用最近邻插值对这些预测进行上采样,以便稍后将它们与随后的更高空间维度特征图连接。我们还使用了dropout技术[67]在那些用来产生每个预测的层中。此外,我们使用L2损失来回归密集深度输出Edepth(p)=Dgt(p)-Dpred(p)2,并通过最小化其梯度来为预测的深度图添加平滑项Esmooth(p)=D(p)2虽然我们渲染的深度图在深度方面是准确的,但实际上这是因为CAD模型中缺少信息(例如:墙壁/天花板)或大规模3D扫描的不完美过程,图中展示了视觉示例。二、这些缺失的区域/孔表现为特定颜色(“透明颜色”),其在所述再现的图像中在再现期间被选择,并且在所再现的深度图中表现为清晰(“远”)值。由于这些离群值将使训练过程不稳定,因此我们在反向传播期间通过使用在这些缺失区域中为零的每像素p二进制掩码M(p)来忽略它们这使得我们即使使用不完整或稍微不准确/错误的3D模型也可以训练网络。因此,我们的最终损失函数是:E损失(p)=ΣαsM(p)E深度(p)+SΣβsM(p)Esmooth(p),(1)S其中αs、βs是深度和平滑项的每个尺度的权重。10Zioulis等人表1:我们的网络用于360o密集深度估计的定量结果。网络测试绝对相对值↓ Sq Rel↓RMS↓ RMSlog↓ δ<1。25 ↑ δ <1.一、22↑ δ <1.一、253↑UResNet测试集0.08350.04160.33740.12040.93190.98890.9968Net测试集0.07020.0297 0.2911 0.10170.95740.99330.9979UResNet场景网0.12180.0727 0.40660.15380.85980.98150.9962Net场景网0.10770.6990.35720.13860.89650.98790.9971UResNet-S2R斯坦福0.12260.07680.4890.16670.85930.97560.9942网络-S2 R斯坦福0.08240.0457 0.39980.12290.9280.98790.9971UResNet-S2R 场景网0.14480.09910.5170.17920.78980.97610.9935网络-S2 R场景网0.10790.0644 0.37780.14040.89660.98660.9965结果我们评估我们的两个360o深度估计网络的性能,首先进行内部评估的两个模型,然后提供定量比较与其他深度估计方法。最后,我们提出了比较定性的结果看不见的,现实的数据的日常场景。培训详情:我们的网络使用Caffe [68]在单个NVIDIA Titan X上进行训练。我们使用Xavier权重初始化[69]和ADAM [70]作为优化器,其默认参数[β1,β2,β 2]= [0. 九比零。999,10 - 8],初始学习率为0。0002.我们的输入尺寸是512× 256,以等矩形格式给出,我们的深度预测大小相等。我们将数据集分成相应的训练集和测试集,如下所示:(i)最初,我们从Stanford2D3D中删除1个完整的区域,从Matterport3D中删除3个完整的建筑物,从SunCG中删除3个CAD场景,以获得总计1,298个样本的测试集(ii)我们完全跳过了SceneNet,并将其用作我们 的 验 证 集 。 (iii) 然 后 , 从 剩 余 的 SunCG , Stanford2D3D 和Matterport3D样本中,我们自动删除包含具有非常大或非常小的深度值的区域的场景(大于20米或小于0. 5米)。最后,我们剩下一个训练集,它由34,679个 4RGB 360°图像以及它们对应的地面实况深度图注释组成UResNet的损失权重为[α1,α2,α4,β1]=[0. 445,0。275,0。13,0。15],对于Net,它们是[α1,α2,β1,β2]=[0. 535,0。272,0。134,0。068]。对于定量评估,我们使用与以前的工作相同的错误度量[34,6,45,36,38](表中每个度量旁边的箭头表示更好性能的方向)。模型性能:表1展示了我们的两个模型在我们的测试集中的结果,以及在我们所有训练集中训练了10个epoch后,在看不见的合成SceneNet生成的数据中的结果。我们观察到,Net-设计时考虑了360 o输入-即使参数少得多,也比标准的UResNet表现更好(8. 8Mvs 51。2M)。为了评估它们的功效和泛化能力,我们进行了留一法评价。我们最初只在合成SunCG生成的数据中训练两个网络10个时期,然后在现实的Matterport3D生成的数据中微调它们。4通过在给定长度的情况下对较大场景进行优先级排序,仅使用SunCG的子集。 渲染过程。然而,更大的子集是公开可用的。OmniDepth11立方体贴图相等。表2:相对于其他单目深度估计模型的定量结果。网络AbsRel↓ Sq Rel↓ RMS↓ RMS(log)↓δ<1。25 ↑ δ <1.一、252↑ δ <1.一、253↑UResNet0.08350.04160.33740.12040.93190.98890.9968Net0.07020.0297 0.29110.10170.95740.99330.9979Godard等人[45个]0.47472.37837.20970.820.2970.790.751Laina等人[36个]0.31810.44690.9410.3760.49220.77920.915Liu等人[38个]0.42020.75971.15960.440.38890.70440.8774Godard等人[45个]0.25520.98644.45240.50870.30960.55060.7202Laina等人[36个]0.14230.25440.7751024970.51980.80320.9175Liu等人[38个]0.18690.40760.92430.29610.4240.71480.8705数据为另一个10个时期。 本列车的后缀为“-S2 R”。然后,我们在整个Stanford2D3D生成的数据集以及SceneNet中对其进行评估。观察到与具有所有数据集的先前训练相当的结果。同样,Net的性能优于UResNet在每个错误度量或准确性方面,WISTRNet相对于UResNet的性能提高可以归因于其更大的RF,这对于360o图像非常重要,因为它允许网络更有效地捕获全局上下文5。尽管事实上UResNet比CNONet深得多并且显著地降低了输入的空间分辨率,但Rect Net仍然是一个较大的安全域。具体来说,UResNet的RF为190 × 190,而Net的RF为266×276。在另一个方面,RectNet将输入的空间尺寸仅缩减4倍,从而在所提取的特征中保持更密集的信息。与其他方法的比较:鉴于没有其他方法来执行密集的深度估计360 o图像,我们评估其性能对单目深度估计模型的最新技术水平。 由于这些方法的预测是以不同的尺度定义的,因此我们通过尺度~来缩放估计的深度图,其中在时间上与我们的粗纹理类似[46],即。e. s〜=median(Dgt)/median(Dpre d)。此外,我们评估如第3节中所提及的经掩蔽深度图以便忽略缺失值。表2给出了直接应用于等距矩形域中的测试分裂时的最 我们提供的模型Laina等人的结果。[36],在室内场景中接受直接深度监督的培训,戈达尔等人。[45],在户外驾驶场景中使用校准的立体声对以无监督的方式进行训练,以及Liu等人的方法。[38],其将学习与CRF相结合,并在室内场景中进行训练。结果表明,直接在等距矩形图像上的所有方法的性能都很差,而我们的主要模型优于它们。然而,预期性能较差,因为这些不是直接在等矩形域中而是在透视图像中训练的。尽管如此,Laina et al.[36] Liu et al.[38]取得了比戈达尔等人更好的结果。[45 ]第45段。这也是预料之中的,因为后者是在一个室外环境,与我们的室内数据集有非常不同的统计数据5支持这一说法的各种射频实验可以在补充材料中找到12Zioulis等人图5:我们的测试分割的定性结果。”Indoors”Fig. 6:在360 S un打印机上的“R om”和“I nd o or s”上进行质量检查。为 了 更 公 平 的 比 较 , 我 们 使 用 立 方 体 贴 图 投 影 ( 图 1 ) 。 7(左)),然后在投影的立方体表面上运行每个模型,这些立方体表面是典型的透视图像。获得预测后,我们合并所有立方体我们的Net我们的UResNetLiu等人[38]Laina等人[36个]Godard等人[45]第 四 十 五 话我们的Net我们的UResNetLiu等人[38]Laina等人[36个]Godard等人[45] RGBOmniDepth13表3:相对于其他单眼模型的每立方体面定量结果。网络AbsRel ↓ SqRel↓ RMSE↓ RMSElog↓ δ<1。25 ↑ δ <1.一、252↑ δN1。253↑UResNet0.00970.0062 0.12890.0410.92450.98530.9955Net0.0080.0042 0.11130.035040.94970.99070.9969Godard等人[45个]0.04530.17431.65590.19580.45240.70230.8315Laina等人[36个]0.030.05490.31520.10330.63530.86160.9412Liu等人[38]0.03120.05320.30480.1070.6030.84120.9338图7:立方体贴图投影(左)和合并的单眼预测(右)。通过将数据库预连接到不需要评估的均衡请求和目标,可以将数据映射出来。然而,由于顶部和底部立方体面投影将主要是平面的,因此我们在 评 估 所 有 度 量 时 忽 略 它 们 虽 然 单 目 性 能 相 比 , 直 接 应 用 于equirectangular图像时得到了改善,但它们的定量性能仍然不如我们的模型。此外,运行时性能也更差,因为需要运行多个推断,每个面部一个,导致高得多的计算成本。此外,另一个明显的问题是每个面孔的预测之间缺乏一致性。如图所示。7(右)其中很明显每个面的深度尺度是不同的。这与[21]中的观察结果一致,但在深度估计情况下比样式转移情况下更明显。基于该观察,我们针对也被单独地中值缩放的单独的面的地面真值来单独地评估每个立方体面。每个单眼模型的正面、背面、右侧和左侧的平均值与我们的模型仅在相同面部上获得的平均值在表3中呈现。虽然单目模型的性能进一步提高,我们的模型仍然表现得更好。这可以归因于除了直接在等距矩形域上训练之外的各种原因。一种解释是,360°图像捕获全局信息,这可以更好地帮助关于相对深度的推理,并且总体上提高推理性能。另一个是,我们生成的数据集比其他室内数据集大得多,也更多样化。此外,立方体面是从512× 256图像中投影出来的,因此质量/分辨率低于这些模型训练的典型图像。定性结果:为了确定我们的模型推广的程度,我们在Sun360数据集[71]中发现的完全看不见的数据上检查了它们的性能,其中没有地面真实深度。Sun360数据集包括真实的环境捕获,并且也已用于Yang等人的工作中14Zioulis等人[17]用于房间布局估计。我们提供了一些关于[17]的数据分割的定性结果,称为“房间”,以及我们从Sun360数据集中选择的室内场景的额外分割,称为“室内”。这些在图中呈现。6对于我们的两个模型以及单眼模型,它们是经过验证的。我们的模型可以使用唯一能产生合理结果的单目模型(Laina的模型)来评估该场景等人[36]。我们还观察到,UResNet提供了比性能更好的CNONet更平滑的预测,与我们的测试分割获得的结果不同。更多的定性结果可以在补充材料中找到,其中与Yang等人的方法进行”[17]也有提供。6结论我们已经从一个360 °图像中提取了一个新的图像文件,以便从一个360 °图像中提取图像。我们的模型以完全监督的方式进行训练,具有地面真实深度。为了实现这一点,我们克服了数据集不可用性和采集成对的360°彩色和深度图像对的困难。这是通过将3D数据集与合成和真实世界扫描的室内场景一起重新使用并通过渲染合成360o数据集来360°深度信息可以用于各种任务,例如在球形内容内的3D元素的合成中添加自动化[72]。由于我们的方法是密集360o深度估计的第一项工作,因此仍有许多挑战需要克服。我们的数据集仅涵盖摄影或摄影,限制了网络摄影机输出摄影或摄影的能力,并且数据是在恒定照明和摄像机垂直对齐的情况下生成的。没有拼接伪影。由于扫描数据集在扫描期间具有烘焙到其中的照明信息,因此该问题进一步突出。当应用于还包含高得多的光度动态范围的真实世界条件时,这可能潜在地妨碍鲁棒性。对于未来的工作,我们希望探索基于视图合成作为监督信号的无监督学习方法。此外,可以通过利用GAN作为真实内容的生成器,或者通过使用鉴别器来识别似真/真实图像,来实现对真实世界场景的鲁棒性。鸣谢:这项工作得到了欧盟地平线2020框架计划资助的项目Hy-per360的支持和资助。761934.我们也非常感谢和感谢NVIDIA对硬件捐赠的支持。OmniDepth15引用1. Tateno,K.,Tombari,F.,莱娜岛Navab,N.:Cnn-slam:具有学习深度预测的实时密集单块slam。2017年IEEE计算机视觉和模式识别会议(CVPR)。(2017年7月)65652. Mo K Li,H.,林芝,Lee,J.Y.:adobeindoornav数据集:基于深度强化学习的室内机器人视觉导航。(2018年)3. Hedman,P. Alsisan,S.,塞利斯基河Kopf,J.:休闲3D摄影。ACM Transactionson Graphics(TOG)36(6)(2017)2344. 黄,J.,陈志,Ceylan,D.,Jin,H.:6-dof vr videos with a single 360-camera.在:虚拟现实(VR),2017 IEEE,IEEE(2017)375. Karsch,K.,Sunkavalli,K.,Hadap,S.,卡尔,N.,Jin,H.,丰特河Sittig,M.,Forsyth,D.:三维物体合成的自动场景推断。ACM Transactions on Graphics(TOG)33(3)(2014)326. Eigen,D.Fergus,R.:预测深度、曲面法线和语义标签一种常见的多尺度卷积架构。在:IEEE计算机视觉国际会议(2015)26507. Ren,X.,博湖Fox,D.:RGB-(d)场景标记:特征和算法。在:计算机视觉和模式识别(CVPR),2012 IEEE会议,IEEE(2012)27598. 哈特利河齐瑟曼,A.:计算机视觉中的多视图几何学第二版。剑桥大学出版社(2000)9. Furukawa,Y., Herna'ndez,C., 是的。:Muti-vie w stereo:Atutorial. Fondations和TrendsR 在C〇mputerGraphicsanddVision9(1- 2)(2015)110. O¨zye¨sil,O., Voronins k i,V., Basri,R., Sin g e r,A. : 一种从运动中恢复结构的方法 *。Acta Numerica26(2017)30511. 李S:双目球面立体。IEEE Transactions on intelligent transportation systems9(4)(2008)58912. 马,C., Shi,L.,美国, 黄,H., Yan,M.:基于全视角鱼眼相机 arXiv预印本arXiv:1506.06273(2015)13. Pathak,S.,Moro,A.,Yamashita,A.,Asama,H.: 基于光流的等矩形极线校正的球面图像稠密三维重建。在:成像系统和技术(IST),2016年IEEE国际会议,IEEE(2016)14014. Li,S.,Fukumori,K.:用于构建沉浸式虚拟现实环境的球面立体。在:虚拟现实,2005年。诉讼VR 2005。IEEE,IEEE(2005)217-22215. Kim,H. Hilton,A.:基于多个球面立体像对的三维场景重建。国际计算机视觉杂志104(1)(2013年8月)9416. 张玉, Song,S., Tan,P., Xiao,J.: Panocontext:整个房间的3D环境全景场景理解模型。参见:欧洲计算机视觉会议,Springer(2014)66817. 杨,H.,Zhang,H.:从单个全景图中高效地恢复3d房间形状。IEEE计算机视觉和模式识别会议论文集。(2016)542218. 徐,J,Stenger,B.,Kerola,T.,Tung,T.:Pano2cad:从一个单一的全景图像的房间布局。在:计算机视觉应用(WACV),2017年IEEE冬季会议,IEEE(2017)35419. Kim,H. de Campos,T.,Hilton,A.:使用球形摄像机的具有对象和材料属性信息的房间布局估计。在:3D视觉(3DV),2016年第四届国际会议,IEEE(2016)51916Zioulis等人20. Plagemann,C.,Stachniss角Hess,J.,Endres,F.,Franklin,N.:全方位视觉距离感知的非参数学习方法。机器人和自主系统58(6)(2010)76221. Ruder,M.,Dosovitskiy,A.,Brox,T.: 用于视频和球形的图像. 国际计算机视觉杂志(2018年4月)22. 蒙罗伊河Lutz,S.,Chalasani,T.,Smolic,A
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功