OmniMVS：全方位立体匹配的深度神经网络模型及其在宽基线多视图立体设置中的应用

141 浏览量更新于2023-10-12 收藏 1.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8987OmniMVS：全方位立体匹配Changhee Won、Jongbin Ryu和Jongwoo Lim*韩国首尔汉阳大学计算机科学系{chwon，jongbinryu，jlim}@ hanyang.ac.kr摘要在本文中，我们提出了一种新的端到端深度神经网络模型，用于宽基线多视图立体设置的全向深度估计。由特征提取模块处理由全向装备上的超宽视场（FOV）相机捕获的图像，并且然后使用校准的相机参数将深度特征图扭曲到扫过所有候选深度的同心球上。3D编码器-解码器块采用对齐的特征体积来产生利用全局上下文信息对不确定区域进行正则化的全向深度估计。此外，我们提出了大规模的合成数据集的训练和测试全向多视图立体声al-taxms。我们的数据集包括11K地面实况深度图和45K鱼眼图像，它们在四个正交方向上具有各种对象和环境。实验结果表明，该方法在合成环境和真实环境中均能获得良好的效果，其性能优于现有技术和传统立体声算法的全向版本。1. 介绍基于图像的深度估计，包括立体和多视图密集重建，已经在计算机视觉界广泛研究了几十年。在传统的双视图立体匹配中，深度学习方法[12，4]最近已经实现了显著的性能此外，在自动驾驶和机器人导航中存在对全向或宽FOV深度感测的强烈需求，以感测障碍物和周围结构。人类驾驶员观察所有方向，而不仅仅是前方，完整机器人需要感知所有方向才能自由移动。然而，常规立体装备和算法不能捕获或估计超宽FOV（>180μ m）深度图。合并来自多个常规立体对的深度图可以是一种可能性，但是有用的全局上下文信息不能在立体对之间传播。*通讯作者。在接缝处可能有不连续性。最近，已经提出了使用多个相机[29]、反射镜[25]或宽FOV鱼眼镜头[6]的全向立体声的几项工作。尽管如此，很少有作品将深度神经网络用于全向立体声。在SweepNet [30]中，卷积神经网络（CNN）用于计算从超宽FOV图像变形的等矩形图像对的匹配成本。然后通过成本聚集来细化所得到成本量（例如，半全局匹配[10]），这是常规立体匹配中常用的方法[5，32，15]。然而，这种方法在宽基线全向设置中可能不是最佳的，因为遮挡更频繁和更重，并且对于一条射线可能有多个真正的匹配（图2）。第2b段）。另一方面，最近用于传统立体匹配的方法，如 GC-Net [14]和PSMNet [4]，采用端到端深度学习，而无需单独的成本聚合，并且与传统流水线相比实现了更好的性能[32，8，26]。我们介绍了一种新的端到端深度神经网络，用于从多视图鱼眼图像中估计全向深度。它由三个模块组成，一元特征提取，球形扫描和成本体积计算，如图所示。1.一、从输入图像构建的深度特征被扭曲为所有假设深度的球形特征图（球形扫描）。然后通过连接来自所有视图的球面特征图形成4D特征体，使得可以有效地学习多个视图之间的相关性。最后，3D编码器-解码器块在考虑全局上下文的情况下计算正则化成本虽然所提出的算法可以处理各种相机布局，但我们选择了图1中的钻机2a，因为它提供了良好的覆盖范围，同时可以很容易地在现有车辆中采用。具有足够数量、质量和多样性的大规模数据然而，由于可用深度传感器的限制，在现实世界中获得高度精确的密集深度测量是非常困难的。最近的作品[16，21]有8988提出了使用具有地面真实深度图的逼真渲染的合成图像[30]中的城市景观合成数据集是全向多视图设置的唯一可用数据集，但数据数量不足以训练大型网络，并且它们仅限于具有很少观测值的户外驾驶场景。在这项工作中，我们提出了互补的大规模合成数据集在室内和室外环境中的各种对象。本文的贡献概括为：(i) 我们提出了一种新的端到端深度学习模型来估计来自多个鱼眼相机的全向深度。所提出的模型直接将特征映射投影到预定义的全局球体，与3D编码器-解码器块相结合，使得能够利用全局上下文来计算和正则化匹配成本。(ii) 我们提供大规模的合成数据集用于全方位深度估计。数据集由多个输入鱼眼图像和相应的全向深度图组成。在真实环境中的实验表明，我们的数据集成功地训练了我们的网络.(iii) 我们的实验表明，所提出的方法优于以前的多阶段方法。我们还表明，我们的方法相比，最先进的传统立体声方法的全向版本，通过广泛的实验，表现良好2. 相关工作基于深度学习的常规立体方法常规立体设置假设校正图像对作为输入。深度学习之前的大多数传统立体声算法都遵循两个步骤：匹配成本计算和成本汇总。如Hirschmulleret al. [11]、绝对差之和、基于滤波器的成本、互信息或归一化互相关被用于计算匹配成本，并且对于成本聚合，使用基于局部相关的方法、全局图切割[2]和半全局匹配（SGM）[10]。其中，SGM [10]由于其高精度和低计算开销而被广泛使用。最近，深度学习方法在立体匹配中报告了许多改进的性能。Zagoruyko等人[31]提出了一种基于CNN的图像块对相似性度量。类似地，Zbontar和LeCun [32]介绍了MC-CNN，它从小图像补丁对计算匹配成本同时，也有一些研究集中在成本聚集或差异细化上.Guéney和Geiger [8]介绍了使用物体的3D分辨率在反射或无纹理表面上解决匹配歧义的Displets模型Seki和Pollefeys [26]提出了SGM-Net，它预测了SGM [10]中的平滑惩罚。另一方面，已经有几项关于立体管道的端到端建模的工作Kendall等人[14]提出GC-Net，通过3D卷积编码器-解码器架构正则化匹配成本此外，Chang和Chen [4]的PSMNet由用于更大感受野的空间金字塔池模块和用于学习更多上下文信息的多堆叠3D编码器-解码器架构组成。此外，Mayeret al. [16]开发DispNet，一种使用相关层进行视差估计的端到端网络，并由Pang等人进一步扩展。 [18] （ CRL ）和 Ilget al. [12] （ DispNet-CSS）.与传统的多级方法相比，这些端到端网络实现了更好的性能用于学习立体匹配的合成数据集为了成功训练深度神经网络，充足的大规模数据集是必不可少的。在立体深度估计中，Middlebury [24，11，23]和KITTI数据集[7，17]使用最广泛。这些数据库忠实地反映了现实世界，但捕获地面实况深度需要复杂的校准，并且覆盖范围有限，更重要的是，图像数量通常不足以训练大型网络。现在合成渲染数据集被用来补充真实数据集。Mayer等人[16]介绍了用于视差、光流和场景流估计的大规模数据集。建议的数据集由2K场景图像和通过渲染生成的密集视差图组成，比KITTI大10倍[17]。Ritcher等人[20个]通过模拟生活，提供完全注释的训练数据城市在一个现实的3D游戏世界。对于语义场景完成，SUNGC数据集[27]包含400K房间的45K合成室内场景和具有深度和体素图的5M对象但是，几乎所有的数据集都使用具有有限FOV的单个或立体针孔相机模型，用于全方位立体的数据集非常少。全向深度估计已经提出了用于全向深度估计的各种算法和系统[6，25，29]，但是很少使用深神经网络工作。Schoünbein等人[25]使用两个水平安装的360°-FOV折反射摄像机，并根据校正的全向图像估计视差。使用两个垂直安装的超宽FOV鱼眼相机，Gao和Shen [6]通过将输入图像投影到四个预定义平面上来估计全向深度。 Im等人[13]提出了一种时间立体算法，该算法从短运动剪辑估计静态场景的全方位深度。与此同时，纯粹基于学习的方法 Ziouliset al.[33] 和Payenet al.[19]已经提出了从单个全景图像估计360最近，Wonet al. [30]第30话8989输入一元特征提取成本量计算SoftargminConcat2D CNN共享权特征对准内在的外在的3D编解码器全方位深度图1：所提出方法的概述。每个输入图像都被馈送到2D CNN中以提取特征图。我们将一元特征映射到球形特征中以构建匹配成本体积。最终深度通过3D编码器-解码器架构和softargmin的成本体积计算获得全方位立体声的多摄像机装备系统。它们将输入的鱼眼图像扭曲到同心球上，SweepNet从扭曲的球形图像对中计算匹配成本。然后，通过应用SGM [10]来细化成本体积。然而，SGM不能处理如图1所示的在这种全局扫描方法中发生的多个真匹配。2b.在本文中，我们提出了第一个端到端的深度神经网络，用于全向立体声和大规模数据集来训练网络。实验结果表明，该方法与以往的方法相比具有更好的性能，在实际应用中表现良好（一）（b）第（1）款世界环境与我们的新数据集。3. 全方位多视角立体在本节中，我们介绍了多鱼眼相机装备和球面扫描方法，然后描述了所提出的用于全方位立体深度估计的端到端网络架构。如图我们的算法分为三个阶段，一元特征提取、球面扫描和成本体积计算。在以下小节中，将详细描述各个阶段。3.1. 球面扫掠该装置由安装在固定位置的多个鱼眼摄像机组成。与使用参考相机坐标系的传统立体不同为了方便起见，我们将y轴设置为垂直于最接近所有相机中心的平面，并且原点位于投影相机中心的中心。球坐标为θ，φ的单位射线p<$对应于p<$（θ，φ）=（cos（φ）cos（θ），sin（φ），cos（φ）sin（θ））<$。利用第i个相机的内部和外部参数（使用[22，28，1]校准），3D点X 的图像像素坐标xi可以写为投影函数 xii;xi=xii（X）。因此，在半径为ρ的球面上的一个点在图2：（a）宽基线多相机装置系统。（b）第（1）款多个真匹配问题。在这种全局扫描方法中，在一条射线上可以有多个观测到第i个鱼eye图像中的i（ρp<$（θ，φ））球面扫描生成一系列具有不同半径的球面，并构建每个输入图像的球面图像类似于常规立体声中的平面扫描，逆半径dn从0扫描到dmax，其中1/dmax是要考虑的最小深度，N是球体的数量等矩形的像素值将变形到第n个球面上最大球面图像确定为Sn，i（θ，φ）=Ii（i（p<$（θ，φ）/dn）），（1）其中Ii是由第i个相机捕获的输入鱼眼图像，并且dn是第n个逆深度。3.2. 特征学习和对齐最近的立体声算法使用深度特征来计算匹配成本，而不是使用像素强度。MC-CNN [32]将右侧特征移动−k个像素，使其与左侧特征对齐，以便通过1×1卷积滤波器计算k视差此外，GC-Net [14]通过在每个视差上移动和连接特征图来构建4D成本量，因此它可以是规则的。、）1998年8990成本量计算2我....由3D CNN制作以这种方式，网络可以利用地理度量上下文（例如，用于处理遮挡），并且，简单的移位操作使得命名图层特性输出（H、W、N、C）输入HI×WIconv15 ×5，32 mm梯度反向传播容易。然而，这些方法仅限于校正的常规立体，并且不能应用于宽FOV或全向中的多视图图像conv23×3，32conv33×3，32，添加conv1conv 4 -11重复conv 2 -3conv 12 -17重复conv 2 -3，扩张= 2、3、41/2HI×1/2WI× 32常规设置。我们选择在输入鱼眼图像空间中构建特征图，并根据等式（1）扭曲特征图，而不是从所有球体处的球形图像中1.一、这节省了大量的计算量，并且对性能的影响很小，因为原始图像中的失真是由特征提取网络学习的。经向H×W×1/2N×32transfer3×3×1，321/2×1/2×1/2×32斯维concat（4）*融合3× 3× 3，641/2×1/21/2×1/2×1/2×1/2×128×64对3Dconv1-33Dconv4-63Dconv7-93× 3× 3，64从1，3×3×3，128从4，3×3×3，1281/2×1/21/4×1/41/8×1/8×1/2×1/4×1/8×64×128×1283Dconv 10 -12从7，3×3×3，1281/16×1/16×1281 13Dconv 13 -15从10，3×3×3，2561/32×1/32×256一元特征映射U=FCNN（I）具有rHI×rWI×C分辨率，其中FCNN是用于特征提取的2D CNN，HI和WI是输入3×3×3，128，3Ddeconv1添加3Dconv123× 3× 3，128，3Ddeconv2添加3Dconv91/16×1/16×1/16×1281/8×1/8×1/8×128r是缩减因子，C是通道数。3×3×3，128，3Ddeconv3添加3Dconv63× 3× 3，64，1/4×1/4×1/4×1281 1 1输入图像的一元特征图，然后亲，3Ddeconv4添加3Dconv3/2×/2×/2×64投射到预定义的球体上。下式1，第i幅图像的第n个球面上的球面特征图被确定为3Ddeconv53×3×3，1高×宽×N软目标值高×宽表1：输入图像分别从conv1传递到Si（φ，θ，n，c）=Uc.Σ1（p<$（θ，φ）/d）ri n、（二）转移，然后通过连接和融合来融合。为简洁起见，省略了H、W和N。在这项工作中，我们使用4个摄像头，因此concat输出32 × 4= 128个通道。其中θ在−π到π之间变化，φ在±π/2ac内变化。根据决议。确保充分的差异在相邻的变形特征图之间，并且为了减少存储器和计算开销，我们使用每隔一个的球体，即，n∈ [0，2，. . . ，N-1]，以使变形的4D特征体 Si的尺寸为H×W×N×C。利用标定的内、外参数，我们使用坐标查找表和二维双线性插值来变形特征图，并在反向传播过程中使用梯度用3×3卷积来实现。球形特征图通过3×3×3卷积连接并融合到4D初始成本体积中。然后，我们使用3D编码器-解码器架构[14]使用全局上下文信息来细化和正则化成本量。最后，逆深度inde xn可以通过softargmin [14]计算为：呈反向分布。我们计算有效性掩码MiNΣ−1e−C（φ，θ，n）并且在扭曲和反向传播中忽略有效区域之外的像素n（θ，φ）=n=0n×nν e−C（φ，θ，ν）最后，所有球形特征体积{Si}被合并并用作成本计算网络的输入我们的方法使网络能够学习从多个鱼眼图像中找到全向立体对应，并通过将3D CNN应用于球形特征来利用球形几何上下文信息进行正则化。3.3. 网络架构拟议网络的架构详见表1。网络的输入是一组灰度鱼眼图像.我们使用残差块[9]进行一元特征提取，并使用扩张卷积进行更大的接收域。输出特征图大小是输入图像的一半（r=2）。每个特征图都通过球面扫描（第二节）对齐。3.2），并转移到球形FEA-其中C是（H × W × N）正则化成本体积。为了以端到端的方式训练网络，我们使用输入图像和地面真实逆深度索引作为dn（θ，φ）=（N−1），dN−1−d0其中d（·）=1/D（·）是地面实况反演深度，d0和dN−1分别是最小和最大反演深度。我们使用地面实况和预测指数之间的绝对误差损失作为L（θ，φ）=φ1 。 n<$（θ，φ）−round（n<$（θ，φ））. .M（θ，φ）我们使用带有动量的随机梯度下降来最小化损失。拟议的网络的整体流程1.一、ricalping一元特征提取我8991左右差异图3：我们提出的数据集的示例。从左起：输入具有可见性的鱼眼图像（左上），参考全景图像和地面真实逆深度图。数据集#训练#训练#测试场景帧帧地面实况估计反深度飞行物3D2247218184248[16]第十六话蒙卡88591-驱动14392-图4：我们将输入图像校正为512×512，Won等人[30个]阳光明媚1 700 300多云1700 300日落1 700 300120° FOV左右对。预测的视差图被合并成H×W全向逆深度索引。表2：与已发表数据集的比较。我们的数据集有更多的训练场景，以及与现有数据集相当的训练和测试帧数量。4. 数据集虽然存在用于常规立体声的许多数据集[7，17，16]，但只有一个数据集[30]可用于全向立体声，但它仅包含室外道路场景。因此，我们为更通用的场景和对象创建新的合成数据集我们的数据集包含输入的鱼眼图像、全方位深度图和参考全景图像。除了[30]之外，我们还使用Blender在不同的环境中生成了两个更大的数据集（OmniThings和OmniHouse）OmniThings与[16]类似，OmniThings数据集由相机装备周围随机生成的对象组成。我们从ShapeNet [3]收集了33474个3D对象模型，从Flickr和ImageAfter1收集了4711个纹理。对于每个场景，我们随机选择64个对象，并将它们放置在具有随机位置、旋转、缩放和纹理的N个我们还放置了一个随机形状的房间或天空来学习背景深度。该数据集有9216个场景用于训练，1024个场景用于测试。OmniHouse为了生成逼真的室内场景，我们重现了由45K合成室内场景组成的SUNC数据集[27]。我们从SUNC数据集中收集了451个房屋模型，并将虚拟相机架以随机位置和方向放置在其中。我们绘制了2048帧用于训练，512帧用于测试。1https：//www.flickr.com和http://www.imageafter.com表2，并在图中示出了示例。3.第三章。每个帧由四个220° FOV 鱼眼图像组成，其分辨率为 HI=768 和WI=800，以及一个地面实况全向深度图，其H=360和W=640（θ范围从−π到π，φ范围从−π/2到π/2）。在下一节中，我们展示了使用我们的数据集训练的网络成功地估计了真实世界环境中的全向深度，这证明了我们的合成数据集的有效性。5. 实验结果5.1. 实施和培训详情为了训练网络，将输入图像转换为灰度，并将有效性掩码设置为仅包含220° FOV内的像素。然后将有效区域中的强度值归一化为零均值和单位方差。为了防止编码器-解码器网络仅学习每个通道中的有效区域，到级联级的特征映射的顺序被随机排列（例如，1-2-3-4、2-3-4-1、3-4-1-2或4-1-2-3）。此外，我们以小角度随机旋转钻机坐标系（以及GT深度图），使得网络不与特定布局紧密耦合。在我们所有的实验中，输出和GT 深度图都被裁剪为 H=160 （ −π/4≤φ≤π/4 ）和W=640，因为极点附近的区域高度失真，用处不大扫描球体的数量设置为N=192。我们在OmniThings数据集上从头开始训练我们的网络30个epoch，使用4096个训练场景。学习率λ被设置为0。003，前20个时期为0。0003对于剩余的10个时期。我们还测试了网络微调的阳光和全方位-整改传统立体声参考视图拼接我们的OmniThings921692161024OmniHouse4512048512我们建议的数据集的概述在8992数据集OmniThingsOmniHouse度量>1个>3>5 MAERMS>1个>3>5MaeRMS正则化球面扫描ZNCC+SGM [1]72.5654.0145.6310.5116.4444.0520.6413.573.087.05MC-CNN [32]+SGM67.1947.4339.498.6513.6638.0115.869.462.084.15[30]第三十话67.2047.6339.668.8713.9036.6015.419.362.074.38拼接常规立体声PSMNet [4]86.2563.2344.847.2811.1563.2226.4315.395.8213.88PSMNet-ft82.6951.9841.749.0913.7187.5627.0112.893.516.05[12]第十二话50.6227.7719.504.067.9826.56美元11.697.161.54美元3.18DispNet-CSS-ft67.8648.0838.577.8112.2736.4714.988.291.813.44OmniMVS47.7215.128.912.405.2730.5310.29美元6.27分1.724.05OmniMVS-ft价格50.2822.78美元价格15.603.52美元7.44美元21.094.632.581.041.97数据集阳光明媚多云日落度量>1个>3>5MaeRMS>1个>3>5MaeRMS>1个>3>5MaeRMS正则化球面扫描ZNCC+SGM52.0021.4510.962.505.3553.0922.1711.502.585.4552.3321.9011.292.535.31MC-CNN+SGM39.4211.736.081.834.5643.1611.955.821.854.4639.6712.826.281.864.59扫一扫+SGM24.826.914.281.313.7934.979.515.091.553.9624.927.254.461.323.80拼接常规立体声PSMNet65.0930.8713.132.544.0363.6228.5110.402.454.2663.8328.4110.002.434.11PSMNet-ft92.6731.4521.324.337.7692.9231.2420.144.137.3293.2430.6419.654.117.43DispNet-CSS24.80美元8.545.591.444.0225.16美元8.475.501.433.9224.79美元8.295.341.383.76DispNet-CSS-ft39.0221.1214.472.374.8542.2921.5514.282.434.8840.2120.9114.432.404.88OmniMVS27.166.133.98美元1.24美元3.09元28.135.37美元3.54美元1.172.83美元26.706.194.02分1.24美元3.06分OmniMVS-ft13.932.871.710.792.1212.202.481.460.721.8514.142.881.710.792.04表3：与其他方法的定量比较。误差定义在Eq. 3 .第三章。限定词“>n”指的是误差大于n的像素比率（%），“MAE”指的是平均绝对误差，而“RMS”指的是均方根误差。对每个数据集的所有测试帧的误差进行平均。每一个分数中的“0”表示第二名。数据集全向立体声常规立体声其是估计的逆深度指数阳光明媚[30]Omni事情MC-CNN [32]C[30]第三十话Omni房子[ 16 ]第十六话KITTI[7，17]流从GT与所有可能的指数（N）进行比较。我们在可用的全方位立体数据集上定量评估了我们的方法（晴天，多云，日落[30]，PSMNet [4]CPSMNet-ftC C[12]第十二话CC COmniMVSCOmniMVS-ftC C C表4：每种方法中使用的数据集。为了进行实验比较，我们使用已发布的其他方法的预训练权重（虚线上方）。'-ft'表示微调版本。16个时期的房屋数据集，λ = 0。003，并且λ=0。0003剩下的在我们使用Nvidia 1080ti的系统中，我们的OmniMVS需要1.06秒进行处理，这是非常快的，其中MC-CNN [32] 需要 1.97 秒， SweepNet [30] 6.16 秒，PSMNet [4] 1.79秒和DispNet-CSS [12] 0.57秒。5.2. 定量评价该误差通过深度指数倒数的差值来测量，|nˆ(φ,θ)−n∗(φ,θ)|niThings和OmniHouse）。我们比较我们的方法，以前的作品的两种类型。第一种是基于球面扫描的全向方法，第二种是将常规立体结果拼接成全向结果。我们在测试中使用其他方法的预训练权重，每种方法的训练数据集如表4所示。球面扫描ZNCC（零均值归一化互相关）和MC-CNN[32]从扭曲的球面图像中的9×9补丁对计算匹配成本，SweepNet [30]从球面图像对估计整个匹配成本体积。然后，SGM [10]用平滑惩罚P1= 0正则化成本量。1和P2=12。0的情况。如表3所示，我们的端到端网络在所有数据集和指标中表现更好。我们的OmniMVS构建了更有效的特征映射，并学习了更好的匹配和正则化。拼接传统立体声为了估计一个8993E（φ，θ）=×100，（3）N全方位深度，可以使用传统的立体声8994图5：合成数据的结果。左：参考全景图像、校正后的左彩色图像和灰度鱼眼图像。中间：预测的反向深度。右：逆深度索引误差的彩色误差图（蓝色为低，红色为高）。方法来计算不同方向上的视差，并将深度图合并为一个全景图。如图4，我们从鱼眼图像生成四个120 °校正的RGB图像对，并通过应用PSMNet 2[4]或DispNet-CSS 3[12]计算视差。然后将所有重建的3D点放入钻机坐标系中。对于H×W球面深度图中的每个像素，选择在1像素半径内投影的最近3D点用于输出。没有任何点的像素在评估中被忽略。如表4所示，我们使用他们作品中提供的预训练权重表3显示我们的网络实现了最佳性能。请注意，尽管SceneFlow [16]中的OmniThngs和 FlyingThings 3D 共享大部分对象，但使用OmniThings 训练的 OmniMVS 的性能优于使用SceneFlow训练的PSMNet或DispNet-CSS。2https://github.com/JiaRenChang/PSMNet网站3https://github.com/lmb-freiburg/netdef模特5.3. 定性评价合成数据集图5显示了SweepNet [30]、DispNet-CSS [12]和OmniMVS-ft 在合成数据集Sunny 、 OmniThings 和Om-niHouse上的定性结果。如图中橙色箭头所示。5，带有SGM的SweepNet [10]不能正确处理多个真实匹配（在路灯和背景建筑物上），因此薄对象的深度被背景深度覆盖。此外，它们在处理大的无纹理区域时也有困难我们的网络可以使用全局上下文信息成功地解决这些问题。真实世界的数据我们用真实世界的数据展示了我们提出的算法的能力[30]。在所有的实验中，我们使用相同的配置与合成的情况下和相同的网络没有重新训练。如图在图6和图7中，我们的网络生成了大型无纹理甚至反射表面以及人和椅子等小物体的清晰而详细的反射。OmniMVS-ftDispNet-CSSSweepNetOmniMVS-ftDispNet-CSSSweepNetOmniMVS-ftDispNet-CSS扫网8995图6：真实数据的结果。从上到下：参考全景图像、校正后的左图像、输入灰度鱼眼图像和通过每种方法预测的逆深度图。通过将来自OmniMVS-ft的估计的3D点投影到输入图像来创建参考全景图像。图7：点云结果。左：点云。右：参考全景图像和由所提出的OmniMVS-ft估计的预测逆深度。请注意，无纹理的墙壁是直的，小物体可以精确重建。它还可以处理常规装备姿势（右上角）。6. 结论在本文中，我们提出了一种新的端到端CNN架构OmniMVS，用于全方位深度估计。该网络首先将输入的鱼眼图像转换为一元特征图，然后通过标定和球面扫描建立4D特征体。3D编码器-解码器块计算匹配成本体积，并且最终深度估计由软- argmin计算。Out网络可以学习全局上下文信息，并成功地重建精确的全向深度估计，即使是薄而小的对象以及大型无纹理表面。我们还介绍了大规模的综合数据集，Omnithings和OmniHouse。范围-仿真实验表明，我们的方法优于现有的全向方法和最先进的传统的立体方法与拼接。确认本研究得到了由科学部 ICT （ NRF-2017 M3 C4A7069369）资助的韩国国家研究基金会（NRF）的下一代信息计算开发计划，由韩国政府资助的NRF赠款（MSIP）（NRF-2017 R1 A2 B4011928），由韩国政府资助的研究员计划的支持（NRF-2017 R1 A6 A3 A11031193）和三星&未来技术研究基金培养中心（SRFC-TC 1603 -05）。OmniMVS-ftDispNet-CSSSweepNet8996引用[1] Sameer Agarwal，Keir Mierle，and Others. 谷神星解算器http://ceres-solver.org。 3[2] Yuri Boykov Olga Veksler和Ramin Zabih通过图割的快速近似能量最小化IEEE Transactions on Pattern Analysisand Machine Intelligence，23（11）：1，2001. 2[3] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese ， Manolis Savva ， Shuran Song ， HaoSu，et al. Shapenet：一个信息丰富的3D模型存储库。arXiv预印本arXiv：1512.03012，2015。5[4] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集，第5410- 5418页，2018年。一、二、六、七[5] Zhuoyuan Chen，Xun Sun，Liang Wang，Yinan Yu，and Chang Huang.立体匹配代价的深度视觉对应嵌入模型在IEEE计算机视觉国际会议论文集，第972- 980页1[6] 高文良和沈少杰。双鱼眼全向立体声。在智能机器人和系统（IROS），2017年IEEE/RSJ国际会议上，第6715IEEE，2017年。一、二[7] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在计算机视觉和模式识别（CVPR），2012年IEEE会议上，第3354-3361页。IEEE，2012。二、五、六[8] 法特玛·古尼和安德烈亚斯·盖格。Displets：使用对象知识解决立体模糊性。IEEE计算机视觉和模式识别会议论文集，第4165-4175页，2015年。一、二[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。4[10] 海科·赫希穆勒基于半全局匹配和互信息的立体图像处理 IEEE Transactions on Pattern Analysis and MachineIntelligence，30（2）：328-341，2008。一二三六七[11] 海科·赫施穆勒和丹尼尔·沙尔斯坦。立体匹配代价函数的评估。在2007年IEEE Conference on Computer Visionand Pattern Recognition，第1IEEE，2007年。2[12] Eddy Ilg，Tonmoy Saikia，Margret Keuper，and ThomasBrox.遮挡，运动和深度边界与视差，光流或场景流估计的通用网络在欧洲计算机视觉会议（ECCV）的会议记录中，第614-630页一、二、六、七[13] SunghoonIm ， Hyow onHa ， Fr anc oisRameau ， Hae-GonJeon，Gyeongmin Choe，and In So Kweon.全方位的深度从小运动与球形全景相机。欧洲计算机视觉会议，第156-172页。施普林格，2016年。2[14] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习在IEEE计算机视觉国际会议论文集，第66-75页，2017年。一、二、三、四[15] Wenjie Luo，Alexander G Schwing，and Raquel Urtasun.用于立体匹配的高效深度学习。在IEEE计算机视觉和模式识别会议论文集，第5695-5703页，2016年。1[16] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cremers ， Alexey Dosovitskiy ， andThomas Brox.用于训练卷积网络的大型数据集，用于视差，光流和场景流估计。在IEEE计算机视觉和模式识别会议论文集，第4040-4048页一、二、五、六、七[17] Moritz Menze和Andreas Geiger。自动驾驶车辆的目标场景流IEEE计算机视觉和模式识别会议论文集，第3061-3070页，2015年。二、五、六[18] Jiahao Pang ， Wenxiu Sun ， Jimmy SJ Ren ， ChengxiYang，and Qiong Yan.级联剩余学习：用于立体匹配的两级卷积神经网络。在IEEE计算机视觉国际会议论文集，第887-895页，2017年。2[19] GreirePayendeLaGaranderie ， AmirAtapourAbarghouei，and Toby P Brecket.消除盲点：360度全景影像的3d目标侦测与单目深度估测。在欧洲计算机视觉会议（ECCV）的会议记录中，第789-807页，2018年。2[20] Stephan R Richter，Zeeshan Hayder，and Vladlen Koltun.为基准而战。IEEE国际计算机视觉会议，第2213-2222页，2017年2[21] German Ros，Laura Sellart，Joanna Materzynska，DavidVazquez，and Antonio M Lopez.Synthia数据集：用于城市场景语义分割的大量合成图像。在IEEE计算机视觉和模式识别会议论文集，第3234-3243页，2016年。1[22] 大卫·斯卡拉穆扎，阿戈斯蒂诺·马蒂内利，和罗兰·西格瓦特。一种灵活的技术，用于精确的全方位摄像机校准和运动结构。计算机视觉系统，2006年ICVS'06。 IEEE国际会议，第45-45页。IEEE，2006年。3[23] Danie lScharstein、Heik oHirsch müller、YorkKitajima、Gre gKrathw ohl 、 NeraNesˇ ic´ 、 XiWang 和 PorterWest-ling。高分辨率立体数据集，具有亚像素精确的地面实况。德国模式识别会议，第31-42页。Springer，2014. 2[24] Daniel Scharstein和Richard Szeliski。使用结构光的高精度立体深度图2003年IEEE计算机协会计算机视觉与模式识别会议，2003年。诉讼，第1卷，第I-I页IEEE，2003年。2[25] Mi r iamSchoénbein和AndreasGeige r. 增强曼哈顿世界中的全方位三维在智力方面-8997Gent Robots and Systems（IROS 2014），2014 IEEE/RSJ国际会议，第716-723页。IEEE，2014。1、2[26] Akihito Seki和Marc Pollefeys。SGM-nets：Semi-globalmatching with neural networks.在IEEE计算机视觉和模式识别会议论文集，第231-240页，2017年。一、二[27] S

下载后可阅读完整内容，剩余1页未读，立即下载