基于透视和全景深度图像配准的高分辨率全景深度计算方法

56 浏览量更新于2023-10-16 收藏 2.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3116基于透视和全景深度图像配准的360°彭启涵国立阳明交通大学pengchihan@nycu.edu.tw张佳瑶jiayao. bytedance.com摘要我们提出了一种新的方法来计算高分辨率（2048x1024和更高）的深度，这是显著更快，定性和定性更准确比目前的最先进的方法[23]。由于基于trans-neural networks的方法由于GPU架构限制而在输出图像大小（高达1024 x512）方面存在限制，因此[23]和我们的方法都依赖于拼接多个透视视差或深度图像来产生统一的全景深度图。然而，为了实现全局一致的拼接，[23]依赖于解决广泛的disparity map alignment和基于泊松的混合问题，导致计算时间很长。相反，我们建议使用现有的全景深度图（通过任何基于全景的方法实时计算）作为用于各个透视深度图的公共目标以进行配准。这一关键思想使得生成全局一致的拼接结果成为一项简单的任务。我们的实验表明，我们的方法生成的结果比现有的基于ARIMA的方法在质量上更好，并且在这些方法看不到的数据集上的定量表现更好。1. 介绍具有深度信息的全景图对于3D计算机视觉任务非常有用，例如新颖的视图合成[12，4，40]，3D场景理解（例如，房间布局估计[30]）、全向SLAM [36]和虚拟现实（VR）应用[24]。为透视图像构建的传统单目深度估计方法不能直接作用于全景图，因为全景图不能转换为透视图像，因为透视图像不能具有超过180度的视场（FOV）角。因此，已经提出了许多专门为水下机器人构建的深度估计方法[47，33，31，19，11，14，13]。这些方法中的大多数都基于在具有地面真实深度的全景数据集上训练的深度神经网络，例如Matterport3D[6]和Stanford2D3D [2]。这样的数据集中的地面实况深度已经被校准，使得它们是全局一致的（即，具有相同的比例和偏移）。因此，这些方法估计了整个图像的一致深度图。然而，我们观察到这些方法的两个主要缺点。首先，由于在训练CNN架构时GPU内存的限制，它们只能输出分辨率高达1024x512的深度图像。这远远低于RGB相机的原生分辨率（大多数现代商品360英寸相机可以拍摄分辨率超过4096x2048的相机），并且不足以用于VR应用。例如，从1024x512全景图中渲染出的90x90的其次，我们观察到基于全景的方法估计的深度图通常缺乏与透视方法生成的结果相同的细节水平。这可能是因为它们是在全景RGB-D数据集上训练的，这些数据集比训练透视方法的传统透视RGB-D数据集要小得多，也不那么多样化。示例参见图1。为了解决这些缺点，[23]的作者提出了一种基于拼接的方法，如下所示。首先，将全景图分割成若干个透视图。他们用了一个20视图的分区来模仿20个三角形，二十面体的角面（即，[8]中的“切线图像”）。每个视图都被馈送到现代透视深度估计方法以获得透视视差图（他们使用Mi- DaS [22]）。每个透视图都被投影回一个公共的等矩形域。然后可以通过将投影的透视视差图拼接在一起来计算完全全景深度图，然后将其转换为深度值。这种基于透视图的方法的主要挑战在于，透视图往往具有不同的尺度和值的偏移，因为透视深度估计方法在全景的不同视场上运行。为了解决这个不一致的问题，他们依赖于广泛的视差图对齐和泊松混合策略，这两种策略对于高分辨率来说3117图1.通过基于全景的方法（SliceNet [19]和Universe [11]）和全景中相同区域的透视方法（LeRes [43]）进行的深度估计的比较。我们发现，LeReS产生了更好的质量更好的结果，更好的细节水平比任何基于ARIMA的方法由一个大的利润。图像.相反，我们提出了一个简单的解决方案，全球consideration问题：利用全景深度图作为共同的目标，透视深度图注册。注意，这样的我们的拼接管道如下。我们首先将全景图分割成几个矩形区域。对于每个区域，我们使用LeReS [43]生成透视深度图。接下来，我们使用最近的基于全景的方法（如SliceNet [19]或Unifuse [11]）生成完整的全景深度图。对于每个透视图，我们注册一个低度（例如，二次或三次）变换函数，通过以最小平方意义将透视图中的一组采样像素拟合到全景图中的对应像素作为一个只有少量变量的优化问题，这一步的计算成本非常低。上一步最小化了透视图之间的比例和位移差异，但没有完全消除透视图之间的可见接缝。因此，我们通过类似于[18]的基于泊松的方法进一步混合配准的透视图。我们选择计算最终的全景深度图作为在最小二乘意义上适合透视深度图的拉普拉斯算子的深度图由于优化问题是不适定的（是平移不变的），我们通过L2距离来正则化它到参考全景深度图，具有小的权重。注意，我们的混合方法类似于[23]中的视差图混合步骤，主要区别在于我们的方法不再需要空间变化的权重（例如，”radial” or ”frustum”-shaped) in [23] toenforce smoother transitions between the perspective通过实验，我们表明，我们的方法产生了定性和定性更好的结果比[23]在一个显着更快的速度。我们的贡献是-具体如下：• 针对基于拼接的高分辨率全景深度图生成方法存在的全局一致性问题，提出了一种简单、有效、经济的解决方案，即基于配准的方法。• 受益于上述步骤的有效性，我们发现基于泊松混合的简单方法足以混合配准的透视深度图并擦除中间层中的可见接缝，而不需要如[23]中所做的复杂的空间变化权重。2. 相关工作2.1. 基于全景的3D建模和数据集随着360全景摄像机的日益普及，基于全景图像输入的室内场景3D建模近年来已成为热门的研究领域关键任务包括深度估计[47，33，19，11]，布局估计[48，42，29，20，44，34]，对象检测和分割[37，31]，以及更一般地3D重建任务，例如多个全景图配准[41，35]。具有深度信息的全景图像数据集总结如下。Matterport 3D [6]和Stand-ford 2D 3D [3]提供了具有地面真实深度的各种室内场景的真实世界照片。请注意，尽管一个全景的深度是通过多个3D扫描捕获的（3D扫描仪具有有限的视场，并依赖于电机以受控方式进行多次扫描），但它们已经被校准，使得深度值在所有观看方向上都是一致的-我们在SunCG [27]，Structure3D [45]和Replica360 [28]是室内场景的合成数据集。他们提供照片逼真渲染的室内RGB-D图像和3D结构的注释，包括房间布局。3D60 [46]是由真实和合成源组成的集合数据集2.2. 单目透视深度估计单眼（即仅需要单个图像作为输入而不是立体图像）透视深度估计是一个非常活跃的研究课题，其中现代方法现在可以可靠地从任意图像预测通常准确的深度（即，在看不见的数据集中）。我们列出了近年来提出的具有竞争力性能的方法： Xian 等人 2018[38]，MegaDepth [15]，MiDaS v2 [21]和v3 [22]，SGR [39]，Huynh et al. 2019 - 09 - 21 00：01：00 [2019 - 01][2019 - 01：00]注意，一些方法预测差异值（例如，，这是一个反的深度。[17]的作者提出了一种衍生方法，3118≤在输入图像的仔细选择的子集上重复外部透视深度估计方法缺点是它比标准方法慢得多。2.3. 全景深度估计Tateno等人[32]提出了一种可变形卷积滤波器，其以失真感知的方式将透视视图映射到等距矩形域，并使用它来经由大量、密集采样的透视深度预测调用来执行全景深度预测，所述透视深度预测调用可以在全景和透视数据集上训练以用于透视深度预测。在[7]中，详细讨论了这种滤波器。OmniDepth [47]是一种早期的方法，以端到端的方式专门用于估计海洋的深度他们报告说，单目透视法直接应用为了解决这个问题，他们训练了一个定制的编码器-解码器网络（在他们的论文中称为“UResNet”），直接在具有合成源地面真实深度的雷达上训练。后来，Biobeet [33]发现，在训练过程中注入立体图的透视图（以立方体地图格式）可以显著提高性能。受室内场景的重力对齐性质的启发，SliceNet [19]提出了一种新颖的网络架构，该架构将输入全景编码为特征向量，每个特征向量对应于全景的垂直切片。Ho-HoNet [31]在他们的方法中利用了类似的想法，可以同时预测房间布局，深度和语义标签。Unifuse [11]迭代了Bioscience的PanoDepth [14]使用立体匹配思想来改进全景深度估计。OmniFusion [13]是一种通过使用变换器对齐和混合切线深度图的全景方法最近方法中的网络设计趋势是利用在全景图像上采样的透视视图，同时使用各种策略来消除过程中引起的失真和不连续伪影 [26 ， 13 ， 25] 。最后，360MonoDepth [23]提出了一种新的衍生方法，通过缝合由外部方法生成的透视深度图来生成高分辨率全景深度图3. 方法我们使用如下符号。我们假设一个3D世界空间的右手法则，其中+z轴是“直线向上”的观察方向等同于以原点为中心的单位球面上的点，其可以由球面坐标（θ，θ）表示，其中0°< ≤ θ ≤180°是从x-y平面上的+x轴以逆时针顺序的方位角，并且0°≤ θ ≤ 180°是天顶角，+z轴。等矩形投影将观察方向平凡地映射到2D点为（θ，θ）。等角域表示2D平面中的矩形（0°，0°），（360°，0°），（360°，180°），（0°，180°）透视图是由观察方向和水平和垂直方向上的视场角（简称FOVx和FOV y角）定义的透视投影，其中相机位于原点，+z轴是透视到等矩形（P2E）投影将透视视图投影到等矩形域中的区域请注意，投影区域将不再是矩形（参见图3）。我们的方法总结见图2及其说明。我们将在以下小节中解释关键步骤3.1. 等矩形到透视分割我们的方法为等矩形域的矩形子集产生深度，该等矩形域的方位角从0°到360°，天顶从25°到155°，其中所有全景数据集都具有深度值。我们将该区域表示为我们沿着水平线和垂直线将目标域划分为直角子区域，然后使用透视深度估计方法（例如LeReS[43]）来估计每个子区域的深度值。We表示一个矩形区域，其范围超过从θ0开始从θ0<$1到θ1<$1的天顶作为回想一下，我们假设所有透视图都有相机在原点的位置和+z轴的即便如此，仍然有无限多的方法来构建一个足以覆盖分区的透视图。因此，我们描述了一种算法，以找到一个这样的透视图，将该区域紧密绑定如下。首先，我们注意到透视图的P2E投影域的形状对于沿z轴的旋转是不变的，因此我们将我们的此外，还有垂直w.r.t.反射对称。因此我们只需要分析现在，如图3所示，我们观察透视图的P2E投影域和以观察方向为中心的矩形（等矩形域中的点M）的所有可能情况这些矩形是透视图可能覆盖的矩形分区。我们发现，在等矩形域中，P2E投影域的上边缘总是比沿y轴的下边缘更接近或等于观察方向（M）因此，我们选择左边缘和右边缘水平对齐到P2E投影域的底部两个角（相同方位角）的矩形，该矩形尽可能向上直到接触上边缘。观察方向M（cos（Θ），θ，sin（Θ）），Θ是垂直向上倾斜的角度3119−图2.我们的方法概述。 (a)我们首先将全景划分为几个透视视图，并将每个透视图像馈送到单目深度估计方法，如LeReS [43]。请注意，大多数全景RGB-D数据集在顶部和底部没有深度，因此我们的方法跳过了这些区域。(b)预测的透视深度图被投影到等矩形域并被拼接在一起以形成全景深度图。(c)对于每个投影的透视深度图，我们在最小二乘意义上求解一个低次函数，该函数将透视图中的像素转换为共享“参考”全景深度图中的相应像素，该全景深度图是通过SliceNet [19]或Uniform [11]等基于全景的方法实时生成的。(d)我们生成配准的深度图的全景拉普拉斯图。(e)最后，我们优化了一个新的全景深度图，该深度图使用到参考全景深度图的L2距离来拟合具有小正则化项的注册深度图的拉普拉斯算子。图3. (a)到（d）示出了在3D空间中具有FOV x= 80°和FOV y= 60°的透视图的四种情况，其中在（a）中，观看方向M的球坐标是（0，90 °）（在赤道上），在（b）中，它是（0，70 °）（稍微向上倾斜），在（c）中，它是（0，60 °）（向上倾斜并且图像平面的底部边缘位于x-y平面），在（d）中为（0，50°）（进一步向上倾斜）。C0到C3表示图像平面的四个角左和上表示3D中图像平面的两个轴。在每个图我们用蓝色显示每个视图指定覆盖的分区从赤道。3D中的图像平面的两个轴分别为左=（0，1，0）和上=（sin（Θ），0，cos（Θ））。为了导出左下角（c0）M+tan（FOV x/2）左-tan（FOV y/2）上，（1）FOV x和FOV y是透视图的视场角。然后可以计算c0注意，其他三个角的3D位置（以逆时针方向表示为c1、c2和c3我们现在可以在上边缘上唯一地定位点c，其方位角等于c0π。最后，给定透视图所覆盖的一个矩形分区，我们导出了相应的cθ和cθ。c然后我们求解FOV y，使得上边缘与c相交。接下来，我们使用c0方位角的公式求解FOVx■对于全景的每个透视视图，相应的通过诸如LeReS的透视方法默认情况下，我们将目标域划分为3行5列（共15列）的矩形，次区域。这些行沿着25度、60度、120度和155度的天顶划分。柱沿方位角0°、72°、144°、216°和288°划分。不同方法划分靶域的比较见第4.3节。3.2. 透视到等矩形配准如图2（b）所示，使用根据第3.1节中描述的算法选择的观看方向和FOV x和FOV y，用来自对应的P2E投影透视深度图的深度值填充目标域的每个分区。然而，每个填充的parti- tion往往有不同的规模和价值观的转变如[23]所示，由于公共尺度和偏移是未知的，使用优化来对齐它们可能是一个昂贵的过程，特别是对于高分辨率图像。相反，我们提出了使用“参考”全景深度图的想法参考全景深度图可以通过现有的基于全景的方法之一来生成，诸如SliceNet，或3120N−1我Σ我我我uniform. 对于每个分区Pθ0，θ1，θ0，θ1，配准被概括为如下求解线性最小二乘优化问题：通过标准3x3离散拉普拉斯算子计算的像素（i，j）处的值：argmina，b，c，dn（a（x）3+b（x）2+cx+xi=0时-X）2（2）li，j= 4xi，j−xi−1，j−xi+1，j−xi，j−1−xi，j+1，1 ≤ i ≤ W − 2，1 ≤ j ≤ H −2。（四）其中Xi和Xi分别表示分区中第i个采样像素和参考全景深度图中相应像素的深度值N表示分区中采样像素的数量我们在水平和垂直方向上每隔1度采样一次像素在这里，我们展示了一个三次函数的算法设计我们还尝试了其他的选择（例如，二次和线性），并在第4.3节中报告结果我们使用Google Ceres Solver[1]来解决优化问题。然后，我们使用求解的配准函数来变换分区中的每个像素值（即，而不仅仅是采样的像素）。3.3. 基于Laplacian的Poisson混合上述配准过程对准每个分区中的深度值的尺度和移位（例如，比较图2（b）和（c）），但是没有完全去除其间的可见接缝。为了解决这个问题，我们使用基于泊松的方法混合分区。与传统的基于梯度的泊松混合算法（在[23]中使用）类似，我们选择优化全景深度图，该深度图直接适合配准透视图的拉普拉斯算子我们使用标准的3x3离散拉普拉斯算子（如公式4所示）。对于每个分区，我们还通过稍微扩展每个分区的等矩形区域并分别更新FOV角度，在等矩形域中对其区域外的“填充”深度值进行采样默认情况下，我们将每个分区的区域水平扩展5个像素，垂直扩展2个像素（对于2K和4K情况）。这意味着在分区之间将存在拉普拉斯值的小重叠，并且我们在重叠像素处取拉普拉斯的平均值。该填充步骤用于稍微平滑相邻分区之间的拉普拉斯算子。基于拉普拉斯算子的混合被表达为如下的优化问题：H−2W−2在每一部分的记录深度值中的相同公式（图2（d）中示出了一个示例）。 Xi，j是参考全景图中像素坐标（i，j）处的深度值。简而言之，目标函数具有两个项-拉普拉斯项和使用到参考全景深度图的L2距离的正则化项我们将正则化项的权重γ设置为1 e-4。使用标准Jacobi迭代方法以参考全景深度图的深度值作为初始猜测来解决优化问题。为了加快求解速度，我们以多尺度的方式解决问题。也就是说，我们首先在图像缓冲区的降低分辨率版本中解决问题，将解决的值传递到更精细分辨率的缓冲区，再次解决，依此类推，直到问题在原始分辨率中得到解决。对于2048x1024的情况，我们在3个级别（即，512x256、1024x512和2048x1024）。最精细水平的迭代被选择为50，因为我们观察到问题通常在迭代40到50期间收敛（残差低于初始值的0.1%）。然后，我们将后续级别的迭代次数设置为100和200。对于4096x2048的情况，我们在4个级别（50，100，150和200次迭代）中求解。4. 结果和分析我们在一台配有Intel i7-10700 CPU、32 GB RAM和NVidia RTX 2070 GPU的计算机上测试了我们的方法和[23]。我们在表4中比较了我们的方法与[23]的时间统计总之，我们的方法比[23]快3.05倍（2048x1024输出）和1.94倍（4096x2048输出）。我们以1024x989的分辨率绘制每个透视图，这足以在拼接时形成4K输出。与现有方法（包括 OmniDepth 、 Biodepth 、SliceNet和Universe）相同，当将计算的深度图ω与地面实况深度图ω进行请注意，对于Matterport数据集，深度值以米为单位报告我们选择何-argminxi，j，0≤i W，0≤jHΣj=1（（li，j−Li，j）2i=1（三）HoNet [31]、SliceNet [19]和Universe [11]，作为生成我们方法的全景深度图的方法。+ γ（xi，j−Xi，j）2）服从xi，j≥0，ni，j其中xi，j是要求解的全景深度图中像素坐标（i，j）处的深度值W和H是全景深度图的宽度和高度li，j是拉普拉斯算子4.1. 定量比较在表4.1中，我们定量地比较了我们的方法与最近基于 MATLAB 的方法， [23] 在 2K 分辨率输出的 Mat-terport数据集测试分割以及2K和4K分辨率我和Li，j是由计算器计算的3121ResPers.DPano.DReg.共混总[23日]2K4.270.1220.2210.8915.5047.34K4.270.1220.2334.2738.8975.3表1.时间比较。我们列出了透视图渲染和深度估计（LeReS15次）、全景深度估计（Uniform）、配准步骤（cubic）和混合步骤的时间（以秒为单位）。我们解出了100个抛物线，并计算出了平均值。对于[23]，为了重现他们论文中所示的类似结果，我们将选项设置为：Poisson混合、3级视差图对齐和MiDaS V2。请注意，[23]也有一个一次性的表2.消融研究的定量统计和替代”[23]。与[23]相同，我们通过双线性插值将先前方法生成的1K结果上采样到2K。我们的方法在所有三个数据集上产生了比[23]更好的定量结果。当与SliceNet或HoHoNet配对时，我们的方法在Matterport 2K数据集上的得分几乎与表现最好的（SliceNet和Ho-HoNet）一样好。但当测试在Replica360 2K和4K数据集上，其中先前的基于ARIMA的方法没有经过训练，我们的方法优于所有现有的基于ARIMA的方法。还要注意的是，在Replica360 2K和4K数据集上，我们的方法提高了在每种情况下使用的基于全景的方法我们发现[23]在Replica 360 2K和4K数据集上具有竞争力（通过准确性指标），但在Matter- port 2K数据集上没有。4.2. 定性比较我们在图5中展示了Matterport 2K和Replica360 2K和4K数据集的定性比较。我们发现，Uniform产生的质量最好的结果之间的Escherema为基础的方法。对于基于插值的方法，我们发现[23]生成的图像比Uniform更清晰，而我们的方法生成的结果比[23]略清晰，一般细节更精细。我们发现，在[23]的结果中，当在更大的尺度上观察时，估计的深度可能会偏离地面实况。例如，观察图5中Replica360 2K示例的两个白墙（到摄像机的距离大致相同）的不一致深度。补充材料中显示了更多示例。4.3. 分析支持定量统计数据和定性示例见表4.1和图4。消融研究：仅执行配准步骤会导致出现具有可见接缝的块（例如，图2（c））。同样，仅进行混合步骤导致定量和定性结果更差。在混合步骤中跳过填充可能导致分区边界处的毛刺设计选择。我们显示相对比率w.r.t.在Matterport2K数据集上使用Uniform作为基于Uniform的方法的情况。“雷格。“仅 “无填充”意味着在混合步骤中跳过填充。“平均值。“s/s“MiDaS”是指使用MiDaS进行透视深度估计。“线性”和“二次”意味着使用替代度配准函数。图4. .消融研究和替代设计选择的定性比较。仅执行混合步骤导致过饱和结果。类似地，用尺度和移位的平凡平均代替配准步骤导致类似的结果。跳过填充可能导致分区边界处的毛刺。 The ”smoothing” result shows that a simple colorsmoothing can- not effectively remove the inconsistency between接下来，我们尝试用平凡的方法交换我们方法的关键设计。首先，我们尝试通过将各个透视深度图转换为比例的平均值来配准这些透视深度图，而不是使用共同的参考方法RMSEMaeAbsRelRMSE日志Reg. 只+3.97%+8.49%+14.62%+8.23%仅混合+8.32%+12.23%+26.69%+56.13%没有填充+0.02%+0.00%百分之零点零一+0.13%Avg. S/S+6.79%+11.26%+24.18%+47.20%平滑+6.36%+9.92%+17.49%+28.01%4倍+0.36%+0.70%+1.51%+1.47%3倍+0.05%+0.41%+0.08%+0.35%Midas+0.26%+1.06%+1.75%+2.89%线性-0.52%-0.77%-1.53%-1.60%3122RMSE误差Mae度量↓AbsRelRMSE日志精度指标↑δ1δ2δ3DS方法Matterport 2K免费WiFi [33]0.63500.36750.13670.090182.77%94.46%97.53%HohoNet [31]0.47070.26200.09670.062990.50%97.27%百分之九十七点零九SliceNet [19]0.44630.21530.06650.0513百分之九十五点一七百分之九十八点零七百分之九十九点五四免费WiFi [11]0.60400.33090.11100.072887.79%95.70%98.38%[23]第二十三话0.77290.51060.26530.125360.38%85.55%94.70%我们的（浩浩网）0.47910.26550.10040.0662百分之九十点二三百分之九十七点零九98.93%我们的（切片网）0.49490.25690.08830.064891.51%97.21%99.10%我们的（大学）0.61070.33330.11520.076687.08%百分之九十五点三六百分之九十八点二复制品360 2K免费WiFi [33]0.05550.04160.21500.112171.56%91.39%百分之九十六点三二HohoNet [31]0.03000.01930.11160.067190.31%95.90%98.11%SliceNet [19]0.04030.02790.15900.089685.15%93.88%96.44%免费WiFi [11]0.03620.02480.13360.077486.87%95.94%百分之九十七点七二[23]第二十三话0.07060.04560.18130.086578.48%93.56%百分之九十八点三四我们的（浩浩网）0.02720.01820.10740.064390.98%96.07%98.28%我们的（切片网）0.03800.02720.15530.086285.35%94.31%96.77%我们的（大学）0.03540.02470.13340.076287.00%96.08%97.80%复制品360 4K免费WiFi [33]0.06420.04850.24460.126663.27%89.13%百分之九十五点六五HohoNet [31]0.03570.02490.13590.074485.17%94.63%96.61%SliceNet [19]0.04730.03410.18910.099478.31%93.17%96.77%免费WiFi [11]0.03940.02890.14800.081882.20%96.26%百分之九十八点五四[23]第二十三话0.06110.04000.16670.081580.04%百分之九十五点二五百分之九十八点四七我们的（浩浩网）0.03320.02390.13090.070986.07%百分之九十四点九八96.76%我们的（切片网）0.04440.03350.18310.097576.80%93.27%97.34%我们的（大学）0.03800.02810.14470.079582.69%96.66%百分之九十八点六五表3.我们的方法（使用HoHoNet，SliceNet或Uniform来生成参考全景深度图）与以前的基于视差的方法和[23]中提出的基于视差的方法的定量比较RMSE、MAE、AbsRel和RMSE log测量深度值的均方根误差、平均绝对误差、平均相对误差和log-10空间中的RMSE（与Uniform和Biiform中相同）。δ1、δ2和δ3测量相互相对误差小于1的像素的比率。25，1。252和1。253，分别。突出显示：最好的，第二好的，第三好的。和转变。其次，我们尝试通过简单地平滑分区边界处的深度值来混合配准的透视深度图。在这两种情况下，结果在数量和质量上都变得更糟。替代度配准函数：我们尝试了线性和二次配准函数，而不是三次函数。我们发现，使用更简单的函数实际上会导致更好的定量分数。我们仍然选择三次函数，因为我们认为额外的自由度可能有利于处理看不见的情况。3123切换到MiDaS：为了验证[23]和我们的方法之间的per-center差异不仅仅是由于所使用的不同透视方法，我们尝试使用MiDaS而不是LeReS来进行透视深度估计。我们发现结果稍差，但不能弥补两种方法之间的所有差异。不同分区：我们尝试了其他方法来将目标域划分为透视图。我们发现，稀疏的分区（较大的FOV）导致性能稍差。这可能是因为透视方法运行在更大的FOV通常输出不太详细的估计（参见[17]中的讨论）。使用更少分区的好处是透视深度图生成步骤的计算时间更短（这不是性能瓶颈）。局限性：我们的结果可能会受到所使用的全景深度图的主要错误的负面影响例如，对于看不见的情况，如户外场景，一些现有的基于ESTA的方法可能会产生非常低质量的结果，并对我们的结果产生负面影响（两个这样的例子是OmniDepth [47]和在户外场景上运行的Bioburden，如[23]的网站所示与[23]相同，另一个限制是所使用的估计透视深度图的准确性。在任何一种情况下，我们的方法都将受益于全景和透视深度估计方法的进步5. 结论我们发现，一个瓶颈的全景深度估计方法，即。全局一致性问题，可以满意地和非常有效地解决，3124图5. .通过我们的方法（使用SliceNet或Uniform生成参考全景深度图），以前的基于全景的方法和[23]（360MonoDepth）中的基于拼接的方法生成的结果的定性比较。我们基于注册的方法。因此，我们提出了一种流线型的拼接管道，其在数量和质量上优于当前最先进的方法[23]，并且速度更快。对于未来的工作，我们的主要目标是提高速度，无论是通过开发基于GPU的受[10]启发的拉普拉斯求解器解决混合步骤，或者使用基于风格转换的方法。3125引用[1] Sameer Agarwal，Keir Mierle和Ceres Solver Team。谷神星解算器，2022年3月。[2] I. Armeni，A. Sax，A. R. Zamir和S. Savarese用于室内场景理解的联合2D-3D语义数据。ArXiv电子印刷品，2月2017年。[3] Iro Armeni ， Sasha Sax ， Amir R Zamir ， and SilvioSavarese.用于室内场景理解的联合2d-3d语义数据。arXiv预印本arXiv：1702.01105，2017。[4] Tobias Bertel ， Mingze Yuan ， Reuben Lindroos ， andChristian Richardt.OmniPhotos ：休闲 360° VR 摄影。ACM图形交易，39（6）：266：1-12，12月。2020年。[5] S. 法鲁克巴特岛Alhashim和P.旺卡Adabins：使用自适应箱的深度估计。2021年IEEE/CVF计算机视觉和模式识别会议（CVPR），第4008-4017页，美国加利福尼亚州洛斯阿拉米托斯，2021年6月。IEEE计算机协会。[6] Angel Chang，Angela Dai，Thomas Funkhouser，MaciejHalber ， Matthias Niessner ， Manolis Savva ， ShuranSong，Andy Zeng，and Yinda Zhang. Matterport3d：室内环境中 rgb-d 数据的学习。 arXiv 预印本 arXiv ：1709.06158，2017。[7] 马克埃德，真正的价格，清武，阿卡什巴帕特，和扬-迈克尔弗拉姆。映射卷积。2019年。[8] Marc Eder ， Mykhailo Shvets ， John Lim ， and Jan-Michael Frahm. 用于减轻球面失真的切线图像。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2020年6月。[9] LamHuynh，Phong Nguyen-Ha，Ji r Matas Esa Rahtu，and JanneHeikki la. 使用深度注意体积指导单目深度估计2021年。[10] 斯特凡·杰施克，大卫·克莱恩，彼得·旺卡。扩散曲线和泊松图像编辑的gpuACM事务处理图表，28（5）：1[11] 姜华烈，盛哲，朱思宇，董子龙，黄锐。Unifuse：用于360mm全景深度估计的单向融合。IEEE Robotics andAutomation Letters，2021。[12] Johannes Kopf，Kevin Matzen，Suhib Alsisan，OceanQuigley ， FrancisGe ， YangmingChong ， JoshPatterson，Jan-Michael Frahm，Shu Wu，Matthew Yu，Peizhao Zhang，Zi-jian He，Peter Vajda，Ayush Saraf，and Michael F. 科恩一张 3D 照片。 Transactions onGraphics （SIGGRAPH的Pro-ceedings ），39 （4 ），2020。[13] Yuyan Li，Yuliang Guo，Zhixin Yan，Xinyu Huang，Duan Ye，and Liu Ren.Omnifusion：通过几何感知融合进行360单眼深度估计。2022年计算机视觉和模式识别会议（CVPR），美国新奥尔良，2022年6月。[14] 李语嫣，严志新，段叶，刘仁。Panodepth：一种用于单目全向深度估计的两阶段方法。2021年国际3D视觉会议（3DV），第648-658页。IEEE，2021。[15] 李正奇和诺亚·斯内弗利。Megadepth：从互联网照片中学习单视图深度预测。在计算机视觉和模式识别（CVPR），2018年。[16] 梅益群，范宇晨，周玉倩。具有非局部稀疏注意的图像超分辨率在 IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第3517-3526页[17] S.马赫迪·H Miangoleh，Sebastian Dille，Long Mai，Sylvain Paris，andYa gızAks oy. 通过内容自适应多分辨率合并将单目深度估计模型提升2021年。[18] 帕特里克·佩雷斯、米歇尔·冈内特和安德烈·W·布莱克。泊松图像编辑。 ACM Trans. Graph. ，22（3）：313[19] Giovanni Pintore ， Marco Agus ， Eva Almansa ， JensSchnei-der，and Enrico Gobbetti. Slicenet：使用基于切片的表示从单个室内全景进行的深密集深度估计：花絮2021年。[20] 乔瓦尼·平托雷，马可·阿古斯，恩里科·戈贝蒂。At-lantaNet：从单个360度图像推断3D室内布局，超出曼哈顿世界假设。在Proc. ECCV，2020年8月。[21] Renx00E9; Ranftl ， Alexey Bochkovskiy ， and VladlenKoltun. 用于密集预测的视觉转换器。在 2021 年IEEE/CVF计算机视觉国际会议（ICCV）上，第12159-12168页[22] R. Ranftl，K. Lasinger，D. Hafner，K. Schindler和V.科尔顿。朝向鲁棒的单目深度估计：混合数据集进行零炮交叉数据集传输。IEEE对模式分析的介绍MachineIntelligence，44（03）：1623 -1637，mar 2022.[23] 曼努埃尔Rey-Area，铭泽袁和陈天理查德360单深度：高分辨率360度单眼深度估计。InCV PR，2022年。[24] 安娜·塞拉诺，金英哲，陈志丽，斯蒂芬·迪威尔第，Diego Gutierrez ， Aaron Hertzmann ， and Belen Masia.360像素视频的运动视差。 IEEE Transactions onVisualization and Computer Graphics，2019。[25] Zhijie Shen ， Chunyu Lin ， Kang Liao ， Lang Nie ，Zishuo Zheng，and Yao Zhao. Panoformer：用于室内360度深度估计的全景Transformer。arXiv电子印刷品，第arXiv[26] Z.申角林湖，澳-地Nie，K. Liao和Y.赵基于双立方体图的全向图像畸变容限单目深度估计。在2021年IEEE多媒体和博览会国际会议（ICME）上，第1-6页，美国加利福尼亚州洛斯阿拉米托斯，2021年7月。IEEE计算机协会。[27] Shuran

下载后可阅读完整内容，剩余1页未读，立即下载