OmniFusion:360单目深度估计中的几何感知融合

44 浏览量更新于2023-10-25 收藏 15.72MB PDF 举报

全景图像

单目深度估计

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

28010OmniFusion: 通过几何感知融合进行360单目深度估计0李宇研 1 * 郭宇亮 2 � 闫志新 2 黄新宇 2 段晔 1 任柳 201 密苏里大学 2 博世北美研究0{yl235, duanye}@umsystem.edu {yuliang.guo2, zhixin.yan2, xinyu.huang, liu.ren}@us.bosch.com0摘要0将深度学习方法应用于全景图像时，一个众所周知的挑战是球面畸变。在需要结构细节的密集回归任务（如深度估计）中，在畸变的360图像上使用普通的CNN层会导致不希望的信息丢失。在本文中，我们提出了一种360单目深度估计流程OmniFusion，以解决球面畸变问题。我们的流程将360图像转换为畸变较小的透视补丁（即切线图像），通过CNN获得补丁级别的预测结果，然后将补丁级别的结果合并为最终输出。为了处理补丁级别预测之间的差异，这是影响合并质量的主要问题，我们提出了一个新的框架，具有以下关键组件。首先，我们提出了一种几何感知特征融合机制，将3D几何特征与2D图像特征相结合，以弥补补丁级别的差异。其次，我们采用基于自注意力的Transformer架构对补丁级别的信息进行全局聚合，进一步提高一致性。最后，我们引入了一种迭代深度细化机制，根据更准确的几何特征进一步优化估计的深度。实验证明，我们的方法极大地减轻了畸变问题，并在几个360单目深度估计基准数据集上取得了最先进的性能。我们的代码可在https://github.com/yuyanli0831/OmniFusion上找到。01. 引言0360图像通过其广阔的视场（FoV）提供了对场景的全面视图，这有助于全面理解场景。然而，常用的360图像表示格式，如等距投影（ERP）图像，可能会引入几何畸变。畸变因子在垂直方向上变化，可能会降低为非畸变透视图像设计的常规卷积层的性能。0* 平等贡献0图1.我们的方法OmniFusion从单目ERP输入（在左侧的单位球上显示为图像）中生成高质量的密集深度（在右侧显示为图像）。我们的方法使用一组N个透视补丁（即切线图像）来表示ERP图像（顶部分支），并将图像特征与3D几何特征融合（底部分支）以改善合并深度图的估计。切线图像的相应相机姿态显示在中间行。0许多研究已经提出来解决畸变问题。[4, 29,39]提出了畸变感知卷积或球面定制核。然而，目前尚不清楚这种球面卷积在更深层次上的有效性[29,35]。一些球面CNN[8,37]在频谱域中定义了卷积，可能会带来更重的计算开销。还有一些尝试通过其他畸变较小的格式来解决ERP畸变问题。BiFuse[35]和UniFuse[20]从ERP和立方体贴图中提取了互补的特性。一些工作[7,30]将常规CNN重复应用于360图像的多个透视投影上。最近，Eder等人[13]提出使用一组细分的二十面体切线图像，并证明使用切线图像表示可以促进透视图像和360图像之间的网络传输。使用切线图像[13]具有优势，因为它具有较少的畸变，并且可以充分利用为透视成像开发的大量预训练CNN。此外，切线图像表示相对于整体方法具有更好的可扩展性来处理高分辨率输入。然而，传统的流程[13]存在一些限制。首先，透视视图之间存在严重差异，因为同一物体可能从多个视角看起来不同（示例如下图所示）28020如图3所示）。对于深度回归任务，这个问题尤其严重，因为从各个切线图像估计的不一致深度尺度在合并过程中会产生不良的伪影。其次，从整体360度图像估计深度的优势不幸地丧失了，因为全局场景被分解为局部切线图像。切线图像的预测彼此独立，切线图像之间没有信息交换。在本文中，我们提出了一种名为OmniFusion的360度单目深度估计框架，其中包括几何感知融合（见图1）。我们提出了以下三个关键组件来解决前述的差异问题，并无缝地合并切线图像的深度结果。首先，我们使用几何嵌入模块来提供额外的特征以补偿补丁之间的2D特征的差异。对于每个补丁，我们计算位于球面表面上与补丁像素对应的3D点，通过共享的多层感知机（MLP）对它们和补丁中心坐标进行编码，并将几何特征添加到相应的2D特征中。其次，为了恢复对整个场景的整体理解能力，我们在我们的流程中引入了基于自注意力的变换器。通过变换器，补丁级别的信息在全局范围内聚合，以增强全局深度尺度的估计，并改善补丁级别结果之间的一致性。第三，我们引入了一个迭代的细化机制，将预测的深度图中更准确的3D信息反馈给几何嵌入模块，以进一步迭代地改善深度质量。我们在三个基准数据集上对OmniFusion进行了测试：Stanford2D3D [1]，Matterport3D[3]和360D[43]。实验结果表明，我们的方法在所有这些数据集上都显著优于最先进的方法。我们的贡献可以总结如下：0•我们提出了一个360度单目深度预测流程，通过几何感知融合实现了最先进的性能。0•我们引入了几何嵌入网络，为补丁级别的图像特征提供3D几何特征，以减轻差异。0•我们将基于自注意力的变换器引入到全局聚合基于补丁的信息中，从而增强了深度的物理尺度估计。0•我们提出了一种迭代机制，通过结构细节进一步改善深度估计。02. 相关工作02.1. 单目深度估计0由于其广泛的应用，单目深度估计已经得到了广泛的研究，它以单个RGB图像作为输入来预测像素级深度值。早期的工作主要集中在网络架构和监督[14, 19,22]。最近，研究人员开始研究在立体对中使用无监督学习[16, 17, 36]或单目视频流[18,41]来扩展未标记的图像序列的训练数据，以便应用更广泛。然而，这些方法仍然对许多因素（如相机内参变化）敏感，并且很难推广到新场景。为了提高鲁棒性和可扩展性，一些方法利用额外的传感器输入，如LiDAR和RGBD相机[6,24]。然而，在许多实际场景中，额外的计算或功耗是不受欢迎的。02.2. 360度深度估计0360度图像的单目深度估计已经从多个角度进行了研究。Zioulis等人[42]探索了球面立体几何，并通过视图合成从单目ERP输入估计深度。Pan-oDepth[23]利用360度立体约束改善了单目深度性能。Eder等人[11]和Zeng等人[38]探索了从不同模态（如布局、法线、语义等）进行联合学习的方法。HoHoNet[31]提出利用横向特征表示来编码ERP图像特征。为了处理ERP图像的不规则畸变，提出了几种畸变感知卷积[4, 15, 28,29,39]。例如，Fernandez等人[15]引入了EquiConv，它应用可变形卷积来适应球面几何。Tateno等人[32]提出在训练期间应用常规CNN对透视图像进行处理，并在测试期间使用畸变感知卷积。除了直接解决ERP的畸变问题外，还有一些方法提出使用其他畸变较小的表示，例如立方图[5,34]、ERP和立方图的融合[20,35]以及360度图像的多个透视投影[7,30]。Eder等人最近的工作[13]提出使用切线图像，即一组相对于二十面体面渲染的定向、低畸变图像，来表示360度图像。使用切线图像具有优势，因为它具有较小的畸变，并且可以有效地利用为透视成像开发的预训练CNN模型。然而，[13]中没有解决切线图像之间的差异问题，这导致最终合并结果的下降。在这项工作中，我们遵循[13]中提出的使用切线图像的范例，但对其进行了简化和调整以用于深度估计。此外，我们通过引入几何感知融合和变换器成功解决了差异问题。28030图2. 我们提出的 OmniFusion 概述。我们的方法以单目ERPRGB作为输入，将其投影到多个视点的多个补丁上，并使用编码器-解码器网络处理每个无畸变补丁以生成补丁级深度图（顶部流程）。补丁级输出被合并成最终的ERP深度图。同时，位于球面上的相应点被采样并通过几何嵌入网络传递以生成几何特征（底部流程）。几何特征被融合到图像编码器中，以补偿补丁级差异并提高合并结果的质量。对于每个采样点，我们使用其球面坐标（λ, ϕ, ρ）以及切线平面中心坐标（λc , ϕ c）作为几何嵌入网络的输入属性，该网络提供了对齐2D特征所需的信息。我们集成了一个Transformer架构来进行深度补丁级特征的全局聚合，进一步提高补丁级输出的一致性。此外，我们还采用迭代的细化机制（用虚线表示），进一步改善深度恢复。特别地，根据前一次迭代估计的深度更新ρ值。02.3. Transformer0Transformer架构最初在自然语言处理中提出[33]，后来被广泛应用于计算机视觉任务，如图像分类[10]、深度估计[26]、目标检测[2]和语义分割[27,40]。视觉Transformer与单目深度估计非常契合，因为自注意力模块可以明确地利用长距离上下文。然而，在应用Transformer到360度图像时，畸变可能会降低Transformer利用补丁之间的成对相关性的能力。在本工作中，我们使用无畸变且具有几何感知的输入来供给Transformer，以便Transformer可以专注于补丁级信息的全局聚合。03. 方法0图2显示了提出的OmniFusion框架的完整流程概述。首先，通过正切投影将ERP输入图像转换为一组切线图像（图3）。然后，将投影的无畸变切线图像通过编码器-解码器网络传递，以生成补丁级深度估计，然后将其融合成ERP深度输出。为了减小补丁级差异，我们引入了一种新颖的几何嵌入模块，用于对每个切线图像像素关联的球面坐标进行编码，为整合补丁图像特征提供额外的几何特征。为了进一步提高补丁级预测的一致性和更好地估计全局深度尺度，我们通过自注意力机制对编码器最深层的特征进行全局聚合。0图3. (a)切线图像投影的示例。从两个不同的视点投影出两个切线图像。相应的区域在ERP和切线补丁中用相同的颜色突出显示。如图所示，两个相邻补丁之间通常存在重叠区域，并且同一对象在不同的补丁中可能呈现不同的样子。(b) 正切投影的示意图。位于球面上的点 Ps ( λ, ϕ ) 被投影到与点 P c ( λ c , ϕ c ) 切线的平面上的点 P t ( x t ,y t )。0基于Transformer的自注意力机制，采用迭代的细化机制进一步提高深度质量。我们根据前一次迭代获得的更准确的估计更新球面坐标。我们以端到端的方式训练我们的网络，唯一的监督是最终合并的深度与地面真值的比较。03.1. 从切线图估计深度0center O to point Pt(xt, yt) in a plane that is tangent toa point Pc(λc, ϕc). We use (λ, ϕ) to indicate the longitudeand latitude, respectively, and (xt, yt) to indicate a 2D pointposition on the tangent image. The detailed formulas are in-cluded in the Appendix.In our experiments, we use a set of N= 18 tan-gent images for a balance of speed and performance(A related ablation study can be found in Section 4.4).Tangent images are sampled at four different latitudes:−67.5◦, −22.5◦, 22.5◦, 67.5◦, and we sample 3, 6, 6, 3patches on each of these latitudes, respectively (Figure 4).All tangent images share the same resolution and FoV. Wechose this non-uniform sampling based on the fact thattangent images of the same resolution can cover differentranges of longitude when the centered at different latitudes.To ensure the sampled patches near the poles do not overlapto an extreme extent, we take fewer samples to cover thenear-pole area in the ERP space. Since the generated tan-gent images are distortion-free, we can easily apply regularencoder-decoder CNN architectures to predict a depth mapfrom each tangent image. For better convergence and ac-curacy, we leverage high-performance pre-trained networks(e.g., ResNet [19]) when initializing our encoder. We passall N tangent images simultaneously through the encoder,and obtain N feature maps that will be used as tokens laterin the transformer. For the decoder, we use a stack of up-sampling layers followed by 3 × 3 convolutions, with skip-connections from the encoder.The baseline presented so far can be considered as a cus-tomized version of [13]. We adopt different rendering oftangent images and the network architecture from [13] tomake the baseline method more effective and efficient. Notethat for our baseline, no transformer, geometric fusion, orconfidence map is used, the output depth is the average of28040图4。第一行：（a）ERPRGB输入图像示例，（b）最终合并的预测ERP深度图，（c）地面真实ERP深度。第二行：（d）从（a）生成的RGB切线图补丁，（e）补丁级别的估计深度图，（f）用作权重并促进ERP深度合并的补丁级别的估计置信度图。0所有补丁。03.2. 几何感知特征融合0然而，从切线图预测深度图的简单性也带来了一些代价。由于深度估计现在是独立进行的，全局一致的深度尺度不再保证。此外，如图3(a)和图4(d)所示，一个物体（例如图3(a)中的墙上的画）将被投影到多个不同角度的切线图上，因此在不同的切线图中将以不同的方式进行编码。尤其是在重叠区域，补丁深度估计之间的差异可能导致最终合并的ERP深度图中出现显著的伪影（图5(e)）。为了弥补补丁之间图像特征的差异，我们引入了一个几何嵌入网络（见图2）来提供额外的几何信息。对于位于切线图上的像素Pt(xt,yt)，我们使用其对应的位于单位球面上的球面坐标Ps(λ,ϕ,ρ)，以及切线图的中心Pc(λc,ϕc)作为几何嵌入网络的输入属性。Ps使嵌入能够感知全局位置，例如判断两个来自两个补丁的图像像素是否与相同的球面坐标相关。然而，仅凭几何特征无法对齐不同的2D特征。为此，Pc被作为附加属性，使嵌入能够区分不同的补丁，从而使学习到的几何特征使补丁特征趋于一致。通过切线图特征和几何特征的组合以及端到端学习的网络，调整后的特征导致合并的深度更加清晰。如图5(d)所示，具有几何嵌入的提取图像特征在所有补丁中显示出更好的一致性。3.3. Global aggregation with transformer280503.3. 使用变换器进行全局聚合0图5. 几何感知特征融合的有效性示例。ERPRGB图像显示在(a)中，地面真实深度显示在(b)中。基准方法的特征图和最终深度图分别显示在(c)和(e)中。为了比较，(d)和(f)显示了提出的OmniFusion的特征图和最终深度图，其中图像特征与几何特征融合。观察到我们的方法在突出显示的矩形区域中产生了更加自洽的特征图和更加结构化的深度图，与基准方法相比。0当将ERP分解为一系列切线图像时，我们不再拥有对3D环境的整体视图。为了弥补这一损失，我们利用变换器架构以全局方式聚合来自补丁的信息。全局聚合是通过几何嵌入的特征图在ERP空间中合并的，与没有几何嵌入的特征相比，如图5(c)所示。因此，OmniFusion中的最终深度图（图5(f)）与基准深度图（图5(e)）相比，看起来更加清晰。几何嵌入网络由两层MLP组成，将5通道球面属性编码为64通道特征图。我们通过逐元素求和将这种几何嵌入与编码器中相同像素位置的图像特征融合。为了保留更多的结构细节，采用了早期融合。几何特征被添加到ResNet编码器的layer1中，我们在实验中获得了最佳性能。值得注意的是，与原始的编码器-解码器相比，几何嵌入模块的额外计算成本很小（表2）。第一次迭代的几何特征一旦学习，就会固定下来，因为它们与图像输入无关。只有第二次迭代需要重新计算几何特征。0期望通过从补丁中提取的特征图来改善深度估计的一致性，并更好地回归较大视场的全局深度尺度。使用从编码器中提取的特征图，我们首先应用一个1×1卷积层来减少通道维度，以提高效率。然后，我们将特征图展平为N个1维特征向量X0 = [x1，x2，...，xN] ∈RN×d，这些向量将用作变换器中的令牌。可学习的位置嵌入Epos ∈RN×d被添加到特征令牌中，以保留位置信息，类似于[10]中提出的方法。通过自注意力机制，变换器学习从所有补丁中全局聚合信息，调整每个补丁的特征，其中聚合权重考虑了视觉特征和位置特征之间的成对相关性。多头注意力变换器的架构遵循[33]。03.4. 使用可学习的置信度图进行深度融合0上述的几何嵌入和变换器模块显著减少了不同补丁深度估计之间的差异。然而，深度融合并没有实现像素级无缝融合。为了进一步改善融合（图4(b)），我们要求网络在深度回归之外同时预测每个补丁的置信度图。然后，融合深度通过将置信度分数用作权重计算所有补丁深度预测的加权平均值。具体而言，解码器附加了两个单独的回归层，一个用于深度回归，另一个用于置信度分数回归。深度图（图4(e)）和置信度图（图4(f)）在融合之前都被映射到ERP域中进行反高斯投影变换。（更多细节请参见附录。）03.5. 迭代深度细化0几何嵌入利用与几何感知融合相关的切线图像像素的球面坐标（λ，ϕ，ρ）。由于初始时没有深度信息可用，ρ最初被固定为无深度。在一次迭代后，将有可用的深度信息，可以用于更新ρ并为几何嵌入模块提供更准确的几何信息。基于这一观察，我们提出了一种迭代深度细化方案（见图2）。在第一次迭代（第3.2节）中，使用位于单位球面上的点的球面坐标（λ，ϕ，ρ）进行几何嵌入。对于后续的迭代，我们使用从前一次迭代估计出的新深度值更新ρ→ρ'（ERP图像的深度定义为从实际世界点到相机中心的距离）。具有更准确几何的更新属性将传递到下一次迭代的几何嵌入网络中。在第4节中进行了消融研究。Individual component study. We investigate the effective-ness of our method by adding one key component at a time(Table 2 and Figure 7). We form our baseline experimentwith ResNet34 as encoder without the transformer or thegeometric fusion. We experiment on Stanford2D3D, us-ing the configuration of 18 patches, 256 × 256 patch size,80◦ FoV. As observed from Table 2, the geometry-awarefusion, which only adds less than 2K parameters, is able toimprove Abs Rel significantly by 9.7%. While being ex-tremely light-weighted, the geometric fusion part proves tobe quite beneficial. The incorporation of the transformer,which increases around 19M parameters, leads to anotherboost of performance by 5.7% (Abs Rel). Together withtransformer and geometric fusion, the performance is sig-nificantly improved by 15.4% (Abs Rel) with 1-iter setting,and 16.4% (Abs Rel) with 2-iter setting. Qualitative resultsare shown in Figure 7. As observed, as we add more mod-ules into our pipeline, the output depth map appears to showfewer artifacts and more structural details. In the meantime,the visualized error maps clearly show the decreasing trendof estimation errors.Patch size and number of patches. Patch size and thenumber of patches affect both the accuracy and the effi-ciency of the method. In this study, we aim to find an op-timal balance between efficiency and performance. Theo-retically, neither a large patch size nor a large number ofpatches is desired since they both lead to higher computa-tional complexity. However, table 3 also indicates the patchsize can not be too small, since the monocular depth esti-mation requires large-enough FoV to hypothesis the depthscale. We also observe that keep increasing the number ofpatches (e.g., >= 26) can degrade the performance, sincea larger number of patches also increases the overlapping28060为了展示更准确的几何嵌入的有效性。04. 实验04.1. 数据集0OmniFusion在三个知名基准数据集上进行了测试：Stanford2D3D[1]，Matterport3D[3]，360D[43]。Stanford2D3D[1]数据集包含来自六个大规模室内区域的1,413个真实世界全景图像。我们遵循官方的训练-测试划分，使用第五个区域进行测试，其他区域进行训练。我们在实验中使用512×1024的分辨率。Matterport3D[3]包含共10,800个室内全景RGBD图像。我们遵循官方划分，使用61个房间进行训练，其余进行测试。我们在实验中使用512×1024的分辨率。360D[43]是由Zioulis等人提供的RGBD全景基准数据集[43]。它由另外两个合成数据集（SunCG和SceneNet）和两个真实世界数据集（Stanford2D3D和Matterport3D）组成。360D中有35,977个逼真的全景RGBD图像，这些图像是从上述四个数据集中渲染出来的。我们遵循默认的训练-测试划分，并使用256×512的分辨率。04.2. 实现细节0我们采用与[22,43]中使用的相同的定量评估指标，包括绝对相对误差（AbsRel），均方根误差（RMSE），对数空间中的均方根误差（RMSE(log)）和阈值δt下的准确性，其中t∈1.25, 1.252,1.253。指标旁边的箭头表示在所有表格中更好性能的方向。我们使用PyTorch实现我们的网络，并在两个Nvidia RTXGPU上进行训练。我们使用Adam优化器[21]的默认设置和初始学习率0.0001，采用余弦退火[25]学习率策略。我们对Stanford2D3D[1]进行80个epoch的训练，对Matterport3D[3]和360D[43]进行60个epoch的训练。我们使用的默认补丁数量为18。对于Stanford2D3D[1]和Matterport3D[3]，我们使用256×256作为补丁大小，补丁视场为80°。对于360D[43]，我们使用128×128作为补丁大小。在这些实验中，我们使用预训练的ResNet[19]作为图像编码器。网络进行端到端训练，所有迭代使用相同的模型。对于损失函数，我们采用BerHu损失[22]进行深度监督。最终的损失是所有迭代中深度损失的总和。04.3. 总体性能0我们在表1中展示了我们的模型性能，并将其与现有方法进行了比较。我们省略了使用除深度之外的监督信号的方法[11, 38]和0为了进行公平比较，我们使用自监督方法[42]。对于所有数据集，我们展示了我们在1次迭代（1-iter）和2次迭代（2-iter）设置下的结果。我们在表1中展示，即使在1次迭代设置下，我们的方法也能够在Matterport3D[3]上胜过所有现有方法，并在360D上达到与当前最先进方法相当的性能。在2次迭代设置下，我们的方法在Stanford2D3D上比BiFuse[35]提高了21.4%（Abs Rel），在Matterport3D上提高了56.1%（AbsRel），在360D上提高了30%（AbsRel）。与Uni-Fuse[20]相比，我们的方法在Stanford2D3D上提高了6.3%（AbsRel），在Matterport3D上提高了15.3%（AbsRel），在360D上提高了7.7%（AbsRel）。需要注意的是，与使用额外传感器输入的ODE-CNN[6]相比，我们的方法将AbsRel减少了7.9%。我们的方法的定性结果可以在图6中可视化。观察到，我们的方法（1-iter和2-iter）在基线上改进了直接从[13]定制的方法，显著地产生了边界更清晰、表面更平滑的深度图。04.4.消融研究Stanford2D3D [1]31RectNet [43]0.1996-0.6152-0.68770.88910.9578BiFuse with fusion [35]0.1209-0.41420.86600.95800.9860UniFuse with fusion [20]0.1114-0.3691-0.87110.96640.9882HoHoNet [31]0.1014-0.3834-0.90540.96930.9886OmniFusion, Ours (1-iter)0.09610.05430.37150.16990.89400.97140.9900OmniFusion, Ours (2-iter)0.09500.04910.34740.15990.89880.97690.9924Matterport3D [3]FCRN [22]0.2409-0.6704-0.77030.97140.9617RectNet [43]0.2901-0.7643-0.68300.87940.9429BiFuse with fusion [35]0.2048-0.6259-0.84520.93190.9632UniFuse with fusion [35]0.1063-0.4941-0.88970.96230.9831HoHoNet [31]0.1488-0.5138-0.87860.95190.9771OmniFusion, Ours (1-iter)0.09800.06110.45360.15870.90400.97570.9919OmniFusion, Ours (2-iter)0.09000.05520.42610.14830.91890.97970.9931360D [43]FCRN [22]0.06990.28330.95320.99050.9966RectNet [43]0.07020.02970.29110.10170.95740.99330.9979Mapped Convolution [12]0.09650.03710.29660.14130.90680.98540.9967BiFuse with fusion [35]0.0615-0.2440-0.96990.99270.9969UniFuse with fusion [35]0.0466-0.1968-0.98350.99650.9987ODE-CNN [6]0.04670.01240.17280.07930.98140.99670.9989OmniFusion, Ours (1-iter)0.04690.01270.18800.07920.98270.99630.9988OmniFusion, Ours (2-iter)0.04300.01140.18080.07350.98590.99690.998928070数据集方法 Abs Rel ↓ Sq Rel ↓ RMSE ↓ RMSE(log) ↓ δ 1 δ 1 δ 1 ↑ δ 2 δ 2 δ 2 ↑ δ 3 δ 3 δ 3 ↑0表1.在Stanford2D3d [1]，Matterport3D [3]，360D[43]数据集上的深度估计定量结果。值得注意的是，我们的方法OmniFusion在所有数据集上都取得了最先进的性能，明显优于现有方法。0图6.在Stanford2D3D [1]，Matterport3D [3]和360D [43]上的定性结果。从左到右：ERPRGB输入，真实深度，基线深度输出，我们方法1次迭代和2次迭代的深度输出。与基线（在第3.1节中描述）相比，我们的方法（1次迭代，2次迭代）产生了更具结构性的深度，沿着物体边界呈现出锐利的特点，并在表面内部呈现出更平滑的特点。0方法 #参数 FPS↑ 绝对相对误差↓ 平方相对误差↓ 均方根误差↓0基线23.5M 9.4 0.1136 0.0638 0.38940基线+几何融合（1次迭代）23.5M（+1.3K）9.3 0.1026 0.0588 0.38120基线+几何融合+变换器（1次迭代）42.3M（+18.8M）9.2 0.0961 0.0543 0.37150基线+几何融合+变换器（2次迭代）42.3M（+18.8M）4.6 0.0950 0.0491 0.34740表2.单个组件的消融研究。从没有几何融合或变换器的基线方法开始，我们逐个添加每个组件。我们在所有实验中使用ResNet34。0区域，这可能加剧差异问题。因此，我们选择使用相对较小的补丁数量N =18和相对较大的分辨率256×256来在效率和性能之间取得平衡。0图像编码器和迭代次数。我们比较了利用不同图像编码器的性能。如表4所示，ResNet34[19]在复杂性上优于ResNet18。这表明了我们方法的潜力。28080图7.关于单个组件的定性比较。顶行显示了深度图的视觉比较，底行显示了预测深度图之间对应误差图的视觉比较。中间两行分别显示了顶行和底行中突出区域的近景视图。随着我们将更多模块添加到流水线中（图2），深度估计变得更准确，误差更低，物体边界更清晰，表面更平滑。误差变化的趋势可以直接从误差图中观察到。0#补丁补丁大小补丁视场绝对相对误差↓ 平方相对误差↓ 均方根误差↓010 256x256 120 0.1067 0.0571 0.3788 18 128x128 80 0.1178 0.06660.4018 18 256x256 80 0.1037 0.0589 0.3686 26 256x256 60 0.11040.0679 0.3955 46 128x128 50 0.1181 0.0680 0.41010表3.补丁大小和补丁数量的消融研究。0编码器 #迭代次数 FPS↑ 绝对相对误差↓ 平方相对误差↓ 均方根误差↓0ResNet18 1 9.8 0.1037 0.0589 0.3686 ResNet18 2 4.6 0.09790.0539 0.3702 ResNet18 3 3.1 0.0981 0.0521 0.3699 ResNet184 1.5 0.0983 0.0519 0.37000ResNet34 1 9.2 0.0961 0.0543 0.3715 ResNet34 2 4.6 0.09500.0491 0.3474 ResNet34 3 2.9 0.0894 0.0482 0.3498 ResNet344 1.4 0.0899 0.0485 0.34910表4.不同编码器模型和不同迭代次数的消融研究。0方法，因为可以结合更复杂的编码器网络。我们还研究了迭代的影响。我们在训练中使用2次迭代的框架，因为我们希望训练好的网络能够处理不同类型的3D坐标。而在测试中，我们分别在两个骨干网络上比较1-4次迭代。从表中可以看出04，从1次迭代到2次迭代，有明显的改进，从2次迭代到3次迭代有轻微的改进，从3次迭代到4次迭代没有增益。考虑到性能和速度的权衡，我们选择1次迭代或2次迭代的设置。05.结论0在本文中，我们提出了一种新的管道，OmniFusion，用于360度单目深度估计。为了解决360度图像中的球面畸变问题，并提高对高分辨率输入的可扩展性，我们使用基于切线图像展示的切面投影。为了减轻补丁之间的差异，我们引入了一种几何感知融合机制，将3D几何特征与图像特征融合。我们将自注意力变换器集成到我们的管道中，以从补丁中全局聚合信息，从而实现更一致的补丁级预测。我们进一步通过迭代细化方案扩展了几何感知融合，进一步改善了具有更多结构细节的深度估计。我们展示了OmniFusion有效地减轻了畸变，并显著提高了深度估计性能。我们的实验表明，我们的方法在多个数据集上达到了最先进的性能。0致谢0Yuyan Li和YeDuan的研究部分得到了国家科学基金会CNS-2018850奖励、国家卫生研究院NIBIB-R03-EB028427和NIBIB-R

下载后可阅读完整内容，剩余1页未读，立即下载