没有合适的资源?快使用搜索试试~ 我知道了~
85740MVS2D:基于注意力驱动的2D卷积的高效多视图立体0Zhenpei Yang 1 , � Zhile Ren 2 Qi Shan 2 Qixing Huang 101 德克萨斯大学奥斯汀分校 2 苹果0摘要0深度学习对多视图立体系统产生了重要影响。最先进的方法通常涉及构建成本体积,然后通过多个3D卷积操作恢复输入图像的逐像素深度。虽然这种端到端的平面扫描立体学习提高了公共基准数据集的准确性,但计算速度通常非常慢。我们提出了MVS2D,一种高效的多视图立体算法,通过注意机制将多视图约束无缝集成到单视图网络中。由于MVS2D仅依赖于2D卷积,它至少比所有其他显著的对应算法快2倍。此外,我们的算法产生精确的深度估计和3D重建,在具有挑战性的基准数据集ScanNet、SUN3D、RGBD和经典的DTU数据集上实现了最先进的结果。我们的算法在不精确相机姿态的设置中也优于所有其他算法。我们的代码已在https://github.com/zhenpeiyang/MVS2D上发布。01. 引言0多视图立体匹配(MVS)旨在利用多个相邻视图重建底层3D场景或估计密集深度图。它在各种3D视觉任务中起着关键作用。随着高质量相机越来越容易获得,人们对在各种应用中开发可靠和高效的立体匹配算法越来越感兴趣,例如3D重建、增强现实和自动驾驶。作为计算机视觉中的一个基本问题,MVS已经得到了广泛研究[9]。最近的研究表明,深度神经网络,特别是卷积神经网络(CNN),比传统解决方案更准确和稳健。一些方法[20,57]在具有挑战性的基准数据集(如ScanNet [7]和SUN3D[47])上报告了异常准确性。目前最先进的基于CNN的多视图方法通常可以分为三类:1)带有特征相关性的标准2DUNet架构的变体[22,28]。然而,这些方法对于矫正的立体图像对效果最好,0� Z. Yang在德克萨斯大学奥斯汀分校进行了实验。邮箱:yzp@utexas.edu0图1. 在ScanNet[7]上,每秒推理帧数(FPS)与深度误差(Ab-sRel)的对比。我们的模型在保持最先进准确性的同时,实现了显著的推理时间减少。0将它们扩展到多视图是困难的。2)构建差分3D成本体积[12, 14, 15, 30, 53,54]。这些算法显著提高了MVS的准确性,但代价是计算负担很重。此外,3D卷积预测的深度图通常包含必须由2D细化网络[15]矫正的显著伪影。3)通过从2D图像中的光线投射特征来维护全局场景表示并融合多视图信息[29]。这种范式无法处理大规模场景,因为它在维护全局表示时需要大量内存。除了多视图深度估计,我们还见证了单视图深度预测网络[21, 32, 48, 52, 56]的巨大增长。如表3所示,Bts[21]在ScanNet[7]上取得了令人印象深刻的结果。单视图深度预测根源于学习特征表示以捕捉图像语义,这与多视图技术中的对应计算是正交的。一个自然的问题是如何结合单视图深度线索和多视图深度线索。我们介绍了MVS2D,它结合了单视图和多视图深度估计的优势。核心贡献是一种注意机制,它沿着参考图像上每个查询像素的极线聚合特征。该模块从参考图像中捕捉到丰富的信号。最重要的是,它可以轻松地集成到在输入上定义的标准CNN架构中。85750图像,引入了相对较低的计算成本。我们的注意力机制具有两个吸引人的特点:1)我们的网络只包含2D卷积。2)除了依赖于2DCNN的表达能力外,网络还无缝地集成了单视图特征表示和多视图特征表示。因此,与最先进的算法相比,MVS2D是最高效的方法(见图1)。它比NAS[20]快48倍,比DPSNet [15]快39倍,比MVSNet[53]快10倍,比FastMVSNet[57]快4.7倍,比最近最快的方法PatchmatchNet[44]快近2倍。与此同时,MVS2D实现了最先进的准确性。直观地说,MVS2D的好处来自于中间特征表示的早期融合。结果是中间特征表示包含丰富的3D信号。此外,MVS2D提供了充足的空间,我们可以设计注意力模块的位置来处理不同的输入。一个例子是当输入的相机姿态不准确时,对应的像素偏离了输入参考图像上的极线。我们展示了一个简单的解决方案,即在编码器-解码器网络上安装多尺度注意力模块。在这种配置下,降采样参考图像中的对应像素更接近极线,MVS2D可以自动检测和校正对应关系。我们在具有挑战性的基准数据集ScanNet [7]、SUN3D [47]、RGBD[36]和Scenes11[36]上进行了大量实验。MVS2D在几乎所有指标上都达到了最先进的性能。从定性上看,与最近的方法[15, 20, 53,57]相比,MVS2D有助于生成更高质量的3D重建输出。02. 相关工作0多视图立体的最新进展。多视图立体算法可以分为基于深度图的方法,其中输出是每个视图的深度图,或者基于点的方法,其中输出是底层场景的稀疏重建(参见[9])。许多传统的多视图立体算法遵循匹配-重建范式[10],利用特征对应的稀疏性。这种范式通常无法重建纹理缺失的区域,因为对应关系不明确。沿着这条线,Zbontar等人[58]提出了将特征学习的能力引入多视图立体的首次尝试。他们提出了一种监督特征学习方法来寻找对应关系。最近的研究人员发现,基于深度图的方法[14, 15, 17, 53,54]比遵循匹配-重建范式的方法更有优势。这些方法的一个关键优势是它们可以利用常规张量运算的效率。[15,53]提出了一种端到端的平面扫描立体方法,构建可学习的三维代价体。而MVSNet[53]专注于图像,引入了相对较低的计算成本。我们的注意力机制具有两个吸引人的特点:1)我们的网络只包含2D卷积。2)除了依赖于2DCNN的表达能力外,网络还无缝地集成了单视图特征表示和多视图特征表示。因此,与最先进的算法相比,MVS2D是最高效的方法(见图1)。它比NAS [20]快48倍,比DPSNet[15]快39倍,比MVSNet [53]快10倍,比FastMVSNet[57]快4.7倍,比最近最快的方法PatchmatchNet[44]快近2倍。与此同时,MVS2D实现了最先进的准确性。直观地说,MVS2D的好处来自于中间特征表示的早期融合。结果是中间特征表示包含丰富的3D信号。此外,MVS2D提供了充足的空间,我们可以设计注意力模块的位置来处理不同的输入。一个例子是当输入的相机姿态不准确时,对应的像素偏离了输入参考图像上的极线。我们展示了一个简单的解决方案,即在编码器-解码器网络上安装多尺度注意力模块。在这种配置下,降采样参考图像中的对应像素更接近极线,MVS2D可以自动检测和校正对应关系。我们在具有挑战性的基准数据集ScanNet [7]、SUN3D [47]、RGBD [36]和Scenes11[36]上进行了大量实验。MVS2D在几乎所有指标上都达到了最先进的性能。从定性上看,与最近的方法[15, 20, 53, 57]相比,MVS2D有助于生成更高质量的3D重建输出。0在3D场景重建方面,DPSNet[15]专注于评估每个视图的深度图准确性。研究人员还探索了其他用于规范预测的3D表示,如点云[4]、表面法线[20]或网格[46]。此任务还有几个基准数据集[1, 7, 36, 42, 47,55]。多视图立体的代价体。最近的一系列多视图立体工作利用了代价体的概念,代价体包含了一对图像的特征匹配代价[13]。这种特征表示已成功应用于各种像素级匹配任务,如光流[37]。MVSNet [53]和DPSNet[15]的作者提出首先构建可微分的代价体,然后利用3DCNN的能力对代价体进行规范化,以预测每个像素的深度或视差。最近的最先进方法都遵循这种范式[4, 12, 23, 25, 30,54, 57]。然而,代价体的大小(C × K × H ×W)与深度假设的数量K成线性关系。这些方法在训练和推断中通常较慢。例如,DPSNet[15]在ScanNet上训练需要数天;NAS[20]需要更长时间,因为它还需要额外训练深度-法线一致性模块。最近,Murez等人[29]提出了从校准的图像序列中构建体积场景表示进行场景重建的方法。然而,他们的方法由于全局体积表示的高内存需求而非常占用内存。高效的多视图立体。几个最近的工作旨在降低构建代价体的成本。Duggal等人[8]在代价体构建过程中修剪视差搜索范围。Xu等人[49]将自适应采样和可变形卷积集成到基于相关性的方法[22,28]中,以实现高效的聚合。其他几个工作[12, 38,54]采用迭代细化过程。上述方法要么只适用于成对校正的立体匹配任务,要么必须构建3D代价体。另一种方法是Poms等人[31]学习如何高效地合并补丁特征进行3D重建。Badki等人[2]将深度估计转化为分类任务,但结果的准确性不是最先进的。最近,Yu等人[57]提出通过正则子采样构建稀疏代价体,然后应用高斯牛顿迭代来细化密集深度图。[24]提出了一种高效的网络设计,明确分离了两种类型的代价规范化,与DPSNet[15]相比,速度提高了5倍。Wang等人[44]提出了一种基于Patchmatch的高效方法用于MVS任务。相比之下,我们采用了基于注意力驱动的2D卷积的正交方法。3D视觉中的注意力机制。注意力机制在自然语言处理(NLP)任务[43]和视觉任务[45]中都取得了显著的结果。最近,自我局部注意力[33,35]相对于基于卷积的对应方法表现出了更好的结果。最近的一些在MVS中构建注意力机制的工作[23, 27,85760图2. MVS2D的网络架构。我们采用2DUNet结构F对I0进行深度预测,同时通过对极注意力模块注入使用G提取的多视图线索。虚线箭头仅存在于Ours-robust模型(第3.4节)。我们强调,所提出的对极注意力模块可以轻松集成到大多数2D CNN中。0[59],但仍然依赖于3DCNN,并且无法避免构建一个重量级的代价体积。一个有前途的方向是利用几何感知的2D注意力机制。最近的研究表明,这种范式对于主动感知[5,41]和神经渲染[39]效果很好。受到这些工作的启发,我们在本文中提出了一个对极注意力模块。关键贡献是设计了一个网络,将单视图深度线索和多视图深度线索聚合起来,输出准确的MVS结果。03.方法0我们在图2中提供了MVS2D的网络架构概述。我们在多视图立体匹配设置中操作(第3.1节),并在我们的网络设计中采用2DUNet结构(第3.2节)。我们的核心贡献是对极注意力模块(第3.3-3.4节),它在深度估计(第3.6节)中具有高精度和高效性(第3.5节)。03.1.问题设置0我们的目标是估计源图像I0∈Rh×w×3的每个像素的深度,给定n个相同大小的附近视图捕获的参考图像{Ii}ni=1。我们假设源图像和参考图像共享相同的内部相机矩阵K∈R3×3,给定。我们还假设我们对源图像和每个参考图像之间的相对相机姿态有一个很好的近似值Ti=(Ri|ti),其中Ri∈SO(3)和ti∈R3。Ti通常来自多视图结构运动算法的输出。我们的目标是恢复与I0关联的密集像素深度图。我们将源图像I0中像素p0的齐次坐标表示为p0=�p0,1,p0,2,1�T。给定深度d0∈R,p0的未投影的3D点是0p0(d0)=d0∙(K−1p0).0类似地,我们使用pi(d0)和pi(d0)分别表示p0(d0)在第i个图像的坐标系中的3D坐标和齐次坐标。它们满足0pi(d0)=Rip0(d0)+ti,pi(d0)=Kpi(d0). (1)03.2.网络设计概述0在本文中,我们创新地开发了一种只需要2D卷积的多视图立体匹配方法。具体来说,类似于大多数单视图深度预测网络,我们的方法逐步计算源图像的多尺度激活图,并输出一个单一的深度图。不同之处在于某些中间激活图将前一个激活图的2D卷积操作的输出和聚合多视图深度线索的注意力模块的输出结合起来。这个注意力模块是本文的主要贡献,它将源图像的每个像素与参考图像上的对极线上的相应像素进行匹配。匹配过程利用了源图像和参考图像上的学习特征激活。输出使用与源图像的激活图兼容的学习深度编码进行编码。严格来说,我们的目标是学习一个具有L层的前馈网络F。用Fj∈Rhj×wj×mj表示第j层的输出,其中mj是其特征维度,hj和wj是其高度和宽度。注意,第一层F1∈Rh1×w1×3表示输入,而最后一层FL∈RhL×wL表示包含深度预测的输出层。两个连续层之间有一个通用卷积运算符Cj:Rhj×wj×mj→Rhj×wj×mj+1(它可以包括标准运算符,如下采样、上采样和最大池化)和一个可选的注意力模块Aj:Rhj×wj×mj → Rhj×wj×mj:Fj+1 = Cj ◦ Aj ◦ Fj.3.3. Epipolar Attention ModuleAj(p0) = Aepj (p0, {Ii}ni=1) + A0j(Fj(p0)).(2)wjik =�f j0(Gj(I0, p0))�T �f jref(Gj(Ii, pki ))�.(3)vjik =� vjin0 ≤ pki,1 < w, 0 ≤ pki,2 < h, pki,3 ≥ 0,vjoutotherwise(4)Aepj (p0, {Ii}ni=1) = A1j(Gj(p0))+n�i=1K�k=1N( wjik√mj)(vjik⊙ck))Aj(p0) = A0j(Fj(p0)) + A1j(Gj(p0))+n�i=1K�k=1N( wjik√mj)(vjik ⊙ ck)).85770正如我们将立即看到的那样,注意力运算符 A j利用从参考图像中提取的特征。如果没有这些注意力操作,F将成为用于单视图深度预测的标准编码器-解码器网络。这种网络设计的另一个特点是卷积运算符 C j隐式地聚合了在相邻像素上提取的多视图深度线索。这种方法促进了共享相同极线或相邻极线的相邻像素之间的一致对应关系。0我们继续定义 A j ( p 0 ),它是 A j 对每个像素 p 0的作用。它由两部分组成:0正如我们将在下面定义的那样,A ep j ( p 0 , { I i } n i =1 )使用可训练的深度编码来编码 p 0与参考图像之间的匹配结果。A 0 j : R m j → R m j由一个恒等映射和一个可训练的线性映射组成,该线性映射将与 p 0 在 F j 中关联的特征进行转换。A ep j ( p 0 , { I i }n i =1 ) 的公式使用了 p 0的极线上的样本。这些样本是通过对 p 0 的深度值 d 0进行采样,然后应用 ( 1 ) 获得的。用 p k i 表示第 i个参考图像上的第 k 个样本。为了匹配 p 0 和 p ki,我们引入一个特征提取网络 G,它的架构与 F jmax(除了注意力模块)相同,其中 j max 是 F的任何注意力模块的最大深度。用 G j ( I 0 , p 0 ) ∈ R m j和 G j ( I i , p k and p k i ) ∈ R m j 分别表示 p 0 i的提取特征。根据缩放点积注意力的做法 [ 43],我们引入了两个额外的可训练线性映射 f j 0 : R m j →R m j 和 f j ref : R m j → R m j来转换提取的特征。通过这个设置,我们定义了 p 0 和 p ki 之间的匹配分数为0还需要解决以下两个问题:1)模型化参考图像中超出边界的样本,2) 将 ( 3 )中定义的权重 w j ik 与卷积运算符 C j的输入进行桥接。为此,我们首先引入可训练的掩码代码 cjk ∈ R m j,对应于第 k 个深度样本。然后引入 v j in ∈ Rm j 和 v j out ∈ R mj,它们是内部和外部样本的可训练代码。定义如下:0其中 p k i = ( p k i, 1 , p k i, 2 , 1) T,p k i = ( p k i, 1 , pk i, 2 , p k i, 3 ) T。为了增强 G j的表达能力,我们进一步引入一个仅依赖于 p 0特征而不依赖于匹配结果的可训练线性映射 A 1 j。结合 ( 3) 和 ( 4 ),我们定义如下:0(5) 其中 N 是对 w j ik √ m j 进行 softmax归一化的函数,1 ≤ k ≤ K。将 ( 5 ) 代入 ( 2),最终的注意力模块给出如下:0注意,不同层的注意力模块具有不同的权重。方程 3可以看作是源像素和对应候选像素之间的相似度分数。在图3中,我们可视化了查询像素的学习注意力分数。真实的参考图像上的对应像素具有沿极线的较大学习权重。0图3.注意力分数的可视化。左:查询像素的源视图。右:候选像素的参考视图,其中不透明度是学习到的注意力分数。03.4. 鲁棒的多视角立体注意力设计0由于注意力模块假设对应像素位于极线上,MVS2D的准确性取决于参考图像和源图像之间的相对姿态的准确性。当输入姿态准确时,我们的实验证明在F的第二层只安装一个注意力模块就足够了。这导致了一个高效的多视角立体网络。当输入姿态不准确时,我们通过在输入图像的不同分辨率上安装注意力模块来解决这个问题,即在F的不同层次上安装注意力模块。这种方法确保了对应像素足够接近精确的极线。MVSNet [53]4.12.41.61.10.094DPSNet [15]1.10.70.54.20.094FastMVS [57]9.06.04.30.40.089PatchmatchNet [44]21.811.68.50.20.133NAS [20]0.90.60.418.00.086Ours-mono94.7--12.30.145Ours-robust17.510.17.124.40.059Ours42.929.121.813.00.059AbsRel1N�i|di1N�i(di − d∗i )2SqRel1N�i(diNi(log di − log d∗i )2AbsDiff�1N�i(max( d∗i85780方法 FPS (3) ↑ FPS(7) ↑ FPS(11) ↑ Param (M) ↓ AbsRel ↓0表1. 计算效率的定量比较。FPS ( V )仅适用于多视角方法[ 15 , 20, 53 , 57],表示我们使用V个图像进行预测。请注意,AbsRel指标下的数字与表3中的数字相同,以便进行比较。我们使用一块Nvidia V100GPU来测量FPS。更多讨论请参考第4.4节。0在粗糙的分辨率下,我们的模型使得对应像素接近于极线,并且我们经验性地发现这样可以提高性能。图2说明了这两种情况下的注意力模块。03.5. 计算复杂度0为了简化符号表示,我们假设输入和输出的特征通道维度C相同。我们将特征的高度和宽度分别表示为H和W,并将卷积层的卷积核大小表示为k。假设有K个深度样本,3D卷积的复杂度为O(C^2HWKk^3)。对于我们的方法,执行一层C◦A的计算复杂度总共为O(CHW(Ck^2+K))。由于K通常小于Ck^2,我们的模块导致计算量减少了Kk倍。实际运行时间可以在表1中找到。03.6. 训练细节0我们的实现基于Pytorch。对于ScanNet和DeMoN,我们只是优化了预测深度和真实深度之间的L1损失。对于DTU,我们引入了一个简单的修改,与[ 18]中所做的一样,同时训练置信度预测。我们使用Adam [ 19]优化器,ε = 10 ^ -8,β =(0.9,0.999)。我们对ScanNet使用初始学习率2e-4,对DeMoN使用初始学习率8e-4,对DTU使用初始学习率2e-4。更多的训练细节请参考补充材料。04. 实验结果04.1. 数据集0ScanNet [ 7 ]ScanNet数据集包含807个唯一场景,其中包含从不同相机轨迹拍摄的图像序列。我们对训练采样了86324个三元图像(一个源图像和两个参考图像),对测试采样了666个三元图像。我们的设置确保了测试图像对应的场景不包含在训练集中。DeMoN[ 42 ]我们进一步在DeMoN上验证了我们的方法,DeMoN是由[ 42]引入的用于多视角深度估计的数据集。训练集包含三个数据源,0SUN3D [ 47 ],RGBD [ 36 ]和Scenes11 [ 42]。SUN3D和RGBD包含真实的室内场景,而Scenes11是合成的。总共,SUN3D有79577对训练数据,RGBD有16786对,Scenes11有71820对。DTU [ 1 ]我们的方法是为多视角深度估计而设计的,我们还在DTU数据集上验证了我们的方法,该数据集被认为是多视角重建算法的主要测试平台之一。04.2. 评估指标0效率。我们在推理过程中将我们的方法与基准方法进行了比较,以每秒帧数(FPS)进行评估。我们还比较了在增加参考视图数量时的FPS。深度准确性。我们使用传统的深度估计指标[21](见表2)。请注意,与单目深度估计评估相反,在评估之前我们不会消除深度尺度。正确预测尺度的能力将使我们的方法更加适用。场景重建质量。我们进一步应用MVS2D进行场景重建。我们遵循PatchmatchNet[44]的方法,将每个视图的深度图融合成一致的3D模型。有关定量和更多定性比较,请参阅补充材料。对于噪声输入姿势的鲁棒性。我们在训练过程中扰动输入的相对姿势Tj,并在ScanNet测试集上报告模型性能(见表8)。有关姿势扰动程序的详细信息,请参阅补充材料。0d�i RMSE �0d�i RMSELog �0i | di - d�i | Log10 1 N �0i | log10di - log10d�i |0δ < 1.25k 1 N �0di) < 1.25k) thre@x 1 N �0i I ( | di - d�i | < x )0表2.深度估计的定量指标。di是预测的深度;d�i是真实的深度;N对应具有真实标签的所有像素。I是指示函数。04.3. 基准方法0MVSNet [ 53 ]是一种基于三维代价体积的端到端平面扫描立体匹配方法。DPSNet [ 15 ] 与MVSNet [ 53 ]有相似的思路,但专注于准确的深度图预测。NAS [ 20 ]是最近的一项工作,它联合预测一致的深度和法线,使用额外的法线监督。FastMVSNet [ 57 ]是MVSNet的最新变种,通过计算稀疏代价体积来加速计算。Bts [ 21 ]是一种最先进的单视图深度预测网络。它将平面先验融入网络设计中。此外,我们使用星号“�”来表示基于真实深度图的理想版本Bts�,用于消除全局尺度。PatchmatchNet [ 44] 是最近最先进的高效MVS算法之一。Bts∗ [21]0.0880.0350.0380.2280.1280.9160.9800.994MVSNet [53]0.0940.0420.0400.2510.1350.8970.9750.993FastMVS [57]0.0890.0380.0380.2310.1280.9120.9780.993DPSNet [15]0.0940.0410.0430.2580.1410.8830.9700.992NAS [20]0.0860.0320.0380.2240.1220.9170.9840.996PatchmatchNet [44]0.1330.0750.0550.3200.1750.8340.9550.987Ours-mono0.1450.0650.0610.3000.1730.8070.9570.990Ours-mono∗0.1030.0370.0440.2370.1350.8920.9840.996Ours-robust0.0590.0160.0260.1590.0830.9650.9960.999Ours0.0590.0170.0260.1620.0840.9630.9950.999CODeMoN [42]0.2142.1481.1202.4210.2060.7330.9220.963DeepMVS [14]0.2820.6040.4350.9440.3630.5620.7390.895DPSNet-U [15]0.1470.3360.1170.4490.1960.7810.9260.973NAS [20]0.1270.2880.0850.3780.1700.8300.9440.978Ours-robust0.1000.2310.0570.3130.1400.8950.9660.99185790方法 AbsRel ↓ SqRel ↓ log10 ↓ RMSE ↓ RMSELog ↓ δ < 1.25 ↑ δ < 1.252 ↑ δ < 1.253 ↑0表3. 在ScanNet [ 7 ]上的深度评估结果。我们与多视图深度估计方法[15, 20, 44, 53,57]和最先进的单视图方法[21]进行比较。我们的方法在AbsRel上相对于表现最好的NAS[20]取得了显著的改进。这些改进在所有指标上都是一致的。0方法 AbsRel ↓ AbsDiff ↓ SqRel ↓ RMSE ↓ RMSELog ↓ δ < 1 . 25 ↑ δ < 1 . 25 2 ↑ δ < 1 . 25 3 ↑0SUN3D(真实)0我们的方法 0.099 0.224 0.055 0.304 0.137 0.893 0.970 0.9930RGBD(真实)0COLMAP [34] 0.539 0.940 1.761 1.505 0.715 0.275 0.500 0.724 DeMoN [42] 0.157 1.353 0.524 1.780 0.202 0.8010.906 0.962 DeepMVS [14] 0.294 0.621 0.430 0.869 0.351 0.549 0.805 0.922 DPSNet-U [15] 0.151 0.531 0.2510.695 0.242 0.804 0.895 0.927 NAS [20] 0.131 0.474 0.213 0.619 0.209 0.857 0.929 0.945 我们的鲁棒方法 0.0780.311 0.156 0.443 0.146 0.926 0.945 0.9540我们的方法 0.082 0.325 0.165 0.440 0.147 0.921 0.939 0.9480Scenes11(合成)0COLMAP [34] 0.625 2.241 3.715 3.658 0.868 0.390 0.567 0.672 DeMoN [42] 0.556 1.988 3.402 2.603 0.391 0.4960.726 0.826 DeepMVS [14] 0.210 0.597 0.373 0.891 0.270 0.688 0.894 0.969 DPSNet [15] 0.050 0.152 0.111 0.4660.116 0.961 0.982 0.988 NAS [20] 0.038 0.113 0.067 0.371 0.095 0.975 0.990 0.995 我们的鲁棒方法 0.041 0.1410.066 0.410 0.099 0.979 0.991 0.9940我们的方法 0.046 0.155 0.080 0.439 0.107 0.976 0.989 0.9930表4.SUN3D、RGBD和Scenes11数据集(合成)上的深度评估结果。COLMAP、DeMoN、DeepMVS、DPSNet和NAS的数据来自[20]。我们在SUN3D和RGBD上取得了显著的改进。最佳结果用粗体表示,次佳结果用下划线表示。0Ours-mono是我们的方法没有使用极线注意力模块,因此相当于单视图深度估计。与Bts�类似,我们还报告了去除全局尺度的结果,即Ours-mono�。Ours-robust是我们的方法在F上应用了多尺度极线注意力模块。Ours是我们的方法仅在F的第二层应用了极线注意力模块。04.4. 结果分析0效率比较。我们与单视图方法[21]和多视图方法[15, 20, 53,57]进行比较。我们的方法的推理速度与单视图方法[21]相当,并且明显优于其他多视图方法[15, 20, 53,57]。评估是在ScanNet[7]上进行的。我们的方法比NAS快48倍。0比DPSNet快39倍,比MVSNet快10倍,比FastMVSNet快4倍。更多细节请参考补充材料。0深度估计比较。MVS2D在深度预测准确性方面取得了显著的改进(见表3)。在ScanNet上,我们的方法大幅优于MVSNet,将AbsRel误差从0.094降低到0.059。这些改进在大多数其他指标上也是一致的。值得注意的是,我们的方法还优于NAS,后者使用了更多的参数并且运行速度慢了48倍。我们在图4中展示了一些深度预测结果。0我们的方法相对于单视图基线有显著的改进。添加多视图线索将我们的AbsRel从0.145提高到0.059在ScanNet上。由于单视图存在尺度模糊性,我们进一步研究了当面对尺度模糊时我们的方法是否仍然有优势。PatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetPatchmatchNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNetCasMVSNet85800Bts [21] FastMVSNet [57] NAS [20] PatchmatchNet [44] MVS2D(我们的方法) G.T.0图4. 深度预测的定性结果。每一行对应一个测试样例。没有地面真实深度标签的区域在GT中被涂成白色。我们的预测优于单视图深度估计方法[21]和其他多视图方法。0图5. DTU数据集上的定性3D重建结果。MVS2D在无纹理区域产生更完整的重建。0消除尺度后的结果表明,我们的单视图模型(ours-mono�)的AbsRel为0.103,仍然有显著的改进。这意味着我们的方法不仅仅是从多视图线索中推断出全局缩放因子。与单视图模型相比,我们的模型只增加了5.8%的参数。这种效率将使多视图方法能够采用更大的2D卷积网络,这在以前是不可能的。0在其他数据集上,MVS2D也表现出色(见表4)。我们在RGBD数据集上实现了0.078的AbsRel误差,而下一个最佳的NAS只实现了0.131。尽管MVS2D擅长适应场景先验知识,但令人鼓舞的是,它在Scenes11数据集上的表现也很好,这是一个随机放置物体的合成场景。我们在Scenes11数据集上的Ab- sRel排名第二。有关与基于视频的方法[ 23]的其他比较和对新数据集的泛化能力,请参阅补充材料。0在DTU上的评估。我们按照[ 44]的做法对DTU数据集进行评估。我们使用4个参考视图和96个深度样本,均匀放置在逆深度空间中([ 10425 . ])。定量结果可见表05.MVS2D在整体得分和第二最佳完整度得分上表现最佳。这样的性能令人鼓舞,因为我们的方法非常简单:它只是一个单阶段的过程,没有使用最近MVS算法中常用的任何多阶段细化([ 12 , 44 , 54])。我们在图5中展示了DTU对象的一些定性重建结果。定性上,我们的重建通常在平坦表面区域更完整。这种行为是合理的,因为我们的方法利用了强大的单视图先验知识。我们还将推理速度与最近的SOTA PatchmatchNet [ 44]进行了比较。如表6所示,我们的方法加速了约2倍。最后,由于我们的方法主要设计用于多视图深度估计,我们还额外检查了深度评估指标。由于DTU没有测试集的地面真实深度,我们报告了Camp [3]0.8350.5540.695Furu [10]0.6130.9410.777Tola [40]0.3421.1900.766Gipuma [11]0.2830.8730.578SurfaceNet [16]0.4501.0400.745MVSNet [53]0.3960.5270.462R-MVSNet [54]0.3830.4520.417CIDER [50]0.4170.4370.427P-MVSNet [26]0.4060.4340.420Point-MVSNet [4]0.3420.4110.376Fast-MVSNet [57]0.3360.4030.370CasMVSNet [12]0.3250.3850.355UCS-Net [6]0.3380.3490.344AbsRel ↓0.0940.1330.0940.0590.059AbsRel (p) ↓0.1130.1710.1260.0730.070∆ ↓0.0190.0380.0320.0140.011δ < 1.25 ↑0.8970.8340.8710.9830.965δ < 1.25 (p) ↑0.8510.7530.8070.9470.952∆ ↓0.0460.1180.0640.0160.013AbsRel0.0760.0590.0580.057δ < 1.250.9360.9640.9650.968AbsRel ↓0.1390.1280.0640.059δ < 1.25 ↑0.8150.8400.9610.964RMSE ↓0.2930.2830.1660.15685810方法 Acc.(mm) Comp.(mm) Overall(mm)0CVP-MVSNet [ 51 ] 0.296 0.406 0.351 PatchMatchNet [ 44 ]0.427 0.277 0.352 MVS2D (我们的方法) 0.394 0.290 0.3420表5. DTU评估集上的定量结果[ 1]。我们将最佳数字加粗并划线标出第二最佳数字。0指标 FPS 640 × 480 ↑ FPS 1280 × 640 ↑ FPS 1536 × 1152 ↑0PatchmatchNet [ 44 ] 16.5 6.30 4.57 MVS2D (我们的方法) 36.4 10.9 7.30表6.在DTU数据集上的速度基准测试。我们展示了三种输入分辨率下的FPS(每秒帧数)。我们使用一个源图像和4个参考图像。0指标 RMSE(mm) ↓ thre@0.2 ↑ thre@0.5 ↑ thre@1.0 ↑0PatchmatchNet [ 44 ] 32.348 0.169 0.387 0.610 MVS2D (我们的方法)14.769 0.238 0.504 0.7180表7.在DTU验证集上的深度评估。我们展示了均方根误差和
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功