没有合适的资源?快使用搜索试试~ 我知道了~
快速多视点立体声学习与高斯牛顿精化
1949Fast-MVSNet:稀疏到稠密多视点立体声学习传播和高斯牛顿精化于泽浩上海科技大学yuzh@shanghaitech.edu.cn上海科技大学gaoshh@shanghaitech.edu.cn摘要几 乎 所 有 先 前 的 基 于 深 度 学 习 的 多 视 图 立 体(MVS)方法都专注于提高再现质量。除了质量,效率也是MVS在实际场景中的一个理想特性。为此,本文提出了一种快速MVSNet,一种新的稀疏到密集的粗到细的框架,在MVS的快速和准确的深度估计。具体而言,在我们的Fast-MVSNet中,我们首先构建用于学习稀疏和高分辨率深度图的稀疏成本量。然后,我们利用小规模卷积神经网络对局部区域内像素的深度依赖性进行编码,以使稀疏的高分辨率深度图致密化。最后,提出了一种简单而有效的高斯-牛顿层来进一步优化深度图。一方面,高分辨率深度图,数据自适应传播方法和高斯牛顿层共同保证了方法的有效性。另一方面,我们的Fast-MVSNet中的所有模块都是轻量级的,从而保证了我们方法的效率。此外,由于深度表示的稀疏性,我们的方法也是内存友好的.大量的实验结 果 表 明 , 我 们 的 方 法 分 别 比 Point-MVSNet 和 R-MVSNet快5倍和14倍,同时在具有挑战性的 Tanks和Temples数据集以及DTU数据集上获得了相当甚至更好的结果。代码可在https://github.com/ svip-lab/FastMVSNet上获得。1. 介绍多视点立体(MVS)的目标是从一组标定图像中恢复场景的密集三维结构。它是计算机视觉中的基本问题之一,几十年来一直被广泛研究,因为它在3D重建,增强现实,自动驾驶,机器人等方面有着广泛的应用[1,11]。MVS的核心是图像之间的密集对应。传统方法通常依靠手工制作光一致性度量(例如,、SSD、NCC)。然而,设计一个鲁棒的度量本身是一项具有挑战性的任务,因此需要一些正则化技术[25,18](例如,,使用MRF来执行空间一致性[25])。虽然这些方法[34,13]已经显示出令人印象深刻的结果,但它们在低纹理,镜面反射和反射区域上仍然不合格,其中局部特征对于匹配没有区别。最近的工作[20,43,22,23]表明,通过使用Deep CNN,可以进一步提高MVS的性能。例如,在[43]中,提出了一种MVSNet,它在CNN特征上构建成本体积,并使用3D CNN进行成本体积正则化。与传统的手工制作的基于度量的方法相比,这样的MVSNet显著提高了整体3D重建然而,所有这些基于深度学习的方法都使用多尺度3D CNN来预测深度图[43,20,21]或占用网格[22,23],这因此是消耗内存的,因为3D体积的内存需求呈立方增长。这限制了它们在高分辨率MVS中的应用.因此,最近的一些工作[40,33,44,7]已经提出来解决这个内存密集型问题。例如,R-MVSNet [44]使用卷积GRU来代替3D CNN,从而将内存需求降低到二次,然后执行变分深度细化作为后处理步骤以提高精度。Point-MVSNet [7]使用粗到细的策略,首先构建相对较小的3D成本体积来预测粗略的深度图。然后使用PointFlow模块迭代地对粗略结果进行上采样和细化。虽然这些方法避免了MVS中的内存问题,并在一些具有挑战性的基准数据集上实现了最先进的3D重建质量,但它们的效率仍然远远不能令人满意。特别是,R-MVSNet [44]需要6.9秒来细化大小为400×300的深度图,而Point-MVSNet [7]需要大约3秒来细化大小为640×480的深度图,这禁止了它们在大规模场景中的应用。除了3D重建质量外,效率也是真实场景中MVS的理想特征,因此激励我们努力提高基于深度学习的MVS方法的效率。1950我们的观察是,高分辨率深度图包含更精细的细节,这将有利于整体重建。然而,从3D成本体积直接预测高分辨率深度图在计算上是昂贵的并且是存储密集的。相比之下,低分辨率深度可以以低得多的成本预测,但具有少得多的细节。作为一种折衷方案,我们建议首先预测一个稀疏的高分辨率深度图,内存消耗低,然后进行深度传播,以丰富的细节与参考图像作为指导。 对于深度传播,由联合双边上采样[26]激发,我们提出学习小规模卷积神经网络来编码局部区域内像素的深度依赖性,以使稀疏的高分辨率深度图致密化。我们进一步提出使用简单而快速的高斯-牛顿层,该层将多视图图像的深度CNN特征和粗略的高分辨率深度图作为输入,以细化密集的高分辨率深度图。值得注意的是,我们使用的所有模块都是轻量级和小规模的,并且由此产生的框架可以有效地实现。同时,所有这些模块都是可微的,因此可以以端到端的方式进行训练因此,我们将我们的稀疏到密集的粗到细解决方案称为Fast-MVSNet。概括起来,我们的贡献如下:(1)提出了一种新的MVS稀疏到稠密、粗到细的框架,其中稀疏到稠密的策略保证了方法的有效性,粗到细的策略保证了方法的有效性; ii)我们建议使用小规模卷积神经网络从原始图像学习局部区域内像素的深度依赖性,并使用它来加密稀疏深度图。同时,这样的网络是由联合双边上采样激励的。因此,深度传播过程是可以解释的;iii)提出了一个可微分的高斯-牛顿层来优化深度图,这使得我们的Fast-MVSNet能够端到端学习; iv)大量的实验表明,与其他最先进的方法相比,我们的方法实现了更好或相当的重建结果,同时更有效和内存友好。特别是,我们的方法比R-MVSNet [44]快14倍,比Point-MVSNet [7]快5倍2. 相关工作2.1. 多视点立体重建现代MVS算法通常使用以下输出场景表示:卷[22,23,27,35],点云[28,14,12]或深度图[37,34,13,43,44]。特别是,基于体积的方法将3D空间离散成规则网格,并决定体素是否靠近表面。然而,这是高内存消耗的,并且不能扩展到大规模场景。基于点云方法[28,12]通常从匹配关键点的稀疏集合开始,并使用某种传播策略来使点云致密化。然而,这些方法难以并行,因为传播是顺序进行的。虽然深度图可以被认为是点云表示的特殊情况(例如,逐像素点云),它将重建简化为逐视图深度图估计的问题此外,可以很容易地将深度图融合到点云[30]或体积重建[31]。在这项工作中,我们还使用了深度图表示。值得注意的是,我们的方法与基于点云的方法有一些相似之处,在基于点云的方法中,我们从稀疏深度图开始,并在参考图像的帮助下学习将稀疏深度图传播到密集深度图2.2. 基于学习的MVS最近,随着深度CNN的表示学习能力的增强,一些研究人员提出了学习更好的补丁表示,匹配和正则化,并取得了巨大的成功。在[16,46,17]中,研究者提出学习小图像块之间的相似性度量以进行匹配成本计算。SurfaceNet [22]和DeepMVS [20]使用多视图图像构建成本Yao等人[43]提出了一种端到端的MVS架构,该架构基于CNN特征构建成本量,并使用CNN学习成本量正则化然而,3D成本体积的内存消耗因此,R-MVSNet [44]建议使用卷积GRU进行成本体积正则化,从而避免使用内存密集型3D CNN。相比之下,Point-MVSNet [7]使用从粗到细的统计,首先预测低分辨率深度图,然后迭代上采样并细化深度图。虽然这些方法已经显示出令人印象深刻的结果,但是它们的效率仍然远远不能令人满意。我们的工作主要与Point-MVSNet [7]相关,因为我们也使用粗到细的策略。然而,我们没有使用耗时的策略来对深度假设进行采样以进行细化,而是学习使用可微分的高斯-牛顿层直接优化深度图,这是高效的,并确保我们的网络可以以端到端的方式进行训练。2.3. 深度图上采样和传播上采样和传播是计算机视觉中无处不在的工具,因为我们通常以低计算成本计算低分辨率结果,并对结果进行插值以获得高分辨率结果。然而,简单的上采样 相反,通过使用高分辨率图像作为指导,联合双边上采样[26,3]可以保留边缘特征。Xu等[42]进一步建议使用1951i=1阶段12D CNNSrc. Img2D CNN3D CNN参考文献稀疏成本量2D CNNSrc. ImgSrc. Img精细深度2D CNN参考文献密集深度稀疏深度2D CNN高斯-牛顿层传播模块Src. Img参考文献2D CNN阶段3阶段2图1:Fast-MVSNet的网络架构。在第一阶段,我们在2D CNN特征上构建稀疏成本体积,并使用3D CNN预测稀疏高分辨率深度图。在第二阶段,我们设计了一个简单但有效的网络来将稀疏深度图传播到密集深度图。在第三阶段,我们提出了一个可微的高斯-牛顿层来进一步细化深度图。多视图几何一致性作为深度图上采样的指导,而Weietal. [41]扩展联合双边上采样以合并表面法线信息。然而,这些方法依赖于手工制作的策略,并且它们的内核参数需要手动调整。与这些方法不同的是,我们提出了使用图像引导来学习稀疏深度图的传播,并表明通过引入可学习的传播模块,可以进一步改善重建结果。2.4. 基于学习的优化最近的一些工作已经被提出来利用迭代优化算法的可微性质来学习非线性最小二乘目标函数的优化。这些优化算法被展开为固定数量的迭代,并且每个迭代被实现为神经网络中的一个层在[8]中,LSTM [19]用于对Levenberg-Marquardt(LM)算法进行建模,并直接预测每一步的更新。在[36]中,Tanget al.Lv等提出了一种可微LM算法,通过学习预测标准LM算法的阻尼因子,[29]使用可学习的模块来替换逆合成算法的多个组件[2]。与这些方法不同,CodeSLAM [4]和SceneCode [47]学习一个紧凑的表示(即,代码)的场景进行后期优化,而Stumberg等人。[39]提出高斯-牛顿损失来学习不同天气条件下图像的鲁棒表示。我们的方法特别受到这一系列工作的启发,其中我们提出了一个可扩展的高斯-牛顿层,用于有效的深度图细化,但我们的方法不限于场景相关的深度基础[36]或学习代码[4,47]。3. 方法我们的目标是设计一个有效和高效的MVS框架。在最近的成功之后[20,43,44,7,21],我们使用每视图深度图作为场景表示,以获得其灵活性和可扩展性。也就是说,在给定一组相邻源图像{Ii}N的情况下,估计参考图像I0的深度图。为此,我们提出了一个快速MVSNet,一个有效的MVS框架,利用稀疏到密集的粗到细的深度图估计策略具体地,我们首先估计稀疏的高分辨率深度图,使得可以以较低的成本应用现有的MVS方法(即,更少计算成本和更少存储器消耗)。然后,我们设计了一个简单但有效的传播模块,传播稀疏的深度图到一个密集的深度图。最后,提出了可微分高斯-牛顿层以进一步优化深度图以获得亚像素精度。我们的方法的整个管道如图1所示。接下来,我们将详细介绍我们方法的每个组件3.1. 稀疏高分辨率深度图预测我们的第一步是估计参考图像I0的稀疏高分辨率深度图。图2显示了我们的稀疏深度图表示与其他方法中的深度图之间的关键差异。我们估计具有低存储器和计算成本的稀疏高分辨率深度图,而其他方法估计具有高存储器成本的高分辨率深度图[20,43]或没有精细细节的低分辨率深度图[7]。我们认为,我们的稀疏高分辨率表示比低分辨率表示更合适,因为:i)19522稀疏深度(a)(b)(c)第(1)款图2:深度图的透视图。(a)MVSNet [43]和3×4H×4W k2×H×Wk2 × HWR-MVSNet [44]. (b)PointMVSNet [7]. (c)我们的了与其他方法不同的是,我们估计一个稀疏的高分辨率深度图考虑效率和质量。利用低分辨率深度图的训练需要相应地对地面实况深度图进行下采样。如果我们使用最近邻方法对地面实况深度图进行下采样,那么低分辨率表示与稀疏高分辨率表示相同。 然而,在这种情况下,所得到的深度图没有与所提取的低分辨率特征图很好地对准。 如果我们使用双线性插值进行下采样,则会在深度不连续的区域周围产生伪影; ii)精细细节在低分辨率深度图中丢失。回收图3:传播模块的示意图。3.2. 深度图传播前一步为我们提供了高分辨率但稀疏的深度图D。我们现在需要传播稀疏深度图以获得密集深度图D 。一个简单的策略是使用最近的邻居。然而,这种最近邻方法没有考虑原始图像信息,因此在深度边界附近可能不能很好地工作。另一个自然的选择是联合双边上采样器[26,3,41],其使用原始高分辨率图像的信息作为指导。形式上,它采取以下形式:具有来自低分辨率深度图的精细细节的高分辨率深度图需要非繁琐且复杂的上缩放方法[10]。D(p)=1zpΣq∈N(p)D(q)f(p−q)g(Ip-Iq)(1)为了预测我们的稀疏高分辨率深度图,我们调整MVSNet [43]来完成我们的任务。具体来说,我们首先使用与MVSNet相同的8层2D CNN来提取图像特征,然后在参考图像的frustum中构建稀疏成本体积。最后,我们使用3D CNN来正则化成本体积,并通过可微argmax预测稀疏深度图[43]。我们的方法是一个通用的框架。虽然我们使用3D CNN进行成本体积正则化,但其他正则化方法,如卷积其中f是空间滤波器核,g是范围滤波器核,N(p)是位置p周围的局部k×k近邻,zp是归一化项。然而,这两个内核参数对于不同的场景可能不同,需要手动调整。因此,我们建议用权重wp ,q代替f(p-q)g(ip-Iq),并用一个简单的网络学习权重。在数学上,我们使用以下形式:[44]这也是一个问题。我们强调我们的成本量与以前的方法[43,7]的差异如下:i)我们的成本量是D(p)=1zpΣq∈N(p)D(q)·wp,q(二)size 1H × 1W ×N ×F, while MVSNet use a cost volume其中w是CNN的输出,并在数据中学习-88p,q尺寸为1H×1W×N×F,其中N是深度的数量驱动方式。我们注意到,虽然我们没有明确地承认-4 4平面,F是特征通道的数量; ii)MVS-Net使用256个虚拟深度平面,而我们使用与Point-MVSNet [7]中相同数量的深度平面。特别地,我们分别使用48个和96个虚拟深度平面进行训练和评估; iii)我们使用8层2D CNN来提取F=32通道的图像特征,而Point-MVSNet [7]使用11层2D CNN来提取F=64通道的图像特征。因此,我们的成本卷的内存使用量是Point-MVSNet [7]中的1虽然空间信息的计数,但它确实是由网络隐式此外,当我们针对不同位置p预测不同权重时,我们的方法可以被视为对每个位置p应用固定内核的标准双边上采样器的一般化。实施. 首先使用最近邻将稀疏深度图Ds传播到密集深度图D并行地,CNN将参考图像I0作为输入,并为每个位置输出k×k个权重W最后有趣的是,由于我们的稀疏表示,扩展深度图D使用公式2计算。CNN的作用类似于空间域中的膨胀卷积[6],膨胀2。因此,它有可能纳入更大的空间上下文信息的正则化。注意,等式2的计算可以使用向量化(即,im2col)。所提出的传播模块的细节如图3所示。最近邻居im2col1×高×宽1×高×宽k2 ×HW密集深度Hadamard产品~总和重塑~参考文献图k2 ×HW1 ×高×宽2D CNN重塑1953我i=1i=1我我i=0时我00我DenseDepthRefineDepthderiv ativ e关于D(p)为:fi(p′)p′Ji(p)=我p′·iD(六)最后,我们可以得到当前深度的增量δ为:δ=−(JT J)−1JT r(7)其中J是雅可比矩阵{Ji(p)}N的堆栈,并且r是残差向量{ri(p)}N的.因此,深度是:˜′˜图4:可微高斯-牛顿层的示意图。为了简单起见,我们在这里忽略相机参数。为了预测权重W,我们简单地使用与MVSNet相同的网络架构来提取图像特征,并附加一个两层3×3卷积网络来预测具有k×k通道的特征映射。softmax函数应用于信道维度以进行归一化。3.3. 高斯牛顿加细由于我们在前一步骤中集中于密集高分辨率深度图的有效推断,因此所得深度图的准确性不足。因此,我们提出使用高斯-牛顿算法来细化深度图。虽然有各种方法可用于深度图细化[44,43,7],但我们选择高斯-牛顿算法以提高其效率。在数学上,y,giv e n中深度为D的点p,参考图像,我们的目标是最小化以下误差函数:D(p)=D(p)+ δ。(八)此外,高斯-牛顿算法自然是可区分的,并且可以被实现为神经网络中的层,而无需额外的可学习参数。如图4所示,高斯-牛顿层将多视图图像特征、相机参数和初始深度图作为输入,然后输出细化的深度图。整个网络可以以端到端的方式进行训练。因此,它可以学习合适的特征以进行有效的优化[36]。我们发现它收敛得很快,只需一步更新.请注意,我们的Gauss-Newton层与R-MVSNet的细化不同,R-MVSNet使用梯度下降来优化硬制作的照片一致性度量,而我们将优化集成在训练中。此外,由于我们不需要对深度假设进行采样,因此与Point-MVSNet [7]相比,我们的方法更有效且更内存友好。3.4. 训练损失按照以前的方法[43,7],我们使用估计的深度图和地面真实深度图之间的平均绝对差作为我们的训练损失。初始深度图D′和细化深度图D′都包括在我们的三角化损失中:E(p)=ΣNi=1<$Fi(p′)−F0(p)<$2(3)Σ损失=p∈p有效<$D<$(p)−D<$(p)<$+λ·<$D<$ ′(p)−D<$(p)<$(9)其中,FF0是对源头′其中,D是地面实况深度图,一组有效的地面实况深度,λ是图像Ii和参考图像I0,pi分别是图像Ii和Fi(p)中p的重投影点对应于Fi中p处的特征。p′可以计算为:p′=Ki(RiR−1(D(p)K−1p−t0)+ti)(4)其中{Ki,Ri,ti}N表示对应图像的相机本征、旋转和平移。我们应用高斯-牛顿算法来最小化E(p)。具体地,从初始深度D_p开始,我们计算每个源图像Ii的p的残差ri(p):ri ( p ) =Fi ( p′ ) -F0 ( p )(5)然后对于每个残差ri(p),我们计算它们的一阶~更新 ~~~源特征衍生物计算我经纱我我残差计算增量计算i=1,2,我Reference特征01954平衡两种损失。我们将λ设为1。在所有实验中均为0。4. 实验4.1. DTU数据集DTU数据集[1]是一个大规模的MVS数据集,它包含80个具有很大多样性的场景。每个场景都是在49或64个精确的摄像机位置,7种不同的照明条件下拍摄的。该数据集提供了由精确的结构光扫描仪采集的参考模型以及高分辨率RGB图像。我们使用与其他基于学习的方法相同的训练,验证和评估集[22,43,44,7]。1955[7]第七届全国人大代表图5:DTU数据集扫描9的定性结果。上图:整个点云。底部:放大的局部区域。我们使用与Point-MVSNet相同的点云融合参数如蓝色圆圈区域所示,我们的重建包含更少的噪声周围精细的详细结构,这证明了我们的方法的有效性。Acc. (毫米)Comp. (毫米)总体(mm)营地[5]0.8350.5540.695福鲁[12]0.6130.9410.777卡拉OK [38]0.3421.1900.766吉普马[13]0.2830.8730.578[45]第四十五话1.2200.6670.943[22]第二十二话0.4501.0400.745MVSNet [43]0.3960.5270.462R-MVSNet [44]0.3850.4520.417PointMVSNet [7]0.3610.4210.391我们0.3360.4030.370表1:DTU评价数据重建质量的定量结果[1]。我们的方法优于所有的方法在重建的完整性和整体质量。4.2. 实现细节训练 我们使用MVS- Net生成的训练数据[43]。DTU数据集提供的点云用于重建网格表面,然后将其用于渲染深度图以供训练。我们使用PyTorch实现我们的模型[32]。我们将输入图像的分辨率设置为640×512,视图数N设置为3。为了选择用于训练的源图像,使用与MVSNet [43]相同的视图选择我们在稀疏深度图预测中设置深度平面的数量D=48,其中深度假设从425mm到921mm均匀采样。在PointMVSNet [7]之后,我们使用初始学习率为0.0005的RMSProp优化器,每2个epoch将学习率降低0.9。在4台NVIDIA GTX 2080Ti GPU设备上,批次大小设置为16。我们首先预训练稀疏深度图预测模块和propagation模块4 epoch。然后,整个模型被端到端训练另外12个时期。网的详细信息工作架构在补充材料中说明。试验. 在稀疏深度图的传播之后,我们得到大小为1×H×W的密集深度图。为了与Point-MVSNet [7]进行公平比较,我们在高斯-牛顿细化之前将深度图上采样到2×H×W,并使用最近邻我们使用N=5个分辨率为1280×960的图像作为输入,并将深度平面的数量设置为D=96。我们首先预测每个参考图像的深度图,然后使用[43]提供的后处理将预测的深度图融合到点云中。除非另有说明,否则使用与Point-MVSNet [74.3. DTU数据集上的结果我们比较我们的方法与传统的方法和最近的学习为基础的方法。定量结果如表1所示。虽然Gipuma [13]在准确性方面实现了最佳性能,但我们的方法在完整性和整体质量方面优于所有竞争方法。图5显示了与Point-MVSNet结果的定性比较。我们的重建是干净的周围精细的细节结构,这验证了我们的方法的有效性。我们进一步证明了效率和有效性的建议的方法通过比较recruitc- tion质量,深度图分辨率,GPU内存需求和运行时间与国家的最先进的方法在表2中。为了与Point-MVSNet [7] 进 行 公 平 比 较 , 运 行 时 间 是 在NVIDIA GTX 1080Ti GPU上测量的。如表2所示,我们的方法在所有评估指标方面优于所有方法特别是,我们的方法比MVSNet [43]快2倍,比R-MVSNet [44]快14倍1956(a):稀疏高分辨率(b):(a)+传播模块(c):(b)+高斯-牛顿层地面实况图6:DTU数据集扫描12的定性结果。上图:整个点云。中间和底部:矩形的局部放大区域。当逐渐添加传播模块和高斯-牛顿层时,重建结果变得更加密集和详细(参见文本区域)。Acc. (mm)Comp. (mm)整体(mm)深度地图资源GPU内存中文(简体)MVSNet[43]0.4560.6460.551288×21610.81.05R-MVSNet[43]0.3850.4520.417400×3006.79.1Point-MVSNet [7]0.3610.4210.391640×4808.73.35我们0.3360.4030.370640×4805.30.6表2:通过重建质量、深度图分辨率、GPU内存要求和DTU评估集上的运行时间测量的比较结果。MVSNet [43]的结果引用自Point-MVSNet [7]。由于GPU内存限制,MVSNet [ 43 ]的分辨率降低到1152×864×192。我们的方法优于所有的评估指标方面的所有方法,同时更有效,更内存友好。比Point-MVSNet快5倍 [7]。4.4. 消融研究由于篇幅限制,我们建议读者使用柔软的材料进行额外的消融研究,包括使用更多迭代的高斯-牛顿细化和使用不同参数的深度图融合。有效性稀疏高分辨率深度图为了评估我们的稀疏高分辨率深度图表示的有效性,我们比较了重建,结构结果与表4中的低分辨率深度图表示。为了进行公平的比较,低分辨率深度图和稀疏的高分辨率深度图都被上采样到640×480,具有最近邻。如表4中的前两行所示,我们的稀疏高分辨率深度图实现了更好的结果。传播模块的有效性。为了评估我们学习的传播模块的有效性,我们在表4的第二行和第三行中显示了有或没有传播模块的结果,显示了传播模块。ULE可以进一步改善重建结果。有效性 的 高斯-牛顿精化我们比较了有或没有高斯-牛顿再-在表4中的第三和第四行中进行细化。与高斯-牛顿细化后,整体重建质量的相对提高为9。5%(从0.409到0.370),显示了我们的高斯-牛顿细化的有效性高 斯- 牛 顿 精化 的 效 率。 我 们 的Gauss-Newton 层 和Point-MVSNet[7]中提出的PointFlow模块都旨在细化粗略的深度图。PointFlow使用假设检验策略,首先对一组假设(围绕当前深度预测)进行采样,然后使用网络通过所有假设的加权平均值选择更好的假设。相反,我们将深度图细化制定为优化问题,并将优化集成到端到端框架中。与Point-MVSNet中的假设抽样解相比,我们的公式更简单、更有效。为了评估所提出的Gauss-Newton层的效率,我们用我们的可微分Gauss-Newton层替换了Point-MVSNet的PointFlow重建结果的比较如表4的最后两行所示。我们实现了与Point-MVSNet相当的结果,1957图7:Tank和Temples数据集中中间集的重建结果[24]。我们的方法可以重建密集和视觉上吸引人的复杂场景。是说家庭弗朗西斯马灯塔M60黑豹操场火车MVSNet [43]43.4855.9928.5525.0750.7953.9650.8647.9034.69R-MVSNet [44]48.4069.9646.6532.5942.9551.8848.8052.0042.38Point-MVSNet [7]48.2761.7941.1534.2050.7951.9750.8552.3843.06我们47.3965.1839.5934.9847.8149.1646.2053.2742.91表3:坦克和寺庙基准的评估结果[24]。我们用最先进的方法取得了相当的结果。方法Acc.Comp.整体低分辨率0.5170.5570.537稀疏高分辨率0.3940.4780.436稀疏高分辨率+prop。0.3700.4480.409稀疏高分辨率+ prop.+ GN0.3360.4030.370低分辨率+PointFlow[7]0.3610.4210.391低分辨率+GN。0.3760.4170.396表4:DTU评价数据集上的消融研究,证明了我们方法的低分辨率 表示低分辨率深度图,稀疏高分辨率。表示稀疏的高分辨率深度图,prop。表示传播模块,GN表示高斯-牛顿细化。我们的方法快5倍。此外,由于我们直接优化深度,而不是对可能的深度假设进行采样,因此我们的方法对内存更友好,并且不需要采用分而治之的策略来细化高分辨率深度图(例如,640×480)。我们在图6中显示了添加我们方法的不同组件时重建结果的比较。结果变得更密集,并包含更精细的细节,特别是在文本区域。4.5. 泛化为了评估我们提出的方法的通用性,我们在大规模的坦克和寺庙数据集上进行了测试[24]。我们使用在DTU数据集上训练的模型,没有精细的-1920×1056 作 为 输 入 。 我 们 设 置 深 度 平 面 的 数 量D=96。我们使用MVS- Net [43]提供的相机参数进行公平比较。评价结果示于表2中。我们实现了与国家的最先进的方法,这表明了所提出的方法的通用性可比的结果。定性结果如图7所示。我们的重建是密集和视觉上的。5. 结论我们提出Fast-MVSNet作为一种有效的MVS解决方案,它利用了稀疏到密集的粗到细策略。我们首先以较低的成本估计稀疏的高分辨率深度图。 然后稀疏的高分辨率深度图经由简单的传播模块被传播到密集深度图。最后,提出了一个可微的高斯-牛顿层,以进一步优化深度图在两个具有挑战性的数据集上的实验结果验证了该方法的有效性和效率。确认本 工 作 得 到 了 国 家 重 点 研 发 项 目(2018AAA0100704),国家自然科学基金资助项目编号61932020,上海科技-迈伽维联合实验室我们要感谢廉东泽、罗伟新、金磊和钱申汉在编写本报告期间提出的富有洞察力的意见。调试测试。我们使用N=5的图像与分辨率手稿。1958引用[1] Henrik Aanæs , Rasmus Ramsbøl Jensen , GeorgeVogiatzis,Engin Tola,and Anders Bjorholm Dahl.多视点立体视觉的大规模数据国际计算机视觉杂志,第1-16页,2016年。一、五、六、九、十、十一[2] 西蒙·贝克和伊恩·马修斯。卢卡斯-卡纳德20年:统一的框架。国际计算机视觉杂志,56(3):221-255,2004。3[3] 乔纳森·T·巴伦和本·普尔。快速双边求解器。欧洲计算机视觉会议,第617- 632页。施普林格,2016年。二、四[4] Michael Bloesch、Jan Czarnowski、Ronald Clark、StefanLeutenegger和Andrew J Davison。Codeslam-learning一个紧凑的,可优化的表示密集的视觉冲击。在IEEE计算机视觉和模式识别会议论文集,第2560-2568页3[5] 尼 尔 ·DF. Campbell , Geor geVogiatzis , CarlosHerna'ndez,and Roberto Cipolla.使用多个假设来改进多视图立体的在David Forsyth,Philip Torr和Andrew Zisserman的编辑中,计算机视觉ECCV 2008,第5302卷,第766-779页。2008. 6[6] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834-848,2017。4[7] 陈睿,韩松芳,许静,苏浩。基于点的多视点立体网络。在IEEE计算机视觉国际会议(ICCV),2019年。一、二、三、四、五、六、七、八、九[8] Ronald Clark,Michael Bloesch,Jan Czarnowski,StefanLeutenegger,and Andrew J.戴维森学习解决单目立体的非线性最小二乘。在欧洲计算机视觉会议(ECCV),2018年9月3[9] Simon Donne和Andreas Geiger使用连续重投影学习在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。9[10] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流。在IEEE计算机视觉国际会议的论文集,第2758-2766页,2015年。4[11] 你也叫Furuk aw a,CarlosHern a'ndez等。多视图立体声 : 教 程 。 Foundations and Trends® in ComputerGraphics and Vision,9(1-2):1-148,2015。1[12] Y. Furukawa和J.庞塞精确、密集和强大的多视图立体视觉。IEEE Transactions on PatternAnalysis and MachineIntelligence,32(8):1362-1376,Aug. 2010. 二、六[13] 加利亚尼,拉辛格,辛德勒。表面法向扩散的大规模平行 多 视 点 立 体 视 觉 。 在 Proceedings of the IEEEInternational Conference on Computer Vision,第873-881页,2015中。一、二、六[14] Michael Goesele,Noah Snavely,Brian Curless,HuguesHoppe,and Steven M Seitz.多视图立体声通信nity照片收藏2007年IEEE第11届计算机视觉国际会议,第1-8页IEEE,2007年。2[15] Lei Han ,Mengqi Ji,Lu Fang,and Matthias Nießner.Reg- net:学习直接图像到图像姿态配准的优化arXiv预印本arXiv:1812.10212,2018。[16] Han Xufeng,Thomas Leung,Yangqing Jia,Rahul Suk-thankar , and Alexander C Berg. Matchnet : Unifyingfeature and metric learning for patch-based matching. 在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,第3279-3286页,2015中。2[17] 哈特曼,加利亚尼,哈弗莱纳,范古尔,辛德勒。学习多补丁相似性。在IEEE计算机视觉国际会议论文集,第1586-1594页,2017年。2[18] 海科·赫希穆勒基于半全局匹配和互信息的立体图像处理 IEEE Transactions on pattern analysis and machineintelligence,30(2):328-341,2007. 1[19] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735-1780,1997。3[20] Po-Han Huang , Kevin Matzen , Johannes Kopf ,Narendra Ahuja,and Jia-Bin Huang. Deepmvs:学习多视图立体视觉。在IEEE计算机视觉和模式识别会议论文集,第2821-2830页,2018年。一、二、三[21] Sunghoon Im,Hae-Gon Jeon,Stephen Lin,and In SoKweon.端到端深平面扫立体声。arXiv预印本arXiv:1905.00538,2019。第1、3条[22] Mengqi Ji,Juergen Gall,Haitian Zheng,Yebin Liu,and Lu Fang. Surfacenet : An end-to-end 3d neuralnetwork for multi-view stereopsis.在IEEE计算机视觉集,第2307一、二、五、六[23] Abhi s hekKa r,ChristianHaíne,andJitendraMalik. 学习多视角立体机。神经信息处理系统的进展,第365-376页,2017年。一、二[24] Arno Knapitsch , Jaesik Park , Qian-Yi Zhou , andVladlen Koltun.坦克和寺庙:大规模场景重建的基准ACM Transactions on Graphics,36(4),2017。8[25] Vladimir Kolmogorov和Ramin Zabih通过图切割计算与遮挡的视觉对应。技术报告,康奈尔大学,2001年。1[26] Johannes Kopf,Michael F Cohen,Dani Lischinski,andMatt Uyttendaele.联合双边上采样。在ACM Transactionson Graphics(ToG),第26卷,第96页中。ACM,2007年。二、四[27] Kiriakos N Kutulakos和Steven M Seitz
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功