没有合适的资源?快使用搜索试试~ 我知道了~
基于开放航空数据集的大规模多视图立体重建及其新的递归编码器-解码器结构
60500一种新的递归编码器-解码器结构用于基于开放航空数据集的大规模多视图立体重建0刘进和纪顺平 �0武汉大学遥感与信息工程学院0{ liujinwhu, jishunping } @whu.edu.cn0摘要0最近的大量研究表明,多视图立体匹配可以通过深度学习方法来解决。然而,这些工作主要集中在近距离物体上,只有极少数基于深度学习的方法专门用于大规模三维城市重建,原因是缺乏多视图航空图像基准。在本文中,我们介绍了一个名为WHU数据集的合成航空数据集,该数据集是我们为MVS任务创建的,据我们所知,这是第一个大规模多视图航空数据集。它是从数千张具有精确相机参数的真实航空图像生成的高精度三维数字地表模型产生的。我们还在本文中介绍了一种名为RED-Net的新型网络,用于广域深度推断,它是从递归编码器-解码器结构和2D全卷积网络作为框架开发的。RED-Net具有低内存需求和高性能,非常适合大规模和高精度的三维地表重建。我们的实验证实,我们的方法不仅在内存和计算成本上超过了当前最先进的MVS方法50%以上的平均绝对误差(MAE),而且在效率上也超过了基于传统方法的最佳商业软件程序,其效率提高了16倍。此外,我们证明了我们在合成的WHU数据集上预训练的RED-Net模型可以有效地转移到非常不同的多视图航空图像数据集上,而无需任何微调。数据集和代码可在http://gpcv.whu.edu.cn/data上获得。01. 引言0地球表面的大规模和高精度三维重建,包括城市,主要是通过多视图航空图像的密集匹配实现的0� 通讯作者0并且主要由商业软件如Pix4D [24],Smart3D [8]和SURE[27]等实现和主导,这些软件都是从传统方法[33, 3,13]开发的。文献中发现了最近尝试使用深度学习方法进行多视图立体匹配的方法[14, 16, 36, 37,15]。尽管这些深度学习方法可以在近距离物体重建上产生令人满意的结果,但是当应用于从多视图航空图像进行地表重建时,它们有两个关键限制。第一个限制是缺乏航空数据集基准,这使得通过方法之间的比较来训练、发现和改进适当的网络变得困难。此外,大多数现有的MVS数据集都是实验室的图像,基于它们训练的模型无法令人满意地转移到地面场景的鸟瞰图。这些方法的第二个限制是最近MVS网络中的高GPU内存需求[36, 15, 25,34],这使得它们不太适合大规模和高分辨率场景重建。最先进的R-MVSNet方法[37]已经实现了无限深度分辨率的深度推断,然而,其结果的分辨率质量不高,因为输出的深度图被下采样了四倍。在本文中,我们介绍了一个我们为大规模MVS匹配和地表重建创建的合成航空数据集。数据集中的每个图像都是从一个完整和准确的三维城市场景中模拟出来的,该场景是通过真实的多视图航空图像收集和软件和仔细的手动编辑产生的。数据集包括数千个模拟图像,覆盖了一个面积为6.7×2.2km2的区域,以及多视图图像的地面真实深度和相机参数,以及矫正的对极线图像的视差图。由于航空图像的尺寸较大(5376×5376像素),提供了由裁剪的子块组成的子集,可以直接用于在单个GPU上训练CNN模型。请注意,模拟的相机参数是无偏的,并且提供的地面真实值在遮挡区域甚至是完整的,这确保了数据集用于详细的三维重建的准确性和可靠性。60510我们在本文中还介绍了一种名为RED-Net的MVS网络,该网络是为大规模MVS匹配而创建的。我们使用循环编码器-解码器(RED)架构来顺序规范化从多视图图像上一系列卷积得到的代价图。与最先进的方法[37]相比,我们在使用更少的GPU内存的同时实现了更高的效率和准确性,同时保持了无限深度分辨率,这对于城市规模的重建是有益的。我们的实验证实,RED-Net在WHU航空数据集上优于所有可比较的方法。我们的工作除了解决现有方法的两个限制外,还有第三个目标。这个目标是证明我们的MVS网络可以推广到跨数据集的迁移学习。我们在这里证明,预训练在我们的WHU数据集上的RED-Net可以直接应用于另一个非常不同的航空数据集,其准确性略高于最佳商业软件程序之一,而效率提高了16倍。02. 相关工作02.1. 数据集0双视图数据集。Middlebury [28]和KITTI[9]是用于立体视差估计的两个流行数据集。然而,这些数据集对于当前应用来说太小,特别是在训练深度学习模型时,缺乏足够的样本往往导致过拟合和低泛化能力。考虑到这种情况,[21]创建了一个大规模的合成数据集,包括三个子集:FlyingThings3D,Monkaa和Driving,提供了数千个具有密集和完整视差地面实况的立体图像。然而,在这个合成数据集上预训练的模型不能轻易地应用于真实场景数据集,因为数据来源不同。多视图数据集。Middlebury多视图数据集[31]旨在在相同的基础上评估MVS匹配算法,是一个由仅包含两个小场景的校准图像集合组成的实验室环境的集合。DTU数据集[1]是一个包含124个场景的大规模近距离MVS基准,其中包含各种物体和材料在不同照明条件下的场景,非常适合评估先进的方法。Tanks andTemples基准[18]提供了在复杂的户外环境中获取的高分辨率数据和大尺寸图像。最近的一个名为ETH3D[30]的基准是为高分辨率立体和多视图重建而创建的,包括人工场景、室外场景和室内场景,代表了各种真实世界的重建挑战。重建地球表面和城市主要是通过匹配多视图航空图像来实现的。0ISPRS协会和EuroSDR中心共同提供了两个名为M¨unchen和Vaihingen[11]的小型航空数据集,其中包含数十个航空图像;然而,这些数据集目前不对公众开放。在我们的工作中,我们创建了一个大规模的合成航空数据集,其中包含准确的相机参数和完整的MVS方法评估和城市场景重建的地面实况。02.2. 网络0受基于深度学习的立体方法[23, 17, 38,4]的成功启发,一些研究人员尝试将CNN应用于MVS任务。Hartmann等人[12]提出了一种N路连体网络,用于学习一组多补丁的相似度得分。SurfaceNet[15]是第一个为MVS设计的端到端学习网络,通过透视投影在网络外部构建彩色体素立方体来编码相机参数,将多视图图像组合成单一的代价体积。Learnt Stereo Machine(LSM)[16]通过可微的投影和反投影操作确保了端到端的MVS重建。特征被反投影到具有已知相机参数的3D特征网格中,然后使用3DCNN来检测体素中的3D物体表面。SurfaceNet和LSM都使用体积表示;然而,它们只重建低分辨率的物体,并且具有巨大的3D体素GPU内存消耗;例如,它们以32×32×32的分辨率创建了世界网格。3D代价体积在编码相机参数和图像特征方面具有优势。DeepMVS[14]为每个参考图像生成了一个平面扫描体积,并使用具有跳跃连接的编码器-解码器结构来聚合代价并估计深度,使用全连接的条件随机场(Dense-CRF)[19]。[36]通过可微的单应性变换构建了一个3D代价体积。其内存需求随着深度量化数量的增加而立方增长,这使得它对于大规模场景不现实。最先进的方法R-MVSNet[37]通过卷积门控循环单元(GRU)[5]顺序地规范化2D代价图,而不是使用3DCNN,从而减少了内存消耗并实现了高分辨率重建。然而,R-MVSNet使用GRU中的小3×3感受野规范化代价图,并将输出深度降采样四倍,导致上下文信息丢失和粗糙重建。我们的RED-Net方法遵循了沿深度方向顺序处理2D特征以进行宽深度范围推断的思想。然而,我们引入了一种循环编码器-解码器架构来规范化2D代价图,而不是简单地像[37]中堆叠GRU块。RED结构提供了多尺度感受野。123456060520图1:数据集。区域0:完整数据集由1,776个虚拟航空图像组成,每个图像大小为5376×5376像素。为了便于机器学习方法,将区域1/4/5/6分配为训练集,共261个图像。区域2和3共93个图像,用作测试集。在训练和测试区域,图像还被裁剪成768×384像素大小的瓦片,以适应单个GPU。0为了在细分辨率场景中有效利用邻域信息,我们可以实现更高精度和更高效率、更低内存需求的大规模和全分辨率重建。03. WHU数据集0本节描述了我们为大规模和高分辨率地表重建创建的合成航空数据集,称为WHU数据集。数据集中的航空图像是从由软件生成并经过手动编辑的3D表面模型中模拟得到的。数据集包括完整的航空图像集和用于便于深度学习的裁剪子图像集。03.1. 数据来源0使用Smart3D软件[8]从一组从无人机上的倾斜五视摄像机组拍摄的多视角航空图像中重建了一个带有OSGB格式的3D数字表面模型(DSM)[35]。其中一个摄像机指向正下方,其他四个周围摄像机的光轴倾斜40°,以确保大部分场景,包括建筑物立面,都能被很好地捕捉到。我们手动编辑了一些表面模型中的错误,以提高其与真实场景的相似度。该模型覆盖了中国贵州省湄潭县约6.7×2.2平方公里的区域,地面分辨率约为0.1米。该县包括密集而高大的建筑物、稀疏的工厂、覆盖着森林的山脉以及一些裸地和河流。03.2. 合成航空数据集0首先,通过对OSGB网格进行插值,生成了一个离散的3D点集,该点集覆盖整个场景,网格大小为0.06×0.06×0.06米。每个点包括物体的位置(X,Y,Z)和纹理(R,G,B)。0然后,我们模拟了单镜头相机的成像过程。给定相机的内参数(焦距f,主点x0,y0,图像大小W,H和传感器大小)和外方位(相机中心(Xs,Ys,Zs)和三个旋转角(ϕ,ω,κ)),我们将3D离散点投影到相机上,得到虚拟图像,并同时从3D点中获取深度图。请注意,由于3D模型具有完整的场景网格,即使在建筑物立面上,深度图也是完整的。虚拟图像在地面上方550米处拍摄,地面分辨率为10厘米。总共拍摄了1,776张图像(大小为5376×5376),分为11条带,重叠度为90%,侧向重叠度为80%,对应的有1,776个深度图作为地面真值。我们将旋转角设置为(0,0,0),因此两个相邻的图像可以被视为一对对极图像。沿飞行方向提供了1,760个视差图,用于评估所选择的立体匹配方法。我们提供了8位RGB图像和16位深度图,格式为无损PNG,并提供了记录了包括相机中心(Xs,Ys,Zs)和旋转矩阵R在内的定向参数的文本文件。03.3. 深度学习的子数据集0除了提供完整的数据集外,我们还选择了六个代表性的子区域,涵盖不同的场景类型,作为深度学习方法的训练和测试集,如图1所示。“区域1”是一个平坦的郊区,有大型低矮的工厂建筑。“区域2”包含树木、道路、建筑物和开放空地。“区域3”是一个住宅区,有低矮和高大建筑物的混合。“区域4”和“区域5”是市中心,有复杂的屋顶结构和密集的建筑物。“区域6”是一个山区,覆盖着农田和森林。共有261个区域1/4/5/6的虚拟图像用作训练集,93个区域2的图像用作测试集。4012340123006_8007_11008_14……006_8007_11008_14……006_8007_11008_14……012…012…012…60530图2:不同视角的图像和深度图。五视图单元以ID为1的图像作为参考图像,以ID为0和2的图像作为头部方向上的搜索图像,以ID为3和4的图像作为侧边条带上的搜索图像。三视图集由ID为0、1和2的图像组成。在立体数据集中,图像1和图像2被视为一对立体对极线图像。0图像0深度0相机0001001.png……0001001.png……0001001.txt……0(b)图3:(a)一个大小为768×384像素的五视图子集。红色矩形中的三个子图像组成了三视图集。(b)MVS数据集中图像、深度和相机文件的组织方式。0区域1和区域3组成了测试集。训练集与测试集的比例大致为3:1。为了在子数据集上直接应用基于深度学习的MVS方法,我们还提供了一个多视图和一个立体子集,通过将虚拟航拍图像裁剪成子块,因为一个大小为5376×5376像素的图像可能无法输入当前的单个GPU。多视图数据集。一个多视图单元由五个图像组成,如图2所示。ID为1的中心图像被视为参考图像,ID为0和2的图像在头部方向上,ID为3和4的图像在侧边条带上作为搜索图像。我们将重叠的像素裁剪成子块,大小为0768×384像素。一个五视图单元产生了80对(400个子图像)(图3(a))。同时对深度图进行了裁剪。最终将数据集组织为图3(b)所示。虚拟图像、深度图和相机参数位于第一级文件夹中。第二级文件夹以五视图单元中参考图像的名称命名;例如,0068表示第六条带中的第八个图像。五个子文件夹分别命名为0/1/2/3/4,用于存储从五视图虚拟图像生成的子图像。此外,还有一个由ID为0、1和2的图像组成的三视图数据集。立体数据集。条带中的每一对相邻图像也是对极线图像。与多视图集类似,我们将每个图像和视差图裁剪为768×384像素,并在两视图单元中获得了154个子图像对。04. RED-Net0我们开发了一个名为RED-Net的网络,它结合了一系列共享权重的卷积层,从不同的多视图图像中提取特征,并使用递归编码器-解码器(RED)结构在深度和空间方向上顺序学习规范化的深度图,以实现大规模和高分辨率的多视图重建。该框架受到[37]的启发。然而,我们没有使用三个GRU块的堆叠,而是使用了一个二维递归编码器-解码器结构来顺序规范化代价图,这不仅显著减少了内存消耗和大大提高了计算效率,还捕捉了深度推断的更细微的结构。RED-Net的输出与输入参考图像具有相同的分辨率,而不是像[37]中那样缩小四倍,这确保了大规模和宽深度范围场景的高分辨率重建。网络结构如图4所示。2D特征提取。RED-Net从N个视图图像中推断出一个具有深度样本数D的深度图,其中N通常不少于三个。首先,2D卷积层分别用于提取具有共享权重的N个输入图像的特征,可以看作是一个N路连体网络架构[6]。每个分支由五个卷积层组成,通道数分别为8、8、16、16、16,核大小为3×3,步长为1(除了第三层,核大小为5×5,步长为2)。除了最后一层外,所有层都后跟一个修正线性单元(ReLU)[10]。2D网络为每个输入图像生成16通道的特征表示,宽度和高度为输入图像的一半。代价图。一组2D图像特征被反投影到3D空间中的连续虚拟平面上构建代价图。采用了平面扫描方法[7]将这些特征变形为参考相机视点,这被描述为可微分的单应性变形。…………168163232( W 2 , H 2 ) ( W 2 , H 2 )( W 8 , H 8 )CDC1C060540Softmax0地面实况0One-hot0损失0RED i0R0编码特征图0解码特征图0Conv + ReLU,3×3,stride = 10Conv + ReLU,3×3,stride = 20upConv + ReLU,3×3,stride = 20upConv,3×3,stride = 20GRU相加0Statei10Statei20Statei30Statei40{1,2,3,4}0平面扫描配准和成本图0RED 00RED 10RED0(W 4,H4)0(W 16,H 16) (W 16,H 16)0(W 8,H 8) (W 4,H 4) (W 2,H 2)(W,H)0参考图像搜索图像0特征提取 成本图 循环编码器-解码器 规范化 损失0State 0{1,2,3,4 }0State 1{1,2,3,4 }0State −1{1,2,3,4 }0C0 r0C1 r0CD r0R0R0图4:RED-Net的结构。W,H和D分别是图像的宽度,高度和深度采样数。0在[36,37]中。采用方差操作[36]将多个特征图连接到3D空间中的某个深度平面上的一个成本图中。最后,在每个深度平面上构建D个成本图。循环编码器-解码器规范化。受到U-Net[26],GRU [5]和RCNN[2]的启发,本文引入了一种循环编码器-解码器架构来规范从2D卷积和平面扫描方法获得的D个成本图。在空间维度上,一个成本图Ci是时间上循环编码器-解码器结构的输入,然后由四个尺度的卷积编码器处理。除了第一个卷积层的步长为1和通道数为8之外,我们在每个下采样步骤中加倍特征通道。解码器由三个上卷积层组成,每个层将前一层生成的特征图扩展并减半特征通道。在每个尺度上,编码的特征图通过卷积GRU[37]进行规范化,然后添加到解码器中相同尺度上的相应特征图中。解码器之后,使用上卷积层将规范化的成本图上采样到输入图像大小,并将通道数减少到1。在深度方向上,顺序成本图的上下文信息记录在先前规范化的0GRU和转移到当前成本图Ci。在阶梯式编码器-解码器结构中有四个GRU状态转换,表示为state,以在不同空间尺度上收集和改进上下文特征。通过在空间方向上规范化成本图,并通过循环编码器-解码器在深度方向上聚合几何和上下文信息,RED-Net实现了全局一致的多视角深度推断的空间/上下文表示。与GRU堆叠[37]相比,我们的多尺度循环编码器-解码器利用了更多细节和更少参数的多尺度邻域信息。损失计算。通过将所有规范化的成本图堆叠在一起,得到一个成本体积。我们通过在深度方向上使用softmax运算符将其转换为概率体积,就像之前的工作[17]一样。从这个概率体积中,可以逐像素地估计深度值,并与地面实况进行交叉熵损失比较,这与[37]相同。为了保持端到端的方式,我们没有提供后处理过程。根据相机参数,推断的深度图被转换为密集的3D点,所有这些点构成了完整的3D场景。然而,许多经典的后处理方法[22]可以用于细化。60550图像 真值 SURE MVSNet R-MVSNet RED-Net(我们的方法)0COLMAP0图5:WHU测试集中三个子单元的推断深度图。我们的方法产生了最精细的深度图。05. 实验05.1. 实验设置和结果0我们在WHU数据集上评估了我们提出的RED-Net,并将其与几种最近的MVS方法和软件进行了比较,包括基于传统方法的COLMAP [29]和商业软件SURE[27](试用版的航空版本[32]),以及基于深度神经网络的MVSNet [36]和R-MVSNet[37]。我们直接将COLMAP和SURE应用于WHU测试集,该测试集包含93张图像(大小为5376×5376)并输出深度图或密集点云。我们使用包含3600个子单元(大小为768×384)的WHU训练集对基于CNN的方法进行训练,然后在包含相同图像大小的WHU测试集上进行评估,该测试集包含1360个子单元。输入视图数量分别为N=3和N=5,深度样本数为D=200。每个图像的深度范围可能不同,因此我们使用COLMAP评估初始深度,并相应地设置深度范围。在测试集中,深度数量是可变的,我们将间隔设置为0.15m。在没有任何后处理的情况下,比较了不同方法的深度图。对于SURE,生成的密集点云事先被转换为深度图。在RED-Net的训练阶段,选择RMSProp[20]作为优化器,学习率设置为0.001,每5k次迭代衰减0.9。模型总共训练了三个时期,批量大小为1,总共进行了约150k次迭代。所有实验都在24GB的NVIDIA TITANRTX显卡和TensorFlow平台上进行。我们使用四个指标来评估深度质量:1)平均绝对误差(MAE):估计深度与真实深度之间的L1距离的平均值,仅计算100个深度间隔内的距离,以排除极端异常值;2)<0.6m:L1误差小于0.6m阈值的像素百分比;3)3间隔误差(<3间隔):0方法 训练和测试 MAE(m)<3间隔(%)<0.6m(%)完整性0COLMAP / 0.1548 94.95 95.67 98% SURE / 0.2245 92.09 93.69 94%0MVSNet WHU-3 0.1974 93.22 94.74 100%0WHU-5 0.1543 95.36 95.82 100%0R-MVSNet WHU-3 0.1882 94.00 94.90 100%0WHU-5 0.1505 95.64 95.99 100%0RED-Net WHU-3 0.1120 97.90 98.10 100%0WHU-5 0.1041 97.93 98.08 100%0表1:WHU数据集上的定量结果。0像素L1误差小于三个深度间隔的百分比;4)完整性:深度图中估计深度值的像素百分比。我们的定量结果如表1所示。在所有指标上,RED-Net优于所有其他方法,并且与次优的R-MVSNet相比,MAE至少提高了50%。对于3间隔误差和0.6m阈值指标,我们的方法至少超过其他方法2%。图5中的定性结果显示,RED-Net重建的深度图最干净,与地面真值最相似。05.2. GPU内存和运行时间0RED-Net、MVSNet和R-MVSNet在WHU数据集上的GPU内存需求和运行速度列于表2中。MVSNet的内存需求随着深度样本数D的增加而增加,而RED-Net和R-MVSNet的内存需求在D上保持不变。RED-Net的占用内存几乎是R-MVSNet的一半,并且RED-Net可以重建具有全分辨率的深度图像,其大小比后者大16倍。运行时间与深度样本数、输入图像大小和图像数量有关。在相同的N视图图像下,(R-)MVSNet生成的深度图像下采样4倍且稍快,而RED-Net保持与输入推理相同的分辨率。因此,考虑输出分辨率,我们的网络比其他方法更高效。COLMAP/0.586073.3681.95SURE/0.513873.7185.70DTU1.169643.1961.26MVSNetWHU-30.616969.3381.36WHU-50.588270.4383.46DTU0.780943.2270.26R-MVSNetWHU-30.622874.3383.35WHU-50.642674.0883.68DTU0.686763.0478.89RED-NetWHU-30.506380.6786.98WHU-50.528380.4086.6960560方法 输入尺寸 深度样本数 (3视图) (5视图) 输出尺寸 D = 800 D = 400 D = 200 D = 128 D = 2000MVSNet 384 × 768 17085M 1.1s 8893M 0.6s 4797M 0.3s 2749M 0.2s 4797M 0.5s 96 × 192 R-MVSNet 384 × 768 4419M 1.2s4419M 0.6s 4419M 0.4s 4419M 0.3s 4547M 0.6s 96 × 192 RED-Net 384 × 768 2493M 1.8s 2493M 0.95s 2493M 0.6s 2493M 0.5s2509M 0.8s 384 × 7680表2:(R-)MVSNet和RED-Net之间的内存需求和运行时间比较。我们的方法需要更少的内存,但实现了全分辨率重建。0图像 真值 SURE MVSNet R-MVSNet RED-Net (我们的) COLMAP0图6:在慕尼黑航拍图像集上推断的三个子单元的深度图。基于深度学习的方法是在WHU-3训练集上训练的。05.3. 泛化性0WHU数据集是在良好控制的成像过程下创建的。为了展示WHU数据集对航拍数据集的表示以及RED-Net的泛化性,我们在真实航拍数据集慕尼黑上测试了五种方法[11]。慕尼黑数据集与WHU数据集有些不同,它是在大都市而不是小镇上拍摄的。它由15张航拍图像组成(尺寸为7072×7776),在航向和侧向上分别有80%和60%的重叠。这三个基于CNN的模型在DTU或WHU数据集上进行了预训练,没有进行任何微调。慕尼黑数据集的输入视图数量为N=3,深度样本分辨率为0.1m。定量结果如表3所示。图6显示了一些定性结果。从表3可以得出三个结论。首先,RED-Net在所有指标上表现最好,它在3间隔误差上超过其他方法至少6%。在WHU-5数据集上训练的模型与RED-Net几乎相同。其次,WHU数据集保证了泛化性,而室内的DTU数据集则不能。当在DTU数据集上训练时,所有基于CNN的方法的表现都比两种传统方法差。例如,(R-)MVSNet在3间隔误差上比两种传统方法差30%;然而,当在WHU数据集上训练时,它们的性能与后者相当。最后,RED-Net中的循环编码器-解码器结构相比于R-MVSNet中的堆叠GRU和MVSNet中的3D卷积具有更好的泛化性。当在DTU数据集上训练时,我们的方法在3间隔误差上比(R-)MVSNet提高了20%。0方法 训练集 MAE (m) < 3间隔 (%) < 0.6m (%)0表3:使用不同MVS方法对慕尼黑航拍图像集进行定量评估。基于深度学习的方法是在WHU或DTU训练集上训练的。06. 讨论06.1. 循环编码器-解码器的优势0在本节中,我们评估了循环编码器-解码器在MVS网络中的有效性。我们在2D提取阶段将特征图下采样了四倍。通过这样做,RED-Net中的代价图与R-MVSNet的大小相同。最终输出也改变为输入的1/16大小,以保持与R-MVSNet的一致性。结果在表4中进行了比较。在三个航拍数据集上,RED-Net在所有指标上都表现出明显的优势,这表明RED-Net的高性能不仅是由于输出分辨率的提高,还由于编码器-解码器结构,它比堆叠GRU更好地学习了空间和上下文表示。M¨unchenR-MVSNet0.426481.4388.67RED-Net*0.367783.6389.95WHU-3R-MVSNet0.188294.0094.90RED-Net*0.157495.5296.03WHU-5R-MVSNet0.150595.6495.99RED-Net*0.137995.8996.64R-MVSNet [10]0.3850.4590.422R-MVSNet*0.5510.3730.462RED-Net0.4560.3260.39160570图7:使用RED-Net对大区域进行点云重建。右侧是左侧场景的放大部分。06.2. 在DTU上的评估0尽管RED-Net主要是为了解决大规模航拍多视图立体问题而开发的,但它在近距离DTU数据集上超过了最先进的R-MVSNet。表5显示,通过相同的后处理(光度和几何过滤),RED-Net的整体得分比R-MVSNet高出18%,并且也优于[37]中提供的使用四种后处理方法的结果。整体得分是根据DTU数据集[1]中建议的准确性和完整性两个代表性指标计算的,并在[37]中使用。06.3. 大规模重建0RED-Net可以生成任意深度采样数的全分辨率深度图,这对于从具有广泛深度范围的多视图航拍图像中进行高分辨率大规模地表重建特别有益。此外,RED-Net可以处理尺寸为7040×7040像素的三视图图像,仅需在24GBGPU上花费58秒推断出具有128个深度采样数的深度图。当我们推断覆盖1.8×0.85平方公里场景的深度时(图7),RED-Net使用3视图输入和200个深度采样数花费9.3分钟,而SURE花费150分钟,COLMAP花费608分钟。07. 结论0在本文中,我们介绍并展示了一个名为WHU数据集的合成航拍数据集,用于大规模和高分辨率的多视图立体重建,据我们所知,这是目前唯一可用的最大的多视图航拍数据集。我们在本文中确认了WHU数据集将成为当前近距离多视图数据集的有益补充,并将有助于促进对地表和城市的大规模重建的研究。我们还在本文中介绍了一种我们开发的用于多视图重建的新方法,称为RED-Net。0数据集 方法 MAE (m) < 3-interval (%) < 0.6m (%)0表4:R-MVSNet和RED-Net在三个数据集上推断深度图的相同大小的结果。'*'表示我们的方法的代价图和输出与R-MVSNet相比下采样了四倍。模型分别在相同的数据集上进行训练和测试。0方法(D=256) 平均准确率 平均完整度 总体(mm)0表5:R-MVSNet和RED-Net在DTU基准测试上的结果。'*'表示我们的实现只使用光度和几何过滤后处理,与RED-Net相同。0这个新网络在相对较低的内存需求下实现了高效的大规模和全分辨率重建,并且其性能超过了基于深度学习的方法和商业软件。我们的实验证明,RED-Net在我们新创建的WHU数据集上预训练后,可以直接应用于略有不同的航拍数据集,这表明基于深度学习的方法可能会取代传统的大规模重建方法。0致谢0这项工作得到了华为公司的支持,资助号为YBN2018095106。60580参考文献0[1] H. Aanaes, R. R. Jensen, G. Vogiatzis, E. Tola, and A. B.Dahl. 多视图立体视觉的大规模数据. 计算机视觉国际期刊,120(2):153–168, 2016. [2] Md Zahangir Alom, MahmudulHasan, Chris Yakopcic, Tarek M Taha, and Vijayan K Asari.基于U-Net的循环残差卷积神经网络(R2U-Net)用于医学图像分割. arXiv预印本arXiv:1802.06955, 2018. [3] Michael Bleyer,Christoph Rhemann, and Carsten Rother.Patchmatch立体匹配-倾斜支持窗口的立体匹配.在英国机器视觉会议2011的论文集中, 2011. [4] J. R. Chang andY. S. Chen. 金字塔立体匹配网络.在计算机视觉和模式识别(CVPR)IEEE会议上, 2018. [5]Kyunghyun Cho, Bart Van Merri¨enboer, Caglar Gulcehre,Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, andYoshua Bengio.使用RNN编码器-解码器学习短语表示用于统计机器翻译.arXiv预印本arXiv:1406.1078, 2014. [6] S. Chopra, R. Hadsell,and Y. LeCun. 通过判别性学习相似度度量,应用于人脸验证.在计算机视觉和模式识别IEEE计算机学会会议上, 2005. [7] R. T.Collins. 一种真正的多图像匹配的空间扫描方法.在计算机视觉和模式识别IEEE计算机学会会议上, 1996. [8]ContextCapture. 可用: http-s://www.bentley.com/en/products/brands/contextcapture. [9]Andreas Geiger, Philip Lenz, and Raquel Urtasun.我们准备好自动驾驶了吗?kitti视觉基准套件.在计算机视觉和模式识别(CVPR)IEEE会议上, 2012. [10] XavierGlorot, Antoine Bordes, and Yoshua Bengio.深度稀疏整流器神经网络.在第十四届人工智能和统计学国际会议论文集上, 2011. [11]Norbert Haala. 密集图像匹配算法的景观. 2013. [12] W.Hartmann, S. Galliani, M. Havlena, L. Van Gool, and K.Schindler. 学习多补丁相似性.在国际计算机视觉(ICCV)IEEE会议上, 2017. [13] H.Hirschmuller. 通过半全局匹配和互信息进行立体处理.IEEE模式分析与机器智能交易, 30(2):328–341, 2008. [14] P. H.Huang, K. Matzen, J. Kopf, N. Ahuja, and J. B. Huang.深度多视图立体视觉的学习.在计算机视觉和模式识别(CVPR)IEEE会议上, 2018. [15] M. Q.Ji, J. R. Gall, H. T. Zheng, Y. B. Liu, and L. Fang. SurfaceNet:一种端到端的用于多视图立体视觉的3D神经网络.在国际计算机视觉(ICCV)IEEE会议上, 2017.0[16] Abhishek Kar, Christian H¨ane, and Jitendra Malik.学习多视图立体机器。在2017年神经信息处理系统进展中,第365-376页。[17] A. Kendall, H. Martirosyan, S. Dasgupta, P. Henry,R. Kennedy, A. Bachrach, and A. Bry.几何和上下文的端到端学习用于深度立体回归。在2017年IEEE国际计算机视觉会议(ICCV)上,第66-75页。[18] A. Knapitsch, J.Park, Q. Y. Zhou, and V. Koltun. Tanks and temples:大规模场景重建的基准测试。ACM Transactions onGraphics,第36卷,第4期,第78页,2017年。[19] PhilippKr¨ahenb¨uhl and Vladlen Koltun.具有高斯边缘潜力的全连接CRF的高效推断。在神经信息处理系统进展中,第109-117页,2011年。[20] Yann LeCun, YoshuaBengio, and Geoffrey Hinton.深度学习。自然,第521卷,第7553期,第436页,2015年。[21]N. Mayer, E. Ilg, P. Hausser, P. Fischer, D. Cremers, A.Dosovitskiy, and T. Brox.用于视差、光流和场景流估计的卷积网络的大型数据集。在2016年IEEE计算机视觉和模式识别会议(CVPR)上,第4040-4048页。[22] Paul Merrell, Amir Akbarzadeh, Liang Wang, PhilipposMordohai, Jan-Michael Frahm, Ruigang Yang, David Nist´er,and Marc Pollefeys.基于实时可见性的深度图融合。在2007年IEEE第11届国际计算机视觉会议上,第1-8页。IEEE,2007年。[23] J. H. Pang, W. X. Sun,J. S. J. Ren, C. X. Yang, and Q. Yan.级联残差学习:用于立体匹配的两阶段卷积神经网络。在2017年IEEE国际计算机视觉会议工作坊上,第878-886页。[24] Pix4D.可用:https://www.pix4d.com/。[25] G. Riegler, A. O. Ulusoy,and A. Geiger. Octnet:学习高分辨率的深度3D表示。在2017年IEEE计算机视觉和模式识别会议(CVPR)上,第6620-6629页。[26] Olaf Ronneberger,Philipp Fischer, and Thomas Brox. U-net:用于生物医学图像分割的卷积网络。在国际医学图像计算和计算辅助干预会议上,第9351卷,第234-241页,2015年。[27] MathiasRothermel, Konrad Wenzel, Dieter Fritsch, and Nor- bertHaala. Sure:从图像重建的摄影测量表面。在2012年LC3D研讨会上,柏林,第2页,2012年。[28] D. Scharstein and R. Szeliski.密集两帧立体对应算法的分类和评估。国际计算机视觉杂志,第47卷,第1-3期,第7-42页,2002年。[29] Johannes LSch¨onberger, Enliang Zheng, Jan-Michael Frahm, and MarcPollefeys.用于非结构化多视图立体的像素级视图选择。在欧洲计算机视觉会议上,第501
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功