AA-RMVSNet：递归多视点立体网络与自适应聚合

171 浏览量更新于2023-10-13 收藏 2.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6187AA-RMVSNet：自适应聚合递归多视点立体网络Zizhuang Wei，Qingtian Zhu，Chen Min，Yisong Chen and GuopingWang*北京大学{weizizhuang，wgp} @ pku.edu.cn摘要在本文中，我们提出了一种新的递归多视图立体网络的基础上长短期记忆（LSTM）与自适应聚合，即AA-RMVSNet。我们首先引入了一个视图内聚合模块，通过使用上下文感知卷积和多尺度聚合，有效地提高了具有挑战性的区域，如薄的物体和大型低纹理表面的性能，自适应地提取图像特征。为了克服复杂场景中变化遮挡的困难，我们提出了一个视图间成本体积聚合模块，用于自适应像素视图聚合，该模块能够在所有视图之间保留更好的匹配对。提出的两个自适应聚合模块是轻量级的，有效的和互补的，关于提高三维重建的准确性和完整性。相反在传统的3D CNN中，我们利用具有递归结构的混合网络进行成本体积正则化，这允许高分辨率重建和更精细的假想平面扫描。所提出的网络是端到端训练的，在各种数据集上都取得了优异的性能。它在所有提交的 Tanks 和Temples基准测试中排名第一，并在DTU数据集上取得了有竞争力的结果，表现出很强的泛化能力和鲁棒性。我们的方法的实现可在https://github.com/QT-Zhu/AA-RMVSNet获得。1. 介绍多视点立体（Multi-view stereo，MVS）是从多幅图像中获取真实世界场景的三维密集模型，是虚拟现实、自动驾驶、文物保护等领域的核心技术之一虽然传统的MVS方法[5，9，10，26，4]使用手工制作的匹配度量来测量多视图一致性，但最近的基于深度学习的方法[33，34，36]使用了基于深度学习的方法[33，36]来测量多视图一致性。21，37，31]实现卓越的准确性和完整性在许多MVS基准测试中[3，16，35，27]与*通讯作者。(a)（b）第（1）款(c)（d）其他事项图1. 使用所提出的AA-RMVSNet在DTU数据集[3]中对Scan77进行多视图3D重建的图示。(a)参考图像;（b）在我们的视图内AA方法中的自适应采样位置;（c）在滤波之后由AA-RMVSNet估计的深度图;（d）恢复的致密3D模型。通过引入卷积神经网络（CNN），其使得特征提取和成本体积正则化更强大。然而，为了进一步提高重建质量，仍有一些具有挑战性的问题需要解决首先，由2D CNN在具有固定感受野的规则像素网格中提取的一般特征通常难以处理薄结构或无纹理表面，这限制了3D重建的鲁棒性和完整性。最近基于MVSNet的尝试[36，31，32]引入多尺度信息以改进深度估计。然而，上下文感知功能还没有充分利用不同区域的纹理丰富度其次，在多视图匹配成本聚合过程中，很少有工作考虑像素可见性问题，这不可避免地恶化了最终重建质量，特别是在严重遮挡的情况下。为了为每个像素选择良好捕获的视图， Vis-MVSNet [37]用途6188成对匹配不确定性作为加权指导，以衰减难以匹配的像素。PVA-MVSNet [36]包含基于CNN的逐体素视图聚集模块，以引导多个成本体积聚集。然而，在一般情况下，很难给出一个完美的解决方案的遮挡问题。而且，为了满足各种真实世界应用的需要，存储器消耗对于可扩展的MVS算法也是必不可少的。代替使用3D CNN，一些最近的方法[34，31]将递归卷积结构应用于成本体积正则化，这对于重建具有宽深度范围的场景是有效和高效的为了解决上述问题，我们因此提出了一种新颖的基于长短期记忆（LSTM）的递归多视图立体网络，其具有视图内和视图间自适应聚合模块，即 AA-RMVSNet。视图内方案被设计用于鲁棒的特征提取，其中上下文感知特征针对具有不同纹理丰富度的多个尺度和区域自适应地聚合;在多视图成本体积聚集步骤中使用视图间方案，其目的是通过在良好匹配的视图对上分配较高的权重来克服在复杂场景中改变遮挡的困难。因此，所提出的网络能够获得准确和完整的深度图，以进一步生成高质量的密集点云，如图1B所示。1.一、本工作的主要贡献如下：• 我们引入了一个视图内特征聚合模块，通过使用可变形卷积和多尺度聚合自适应地提取图像特征。• 我们提出了一个视图间成本量聚合模块，通过为每个视图生成像素级注意力图来自适应地聚合不同视图的成本量。• 我们的方法排名1日在所有提交的坦克和寺庙在线基准，并获得了竞争力的结果DTU数据集。2. 相关工作2.1. 传统MVS根据输出场景表示，传统的MVS重建方法可以分为三类：[18，28]、基于点的[19，9]和深度-[5，10，26，29] 体积法首先将整个三维空间离散成规则的立方体，然后用光度一致性度量来判断空间离散化是内存密集的，因此这些方法不能扩展到大规模场景。基于点的方法集中于3D点，通常从匹配的关键点的稀疏集合开始，并且采用传播策略使重构过程逐渐致密化，限制了并行数据处理的能力相比之下，基于深度的方法在场景的三维几何建模中显示出更大的灵活性。它将MVS重建减少为相对较小的透视深度图估计问题，并且可以进一步融合到点云[22]或体积重建[23]。已经提出了许多成功的产生深度图的传统MVS算法。 Schoünbe r ger等目前的COLMAP [26]，它使用手工制作的功能，并联合估计逐像素视图选择，深度图和表面法线，以利用光度和几何先验。Xu等提出了具有多尺度几何一致性、自适应棋盘采样和多假设联合视图选择的ACMM [29尽管传统的MVS方法产生令人印象深刻的结果，但是它们利用不适合于非朗伯表面、低纹理和无纹理区域的手工制作的特征，在这些区域中，光度一致性是不可靠的。2.2. 基于学习的MVS最近关于MVS的研究应用了深度学习，而不是使用传统的手工制作的图像特征，以获得更好的重建准确性和完整性。首先提出了体积方法SurfaceNet [12]和LSM [13]。他们使用多视图图像构建成本体积，并使用3D CNN来正则化和推断体素。然而，SurfaceNet和LSM仅限于小规模的重建，由于体积- ric表示的共同缺点与 SurfaceNet 和 LSM 相比，基于深度的方法MVSNet [33]大大改善了MVS重建性能MVSNet将一个参考图像和若干源图像作为输入并提取深度图像特征，然后在网络中编码相机几何形状以经由可微分同质性构建3D成本体积为了减少MVS-Net的巨大内存消耗，最近已经提出了MVSNet的一些变体，并且可以分为：多阶段方法和递归方法。多阶段方法，如CasMVSNet [11]，CVP-MVSNet [32]，UCS-Net [7]，Vis-MVSNet [37]，使用从粗到精策略首先预测具有大深度间隔的低分辨率深度图，并迭代地上采样和细化具有窄深度范围的深度图。虽然粗到细架构成功地减少了存储器消耗，但是它们不适合于高分辨率深度重建，因为粗阶段的深度预测可能在大深度间隔的情况下是错误的。为此，提出了诸如R-MVSNet [34]和D2HC-RMVSNet [31]的递归方法。他们使用递归网络沿着深度维度顺序地正则化成本图，以避免使用内存密集型3D CNN;因此，它们可以推断非常大的深度范围内的深度图。R-MVSNet按顺序规范成本量61892srci××−× ××××−−我srcii refref预测深度地面实况来源影像1源图像2参考图像|特征提取|成本量建筑| 成本量规范化|回归&损失计算|图2.AA-RMVSNet的总体架构由4个阶段组成视图内AA模块旨在聚合具有不同纹理丰富度的多个尺度和区域的上下文感知视图间AA模块通过为每个视图产生像素级注意力图来自适应地聚合不同视图的成本量。采用RNN-CNN混合网络以经常性的逐片模式来正则化成本量。最后，交叉熵像素级分类采用计算损失的反向传播。使用卷积门控递归单元（GRU）的迭代方式 D2HC-RMVSNet 通过更强大的递归卷积单元、ConvLSTMCells 和动态一致性检查策略改进了 R-MVSNet。摄影学H（d）=dKiTiT−1K−1，（1）尽管取得了有希望的结果，但大多数上述基于学习的MVS方法在处理MVS中的挑战性区域和严重遮挡问题时仍然存在其中T和K分别表示相机外函数和相机内函数。然后，按视图成本量的计算方法为c（d）=（f（d）-fref），（2）其中f（d）表示第i个源3. 方法我们的AA-RMVSNet的整体架构遵循基于学习的MVS流水线的典型模式，如图所示。二、输入图像被分成1幅参考图像和N1 幅源图像。所有N幅图像的图像特征（H W F）由具有共享权重的编码器提取，并且通过将源图像的特征扭曲到参考相机平截头体来经由可微单应性构造3D成本体积（H W D F）然后，将成本体积正则化以获得生成深度图的预测的概率体积H W D对所有图像的特征图进行滤波和融合，得到场景的稠密点云。特别地，对于AA-RMVSNet，通过将Nl个扭曲的源图像和具有D个深度假设的参考图像的特征进行匹配来计算每视图匹配成本体积。在深度假设为d的情况下，参考图像和第i个源图像之间的逐像素映射关系由可微矩阵来描述并且f_ref表示参考图像的特征。将所有N1个成本体积聚合，然后通过混合神经网络进行成本体积正则化，以获得深度图和相应的概率分布。AA-RMVSNet进一步通过在两个阶段利用自适应聚合的思想来改进流水线3.1）和视图间自适应聚合（视图间AA）以成本体积构建（第3.1节）。3.2）。此外，RNN-CNN混合神经网络（Sec. 3.3），这是内存有效的和对变化的场景是鲁棒的，被用来提交成本体积正则化循环。3.1. 视图内自适应聚合如前所述，3D成本卷是通过匹配2D特征图来构建的，因此提取可识别和可靠的特征在MVS中具有重要意义。至于3D重建，普遍公认的是，反射表面和低纹理或无纹理区域是三维重建的重要组成部分。DRNN-CNN混合网络argmax独热DsoftmaxLCE共享权重概率体积D可微单应性LSTM连接cn 1G$CC$C1视图间AA...视图内AA视图内AA视图内AA......6190×N−1··×−2× ××244K××K图3. 视图内AA模块。所有卷积核都是33. 编码器处的特征通道（白色）是8、16、16、16、16。将多尺度特征映射分别送入三个参数不共享的可变形卷积中。通过双线性插值和拼接，构造了H × W ×（16 + 8 + 8）常见的CNN处理的主要困难是在具有固定感受野的规则2D网格上操作。对于那些通常缺乏纹理的具有挑战性的区域，我们期望卷积的感受野更大，而较小的感受野有利于具有丰富纹理的区域。我们引入如图1B所3用于自适应聚合dif的特征图4.视图间AA模块。对于H × W ×32的输入成本量，下面的中间信道号是4、4、4、1。在用H × W ×1注意力地图重新加权后，所有成本量相加并除以N-1。具有同等重要性。然而，这是不够合理的，因为改变拍摄角度可能导致诸如遮挡和非朗伯表面的不同照明条件的问题，这使得深度估计更加困难。因此，如图所示。4、设计了一个视图间AA模块来处理不可靠匹配代价，定义为C（d）=1Σ[1+ω（c（d））]⊙c（d），（4）不同的规模和地区，具有不同的丰富的纹理。在视图内AA模块中，使用了不同图像的3个特征图。N−1我我i=1空间尺度为H×W×16、H×W×16其中⊙表示Hadamard乘法，ω（·）是和HW16分别由具有排他性参数的3个一步可变形卷积[8，38]可变形卷积的定义被定义为根据每视图成本量自适应地产生的逐像素注意力图。以这种方式，将抑制可能使匹配混淆的像素，而那些可能使匹配混淆的像素将被抑制。f′（p）=ΣwK·f（p+p+ ∆p）·∆m，（3）关键上下文信息将被分配更大的权重1+ω（）比ω（）更好地防止过度平滑一个人其中，f（p）表示特征值像素p; wk和pk表示在公共卷积运算中定义的核参数和固定偏移; Δpk和Δm k是由可变形卷积的可学习子网络自适应产生的偏移和调制权重。通过对H-W上的小特征映射进行插值，得到了16、8、8通道的3个特征映射，并将这些特征连接起来，构造了一个H×W×32的特征映射。3.2. 视图间自适应聚合在构建了每个视图的成本量之后，下一步是将所有成本量聚合成一个以进行规则化。一种常见的做法是平均N1个成本卷，其基本原则是所有视图都应该3.3. 经常性费用正规化代价正则化是利用空间上下文信息并将匹配代价转换为D深度假设的概率分布。正则化网络采用RNN-CNN混合方式，其中成本体积（HWD32）在维度D处被切片。作为示于图2、特征在正则化网络中的传递既有水平方向又有垂直方向。水平地，3D成本体积的每个切片由具有编码器-解码器架构的CNN正则化 ; 在垂直方向上，存在 5 个并行 RNN 以将前ConvLSTMCell的中间输出递送到后ConvLSTMCell。考虑深度假设d的成本体积切片由第j个卷积层处理，表示为×2×4C×2×2双线性插值×4×4双线性插值c（d产品介绍1A、C（d）3×3转换1×1转换c（d产品介绍）×Hadamard乘法+矩阵加法一算术平均.........convKK6191j−1JJJΣΣJJv（d），具有深度假设d-1的该层的输出为v（d-1）和存储器保持（或隐藏状态）为m（d-1），J JConvLSTMCell内的操作如下。首先，v（d）j−1 和v（d-1）是级联的，并且在被通过卷积层处理，张量从特征维度被分成4个张量，即w、x、y和z。LSTM单元内的4个信号被定义为i=σ(w)o=σ（y）(a) 参考图像(b) MVSNetf=σ（x）g=tanh(z)（五）其中所有信号在空间中是二维的，并且Sigmoid函数σ（·）和双曲正切函数tanh（·）是(c) D2HC-RMVSNet(d) AA-RMVSNet所有元素的操作。那么LSTM的内存是更新m（d）=m（d−1）<$f+i<$g，（6）图5.DTU评估集中扫描13的深度图估计的比较[3]。与[ 33，31 ]相比，我们的AA-RMVSNet而单元的输出是v（d）=o ⊙ tanh（m（d））.（七）3.4. 损失函数由于成本体积正则化将匹配成本变成深度假设的逐像素概率分布，因此深度估计的任务现在类似于逐像素分类问题。因此，通过使用one-hot模式对地面实况进行编码，我们采用交叉熵来计算训练损失，定义为dD−1L= −G（d）（p）log[P（d）（p）]，（8）p∈{pv}d=d0其中，G（d）（p）和P（d）（p）表示像素p处的深度假设d的真实概率和预测概率。{pv}是具有可靠深度的有效像素的集合4. 实验4.1. 数据集DTU数据集DTU数据集[3]是在具有固定相机轨迹的良好控制的实验室条件下收集的室内MVS数据集。它包含128个扫描，在7种不同的照明条件下有49个视图，并分为79个训练扫描，18个验证扫描和22个评估扫描。通过将每个图像设置为参考，总共有27097个训练样本。按照常见的配置，我们应用DTU数据集进行网络训练和评估。6192BlendedMVS数据集BlendedMVS数据集[35]是最近发布的用于多视图立体训练的大规模合成数据集，该数据集由超过17k张高分辨率图像组成，分为106个训练场景和7个验证场景。但是，该数据集没有正式提供评估工具，因此我们利用BlendedMVS数据集进行网络微调和定性评估。Tanks and Temples benchmarkTanks and Temples [16]是在更复杂的真实场景中捕获的大规模户外基准测试。它包含一个中级集和一个高级集。具体地，中间集合具有八个场景：家庭，弗朗西斯，马，灯塔，M60，潘- ther，游乐场和火车。不同的场景有不同的尺度、表面反射和曝光条件。通过将重建的点云上传到其官方网站[2]，在线完成坦克和寺庙基准的评估。到目前为止，已经有数百个坦克和寺庙排行榜上的提交，包括几乎所有最近的最先进的方法。4.2. 实现细节训练我们在由79个不同场景组成的DTU训练集[3]由于DTU数据集仅提供激光地面实况点云，为了获得用于网络训练的地面实况深度图，我们遵循先前的MVS方法[33，34，37，11]以通过筛选泊松表面重建算法[14]和深度渲染来生成粗略的地面实况深度图在此之后，我们通过以下方式来提高原始深度图的可靠性6193××××××(a) 参考图像（b）MVSNet（c）PVA-MVSNet（d）R-MVSNet（e）D2HC-RMVSNet（f）我们的图6. 与DTU数据集中扫描33和扫描13的[33，36，34，31]进行定性比较[3]。我们的方法提供了更完整的三维密集点云与细节保留。方法Acc.（毫米）Comp.（毫米）总体（mm）福鲁[9]0.6130.9410.777吉普马[10]0.2830.8730.578COLMAP [26]0.4000.6640.532MVSNet [33]0.3960.5270.462R-MVSNet [34]0.3850.4590.422P-MVSNet [20]0.4060.4340.420PointMVSNet [6]0.3610.4210.391D2HC-RMVSNet [31]0.3950.3780.386PointMVSNet [6]0.3420.4110.376Vis-MVSNet [37]0.3690.3610.365CasMVSNet [11]0.3250.3850.355CVP-MVSNet [32]0.2960.4060.351AA-RMVSNet0.3760.3390.357表1. DTU评价集[3]的定量结果（越低越好）。我们的方法AA-RMVSNet具有竞争力的整体得分相比，其他国家的最先进的方法。特别是，我们的方法优于所有提到的方法的完整性。与它们的相邻视图交叉滤波，这类似于[21]。我们将原始图像调整为W的大小H= 160128，其等于经细化的地面实况深度图的分辨率。输入图像的数量被设置为N= 7，而深度假设的数量被设置为D= 192，其从425mm到935mm均匀采样。我们通过PyTorch [24]实现了我们的AA-RMVSNet，并使用Adam [15]以0.001的初始学习率训练了所提出的网络端到端，整个训练阶段需要20.16GB内存，大约需要3天时间。在4个NVIDIA TITAN RTX GPU上，批处理大小设置为4。测试由于训练阶段需要额外的存储器来保存用于反向传播的中间梯度，因此测试-AA-RMVSNet的扫描阶段是相对存储器高效的，使得它可以处理更高分辨率的图像和更精细的深度平面扫描。我们在测试阶段设置N= 7和D= 512以获得具有更精细细节的深度图。为了适应网络，输入图像的高度和宽度必须是8的倍数。我们使用800 - 600分辨率的DTU评价的输入图像。在BlendedMVS上进行测试之前，我们在BlendedMVS的训练集上微调了我们的网络，以提高各种场景的性能。我们测试我们的网络上的验证集混合MVS使用原始图像的768 - 576与逆深度设置。对于坦克和寺庙的基准测试，我们应用COLMAP-SfM [25]来估计深度范围和相机参数。与[33，34，36，31，11]中的图像裁剪方法不同，我们调整图像大小并将图像填充到大小的1024 544或960 544来适应我们的网络，因此以这种方式保留了图像边界附近的上下文信息。与先前的MVS方法[33，34，36，11，21]类似，我们引入了用于深度图滤波的光度和光度约束测量多视图匹配质量，其中具有低置信度值的深度被认为是异常值。在我们的实验中，我们丢弃估计深度的概率低于0.3的像素。几何约束测量多视图深度一致性，其中与其相邻视图不一致的深度也应被丢弃。我们遵循[31]中提出的动态几何一致性检查方法来交叉过滤原始深度图。在此之后，我们利用[22]提出的基于可见性的深度融合方法与平均值融合方法[33]来产生最终的3D点云。6194表2. 坦克和寺庙的基准测试结果[16]。评价指标是平均F分数（越高越好）。AA-RMVSNet以显著的优势优于所有现有的MVS方法，并在坦克和寺庙排行榜上排名第一。15，2021）。排名是表示所有8个场景的平均排名的度量，并且是最终排名的基础。图7. 与R-MVSNet [34]相比，根据相应的地面实况点云计算的坦克和寺庙基准[164.3. 实验结果DTU数据集上的结果我们首先在DTU评估集上评估AA-RMVSNet [3]。扫描13与[33，31]的深度比较如图所示。五、得益于整合了多尺度和上下文感知特征的视图内AA模块，我们的方法能够估计纸盒的低纹理表面的更完整和连续的深度。与其他方法比较的一些定性结果如图所示。六、由于在深度图估计的改进方面，该方法得到了更完整的三维密集点云，具有细节reserved. 整个DTU评价集的定量结果1，其中准确度和完整性是由官方MATLAB评估代码[3]计算的两个绝对距离。总体是两个度量的平均值。与先进的方法相比，我们的方法取得了最好的完整性和竞争力的整体性能。通过与两个递归MVS网络R-MVSNet和D2HC-RMVSNet的比较，我们的方法在DTU数据集上显著提高了准确性和完整性R-MVSNetAA-RMVSNet方法秩是说家庭弗朗西斯马L.H.M60黑豹P.G.火车CIDER [30]95.0046.7656.7932.3929.8954.6753.4653.5150.4842.85Point-MVSNet [6]93.8848.2761.7941.1534.2050.7951.9750.8552.3843.06密集R-MVSNet [34]83.5050.5573.0154.4643.4243.8846.8046.6950.8745.25PVA-MVSNet [36]56.6254.4669.3646.8046.0155.7457.2354.7556.7049.06CVP-MVSNet [32]55.1254.0376.5047.7436.3455.1257.2854.2857.4347.54P-MVSNet [20]43.1255.6270.0444.6440.2265.2055.0855.1760.3754.29CasMVSNet [11]40.3856.8476.3758.4546.2655.8156.1154.0658.1849.51ACMM [29]34.2557.2769.2451.4546.9763.2055.0757.6460.0854.48DeepC-MVS [7]24.6259.7971.9154.0842.2966.5455.7767.4760.4759.832019年香港科技大学[1]24.0059.0377.1961.5242.0963.5059.3658.2057.0553.30AttMVS [21]19.0060.0573.9062.5844.0864.8856.0859.3963.4256.06D2HC-RMVSNet [31]18.3859.2074.6956.0449.4260.0859.8159.6160.0453.92Vis-MVSNet [37]15.3860.0377.4060.2347.0763.4462.2157.2860.5452.07AA-RMVSNet6.3861.5177.7759.5351.5364.0264.0559.4760.8554.906195基线+视图内AA+视图间AA充分×型号Acc.Comp.O.A. （mm）Mem.（GB）7基线0.408 0.374 0.3912.41+视图内AA 0.396 0.346 0.371 4.15+视图间AA 0.377 0.363 0.370 2.526满0.376 0.339 0.3574.25MVSNet [33] 0.396 0.527 0.462 15.4R-M VSNet [34] 0.385 0.459 0.422 6.75表3。DTU评估数据集上不同组件的定量和记忆性能[3]。431 2 3 4 5 6 7 8历元数图8. 训练期间不同网络架构的平均深度误差的验证结果为了评估我们的方法在复杂的户外场景下的性能，我们在坦克和寺庙基准上测试我们的方法，如表1所示。二、我们提出的AA-RMVSNet优于所有现有的MVS方法，具有显着的利润率，并在坦克和寺庙排行榜上排名第一（ 3 月 24 日）。 15 ， 2021 ），平均F 评分为61.51。与DTU数据集上的CasMVSNet和CVP-MVSNet等最新方法相比，该方法具有更强的鲁棒性和泛化能力。图7可视化了根据对应的地面实况点云计算的误差图。与原始的递归MVS网络R-MVSNet相比，我们的方法显着提高了整体重建质量，特别是在具有挑战性的区域，如低纹理平面，遮挡区域和薄对象，这得益于我们强大的特征提取和视图聚集方法。BlendedMVS数据集上的结果为了进一步证明我们方法的通用性和可扩展性，我们还在BlendedMVS验证集上对其进行了测试[35]。我们的方法成功地重建整个大范围的空中场景，以及小的目标。请检查附录中的结果。4.4. 消融研究在本节中，我们提供消融实验来定量分析每种自适应聚合方法的有效性和内存开销使用与Sec相同的参数对DTU数据集进行以下消融研究。四点二。我们比较了四种不同的网络架构或没有提出的自适应聚合模块。Baseline应用通用2D CNN进行特征提取，并应用相同的混合LSTM结构进行成本体积正则化，而无需任何额外的模块。在训练期间具有不同分量的平均深度误差的验证结果如图所示8. 很明显，每个单独的模块可以显著降低深度误差，并且两个模块在完全AA-RMVSNet中是互补的，以实现最佳性能。我们还测试了由不同网络模型生成的点云结果，如表1所示3 .第三章。视图内AA和视图间AA都可以提高3D重建结果的准确性和具体而言，视图内AA需要大约1.74GB的额外内存，并将完整性提高了0.28，而视图间AA仅需要额外的成本0.11 GB，精度提高0.31。两个模块的总误差从0.391下降到0.357全AA-RMVSNet只需要4.25GB，以获得密集和准确的深度图与800 - 600的分辨率，表明我们的方法是相当内存效率。关于不同实验设置的消融研究，详细结果请参见附录。5. 结论提出了一种新的具有自适应聚合模块的递归多视点立体网络，表示为AA-RMVSNet。视图内特征聚合模块通过自适应地集成多尺度和上下文感知特征，有效地提高了在薄物体和大的低纹理表面上的性能视图间成本体积聚合模块通过自适应逐像素视图聚合成功地处理了复杂场景中的变化遮挡问题。这两个模块是轻量级的，有效的和互补的。因此，我们的方法在DTU数据集上取得了有竞争力的结果，并且在Tanks和Temples基准测试中以显着的优势超过了其他提交的结果，显示出很好的推广性和可扩展性。确认本研究得到国家重大技术研究发展计划项目资助，资助号：2017 YFB 1002601;国家自然科学基金，批准号61632003;北大-百度基金，批准号2019 BD 007。深度误差（mm）6196引用[1] 阿尔蒂祖雷https://github.com/altizure网站。7[2] 坦克和寺庙基准。网址：//www.tanksandtemples.org网站。5[3] Henrik Aanæs ， Rasmus Ramsbøl Jensen ， GeorgeVogiatzis，Engin Tola，and Anders Bjorholm Dahl.多视点立体视觉的大规模数据 International Journal ofComputer Vision，120（2 ）：153-168，2016。一、五、六、七、八[4] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing.ACM Trans.Graph. ，28（3）：24，2009. 1[5] NeillDFCampbell，Geor geVogiatzis，CarlosHerna'ndez，and Roberto Cipolla.使用多个假设来改进多视图立体的深度图。欧洲计算机视觉会议，第 766-779 页。Springer，2008. 一、二[6] 陈睿，韩松芳，许静，苏浩。基于点的多视点立体网络。在IEEE/CVF计算机视觉国际会议论文集，第1538-1547页六、七[7] Shuo Cheng，Zexiang Xu，Shilin Zhu，Zhuwen Li，LiErran Li，Ravi Ramamoorthi，and Hao Su.使用具有不确定性意识的自适应薄体积表示的深度立体声在IEEE/CVF计算机视觉和模式识别会议论文集，第2524-2534页，2020年。2[8] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页，2017年。4[9] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。IEEE Transactions on pattern analysis and machineintelligence，32（8）：1362-1376，2009. 一、二、六[10] 加利亚尼，拉辛格，辛德勒。表面法向扩散的大规模平行多视点立体视觉。在 Proceedings of the IEEEInternational Conference on Computer Vision，第873-881页，2015中。一、二、六[11] Xiaodong Gu，Zhiwen Fan，Siyu Zhu，Zuozhuo Dai，Feitong Tan，and Ping Tan.级联成本体积高分辨率多视图立体和立体匹配。在IEEE/CVF计算机视觉和模式识别会议论文集，第2495-2504页，2020年。二五六七[12] Mengqi Ji，Juergen Gall，Haitian Zheng，Yebin Liu，and Lu Fang. Surfacenet ： An end-to-end 3d neuralnetwork for multi-view stereopsis.在IEEE计算机视觉国际会议论文集，第2307-2315页，2017年。2[13] Abhi s hekKa r，ChristianHaíne，andJitendraMalik. 学习多视角立体机。在NIPS，2017年。2[14] Michael Kazhdan和Hugues Hoppe筛选泊松曲面重建。ACM Transactions on Graphics（ToG），32（3）：1-13，2013. 5[15] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2014年国际学习表征会议（ICLR）。6[16] Arno Knapitsch，Jaesik Park，Qian-Yi Zhou，and VladlenKoltun.坦克和寺庙：对标大规模6197场景重建ACM Transactions on Graphics（ToG），36（4）：1-13，2017。一、五、七[17] Andreas Kuhn ， Christian Sormann ， Mattia Rossi ，Oliver Erdler，and Friedrich Fraundorfer. Deepc-mvs：用于多视图立体重建的深度置信度预测。2020年3D视觉国际会议（3DV），第404-413页。IEEE，2020年。7[18] Kiriakos N Kutulakos和Steven M Seitz。空间雕刻造型理论国际计算机视觉杂志， 38 （3 ）： 199-218，2000。2[19] Maxime Lhuillier和Long Quan从未校准图像重建表面的准稠密方法。IEEE Transactions on Pattern Analysis andMachine Intelligence，27（3）：418-433，2005。2[20] Keyang Luo，Tao Guan，Lili Ju，Haipeng Huang，andYawei Luo.P-mvsnet：学习多视图立体的逐块匹配置信度聚合。在IEEE/CVF计算机视觉国际会议论文集，第10452-10461页，2019年。六、七[21] Keyang Luo ， Tao Guan ， Lili Ju ， Yuesong Wang ，Zhuo Chen，and Yawei Luo.注意力感知多视图立体声。在IEEE/CVF计算机视觉和模式识别会议的论文集，第1590-1599页，2020年。一、六、七[22] Paul Merrell 、 Amir Akbarzadeh 、 Liang Wang 、PhilipposMordohai、Jan-MichaelFrahm、Ruig angYang、Da vi dNiste´ r和Marc Pollefeys。基于可见性的深度图实时融合。2007年IEEE第11届计算机视觉国际会议，第1-8页。IEEE，2007年。二、六[23] RichardANewcombe 、 ShahramIzadi 、 OtmarHilliges 、 David Molyneaux 、 David Kim 、 Andrew JDavison 、 Pushmeet Kohi 、 Jamie Shotton 、 SteveHodges和Andrew Fitzgibbon。运动融合：实时密集表面映射和跟踪。2011年第10届IEEE混合与增强现实国际研讨会，第127-136页。IEEE，2011年。2[24] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan 、 Edward Yang 、 Zachary DeVito 、 ZemingLin、Alban Desmaison、Luca Antiga和Adam Lerer。PyTorch中的自动区分。NeurIPS Autodiff研讨会，2017年。6[25] Johann e sL Schoünbe r ger和Jan-MichaelFrahm。结构-从运动重新审视。在Proceedings of the IEEE conferenceon computer vision and pattern recognition，pages 4104-4113，2016中。6[26] JohannesLSchoünberger ， EnliangZheng ， Jan-MichaelFrahm，and Marc Pollefeys.用于非结构化多视图立体的像素视图选择。欧洲计算机视觉会议，第501-518页。施普林格，2016年。一、二、六[27] ThomasSchops，JohannesLSchoünberger，SilvanoGalliani，Torsten Sattler，Konrad Schindler，MarcPolle

下载后可阅读完整内容，剩余1页未读，立即下载