注意力感知的多视图立体重建方法研究

29 浏览量更新于2023-10-25 收藏 1.92MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1590注意力感知多视图立体罗科扬1，关涛1，3，鞠丽丽2，王跃松1，陈卓1，罗亚伟1*1华中科技大学计算机科学技术学院2南卡罗来纳大学，美国3Farsee2 Technology Ltd，中国{kyluo，qd gt，yuesongw，cz 007，royalvane}@ hust.edu.cn，ju@math.sc.edu摘要多视点立体视觉是计算机视觉中的一项重要任务，它要求输入图像之间具有准确和鲁棒的一致性最近的研究表明，基于学习的特征匹配和置信度正则化可以在这项任务中发挥至关重要的作用。然而，如何设计良好的匹配置信度以及有效的正则化器仍在深入研究中。在本文中，我们提出了一种用于学习多视图立体的注意力感知深度神经网络“AttMVS”。特别是，我们提出了一种新的注意力增强匹配置信度体积，它结合了原始像素匹配置信度从提取的感知特征与上下文信息的本地场景，以提高匹配的鲁棒性。此外，我们还提出了一个注意力引导的正则化模型，该模型由多层次射线融合模块组成，用于将匹配置信度体高度聚集和正则化为潜在深度概率体。实验结果表明，我们的方法实现了最好的整体性能的DTU数据集和中间序列的坦克寺庙基准超过许多国家的最先进的MVS算法。1. 介绍多视点立体（MVS）是计算机视觉中的一个关键技术，其目的是从一组标定的二维图像和估计的摄像机参数中恢复出三维场景表面。随着卷积神经网络（CNN）在各种视觉任务（如语义分割[27，26]，光流估计[14]和立体匹配[6]）中的巨大成功，已经引入了基于学习的MVS方法[16，41，25]来提高重建3D模型的质量。基于学习的MVS方法的一个显著特点是，它们利用相应的向量值光一致性度量，*通讯作者。(a)（b）第（1）款(c)（d）其他事项图1：来自坦克和寺庙数据集的家庭场景的多视图3D重建[20]。(a)参考图像;（c）基于（b）的改进的深度图;（d）恢复的3D模型。像素之间的输入图像，而传统的MVS方法通常是基于标量值的度量，如零归一化互相关（ZNCC）[9]。向量值度量可以为重建高质量的三维模型提供更丰富的匹配信息，但如何充分利用从图像中学习到的感知特征来构建良好的匹配置信体积（MCV）是基于学习的MVS方法面临的主要问题之一。MVSNet [41]和P-MVSNet [25]使用纯照片一致性信息来生成MCV。然而，来自不同通道的特征匹配结果通常不具有相同的重要性，因为捕获的场景在通道之间可能显著不同。受注意机制在自然语言处理[36]和视觉任务[12，8]中取得巨大成功这一事实的启发，在这项工作中，我们结合照片一致性信息和局部场景的上下文信息来构建注意增强的MCV，其中自适应地调整来自不同通道的匹配信息的重要性。基于学习的MVS方法面临的另一个主要问题是如何有效地聚集和正则化1591- 将置信度体积匹配到潜在深度概率体积（LPV）中，然后可以通过一些回归或多类分类技术从潜在深度概率体积推断深度/视差图。受[44]的启发，我们设计了一种新的注意力引导模块，通过自上而下/自下而上的方式分层聚合和正则化匹配置信体积，以实现深度正则化。训练数据的质量在基于学习的MVS方法中也起着关键作用。高质量的数据不仅可以帮助目标网络快速准确地学习，而且可以在验证阶段更好地反映训练后网络的性能。[41]中引入的用于训练MVS网络的多视图地面实况深度图已被广泛使用，但它们仍然包含相当多的错误标记像素，这可能会对训练和验证造成一些不必要的影响。为了避免这个问题，我们结合了筛选泊松表面重建方法[18]和基于概率的表面重建方法[37]，以提高解释性地面实况深度图的质量。本文的主要贡献总结如下：• 我们设计了一个注意力增强的匹配置信度，它同时考虑到感知信息和上下文信息的本地场景，以提高匹配的鲁棒性。• 我们提出了一种新的注意力引导正则化模块，用于以自顶向下/自底向上的方式分层聚集和正则化匹配置信度。• 我们开发了一种简单但有效的过滤策略，以提高网络训练的多视图地面实况深度图的质量。• 我们的方法实现了最佳的整体性能的DTU基准和中间序列的坦克寺庙基准超过许多国家的最先进的MVS方法。2. 相关工作常规MVS常规MVS方法在几个最近引入的MVS基准测试中实现了预测深度图的优异性能[2，20，33]。所有这些都依赖于PatchMatch算法[4]来搜索图像之间的近似像素对应关系Galliani等人 [11]引入了一种GPU友好的PatchMatch传播模式，以充分释放GPU的并行化能力。Zheng等人[ 46 ]不是基于图像级视图选择来计算匹配置信度，而是通过概率框架工作联合优化像素级视图选择和深度估计，Schoünbe r ger等人[ 46 ]通过概率框架工作联合优化像素级视图选择和深度估计。[32]进一步扩展该算法以联合地推断逐像素深度和法线。基于在[11，32]中，Xu和Tao [40]提出了一种由多尺度几何约束指导的更有效的传播算法，并联合考虑了视图和深度假设。Romanoni等人。 [30]结合分段平面假设和基于EM的模型[32]来估计弱纹理平面区域的深度这些尝试极大地促进了传统MVS重建算法的发展，但如何将其扩展到管理弱纹理、镜面反射和反应区域仍然是一个具有挑战性的问题。基于学习的MVS基于学习的MVS方法基本上可以分为基于体素的方法或基于深度图的方法。基于体素的算法首先计算包含目标对象或场景的包围盒，然后将包围盒划分到三维体积空间中，最后估计每个体素是否属于场景表面。 SurfaceNet [16]和LSM [17]使用通用的三维CNN，而RayNet [29]依赖于展开的马尔可夫随机场来估计表面。这些体积方法通常不适用于大规模重建。基于深度图的方法利用平面扫描立体算法来构造匹配置信体，该置信体表示来自参考图像和源图像的照片一致性信息。MVSNet [41]和R-MVSNet [42]使用基于像素方差的度量来计算提取的感知特征的多视图照片一致性，而P-MVSNet [25]利用置信度度量并学习将其聚合到逐块匹配置信度体积中。为了将匹配置信体积正则化为潜在深度概率分布体积，MVSNet[41]使用通用三维U-Net，R-MVSNet [42]采用递归神经网络来经济化内存使用，P-MVSNet [25]设计了混合三维U-Net以考虑匹配置信体积的各向异性。此外，DeepMVS [13]将深度计算公式化为多类分类问题，Chen等人 [7]引入了基于点的架构来解决这个问题。基于注意力的网络除了自然语言处理[36]，注意力机制在许多视觉问题中得到了广泛的探索，包括场景分割[8，45，43]，全景分割[22]和图像分类[38]。特别是，SENet [12]通过注意力和门控机制自适应地重新调整通道特征响应。基于这种通道式注意力机制，Zhang等人。 [45]引入了上下文编码模块来改进特征表示并选择性地突出类相关特征图Yu等人。 [43]提出了一种平滑网络，以增强类内一致性并选择更具鉴别力的特征。1592我v21v12我k=1（vv）图2：用于多视图深度图估计的所提出的AttMVS的架构。主要组成部分包括：（a）特征提取器：从输入图像中提取感知特征;（b）注意力增强置信度：构造注意力增强匹配置信度，以实现鲁棒和准确的匹配;（c）注意力引导的正则化：基于专门设计的射线融合模块（RFM）对匹配置信体进行分层聚集和正则化;（d）深度回归：估计深度使用3D卷积从正则化置信体积映射。这里，“”表示通道乘法，“”表示通道乘法。单应性扭曲和原始逐像素置信度匹配，R′和R是未正则化和正则化的匹配置信度分别位于第i层的3. 我们的方法所提出的用于多视图深度图估计的AttMVS的架构在图2中示出。我们的网络首先使用编码器网络从输入图像中提取感知特征（第3.1节），然后使用它们来构建注意力增强的匹配置信度（第3.2节）。接下来，它通过注意力引导的分层正则化模块（第3.3节）正则化匹配置信体积，然后进行深度回归以预测深度图（第3.4节）。3.1. 特征提取器特征提取器旨在从输入图像（参考图像I0和N源）中提取感知此外，原始方法中使用的批规范化[15]和ReLU操作分别被实例规范化[35]和LeakyReLU取代。3.2. 注意力增强匹配置信度据我们所知，在目前基于学习的MVS方法中，仅使用像素级局部感知特征来构造匹配置信度。因此，在该过程中常常忽略场景的总体上下文信息。相比之下，在本文中，我们结合照片的一致性信息和上下文线索的参考和相应的源图像的特征图，以构建一个注意力增强的匹配置信体积。图像{Ik}N尺寸为H×W），将用于首先，对所有提取的图像特征图进行压缩到它们各自的信道描述符{v}N中，学习多视图照片一致性。特性extrac-i0特征网络应该具有足够的容量，这对于获得用于像素级匹配的准确和鲁棒的特征我们使用[25]中提出的特征编码器的基本架构，直到层'conv2 2'，并进行一些修改以在我们的方法中构建图像特征提取器。特别是，我们增加了层“conv0 0”、“conv0 1”和“conv0 2”的通道数量全球平均池化[24]。我们从中计算出局部场景的上下文逐通道统计W/VN2w=i=0i，（1）vN其中v是{vi}N的通道平均值。接下来我们从8到32，并为图层‘conv1最后使用1×1卷积块作为最后一层。因此，我们的特征提取器总共由10层组成，放置一个大小为1H×1W×16的特征映射张量。此外─计算注意力通道加权向量wv，通过挤压和激励块[12]，w=Sigmoid（f（ReLU（f（w，s）），s））（2）4 41593L1L133图3：专门设计的射线融合模块（RFM），包括一个前上下文理解模块，一个射线注意力模块（RAM）和一个后上下文理解模块。在这里，“”表示通道乘法，““表示元素求和，GAP表示全局平均池化。图4：DTU数据集的一些验证场景的平均通道权重分布。图 3 ，其由前上下文理解模块、射线注意模块（RAM）和后上下文理解模块组成。两个上下文理解模块都由三个3D卷积块形成，其中前上下文模块中的第二个块利用增加的通道对匹配置信体积进行下采样，而后上下文模块中的第二个块进行相反的操作。第一层的内存1（l=1，2，3）可以明确地表述为：其中f1（·，·）和f2（·，·）是两个线性变换，R=Re∗ΣOakland，（4）并且S1和S2表示相应的变换Pa。l1l1rl半径。最后，我们得到了注意力增强的匹配-∗其中Re是前语境理解的结果′在第j个采样假设的置信度图Mj深度平面为：ing模块被馈送有Rl1，Rl是水平l上的正则化匹配置信体积，Rl表示逐元素加法。. ，而。射线加权地图wr由wr=M=wMR(3).e.jvjRl1Rl然后，R与Eq相同的计算结构。（二）、是通过后上下文的非-对于j=0，1，· · ·，Z1，其中Z是表示通道方式的乘法，并且Mj表示以[25]中所做的方式生成的原始像素方式的置信度图。在扭曲的特征地图上图4示出了学习的权重的示例，从中可以观察到：i）不同的场景对于某些信道保持区别的权重，而对于其它信道保持类似的权重; ii）对于每个场景，不同的信道具有不同的权重。在计算所有注意力增强匹配置信度图之后，我们将它们沿深度方向堆叠，以产生注意力增强匹配置信度体积M，其将被馈送到正则化模块。3.3. 注意力引导的分层正则化如图2所示，下面描述首先，对M进行编码，分成两个未正则化的匹配置信体积R理解模块以获得正则化匹配置信度体积Rl1。简单RFM是通过移除RAM和从RFM的上采样和下采样操作，但保持从第二层到第五层的残余连接。请注意，它仅用于Level 3将R′正则化为R3，这可以避免训练和评估样本的过度裁剪。3.4. 深度回归和损失函数在获得正则化的R0之后，首先应用三维卷积层以将其编码成深度概率体积V。然后我们使用[41]中介绍的深度回归方法来推断深度图。的每个采样深度d的概率经由Softmax运算σ（·）从V计算。在每个标记像素处的预测深度dmax被计算为：′0Dmax和R1通过两个卷积块，步长为1和2分别类似地，R′然后由下采样生成。d=d×σ（V），（5）′ ′2′d=Dmin从R1和R3中分离出来。因此，我们得到四个水平其中Dmin和Dmax分别表示最小值未正则化匹配置信体积{R′}3.i i=0接下来，分层正则化过程基于多个射线融合模块（RFM）和一个简单RFM从第3级（底层）上的R′该RFM用于第0、1和2级，其结构见以及用于估计的最大深度。我们结合相对深度损失L_depth和梯度间正则化损失L_grad来联合优化：L=L深度+λL梯度，（6）前语境理解射线注意模块后语境理解三维间隙线性ReLU线性乙状1594Σi、ji、ji、j.i、j.+(a) Scan 40(b) Scan 47(c) Scan 56(d) Scan 77(e) Scan 102图5：顶行：来自DTU数据集的参考图像;中间行：由于不正确的遮挡关系而包含许多离群值的原始地面实况深度图;最下面一行：改进的地面实况深度图通过我们的过滤方法。其中λ>0是加权系数。相对深度损失函数定义为：1.好吧通过θ i，j表示与I 0的每个像素（i，j）相关联的正确深度。细化过程可定义为：depth（d，d）=δNd（i，j）.di，j迪，杰。（七）ΣNΣ其中Nd表示标记像素（i，j）的总数，θopt= argminP（k）1 ρk2 、（9）δ=（DmaxDmin）/（Z1）是相同的长度假设的深度平面之间的填充间隔，θi，jk=1地面实况深度为了加强预测深度图和地面实况深度图之间的深度梯度的一致性，梯度间正则化损失被定义为其中ρ k是ZNCC测量，P（k）表示源图像I k对于像素（i，j）的深度细化是最佳的概率，如[46]中所定义的。 P（k）的计算需要θ i ， j，ρ k的计算涉及P（k），1..因此，我们使用GEM算法[46]，其中D0作为初始值我知道好吧grad（d，d）=（i，j）. <$x（di，j）<$x（di，j）.Nx（八）猜测迭代地解决问题（9）。.. 、1 .一、* 本文件迟交。. y（di，j ）、Ny其中Nx表示其沿x方向的相邻像素也被标记的标记像素的数量，是x方向上的对应深度导数，并且Ny和Ny表示沿着y方向的相似信息4. 点云重建在获得所有深度图之后，我们可以直接使用[25]中开发的深度图滤波和融合方法来重建完整的3D点云。另一方面，对于具有大深度范围的高分辨率场景，由于GPU存储器的限制，可能不可能采样足够的假设平面以用于以令人满意的精度估计深度图。为了缓解这个问题，我们建议通过最大化多视图光度一致性与像素级视图选择来进一步细化所产生的深度图。由D0表示预测深度图5. 实验结果5.1.改进地面实况深度图DTU基准测试[2]是一个流行的大规模MVS基准测试，它包含在不同光照条件下捕获的124个不同场景。每次扫描由一个参考点云、49或64个捕获的图像及其相应的相机参数组成。不幸的是，该数据集不能被基于深度图的方法直接用于网络训练，并且需要从所提供的参考点云生成对应的深度图。[41]中提出的方案已被广泛用于此目的。具体来说，对于每次扫描，它首先基于筛选的泊松曲面重建算法[18]产生并修剪网格曲面，然后根据不同视点的相机参数绘制相应的深度图，我们将其视为本文的原始深度图然而，由于不完整的网格信息，原始深度图可能包含许多离群值，1595D表1：DTU确认集上申报AttMVS与不同型号变体的比较结果。模型设置制成Pred. 预处理（τ=δ）Pred. 预处理（τ=3δ）修正fea extr.属性MCV简单RFMRFMs接头损耗基线√2.1483.1195.77a型√√1.9684.5796.25B型√√√1.9184.9896.36型号c√√√√1.8985.6496.45D型√√√√√1.8287.0896.84充分1.7987.6197.04不正确的遮挡关系，这严重阻碍了我们训练高性能网络。为了解决这个问题，我们提出了一种有效的深度过滤方法来提高深度图的质量。首先，对于每次扫描，我们使用类似于[37]的重建系统基于地面实况相机设置来估计网格表面，其产生高度完整的防水网格，但可能不够准确。然后，我们使用与原始深度图相同的渲染过程来渲染基于该网格的可见性深度图。最后，对于原始深度图Dr及其对应的视觉深度图Dv，D最终由下式生成：使用NVIDIA Titan RTX GPU总共完成20个epoch，耗时约4天。5.3.消融研究在本节中，我们进行了消融研究，以验证所提出的AttMVS中的特征提取器、注意力增强匹配置信体积和注意力引导调节模块的性能我们使用的评估标准是平均绝对深度误差（MADE）和预测精度[25]（即，预测深度的绝对误差小于误差阈值τ的像素的数量占地面实况深度图中有效像素的总数的百分比）。.D*=ri，j..Ri、jvi，j..<η，（十）利用原始特征提取器、原始匹配置信体积和i、j否则，通用的3D U-Net正则化器（没有任何注意-机制），并且仅用相对深度损失进行训练其中，η是控制滤波的完整性的阈值。深度图（在所有实验中设定η=5mm）。图5说明了我们的过滤策略在提高地面实况深度图质量方面的有效性。5.2.模型训练所提出的AttMVS在PyTorch中实现，并使用Adamopti- mizer [19]使用DTU数据集进行训练，批量大小等于2。我们参考[41，25]对DTU数据集进行分区。学习率初始化为103，然后以该速率的0。85，我们把它固定为103×0。8510从11日纪每个训练样本由一个参考im-年龄和两个源图像，以及Z=256个正面平行的假设深度平面的集合从D最小值=425mm到D最大值=935mm被均匀地采样。所有图像都被调整大小并裁剪为高度H= 512和宽度W = 640，如[ 41 ]所示。在训练过程中，我们观察到GPU上单应性变换的计算效率非常低。我们还注意到，所有扫描的场景共享相同的相机参数集，并且相机之间的因此，我们提前预先计算所有可能的单应性变换，并在网络训练期间直接使用它们，这将每个小批量的训练时间从1. 八比一。2s（节省约三分之一的训练时间）。整个模型是从头开始训练的，基于基线模型，我们然后开始采用修改的特征提取器，注意力增强匹配置信度，注意力引导正则化模块，最后逐步进行联合损失训练。所有模型变体均使用第5.2节中描述的相同程序进行训练，然后在DTU验证集上进行测试验证样本的设置与训练样本的设置相同。表1中报告了性能结果，其清楚地证明了这些专门设计的组分在我们的方法中的有效性完整的AttMVS模型将平均绝对深度误差从2. 14毫米至1. 79mm，并将τ=δ的预测精度从83. 11%至87。61%，τ=3δ从95. 77%到97。04%。5.4. 与其他方法相比5.4.1在DTU基准我们将比较所提出的AttMVS的性能与许多现有的最先进的方法，包括传统的算法[5，10，34，11]和最近介绍的以学习为基础的方法[41，42，25，7]。该算法首先从DTU评估集中提取每一次扫描的所有图像的深度图，然后融合所有相关的深度图以恢复每一次扫描对应的三维点云。我们采用了普遍使用的三维重建的准确性和完整性，DD1596表2：不同方法对DTU评估场景恢复的三维模型的比较。AttMVS表示通过（9）包含深度图的细化。(a) 参考图像（b）MVSNet点云作为评估措施，并通过MATLAB代码[2]使用默认配置进行评估。定量比较结果如表2所示，这表明AttMVS在完整性方面优于所有比较方法，并且在准确性方面保持相当的竞争力，因此，AttMVS实现了最佳的整体性能。另一个观察结果是，AttMVS重建的质量可以随着假想深度平面的数量的增加而大大提高。此外，我们特别为Z=384的AttMVS的情况添加深度图细化过程（9），并且从表2中发现，这样的细化步骤可以进一步提高重建质量。图6显示了MVSNet [41]、P-MVSNet [25]和我们的AttMVS之间扫描775.4.2在坦克圣殿基准上The Tanks & Temples is a widely used large-scale MVSbenchmark and consists of two sequences: intermediatese-quences and advanced sequences.所有这些都是在不同天气条件下的真实环境中获取的，并且仅提供捕获的图像用于子系统评估。F-score是唯一的评价指标，它综合考虑了重建的准确性和完整性，以全面衡量重建的质量。该数据集用于评估和比较我们的方法的泛化能力。为了进行评估，我们首先基于COLMAP [31]的修订的SfM流水线重新覆盖所提供的图像集的相机姿态和校准参数，并基于SfM结果计算每个参考图像的预测深度范围。接下来，我们使用具有Z=384个均匀采样的hypothe大小的平面的相应参考和源图像来推断每个深度图。最后，我们对推断的深度图进行(c) P-MVSNet（d）AttMVS图6：三维模型的定性比较在DTU基准上扫描返回到输入图像分辨率并通过（9）对其进行细化，然后将它们融合为每个场景的统一点云。请注意，所有序列的坦克寺庙提供了许多图像和重叠的图像是非常大的，因此，我们采用更严格的融合阈值，以抑制可能的离群值比DTU数据集。评估和比较结果在表3（对于中间序列）和表4（对于高级序列）中报告，并且图5直观地示出了某些场景的重构点云据观察，我们的AttMVS在中间序列的所有比较方法中实现了最佳的整体性能（排名和平均值均为第一），具体而言，通过我们的方法重建的Francis、Playground和Train的与一些传统的MVS方法相比，我们的方法在高级序列上的性能仍然具有竞争力，但比在中间序列上的性能要差我们认为主要原因是对于高级序列中的绝大多数图像，感兴趣的深度范围非常大，但由于GPU内存的限制，即使使用了深度图细化，我们的方法也不能采样足够的假设深度平面来保证预测深度图因此，我们的方法更适合于重建的场景与感兴趣的深度范围集中的捕获图像，这也是常见的限制，目前基于学习的MVS算法。6. 结论在本文中，我们提出了一种新的注意力感知MVS网络（AttMVS）的多视图深度图估计。具体地说，提高方法是说精度是说完整性整体吉普马[11]0.2741.1930.734[34]第三十四话0.3431.1900.767Furu [10]0.6120.9390.776营地[5]0.8360.5550.696SurfaceNet [16]0.4501.0430.746MVSNet [41]0.3960.5270.462[42]第四十二话0.3850.4590.422Point-MVSNet [7]0.3420.4110.376P-MVSNet [25]0.4060.4340.420AttMVS（Z=256）0.4120.3940.403AttMVS（Z=384）0.3910.3450.368AttMVS（Z=384）0.3830.3290.3561597表3：各种重建算法在Tanks &Temples基准测试的中间序列上的性能比较。我们的AttMVS在所有提交的作品中排名第一方法秩是说家庭弗朗西斯马灯塔M60黑豹操场火车AttMVS（我们的）2.3860.0573.9062.5844.0864.8856.0859.3963.4256.06香港科技大学-Altizure-HKUST-20194.0059.0377.1961.5242.0963.5059.3658.2057.0553.303Dnovator [1]4.6258.3773.4352.5137.0864.5559.5862.8862.8851.40ACMM [40]6.1257.2769.2451.4546.9763.2055.0757.6460.0854.48[21]第二十一话7.3855.8870.9949.6040.3463.4457.7958.9156.5949.40OpenMVS [28]7.7555.1171.6951.1242.7658.9854.7256.1759.7745.69P-MVSNet [25]7.7555.6270.0444.6440.2265.2055.0855.1760.3754.29ACMH [39]9.7554.8269.9949.4545.1258.8652.6452.3758.3451.61PLC [23]10.6254.5670.0950.3041.9459.0449.1955.5356.4154.13Point-MVSNet [7]18.2548.2761.7941.1534.2050.7951.9750.8552.3843.06[42]第四十二话18.3850.5573.0154.4643.4243.8846.8046.6950.8745.25[42]第四十二话21.5048.4069.9646.6532.5942.9551.8848.8052.0042.38MVSNet [41]27.8843.4855.9928.5525.0750.7953.9650.8647.9034.69COLMAP [31，32]30.1242.1450.4122.2525.6356.4344.8346.9748.5342.04表4：各种重建方法在Tanks Temples基准的高级序列&上的性能比较。方法秩是说礼堂舞厅法庭博物馆宫寺香港科技大学-Altizure-HKUST-20193.1737.3424.0444.5236.6449.5130.2339.09[21]第二十一话4.3335.6928.3338.6435.9548.3626.1736.69OpenMVS [28]5.5034.4324.4937.3938.2147.4827.2531.793Dnovator [1]5.6734.5118.6140.7737.1750.3027.6032.61PLC [23]5.8334.4423.0230.9542.5049.6126.0934.46COLMAP-SFM、PCF-MVS [21]6.1734.5926.8731.5344.7047.3924.0532.97ACMM [40]6.3334.0223.4132.9141.1748.1323.8734.60AttMVS（我们的）8.0031.9315.9627.7137.9952.0129.0728.84[42]第四十二话11.8329.5519.4931.4529.9942.3122.9431.10[42]第四十二话15.6724.9112.5529.0925.0638.6819.1424.96(b)火车(a) 博物馆（d）游乐场（c）弗朗西斯图7：Tanks &Temples基准测试的可视化结果。弗朗西斯，火车和游乐场的场景是从中间序列而博物馆的场景来自高级序列注意力增强匹配置信度通过自适应加权方法将场景的上下文信息与原始逐像素匹配体积相结合，并且相应的注意力引导正则化模块可以在深度上分层聚集和正则化匹配置信度。方式此外，我们还提出了一种简单但有效的过滤策略，以提高网络训练的地面真实深度图的质量在TanksTemples和DTU基准上的综合实验定性和定量地证明了所提出的AttMVS的优异性能。1598引用[1] 3Dnovator。http://www.3dnovator.com/网站。8[2] Henrik Aanæs ， Rasmus Ramsbøl Jensen ， GeorgeVogiatzis，Engin Tola，and Anders Bjorholm Dahl.多视点立体视觉的大规模数据国际计算机视觉杂志，第1-16页，2016年。二、五、七[3] 阿尔蒂祖雷https://www.altizure.com/网站。8[4] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing. 在ACM SIG-GRAPH 2009论文，SIGGRAPHUSA，2009.计算机协会。2[5] NeillDFCampbell，Geor geVogiatzis，CarlosHerna'ndez，and Roberto Cipolla.使用多个假设来改进多视图立体的深度图。欧洲计算机视觉会议，第 766-779 页。Springer，2008. 六、七[6] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集，第5410- 5418页1[7] 陈睿，韩松芳，许静，苏浩。基于点的多视点立体网络。在IEEE国际计算机视觉会议（ICCV），第1538-1547页二、六、七、八[8] Tao Dai，Jianrui Cai，Yongbing Zhang，Shu-Tao Xia，and Lei Zhang.二阶注意力网络用于单幅图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，第11065一、二[9] Luigi Di Stefano ， Stefano Mattoccia ， and FedericoTombari.使用有界部分相关的基于zncc的模板匹配。Pattern recognition letters，26（14）：21291[10] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。 IEEE Transactions on Pattern Analysis andMachine Intelligence，32（8）：1362-1376，2010. 六、七[11] 加利亚尼，拉辛格，辛德勒。表面法向扩散的大规模平行多视点立体视觉。在 Proceedings of the IEEEInternational Conference on Computer Vision，第873-881页，2015中。二六七[12] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议（CVPR），第7132-7141页，2018年6月。一、二、三[13] Po-Han Huang ， Kevin Matzen ， Johannes Kopf ，Narendra Ahuja，and Jia-Bin Huang. Deepmvs：学习多视图立体视觉。在IEEE计算机视觉和模式识别会议论文集，第2821-2830页2[14] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变。在IEEE计算机视觉和模式识别会议的论文集，第2462-2470页，2017年。1[15] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协作加速深度网络训练变量移位机器学习国际会议，第448-456页，2015年。3[16] Mengqi Ji，Juergen Gall，Haitian Zheng，Yebin Liu，and Lu Fang. Surfacenet ： An end-to-end 3d neuralnetwork for multi-view stereopsis.在IEEE计算机视觉集，第2307一、二、七[17] Abhi s hekKa r，ChristianHaíne，andJitendraMalik. 学习多视角立体机。神经信息处理系统的进展，第365-376页，2017年。2[18] Michael Kazhdan和Hugues Hoppe筛选泊松曲面重建。ACM Transactions on Graphics （ ToG ）， 32 （ 3 ）：29，2013. 二、五[19] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[20] Arno Knapitsch ， Jaesik Park ， Qian-Yi Zhou ， andVladlen Koltun.坦克和寺庙：大规模场景重建的基准ACM事务处理图表，36（4），2017年7月。一、二[21] Andreas Kuhn，Shan Lin，Oliver Erdler.用于多视图立体重建的平面补充和滤波。德国模式识别会议，第18Springer，2019年。8[22] Yanwei Li，Xinze Chen，Zheng Zhu，Lingxi Xie，GuanHuang，Dalong Du，and Xingang Wang.用于全景分割的注意力引导统一网络。在IEEE计算机视觉和模式识别会议论文集，第7026-7035页，2019年。2[23] Jie Liao，Yanping Fu，Qingan Yan，and Chunxia Xiao.金字塔中间多视图立体与当地的一致性。在太平洋图形，2019年。8[24] Min Lin，Qiang Chen，and Shuicheng Yan.网络中的网络。arXiv预印本arXiv：1312.4400，2013。3[25] Keyang Luo，Tao Guan，Lili Ju，Haipeng Huang，andYawei Luo.P-mvsnet：学习多视图立体的逐块匹配置信度聚合。在IEEE计算机视觉国际会议论文集，第10452-10461页，2019年。一二三四五六七八[26] Yawei Luo ， Ping Liu ， Tao Guan ， Junqing Yu 和 YiYang。领域自适应语义分割的重要性感知信息瓶颈在ICCV，2019年。1[27] 罗亚伟，郑良，关涛，于俊青，杨毅。让我们仔细看看Domain Shift ：语义一致域适应的类别级对手。在CVPR，2019年。1[28] OpenMVS。打开多视图立体重建库。https://github.com/cdcseacave/openMVS网站。8[29] Despoina Paschalidou ， Ali Osman Ulusoy ， CarolinSchmitt，Luc Van Gool，and Andreas Geiger. Raynet：学习用射线势进行体积三维重建。在IEEE计算机视觉和模式识别会议论文集，第3897-3906页，2018年。2[30] 安德里亚·罗曼诺尼和马特奥·马特奥奇Tapa-mvs：无纹理感知的拼接匹配多视图立体。arXiv预印本arXiv：1903.10929，2019。2[31] Johannes L Schonberger和Jan-Michael Frahm. 结构-从运动重新审视。在IEEE会议的会议记录中1599计算机视觉和模式识别，第4104七、八[32] JohannesLSchonberger，EnliangZheng，Jan-MichaelFrahm，and Marc Pollefeys.用于非结构化多视图立体的像素视图选择。欧洲计算机视觉会议，第501-518页。施普林格，2016年。二、八[33] ThomasScho¨ ps ，JohannesL. 舒恩贝尔格尔、加利亚尼、萨特勒、辛德勒、波勒费斯和盖格.具有高分辨率图像和多相机视频的多视图立体基准。在2017年IEEE计算机视觉和模式识别会议（CVPR）上，第2538-2547页，2017年。2[34] Engin Tola，Christoph Strecha，and Pascal Fua.高效的大规模多视角立体超高分辨率图像集。Machine Vision andA

下载后可阅读完整内容，剩余1页未读，立即下载