TransMVSNet：基于Transformer的全局上下文感知多视图立体网络

68 浏览量更新于2023-10-25 收藏 32.45MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

85850TransMVSNet：具有Transformer的全局上下文感知多视图立体网络0丁一康1,2* 袁文涛1,3* 朱庆天1 张浩天10刘翔跃1 王元江1† 刘潇1‡01 Megvii Research 2 清华大学 3 北京大学0摘要0本文提出了TransMVSNet，基于我们对多视图立体（MVS）中特征匹配的探索。我们将MVS类比回其特征匹配任务的本质，因此提出了一个强大的特征匹配Transformer（FMT），利用自内部（自身）和自外部（交叉）注意力来聚合图像内部和图像之间的长程上下文信息。为了更好地适应FMT，我们利用自适应感受野（ARF）模块来确保特征范围的平滑过渡，并通过特征路径桥接不同阶段，传递转换后的特征和梯度跨不同尺度。此外，我们应用成对特征相关性来衡量特征之间的相似性，并采用减少歧义的焦点损失来加强监督。据我们所知，TransMVSNet是将Transformer引入MVS任务的首次尝试。因此，我们的方法在DTU数据集、TanksandTemples基准测试和BlendedMVS数据集上取得了最先进的性能。代码可在https://github.com/MegviiRobot/TransMVSNet上获得。01.引言0多视图立体（MVS）旨在通过一系列校准图像恢复密集的3D表示，这是计算机视觉中的一项重要任务。基于学习的MVS网络[10,31,32]在重建质量和效率方面取得了显著进展。通常，MVS网络通过CNN提取图像特征，并通过平面扫描算法[5]构建成本体积，在其中将源图像扭曲到参考视图。这个成本0*相等的贡献。这项工作是作者在MegviiResearch实习期间完成的。†项目负责人。‡通讯作者（liuxiao@foxmail.com）。0图1.与DTU数据集[1]（较低为更好）和Tanks andTemples基准测试[12]（较高为更好）上的最先进基于学习的MVS方法[3,10,19,26,27,34]进行比较。0体积在之后被规范化以估计最终深度。MVS的性质是一对多的特征匹配任务，其中参考图像的每个像素都应该沿着极线在所有扭曲的源图像中搜索，并找到具有最低匹配成本的最佳深度。一些最近的研究[22,24]已经证明了特征匹配任务中长程全局上下文的重要性。然而，鉴于上述MVS流程，存在两个主要问题。(a)局部特征被卷积很好地捕捉到。卷积特征的局部性阻止了对全局上下文信息的感知，而全局上下文信息对于在MVS中具有挑战性的区域（例如，贫纹理、重复模式和非兰伯特表面）的稳健深度估计是必不可少的。(b)此外，在计算匹配成本时，要比较的特征只是分别从每个图像本身提取出来的，也就是说，没有考虑到潜在的图像间对应关系。最近，Transformer[25]在自然语言处理中首次提出，引起了计算机视觉界的广泛关注，因为它在视觉任务上表现出色。由于Transformer利用了注意力机制和位置编码进行上下文聚合，而不是卷积，因此它能够感知全局和位置相关的上下文信息。85860在真正意义上。为此，我们提出了一种新颖的端到端深度神经网络，即TransMVSNet，其中利用了强大的特征匹配Transformer（FMT）来加强图像内部和图像之间的长程全局上下文聚合。为了更好地将FMT适应端到端的基于学习的MVS流程，我们引入了自适应感受野（ARF）模块，以确保从CNN局部聚合的特征平滑过渡到FMT全局感受野的特征。为了降低运行时内存需求并使用高分辨率深度图对FMT进行训练，我们通过转换特征路径桥接不同尺度。我们应用成对特征相关性来衡量参考特征图与每个源特征图之间的相似性。之后，我们遵循粗到精的体积规范化模式[10]，并采用焦点损失[16]来更好地处理具有模糊预测的样本，以端到端训练网络。由于视图内部和视图之间的全局上下文感知信息，TransMVSNet在DTU数据集[1]上同时实现了重建精度和完整性的显著改进（如图1（a）所示）。此外，TransMVSNet的优越性能可以推广到更复杂的场景，例如Tanks andTemples基准测试的中级和高级集（如图1（b）所示）。据我们所知，这是首次在MVS任务中利用Transformer的尝试。因此，广泛的实验证明了我们的方法达到了最先进的性能。我们还进行了消融实验，以证明每个提出的模块的有效性。我们的主要贡献如下。0-我们提出了一种新颖的端到端深度神经网络，基于特征匹配Transformer（FMT），即TransMVSNet，用于在图0-为了更好地将FMT适应端到端的MVS流程，我们引入了一个自适应调整卷积特征的感受野的ARF模块，并应用了0- 我们的方法在DTU数据集、Tanks andTemples基准测试和Blended-MVS数据集上取得了最先进的结果。02. 相关工作02.1. 基于学习的多视图立体0在现代深度学习时代，引入了基于学习的方法来提高MVS的重建精度和完整性。MVSNet[31]通过可微分的单应性编码相机参数，构建3D代价体积，并将MVS任务解耦为每个视图的深度估计。0深度图估计任务。然而，由于其用于代价体积正则化的3DU-Net结构，其内存和计算成本非常昂贵。为了缓解这个问题，已经提出了几种网络，并可以根据正则化模式分为基于RNN的循环方法[27, 29, 32]和基于粗到细多阶段的方法[3,10, 30,34]。循环方法通过循环地对3D代价体积进行正则化，并采用RNN在不同深度假设之间传递特征。由于循环方法以时间换空间，它们能够处理具有大分辨率的图像，但推理速度较慢。多阶段方法最初预测粗糙的深度图，并根据先前的预测在较大的分辨率上缩小目标深度范围。粗到细的方法能够快速推理，同时保持相对较小的内存消耗。0尽管基于学习的MVS方法取得了有希望的结果，但仍然存在一些具有挑战性的问题，例如在非朗伯和低纹理区域或严重遮挡区域的鲁棒估计。02.2. 特征匹配中的Transformer0Transformer[25]在自然语言处理中被广泛应用，由于其有效性和高效性，最近在计算机视觉领域引起了越来越多的关注。考虑到Transformer通过注意力机制能够捕捉全局上下文信息的自然优势，其思想已经被应用于特征匹配任务。0SuperGlue[22]在稀疏特征匹配任务中利用自注意力和交叉注意力，充分利用关键点的空间关系和视觉外观。SuperGlue取得了令人印象深刻的性能，并成为了新的技术水平。LoFTR[24]以粗到细的方式使用Transformer建立准确的密集匹配。通过多次交替使用自注意力和交叉注意力层，LoFTR学习到了密集排列和全局一致的匹配先验知识。STTR[14]从序列到序列的匹配角度对立体深度估计进行建模。采用交替的自注意力和交叉注意力沿着内部和外部极线，捕捉特征描述符之间的长距离关联。03. 方法0给定一个参考图像 I0 ∈ R H × W × 3 和其相邻图像{Ii}N−1i=1，以及它们各自的相机内参和外参，我们的方法预测与 I0对齐的深度图。然后对所有图像的深度图进行滤波和融合，得到重建的密集点云。+ARFARFARFWW��{��}+85870特征匹配Transformer0内部注意力0内部注意力0W0FPN0−10深度图0 / 参考 /源特征令牌路径 W 可微分变形0 / 参考 /源特征体积0相关性相关性体积03D CNNs 概率体积优胜者取全部聚合0图2.TransMVSNet架构。TransMVSNet通过FPN提取基本特征，并引入ARF模块（第3.4节）确保从FPN到Transformer的过渡。在FMT（第3.2节）中，执行内部注意力以在图像内聚合全局上下文，并且执行互相注意力以进行图像间的特征搜索和匹配。连接到转换特征路径（第3.3节），将低分辨率特征传递到高分辨率，并使所有尺度的梯度通过FMT进行反向传播。然后，应用像素级特征相关性生成相关性体积（第3.5节），并以粗到细的模式进行规范化。03.1. 网络概述0我们的TransMVSNet的整体架构如图2所示。TransMVSNet首先应用特征金字塔网络（FPN）[15]在三个粗到细的分辨率级别上提取多尺度深度图像特征。在将这些特征传递给Transformer之前，我们使用自适应感受野（ARF）模块，该模块在第3.4节中描述，以改进局部特征提取并确保平稳过渡到Transformer。为了利用参考图像和源图像之间以及其中的全局上下文信息，我们采用特征匹配变换器（FMT）执行内部和互相注意力。FMT的技术细节在第3.2节中介绍。为了有效且高效地将转换特征从低分辨率传播到更高分辨率，并使FMT能够使用所有尺度的梯度进行训练，我们通过第3.3节中描述的特征路径连接所有分辨率。在第3.5节中描述，对于由FMT处理的N×H'×W'×F的特征图，我们构建了一个H'×W'×D'×1的相关性体积，以进行后续的3DCNNs规范化。其中，H'，W'和F分别表示当前阶段特征图的高度、宽度和通道数，N表示视图数量，D'表示相应的深度假设数量。在获得规范化的概率体积之后，我们采用优胜者取全部的策略来确定最终的预测。我们应用增强的焦点损失在模糊区域进行训练，如第3.6节所述，以端到端地训练TransMVSNet。03.2. 特征匹配变换器（FMT）0对于大多数情况，基于学习的MVS网络直接从提取的特征构建成本体积，忽略了全局上下文信息和图像间特征交互，而这些信息已被证明对于改善预测质量和减少匹配的不确定性尤为重要，特别是对于低纹理区域和重复模式。前述基于Transformer的匹配方法处理两个视图之间的特征匹配问题。对于MVS，其本质是一对多的匹配任务，我们提出了一种专门为MVS定制的特征匹配变换器（FMT）。第3.2.1节介绍了注意力的基本知识；第3.2.2节进一步描述了在所提出的FMT中使用的注意力机制，特别是其针对MVS的定制化；第3.2.3节展示了FMT模块的整体设计。03.2.1 准备工作0缩放点积注意力类似于信息检索中的约定，特征被分组为查询Q，键K和值V。Q根据从Q和K的点积得到的注意力权重从V中检索相关信息。注意力层的形式化表示为0注意力（Q，K，V）= softmax（QK �）V。（1）85880注意力机制衡量Q和K之间的特征相似性，并根据计算出的权重从V中检索信息。遵循[25]的做法，我们采用多头注意力，将特征的通道分成Nh组（头的数量）。0线性注意力多头注意力[25]通过Q和K的点积计算注意力，导致计算成本随输入序列长度的增长呈二次增长。为了降低计算成本，我们遵循[11]，使用线性变换器计算注意力。线性变换器将原始的核函数替换为0注意力(Q, K, V) = Φ(Q) ∙ Φ(K^T) V, (2)0其中Φ(∙) = elu(∙) +1，elu(∙)表示指数线性单元的激活函数[4]。鉴于通道数远小于输入序列的长度，计算复杂度降低为线性，使得可以在高分辨率图像上计算注意力。03.2.2 内部注意力和交叉注意力0当Q和K向量是来自同一图像的特征时，注意力层在给定视图内检索相关信息。这本质上可以看作是图像内的长程全局上下文聚合。另一种情况是Q和K向量来自不同的视图，注意力层则捕捉这两个视图之间的交叉关系，并以此方式进行图像间特征交互。在FMT中，我们对参考图像I0和源图像{Ii}N-1i=1都执行内部注意力。在计算I0与每个Ii之间的交叉注意力时，只更新Ii的特征。这里我们解释为什么参考特征F0不应该根据源特征进行更新。当将参考图像与其相邻的源图像进行匹配时，参考特征应该保持不变，以为所有源特征提供相同的目标。其基本原理是相似度的度量仅在给定相同图像对的情况下有效，这表明匹配的置信度在不同的图像对之间不能普遍比较。我们还对这个次要问题进行了消融实验，并得到了支持这个假设的结果。更多信息请参考补充材料。03.2.3 FMT架构0与典型的两个视图之间的一对一匹配任务不同，MVS处理的是一对多的匹配问题，需要考虑所有视图的上下文信息。0注意力0位置编码0×0注意力0注意力0注意力0注意力0�00{�} = 0-10图3.特征匹配变换器的架构。FMT对所有特征图执行位置编码，并在空间维度上将它们展平。然后，注意力块参与其中，并对特征执行内部和跨特征的注意力。请注意，我们的实现中将注意力块的数量Na设置为4。0为了同时捕捉图像内部和图像间的长程上下文信息，我们提出了FMT。FMT的架构如图3所示。我们遵循[22]，添加位置编码，隐式增强位置一致性，并使FMT对具有不同分辨率的特征图具有鲁棒性。每个视图对应的展平特征图F ∈RH'W' ×F由Na个注意力块依次处理。在每个注意力块内（见图3），首先使用共享权重计算参考特征F0和每个源特征Fi的内部注意力，所有特征都根据各自的嵌入全局上下文信息进行更新。然后，执行单向的交叉注意力，根据从F0中检索到的信息更新Fi。03.3. 转换特征路径0我们使用的 Transformer只在分辨率较低的特征图上执行，因为基于学习的 MVS 和Transformer都需要大量的内存和计算资源。如何有效地将转换后的特征从低分辨率传递到高分辨率仍然是一个问题。此外，我们希望 FMT能够从所有图像尺度上得到监督训练。因此，我们设计了一个转换特征路径来完成这个任务。如图 2 所示，FMT处理的特征图被插值到更高的分辨率，并添加到下一个图像尺度上对应的原始特征图中。03.4. 自适应感受野 (ARF) 模块0Transformer通过位置编码将全局上下文信息隐式编码到特征图中，我们可以将其粗略地视为具有全局感受野的卷积层。相反，FPN[15]是所提出网络的基本特征提取器，主要关注相对局部邻域内的上下文。这两个模块在上下文范围方面存在明显差距，这对特征传递和端到端训练都是不利的。ˆp = K[R(K−10 pd) + t],(3)c(d)i(p) =< F0(p), ˆF(d)i(p) >,(4)C(d)(p) =N−1�i=1maxd {c(d)i(p)} · c(d)i(p).(5)L =�p∈{pv}−(1 − P ( ˜d)(p))γ log�P ( ˜d)(p)�,(6)85890为此，我们在 FPN 和 FMT之间插入了一个自适应感受野模块，以自适应地调整提取特征的范围。ARF 模块通过可变形卷积 [6, 35]实现，学习额外的采样位置偏移，并能够根据局部上下文自适应地扩大感受野。03.5. 相关体积构建0我们对齐所有图像到参考视图的像素 p 和源视图的对应像素ˆ p 之间的变形，根据深度假设 d 定义为0其中 R 和 t 表示两个视图之间的旋转和平移。K 0 和 K是参考相机和源相机的内部矩阵。通过双线性插值将扭曲的特征图保持原始分辨率。通过将已知深度空间离散化为 D个深度值，我们能够将每个像素分类为其中之一。位置 p处的成对特征相关性为0其中 ˆ F ( d ) i 表示深度为 d 的第 i个源特征图，通过这种方式，通道数减少为1，减轻了后续正则化过程中的内存消耗。为了聚合所有 N− 1个成对相关体积，我们认为三维相关体积在高度和宽度维度上的每个像素具有不同的显著性，但在深度维度上是一致的。因此，我们为每个像素分配一个像素权重图，其在深度维度上具有最大的相关性。聚合的相关体积定义为03.6. 损失函数0以前的粗到精尝试 [10, 30, 34] 主要采用基于 ℓ 1的深度回归损失，监督预测和真实值之间的绝对距离。我们改用焦点损失[16]，将深度估计视为分类任务，以加强模糊区域的单热监督。每个深度估计阶段的焦点损失为0其中 P ( d ) ( p ) 表示像素 p 处深度假设 d 的预测概率，˜d 表示最接近的深度值0(a) RGB (b) 权重图 (γ = 2)0(d) 深度图 (γ = 2)0(c) 深度图(γ=0)0图4. 焦点损失的结果可视化。(a) 原始图像。(b)当γ=2时的焦点权重图(1-P)γ。(c)当网络训练时γ=0时的深度图。(d)当网络训练时γ=2时的深度图。焦点损失专注于低预测概率的像素，这些像素通常出现在边界区域。0在所有假设中，焦点损失对于地面真实值的估计效果最好。{pv}表示具有有效地面真实值的像素子集。特别地，当聚焦参数γ等于0时，焦点损失退化为交叉熵损失。经验上，γ=2适用于更复杂的场景，而γ=0对于相对简单的场景可以产生足够好的结果。图4展示了焦点损失对边界区域的影响，焦点损失有助于估计比交叉熵损失更准确的边界。04. 实验04.1. 数据集0DTU[1]是在受控实验室条件下拍摄的，具有固定的相机轨迹，包含128个扫描，49个视角，涵盖7种不同的光照条件。按照MVSNet[31]的设置，我们将数据集分为79个训练扫描、18个验证扫描和22个评估扫描。BlendedMVS数据集[33]是一个用于多视图立体训练的大规模合成数据集，包含各种物体和场景。该数据集被分为106个训练扫描和7个验证扫描。Tanks andTemples[12]是在现实条件下获取的公共基准数据集。它包含8个场景的中级子集和6个场景的高级子集。不同的场景具有不同的尺度、表面反射和曝光条件。04.2. 实现细节0我们使用PyTorch实现了TransMVSNet，并在DTU训练集[1]上进行训练。在训练阶段，我们将输入图像的数量N设置为5，图像分辨率为512×640。对于粗到精的正则化，深度假设从425mm到935mm进行采样；每个阶段的平面扫描深度假设分别为48、32和8；相应的深度间隔从最粗的阶段到最细的阶段分别减小0.25和0.5。模型使用Adam进行10个epoch的训练。Gipuma [9]0.2830.8730.578COLMAP [23]0.4000.6640.532R-MVSNet [32]0.3850.4590.422D2HC-RMVSNet [29]0.3950.3780.386AA-RMVSNet [27]0.3760.3390.357Vis-MVSNet [34]0.3690.3610.365CasMVSNet [10]0.3250.3850.355UCS-Net [3]0.3380.3490.344PatchmatchNet [26]0.4270.2770.352EPP-MVSNet [19]0.4130.2960.355TransMVSNet0.3210.2890.30585900Ours CasMVSNet UCS-Net Ground Truth0图5. 与最先进的粗到精方法[3, 10]在DTU评估集[1]上重建结果的比较。0初始学习率为0.001，分别在第6和第8个epoch后衰减0.5倍。我们在DTU上进行训练时将γ设置为0。批量大小为1，在8个NVIDIA RTX 2080TiGPU上进行训练，整个训练阶段大约需要16小时，并且每个GPU占用10GB内存。对于深度过滤和融合，我们遵循[29]中提出的动态检查策略，其中同时应用了置信度阈值和几何一致性。04.3. 实验性能0在DTU数据集的评估集上使用官方评估指标评估了所提出的方法。我们在评估阶段将N设置为5，输入分辨率为864×1152。如图5所示，由于FMT中的内部和外部注意机制，TransMVSNet能够生成更密集、更完整的点云，并保留更多的细节。表1显示了定量比较结果。准确度和完整度是两个官方指标。准确度衡量了从MVS重建到地面真实值的平均绝对点云距离，而完整度则相反。Overall是准确度和完整度的平均值，表示模型的整体性能。TransMVSNet在准确度和完整度方面取得了竞争性的表现，并在Overall方面大幅优于所有已知方法。0在Tanks and Temples基准测试中进行基准测试为了展示我们方法的泛化能力，我们在Tanks andTemples基准测试[ 12]上测试了我们的方法。为了提高在现实场景中的性能，我们使用BlendedMVS数据集[ 33]的训练集对TransMVSNet进行微调，使用原始图像分辨率（576×768），N = 5和γ = 2。在Tanks andTemples上的评估中，摄像机参数、深度范围和相邻视图选择与R-MVSNet [ 32]对齐。我们使用原始分辨率的图像进行推理。在Tanks上进行定量比较0方法准确度（mm）完整度（mm）总体（mm）0表1显示了DTU评估集[ 1]上的定量结果（数值越小越好）。粗体数字表示最佳结果，下划线数字表示次佳结果。与非学习方法、基于RNN的方法和粗糙到精细的方法相比，TransMVSNet在所有已知方法中表现出色。0表2显示了Temples和Tanks的结果，指标为平均F分数。TransMVSNet在两个排行榜上都优于所有现有的基于学习的MVS方法，证明了我们方法的有效性和通用性。图6展示了高级集合中法庭场景和中级集合中马场景的定性结果。TransMVSNet在低纹理区域和复杂表面上产生了更可靠的点。特别地，我们在图7中可视化了一对视图的特征演化过程。在这种具有挑战性的场景中，由于纹理贫乏和重复的模式，FMT成功地捕捉到了位置相关的特征，并在不同视图之间和之间聚合了全局上下文。0在BlendedMVS数据集上的评估 DTU [ 1 ]和Tanks andTemples [ 12]都对点云应用了评估指标。我们进一步在BlendedMVS验证数据集[ 33]上展示了TransMVSNet直接输出的深度图的质量。我们将N = 5和图像分辨率设置为512×640，并应用评估COLMAP [23]42.1450.4122.25 26.63 56.43 44.83 46.97 48.53 42.0427.2416.0225.2334.7041.5118.0527.94ACMM [28]57.2769.2451.45 46.97 63.20 55.07 57.64 60.08 54.4834.0223.4132.9141.1748.1323.8734.60DeepC-MVS [13]59.7971.9154.08 42.29 66.54 55.77 67.47 60.47 59.8334.5426.3034.6643.5045.6623.0934.00AttMVS [18]60.0573.9062.58 44.08 64.88 56.08 59.39 63.42 56.0631.9315.9627.7137.9952.0129.0728.84CasMVSNet [10]56.8476.3758.45 46.26 55.81 56.11 54.06 58.18 49.5131.1219.8138.4629.1043.8727.3628.11Vis-MVSNet [34]60.0377.4060.23 47.07 63.44 62.21 57.28 60.54 52.0733.7820.7938.7732.4544.2028.7337.70PatchmatchNet [26]53.1566.9952.64 43.24 54.87 52.87 49.54 54.21 50.8132.3123.6937.7330.0441.8028.3132.29EPP-MVSNet [19]61.6877.8660.54 52.96 62.33 61.69 60.34 62.44 55.3035.7221.2839.7435.3449.2130.0038.75R-MVSNet [32]50.5573.0154.46 43.42 43.88 46.80 46.69 50.87 45.2529.5519.4931.4529.9942.3122.9431.10AA-RMVSNet [27]61.5177.7759.53 51.53 64.02 64.05 59.47 60.85 54.9033.5320.9640.1532.0546.0129.2832.71TransMVSNet63.5280.9265.83 56.94 62.54 63.06 60.00 60.20 58.6737.0024.8444.5934.7746.4934.6936.62CasMVSNetEPP-MVSNetTransMVSNet0.738.323.6285910方法 Int.Mean 家庭弗朗西斯马雷霆 M60 黑豹 P.G. 训练 Adv.Mean 礼堂舞厅法庭博物馆宫殿寺庙0表2. Tanks andTemples基准测试[12]上的基准结果。评估指标是平均F分数（越高越好）。粗体数字表示最佳结果，下划线数字表示第二佳结果。TransMVSNet在Tanks and Temples基准测试的中级和高级排行榜上均取得了最先进的性能（2021年11月12日）。0AA-RMVSNet 我们的0图6. 在Tanks and Temples基准测试[12]上与几种最先进的方法[3, 10,27]的重建结果进行比较。τ是官方确定的与场景相关的距离阈值，较暗的区域表示与τ相关的错误较大。第一行显示了Courtroom场景的召回率（τ = 10 mm）；第二行显示了Horse场景的精确度（τ = 3 mm）。0在[7]中描述的指标。表3中展示了一些定量结果。EPE代表端点误差，即预测值与真实深度之间的平均ℓ-1距离；e1和e3表示深度误差大于1和大于3的像素的百分比。与其他方法相比，TransMVSNet取得了令人印象深刻的结果，展示了其产生高质量深度图的能力。更多点云结果请参考补充材料。04.4. 割舍研究0我们进行割舍研究以分析不同模块的有效性和成本。实施的基线基本上基于CasMVSNet[10]，应用特征相关性并使用ℓ-1损失进行训练。所有实验都使用相同的超参数进行。0方法 EPE e 1 e 30MVSNet [31] 1.49 21.98 8.32 CVP-MVSNet [30] 1.9019.73 10.24 CasMVSNet [10] 1.43 19.01 9.77Vis-MVSNet [34] 1.47 15.14 5.13 EPP-MVSNet [19]1.17 12.66 6.200表3.预测深度图在BlendedMVS验证集[33]上的定量结果（越低越好）。0如表4所示，应用focalloss后，整体性能提高了1.7%，而计算成本保持不变。由于线性变换器的计算效率，我们能够在内存和MACs方面以很小的额外成本使用FMT，但其推理速度减慢了近1.4倍。通过转换特征路径，完整性和总体性能都得到了提升，而几乎没有×"!85920参考图像未转换的特征通过4个内部注意力进行特征0源图像未转换的特征通过1个内部注意力进行特征通过1个外部注意力进行特征0注意力块0通过4个外部注意力进行特征0通过1个内部注意力进行特征0图7. 在Tanks andTemples基准测试[12]的Courtroom场景上，通过FMT演化的特征图。我们应用PCA将特征通道的数量减少到3，并用RGB可视化结果。第一行的图像显示了参考视图的特征，这些特征仅通过FMT中的内部注意力进行更新；第二行的图像表示源视图的特征，这些特征通过内部和外部注意力层进行更新。0模型设置平均距离内存 MACs 时间 F.L. FMT 路径 ARF 准确率完整性总体性能0(a) 0.351 0.339 0.345 3244 212 0.271 (b) � 0.343 0.335 0.339 3244 2120.271 (c) � � 0.335 0.310 0.323 3288 235 0.638 (d) � � � 0.332 0.298 0.3153288 241 0.677 (e) � � � � 0.321 0.289 0.305 3778 435 0.9960表4.在DTU评估数据集[1]上使用不同组件的定量性能。F.L.代表focalloss。内存占用的单位为MB（Mem.），乘积累加操作的单位为G（MACs），推理时间的单位为秒。0其内存占用增加，表明该路径的有效性和效率。附加了ARF模块后，完整的TransMVSNet能够以较大的优势实现最先进的性能。ARF模块在各个方面带来了相当大的计算成本。总之，推理时间仍然在一秒钟之内，与基于RNN的方法[27,29, 32]相比是可以接受的。05. 讨论05.1. 与相关工作的比较0TransMVSNet vs. CasMVSNet我们的架构基于CasMVSNet[10]提出的粗到细的正则化模式。主要区别在于我们引入Transformer来捕捉远程全局上下文，以实现更好的多视图特征匹配。使用粗到细的方式带来了更高的计算效率，同时也取得了显著的性能。0TransMVSNet vs. LoFTR LoFTR[24]在展平的特征图上多次交错使用自注意和交叉注意层，以估计一对图像之间的密集匹配。与一对一匹配任务不同，MVS实际上是一对多的匹配任务。因此，我们提出了FMT模块，将注意层适应到MVS中。0TransMVSNet vs. STTR STTR[14]通过沿着内部和外部对极线进行自注意和交叉注意来估计立体深度，其中局部特征的上下文范围仅限于其对应的对极线。请注意，在MVS中不存在线对线的对应关系，因此我们利用沿着整个展平特征图的注意层，将全局上下文引入到多视图的特征匹配中。05.2. 限制0- Transformer会降低推理速度，如表4所示。0-与其他粗到细的MVS网络类似，我们的方法对推理超参数敏感，例如深度假设的数量，深度间隔和深度间隔的衰减因子。06. 结论0在本文中，我们提出了一种新颖的基于学习的MVS网络，称为TransMVSNet，通过Transformer聚合全局长程上下文感知信息。具体而言，TransMVSNet包括一个有效的特征匹配Transformer（FMT）模块，该模块由内部注意和交叉注意组成，分别用于检索图像内部和图像之间的上下文感知信息。此外，我们设计了自适应感受野（ARF）模块和一个转换的特征路径，以更好地促进FMT的功能。大量实验证明，TransMVSNet在DTU数据集、Tanks andTemples基准测试和Blended-MVS数据集上实现了最先进的性能。0致谢本文得到了科技部国家重点研发计划的支持（项目编号：2020AAA0104400）。85930参考文献0[1] Henrik Aanæs，Rasmus Ramsbøl Jensen，GeorgeVogiatzis，Engin Tola和Anders Bjorholm Dahl.用于多视图立体视觉的大规模数据. 计算机视觉国际期刊，120(2):153-168，2016年. 1 , 2 , 5 , 6 , 80[2] Nicolas Carion，Francisco Massa，GabrielSynnaeve，Nicolas Usunier，Alexander Kirillov和SergeyZagoruyko. 使用Transformer的端到端目标检测. 在2020年欧洲计算机视觉会议上，页码213-229。Springer，2020年. 20[3] 郑硕，徐泽翔，朱世林，李竹文，李尔然，RaviRamamoorthi和苏浩.使用具有不确定性意识的自适应薄体积表示的深度立体. 在2020年IEEE/CVF计算机视觉与模式识别会议论文集中，页码2524-2534，2020年. 1 , 2 , 6 , 70[4] Djork-Arn´e Clevert，Thomas Unterthiner和SeppHochreiter.通过指数线性单元（ELUs）进行快速准确的深度网络学习. 在2016年学习表示国际会议上，2016年. 40[5] Robert T Collins.一种真正的多图像匹配的空间扫描方法。在CVPRIEEE计算机学会计算机视觉与模式识别会议论文集中，页码358-363。IEEE，1996年。10[6] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, GuodongZhang, Han Hu, and Yichen Wei.可变形卷积网络。在IEEE国际计算机视觉会议论文集中，页码764-773，2017年。50[7] Franc¸ois Darmon, B´en´edicte Bascle, Jean-Cl´ement Devaux, PascalMonasse, and Mathieu Aubry.深度多视角立体视觉的狂野之路。arXiv预印本arXiv:2104.15119，2021年。70[8] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold, Syl-vain Gelly, et al.一幅图像等于16x16个单词：大规模图像识别的Transformer。在学习表示国际会议上，2021年。20[9] Silvano Galliani, Katrin Lasinger, and Konrad Schindler.表面法线扩散的大规模并行多视角立体视觉。在IEEE国际计算机视觉会议论文集中，页码873-881，2015年。60[10] Xiaodong Gu, Zhiwen Fan, Siyu Zhu, Zuozhuo Dai,Feitong Tan, and Ping Tan.级联代价体积用于高分辨率多视角立体视觉和立体匹配。在IEEE/CVF计算机视觉与模式识别会议论文集中，页码2495-2504，2020年。1，2，5，6，7，80[11] Angelos Katharopoulos, Apoorv Vyas, Nikolaos Pappas,and Franc¸ois Fleuret. Transformers are rnns:快速自回归Transformer线性注意力。在机器学习国际会议上，页码5156-5165。PMLR，2020年。40[12] Arno Knapitsch, Jaesik Park, Qian-Yi Zhou, and VladlenKoltun. 坦克和寺庙：大规模场景重建的基准测试。ACMTransactions on Graphics(ToG)，36(4):1-13，2017年。1，2，5，6，7，80[13] Andreas Kuhn, Christian Sormann, Mattia Rossi, Oliver Erdler,and Friedrich Fraundorfer. Deepc-mvs: 深度连续多视角立体视觉。0[13] Andreas Kuhn, Christian Sormann, Mattia Rossi, Oliver Erdler, andFriedrich Fraundorfer.深度连续多视角立体视觉的置信度预测。在2020年国际三维视觉会议论文集0[14] Zhaoshuo Li, Xingtong Liu, Nathan Drenkow, Andy Ding,Francis X Creighton, Russell H Taylor, and Mathias Un- berath.以序列到序列的角度重新审视立体深度估计。在IEEE/CVF国际计算机视觉会议论文集中，页码6197-6206，2021年。2，80[15] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He,Bharath Hariharan, and Serge Belongie.特征金字塔网络用于目标检测。在IEEE计算机视觉与模式识别会议论文集中，页码2117-2125，2017年。3，40[16] Tsung-Yi

下载后可阅读完整内容，剩余1页未读，立即下载