RayMVSNet:基于光线的一维隐式场学习实现准确多视图立体视觉

114 浏览量更新于2023-10-25 收藏 27.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5 mm0 mm85950RayMVSNet：学习基于光线的一维隐式场以实现准确的多视图立体视觉0Junhua Xi * Yifei Shi * Yijie Wang Yulan Guo Kai Xu †0国防科技大学0摘要0基于学习的多视图立体视觉（MVS）迄今为止主要集中在对代价体积进行3D卷积。由于3DCNN的计算和内存消耗较大，输出深度的分辨率通常受到限制。与大多数现有的致力于自适应改进代价体积的方法不同，我们选择直接优化每个相机光线上的深度值，模拟激光扫描仪的范围（深度）查找。这将MVS问题简化为基于光线的深度优化，比完整的代价体积优化要轻量得多。具体而言，我们提出了RayMVSNet，它通过学习每个相机光线上的一维隐式场的顺序预测，其中零交叉点指示场景深度。这种顺序建模是基于Transformer特征进行的，本质上学习了传统多视图立体视觉中的对极线搜索。我们还设计了多任务学习，以实现更好的优化收敛性和深度准确性。我们的方法在DTU和Tanks &Temples数据集上超过了所有先前的基于学习的方法，实现了DTU上的总体重建得分为0.33毫米，Tanks &Temples上的f-score为59.48%。01. 引言0基于学习的多视图立体视觉最近受到了广泛关注，自从MVSNet[42]的开创性工作以来。MVSNet和许多后续工作的核心思想是通过将几个源视图的图像特征通过将其投影到一组垂直于参考视图的前向平行扫描平面上来构建参考视图视锥内的3D代价体积，以假设的深度。然后，在代价体积上进行3D卷积，提取3D几何特征并回归参考视图的最终深度图。由于3DCNN通常计算和内存消耗较大，大多数现有方法仅限于低分辨率的代价体积。最近的几项工作提出了上采样或改进代价体积的方法，以增加输出深度图的分辨率。然而，这种改进0* 共同第一作者 †通讯作者：kevin.kai.xu@gmail.com0参考图像0源图像0源图像0基准00毫米 5毫米相机光线0图1.RayMVSNet通过在相机光线上预测一维隐式场来进行多视图立体视觉。一维场的顺序预测是轻量级的，基于表面交叉点周围的光线距离场的单调性有助于稳健学习，从而比纯粹基于代价体积的基线方法（如MVSNet [42]）具有更准确的深度估计。0仍然需要在深度和空间（图像）分辨率之间进行权衡。例如，CasMVSNet[13]选择缩小深度假设的范围，以实现高分辨率深度估计，与输入RGB的空间分辨率匹配。然后，3D卷积自然地限制在狭窄的范围内，从而降低了3D特征学习的效果。实际上，深度图是视角相关的，尽管代价体积不是。由于目标是深度图，改进代价体积似乎既不经济也不必要。在视点中可能有大部分代价体积对于视角是不可见的。在这项工作中，我们主张直接优化每个相机光线上的深度值，模拟激光扫描仪的范围（深度）查找。这使我们能够将MVS问题转化为基于光线的深度优化，这在单独的任务中比完整的代价体积优化要轻量得多。我们将每个相机光线的“范围查找”形式化为沿光线学习一个一维隐式场，其零交叉点指示该光线上的场景深度（图1）。为此，我们提出了RayMVSNet，它基于递归神经网络学习沿相机光线的多视图特征的顺序建模。从技术上讲，我们提出了两个关键设计，以便更好地学习准确的基于光线的一维隐式场。首先，沿相机光线的一维隐式场的顺序预测本质上是进行一个对极线搜索[2]。85960交叉视图特征匹配的最优解对应于射线-表面交点。为了学习这个线性搜索，我们提出了EpipolarTransformer。给定参考视图的相机射线，它基于注意机制学习每个源视图的像素级2D特征的匹配相关性。然后将所有视图的变换器特征与（低分辨率的）代价体素特征连接起来，并输入到LSTM[15]中进行隐式场回归。图3可视化了EpipolarTransformer如何从不同视图中选择可靠的匹配特征。其次，我们将每个相机射线的顺序建模限制在以香草MVSNet给出的假设表面交点为中心的固定长度范围内。这使得每条射线上的输出1D隐式场单调，归一化到[-1,1]。这种限制和归一化大大降低了学习复杂性并提高了结果质量。我们设计了两个学习任务：1）在固定长度范围内的一系列采样点上顺序预测有符号距离，2）在射线上回归零交叉位置。一个精心设计的损失函数将这两个任务相关联。这种多任务学习方法能够高度准确地估计每条射线的表面交点。基于学习的视图相关隐式场在神经辐射场（NeRF）[25]中得到了很好的应用。最近，NeRF与MVSNet结合以获得更好的通用性[4]。尽管存在概念上的相似性，但我们的工作与NeRF完全不同。首先，NeRF（包括MVSNeRF[4]）是为新视图合成而设计的，这是与MVS不同的任务。其次，NeRF中的辐射场在连续的3D空间中定义和学习，相机射线仅在体素渲染阶段使用。而在我们的RayMVSNet中，我们明确地在相机射线的基础上学习1D隐式场。RayMVSNet在DTU和Tanks＆Temples数据集上排名靠前，超过了所有基于学习的方法。在DTU上，它实现了0.33mm的整体重建得分，在Tanks＆Temples上实现了59.48％的f-score。值得注意的是，由于所有射线共享LSTM和epipolartransformer的权重，RayMVSNet模型非常轻量级。此外，每条射线的计算高度可并行化。我们的工作具有以下贡献：0•将深度MVS作为学习射线为基础的1D隐式场的新颖表达形式。0• 一个设计用于学习具有注意机制的跨视图特征相关性的epipolartransformer。0•基于LSTM的1D隐式场序列建模和预测的多任务学习方法。0•一个基于DTU数据集[1]的具有镜面反射、阴影或遮挡区域的具有挑战性的测试集，并进行了广泛的评估。02. 相关工作0基于学习的MVS。最近的进展在基于学习的MVS上取得了显著的进展。Hartmann等人[14]首次提出通过Siamese卷积网络从两个视图中学习多补丁相似性。SurfaceNet[18]和DeepMVS[16]将多视图图像变形为3D代价体素，并采用3D神经网络估计几何形状。MVSNet[42]提出了可微分的单应性，并通过3D卷积网络聚合上下文信息。然而，高计算和内存消耗限制了输出深度分辨率，限制了其在大场景中的可扩展性。为了降低要求，许多后续工作已经开发出来。R-MVSNet[43]提出沿深度方向正则化2D代价图，从而大大减少了内存消耗。Point-MVSNet[5]首先使用低分辨率的代价体素计算粗略深度，然后使用基于点的细化网络生成高分辨率深度图。CasMVSNet[13]采用级联代价体素逐渐缩小深度范围并增加代价体素分辨率。后续的工作探索了类似的思路来减少3D卷积的内存成本和/或提高深度质量，例如粗到精的深度优化[8, 23, 37,38, 40, 41, 47]，基于注意力的特征聚合[22, 36, 46,50]和基于补丁匹配的方法[21,35]。与这些工作不同，RayMVSNet优化每个相机视图射线上的深度，而不是3D体素，更加轻量级。多视图特征聚合是基于学习的MVS中最关键的组成部分之一。以前的工作采用了各种解决方案来学习相互关系，以避免由于遮挡引起的不正确匹配的影响。流行的解决方案包括基于可见性的聚合[6,48]，基于注意力的聚合[36,45]等。RayMVSNet遵循基于注意力的聚合路线。然而，它在每个3D点上学习特征聚合，而不是整个图像或体素，从而大大降低了内存消耗。0学习隐式表示。许多工作尝试基于隐式场学习形状表示。隐式场在促进各种问题的解决方案方面显示出有希望的结果，例如形状重建[9, 26, 49, 52]和渲染[25, 32]。DeepSDF[28]提出了预测3D点的大小以指示到表面边界的距离，并确定点是否在形状内部或外部的符号。IM-Net[7]和Occupancy Network[24]学习隐式场，用二进制分类器估计逐点的占用概率。为了提高对复杂场景的有效性和泛化性，最新的研究提出通过引入额外的输入来增强隐式场[29, 39]，…85970参考图像0源图像0源图像0图像特征0图像特征0图像特征02D U-Net0SDF估计0内部外部0位置估计0内部0基于射线的1D隐式场0参考图像03D U-Net02D特征3D特征0多视图特征提取0极线变换器03D代价体积卷积0外部0自注意力自注意力自注意力0AddNorm0位置0粗糙深度图0确定点采样范围02D U-Net02D U-Net0AddNorm0图2. 方法概述。给定多个重叠的RGB图像，通过2DU-Net提取多视图图像特征。然后通过粗糙的3D代价体积估计粗糙的深度图。然后通过极线变换器将2D多视图图像特征相关并聚合。最后，在每个相机视线上学习1D隐式场，同时估计采样点的SDF和零交叉点的位置。0采用先进的学习技术[10, 27, 31,33]和将场景分解为局部区域[3, 12, 19, 32]。NeRF[25]通过学习视角相关的隐式神经辐射场来表示复杂场景，实现了高分辨率逼真的新视角合成。03. 方法0概述。RayMVSNet从多个重叠的RGB图像中估计深度图。与[42]类似，每次它将一个参考图像I1和N-1个源图像{Ii} N2作为输入，并推断出参考图像的深度图。RayMVSNet首先构建一个轻量级的3D代价体积，并估计一个粗糙的深度图（第3.1节）。然后，引入了极线变换器来学习每个视图的像素级2D特征的匹配相关性，使用注意机制（第3.2节）。将变换后的特征沿着每个相机视线输入到1D隐式场中，通过LSTM实现，估计假设点的有符号距离函数（SDF）以及零交叉位置（第3.3节）。方法概述如图2所示。03.1. 3D代价体积和粗糙深度预测0首先，我们将多视图图像 {Ii} N 1 输入到2DU-Net中，提取图像特征 {FIi} N1。图像特征的宽度和高度与输入图像相同。因此，{FIi} N 1保留了局部细节的精细外观特征，有利于高分辨率深度估计。通过利用2D多视图图像特征和相机参数，我们构建了基于方差的3D代价体积V，并通过3D U-Net[42]提取了3D体积特征FV。由于3D卷积消耗内存，所以...0我们的工作中，V的分辨率设置比之前的工作[8, 13,41]要小。粗糙深度图是从3D体积特征中估计出来的，然后用于确定基于射线的1D隐式场的建模范围。03.2. Epipolar Transformer0我们从参考图像的相机视角中投射一组射线R ={ri}M1，其中M是参考图像中的像素数。我们的目标是估计每条射线上的零交叉点的位置，从而可以获得参考视图的深度图。与在3D成本体积上估计深度的方法相比，基于射线的方法具有以下优势。首先，由于深度图是视角相关的，基于射线的深度优化更直观和轻量级。其次，所有基于射线的1D隐式场共享相同的空间属性，即沿射线方向的SDF的单调性。因此，学习过程会更简化和规范化，从而实现高效的网络训练和更准确的结果。0零交叉点假设采样。我们对每条射线进行点采样，生成零交叉点假设。理想情况下，可以在每条射线上生成尽可能多的点。然而，大多数点离表面很远，对深度估计提供的信息较少。为了方便有效的训练，如图4(a)所示，我们采用在第3.1节中预测的粗糙深度图，并在估计的粗糙深度周围的±δ范围内均匀采样K个点P = {pk}K1。Sample pointsCorrelationSample pointsCorrelationGT depthGT depth(4)85980参考图像源图像0参考图像源图像0图3. EpipolarTransformer的效果。给定参考图像中的一个点，EpipolarTransformer会自动选择源图像上极线上的可靠匹配特征。请注意，尽管受到光照变化（顶部行）和镜面反射（底部行）的影响，它仍然能够正确找到匹配特征。可视化的点对相关性是根据公式1中的Softmax(QKT)推导出来的。0注意力感知的跨视图特征相关性。下一步是基于多视图图像特征聚合假设点的特征。实现这一目标的一种简单方法是根据视图投影从多视图图像中提取特征，并计算方差。然而，图像特征很容易受到图像缺陷的影响，例如镜面反射和光照变化。简单的方差考虑所有图像特征都是相等的，这可能导致不可靠的特征并提供不正确的跨视图特征相关性。为了解决这个问题，我们提出了EpipolarTransformer来学习具有注意力机制的跨视图特征相关性（图4b）。具体而言，EpipolarTransformer的网络架构包含四个自注意力层，每个自注意力层后面跟随两个AddNorm层和一个前馈层。假设X =Concat(FI1,p, ...,FIN,p)，其中Concat(∙)是拼接操作，{FIi,p}N1是在3D点p处获取的多视图图像特征。EpipolarTransformer的自注意力层如下所示：0S = SelfAttention(Q, K, V) = Softmax(QKT)V，(1)0其中，Q = XWQ，K = XWK，V =XWV分别是查询向量、键向量和值向量。WQ，WK，WV是学习到的权重。在EpipolarTransformer中，第一个自注意力层的效果示例如图3所示。Epipolar Transformer的AddNorm层如下所示：0Z = AddNorm(X) = LayerNorm(X + S)，(2)0其中，LayerNorm(∙)是层归一化操作。EpipolarTransformer的输出是注意力感知的去噪多视图特征FAp = {FA1,p, ...,FAN,p}。为了进一步提高特征质量，我们将注意力感知特征与3D体积特征FVp进行拼接。0= EpipolarTransformer( , , )0源图像源图像参考图像0相机光线02δ0粗糙深度采样点真实深度0图4。（a）在预测的粗糙深度周围采样假设点，以缩小零交叉位置的搜索空间。（b）极线变换器学习像素级2D特征的匹配相关性，并使用注意机制聚合这些特征。0从第3.1节中处理的3D代价体积中获取：0F p = Concat(F A μ,p, F A σ,p, F A 1,p, F V p)。（3）0其中F A μ,p和F A σ,p是F A p [17,42]中元素的均值和方差。F A1,p是参考图像中3D点p的注意力感知特征。0基于光线的1D隐式场0LSTM与其他方法的比较。给定假设点的特征，使用LSTM学习基于光线的1D隐式场[15]。关键是，我们利用了LSTM的两个属性。首先，顺序处理机制本质上有助于沿光线方向学习SDF的单调性。其次，时间不变性的特性通过允许零交叉位置出现在光线上的任何位置（时间步）来增加网络的鲁棒性。替代顺序推理的方法是使用transformer[34]。然而，我们在实验中发现，用transformer替换LSTM并不会改善性能（见表3）。0网络架构。1D隐式场的网络架构如图5所示。LSTM首先按顺序聚合假设点，并生成光线特征cK。具体而言，时间步k处LSTM单元的公式为：0z = tanh(W [F k, h k-1] + b)，0z f = σ(W f [F k, h k-1] + b f)，0z u = σ(W u [F k, h k-1] + b u)，0z o = σ(W o [F k, h k-1] + b0c k = z f ◦ c k-1 + z u ◦0h k = z o ◦ tanh(c0其中F k是点p k的特征，h k和h k-1分别是点p k和pk-1的隐藏状态，z是细胞……MLP�� (SDF = 0)MLP�MLP�MLP�̅��ℎ�×+××��ℎ�t��ℎ�t��ℎ�̅��ℎ�×+××�ℎ��t��ℎ�t��ℎ�̅��ℎ�×+××�ℎ��t��ℎ�t��ℎ��̅��̅��̅��(8)85990表面0相机0相机0图5.基于光线的1D隐式场的网络架构。假设点按顺序输入LSTM，以估计零交叉点的位置和SDF。0输入激活向量z f 是遗忘门的激活向量，z u是更新门的激活向量，z o 是输出门的激活向量，c k是细胞状态向量，W，W f，W u，W o 是权重矩阵，b，bf，b u，b o 是权重向量，◦是逐元素乘法。LSTM初始化为c 0 = 0和h 0 =0。对于每个假设点p k，我们使用光线特征c K，点特征Fk和其深度值dk（表示光线上的位置）使用MLP来估计其SDF sk。我们使用归一化的深度值d k = k/K ∈ [0,1]和归一化的SDF s k = s k /s max ∈ [-1,1]，而不是使用真实的深度值d k和估计真实的SDF sk，其中s max是光线上的最大绝对SDF值。这种归一化导致学习复杂性显著降低并提高结果质量。SDF预测的公式为：0s k = MLP s ([c K, F k, d k])。（5）0上述网络预测了光线上假设点的SDF。然而，仍然需要进行后处理，例如光线投射，以找到零交叉位置。我们通过另一个MLP将我们的方法扩展到明确估计零交叉位置。将光线特征c K作为输入，MLP预测归一化的1D坐标上光线上的零交叉位置l ∈ [0, 1]：0l = MLP l (cK). (6)0损失函数。我们采用多任务学习策略来优化RayMVSNet。SDF估计和零交叉位置估计这两个任务本质上是相关的，并且可以通过优化以下损失函数相互增强：0L = wsLs + wlLl + wslLsl, (7)0其中Ls和Ll分别是SDF估计和零交叉位置估计的损失：0PatchMatchNet CasMVSNet 我们的方法0图6.RayMVSNet和基线方法重建的点云的视觉比较。请注意图中突出显示的具有挑战性区域的结果。0Ls =0k=1 L1(sk, ˆsk),0Ll = L1(l, ˆl),0其中ˆsk和ˆl是真实值，L1(∙)表示L1损失函数。Lsl是一个关系损失，惩罚预测的SDF和预测的零交叉位置之间的不一致性：0Lsl =01, sal × sbl > 0 0, sal × sbl ≤ 0, (9)0其中sal和sbl是预测的射线上预测的零交叉位置周围最近的两个采样点的SDF。ws，wl，wsl是预定义的权重。03.4. 实现细节0我们提供训练和推理的实现细节。每次，RayMVSNet使用输入图像大小为640×512的几个图像。输出特征大小为640×512×8。2DU-Net由6个卷积层和6个反卷积层组成，每个层后面都跟着一个批归一化层和ReLU层，除了最后一层。3D成本体积被馈送到一个3DU-Net中，该网络由三个3D卷积层和三个3D反卷积层组成。在每条射线上，假设的点数K为16。DTU的点采样范围δ为20毫米，Tanks＆Temples的点采样范围δ为100毫米。从图像和体积中提取的特征分别使用双线性插值和三线性插值实现。z，zf，zu，zo，ck，hk的隐藏维度为50。MLPl和MLPs都包含4个全卷积层。多任务学习损失函数的权重ws，wl，wsl分别为0.1，0.8，0.1。对极变换器和LSTM进行联合训练。我们使用Adam优化器，初始学习率为0.0005，每2个epoch降低0.9。训练时间为48小时。推理时间约为2秒。我们使用之前的工作[42]对深度图进行滤波和融合，生成3D点云。5 mm0 mm860004. 结果和评估0数据集。我们在DTU数据集[1]上训练和测试RayMVSNet。DTU数据集包含79个训练扫描和22个测试扫描，所有扫描都是在不同的光照条件下拍摄的。由于DTU没有提供SDF注释，我们使用重建的表面密集地生成点级别的SDF[28,42]。此外，从DTU测试集中创建了三个具有挑战性的测试子集，重点关注具有镜面反射、阴影和遮挡的区域。这些区域经过手动注释，用于评估方法在具有挑战性情况下的性能。有关子集详细信息，请参阅补充材料。为了评估泛化性能，我们在Tanks＆Temples[20]上测试RayMVSNet，该数据集包含大规模复杂场景，使用在DTU上训练的模型而无需微调。BlendedMVS[44]是另一个包含各种复杂场景的大规模数据集。我们提供了在BlendedMVS上的定性结果，以展示我们方法的可扩展性。04.1. 在DTU上的性能0对点云进行评估。为了评估所提出的方法在DTU上的性能，我们使用[1]中的距离度量比较重建点云的准确性和完整性。定量结果如表所示。01.从中可以看出，我们的方法不仅在准确性和完整性方面产生了有竞争力的结果，而且在整体性能方面也达到了最先进的水平。这证明了RayMVSNet的有效性，特别是在平衡准确性和完整性之间的权衡方面。定性比较在图6中可视化。可以看出，我们的方法在各种场景中实现了高质量的重建。特别是在纹理缺失区域，严重遮挡和复杂几何形状的场景中，我们的方法优于基线方法。0表1.在DTU数据集上的定量结果。我们使用距离度量[1]来比较所有方法。数字以mm为单位报告（数值越低越好）。0方法准确性完整性整体性0Gipuma [11] 0.283 0.873 0.578 MVSNet [42] 0.396 0.527 0.462R-MVSNet [43] 0.383 0.452 0.417 CIDER [38] 0.417 0.437 0.427P-MVSNet [21] 0.406 0.434 0.420 Point-MVSNet [5] 0.342 0.4110.376 Fast-MVSNet [47] 0.336 0.403 0.370 Att-MVSNet [22]0.383 0.329 0.356 CasMVSNet [13] 0.325 0.385 0.355CVP-MVSNet [41] 0.296 0.406 0.351 PatchmatchNet [35] 0.4270.277 0.352 UCS-Net [8] 0.338 0.349 0.344 AACVP-MVSNet [46]0.357 0.326 0.341 U-MVS [37] 0.354 0.353 0.3540我们的 0.341（第6名） 0.319（第2名） 0.330（第1名）0参考MVSNet CasMVSNet UCS-Net 我们的0图7.由RayMVSNet和基线方法估计的深度图的视觉比较。0图8.整个DTU测试集（a）和具有挑战性的测试子集：镜面反射（b），阴影（c）和遮挡（d）的深度图预测的定量比较。百分比（Y轴）表示深度预测误差小于特定误差阈值（X轴）的像素比例。0深度图评估。为了进一步证明我们的优势，我们将RayMVSNet与现有方法进行比较，以预测的深度图为基准。报告了在整个DTU测试集（图8a）和具有挑战性的子集（图8b-d）上的定量比较。百分比（Y轴）表示深度预测误差小于特定误差阈值（X轴）的像素比例。较高的百分比表示更好的性能。显然，我们的方法在所有误差阈值上都优于所有基线方法。关键是，我们的方法在具有挑战性的情况下更具普适性和鲁棒性，如图7所示，这要归功于从基于射线的1D隐式场中学到的先验知识。04.2.在Tanks＆Temples上的性能0我们在Tanks＆Temples数据集上与基线方法进行比较。按照之前工作的协议[13]，我们使用在DTU上训练的网络。F-score是评估指标。定量结果如表2所示。我们的方法取得了最佳性能，证明了在大规模场景中基于极线变换和基于射线的1D隐式场的普适性。86010表2.在Tanks＆temples数据集上的定量结果。我们使用f-score作为评估指标（数值越高越好）。0方法家族弗朗西斯马灯塔 M60 黑豹游乐场火车平均0MVSNet [42] 55.99 28.55 25.07 50.79 53.96 50.86 47.90 34.69 43.48 R-MVSNet [43] 69.96 46.65 32.59 42.95 51.88 48.80 52.00 42.38 48.40PVA-MVSNet [45] 69.36 46.80 46.01 55.74 57.23 54.75 56.70 49.06 54.46 CVP-MVSNet [41] 76.50 47.74 36.34 55.12 57.28 54.28 57.4347.54 54.03 CasMVSNet [13] 76.37 58.45 46.26 55.81 56.11 54.06 58.18 49.51 56.84 UCS-Net [8] 76.09 53.16 43.03 54.00 55.60 51.49 57.3847.89 54.83 D2HC-RMVSNet [40] 74.69 56.04 49.42 60.08 59.81 59.61 60.04 53.92 59.20 U-MVS [37] 76.49 60.04 49.20 55.52 55.33 51.2256.77 52.63 57.150我们的 78.55 61.93 45.48 57.59 61.00 59.78 59.19 52.32 59.480表3. 消融研究。使用距离度量报告性能（数值越低越好）。0方法准确率完整度总体得分0无极线变换 0.347 0.339 0.343 无2D图像特征 0.345 0.352 0.348无3D体素特征 0.434 0.322 0.378 可视化最大特征聚合 0.345 0.3310.338 全局隐式场 0.573 0.642 0.608 基于Transformer的Ray 0.3390.343 0.341 基于平均池化的Ray 0.356 0.406 0.381基于最大池化的Ray 0.466 0.383 0.424 无SDF预测 0.354 0.330 0.3420我们的方法 0.341 0.319 0.33004.3. 消融研究0在表3中，我们进行了消融研究，以量化RayMVSNet中几个关键组件的有效性。0特征聚合。跨视图特征聚合是RayMVSNet的关键组件。为了评估其重要性，我们将完整方法与没有某些特定组件的几个基线进行比较：无极线变换、无2D图像特征和无3D体素特征。结果清楚地显示，所有这些基线都导致性能下降。值得注意的是，无极线变换实现了更低的完整度得分，表明极线变换可以通过提供更可靠的跨视图相关性使重建更完整。我们还将我们的极线变换与其他多视图特征聚合方法进行了比较。在可视化最大特征聚合的实验中，我们将极线变换替换为基于可见性的最大池化特征聚合[6]。结果表明，极线变换是更好的解决方案。0全局隐式场。我们的方法通过将场景分割成一束射线来学习局部一维隐式场。为了显示其必要性，一个直接的基线是直接在参考视锥中学习全局隐式场，从而没有射线表示。该基线采用与完整方法相同的跨视图特征聚合，并预测参考中所有点的SDF。0（b）完整方法（a）无SDF预测（c）场景0射线方向0真实深度预测深度0射线方向0射线方向射线方向0图9.基于中间层特征图的t-SNE可视化，显示了无SDF预测基线（a）和完整方法（b）在场景中标记的绿色段的情况（c）。0通过使用MLP在视锥中生成深度图。然后，通过从预测的SDF进行射线投射算法生成深度图。不出所料，实验证明该网络很难收敛并导致低的定量性能，这表明基于射线的一维隐式场确实简化了学习过程，并适用于MVS问题。0其他基于射线的隐式场模型。为了揭示我们提出的LSTM的必要性，我们将我们的方法与几种替代顺序数据处理模型的基线进行比较。具体而言，我们研究了将LSTM替换为平均池化、最大池化和Transformer[34]的效果。基于平均池化的Ray和基于最大池化的Ray基线分别通过对所有采样点进行平均池化和最大池化来聚合射线特征。然后使用聚合特征来预测零交叉位置。同时，也进行了逐点的SDF预测作为辅助任务。结果表明，我们的方法优于所有基线。特别是基于平均池化的Ray和基于最大池化的Ray的性能显著下降，这意味着基于射线的一维隐式场建模是一个非常复杂的任务。基于Transformer的Ray方法在Overallscore方面不如完整方法，这证实了LSTM对我们的问题更加合适。0无SDF预测。SDF预测是RayMVSNet的辅助任务。我们通过关闭它并与完整方法进行比较来展示其影响。86020图10. Tanks & temples（顶行），BlendedMVS（中行）和DTU（底行）上重建点云的图库。0图11.对粗糙深度质量的敏感性。报告像素级深度预测误差小于1mm的百分比（a）和点云重建的总体得分（b）。0w/oSDF预测基准的性能低于完整方法，这表明SDF预测和零交叉位置预测的联合训练确实有帮助，因为SDF提供了额外的监督。图9对比了完整模型和没有SDF预测的基准模型的中间层特征，可以看到完整方法的中间层特征在射线方向上保持更好的单调性，从而得到更准确的预测结果。04.4. 对粗糙深度质量的敏感性0我们展示了我们的RayMVSNet对于粗糙深度预测的不准确性具有鲁棒性。在实验中，我们在预测的粗糙深度图上添加高斯噪声，包括训练和测试阶段。我们报告了深度图预测和点云重建在DTU上的性能。图11显示RayMVSNet对于中等扰动（噪声标准差≤0.4mm）具有鲁棒性。有趣的是，当添加中等噪声时，深度图预测的质量略微提高。这证明了数据增强的作用。0对于训练更具有普适性的RayMVSNet，对粗糙深度进行适度扰动等操作是有帮助的。04.5. 定性结果0我们在图10中展示了RayMVSNet在几个数据集上的定性结果。请注意，RayMVSNet能够重建具有细粒度几何细节的大规模场景，如突出显示的区域。05. 结论0我们提出了RayMVSNet，它学习直接优化每个相机射线上的深度值。设计了一个极线变换器，以实现对1D基于射线的隐式场的顺序建模，从本质上模拟了传统MVS中的极线搜索。基于射线的方法仅使用低分辨率的代价体积就能显著提升性能。一个有趣的未来方向是进一步增强基于射线的深度MVS方法，以完全节省代价体积卷积。在大多数深度MVS工作中，通过估计的深度图恢复3D点云作为后处理。我们希望研究端到端优化的3D点云[30]。0致谢0感谢匿名审稿人的宝贵意见。本工作得到了国家自然科学基金委员会（NSFC）的部分支持（62132021，62102435，62002379，U20A20185，61972435），中国国家重点研发计划（2018AAA0102200）和浙江实验室国际青年专家基金的支持。[5] Rui Chen, Songfang Han, Jing Xu, and Hao Su. Point-basedmulti-view stereo network. In Proceedings of the IEEE/CVFInternational Conference on Computer Vision, pages 1538–1547, 2019. 2, 6[6] Rui Chen, Songfang Han, Jing Xu, and Hao Su. Visibility-aware point-based multi-view stereo network.IEEEtransactions on pattern analysis and machine intelligence,43(10):3695–3708, 2020. 2, 7[7] Zhiqin Chen and Hao Zhang. Learning implicit ﬁelds forgenerative shape modeling. In Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition,pages 5939–5948, 2019. 2[8] Shuo Cheng, Zexiang Xu, Shilin Zhu, Zhuwen Li, Li ErranLi, Ravi Ramamoorthi, and Hao Su. Deep stereo using adap-tive thin volume representation with uncertainty awareness.In Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition, pages 2524–2534, 2020. 1,2, 3, 6, 7[9] Yu Deng, Jiaolong Yang, and Xin Tong. Deformed implicitﬁeld: Modeling 3d shapes with learned dense correspon-dence. In Proceedings of the IEEE/CVF Conference on Com-puter Vision and Pattern Recognition, pages 10286–10296,2021. 2[10] Yueqi Duan, Haidong Zhu, He Wang, Li Yi, Ram Nevatia,and Leonidas J Guibas. Curriculum deepsdf. In EuropeanConference on Computer Vision, pages 51–67. Springer,2020. 3[11] Silvano Galliani, Katrin Lasinger, and Konrad Schindler.Massively parallel multiview stereopsis by surface normaldiffusion. In Proceedings of the IEEE International Confer-ence on Computer Vision, pages 873–881, 2015. 6[12] Kyle Genova, Forrester Cole, Avneesh Sud, Aaron Sarna,and Thomas Funkhouser. Local deep implicit functions for3d shape.In Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition, pages 4857–4866, 2020. 3[13] Xiaodong Gu, Zhiwen Fan, Siyu Zhu, Zuozhuo Dai, FeitongTan, and Ping Tan. Cascade cost volume for high-resolutionmulti-view stereo and stereo matching. In Proceedings ofthe IEEE/CVF Conference on Computer Vision and PatternRecognition, pages 2495–2504, 2020. 1, 2, 3, 6, 7[14] Wilfried Hartmann, Silvano Galliani, Michal Havlena, LucVan Gool, and Konrad Schindler. Learned multi-patch simi-larity. In Proceedings of the IEEE International Conferenceon Computer Vision, pages 1586–1594, 2017. 2[15] Sepp Hochreiter and J¨urgen Schmidhuber. Long short-

下载后可阅读完整内容，剩余1页未读，立即下载