深度MVS的PatchMatch-RL优化方法

25 浏览量更新于2023-10-14 收藏 29.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

161580PatchMatch-RL：基于像素深度、法线和可见性的深度MVS0Jae Yong Lee 1 Joseph DeGol 2 Chuhang Zou * 3 Derek Hoiem 101 伊利诺伊大学香槟分校 {lee896, dhoiem}@illinois.edu02 微软joseph.degol@microsoft.com03 亚马逊Gozouchuha@amazon.com0摘要0最近的基于学习的多视角立体（MVS）方法在具有密集相机和小深度范围的情况下表现出优异的性能。然而，基于非学习的方法在具有大深度范围和稀疏宽基线视图的场景中仍然表现优于学习方法，部分原因是它们通过像素级深度、法线和可见性的PatchMatch优化来实现。在本文中，我们提出了一种端到端可训练的基于PatchMatch的MVS方法，它结合了可训练成本和正则化的优势与像素级估计。为了克服PatchMatch优化的非可微分性，该优化涉及迭代采样和硬决策，我们使用强化学习来最小化预期的光度成本并最大化地面真实深度和法线的可能性。我们通过使用扩张的块内核来引入法线估计，并提出了一种适用于像素级深度/法线估计的循环成本正则化方法。我们在广泛使用的MVS基准测试ETH3D和Tanks andTemples（TnT）上评估了我们的方法。在ETH3D上，我们的方法优于其他最近的基于学习的方法，并在先进的TnT上表现相当。01. 引言0多视角立体（MVS）旨在从一组具有已知相机姿态的RGB图像中重建3D场景几何，具有许多重要应用，如机器人技术[25]、自动驾驶汽车[8]、基础设施检查[7,13]和地图制作[31]。基于非学习的MVS方法[5, 26, 32, 34,41]发展出支持像素级深度、法线和源视图选择的估计，采用基于PatchMatch的迭代优化和跨图像一致性检查。最近的基于学习的MVS方法[12, 15, 16, 39,40]倾向于使用正面平面扫描，根据相同的图像为每个像素评估相同的深度候选集。学习方法的可训练光度得分和成本体积正则化导致了出色的性能：0* 亚马逊之外的工作代码可在https://github.com/leejaeyong7/patchmatch-rl上找到0图像真实值0COLMAP [27] 我们的方法图1.我们提出了PatchMatch-RL，一种端到端可训练的基于PatchMatch的MVS方法，它结合了可训练成本和正则化的优势与像素级深度、法线和可见性的估计。底部图像左半部分是深度，右半部分是法线。我们展示了我们的方法可以在现有方法（COLMAP）上实现更平滑和更完整的深度和法线图估计。0在具有密集相机和小深度范围的情况下，学习方法在DTU[2]和Tanks-and-Temples（TnT）基准测试[18]中表现出优异的性能，但基于像素的非学习方法在具有大深度范围和稀疏宽基线视图的场景中表现更好，如ETH3D基准测试[28]所示。我们的论文旨在将像素级深度、法线和视图估计纳入端到端可训练的系统中，兼具两种方法的优势：0•像素级深度和法线预测有效地对具有大深度范围和倾斜表面的场景进行建模。0• 像素级视图选择提高了对遮挡的鲁棒性，并使得可以从更稀疏的图像中进行重建。0• 学习的光度成本函数提高了对应的鲁棒性。61590•学习正则化和上下文推理使得对无纹理和光滑表面的完成成为可能。其中一个挑战是PatchMatch优化和像素级视图选择涉及迭代采样和硬决策，这些决策不可微分。我们提出了一种强化学习方法，以最小化预期的光度成本并最大化达到良好最终解的折扣奖励。我们的技术也可以用于实现其他PatchMatch应用的学习（例如[3, 14,21]），尽管我们只关注MVS。由于卷积特征往往是平滑的，因此估计像素的3D法线是具有挑战性的，因为相邻单元添加的新信息很少，并且基于块的光度成本需要大量内存。我们发现，通过使用较浅的特征通道和扩张的块内核，我们可以有效地估计像素法线。第三个挑战是如何进行正则化或全局推理。每个像素都有自己的深度/法线估计，因此基于成本体积的正则化不适用。我们提出了一种通过消息传递更新隐藏状态的循环成本正则化方法，该方法考虑了像素之间的深度/法线相似性。总之，我们的主要贡献是一种端到端可训练的基于PatchMatch的MVS方法，它结合了可训练成本和正则化的优势与像素级估计，需要多个创新点：0•使用基于采样的PatchMatch优化的强化学习方法进行端到端训练。0•使用法线估计的学习型MVS，通过可训练的PatchMatch优化和CNN补丁特征实现。0•深度/法线正则化适用于超越前向平面扫描算法的范围；例如，适用于我们的像素级深度/法线估计。在实验中，我们的系统在ETH3D上优于其他最新的基于学习的方法，并在TnT上表现相似，我们的消融研究验证了像素级法线和视图选择估计的重要性。02. 相关工作0在正确的场景几何条件下，可以确定在不同校准相机中对应于表面块的像素，并且它们的外观模式将是相似的（“光度一致”）。这种多视图立体（MVS）的核心思想导致了一系列的公式、优化算法和改进。我们专注于我们工作的直接衍生物，将有兴趣的读者引用到一篇调查/教程[9]和一份论文列表[1]，以获取更完整的背景和覆盖范围。第一个也是最简单的公式是将每个像素分配给一组候选视差或深度值之一[22]。可以通过在矫正图像的行之间进行滤波来确定局部最佳分配，并且可以很容易地在这个有序标签问题中加入表面平滑先验。然而，在宽基线MVS设置中，每个视图的深度标签存在许多缺点：（1）深度图不在不同视图中对齐，使一致性检查和融合更加困难；（2）斜面的深度不是恒定的，降低了强度块的匹配；（3）深度值的范围可能很大，因此需要大步长才能有效评估整个范围。此外，遮挡和部分重叠的图像需要更加小心地评估光度一致性。这些困难导致了MVS的重新定义，即为参考图像中的每个像素求解深度、法线和视图选择[27,41]。视图选择确定将用于评估光度一致性的其他源图像。这种更复杂的定义创建了一个具有挑战性的优化问题，因为每个像素具有4D连续值（深度/法线）和二进制标签向量（视图选择）。PatchMatch [3, 5,27]非常适合深度/法线优化，因为它采用了一个假设-测试-传播的框架，该框架在标签具有大范围但在局部邻域中近似分段恒定时进行高效推理是理想的。像素级的PatchMatch公式已经通过更好的传播方案[32]、多尺度特征[32]和平面先验[26,34]进行了改进。尽管这一系列工作解决了深度标签方法的缺点，但在光度一致性无法提供信息的平滑或光滑表面重建方面，它通常无法成功，主要是由于整合全局先验的挑战，这在一定程度上由Kuhn等人的后处理可训练正则化方法[19]解决。此外，尽管手工设计的光度一致性函数（如双边加权NCC）通常表现良好，但学习函数可能通过具有上下文敏感性来超越它们。自然地，完全可训练的MVS的第一步也遵循了简单的深度标签定义[15, 16,36]，它很适合学习特征、在“成本体积”（每个位置/标签的特征或分数）上进行推理，并生成标签映射的CNN优势。但是，尽管有改进，例如使用循环网络[37]来改进估计、粗到精的重建[39]、可见性图[35]和基于注意力的正则化[23]，深度标签定义的原始缺点仍然存在。因此，我们现在有了两个并行的MVS最新技术分支：（1）使用PatchMatch优化的复杂手工设计公式，在稀疏的宽基线视图中用于大规模场景重建；（2）深度网络深度标签定义的公式，在较小的场景、平滑表面和更密集的视图中表现优异。基于差分学习和基于采样的优化很难与现有方法的改进或组合相协调。Duggal等人[8]提出了一种可微分的PatchMatch，它优化了softmax加权样本，而不是argmax，并使用它来修剪深度搜索空间以初始化深度标签。我们使用他们的一位滤波器组的想法来进行传播，但在训练过程中使用基于期望的损失，该损失在推理过程中向argmax锐化，以实现argmax推理。最近的Patch-0在不同视图中，对齐困难，使一致性检查和融合更加困难；（2）斜面的深度不是恒定的，降低了强度块的匹配；（3）深度值的范围可能很大，因此需要大步长才能有效评估整个范围。此外，遮挡和部分重叠的图像需要更加小心地评估光度一致性。这些困难导致了MVS的重新定义，即为参考图像中的每个像素求解深度、法线和视图选择[27,41]。视图选择确定将用于评估光度一致性的其他源图像。这种更复杂的定义创建了一个具有挑战性的优化问题，因为每个像素具有4D连续值（深度/法线）和二进制标签向量（视图选择）。PatchMatch [3, 5,27]非常适合深度/法线优化，因为它采用了一个假设-测试-传播的框架，该框架在标签具有大范围但在局部邻域中近似分段恒定时进行高效推理是理想的。像素级的PatchMatch公式已经通过更好的传播方案[32]、多尺度特征[32]和平面先验[26,34]进行了改进。尽管这一系列工作解决了深度标签方法的缺点，但在光度一致性无法提供信息的平滑或光滑表面重建方面，它通常无法成功，主要是由于整合全局先验的挑战，这在一定程度上由Kuhn等人的后处理可训练正则化方法[19]解决。此外，尽管手工设计的光度一致性函数（如双边加权NCC）通常表现良好，但学习函数可能通过具有上下文敏感性来超越它们。自然地，完全可训练的MVS的第一步也遵循了简单的深度标签定义[15, 16,36]，它很适合学习特征、在“成本体积”（每个位置/标签的特征或分数）上进行推理，并生成标签映射的CNN优势。但是，尽管有改进，例如使用循环网络[37]来改进估计、粗到精的重建[39]、可见性图[35]和基于注意力的正则化[23]，深度标签定义的原始缺点仍然存在。因此，我们现在有了两个并行的MVS最新技术分支：（1）使用PatchMatch优化的复杂手工设计公式，在稀疏的宽基线视图中用于大规模场景重建；（2）深度网络深度标签定义的公式，在较小的场景、平滑表面和更密集的视图中表现优异。基于差分学习和基于采样的优化很难与现有方法的改进或组合相协调。Duggal等人[8]提出了一种可微分的PatchMatch，它优化了softmax加权样本，而不是argmax，并使用它来修剪深度搜索空间以初始化深度标签。我们使用他们的一位滤波器组的想法来进行传播，但在训练过程中使用基于期望的损失，该损失在推理过程中向argmax锐化，以实现argmax推理。最近的Patch-The feature maps can be differentiably warped [36] ac-cording to the pixelwise plane homographies from refer-61600图2.架构概述：我们首先使用共享权重的CNN提取多尺度特征。然后进行由对应尺度上的特征图之间的相关性评估光度代价和执行视图选择的粗到细的估计。在最粗糙的阶段，我们为每个平面初始化像素级定向点（深度/法线）和相关的隐藏状态。然后，一系列的PatchMatch迭代更新点和隐藏状态图。PatchMatch迭代包括四个阶段：（1）像素级视图选择；（2）候选传播；（3）带有循环成本正则化的候选评分；（4）候选选择。然后，当前解决方案被上采样作为更精细级别的输入，并且这个过程一直持续到从所有图像中融合的最细级别的定向点估计。0matchNet[30]最小化每次迭代的损失和使用一次性的可见性预测（软视图选择）。我们使用强化学习来训练视图选择并最小化最终深度/法线估计的损失。据我们所知，我们的工作是第一个提出端到端可训练公式的工作，它结合了像素级深度/法线/视图估计和PatchMatch优化，以及深度网络学习的光度一致性和细化的优势。03. PatchMatch-RL MVS0我们提出了PatchMatch-RL，这是一个端到端的学习框架，用于多视图立体（MVS）重建。图2显示了我们方法的概述。给定一组图像I及其对应的相机姿态C =(K，E)，其中K和E分别是内参和外参矩阵，我们的目标是使用一组与I ref 重叠的选定源图像I src � I来恢复参考图像I ref的深度（和法线）。我们不仅解决深度问题，还估计表面法线，这样可以在参考图像和源图像之间沿着局部平面传播假设并比较空间分布特征。表面法线估计改善了倾斜表面的深度估计，并且对于一致性检查、表面建模和其他下游处理也很有用。我们的估计过程是由粗到细的。在最粗糙的级别上，估计值是随机初始化的，然后通过一系列的PatchMatch迭代进行改进，这些迭代包括0像素级视图选择、候选传播、正则化成本计算和候选更新。然后，估计结果被上采样并进一步细化，这个过程一直持续到最细层，之后所有深度估计被融合成一个3D点云。03.1. 初始化0在粗到细的优化的每个级别中，我们使用特征金字塔网络（FPN）[20]为参考图像和源图像提取CNN特征。为了内存效率，每个尺度的输出通道数是不同的，较高分辨率的特征图中的特征通道较浅。Fsp表示图像s中像素p的特征向量。我们的目标是为I ref中的每个像素p解决一个定向点ωp，其中包括平面-相机距离δp和法线np。像素深度dp与δp通过dp = -δp/（np∙K-1∙p）相关联。深度dp从逆深度范围均匀采样，如：d0p�1/U（dmin，dmax），其中dmin和dmax指定深度范围。从反转范围采样优先考虑靠近相机中心的深度，这是Gallup等人证明的有效方法[10]。每个像素的法线np独立于深度进行初始化，通过从3D高斯分布中采样并应用L2归一化[24]。如果法线向量与像素射线面向相同方向，则将其反转。0特征图可以根据参考图像的平面单应性可微地变形[36]。03.2. 特征相关性ence image r to source image s as Hr→sωp= Ks · (Rr→s −Aqp = σ( Frp · h�||Frp||2)q, q ∈ Wα,βpGsωp =�qAqp · (Frq ⊛ FsHr→sωp·q).v∈vv�61610图3.估计的可见性。最左边的图像对应于参考图像，右边的两个图像是源图像。我们用颜色编码最后一个PatchMatch迭代中要估计为可见的相应区域。估计的可见性与实际可见性完全匹配。（最好以彩色查看。）0δ p ) ∙ K − 1 r . 在以 p 为中心的支持窗口 W α,β p上，我们将定向点 ω p 的相关值 G s ω p定义为源图像中匹配特征向量的注意力聚合组相关性：0我们将组间特征向量相关性[33]表示为 �，将参考特征图上的支持像素 q 对中心像素 p进行缩放点积注意力作为 A q p，将注意力特征投影向量表示为 h，实现为1x1卷积。得到的 G s ω p 表示参考图像中以 p为中心的特征与源图像中相应特征的相似性，根据 ω p。在初步实验中，我们对法线 n p的估计效果不佳，没有改善深度估计。问题在于特征的平滑性阻碍了3x3块提供更多的信息。由于内存限制，扩大块的大小是不可行的。通过使用扩张（ β = 3）解决了这个问题，并通过生成更浅的特征通道进一步减少了内存使用。03.3. 逐像素视图选择0根据Sch ¨ onberger等人[27]，我们为每个 ω p计算基于尺度、入射角和三角测量角差异的几何先验。我们将先验与特征相关性 G s ω p连接起来，并使用多层感知器（MLP）预测像素级的可见性估计，表示为 ˆ V s p ∈ [0 , 1]。图3显示了源图像中估计的可见性的示例。然后，我们根据每个像素上的 L1 归一化概率分布对 ˆ V s p进行采样，以获得一组采样的视图 V p。可见性概率进一步用于计算跨视图的特征相关性的加权和。0(a) (b) (c) 图4.红黑PatchMatch传播核。在每个核中，灰色方块表示要更新的像素。红色方块表示提供给PatchMatch一组候选定向点的相邻像素。我们在粗糙级别上使用核(c)，在更细的级别上使用核(b)。03.4. 候选者传播0第t次PatchMatch迭代的定向点图 ω t根据传播核进行传播。常见的核是Galliani等人提出的红黑传播核[10]，如图4所示。我们用 ψ t : ,p = { ω t q | q ∈K ( p ) } ∪ { ω t p prt } 表示通过传播核 K 在像素 p处和当前候选者的随机扰动获得的候选定向点的集合。传播可以使用一系列卷积滤波器的one-hot编码应用，其中在与每个邻居对应的位置上有一个值，由 K 定义。对于每个0候选者的计算方式为 G V ψ k,p =0v ∈V p ˆV v p。03.5. 候选者规则化成本和更新0现有的基于学习的成本正则化方法，例如在空间对齐的成本体积上进行的3D卷积[36]或基于k最近邻的图卷积[6]，利用了相邻标签图之间的序关系。然而，对于 ω p的候选者或相邻像素的候选者，没有一致的关系。相反，我们从循环置信传播（LBP）中获得了洞察力，其中每个节点的置信度通过从相邻节点传递消息进行迭代更新，以便自信标记的节点传播到不太自信的邻居。我们将每个候选者的置信度表示为隐藏状态 ζ t ψk,p，并使用递归神经网络（RNN）估计规则化得分 Z ψ k,p和更新的隐藏状态 ζ t +1 ψ k,p。图5说明了这个过程。0与LBP类似，我们计算候选项与当前标签之间的成对邻域平滑性[4]，其中{M(ψk,p, ωq) | q ∈ N(p)}，其中M(ωp, ωq)= dist(ωp, q) + dist(ωq,p)是每个有向点与由另一个有向点参数化的平面之间距离的总和。我们将平滑性项附加到加权特征相关性GVψk,p作为RNN的输入。然后，RNN可以聚合相似有向点上的置信度（由特征相关性表示）。0每个像素的候选项和相应的隐藏状态▽θJ = Eπθ[Qπθ(s, a)▽θ log πθ(a | s)]=�t▽θ ln πtθ(at | st)Gt=�t�t′>=t▽θγt′−t(N(ωt′; ω∗, σω) log πθ).(2)The sampling can be done in two ways: the categoricaldistribution, which makes the policy approximate the expec-tation of the distribution; or argmax, which makes the policythe greedy solution. As an exploration versus exploitationstrategy, we employ a decaying ϵ-greedy approach where wesample candidates using (1) expectation by probability of ϵor (2) using argmax by probability of 1 − ϵ. We also apply adecaying reward of τ · N(dtp; d∗p, σd).Below, we describe the policy of each agent. We useSV, AV, πV, RV, and SS, AS, πS, RS to denote the state, ac-tion, policy and reward space of the view selection and can-didate selection agents respectively. For simplicity, we usest ∈ S, at ∈ A, and rt ∈ R to denote the correspondingagent’s state, action, and reward in the t-th iteration thatapply to a particular pixel.4.2. Learning Photometric CostFor the candidate selecting agent, the state space is the setof candidate plane parameters ψ: for each oriented point ωp,and the the action space is the selection of a candidate labelfor each pixel in each iteration according to the parameter-ized photometric cost function SθS(ωp). The probability ofselecting each candidate is defined as a softmax distributionbased on the photometric cost of each plane candidate, andthe stochastic policy πS samples from this distribution:πS(at | st) = ωt ∼e−SθS (ψt: )�q∈K e−SθS (ψtq)(3)61620图5.递归成本正则化。给定第t次迭代中每个像素p的隐藏状态ζtp和每个传播候选的可见性加权特征相关性GVψt:,p，我们使用门控循环单元（GRU）模块估计规则化成本Zψ:,p和更新的隐藏状态ζtψ:,p，用于每个平面候选。然后，根据规则化成本进行硬采样，用下一个迭代的最佳候选ψmax,p替换当前有向点ωtp，并使用相应的采样候选ζtωt+1p更新像素的相应隐藏状态ζtp。0通过以下方式更新每个像素的候选项和相应的隐藏状态：0ωt+1p = ψtk,p �Ztψ:,p ζt+1p =ζtωt+1p.0在推理中，ωp的采样是argmax；在训练中，随着训练的进行，采样从概率性到argmax变得更加硬化。更新后的隐藏状态被用作下一个PatchMatch迭代中的递归成本正则化模块的输入。03.6. 粗到细的PatchMatch和融合0估计的有向点映射ωt和相应的隐藏状态ζt通过最近邻插值上采样作为输入传递给更精细级别的PatchMatch迭代。最细级别的ω通过其他MVS系统[10, 27,36]使用的方法融合为一个3D点云。首先，使用投影距离、相对深度距离和法线一致性检查每个参考图像与源视图之间的一致性。然后，将N个一致深度的均值重新投影到世界空间以获得共识点。04. PatchMatch-RL训练0使PatchMatchMVS能够进行端到端的训练是具有挑战性的。PatchMatch更新和视图选择所需的基于argmax的硬决策/采样是不可微分的，并且使用软argmax将法线估计与深度相结合会导致深度和法线相互依赖。我们提出了一种强化学习方法来共同学习候选成本和可见性估计参数。我们使用VθV(ωp)表示像素级可见性估计函数，由θV参数化，该函数根据图像I和相机C给出每个源图像s的可见性分数ˆVsp。我们使用SθS(ψp)表示匹配分数函数，0由θS参数化，为每个ψp给出I、C和选定视图Vp的平面候选分数Zψp。我们的公式包含两个代理：一个选择视图，另一个选择候选项。04.1. 奖励函数0我们将奖励rt = N(ωt; ω�,σω)定义为在第t次迭代中从分布中观察到有向点ωt的概率，给定真实值ω�。我们将分布定义为像素p的深度和法线的联合独立正态分布：0N(ωtp; ω�p, σω) = N(ntp; n�p, σn) ∙ N(dtp; d�p, σd). (1)0我们将预期未来奖励定义为γ-折扣未来奖励的总和：Gt = �0t ′ > = t γ t ′ − t r t . 我们将奖励的梯度定义为步骤奖励N(ωt; ω�, σω) 与代理πθ(at,st)之间交叉熵梯度的负值，根据REINFORCE算法：Ref. ImageGT. DepthCOLMAPOursFigure 6.Qualitative comparison against COLMAP on the ETH3D high-resolution benchmark. From the left, reference image,ground truth depth, depth estimate from COLMAP, normal estimate from COLMAP, depth estimate of our model, and normal estimate ofour model. All of the depth maps share the same color scale based on the ground truth depth ranges. We show that our estimated depths andnormals are more complete than COLMAP.The parameters can be learned via gradient ascent throughthe negative cross-entropy between the probability distribu-tion of the candidates given ground truth and the probabilitydistribution of the candidates estimated by photometric costfunction:▽θSNωt log πS = ▽θS�k∈KNψtk · log(e−SθS (ψtk)�j∈K e−SθS (ψtj) )where Nψtk = N(ψtk; ω∗, σψ) represents the probability ofobserving the candidate ψtk according to the ground truth.4.3. Learning View SelectionFor the view selection agent, the state space contains theset of source images; the action space is a selection of Nimages among the source images for each iteration; and thepolicy uses the parameterized view selection function V(ωtp)to estimate the visibility (∀s ∈ Isrc), ˆVs. The stochasticpolicy πV is:πV(at | st) = v ∼ˆVv�s∈Isrc ˆVs(4)and the gradient:▽θV log πV = ▽θV log(�v∈N ˆVv�s∈Isrc ˆVs )≈ ▽θV(log(�v∈NˆVv) − log(�m∈(N∪M)ˆVm)).For robustness of training, we include only the selected Nviews and worse M views in the denominator to prevent min-imizing the probabilities of good but unselected views. Thisincentivizes training to assign more visibility to good viewsthan bad views (that do not view the point corresponding tothe reference pixel).616305. 实验0我们在两个大规模基准测试上评估我们的工作：Tanks andTemples Benchmark [ 18 ] 和 ETH3D High-ResMulti-View Benchmark [ 28 ]。05.1. 训练细节0对于所有实验，我们使用 BlendedMVS 数据集 [ 38 ]进行训练，该数据集包含了113个物体、室内和室外场景，具有较大的视点变化。我们使用数据集的低分辨率版本，其空间分辨率为 768 × 576。在整个训练和评估过程中，我们使用 α = 3 和 β = 3 ，3层隐藏状态 H ，γ = 0 ，1 分别用于光度评分器和视图选择评分器，以及与 1 相对应的特征图大小04 和 1 2 的原始图像尺寸。训练时，我们使用 2 , 1 , 和 1迭代，评估时，我们分别对每个尺度使用 8 , 2 , 和 2迭代。我们使用图 4 (b) 中显示的 PatchMatch 核 K进行训练。作为一种开发与探索策略，我们采用了衰减的 ϵ-Greedy 方法，其中我们以 ϵ 的概率按照其 softmax分数对候选样本进行采样，以 1 - ϵ 的概率选择 argmax候选样本。 ϵ 的初始值为 0.9，每次指数衰减为 0.999ACMH [32]3200x2130546.7791.1 / 64.8 / 73.984.0 / 80.0 / 81.889.3 / 68.6 / 75.997.4 / 78.0 / 83.794.1 / 75.0 / 90.496.6 / 87.1 / 85.4Gipuma [10]2000x1332272.8186.3 / 31.4 / 41.978.8 / 45.3 / 55.284.4 / 34.9 / 45.295.8 / 42.1 / 54.993.8 / 54.3 / 67.295.3 / 45.1 / 58.0COLMAP [27]3200x21302245.5792.0 / 59.7 / 70.492.0 / 73.0 / 80.892.0 / 63.0 / 73.096.6 / 73.0 / 82.097.1 / 83.9 / 89.796.8 / 75.7 / 84.0PVSNet [35]1920x1280-65.6 / 78.6 / 70.968.8 / 84.3 / 75.766.4 / 80.1 / 72.182.4 / 87.8 / 84.784.5 / 92.7 / 88.282.9 / 89.0 / 85.6PatchmatchNet [30]2688x1792491.6968.8 / 74.6 / 71.372.3 / 86.0 / 78.569.7 / 77.5 / 73.184.6 / 85.1 / 84.787.0 / 92.0 / 89.385.2 / 86.8 / 85.9Ours1920x1280556.5073.2 / 70.0 / 70.978.3 / 78.3 / 76.874.5 / 72.1 / 72.488.0 / 83.7 / 85.592.6 / 89.0 / 90.589.2 / 85.0 / 86.8ACMH [32]3200x2130486.3592.6 / 59.2 / 70.084.7 / 64.4 / 71.588.9 / 61.6 / 70.797.7 / 70.1 / 80.595.4 / 75.6 / 83.596.6 / 72.7 / 81.9Gipuma [10]2000x1332243.3489.3 / 24.6 / 35.883.2 / 25.3 / 37.186.5 / 24.9 / 36.496.2 / 34.0 / 47.195.5 / 36.7 / 51.795.9 / 35.2 / 49.2COLMAP [27]3200x21302102.7195.0 / 52.9 / 66.888.2 / 57.7 / 68.791.9 / 55.1 / 67.798.0 / 66.6 / 78.596.1 / 73.8 / 82.997.1 / 69.9 / 80.5PatchmatchNet [30]2688x1792473.9263.7 / 67.7 / 64.766.1 / 62.8 / 63.764.8 / 65.4 / 64.278.7 / 80.0 / 78.986.8 / 73.2 / 78.582.4 / 76.9 / 78.7Ours1920x1280555.5876.6 / 60.7 / 66.775.4 / 64.0 / 69.176.1 / 62.2 / 67.889.6 / 76.5 / 81.488.8 / 81.4 / 85.790.5 / 78.8 / 83.3With the same trained model, we evaluate on the Tanksand Temples [18] intermediate and advanced benchmarkswhich contain 8 intermediate and 6 advanced large-scalescenes respectively. Similar to the ETH3D High-res bench-mark, we fix the number of the source views to 10, samplethe 3 best views, and fix the image resolution to 1920×1080.Our method takes 12.1 seconds and uses 5801MB of peakmemory for each reference image. Table 2 shows the quanti-tative results of the benchmark. We achieve similar results toCasMVSNet [11] and PatchmatchNet [30]. In Figure 7, wepresent qualitative results on the reconstructed point clouds.61640Test 2cm: 准确率 / 完整度 / F1 Test 5cm: 准确率 / 完整度 / F1 方法分辨率时间(s) 室内室外综合室内室外综合0Train 2cm: 准确率 / 完整度 / F1 Train 5cm: 准确率 / 完整度 / F1 方法分辨率时间(s) 室内室外综合室内室外综合0表1.ETH3D高分辨率MVS基准训练集和测试集上的结果。我们不在任何ETH3D数据上进行训练。粗体表示每个设置中F1得分最高的方法。为了比较，还展示了其他几种方法的结果。我们使用作者提供的代码在相同的硬件上测量重建每个场景所花费的平均时间（包括融合阶段）。PVSNet的结果在训练集上不可用。我们的方法在大多数指标上优于其他最近的基于学习的方法（PVSNet和PatchmatchNet）。0精确率/召回率/F1方法中级高级CIDER [33] 42.8/55.2/46.826.6/21.3/23.1 COLMAP [27] 43.2/44.5/42.1 33.7/24.0/27.2R-MVSNet [37] 43.7/57.6/48.4 31.5/22.1/24.9 CasMVSNet [11]47.6/74.0/56.8 29.7/35.2/31.1 AttMVS [23] 61.9/58.9/60.140.6/27.3/31.9 PatchmatchNet [30] 43.6/69.4/53.227.3/41.7/32.3 PVSNet [35] 53.7/63.9/56.9 29.4/41.2/33.5BP-MVSNet [29]

下载后可阅读完整内容，剩余1页未读，立即下载