IterMVS：高效多视图立体的迭代概率估计

44 浏览量更新于2023-10-25 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8606×↑IterMVS：用于高效多视图立体的迭代概率估计王方金华1SilvanoGalliani2Christoph Vogel2Marc Pollefeys1，21苏黎世联邦理工学院计算机科学系2微软混合现实AI苏黎世实验室摘要我们提出了IterMVS，一种新的数据驱动的方法，用于高分辨率多视图立体。我们提出了一种新的基于GRU的估计器，它在其隐藏状态下对深度的逐像素概率分布进行编码。我们的模型通过多尺度的匹配信息，在多次迭代中细化这些分布，并推断出深度和置信度.为了提取深度图，我们以一种新的方式结合了传统的分类和回归。在DTU、Tanks Temples和ETH3D上验证了该方法的有效性。虽然在内存和运行时间方面都是最有效的方法，但我们的模型在DTU上实现了有竞争力的性能，并且在Tanks Temples和ETH3D上具有比大多数最先进的方法更好的代码可从https：//github.com/FangjinhuaWang/IterMVS网站。1. 介绍多视点立体（MVS）描述了从一组校准图像重建观察场景的密集3D模型的技术。 MVS是几何计算机视觉的一个基本问题，也是增强/虚拟现实、自动驾驶和机器人等应用的核心技术。尽管已经被广泛研究了几十年，但现实世界应用场景中出现的条件造成了一些问题，如遮挡、光照变化、低纹理区域和非朗伯表面[1，18，33，50]，这些问题至今仍未解决传统方法[9，10，32，42]遭受手工建模和匹配度量，并在这些具有挑战性的条件下挣扎。相比之下，最近基于卷积神经网络（CNN）的数据驱动方法[11，40，48，49，51]在各种MVS基准测试[1，18]上表现出显著改善的性能一个流行的代表，MVSNet [48]，构建了一个3D成本体积，用3D CNN正则化，并从概率体积回归深度图。虽然这种方法在基准测试中取得了令人印象深刻的性能，但它不能很好地扩展到高分辨率图1. (a)与最先进的基于学习的MVS方法[6，11，40，47，49]在Tanks Temples [18]上的比较（所有方法仅在DTU [1]上训练）。左：F分数（）。右：GPU内存和运行时（图像大小1920 1024，7视图）。(b)在ETH3D上与PatchmatchNet进行定性比较[33]。我们的重建包含了明显更少的噪音。图像或大规模场景，因为3D CNN是复杂和运行时间消耗的。然而，低运行时间和功耗是大多数工业应用的关键，资源友好的方法变得更加重要。为了提高效率，提出了MVSNet的最新变体[48]，其主要可分为两类：递归方法[46，49]和多阶段方法[6，11，40，47]。几种递归方法[46，49]可以通过使用GRU [7]或卷积LSTM [41]顺序地调节成本量来放松内存消耗，但是，以增加运行时间为代价。相比之下，多阶段方法[6，11，47]利用级联成本体积并从粗到细估计深度图。虽然这种方法可以在内存和运行时都带来高效率，但减少了搜索8607较精细级的范围意味着从粗分辨率引起的误差中恢复的限制[35]。在所有基于学习的方法中，将具有竞争力的性能与最高的内存和运行时间效率相结合的当前方法是PatchmatchNet [40]。基于传统的PatchMatch [3，10]，PatchmatchNet将学习的自适应传播和评估模块与级联结构相结合。虽然共享由粗到细方法的共同限制，但与其他多阶段方法相比，Patch- matchNet的泛化能力似乎有限[6，11，47]。在这项工作中，我们提出了IterMVS，一种新的基于GRU的迭代方法，旨在进一步提高效率以及高分辨率MVS的性能。贡献：（i）我们提出了一种新的轻量级的基于GRU的概率估计器，其在其隐藏状态下对深度的每像素概率分布进行编码。这种压缩表示不需要将概率量一直保持在存储器中。在每个迭代中，注入多尺度匹配信息以更新逐像素深度分布。与从粗到细的方法相比，基于GRU的概率估计器始终以相同的分辨率操作，利用大的搜索范围并跟踪整个深度范围上的分布。（ii）我们提出了一种简单而有效的深度估计策略，该策略结合了分类和回归，对多模态分布具有鲁棒性，但也实现了亚像素精度。（iii）我们在各种MVS数据集上验证了我们的方法的有效性，例如，[18]第一次，是在1933年，他的父亲，也是一个很好的朋友。结果表明，IterMVS实现了非常有竞争力的性能，同时在所有基于学习的方法中显示出最高的内存和运行时间效率。1.一、与PatchmatchNet [40]相比，IterMVS在内存和运行时间方面都更有效，在DTU [1]上实现了相当的性能，并且在Tanks Temples [18]和ETH3D [33]上表现出更好的泛化能力2. 相关工作传统MVS。基于场景表示的MVS方法可以分为三大类：基于体的、基于点云的和基于深度图体积方法[20，22，34，39]将3D空间离散为体素，并将每个体素标记为真实表面的内部或外部。在场景空间中操作通常以大量内存和运行时消耗为代价，限制了应用程序到较小规模的场景。基于点云的方法[9，24]直接在3D点上操作，并且通常采用传播来逐渐致密重建。通过将问题解耦为深度图估计和融合，基于深度图的方法[10，32，42，44]更加符合cise 和灵活。加利亚尼等人 [10] 提出 Gipuma ，Patchmatch立体的多视图扩展，它使用红-黑棋盘图案来并行传播。InCOLMA P，Sc hönber geretal. [32]联合估计逐像素视图选择、深度图和表面法线。尽管传统的基于深度图的方法可以实现令人印象深刻的结果，但手工制作的模型和特征限制了在具有挑战性的条件下的性能。数据驱动的MVS。近年来，数据驱动方法成为MVS研究的几种体积方法[14，15]首先从多个图像计算成本体积，并在使用3D CNN进行成本体积正则化后推断表面体素。然而，类似于传统的体积方法，它们仅限于小规模的重建。更常见的是基于深度图的方法[5，27，43，48]，其中十种以类似的方式操作。MVSNet[48]可以看作是一个蓝图。它从用3D CNN正则化的特征计算初始成本体积，3D CNN的高数据消耗通常将这些方法限制在下采样的成本体积和深度图上。最近，提出了几种基于MVSNet的变体[48]，旨在减少内存和运行时消耗。两个主要思想涉及经常性[46，49]和多阶段方法[6，11，40，45，47，52]。R-MVSNet [49]使用GRU [7]顺序地调整成本体积的2D切片D2HC-RMVSNet [46] 用复杂的卷积 LSTM [41] 增强了 R-MVSNet。这些递归方法的主要缺点是运行时间长。相比之下，多阶段方法[6，11，45，47，52]在内存和运行时都实现了效率它们对级联成本卷进行操作，并以粗略到精细的方式估计深度图。首先，利用大但粗糙的采样间隔来计算低分辨率深度图。在上采样之后，以更高的采样率但以更小的间隔和搜索范围来细化估计。 PatchmatchNet [40] 进一步提出了一种基于PatchMatch [2，3]的自适应过程，在所有基于学习的方法中实现了卓越的效率。尽管其令人印象深刻的性能，粗到精的方法难以从粗分辨率[35]引入的误差中恢复，其中采样间隔较大，但采样频率较低。相比之下，我们以相对较高的分辨率估计深度图，并在每次GRU迭代中在固定的大搜索范围内生成假设此外，我们让GRU的隐藏状态编码整个深度范围的概率分布。迭代更新。最近，RAFT [35]提出通过GRU迭代更新运动场来估计光流，GRU模拟一阶优化。该思想进一步被立体声[26]，场景流[36]和SfM [12]采用。在我们的工作中，我们让GRU为每个像素的概率分布建模，并从中预测深度8608∈∈⟨··⟩i=1∈i=0时∈×∈∈我×C/G0我 i、j（p，j）=i=1。（四）Dk−1（p）Dk−1（p）DMaxDmini=1DMax{|}DMaxDminDMax地图隐藏状态在每次迭代中更新，以更准确地对逐像素概率分布进行建模。3. 方法在本节中，我们将介绍Iter-MVS的详细结构，如图所示。二、它包括一个多尺度特征提取器，一个迭代的基于GRU的概率估计器，该估计器对每个像素处的深度的概率分布进行建模，以及一个空间上采样模块。3.1. 多尺度特征提取器给定N个大小为W×H的输入图像，我们使用I0，第g个组相似性si（p，j）g∈R可以计算为：s（p，j）g=1F（p）g，F（p）g其中，表示点积。这导致相似性siRW×H×D×G，其中D是每个像素的深度假设的数量。初始化。为了初始化GRU的隐藏状态hRW/4×H/4×32，我们只利用第3层上的特征，然后对结果进行上采样，以进一步减少计算量。在1/8分辨率和预定义深度范围[dmin，dmax]内的每个像素，我们将D1等深度假设放置在逆深度范围中。在图像空间中均匀采样假设更适合于{i}N−1分别表示参考图像和源图像，大规模的场景[43，49]。在可微翘曲之后，活泼地与[11，40]类似，我们使用特征金字塔网络（FPN）[25]从图像中提取多尺度特征。我们在3个尺度级别上获得特征，并将第i个图像在级别1上的特征表示为Fi，l。特征Fi，l以1/2l分辨率存储，并且具有C=16，32，64通道，水平1=1，2，3。虽然我们避免使用显式的粗到细结构，例如，[11，40]，我们可以通过在GRU的每次迭代中使用我们的多尺度特征进行匹配相似度计算来包括多尺度上下文信息。这提高了性能，如表4所示。3.2. 基于GRU的概率估计我们的核心模块，基于GRU的概率估计器，用以下公式对深度的每像素概率分布进行建模：32维的隐藏状态 GRU以1/4的速度W/4H/4我们可以计算（N-1）2-视图匹配相似度si（i=1，···，N−1）二、对于每个源视图，我们进一步估计逐像素视图权重[40，45]，该权重在整合来自所有源视图的信息时提供可见性信息和增强的鲁棒性一个轻量级的2DCNN应用于si的图像空间，以聚合局部信息并将特征通道从G减少到1。沿深度尺寸应用softmax非线性可产生PiRW/8×H/8×D1。对于像素p，源视图i的视图权重可以计算为：wi（p）= max {Pi（p，j）|j = 0，1，. - 是的- 是的，D1− 1}.（三）最后，针对pix elp和深度假设dj的综合匹配相似度Sinitial（p，j）由下式给出：<$N−1wi（p）·si（p，j）Si=1我分辨率，输出深度图R×且不-初始N−1w（p）滚动K次迭代。微分翘曲。遵循大多数基于学习的MVS方法[11，40，48，49]，我们将源特征扭曲到前平行平面w.r.t.在给定深度假设处的参考视图具体地，对于参考视图中的像素p和第j个深度假设dj：=dj（p），具有已知的内禀{Ki}N−1和相对变换[R0 ，it0 ，i]N−1，我们可以计算源视图中对应的pixelpi，j：=pi（dj）p=K·（R·（K−1·p·d）+t）。（一）为了也考虑深度图的空间相关性，我们通过在S初始RW/8×H/8×D1×G上应用2D U-Net [ 31 ]来聚合来自相邻像素的相似性信息。这使得匹配更加鲁棒[11，40，48]。最后的卷积层输出一个1通道相似度S<$initialRW/8×H/8×D1。然后是2DCNN，2 个双线性上采样和双曲正切非线性依次应用于S初始以产生初始隐藏状态H0。迭代更新。对于迭代k和级别l处的每个像素p，我们生成在归一化逆矩阵中在大小为2Rl的间隔内均匀采样的Nl个i、ji0，i0j0，i范围[（1−1 ）/（1−1 ）−Rl，（1−经过去均匀化处理后，得到了变形特征Fi（pi，j）通过双线性插值。2-视图匹配相似度计算。因为原则对于所有特征级别都是相同的，所以我们省略了表示级别的子索引。给定参考和扭曲的第i个源特征，F0（p），Fi（pi，j）RC，我们首先使用分组相关[13，40，43]来降低维度。通过将特征通道均匀地分成G=8个组，1）/（1−1）+Rl]，以先前深度为中心估计Dk−1∈RW/4×H/4。与[26]类似，我们进一步确保R l-1

下载后可阅读完整内容，剩余1页未读，立即下载