多视图立体感的新方法：基于稀疏地面真实的MVS网络

6 浏览量更新于2023-10-13 收藏 2.82MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6178×只需几个点就可以实现多视图立体感：一种新的多视点立体视觉半监督学习方法Taekyung Kim1，Jaehoon Choi2，Seokeon Choi1，Dongki Jung3，ChangickKim11韩国科学技术2马里兰大学3个NAVER实验室{tkkim93，seokeon，changick} @ kaist.ac.kr，kevchoi@umd.edu，dongki. naverlabs.com摘要虽然基于学习的多视图立体（MVS）方法最近已经在质量和效率方面显示出成功的性能，但是有限的MVS数据阻碍了对不可见环境的泛化。一个简单的解决方案是生成各种大规模的MVS数据集，但生成3D结构的密集另一方面，如果放松对密集地面事实的依赖，MVS系统将更顺利地推广到新环境。为此，我们首先介绍了一种新的半监督多视图立体框架，称为基于稀疏地面真实的MVS网络（SGT-MVSNet），即使有几个地面真实3D点，也可以可靠地重建3D结构。我们的策略是划分正确和错误的区域，并分别征服他们的基础上，我们的观察，概率图可以分开这些区域。我们提出了一种称为3D点一致性损失的自监督损失来增强3D重建性能，其迫使通过预测深度值从对应像素反向投影的3D点最后，我们传播这些改进的深度预测的边缘和闭塞由粗到细可靠的深度传播模块。我们生成DTU数据集的备用地面实况用于评估，并且大量实验验证了我们的SGT-MVSNet在稀疏地面实况设置上优于最先进的MVS方法此外，我们的方法显示了与监督MVS方法相当的重建结果，尽管我们只使用了数十和数百个地面真实3D点。1. 介绍多视点立体（Multi-view Stereo，MVS）是计算机视觉中的一个重要问题，它从多视点图像中重建出密集的三维几何图形的工业实用性（c）点MVSNet（密集GT）（d）我们的（稀疏GT）图1：通过使用密集地面实况和我们的SGT训练的Point- MVSNet [1]对DTU数据集[7]的密集地面实况和我们的稀疏地面实况以及扫描13的多视图重建结果的可视化MVSNet用稀疏的地面事实训练通过以1 10−5比率随机采样生成的稀疏地面实况包含大约30到40个3D点。请注意，原始密集地面实况3D 结构由大约3×106个点组成。自动驾驶和机器人等3D重建技术已经吸引了数十年的最近的MVS研究[15，16，1，17，11]成功地将传统方法与基于学习的方法相结合，并在MVS数据集的支持下提高了3D重建质量[7，10]。然而，与对数据集的这种日益增加的依赖相反，在收集密集的地面实况3D结构方面存在根本性的困难，这最终阻碍了对看不见的物体的泛化(a)密集地面实况(b)稀疏地面实况（1×10−5）6179×××电源。具体地，使用固定的有源传感器收集准确且完整的地面实况3D结构通常需要几个小时收集过程甚至需要后续的劳动密集型后处理，以去除异常值，如在收集期间移动通过视场的动态对象[7，10]。这些恶劣的条件在像道路这样动态的地方是不存在的。因此，半监督多视图立体算法（其甚至可以用不完整的地面实况3D结构来训练）对于简化模型在看不见的环境上的泛化是必要在本文中，我们首先探索了一种新的半监督MVS问题，称为基于稀疏地面真值的MVS（SGT-MVS）问题，它假设只有稀疏地面真值3D结构可用于训练。我们首先研究其基本特征，以发现解决SGT-MVS问题的关键方面。具体地，虽然相对缺乏的深度信息不可避免地降低了整体3D重建质量，但是MVS的系统深度推理原理使得MVS网络能够合理地估计非遮挡区域上的深度值，即使具有几个地面实况3D点。然而，深度推理原理从根本上受到给定多视图图像的被遮挡像素和边缘像素的预测困难基于学习的MVS方法能够使用被遮挡像素的附近非遮挡区域的上下文信息和边缘像素的高度区分特征来解决这些困难，因为它们可以直接监督被遮挡区域或边缘上的精确深度值。稀疏地面实况基本上不能保证上下文和高度区分的特征达到这样的水平。根据我们的观察，我们专注于提高准确预测的非遮挡区域的可辨别性，同时将准确的深度值传播到边缘，遮挡和错误的非遮挡区域。我们使用概率图来检测这些错误区域，因为MVS网络由于基本预测困难而无法确定某个深度值。因此，通过像置信图一样对待概率，我们首先根据概率值分离准确预测的区域和错误区域。然后，我们应用名为3D点一致性损失的损失函数，通过回归从对应像素反向投影到实际在3D世界中相遇的3D点来增强准确预测区域上的3D重建性能，其中反向投影意味着从图像平面中的像素到世界帧中的3D点的变换。由于对应的像素可能由于不准确的深度值而被最后，我们提出了这些改进的预测对低置信度区域通过我们的粗到细可靠的深度传播模块。为了在半监督SGT-MVS问题上验证我们的方法，我们通过在原始密集3D结构中随机采样来生成稀疏地面实况。1 10−5和1 10−4的比率。如图1，而原始的密集地面实况3D结构由大约例如，对于每个3D结构，我们的稀疏真实3D结构仅分别由数十和数百个 3D 点组成我们将我们的 SGT-MVSNet与最先进的MVS网络在相同的稀疏基础上进行了比较，并确认我们的方法可以成功地解决SGT-MVS问题。此外，SGT-MVSNet与其他最先进的MVS网络的容量相匹配，尽管我们只使用了数十和数百个地面实况3D点。总而言之，我们的贡献有三个方面：• 首先，我们介绍了一种新的半监督多视角立体问题称为稀疏地面基于真实的MVS（SGT-MVS）问题。• 我们介绍SGT-MVSNet，一个半监督MVS框架，适用于稀疏地面实况，由3D点一致性损失和粗到细的可靠深度传播模块。• 大量的实验证明，我们的方法成功地解决了半监督MVS问题的稀疏地面真相。SGT-MVSNet的重建性能与监督MVS方法相当，即使我们只使用了几个点。2. 相关工作2.1. 基于学习的多视点立体（MVS）最近，基于学习的方法已经成功地应用于MVS重建。SurfaceNet [8]和DeepMVS [5]将图像特征预扭曲到3D体素化空间，并使用3D CNN来估计对象表面。由于这些基于体素的方法的限制，已经提出了基于深度图的方法来处理大规模重建。Yao等人[15]首先提出了一种端到端框架，该框架通过扭曲来自相邻图像的2D图像特征来构造成本此外，他们应用3D CNN来正则化这个成本量并回归深度图。最新的基于学习的MVS算法[6，16，1，17，11]建立在基于深度图的方法上，其使用平面扫描算法[2]从多视图图像计算成本体积，然后通过回归或分类来估计深度图R-MVSNet [16]使用卷积GRU来顺序构建成本卷并减少GPU内存消耗。为了节省内存消耗，Fast-MVSNet [17]使用了一种稀疏到密集的策略，可以细化6180i=1j=1- ---图2：SGT-MVSNet的总体框架。我们的框架主要包括一个特征提取器，金字塔成本体积正则化模块，双预测层，建议的粗到细的可靠深度传播模块与深度回归损失和建议的3D点一致性损失。通过引入可微高斯-牛顿层来生成稀疏深度图。Chen等人[1]提出了一种新的方法，通过在3D空间中以由粗到细的方式细化点云来改进深度预测Att-MVSNet [11]利用注意力模块[4]来提高MVS性能。然而，这些方法高度依赖于密集的地面实况3D结构，尽管它们在收集方面存在困难因此，我们专注于减轻MVS网络对密集地面实况的依赖。2.2. 无监督多视点立体大多数基于学习的MVS方法严重依赖于密集的地面实况深度图。然而，为大规模数据集生成密集深度图是昂贵且耗时的。为了克服这种限制，Tejaset al.[9]使用光度损失和回归损失的组合来训练没有地面实况深度图的MVS网络一些方法[3，18]采用跨视图的深度一致性损失。然而，尽管有前途的方法，易于推广到新的环境中，这些方法是不太有竞争力的监督MVS方法相比。此外，我们的方法是compa-able监督MVS方法，甚至与数十和数百地面真实3D点。2.3. 多视图立体数据集存在用于评价MVS算法的许多数据集。Middlebury数据集[14]是MVS评估的第一个公共基准。它由数百个低分辨率图像与校准相机在受控的实验室环境。ETH3D数据集[13]包括由激光扫描仪捕获的建筑立面模型和3D地面实况点云的高分辨率图像DTU数据集[7]包含大量具有表面点云的真实世界对象的图像，这些图像是使用机械臂收集的。DTU数据集提供了在不同的照明条件下的诗句和良好的纹理场景坦克和寺庙数据集[10]包括高分辨率视频数据和激光扫描仪收集的地面实况点云。然而，大多数这些数据集是通过耗时和劳动密集型的过程收集的，这激发了我们的方法的追求。3. 方法3.1. 问题公式化对于给定的参考帧I，0和源帧I，N，我们的主要目标是从参考视图估计3D结构的密集深度图D与监督MVS问题的唯一区别在于，我们只能使用原始3D结构的稀疏收集的3D点PjM。为了实际使用地面实况3D点进行训练，我们计算参考视图的透视图中的另外，K、R和t分别表示参考视图的固有、旋转和平移参数3.2. 关于SGT-MVS问题的观察一些密集估计任务（如语义分割）需要对每个类进行深入的上下文理解，以在看不见的环境上进行鲁棒估计，这需要大量的像素级注释。另一方面，立体匹配和MVS的基本深度推理机制是为每个像素搜索最佳一致性成本。即使在没有大量基础事实的帮助下，如果编码器能够从给定的多个视图中提取有区别的特征，则估计网络也可以合理地预测参考帧的未被遮挡像素上的深度值。然而，由于被遮挡像素在源帧中仅具有几个对应像素或没有对应像素，因此这些像素可能在光度上与其他视图不一致，并且多视图一致性成本可能不一致61818844××××对于精确的深度值是最佳的。因此，仅利用特征的可辨别性不能容易地解决对遮挡区域除了被遮挡像素问题之外，边缘像素上的错误深度估计也是图像处理中的重要问题。SGT-MVS问题。由于深度值往往在对象的边界处变化很大，因此成本体积应该在边缘像素处急剧变化。因此，这些区域从根本上需要能够区分边缘上的成本体积值的高度区分特征。常规的MVS方法能够解决这些问题，因为直接监督地面实况深度值使得网络能够参考被遮挡像素和边缘像素上的附近未被遮挡像素这种方法在SGT-MVS问题中很少成立，因为稀疏地面实况3D结构几乎不能为这样的像素提供精确的深度值。3.3. 整体管道基于上述观察结果，我们的目标是通过最大化自监督方法中特征的可分辨性并将准确的深度预测传播到根本错误的区域来解决半监督多视图立体为了实现这一目标，我们首先采用一个合适的预测层，以最大限度地利用稀疏地面实况。其次，为了解决退化的3D重建质量，我们设计了3D点一致性损失，以回归从对应像素反向投影的3D点，以实际上在3D世界中相遇。由于这种训练方法容易受到错误像素对应关系的影响，因此我们设置了一个严格的标准来过滤它们。第三，为了解决边缘和遮挡的基本困难，我们构建了粗到细的可靠深度传播模块，该模块利用附近的准确预测来修正错误预测的深度值。我们的SGT-MVSNet的总体框架在图1B中描述。二、3.4. 网络架构我们的特征提取器和成本体积正则化器与最近基于学习的MVS网络共享类似的结构[15，16，1，17]。我们使用8层2D CNN进行特征提取，使用具有10层3DCNN的3级金字塔模块进行成本体积正则化。受Fast-MVSNet [17]的有效成本体积正则化过程的启发，我们在正则化之前将基础成本体积下采样然而，与传统的基于密集地面真值的MVS网络[15，16，1，17]不同，我们构建了包括主预测层和半分辨率辅助预测层的双预测层我们设计这种结构的基础上，我们的经验观察，这是可取的使用上下文信息的纹理-图3：3D点一致性损失的描述。虽然p的估计的对应像素p’具有不准确的深度值，但是我们的3D点一致性损失可以将p的3D点P和P’的P’结合在一起，使得网络可以正确地估计像素p’上的深度值。更少的3D结构这也比在稀缺的地面实况设置中的单个预测层执行得稍好我们使用大小为1 H 1 W 8的正则化成本量进行辅助预测，并上采样到大小为1H1W8的基本成本量进行主预测。请注意，我们的双预测层并不对应于3.2节中讨论的复杂辅助推理结构，因此可区分性污染的风险很低。3.5. 3D点一致性损失虽然MVS网络可以合理地预测给定多视图图像的非遮挡区域上的深度值，但是与基于密集地面实况的MVS网络相比，3D重建结果不可避免地遭受性能因此，即使每个视图的对应像素在理论上源自相同的3D点，但是由于不准确的深度预测，这些像素的反向投影的3D点可能不会在3D世界帧中的相同位置处相遇。这里，反投影意味着从图像平面中的像素到世界帧中的3D点的变换。为了解决这种退化的3D点重建质量问题，我们定义了3D点一致性损失，以使对应像素的反投影3D点回归到实际上在相同的3D坐标处相遇，并最终在3D世界中形成正确的对应关系，如图1B所示。3.第三章。然而，边缘和遮挡上的像素被确定性地投影到其他视图中的附近错误像素此外，如果预测的深度值不准确，则即使未被遮挡的像素也可能与其他视图中的错误像素回归这些不准确的3D点之间的3D世界距离反而可能形成错误的对应关系。为了应对这些挑战，我们需要一个可靠的标准来过滤掉这些潜在的错误对应，并搜索可能在3D世界中匹配的可靠像素。在这种状态下，我们观察到6182Sq∈q∈SKNd（p）k=1(a) 参考视图 (b)深度预测（c）概率图图4：错误预测和相应概率图的可视化。边缘和遮挡倾向于具有低概率值。我们对待的概率图像一个可靠的深度预测的置信度图深度预测可以近似地检测边缘、遮挡和可能潜在地形成错误对应的错误的非遮挡区域，如图12所示。4.因此，我们基于概率图设计具有两个条件的准则：i）像素的概率值应超过某个置信度阈值ε h; ii）3D点之间的距离不应超过某个距离阈值ε w。然后，我们将像素p的3D点一致性损失公式化如下：p′= K′（ R′ R−1（ D（ p）K−1 p− t）+ t′） P= D（ p）K−1p − t图5：深度图的每个粗到细级别中的粗到细可靠深度传播过程的描述。我们更新不确定的深度预测的基础上附近的像素之间的特征相似性。我们通过扩张卷积来扩大范围，以反映深度值的上下文趋势。置信度图也在同一过程中更新。在图4中。（b）. 此外，我们不仅参考周围像素，而且参考更远的像素，以反映附近深度值的上下文趋势对于给定的像素位置p，我们的传播策略是利用具有dl=l的周围邻居Ndk（p）和具有dl = l的周围邻居Ndk（p）（k = 2，… K），以如下修改每个粗到细级别上的深度值D（p）：P′=D（p′）K′−1p′′-t′如果min'ΣHD′（ p）=Kk=1 NDK、Lcon（p）=ǁP−Pǁ2,q∈{p，p}和P−P′23.6. 从粗到细的可靠深度传播C（p），否则（三）遮挡和边缘上的基本误差仍然没有得到解决，因为3D点一致性损失主要集中在增强非遮挡区域上的性能。因此，我们的目标是明确传播准确的预测错误的地区。受概率图上的观察的启发，我们构建了一个称为粗到细可靠深度传播模块的传播模块，该模块通过参考附近具有高概率值的可靠预测来修改不确定的深度，同时保留可靠的预测。此外，考虑到这些错误值通常出现在块级区域而不是单个像素，我们的模块以由粗到细的方式工作，如图所示经验上，我们采用两个额外的扩张邻居（K=3）与d2=3和d3= 6。4. 训练损失我们的训练损失主要包括双预测层的3D点一致性损失和深度回归损失以及粗到细的我们采用平均绝对差表示深度回归损失假设我们有一个地面实况深度图D和一个半尺寸的地图Daux用于参考视图，并且源视图v1和v2是随机采样的源视图。然后，训练损失可以公式化为（一）C（q）>（p）D（q）·wp，q，如果C（p）> εc可靠的深度预测，以及C′（ p）=p，q、C过滤错误匹配的像素。6183Σ1 2Σ×××××××如下所示：损失=p∈p稀疏D（p）−D+λpcl ·v∈{Σv，v}Cref（ p ） >hCv（ p'v ） >hP−Pv2w

下载后可阅读完整内容，剩余1页未读，立即下载